← Блог

П'ять зібрань: звідки прислів'я

2026-06-24

Корпус української народної мудрості verba унікальний тим, що не створювався з нуля. Він є великим пареміографічним зводом, який об'єднує та систематизує напрацювання попередніх поколінь дослідників.

До нашого корпусу увійшли п'ять знакових зібрань українських прислів'їв та приказок, створених упродовж останніх 185 років. Кожне з них відображає свою епоху, регіональні особливості мови та тогочасні стандарти правопису.

Розгляньмо кожне джерело детальніше.


1. Григорій Ількевич — «Галицькі приповідки і загадки» (1841)

Прикладом зі збірки є колоритний вислів: Прислів'я №48787«Ѣхала Хима з Єрусалима, во̂зок скрегоче, Хима ся регоче.» (у сучасній графіці: «Їхала Хима з Єрусалима, візок скреготить, Хима ся регоче.»).

Картка прислів'я


2. Матвій Номис — «Українські приказки, прислів'я і таке інше» (1864)

Приклад зі збірки: Прислів'я №1«По парі пізнати, чим серце кипить.».

Картка прислів'я


3. Іван Франко — «Галицько-руські народні приповідки» (1901–1910)

Приклад з коментарем Франка: Прислів'я №126«"А ви з віхті?" - "А здуло би ті!"» (Франко пояснює це як передразнення: діалектне «з віхті» вжито замість «звідки», на що у відповідь звучить жартівливе прокляття). Інший приклад: Прислів'я №5000«Верхове галузя вітри ломлят.» (у сучасному варіанті: «Верхове гілля вітри ломлять.»).

Картка прислів'я


4. В. Бобкова (ред. М. Рильський) — «Українські народні прислів'я та приказки» (1961)


5. Валерій Млодзинський — «Практичний російсько-український словник приказок» (2009)


Про межі технологій: розпізнавання (OCR) та AI-розмітка

Оцифрування історичних праць — складний технічний процес. Працюючи з корпусом verba, важливо розуміти особливості підготовки даних: 1. Якість розпізнавання тексту (OCR): Матеріали XIX століття оцифровувалися за допомогою сучасних інструментів OCR (Tesseract). Для найдавніших сканів, зокрема збірки Номиса (1864), точність розпізнавання символів становить близько 75–80%. Через це в оригінальних текстах можуть зрідка траплятися помилки сканування або друкарські огріхи оригіналу. 2. Сучасна адаптація та теми: Для полегшення пошуку ми додали поле «Сучасне написання» та тематичні мітки за допомогою великих мовних моделей штучного інтелекту. Оскільки це автоматична генерація, точність сучасної адаптації оцінюється у 95%, а точність тематичної класифікації — близько 85%. Найнадійнішою є перша (основна) тема у списку.

Ми свідомо зберегли оригінальний правопис джерел як першооснову корпусу, а сучасну версію та теми використовуємо як зручний пошуковий місток для користувача.