Відкриті дані: як користуватися корпусом
2026-06-24
Проєкт verba створювався з думкою про відкриту науку (Open Science) та практичне використання в сучасних ІТ-проєктах. Ми прагнемо зробити українську народну мудрість легкодоступною для лінгвістичних досліджень, машинного навчання, розробки розважальних чи освітніх додатків.
У цій статті ми розповімо про технічні можливості роботи з корпусом: формати завантаження, роботу з API, специфікацію Croissant та правила цитування.
1. REST API без ключів та обмежень
Для інтеграції корпусу у власні вебсайти чи додатки ми створили публічний REST API. Всі запити виконуються до базового шляху:
https://verbacorpus.org/api/v1
Ключові особливості нашого API:
* Повна публічність: немає потреби реєструватися, отримувати API-ключі чи налаштовувати авторизацію.
* CORS відкритий: ви можете надсилати запити безпосередньо з фронтенду вашого сайту (встановлено заголовок Access-Control-Allow-Origin: *).
* Багатоформатність: API підтримує узгодження вмісту (Content Negotiation). Ви можете обрати формат відповіді за допомогою HTTP-заголовка Accept або параметра ?format=.
Доступні формати даних:
- JSON (
application/json) — стандартний формат обміну даними. - JSONL (
application/x-ndjsonабоapplication/jsonl) — кожний рядок є окремим JSON-об'єктом, що ідеально підходить для потокової обробки великих файлів. - XML (
application/xml) — структурований формат для традиційних XML-процесорів. - CSV (
text/csv) та TSV (text/tab-separated-values) — плоскі табличні формати для відкриття в Excel, Google Sheets, R чи Python (Pandas).
Ознайомитися з повною специфікацією та прикладами запитів ви можете в нашій документації API.
2. Масове завантаження та метадані Croissant
Якщо вам потрібен увесь корпус цілком для локального аналізу або навчання моделей штучного інтелекту, ви можете завантажити повні дампи даних.
- Дампи релізів: у кожному релізі проєкту на GitHub публікуються оновлені файли
corpus.json,corpus.csvтаcorpus.xml. - Специфікація Croissant: для ML-розробників та платформ на кшталт Hugging Face або Google Dataset Search ми інтегрували файл
croissant.json. Це сучасний стандарт опису наборів даних для машинного навчання, який дозволяє автоматично імпортувати корпус verba в інструменти ML-пайплайнів.
3. Подвійна модель ліцензування
Матеріали корпусу мають різний правовий статус, тому ми застосовуємо комбіновану модель:
1. Історичні тексти (1841–1909 рр.): тексти збірок Ількевича, Номиса та Франка перебувають у суспільному надбанні (Public Domain) через закінчення терміну дії авторських прав. Ви можете вільно копіювати, змінювати та поширювати їх із будь-якою метою.
2. Сучасні збірки (1961 та 2009 рр.): оригінальні тексти збірок Бобкової та Млодзинського охороняються авторським правом їхніх видавців/упорядників. Вони включені в корпус суто для некомерційних наукових та освітніх досліджень з обов'язковою атрибуцією джерела в полі sources.
3. Упорядкування та збагачення корпусу: структура бази даних, створене ШІ сучасне написання, тематичне маркування та зв'язки між варіантами поширюються на умовах вільної міжнародної ліцензії Creative Commons Attribution 4.0 (CC BY 4.0). При повторному використанні цих даних обов'язково зазначайте авторство проєкту verba.
4. Як цитувати корпус
Якщо ви використовуєте корпус verba в академічній статті, дисертації чи науковій доповіді, будь ласка, посилайтеся на нас.
Ми підготували файли бібліографічних посилань у форматах BibTeX та CSL-JSON: * Завантажити BibTeX * Завантажити CSL-JSON
(Зверніть увагу: ми плануємо зареєструвати унікальний ідентифікатор DOI для корпусу в майбутніх релізах).
Приклад текстового цитування:
Yemelianov, Dmytro (2026). verba — Ukrainian Proverbs Corpus (v1.0.2). URL: https://verbacorpus.org.
Ідеї для повторного використання
Що можна побудувати на базі даних verba? * Бот у месенджерах: щоденна розсилка «прислів'я дня» за обраною темою. * Віджети для сайтів: динамічний блок із народною мудрістю. * Мовознавчі дослідження: аналіз частоти вживання історичних слів, порівняння діалектних варіацій у Галичині та Наддніпрянщині. * Fine-tuning мовних моделей: навчання моделей краще розуміти український фольклор, метафори та історичні фразеологізми.