verba на Hugging Face: завантаження й використання корпусу
2026-06-24
Корпус verba тепер доступний на Hugging Face — найбільшому хабі наборів даних для машинного навчання та NLP. Це означає, що завантажити всі 48 787 прислів'їв і почати з ними працювати можна буквально одним рядком коду, без реєстрації, ключів чи ручного скачування файлів.
У цій статті — чотири способи дістати корпус (бібліотека datasets, pandas, CLI hf та SQL-запити через DuckDB) і кілька прикладів того, що з ним робити далі.
Що опубліковано
Сторінка набору даних: huggingface.co/datasets/dmytro-yemelianov/verba.
У репозиторії лежать чотири файли:
corpus.csv— канонічний корпус: 48 787 записів, 10 колонок. Це сплитtrain, який автоматично показує переглядач даних і завантажує бібліотекаdatasets.sources.csv— реєстр п'яти джерел (бібліографія).croissant.json— метадані у стандарті MLCommons Croissant для ML-пайплайнів.README.md— повна карта даних (методологія, межі якості, ліцензія).
Набір публічний і поширюється на умовах CC BY 4.0 (упорядкування та збагачення); історичні тексти — у суспільному надбанні. Жодних токенів для читання не потрібно.
1. Бібліотека datasets (Python)
Найпростіший спосіб для дослідників і ML-інженерів:
from datasets import load_dataset
ds = load_dataset("dmytro-yemelianov/verba", split="train")
print(len(ds)) # 48787
print(ds[0]["text"], "→", ds[0]["modern_text"])
# відібрати прислів'я певної теми
work = ds.filter(lambda r: "work_labor" in (r["category"] or ""))
print(len(work))
Для великих обсягів або обмеженої пам'яті вмикайте потокове читання — дані тоді не зберігаються на диск:
ds = load_dataset("dmytro-yemelianov/verba", split="train", streaming=True)
for row in ds.take(5):
print(row["modern_text"])
2. pandas напряму з Hub
Якщо звичніше працювати з таблицями, читайте CSV прямо з хабу через протокол hf:// (потрібен встановлений пакет huggingface_hub):
import pandas as pd
df = pd.read_csv("hf://datasets/dmytro-yemelianov/verba/corpus.csv")
# 10 найчастіших тем
df["category"].str.split(";").explode().value_counts().head(10)
3. CLI hf — локальна копія
Щоб завантажити набір даних на диск (наприклад, для офлайн-обробки чи навчання моделі), скористайтеся офіційним інструментом hf:
# встановлення CLI (один раз)
curl -LsSf https://hf.co/cli/install.sh | bash -s
# увесь репозиторій набору даних у теку ./verba
hf download dmytro-yemelianov/verba --repo-type dataset --local-dir ./verba
# або лише один файл
hf download dmytro-yemelianov/verba corpus.csv --repo-type dataset --local-dir ./verba
4. SQL без завантаження (DuckDB)
Hugging Face автоматично конвертує корпус у формат Parquet, тож можна виконувати аналітичні запити, не качаючи весь файл. Адресу Parquet-файлів підкаже команда:
hf datasets parquet dmytro-yemelianov/verba
А далі — звичайний SQL через DuckDB прямо з CLI:
hf datasets sql "SELECT category, COUNT(*) AS n
FROM read_parquet('https://huggingface.co/api/datasets/dmytro-yemelianov/verba/parquet/default/train/0.parquet')
GROUP BY category ORDER BY n DESC LIMIT 10"
Схема та поля
Кожен рядок — одне прислів'я. Колонки corpus.csv:
| Колонка | Значення |
|---|---|
id |
Стабільний ідентифікатор (pNNNNNN) |
text |
Дослівний текст в оригінальному правописі джерела |
normalized_text |
Ключ для зіставлення (нижній регістр, без пунктуації) |
modern_text |
Сучасний стандартний правопис (згенеровано ШІ) |
keyword |
Лема/гасло (Франко), якщо є |
explanation |
Наукове пояснення (переважно з Франка), очищене |
category |
1–3 теми з 27-темної таксономії, через ;, головна — перша |
sources |
Ключі джерел, через ; |
source_refs |
Покликання в межах джерела, через ; |
variant_group |
Ідентифікатор групи ймовірних діалектних варіантів |
Ліцензія та цитування
- Упорядкування та збагачення (структура, сучасне написання, теми, групи варіантів) — CC BY 4.0.
- Історичні тексти (Ількевич 1841, Номис 1864, Франко 1901) — суспільне надбання.
- Сучасні збірки (Бобкова, Млодзинський 2009) — під авторським правом упорядників; включені для наукового та освітнього використання з атрибуцією в полі
sources.
Як цитувати:
Yemelianov, Dmytro (2026). verba — Ukrainian Proverbs Corpus (v1.0.2). URL: https://verbacorpus.org.
Що далі
- Інші формати, REST API та правила цитування — у статті «Відкриті дані: як користуватися корпусом».
- Повна документація API з прикладами
curl. - Вихідний код і релізи — на GitHub.