EleutherAI випустила один із найбільших відкритих наборів даних для навчання ШІ

Сергій Красовський09.06.2025

90 1 хвилина читання

EleutherAI випустила відкритий набор даних для навчання ШІ — Джерело: Unsplash

Неформальна дослідницька ініціатива EleutherAI оголосила про публічний реліз Common Pile v0.1 — одного з найбільших на сьогодні наборів відкритих та ліцензованих текстових даних, призначених для навчання штучного інтелекту. Розробка тривала близько двох років у співпраці з Poolside, Hugging Face, Університетом Торонто та низкою інших партнерів. Повідомляє видання TechCrunch.

Загальний обсяг Common Pile становить 8 терабайтів, і він вже був використаний для навчання двох нових моделей: Comma v0.1-1T та Comma v0.1-2T, кожна з яких має 7 мільярдів параметрів. За результатами тестів, ці моделі демонструють порівнянні результати з аналогами, навченими на нелегально зібраних або авторських даних, включно з першою версією LLaMA від Meta.

Цей реліз є прямою відповіддю на зростаючу непрозорість серед ШІ-компаній, які опинилися під тиском через судові позови за використання авторських матеріалів у тренуванні моделей. Як зазначає виконавча директорка EleutherAI Стелла Байдерман, судові процеси не зупинили практику використання неавторизованих даних, але значно знизили відкритість досліджень.

«Компанії більше не діляться подробицями про те, на чому навчають свої моделі. Це шкодить усьому науковому співтовариству», — написала Байдерман у блозі на Hugging Face.

Що входить до Common Pile

Common Pile v0.1 був створений у консультації з юристами й містить:

понад 300 000 книг з публічного домену, оцифрованих Бібліотекою Конгресу та Internet Archive;
транскрипції аудіо (за допомогою Whisper — моделі розпізнавання мовлення від OpenAI);
відкриті наукові публікації, документацію з GitHub, урядові ресурси та інше ліцензоване текстове наповнення.

На відміну від більшості комерційних гравців, EleutherAI прагне довести, що можна досягати високих результатів, не використовуючи незаконні або сумнівні джерела. Команда заявляє, що Common Pile стане основою для ще більшої кількості відкритих моделей, і обіцяє оновлення датасету в майбутньому.

Читайте також новину видання GALERA про те, чому не слід називати ШІ-асистента колегою.

Позначки

Сергій Красовський09.06.2025

90 1 хвилина читання

EleutherAI випустила один із найбільших відкритих наборів даних для навчання ШІ

Що входить до Common Pile

Anthropic може вимагати паспорт для доступу до Claude

Вразливість у старих iPhone: відкриває шлях до джейлбрейку

10 найбільших IT-аутсорсерів України збільшили свій виторг за першу половину 2026 року

Українець створив рейтинг коментаторських перлів з Чемпіонату світу з футболу 2026

Як штучний інтелект трансформує український бізнес у 2026 році

Мінцифри спрощує правила для вітчизняного ринку хмарних послуг

Лауреат Нобелівської премії Джон Джампер залишає Google DeepMind заради Anthropic

Колишні співробітники OpenAI запустили сервіс, який показує, наскільки добре вас «пам’ятає» штучний інтелект

Після блокування Telegram в Індії користувачі масово почали завантажувати VPN-сервіси

Apple представила нові функції iOS 27: ШІ для повсякденних завдань, оновлений Wallet та покращений Maps

Що входить до Common Pile

Український AI Content Detector: виявляє чи створенний текст за допомогою ШІ

Прем’єра кіноальманаху “Міфи: Сучасні адаптації”