Неформальна дослідницька ініціатива EleutherAI оголосила про публічний реліз Common Pile v0.1 — одного з найбільших на сьогодні наборів відкритих та ліцензованих текстових даних, призначених для навчання штучного інтелекту. Розробка тривала близько двох років у співпраці з Poolside, Hugging Face, Університетом Торонто та низкою інших партнерів. Повідомляє видання TechCrunch.
Загальний обсяг Common Pile становить 8 терабайтів, і він вже був використаний для навчання двох нових моделей: Comma v0.1-1T та Comma v0.1-2T, кожна з яких має 7 мільярдів параметрів. За результатами тестів, ці моделі демонструють порівнянні результати з аналогами, навченими на нелегально зібраних або авторських даних, включно з першою версією LLaMA від Meta.
Цей реліз є прямою відповіддю на зростаючу непрозорість серед ШІ-компаній, які опинилися під тиском через судові позови за використання авторських матеріалів у тренуванні моделей. Як зазначає виконавча директорка EleutherAI Стелла Байдерман, судові процеси не зупинили практику використання неавторизованих даних, але значно знизили відкритість досліджень.
«Компанії більше не діляться подробицями про те, на чому навчають свої моделі. Це шкодить усьому науковому співтовариству», — написала Байдерман у блозі на Hugging Face.
Що входить до Common Pile
Common Pile v0.1 був створений у консультації з юристами й містить:
- понад 300 000 книг з публічного домену, оцифрованих Бібліотекою Конгресу та Internet Archive;
- транскрипції аудіо (за допомогою Whisper — моделі розпізнавання мовлення від OpenAI);
- відкриті наукові публікації, документацію з GitHub, урядові ресурси та інше ліцензоване текстове наповнення.
На відміну від більшості комерційних гравців, EleutherAI прагне довести, що можна досягати високих результатів, не використовуючи незаконні або сумнівні джерела. Команда заявляє, що Common Pile стане основою для ще більшої кількості відкритих моделей, і обіцяє оновлення датасету в майбутньому.
Читайте також новину видання GALERA про те, чому не слід називати ШІ-асистента колегою.