СМИ «Вестник Национального бюро экспертизы интеллектуальной собственности»

Зарегистрированное средство массовой информации (свидетельство Роскомнадзора №ФС77-66781 от 08 августа 2016 г.)

Гарвард и Google открывают доступ к миллиону книг для обучения ИИ

13 Декабря 2024
Изображение: Freepik
Уникальный
медиа-проект
Новости
интеллектуальной
собственности
доступным языком
Нас уже
15 000

Гарвардский университет совместно с Google анонсировали масштабный проект по созданию датасета из почти миллиона книг, находящихся в общественном достоянии. Эти книги, многие из которых были отсканированы в рамках проекта Google Books, станут основой для обучения больших языковых моделей (LLM) и других ИИ-разработок.

Инициатива реализуется в рамках программы Institutional Data Initiative, запуск которой был поддержан Microsoft и OpenAI. По словам руководителя этой программы Грега Лепперта, проект поможет уравнять шансы на рынке ИИ, сделав высококачественные данные доступными не только технологическим гигантам, но и стартапам.

В датасет вошли произведения классиков, таких как Диккенс, Данте и Шекспир, а также специализированные материалы, включая учебники по математике на чешском языке и валлийские словари. Объем датасета в пять раз превышает популярный Books3 и планируется его дальнейшее расширение за счет включения оцифрованных газетных статей.

Проект вызвал интерес на фоне споров об использовании авторских произведений для обучения ИИ. Проект стремится продемонстрировать, что качественные данные могут быть получены из открытых источников без нарушения авторских прав, ставя под сомнение необходимость использования защищенного контента.

Хотя сроки и формат публичного релиза датасета пока не раскрыты, проект уже получил широкую поддержку в академических и технологических кругах.

Может быть интересно

Наверх