Гарвард и Google открывают доступ к миллиону книг для обучения ИИ
Гарвардский университет совместно с Google анонсировали масштабный проект по созданию датасета из почти миллиона книг, находящихся в общественном достоянии. Эти книги, многие из которых были отсканированы в рамках проекта Google Books, станут основой для обучения больших языковых моделей (LLM) и других ИИ-разработок.
Инициатива реализуется в рамках программы Institutional Data Initiative, запуск которой был поддержан Microsoft и OpenAI. По словам руководителя этой программы Грега Лепперта, проект поможет уравнять шансы на рынке ИИ, сделав высококачественные данные доступными не только технологическим гигантам, но и стартапам.
В датасет вошли произведения классиков, таких как Диккенс, Данте и Шекспир, а также специализированные материалы, включая учебники по математике на чешском языке и валлийские словари. Объем датасета в пять раз превышает популярный Books3 и планируется его дальнейшее расширение за счет включения оцифрованных газетных статей.
Проект вызвал интерес на фоне споров об использовании авторских произведений для обучения ИИ. Проект стремится продемонстрировать, что качественные данные могут быть получены из открытых источников без нарушения авторских прав, ставя под сомнение необходимость использования защищенного контента.
Хотя сроки и формат публичного релиза датасета пока не раскрыты, проект уже получил широкую поддержку в академических и технологических кругах.