Компания OpenAI заключила соглашение с Reddit об использовании данных сайта социальных новостей для обучения моделей искусственного интеллекта. Компания сообщила, что партнерство с Reddit предоставит ей доступ к «структурированному и уникальному контенту в реальном времени» — например сообщениям и ответам.
Контент Reddit будет включен в ChatGPT — разговорный ИИ OpenAI, и компании будут работать вместе над созданием новых функций на базе ИИ для пользователей и модераторов Reddit. Это позволит инструментам и моделям OpenAI «лучше понимать и демонстрировать» контент.
«Reddit будет опираться на платформу моделей ИИ OpenAI, чтобы воплотить в жизнь свое мощное видение, — говорится в сообщении OpenAI. — Использование LLM, ML и AI позволит Reddit улучшить пользовательский опыт для всех».
У OpenAI есть несколько подобных лицензионных сделок с поставщиками контента — от библиотек медиафайлов до новостных издательств. Особенность этой сделки заключается в том, что Сэм Альтман, генеральный директор OpenAI, владеет 8,7% акций Reddit, а это делает его третьим по величине акционером. Когда-то он был членом совета директоров компании.
OpenAI заявила в своем пресс-релизе, что, хотя Альтман остается акционером Reddit, партнерство «было возглавлено главным операционным директором OpenAI Брэдом Лайткэпом и одобрено независимым советом директоров OpenAI».
Reddit делает соглашения о лицензировании данных все более важной частью своей стратегии роста, поскольку она ориентируется на рынок в качестве публичной компании. В объявлении о проведении IPO Reddit указал, что у него есть контрактные соглашения о лицензировании своих данных с клиентами, включая Google, на общую сумму более $200 млн.
В своем первом отчете о доходах в качестве публичной компании Reddit сообщила о 450-процентном росте доходов, не связанных с рекламой, в основном за счет этих соглашений. После объявления о сделке с OpenAI акции Reddit выросли на 11% на расширенных торгах.
«Парадокс, который я вижу, заключается в том, что по мере того как все больше контента в интернете пишут машины, все больше внимания уделяется контенту, который исходит от реальных людей, — сказал генеральный директор Reddit Стив Хаффман. — А у нас есть почти два десятилетия подлинных разговоров».
Платформа Reddit насчитывает более 1 млрд сообщений и более 16 млрд комментариев, число которых растет с каждым днем благодаря сотням миллионов активных пользователей. Однако компания может столкнуться с противодействием со стороны пользователей, обеспокоенных тем, как она монетизирует их данные.
Stack Overflow, форум вопросов и ответов для разработчиков программного обеспечения, недавно заключил соглашение с OpenAI о предоставлении данных для обучения последней модели. В знак протеста некоторые пользователи удалили свои ответы на вопросы в сообществе, получившие наивысший рейтинг. Но Stack Overflow восстановил удаленные посты и забанил этих пользователей, заявив, что они не соблюдали условия предоставления услуг.
Reddit уже высказывал свое недовольство одной попыткой предоставить пользователям Reddit больший контроль над их собственными данными. Стартап Vana, построенный на блокчейне, пытается запустить DAO (Digital Autonomous Organization), чтобы позволить пользователям Reddit объединять свои данные и вместе решать, как эти данные будут использоваться. Reddit запретил сабреддит Vana, посвященный обсуждению DAO, и обвинил компанию в «эксплуатации» контроля за экспортом данных.
Ранее издание Financial Times заключило сделку с OpenAI, разработчиком ChatGPT, в рамках которой контент издания будет использован для обучения систем искусственного интеллекта. Сумма контракта, который стал последним соглашением между OpenAI и новостными издательствами, не разглашается. По условиям сделки, пользователи ChatGPT будут получать краткое изложение и цитаты из публикаций FT, а также ссылки на статьи в ответ на соответствующие запросы.