Илон Маск во время беседы с председателем совета директоров Stagwell Марком Пенном сообщил, что разработчики уже исчерпали всю совокупность человеческих знаний для обучения ИИ. По мнению бывшего главного научного сотрудника OpenAI Ильи Суцкевера, индустрия достигла «пика данных», а нехватка обучающих материалов заставит отказаться от сегодняшнего способа разработки моделей.
По мнению Маска, будущее за синтетическими данными — теми, которые генерируют сами модели ИИ. Такие компании, как Microsoft, Meta* (запрещена на территории РФ), OpenAI и Anthropic, уже используют их для обучения флагманских моделей. По оценкам Gartner, 60% данных, используемых в проектах ИИ и аналитики, в 2024 году являлись синтетическими.
Модель Phi-4 от Microsoft обучалась на синтетических данных наряду с реальными, также как и модели Gemma от Google. Компания Anthropic использовала их для разработки одной из своих самых производительных систем, Claude 3.5 Sonnet. А Meta* доработала последнюю серию моделей Llama с помощью данных, созданных искусственным интеллектом.
Обучение на синтетических данных имеет и другие преимущества, например экономию средств. ИИ-стартап Writer утверждает, что его модель Palmyra X 004, созданная с использованием почти полностью синтетических источников, обошлась всего в $700 тыс. Для сравнения, сопоставимая по размеру модель OpenAI оценивалась в $4,6 млн.
При этом, как показывают некоторые исследования, такие данные могут привести к менее «творческому» и более предвзятому в своих выводах ИИ, что в конечном итоге значительно снижает его функциональность.
Недавно Microsoft представила новейшее пополнение семейства генеративных моделей ИИ Phi. Компания утверждает, что модель, получившая название Phi-4, превосходит своих предшественников в нескольких областях, особенно в решении математических задач. Этого удалось добиться благодаря более высокому качеству обучающих данных.