Японский стартап Sakana AI совместно с исследователями из Университета Британской Колумбии разработал систему искусственного интеллекта Darwin-Gödel Machine (DGM). Эта система способна «эволюционировать», улучшая свои слабые стороны. Первые результаты выглядят многообещающе, хотя стоимость работы модели оказалась слишком высокой. DGM черпает вдохновение из биологической эволюции.
В основе DGM лежит итеративный процесс. ИИ-агент переписывает собственный код на Python для создания новых версий самого себя. Каждая новая версия может обладать различными инструментами, рабочими процессами или стратегиями. Эти варианты оцениваются на нескольких этапах на бенчмарках, таких как SWE-bench и Polyglot, которые проверяют агентов на реальных задачах программирования. Лучшие агенты сохраняются в архиве, становясь основой для будущих итераций.
Такой подход, известный как «поиск с открытым концом», создает своего рода эволюционное древо. Он также помогает избегать локальных оптимумов — лучших решений конкретной задачи, не применимых для других подобных проблем, — позволяя системе исследовать менее перспективные варианты, которые позже могут оказаться полезными. В ходе тестирования производительность DGM на бенчмарке SWE-bench выросла с 20% до 50% после нескольких «витков эволюции». На многоязычном бенчмарке Polyglot производительность нейросети улучшилась с 14,2% до 30,7% — в этом тесте DGM превзошла многих агентов с открытым исходным кодом.
Несмотря на значительные улучшения, максимальный результат DGM в 50% на SWE-bench все еще немного уступает лучшему агенту с открытым исходным кодом OpenHands CodeAct v2.1 (51%). Некоторые частные системы показали еще лучшие результаты. Важно, что система самостоятельно разработала несколько ключевых функций: новые инструменты редактирования, шаг проверки исправлений, способность оценивать несколько решений и память об ошибках для избежания их повторения.
Однако эксплуатация DGM обходится недешево. Один 80-итерационный прогон на SWE-bench занял две недели, а затраты на использование API превысили $22 тыс. Пока базовые модели не станут значительно эффективнее, практическое применение DGM останется ограниченным. Исследователи также отмечают риски, связанные с самомодификацией кода, такие как непредсказуемое поведение. Для управления им используются песочницы — полигоны для испытаний созданных ИИ устройств. Также вводят строгие ограничения на модификации и устанавливают полную отслеживаемость изменений.