Новости

OpenAI представила o1 — модель, которая может сама себя проверять. Она в разы круче GPT-4o

Компания OpenAI, занимающаяся разработкой ChatGPT, объявила о выпуске своего нового продукта — генеративная модель искусственного интеллекта под кодовым названием Strawberry, официально названная OpenAI o1, сообщает TechCrunch.

Если быть более точным, то o1 — это семейство моделей. Две из них теперь доступны в ChatGPT и через API OpenAI: o1-preview и o1-mini, меньшая, более эффективная модель, предназначенная для генерации кода. Чтобы увидеть o1 в ChatGPT, нужно быть подписчиком ChatGPT Plus или Team. Корпоративные и образовательные пользователи получат доступ в начале следующей недели.

На данный момент возможности чат-бота o1 ограничены. В отличие от GPT-4o, o1 пока не может просматривать веб-страницы или анализировать файлы. У модели есть функции анализа изображений, но они пока отключены в ожидании дополнительного тестирования.  Кроме того, o1 имеет ограничения по скорости работы: в настоящее время недельные лимиты составляют 30 сообщений для o1-preview и 50 для o1-mini.

По словам источника, еще одним минусом является цена o1: в API стоимость o1-preview составляет $15 за 1 млн входных токенов и $60 за 1 млн выходных токенов. Это в 3 раза дороже по сравнению с GPT-4o для ввода и в 4 раза дороже для вывода.

«Токены» — это биты необработанных данных; 1 млн эквивалентен примерно 750 тыс. слов. OpenAI заявляет, что планирует предоставить доступ к o1-mini всем бесплатным пользователям ChatGPT, но пока не назначила дату релиза.

OpenAI o1 избегает некоторых «подводных камней» в рассуждениях, которые обычно «ставят подножку» генеративным моделям ИИ, потому что он может эффективно проверять факты, уделяя больше времени рассмотрению всех частей вопроса.

По мнению OpenAI, o1 качественно отличается от других генеративных моделей ИИ благодаря своей способности «думать», прежде чем отвечать на запросы.

Когда o1 дается дополнительное время на «обдумывание», он может решать задачу комплексно — планировать наперед и выполнять ряд действий в течение длительного периода времени, что помогает модели прийти к ответу.

Благодаря этому o1 хорошо подходит для задач, требующих совокупности результатов множества подзадач, таких как обнаружение привилегированных писем в почтовом ящике адвоката или «мозговой штурм» маркетинговой стратегии продукта.

В серии постов на сайте X Ноам Браун, научный сотрудник OpenAI, сообщил, что o1 обучается с помощью «обучения с подкреплением». По его словам, это учит систему «думать», прежде чем ответить, через частную цепочку размышлений, поощряя o1 за правильные ответы и наказывая за неправильные.

Браун упомянул о том, что OpenAI использовала новый алгоритм оптимизации и набор обучающих данных, содержащий данные о рассуждениях и научную литературу, специально разработанную для задач рассуждения.

«Чем дольше o1 думает, тем лучше у него получается», — сказал он. По словам человека, который получил доступ к o1 — Пабло Арредондо, вице-президента Thomson Reuters, — o1 лучше, чем предыдущие модели OpenAI (например, GPT-4o), справляется с такими задачами, как анализ юридических записок и поиск решений задач в логических играх LSAT.

«Мы увидели, что она справляется с более существенным, многогранным анализом, — сказал Арредондо. — Наше автоматизированное тестирование также показало, что он справляется с широким спектром простых задач».

По данным OpenAI, на отборочном экзамене Международной математической олимпиады (IMO), соревнования по математике среди старшеклассников, o1 правильно решил 83% задач, в то время как GPT-4o — только 13%.

Это не так впечатляет, если учесть, что недавний ИИ Google DeepMind получил серебряную медаль в эквиваленте реального конкурса IMO. OpenAI также утверждает, что o1 достиг 89-го процентиля среди участников — лучше, чем флагманская система DeepMind AlphaCode 2, — в раундах онлайн-конкурса по программированию, известного как Codeforces.

По словам OpenAI, o1 должен лучше справляться с задачами по анализу данных, науке и кодированию. GitHub, протестировавший o1 вместе со своим помощником по кодированию GitHub Copilot, сообщает, что модель хорошо справляется с оптимизацией алгоритмов и кода приложений. И, согласно бенчмаркам OpenAI, o1 превосходит GPT-4o в многоязычных навыках, особенно в таких языках, как арабский и корейский.

Итан Моллик, профессор менеджмента в Уортоне, написал свои впечатления от o1 после месячного использования в своем личном блоге. По его словам, o1 отлично справился со сложным кроссвордом, получив все правильные ответы.

OpenAI o1 может работать медленнее, чем другие модели, в зависимости от запроса. По словам Арредондо, на ответы на некоторые вопросы у o1 может уходить более 10 секунд. Учитывая непредсказуемую природу генеративных моделей ИИ, у o1, вероятно, есть и другие недостатки и ограничения.

Например, Браун признался, что o1 время от времени «спотыкается» в играх типа «крестики-нолики». В техническом документе OpenAI заявила, что, по отзывам тестеровщиков, o1 склонен галлюцинировать, то есть уверенно выдумывать, чаще, чем GPT-4o, и реже признается, когда не знает ответа на вопрос. «Ошибки и галлюцинации все еще случаются с o1, — пишет Моллик в своем посте. — Он по-прежнему не безупречен».

Также отмечается, что OpenAI — далеко не единственный поставщик ИИ, исследующий подобные методы рассуждений для повышения фактичности моделей. Исследователи Google DeepMind недавно опубликовали исследование, показывающее, что если предоставить моделям больше вычислительного времени и рекомендаций по выполнению запросов по мере их поступления, то производительность этих моделей можно значительно повысить без каких-либо дополнительных настроек.

Иллюстрируя ожесточенность конкуренции, OpenAI заявила, что решила не показывать необработанные «цепочки мыслей» o1 в ChatGPT отчасти из-за «конкурентного преимущества». Вместо этого компания предпочла показать «сгенерированные моделью обобщения» цепочек.

Если предположить, что конкуренты вскоре последуют их примеру с аналогичными моделями, то настоящим испытанием для компании будет сделать o1 широко доступным — и более дешевым.

После этого станет видно, как быстро OpenAI сможет выпускать обновленные версии o1. По словам компании, она намерена экспериментировать с моделями o1, которые рассуждают часами, днями или даже неделями, чтобы еще больше расширить их возможности.

Ранее сообщалось, что новая социальная сеть, созданная дуэтом докторов наук из Оксфорда, работает над приложением Vybe, в которое инвестировал OpenAI. Приложение позволит добавлять людей на фото более запоминающимся и веселым способом. Оно доступно для скачивания на iOS и Android.