Новости

Anthropic представила более дешевую альтернативу Claude Opus 4.8

Anthropic представила Claude Sonnet 5 — новую версию модели среднего уровня в линейке компании, рассчитанную на автономное выполнение сложных задач. По словам разработчиков, система может самостоятельно планировать работу, использовать браузеры и терминалы, а также доводить до конца процессы, для которых еще несколько месяцев назад требовались более мощные и дорогие модели.

Brecht Corbeel, Unsplash.

В Anthropic называют Sonnet 5 самой автономной моделью семейства Sonnet. Она умеет разбивать задачу на этапы, выбирать внешние инструменты, исправлять ошибки по ходу работы и проверять результат без отдельной команды пользователя.

Запуск Claude Sonnet 5 отражает общий сдвиг в индустрии искусственного интеллекта. Разработчики все чаще выпускают агентные системы, которые не ограничиваются ответами на запросы, а могут самостоятельно планировать и выполнять многоэтапную работу.

Сам по себе агентный режим постепенно перестает быть отличительной чертой ИИ-моделей. На первый план выходят стоимость, стабильность и способность системы выполнять задачи без постоянного контроля со стороны человека.

Sonnet 5 оказалась дешевле Opus 4.8

По утверждению Anthropic, Claude Sonnet 5 приблизилась по возможностям к более мощной Opus 4.8, но обходится разработчикам заметно дешевле.

Claude Sonnet 5 стала моделью по умолчанию для пользователей бесплатной версии Claude и подписчиков Pro, а также появилась в тарифах Max, Team и Enterprise, Claude Code и на платформе для разработчиков. До 31 августа ее использование через API стоит $2 за миллион входных и $10 за миллион выходных токенов. Затем тариф вырастет до $3 и $15 соответственно.

По действующим базовым API-тарифам стартовая цена Sonnet 5 ниже, чем у Opus 4.8 и GPT-5.5. С Gemini 3.1 Pro сравнение зависит от типа токенов. Входные токены стоят одинаково, а выходные у Sonnet 5 дешевле. Gemini 3.5 Flash при этом остается более доступной моделью. Сравнение остается условным, поскольку новый токенизатор Sonnet 5 может увеличивать число токенов для одного и того же текста.

По сравнению с Claude Sonnet 4.6, вышедшей в феврале, новая версия лучше справляется с рассуждениями, программированием, использованием инструментов и профессиональными задачами, требующими анализа информации.

В тесте SWE-bench Pro, оценивающем агентное программирование, Sonnet 5 набрала 63,2%. Для сравнения, Opus 4.8 получила 69,2%, а Sonnet 4.6 — 58,1%. В тесте GDPval-AA v2 на выполнение профессиональных задач новая модель немного обошла Opus 4.8.

Anthropic по-прежнему рекомендует Opus 4.8 для задач, где важна максимальная точность. Sonnet 5 компания предлагает как более экономичный вариант, который во многих сценариях приближается к флагманской модели по качеству.

Помимо этого, Sonnet 5 лучше справляется с продолжительными сценариями, требующими нескольких последовательных действий. По данным Anthropic, модель чаще доводит такие задачи до конца и может самостоятельно проверять полученный результат.

В качестве примера Anthropic привела рабочий сценарий Zapier, в котором Sonnet 5 самостоятельно изменила уровни клиентских аккаунтов в Salesforce и разослала корпоративным контактам объявление о запуске продукта.

По словам старшего инженера Zapier Дэниела Шепарда, предыдущие модели часто останавливались на середине такого процесса, тогда как Sonnet 5 прошла его от начала до конца. По его оценке, это делает модель более подходящей для повседневной автоматизации.

Sonnet 5 стала безопаснее и реже ошибалась

Anthropic также сообщила, что Sonnet 5 стала безопаснее при работе в агентном режиме. Модель реже совершает нежелательные действия, лучше распознает вредоносные запросы и успешнее противостоит атакам с внедрением инструкций.

Компания также зафиксировала снижение числа галлюцинаций и случаев, когда модель без достаточных оснований соглашалась с пользователем.

При этом по некоторым показателям безопасности Sonnet 5 пока уступает Opus 4.8 и Mythos Preview. Одновременно модель заметно слабее систем семейства Opus в выполнении потенциально опасных задач в сфере кибербезопасности, что снижает риск ее вредоносного использования.

Сооснователь Lovable Фабиан Хедин отметил, что Sonnet 5 последовательно и корректно отказывается выполнять небезопасные запросы.

По его словам, для компании, которая дает инструменты миллионам пользователей, способность модели вовремя отказаться от опасного действия не менее важна, чем умение создавать рабочие решения.


Подпишитесь на «Инк» в Telegram. Там мы пишем нескучным языком о самом важном для предпринимателей. Подписаться.