Новости Сегодня 12:26

Anthropic представила более дешевую альтернативу Claude Opus 4.8

Anthropic представила Claude Sonnet 5 — новую версию модели среднего уровня в линейке компании, рассчитанную на автономное выполнение сложных задач. По словам разработчиков, система может самостоятельно планировать работу, использовать браузеры и терминалы, а также доводить до конца процессы, для которых еще несколько месяцев назад требовались более мощные и дорогие модели.

В Anthropic называют Sonnet 5 самой автономной моделью семейства Sonnet. Она умеет разбивать задачу на этапы, выбирать внешние инструменты, исправлять ошибки по ходу работы и проверять результат без отдельной команды пользователя.

Запуск Claude Sonnet 5 отражает общий сдвиг в индустрии искусственного интеллекта. Разработчики все чаще выпускают агентные системы, которые не ограничиваются ответами на запросы, а могут самостоятельно планировать и выполнять многоэтапную работу.

Сам по себе агентный режим постепенно перестает быть отличительной чертой ИИ-моделей. На первый план выходят стоимость, стабильность и способность системы выполнять задачи без постоянного контроля со стороны человека.

Sonnet 5 оказалась дешевле Opus 4.8

По утверждению Anthropic, Claude Sonnet 5 приблизилась по возможностям к более мощной Opus 4.8, но обходится разработчикам заметно дешевле.

Claude Sonnet 5 стала моделью по умолчанию для пользователей бесплатной версии Claude и подписчиков Pro, а также появилась в тарифах Max, Team и Enterprise, Claude Code и на платформе для разработчиков. До 31 августа ее использование через API стоит $2 за миллион входных и $10 за миллион выходных токенов. Затем тариф вырастет до $3 и $15 соответственно.

По действующим базовым API-тарифам стартовая цена Sonnet 5 ниже, чем у Opus 4.8 и GPT-5.5. С Gemini 3.1 Pro сравнение зависит от типа токенов. Входные токены стоят одинаково, а выходные у Sonnet 5 дешевле. Gemini 3.5 Flash при этом остается более доступной моделью. Сравнение остается условным, поскольку новый токенизатор Sonnet 5 может увеличивать число токенов для одного и того же текста.

По сравнению с Claude Sonnet 4.6, вышедшей в феврале, новая версия лучше справляется с рассуждениями, программированием, использованием инструментов и профессиональными задачами, требующими анализа информации.

В тесте SWE-bench Pro, оценивающем агентное программирование, Sonnet 5 набрала 63,2%. Для сравнения, Opus 4.8 получила 69,2%, а Sonnet 4.6 — 58,1%. В тесте GDPval-AA v2 на выполнение профессиональных задач новая модель немного обошла Opus 4.8.

Anthropic по-прежнему рекомендует Opus 4.8 для задач, где важна максимальная точность. Sonnet 5 компания предлагает как более экономичный вариант, который во многих сценариях приближается к флагманской модели по качеству.

Помимо этого, Sonnet 5 лучше справляется с продолжительными сценариями, требующими нескольких последовательных действий. По данным Anthropic, модель чаще доводит такие задачи до конца и может самостоятельно проверять полученный результат.

В качестве примера Anthropic привела рабочий сценарий Zapier, в котором Sonnet 5 самостоятельно изменила уровни клиентских аккаунтов в Salesforce и разослала корпоративным контактам объявление о запуске продукта.

По словам старшего инженера Zapier Дэниела Шепарда, предыдущие модели часто останавливались на середине такого процесса, тогда как Sonnet 5 прошла его от начала до конца. По его оценке, это делает модель более подходящей для повседневной автоматизации.