Новости 25 марта

DeepSeek обновил свою модель V3 — теперь это лучшая нейросеть, не использующая «рассуждение»

Китайский стартап DeepSeek обновил свою языковую модель DeepSeekV3. Обновление размером 700 гигабайт сделало алгоритм умнее и быстрее.

Модель с 685 млрд параметров имеет уникальную архитектуру Mixture-of-Experts, которая активирует только 37 млрд параметров во время выполнения задач. Это позволяет достичь высокой производительности при низком энергопотреблении.

Нейросеть можно запустить даже на персональном устройстве. Например, на Mac Studio с чипом M³ Ultra модель работает со скоростью 20 токенов в секунду. Показатели алгоритма в бенчмарках выросли в среднем на 5−10%. А в математическом тесте AIME новая версия языковой модели опередила предыдущую на 19,8 балла, показав рекордный результат в 59,4.

Принципиальное отличие DeepSeek — открытая лицензия MIT, которая позволяет использовать модель бесплатно в коммерческих целях. В отличие от OpenAI и Anthropic китайский стартап предоставляет полный доступ к весам модели. Это значит, что модифицировать ее под свои нужды может любой желающий.

Ранние тестировщики отмечают значительный прорыв в производительности. Новая модель превосходит Claude Sonnet 3.5 по всем метрикам и является лучшей моделью без «рассуждения» на рынке.

Темы

2025 ИИ технологии