Китайский стартап DeepSeek обновил свою языковую модель DeepSeekV3. Обновление размером 700 гигабайт сделало алгоритм умнее и быстрее.
Фото: SCMP
Модель с 685 млрд параметров имеет уникальную архитектуру Mixture-of-Experts, которая активирует только 37 млрд параметров во время выполнения задач. Это позволяет достичь высокой производительности при низком энергопотреблении.
Нейросеть можно запустить даже на персональном устройстве. Например, на Mac Studio с чипом M3 Ultra модель работает со скоростью 20 токенов в секунду. Показатели алгоритма в бенчмарках выросли в среднем на 5-10%. А в математическом тесте AIME новая версия языковой модели опередила предыдущую на 19,8 балла, показав рекордный результат в 59,4.
Принципиальное отличие DeepSeek — открытая лицензия MIT, которая позволяет использовать модель бесплатно в коммерческих целях. В отличие от OpenAI и Anthropic китайский стартап предоставляет полный доступ к весам модели. Это значит, что модифицировать ее под свои нужды может любой желающий.
Ранние тестировщики отмечают значительный прорыв в производительности. Новая модель превосходит Claude Sonnet 3.5 по всем метрикам и является лучшей моделью без «рассуждения» на рынке.