Китайская компания DeepSeek опубликовала данные о расходах на обучение своей ИИ-модели R1. Процесс обошелся в $294 тыс. (почти ¥2,1 млн или около 24,5 млн руб.). Информация появилась в статье в журнале Nature. На это обратил внимание Reuters. Это первое упоминание подобных данных от компании.
Unsplash
В статье, где основатель DeepSeek Лян Вэньфэн указан как соавтор, уточняется, что для обучения модели использовались 512 чипов Nvidia H800. Процесс занял 80 часов. Ранее, в январской версии статьи, такие детали отсутствовали, отмечает Reuters. Компания также впервые признала использование чипов A100, которые применялись на подготовительных этапах. После этого основное обучение проводилось на H800.
Генеральный директор американской OpenAI Сэм Альтман в 2023 году заявлял, что обучение базовых моделей его компании обходится «гораздо дороже» $100 млн, хотя точные цифры не раскрывались.
DeepSeek для обучения своих моделей использует метод дистилляции — техники, когда одна модель учится у другой, что снижает затраты. Однако некоторые заявления DeepSeek о стоимости разработки и используемых технологиях подверглись сомнению со стороны американских компаний и официальных лиц.
Ускорители H800 были разработаны Nvidia для китайского рынка после того, как в октябре 2022 года США запретили компании экспортировать в Китай более мощные решения H100 и A100. В июне в США заявили, что DeepSeek имеет доступ к «большим объемам» устройств H100, закупленных после введения экспортного контроля. Nvidia опровергла это утверждение, сообщив, что DeepSeek использовала законно приобретенные чипы H800, а не H100.