Сотрудники«Яндекса» совместно с учеными из НИУ ВШЭ, MIT, KAUST и ISTA разработали революционный метод быстрого сжатия больших языковых моделей без потери качества. Новая технология, получившая название HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS), позволяет запускать сложные нейросети на обычных ноутбуках и даже смартфонах вместо дорогостоящих серверов с мощными GPU.
Фото: Freepik
Раньше для использования больших языковых моделей требовалась квантизация на дорогих серверах, занимающая от нескольких часов до недель. Теперь этот процесс можно выполнить на обычном устройстве за считанные минуты. Метод особенно эффективен при работе с гигантскими моделями, такими как DeepSeek-R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые ранее не помещались даже на специализированных AI-серверах.
HIGGS не требует дополнительных данных для обучения и сложной оптимизации параметров. Эксперименты подтвердили, что этот метод превосходит существующие технологии квантизации, включая NF4 и HQQ, по соотношению качества к размеру модели. Технологию уже успешно протестировали на моделях Llama 3 и Qwen2.5.
Ранее команда Qwen (Alibaba) представила нейросеть QwQ-32B, которая в тестах достигает показателей DeepSeek-R1, имея в 20 раз меньше параметров. Достичь такого результата исследователям удалось в том числе при помощи новой технологии сжатия.