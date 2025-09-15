Компания Google выпустила VaultGemma, крупнейшую на сегодняшний день (1 млрд параметров) открытую языковую модель, обученную с использованием дифференциальной приватности.

fabio/Unsplash

Большинство современных языковых моделей могут «запоминать» и воспроизводить конфиденциальную информацию из обучающих данных. Методика дифференциальной приватности (DP) добавляет в процесс обучения математически откалиброванный «шум», который предотвращает запоминание чувствительной информации, но снижает производительность и увеличивает затраты на вычисления.

Новое исследование Google, проведенное совместно с DeepMind, позволило вывести «законы масштабирования» для DP, которые помогают найти оптимальный баланс между вычислительными ресурсами, уровнем приватности и полезностью модели. Руководствуясь этими законами, и была создана VaultGemma.

VaultGemma, основанная на архитектуре Gemma 2, была обучена с гарантией приватности на уровне последовательности токенов. Это означает, что если какая-либо информация содержится только в одной последовательности обучающих данных, модель ее не запомнит. Тесты показали, что VaultGemma не демонстрирует обнаруживаемого запоминания обучающих данных.

С точки зрения производительности, модель сравнима с не-приватными моделями примерно пятилетней давности, такими как GPT-2. Хотя разрыв в полезности все еще существует, Google считает, что его можно систематически сокращать. Выпуская веса VaultGemma в открытый доступ на Hugging Face и Kaggle, компания надеется ускорить разработку нового поколения приватных и безопасных ИИ-систем.