Используя мультимодальную генеративную языковую модель ESM3, команда ученых разработала и синтезировала новый яркий флуоресцентный белок с генетической последовательностью, значительно отличающейся от любых известных веществ этого типа. Таким образом им удалось создать имитацию 500 млн лет эволюции.
Этот подход предлагает новаторский метод «поиска» обширного ландшафта потенциальных белков, расширяя понимание веществ, образовавшихся естественным путем, и позволяя создавать новые белки для применения в медицине, восстановлении окружающей среды и во многих других областях.
ESM3 может рассуждать о последовательности, структуре и функции белка, представляя каждый из них посредством алфавитов дискретных токенов, которые могут быть объединены в генеративной языковой модели. Эта стратегия отличается от предыдущих применений языковых моделей, которые масштабировались только для последовательностей белка.
Обучающие данные для ESM3 состоят из 771 млрд уникальных токенов, созданных из 3,15 млрд последовательностей белков, 236 млн структур белков и 539 млн белков с аннотациями функций. ESM3 может обучать до 98 млрд параметров.
Модель теперь доступна в публичной бета-версии через API, что позволяет ученым проектировать белки программно или через интерактивные браузерные приложения. Исследователи могут использовать API EvolutionaryScale Forge через бесплатный академический уровень доступа или с помощью кода и веса открытой модели.
Большие языковые модели уже показали в ходе эксперимента лучшие результаты, чем эксперты в области нейронаук. Научные исследования усложняются из-за стремительного увеличения объема опубликованной литературы. Людям становится сложно обрабатывать и анализировать такое количество информации, чтобы делать точные прогнозы.