Microsoft Research представила новую систему под названием Knowledge Base-Augmented Language Models (KBLaM), которая более эффективно интегрирует внешние знания в языковые модели. В отличие от существующих подходов, таких как генерация с использованием результатов поиск (RAG), KBLaM не требует модификации моделей и не использует отдельные системы поиска. Вместо этого она преобразует знания в векторные пары и внедряет их непосредственно в архитектуру модели, используя технологию «прямоугольного внимания».
Фото: Freepik
Традиционные системы RAG сталкиваются с проблемой квадратичного масштабирования из-за механизма самовнимания. Когда в контекст добавляются 1 тыс. токенов из базы знаний, модель должна обработать 1 млн пар токенов, а при 10 тыс. токенах — уже 100 млн взаимодействий. KBLaM обходит эту проблему: при обработке запроса алгоритм может обращаться ко всем токенам знаний, но сами эти токены не взаимодействуют друг с другом. В результате при росте базы знаний вычислительная мощность увеличивается линейно. В результате даже один графический процессор может обрабатывать более 200 тыс. токенов.
Тесты показывают многообещающие результаты. При работе с примерно 200 элементами знаний KBLaM лучше традиционных моделей избегает «галлюцинаций» и отказывается отвечать на вопросы, на которые она не знает фактически верного ответа. Работа системы благодаря новой методике также оказывается более прозрачной, поскольку может связывать знания с конкретными токенами. Данные Microsoft показывают, что KBLaM примерно в 800 раз быстрее RAG.
Методика работает с несколькими популярными моделями, включая Llama 3 от Meta (организация признана экстремистской и запрещена в РФ) и Phi-3 от Microsoft. Исследователи подчеркивают, что KBLaM еще не готова к широкому использованию. Хотя она хорошо справляется с простыми сценариями вопросов и ответов, ей все еще нужна доработка для более сложных задач, требующих рассуждения.