Анонимные исследователи создали NeuralOS — нейросетевую платформу, которая симулирует графический интерфейс операционных систем. Она генерирует изображение на экране в ответ на действия пользователя: движения мыши, клики и ввод с клавиатуры. Пока функционал ОС очень ограничен и полон ошибок, но это важный шаг к созданию полностью адаптивных и генеративных нейроинтерфейсов.
Основная проблема при создании симуляторов ОС — это сложность реалистичной отрисовки графики и обработки пользовательских действий. Традиционные подходы требуют огромных вычислительных ресурсов. Кроме того, для обучения ИИ-агентов внутри таких симуляций нужны большие объемы данных о реальных взаимодействиях человека с компьютером.
NeuralOS решает эту задачу с помощью комбинации двух нейросетей. Рекуррентная нейронная сеть (RNN) отслеживает состояние компьютера, а диффузионная модель генерирует изображение рабочего стола. Модель обучали на большом наборе данных, собранных в операционной системе Ubuntu XFCE. Данные включали как случайные действия, так и реалистичные, выполненные ИИ-агентами.
Для обучения потребовалась серьезная подготовка. Разработчики собрали 40 тыс. записей случайных взаимодействий. Каждая запись длилась 30 секунд с частотой 15 кадров в секунду. Чтобы сделать обучение возможным, специальный автоэнкодер сжимал разрешение изображений в 8 раз, с 512×384 до 64×48 пикселей.
Демо-версию NeuralOS можно попробовать по ссылке. Пока она еще очень медленно реагирует на действия пользователя, а при включении рекуррентной нейросети картинка начинает расплываться и превращается в конечном итоге в зашумленное изображение.
В будущем NeuralOS можно будет использовать для обучения ИИ-агентов, которые смогут самостоятельно пользоваться компьютером. Это также мощный инструмент для автоматизированного тестирования ПО и создания новых систем взаимодействия человека и компьютера.
Ранее российские исследователи разработали операционную систему для роботов, которая позволяет им общаться друг с другом на человеческом языке.