OpenAI представила новую модель генерации изображений Images 2.0 для ChatGPT, которая заметно улучшила работу с текстом. Если раньше ИИ-модели часто выдавали бессмысленный набор букв при попытке нарисовать вывеску или меню, то теперь система способна создавать сложные графические макеты с корректной орфографией.
OpenAI
Исторически проблемы с генерацией текста были связаны с архитектурой диффузионных моделей, которые фокусировались на общих визуальных паттернах, игнорируя мелкие детали вроде букв. В OpenAI объяснили успех Images 2.0 внедрением так называемых «мыслительных способностей». Теперь нейросеть может искать информацию в интернете, создавать несколько изображений по одному запросу и самостоятельно проверять их на ошибки.
Обновленная система лучше понимает нелатинские шрифты, включая японский, корейский, хинди и бенгали. Модель способна соблюдать заданные стилистические ограничения, прорисовывать мелкие элементы интерфейса и создавать сложные многопанельные комиксы в разрешении до 2K.
OpenAI
Однако база знаний нейросети ограничена декабрем 2025 года, что может повлиять на точность изображений, связанных с самыми свежими новостями.
Из-за усложнения алгоритмов генерация стала более ресурсоемкой. Создание проработанных изображений теперь занимает несколько минут. Предыдущая модель OpenAI генерировала изображения за несколько десятков секунд.
В ближайшее время OpenAI планирует выпустить API-инструмент gpt-image-2 для сторонних разработчиков. Стоимость будет зависеть от выбранного качества и разрешения итоговых картинок.
Подпишитесь на «Инк» в Telegram. Там мы пишем нескучным языком о самом важном для предпринимателей. Подписаться.