Новости

OpenAI представила новую модель для генерации изображений Images 2.0

OpenAI представила новую модель генерации изображений Images 2.0 для ChatGPT, которая заметно улучшила работу с текстом. Если раньше ИИ-модели часто выдавали бессмысленный набор букв при попытке нарисовать вывеску или меню, то теперь система способна создавать сложные графические макеты с корректной орфографией.

OpenAI

Исторически проблемы с генерацией текста были связаны с архитектурой диффузионных моделей, которые фокусировались на общих визуальных паттернах, игнорируя мелкие детали вроде букв. В OpenAI объяснили успех Images 2.0 внедрением так называемых «мыслительных способностей». Теперь нейросеть может искать информацию в интернете, создавать несколько изображений по одному запросу и самостоятельно проверять их на ошибки.

Обновленная система лучше понимает нелатинские шрифты, включая японский, корейский, хинди и бенгали. Модель способна соблюдать заданные стилистические ограничения, прорисовывать мелкие элементы интерфейса и создавать сложные многопанельные комиксы в разрешении до 2K.

OpenAI

Однако база знаний нейросети ограничена декабрем 2025 года, что может повлиять на точность изображений, связанных с самыми свежими новостями.

Из-за усложнения алгоритмов генерация стала более ресурсоемкой. Создание проработанных изображений теперь занимает несколько минут. Предыдущая модель OpenAI генерировала изображения за несколько десятков секунд.

В ближайшее время OpenAI планирует выпустить API-инструмент gpt-image-2 для сторонних разработчиков. Стоимость будет зависеть от выбранного качества и разрешения итоговых картинок.


Подпишитесь на «Инк» в Telegram. Там мы пишем нескучным языком о самом важном для предпринимателей. Подписаться.