Создатель алгоритма обработки естественного языка на основе ИИ — GPT — выпустил его обновленную, четвертую версию. Продукты на основе нового алгоритма умеют распознавать не только текст, но и изображения.
Что случилось
Компания по разработке технологий на основе машинного обучения OpenAI представила обновленную языковую модель GPT-4. Она может понимать не только текст, но и изображения, описывать и классифицировать их, а также генерировать код по текстовому описанию. По словам разработчиков, обновленная языковая модель способна сдавать тесты и экзамены более чем на 90 баллов из 100 возможных. По словам OpenAI, разница между предыдущей моделью GPT-3.5 и новой «едва уловима», однако становится ощутимо заметной, когда задача требует «подробных инструкций». Новая модель доступна в чат-боте ChatGPT по подписке ChatGPT Plus.
Почему это важно
Новая языковая модель распознает не только текст на изображениях, но и сами изображения. Пока эта функция тестируется ограниченным числом людей, но уже ясно, что она помогает людям с ограниченными возможностями. Например, опцию распознавания изображений тестирует сервис для слабовидящих и незрячих Be My Eyes, сообщает TechCrunch, в формате функции «виртуальный волонтер», которая отвечает на вопросы об отправленных ему изображениях, например о содержимом холодильника, и выдает рецепты в ответ на запрос, какую еду можно из этого приготовить. Разработчики во время трансляции, приуроченной к релизу, показали еще один сценарий применения модели: она создала сайт с работающими кнопками лишь по наброску на бумаге от руки.
Контекст
ChatGPT — имитирующий написанный человеком текст чат-бот, который умеет отвечать на вопросы, логически связанные с предыдущими. OpenAI запустил его в ноябре 2022 года. Это стало масштабным и значительным событием в мире технологических индустрий, воспринявшем чат-бота как поисковую систему следующего поколения и «убийцу Google».
Менее чем через полгода после запуска ChatGPT чат-бот сам успешно сдал выпускные экзамены в юридической и бизнес-школе, а студент из Москвы написал с его помощью диплом. О разработке аналогичных чат-ботов заявили российский IT-гигант «Яндекс» и китайский аналог Google, поисковик Baidu. Сам Google презентовал в начале февраля свой чат-бот Bard по типу, однако из-за его неправильного ответа акции материнской компании Google рухнули.
Microsoft успешно продемонстрировала обновленные поисковик Bing и браузер Edge, использующие модель GPT. Компания активно инвестирует в OpenAI: в январе Microsoft профинансировала стартап на $10 млрд, а позднее объявила о новых многолетних инвестициях в OpenAI на несколько миллиардов долларов в рамках третьего раунда финансирования.
Мнение
Глава компании Сэм Альтман назвал новую модель GPT в Twitter «самой способной» ИИ-моделью, которая, пусть «по-прежнему с недостатками, ограничена», но «кажется более впечатляющей при первом использовании, чем после того как провести с ней больше времени», а также креативнее предыдущих версий, и меньше «галлюцинирует».