Новости

Выяснилось, почему ChatGPT так плохо считает и не «дружит» с математикой

ChatGPT плохо разбирается в математике. И в этом отношении он не уникален среди ИИ. Claude от компании Anthropic не может решить элементарные словесные задачи. Gemini не может понять квадратные уравнения. Тогда как же эти боты могут писать сочинения, а Llama компании Meta* (запрещена на территории РФ) не может решить простые задачи на сложение? Как же эти боты могут писать целые книги, но при этом не могут справиться с арифметикой на уровне начальной школы?

Причиной тому является токенизация. Процесс разделения данных на фрагменты (например разбивка слов на слоги), или токенизация, помогает ИИ кодировать информацию. Но поскольку токенизаторы — модели ИИ, которые выполняют токенизацию, — на самом деле не знают, что такое числа, они могут рассматривать число «380» как одну единицу, но представлять «381» как пару цифр («38» и «1»).

Но токенизация — не единственная причина, по которой математика является слабым местом ИИ. Системы ИИ — это статистические машины. Обученные на большом количестве примеров, они изучают закономерности в этих примерах, чтобы делать предсказания.

Например, при умножении 5,7897 на 1,2832 ChatGPT, просмотрев множество задач на умножение, скорее всего, сделает вывод, что произведение числа, оканчивающегося на 7, и числа, оканчивающегося на 2, будет равно 4. Но со средней частью у него возникнут трудности. ChatGPT дает ответ 742 021 104, тогда как правильный ответ — 742 934 304.

Юнтянь Денг, доцент Университета Ватерлоо, специализирующийся на искусственном интеллекте, в начале этого года провел исследование, в ходе которого проверил способности ChatGPT к умножению. Он и его коллеги обнаружили, что модель GPT-4o с трудом справляется с умножением двух чисел, содержащих четыре цифры каждое (например 3 459 на 5 284).

GPT-4o с трудом справляется с умножением многозначных чисел, достигая точности менее 30% при решении задач типа «четырехзначное на четырехзначное», рассказал Денг. «Многозначное умножение является камнем преткновения для языковых моделей, поскольку ошибка на любом промежуточном этапе может усугубить ситуацию, что приведет к неправильным конечным результатам».

Однако Денг надеется на то, что бот когда-нибудь станет так же хорошо разбираться в числах, как человек. В ходе исследования ученые протестировали o1, «рассуждающую» модель OpenAI, которая недавно появилась в ChatGPT. Модель o1, которая «продумывает» задачи шаг за шагом, прежде чем ответить на них, показала себя гораздо лучше, чем GPT-4o, решив задачи на умножение девятизначных чисел на девятизначные примерно в два раза быстрее.

«Возможно, модель решает задачу способами, отличными от того, как это делаем мы, — говорит Денг. — Это заставляет нас задуматься о внутреннем подходе модели и о том, чем он отличается от человеческого мышления».

Денг считает, что достигнутый прогресс указывает, что по крайней мере некоторые типы математических задач в конечном итоге будут «полностью решены» системами, подобными ChatGPT. «Это вполне определенная задача с известными алгоритмами, — говорит Денг. — Мы уже видим значительные улучшения по сравнению с GPT-4o и o1, так что очевидно, возможности рассуждений расширяются».

Ранее OpenAI объявила о начале внедрения расширенного голосового режима (AVM) для более широкого круга платных клиентов ChatGPT. Аудиофункция, которая делает общение с ChatGPT более естественным, первоначально будет доступна пользователям уровней Plus и Teams.