Ученый из испанского Университета Страны Басков (UPV) и программист из Facebook в двух разных исследованиях доказали, что нейросети способны самостоятельно обучаться переводу на иностранные языки, пишет журнал Science. Теперь, если компьютеру дать много книг на китайском и арабском языках, которые не будут дублироваться, то алгоритм сможет сам научиться переводу.
В двух работах использовался метод машиного обучения без учителя, в котором алгоритмам предлагалось создать двуязычные словари без помощи человека. Это решение основано на том, что языки сильно похожи по тому, как слова группируются друг с другом. Так, слова, обозначающие «стол» и «стул» во всех языках часто используются вместе. Поэтому, если компьютер распределяет эти совместные появления слов в форме большого дорожного атласа со словами вместо городов, то «карты» для разных языков будут напоминать друг друга, однако в них будут разные «названия». Затем машина определит, как лучше всего наложить один «атлас» с другим, и создаст двуязычный словарь.
Алгоритмы, предложенные в исследованиях, также могут переводить тексты на уровне предложений. Для этого используются методы обратного перевода и шумоподавления. В рамках обратного перевода предложение грубо переводится с одного языка на другой, а затем — на язык оригинала. Если итоговое предложение не идентично оригинальному, то нейросети настраивают перевод таким образом, чтобы в следующий раз перевод был точнее. Метод шумоподавления добавляет в предложение «шум» (изменяет порядок слов или удаляет некоторые из них) и пытается перевести предложение на язык оригинала. Вместе эти методы обучают нейросети структуре языка.
Однако предложенные методы несколько различаются. Так, система из UPV, предложенная программистом Микелем Артексте, чаще пользуется методом обратного перевода во время обучения. А вторая система, которую описал программист из Facebook Гийом Лампль, добавляет еще один шаг к переводу. Обе системы, перед переводом предложения кодируют его в более абстрактное представление, а лишь затем переводят. Однако система, предложенная в Facebook проверяет, чтобы «промежуточный язык» стал полностью абстрактным. По словам авторов двух исследований, объединив усилия, они смогут улучшить результаты своих работ.
В переводе текста с английского на французский, который был составлен из набора в почти 30 млн предложений, оба алгоритма набрали по 15 баллов во время автоматической оценки качества машинного перевода (BLEU) при переводе в обоих направлениях. У Google Translate 40 баллов за тест, но технология переводчика обучается под контролем. Специалисты по переводу набирают в таком тесте более 50 баллов. Авторы утверждают, что результаты систем можно улучшить, добавив при обучении несколько тысяч параллельных предложений.
Большинство систем на основе машинного обучения тренируются под наблюдением человека: компьютер делает предположение, узнает правильный ответ, а затем корректирует процесс. Эта система хорошо работает, когда компьютер нужно обучить переводу между, например, французским и английским языками, поскольку на них языках написано множество документов. Однако такая модель работает хуже для менее популярных языков, а также для пар, в которых мало одинаковых текстов.
Подписывайтесь на наш канал в Telegram!