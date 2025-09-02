Tencent представила свои первые модели для машинного перевода, Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B, которые демонстрируют высочайшую производительность и превосходят многие существующие аналоги, включая Google Переводчик. Компания также опубликовала комплексную методологию обучения, которая может стать стандартом для разработки будущих систем перевода на основе больших языковых моделей (LLM).

Ling App/Unsplash

Обычные алгоритмы машинного перевода обычно очень плохо справляются с малораспространенными языками и не способны корректно передавать сленг или неологизмы. Модели Hunyuan-MT справляются с этими задачами благодаря пятиэтапной системе обучения, включающей общее и ориентированное на перевод предобучение, дообучение, а также два этапа обучения с подкреплением.

Особое внимание Tencent уделила переводу между мандаринским китайским и языками национальных меньшинств (казахский, уйгурский, монгольский, тибетский). Благодаря целенаправленному сбору данных и оптимизации, Hunyuan-MT значительно превзошла все существующие модели в этой области.

Модель Hunyuan-MT-Chimera-7B представляет собой инновационный подход «от слабого к сильному». Она способна анализировать несколько вариантов перевода от разных систем и на их основе генерировать единый результат, превосходящий по качеству любой из исходных. Это открывает новые возможности для гибридных систем перевода.

На международном соревновании WMT2025 модель от Tencent заняла первое место в 30 из 31 языковой пары. Hunyuan-MT-7B, имея всего 7 млрд параметров, показала результаты, сопоставимые с гораздо более крупными моделями, такими как GPT-4.1 и Gemini-2.5-Pro, а в некоторых случаях и превзошла их.