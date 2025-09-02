Tencent представила свои первые модели для машинного перевода, Hunyuan-MT-7B и Hunyuan-MT-Chimera-7B, которые демонстрируют высочайшую производительность и превосходят многие существующие аналоги, включая Google Переводчик. Компания также опубликовала комплексную методологию обучения, которая может стать стандартом для разработки будущих систем перевода на основе больших языковых моделей (LLM).
Обычные алгоритмы машинного перевода обычно очень плохо справляются с малораспространенными языками и не способны корректно передавать сленг или неологизмы. Модели Hunyuan-MT справляются с этими задачами благодаря пятиэтапной системе обучения, включающей общее и ориентированное на перевод предобучение, дообучение, а также два этапа обучения с подкреплением.
Особое внимание Tencent уделила переводу между мандаринским китайским и языками национальных меньшинств (казахский, уйгурский, монгольский, тибетский). Благодаря целенаправленному сбору данных и оптимизации, Hunyuan-MT значительно превзошла все существующие модели в этой области.
Модель Hunyuan-MT-Chimera-7B представляет собой инновационный подход «от слабого к сильному». Она способна анализировать несколько вариантов перевода от разных систем и на их основе генерировать единый результат, превосходящий по качеству любой из исходных. Это открывает новые возможности для гибридных систем перевода.
На международном соревновании WMT2025 модель от Tencent заняла первое место в 30 из 31 языковой пары. Hunyuan-MT-7B, имея всего 7 млрд параметров, показала результаты, сопоставимые с гораздо более крупными моделями, такими как GPT-4.1 и Gemini-2.5-Pro, а в некоторых случаях и превзошла их.