机器翻译做到头了？Meta开源NLLB翻译模型，支持200种语言互译

机器翻译做到头了？Meta开源NLLB翻译模型，支持200种语言互译

news/2026/1/13 13:32:34/文章来源:https://blog.csdn.net/xixiaoyaoww/article/details/125863367

文 | Alex(凹非寺)
源 | 量子位

这个翻译模型，不仅支持200+语言之间任意两两互译，还是开源的。Meta AI在发布开源大型预训练模型OPT之后，再次发布最新成果NLLB。

NLLB的全称为No Language Left Behind，如果套用某著名电影，可以翻译成“一个语言都不能少”。

这其中，中文分为简体繁体和粤语三种，而除了中英法日语等常用语种外，还包括了许多小众语言。

▲NLLB支持的部分语种截图

由于这些语言之间都可以两两互译，所以咱们能用NLLB把阿斯图里亚语、卢甘达语、乌尔都语等地球上的小众语言直接译成中文了。

一位用粤语的靓仔看到这里直接喜大普奔。

要知道，此前的众多语言模型，要么不支持这么多种语言，要么不能直接完成小众语言之间的两两翻译。

有了NLLB，世界各地的人都有机会以自己的母语访问和分享网络内容；并且无论他们的语言偏好如何，都可以与他人在任意地方沟通。

Meta称，他们计划先将这个技术应用于Facebook和Instagram，以提升这些平台上小众语言的计算机翻译水平。

同时，这也是他们元宇宙计划的一部分。而这项成果正式开源的消息，也受到广受好评。

除了AI业内关心他们如何支持语料稀缺的冷门语言，以及如何在BLEU基准测试上提高7个点以外。也有来自西非的网友认为，语言障碍正是全球互联网用户数量进一步增长的关键。

在Hacker News论坛上，大家也对这个AI议论纷纷。一个前端开发者说，自己的母语就是非常小众的那种，仅有约一百万人使用。

这位开发者此前从未见过对这种语言好用的AI翻译软件，而NLLB给他带来了希望。

不过他认为，连著名的谷歌AI在处理“德-英-德”这样语料丰富的语言翻译时，都常常会出问题，所以他暂且对这个声称能翻译好小众语言的新模型持保留态度。

有网友给这位开发者支招儿，告诉他Meta开放了有支持翻译的儿童书籍，可以去看看翻译效果。

还有人补充道，许多小众语言有许多不同的自然变体，更偏于口语化，而没有特定书面化标准，可以用多种文字书写。所以，如何对小众语言进行标准化是个棘手的问题。

怎么支持语料少的语言

这个掌握了200多种语言的AI模型是怎么训练的？

据Meta AI介绍，他们的AI研究人员主要通过3个方面来解决一些语言语料少的问题。

其一是为语料少的语言自动构建高质量的数据集。研究者建立了一个多对多的多语言数据集Flores-200。专业的真人翻译员和审稿人采用统一的标准，来保质保量地建立这个数据集。

首先，译员们翻译Flores-200的全部句子，并检查；然后，独立审查员小组开始审查翻译质量，根据他们的评估将一些译文送去进行后期编辑。

如果质量评估表明，质量在90%以上，则认为该语言可以被纳入Flores-200中。

最终，Flores-200中包含了842篇不同文章的翻译，共3001个句子。

其二，是对200种语言建模：研究者开发了一个语言识别系统LID（language identification systems），标记出某段文字是用哪种语言写的。

用监督方式训练的LID模型在看似流畅的句子上，可能难以识别处不正确语法和不完整的字符串。

此外，LID很容易学习到没有意义的相关性。所以，在这个LID开发的不同阶段，工程师们都和语言学家们保持着紧密合作来尽量规避这些问题。

为了对小众语言进行较好的建模，研究者开发了一种“学生-教师挖掘法” （Student-Teacher Mining）该方法的内容是：让一个大规模的多语言句子编码器的教师模型，与几个语料少的学生模型相互学习整合。

这样能够在不和多语料语言争夺容量的情况下，丰富小众语言的训练数据，保持了多语言嵌入空间的兼容性，避免从头开始重新训练整个模型。

其三，是将一个人工翻译的评估基准：FLORES的覆盖范围扩大2倍，来评估每一种语言的翻译质量。虽然自动评分是推动该研究的重要工具，但人工评价对于翻译质量的评估也是必不可少的。

通过整合AI自动评分和人工评估，能够广泛量化翻译水平，便于提升整理的翻译质量。

为了让更多程序员和工程师们能够使用或完善NLLB，Meta开放了所有的评估基准（FLORES-200、NLLB-MD、Toxicity-200）、LID模型和训练代码，以及最终的NLLB-200模型和其小型提炼版本等。

Meta AI已将这些内容开源，就在fariseq仓库里面，感兴趣的小伙伴们可以去看看。

论文地址：
https://research.facebook.com/publications/no-language-left-behind/
开源地址：
https://github.com/facebookresearch/fairseq/tree/nllb

后台回复关键词【入群】
加入卖萌屋NLP、CV、搜广推与求职讨论群

[1]https://ai.facebook.com/research/no-language-left-behind/

[2]https://news.ycombinator.com/item?id=32005942

[3]https://twitter.com/MetaAI/status/1544791067567996935

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/477154.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

LintCode 1652. 区间异或 II

LintCode 1652. 区间异或 II

1. 题目给定数组 A（下标从0到n-1，n为数组长度），和一个查询列表。每一项查询包括两个整数 i 和 k。对于每次查询，计算Ai, A(i 1), ..., A(ik-1)的异或值。结果保存在列表中。样例1 输入: A [1,2,3,4] and …

阅读更多...

美团外卖Android平台化的复用实践

美团外卖Android平台化的复用实践

美团外卖平台化复用主要是指多端代码复用，正如美团外卖iOS多端复用的推动、支撑与思考文章所述，多端包含有两层意思：其一是相同业务的多入口，指美团外卖业务需要在美团外卖App（下文简称外卖App）和美团App外…

阅读更多...

智源承认论文抄袭，相关责任人已离职！

智源承认论文抄袭，相关责任人已离职！

文 | 金磊Alex(凹非寺)源 | 量子位“2处属于抄袭，4处引用不规范。”“相关责任人均已主动离职。”“大模型研究中心部门重组。”……一篇名为A Roadmap for Big Model、由百人联合完成的综述报告，因涉嫌抄袭在国内外学术圈引发了不小的关注。对此&#x…

阅读更多...

LintCode 1689. k求和III（递归）

LintCode 1689. k求和III（递归）

1. 题目给出 n 个正整数和整数 k 以及一个目标数字 target. 在 n 个数中找出 k 个奇数或 k 个偶数使得和为target，输出方案数样例 1: 给出 [1,2,3,4], k 2,target 4, 返回 1 输入: [1,2,3,4] 2 4 输出: 1 解释: 只有一个方案：[1,3].样例 2: 给…

阅读更多...

美团扫码付小程序的优化实践

美团扫码付小程序的优化实践

短短几年的时间，微信小程序已经从一颗小小的萌芽成长为参天大树，形成了较大规模的开发者生态系统，尤其是在支付、线下垂直领域潜力巨大。作为领先的生活服务平台，美团的技术团队在小程序领域也进行了很多的探索和实践。像mpvue就…

阅读更多...

谈谈算法岗简历优化与面试技巧！

谈谈算法岗简历优化与面试技巧！

秋招已经开始，许多同学都在为简历和面试发愁。我跟BAT某lab高级算法研究员、担任过多次技术面试官的Sunny师兄聊了聊，跟他请教了简历撰写和面试准备的方法。重磅福利在文末↓Sunny 目前在BAT某lab担任高级算法研究员，有多年的简历筛选和面试经…

阅读更多...

LintCode 386. 最多有k个不同字符的最长子字符串（双指针）

LintCode 386. 最多有k个不同字符的最长子字符串（双指针）

1. 题目给定字符串S，找到最多有k个不同字符的最长子串T。样例 1: 输入: S "eceba" 并且 k 3 输出: 4 解释: T "eceb"样例 2: 输入: S "WORLD" 并且 k 4 输出: 4 解释: T "WORL" 或 "ORLD"挑战 O(n) 时…

阅读更多...

院士发声：科研人也要养家，非升即走只能做短平快的研究

院士发声：科研人也要养家，非升即走只能做短平快的研究

源 | 募格课堂综合自上游新闻、澎湃新闻、百度百科如今，59岁的中国科学院院士马大为，他也感慨科技界的“内卷”，“很多大学和研究单位没有按照科研的规律招PI（Principal Investigator，学术带头人、首席研究员&#xff…

阅读更多...

镣铐之舞：美团安全工程师Black Hat USA演讲

镣铐之舞：美团安全工程师Black Hat USA演讲

背景 2018年8月9日，全球顶级安全会议——Black Hat USA在美国拉斯维加斯的曼德勒海湾会议中心落下了帷幕，这场盛会在全球黑客心中几乎等同于“世界杯”和“奥斯卡”一样的存在。这场一年一度的盛会已经有着21年的悠久历史，也被公认为世界信息…

阅读更多...

LintCode 550. 最常使用的K个单词II（自定义set（可修改数据的优先队列） + map）

LintCode 550. 最常使用的K个单词II（自定义set（可修改数据的优先队列） + map）

1. 题目在实时数据流中找到最常使用的k个单词. 实现TopK类中的三个方法: TopK(k), 构造方法add(word), 增加一个新单词topk(), 得到当前最常使用的k个单词. 样例 1: 输入： TopK(2) add("lint") add("code") add("code") topk() 输…

阅读更多...

Pix2Seq：谷歌大脑提出 CV 任务统一接口！

Pix2Seq：谷歌大脑提出 CV 任务统一接口！

文 | 青豆最近一个大趋势就是将各类任务统一在一个大一统框架下。大规模预训练语言模型已成功打通各类文本任务，使得不同的NLP任务上，都可以用这种统一的sequence生成框架作为基础模型，只需要通过prompt的方式，指导模型生成目标结…

阅读更多...

美团针对Redis Rehash机制的探索和实践

美团针对Redis Rehash机制的探索和实践

背景 Squirrel（松鼠）是美团技术团队基于Redis Cluster打造的缓存系统。经过不断的迭代研发，目前已形成一整套自动化运维体系：涵盖一键运维集群、细粒度的监控、支持自动扩缩容以及热点Key监控等完整的解决方案。同时服务端通过Doc…

阅读更多...

剑指Offer - 面试题59 - II. 队列的最大值（deque模拟单调栈）

剑指Offer - 面试题59 - II. 队列的最大值（deque模拟单调栈）

1. 题目请定义一个队列并实现函数 max_value 得到队列里的最大值，要求函数max_value、push_back 和 pop_front 的时间复杂度都是O(1)。若队列为空，pop_front 和 max_value 需要返回 -1 示例 1： 输入: ["MaxQueue","push…

阅读更多...

行业现状令人失望，工作之后我又回到UC伯克利读博了

行业现状令人失望，工作之后我又回到UC伯克利读博了

文 | SHREYA SHANKAR编 | 小舟、陈萍源 | 机器之心很多同学在面临读博和工作的选择时会犹豫不决，这篇文章也许能给你一点启发。机器学习领域近来受到大模型的冲击，很多小公司表示难以承担大模型的训练费用。但行业中机器学习工程的发展具体是怎样的&…

阅读更多...

前端遇上Go: 静态资源增量更新的新实践

前端遇上Go: 静态资源增量更新的新实践

为什么要做增量更新美团金融的业务在过去的一段时间里发展非常快速。在业务增长的同时，我们也注意到，很多用户的支付环境，其实是在弱网环境中的。大家知道，前端能够服务用户的前提是 JavaScript 和 CSS 等静态资源能够正确加载。…

阅读更多...

剑指Offer - 面试题26. 树的子结构（双重递归）

剑指Offer - 面试题26. 树的子结构（双重递归）

1. 题目输入两棵二叉树A和B，判断B是不是A的子结构。(约定空树不是任意一个树的子结构) B是A的子结构， 即 A中有出现和B相同的结构和节点值。例如: 给定的树 A:3/ \4 5/ \1 2 给定的树 B：4 /1 返回 true，因为 B 与 A 的一…

阅读更多...

给1万帧视频做目标分割，显存占用还不到1.4GB | ECCV2022

给1万帧视频做目标分割，显存占用还不到1.4GB | ECCV2022

文 | 明敏发自凹非寺源 | 量子位 | 公众号 QbitAI咦，怎么好好的藤原千花，突然变成了“高温红色版”？这大紫手，难道是灭霸在世？？如果你以为上面的这些效果只是对物体后期上色了，那还真是被AI给…

阅读更多...

互联网公司数据安全保护新探索

互联网公司数据安全保护新探索

近年来，数据安全形势越发严峻，各种数据安全事件层出不穷。在当前形势下，互联网公司也基本达成了一个共识：虽然无法完全阻止攻击，但底线是敏感数据不能泄漏。也即是说，服务器可以被挂马，但敏感数…

阅读更多...

剑指Offer - 面试题47. 礼物的最大价值（动态规划）

剑指Offer - 面试题47. 礼物的最大价值（动态规划）

1. 题目在一个 m*n 的棋盘的每一格都放有一个礼物，每个礼物都有一定的价值（价值大于 0）。你可以从棋盘的左上角开始拿格子里的礼物，并每次向右或者向下移动一格、直到到达棋盘的右下角。给定一个棋盘及其上面的礼物的价值&#…

阅读更多...

大佬在线复盘：我在训练 DALL·E 时犯过的错

大佬在线复盘：我在训练 DALL·E 时犯过的错

文 | jxyxiangyu在写了一周的业务代码后，沏一杯绿茶，总算可以有时间看看鸽了一个月的素材了。好的，小伙伴们，废话不多说，今天我们将跟随 Boris Dayma 大佬，看看他在训练 DALLE-Mega 时遇到的一系列问题。据…

阅读更多...

最新文章