李宏毅机器学习（九）Multi-lingual BERT

news/2025/11/10 6:35:49/文章来源:https://blog.csdn.net/qq_35222729/article/details/119729090

Multi-lingual BERT

输入多种语言来训练BERT

Zero-shot Reading Comprehension

首先模型是在104种语言上进行训练的！
并且以English的QA来training我们的模型，最后在回答问题的时候使用中文！

可以看到如果在104种语言pre-train，然后在Chinese+English上进行fine-tune得到的准确率是最高的！而两者均在Chinese上训练，得到的结果却不是很好！这就是Multi-lingual 的神奇之处！

这里行坐标是在哪个语言上训练，列坐标是在哪个语言上测试！所以下面的都是硬Train的，就是看模型懂不懂语言上的跨度！

其它的证据也有很多，也能证明在一个语言上训练，其它语言上同样有效

Cross-Lingual Alignment？

为什么跨语言模型对齐能够成功？

说明在word embedding上，两个语言的嵌入是相近的！

真的会嵌入到相同的位置吗？

我们通过计算两个词汇的相似度，rank的意思是第几个才是正确的答案！最后取平均！

在不同的语言上进行实验我们的模型，后面的几百几千k是资料数！会发现模型的效果很大程度上依赖于词汇量；但是在控制词汇量之后，会发现有的模型即使词汇量很大，也难以达到像BERT一样的效果！

How alignment happens？

但是为什么模型就能让他们有更加近的vector的距离呢？

Typical answer

第一种解释是两种语言中有一些公用的tokens，比如数字、发音；再比如中文和应为中语言X有相似的tokens

第二种解释
我们将English中的单词转化为fake-english作为输入，这样两者就不存在common Tokens，再去看实现效果！比如红框里面，pre-train、trian和test后结果还是很好的！

这是一个尚待研究的问题

Sounds weird？

我们已经知道的就是两者的token embedding肯定是相近的。这里面肯定有语言信息！

不同语言的平均还是有差异的！

语言的平均用来相加：
我们计算两种语言（平均）的差异，我们的假设是可能一种语言在另一种语言的同一侧！
那么我们用两者之间的差异，加到一种语言上，那么会得到另一种语言！

这确实是有用的，我们加上两倍的，三倍的蓝色的向量后会发现文字全部翻译成了中文！虽然在翻译上是问题的，但是说明语言信息的存在性

下面的例子中常规的测试，只是加入了蓝色的向量，会发现效果会变好！

**GAN里面有相似的**：

先求短发的平均，再求长发的平均，短发加（长发和短发之间的距离）就是本人的长发模样

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/476237.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

[转]详细介绍如何做关联

[转]详细介绍如何做关联

如何在脚本中做关联 (Correlation)当录制脚本时，VuGen会拦截client端（浏览器）与server端（网站服务器）之间的对话，并且通通记录下来，产生脚本。在VuGen的Recording Log中，您可以找到浏…

阅读更多...

zillow房价预测比赛_Kaggle竞赛 —— 房价预测 (House Prices)

zillow房价预测比赛_Kaggle竞赛 —— 房价预测 (House Prices)

这个比赛总的情况就是给你79个特征然后根据这些预测房价 (SalePrice)，这其中既有离散型也有连续性特征，而且存在大量的缺失值。不过好在比赛方提供了data_description.txt这个文件，里面对各个特征的含义进行了描述，理解了其中内容…

阅读更多...

【转】RNN、LSTM、Transformer、BERT简介与区别

【转】RNN、LSTM、Transformer、BERT简介与区别

几者的主要参考文章： https://blog.csdn.net/weixin_41089007/article/details/96474760 RNN与LSTM的区别参考文章： https://blog.csdn.net/hfutdog/article/details/96479716 RNN和LSTM的区别如下： RNN没有细胞状态；LSTM通过细…

阅读更多...

LeetCode 812. 最大三角形面积（坐标面积公式）

LeetCode 812. 最大三角形面积（坐标面积公式）

1. 题目给定包含多个点的集合，从其中取三个点组成三角形，返回能组成的最大三角形的面积。示例: 输入: points [[0,0],[0,1],[1,0],[0,2],[2,0]] 输出: 2 解释: 这五个点如下图所示。组成的橙色三角形是最大的，面积为2。注意: 3 < po…

阅读更多...

孩子感冒发烧怎么办

孩子感冒发烧怎么办

老大感冒发烧三天刚好，老二开始咳嗽鼻塞，孩子们生病忙的就是父母，几天下来，连自己也病了。终于一切恢复常态，想想也该总结一下孩子们生病的经历。 1月1号夜里，老大开始咳嗽，以为是气候干燥&…

阅读更多...

李宏毅机器学习（十）GPT-3

李宏毅机器学习（十）GPT-3

前情提要论文名称： Language Models are Few-shot learners 但是GPT-3的缺点在于，太过巨大！ 它有多大呢？ 原来最大的时候是Turing NLG，有17B，而GPT-3是它的10倍！ 对GPT-3的评价： …

阅读更多...

ipython是免费的吗_IPython技巧

ipython是免费的吗_IPython技巧

IPython是一个python的交互式shell，比python自带的shell好用得多，支持变量自动补全、自动缩进、直接运行shell命令、内置了许多很有用的功能和函数，让我们可以用更高的效率来使用python，同时也是利用Python进行科学计算和交互可视…

阅读更多...

LeetCode 985. 查询后的偶数和

LeetCode 985. 查询后的偶数和

1. 题目给出一个整数数组 A 和一个查询数组 queries。对于第 i 次查询，有 val queries[i][0], index queries[i][1]，我们会把 val 加到 A[index] 上。然后，第 i 次查询的答案是 A 中偶数值的和。 （此处给定的 index quer…

阅读更多...

C#正则表达式判断输入日期格式是否正确

C#正则表达式判断输入日期格式是否正确

/// <summary> /// 是否为日期型字符串 /// </summary> /// <param name"StrSource">日期字符串(2008-05-08)</param> /// <returns></returns> public static bool IsDate(string StrSourc…

阅读更多...

知识图谱论文阅读（八）【转】推荐系统遇上深度学习(二十六)--知识图谱与推荐系统结合之DKN模型原理及实现

知识图谱论文阅读（八）【转】推荐系统遇上深度学习(二十六)--知识图谱与推荐系统结合之DKN模型原理及实现

学习的博客： 推荐系统遇上深度学习(二十六)–知识图谱与推荐系统结合之DKN模型原理及实现知识图谱特征学习的模型分类汇总知识图谱嵌入(KGE)：方法和应用的综述论文： Knowledge Graph Embedding: A Survey of Approaches and Application…

阅读更多...

thinkphp用来做什么项目_thinkphp第1课：使用thinkphp创建一个项目

thinkphp用来做什么项目_thinkphp第1课：使用thinkphp创建一个项目

一、thinkphp第一课：1、在网站根目录下，建立一个项目名称orange；2、在orange目录下，创建一个入口文件index.php：define(APP_DEBUG,true); //开启调试模式require(../TP/ThinkPHP.php);?>3、下载thinkphp核心包并解…

阅读更多...

LeetCode 1005. K 次取反后最大化的数组和

LeetCode 1005. K 次取反后最大化的数组和

1. 题目给定一个整数数组 A，我们只能用以下方法修改该数组： 我们选择某个个索引 i 并将 A[i] 替换为 -A[i]，然后总共重复这个过程 K 次。（我们可以多次选择同一个索引 i。） 以这种方式修改数组后，返回数…

阅读更多...

Server操作Mxd文件详细讲解

Server操作Mxd文件详细讲解

Server操作Mxd文件详细讲解Server发布地图都是基于Mxd去发布的，这点与IMS使用axl文件差不多。一般来说，发布后mxd尽可能不要修改，或者在通过使用arcMap进行编辑后在重新发布。修改mxd会导致地图服务发生变化，因此，相对…

阅读更多...

知识图谱入门知识（五）【转】秒懂词向量Word2Vec的本质

知识图谱入门知识（五）【转】秒懂词向量Word2Vec的本质

博文： 秒懂词向量Word2Vec的本质什么是Word2Vec？ 词性标注：是动词还是名词，样本（x，y）中，x是词语，y是它们的词性 f（x）->y 中的f（…

阅读更多...

af_netlink_2、netlink简介

af_netlink_2、netlink简介

Netlink 是一种特殊的 socket，它是 Linux 所特有的，类似于 BSD 中的AF_ROUTE 但又远比它的功能强大，目前在最新的 Linux 内核(2.6.14)中使用netlink 进行应用与内核通信的应用很多，包括：路由 daemon(NETLINK_ROUTE)&am…

阅读更多...

LeetCode 819. 最常见的单词

LeetCode 819. 最常见的单词

1. 题目给定一个段落 (paragraph) 和一个禁用单词列表 (banned)。返回出现次数最多，同时不在禁用列表中的单词。题目保证至少有一个词不在禁用列表中，而且答案唯一。禁用列表中的单词用小写字母表示，不含标点符号。段落中的单词不区分…

阅读更多...

Java代码优化方案 J2ME内存优化

Java代码优化方案 J2ME内存优化

从几本书上，N个网站上整理的一些JAVA代码优化方案，最近的项目只有1M内存可用，必须很抠门了~J2ME项目更要注意的避免内存溢出 l 不用的对象释放(置空) 如 ： a不为空时 anew object()//这句代码执行时将有两个对象存在于内存中较…

阅读更多...

was 程序jvm_【保家护行航】WAS知识学习分享

was 程序jvm_【保家护行航】WAS知识学习分享

文/王文平保家护行航：航是护航，是保障人真抓实干，持之以恒，切实做好运维保障本职工作，守护农行生产安全的务本崇实；航是领航，是保障人敬业敏学，精益求精，努力提高运维管理…

阅读更多...

LeetCode 824. 山羊拉丁文

LeetCode 824. 山羊拉丁文

1. 题目给定一个由空格分割单词的句子 S。每个单词只包含大写或小写字母。我们要将句子转换为 “Goat Latin”（一种类似于猪拉丁文 - Pig Latin 的虚构语言）。山羊拉丁文的规则如下： 如果单词以元音开头（a, e, i, o, u&am…

阅读更多...

jQuery学习笔记：事件

jQuery学习笔记：事件

一、页面载入1、ready(fn)当DOM载入就绪可以查询及操纵时绑定一个要执行的函数。这是事件模块中最重要的一个函数，因为它可以极大地提高web应用程序的响应速度。简单地说，这个方法纯粹是对向window.load事件注册事件的替代方法。通过使用这个方法&#…

阅读更多...

最新文章