多语言语料库万卷·丝路2.0开源,数据模态全面升级,搭建文化交流互鉴AI桥梁

3月22日,上海人工智能实验室(上海AI实验室)联合新华社新闻信息中心、上海外国语大学、外研在线等,发布全新升级的“万卷·丝路2.0”多语言语料库,通过构建多语言开源数据底座,以人工智能赋能“一带一路”高质量建设。

在“万卷·丝路1.0”的基础上,2.0语料库新增塞尔维亚语匈牙利语捷克语3类语料,涵盖四大数据模态共计1,150万条数据,并运用精细化处理技术使数据质量达到“工业级”标准,实现“开箱即用”。

开源链接:https://opendatalab.com/applyMultilingualCorpus

“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点,更新速览:

1. 语种数量扩充:阿拉伯语俄语韩语越南语泰语5个语种基础上,新增塞尔维亚语匈牙利语捷克语等3个稀缺语料数据。

2. 数据模态、总量全面升级:在纯文本数据基础上,新增图片-文本音频-文本视频-文本特色指令微调SFT四大模态数据,覆盖多模态研究全链路;整体数据总量超过1150万条,音视频时长超过2.6万小时,满足多种研究任务的需求。

3. 超精细数据,多场景适用:经成熟数据生产管线及安全加固,结合过滤算法与当地专家人工精细化地标注质检,“万卷·丝路2.0”  已成为覆盖多模态、多领域的大规模高质量数据集,含20余种细粒度多维分类标签及详细的文本描述,适配文化旅游、商业贸易、科技教育等不同场景,为开发者提供得力助手。

图片

为验证语料库质量与应用前景,上海AI实验室研究团队基于“万卷·丝路2.0”,训练出匈牙利语大模型,通用能力对标国际主流大模型,在本地化特色、安全性与中国关联性上表现出显著优势,可适用于本地生活与中匈合作领域场景。

目前,该模型已衍生出对话平台多语言AI教师助手AI匈中双语词典等创新应用上海AI实验室同时与外研在线库帕思多家机构开展合作,推动“万卷·丝路2.0”在教育、文旅、技术交流领域落地,助力多语言AI生态发展。

一、新增四大模态数据,满足多样化研究需求

今年1月,上海AI实验室开源“万卷·丝路1.0”综合性文本语料库,“万卷·丝路2.0”在1.0的基础上新增了4大模态数据,可满足多领域研究人员的多样化研究需求。

 1. 图片-文本:视觉与语言的桥梁

● 数据构成:

“万卷·丝路2.0”开源的图文数据集包含200万余张图片原始图片总大小362.174G,专注于科技、自然风光、民俗传统等10个高关注度领域且数据分布均匀,采用Alt-text基础描述 + 视觉模型生成扩展描述的双重标注,大幅提升了信息丰富度。为AI大模型行业从业人员和小语种研究人员等专业人士,提供了低成本获取特定语言语料的便利工具。

● 标签分布:

图片

图片-文本数据标签分布

 2. 音频-文本:真实交流的记录

● 数据构成:

“万卷·丝路2.0”构建了涵盖8种语言的大规模语音语料库每种语言均包含200小时超高精度标注数据,并结合环境噪声消除技术有效提高了音质,使数据质量显著高于同类开源数据集,人工校验通过率为98.2%。

数据内容聚焦社会人文娱乐媒体学识教育生活文化四大主题,涵盖真实对话场景,记录自然交流中的语音,更贴近实际生活,为跨语种语音研究者提供了坚实的数据基础。

● 样例展示:

图片

越南语音频-文本样例

 3. 视频-文本:动态叙事场景

● 数据构成:

“万卷·丝路2.0”视频-文本子集涵盖8种语言,总视频片段数量超过800万条原视频总时长超过28,000小时,清洗后仍保留16,000多小时的高质量内容。该数据集包括了8种语言(含匈牙利语/塞尔维亚语等)低资源语种,填补了这些语言在视频数据集中的空白,是多模态研究和低资源语种处理的宝贵资源。

数据类别覆盖广泛,从科技与战略文化电影动画,到旅行人物动物访谈音乐新闻教育体育等多个领域,满足多样化的研究需求,为推动视频领域技术进步与应用创新提供保障。

● 样例展示:

图片

 4. 特色指令微调SFT:避免文化偏见

● 数据构成:

“万卷·丝路2.0”特色指令微调SFT涉及了8种语言,总共提供18.4万条SFT数据,覆盖了本地文化日常对话代码数学科学等领域。

每个语种提供2.3万条,每个语种均有3,000条由当地国家居民设计的关于本地文化的特色问答对数据;其余2万条来自公开数据翻译,并经一套结合规则和模型打分的质检pipeline筛选出高质量SFT数据。

● 样例展示:

图片

捷克语SFT样例

二、多元文化数据基座,驱动全球化AI落地

作为全球首个聚焦"一带一路"研究的大规模、多模态、多领域、高质量的语料库,“万卷·丝路2.0”将有效破除AI全球化进程中"语言孤岛"与"文化断层"的双重壁垒,为AI普惠、跨国合作搭建数字桥梁。

上海AI实验室研究团队认为,通过整合多模态数据与精细化标注技术,“万卷·丝路2.0”首次实现了对低资源语言的系统性覆盖,尤其扩充了塞尔维亚语、匈牙利语、捷克语等语言的高质量语料建设,为文化交流互鉴带来可量化、可迭代的智能新维度。

新华社新闻信息中心上海中心副主任陈侃琪指出,“万卷·丝路2.0” 的发布,将构建互联互通的多元文明交融格局,为更精准广泛的国际传播和更本地化的文化产品提供数据基础。通过“万卷·丝路2.0” 的多维应用,媒体能够更准确地针对不同文化背景下的社会受众呈现更加多元、真实的全球新闻产品。与此同时,“万卷·丝路2.0” 的建设可为语言的保护与传承提供技术赋能,助力维护语言多样性,为构建更加包容、互联的世界贡献中国力量。

外研在线CEO商其坤认为,多语言语料库是AI时代的关键物资,是教学资源开发的基础、语言保护与传承的数字化载体,有助于语言节后分析与教学法优化,有利于促进教育公平与全球化能力。

中旅旅行入境游欧洲市场总监周占峰表示,国内入境旅游日渐升温,但小语种导游从业者较为稀缺。通过“万卷·丝路2.0”,既能完善入境游小语种导游的培训内容,也可以打造导游智能体,为入境游游客提供定制增值服务,切实帮助和促进入境游发展。

万卷·丝路”语料库下载链接:https://opendatalab.com/applyMultilingualCorpus

参赛有奖:上海AI实验室携手库帕思,联合举办的2025·语料数据智能创意大赛火热进行中利用“万卷·丝路2.0”多语言多模态开源数据集,设计满足教育、文旅等行业要求,具备技术创新性与产业落地潜力的数据集构建方案,即可赢取奖励,欢迎大家踊跃报名:https://www.kupasai.com/cicc/#/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/898938.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多语言生成语言模型的少样本学习

摘要 大规模生成语言模型,如GPT-3,是极具竞争力的少样本学习模型。尽管这些模型能够共同表示多种语言,但其训练数据以英语为主,这可能限制了它们的跨语言泛化能力。在本研究中,我们在一个涵盖多种语言的语料库上训练了…

Linux运维篇-系统io调优

目录 磁盘文件系统虚拟文件系统 文件系统的工作原理文件系统 I/OI/O 的分类缓冲与非缓冲 I/O直接与非直接 I/O阻塞与非阻塞 I/O同步与异步 I/O 查看文件系统容量目录项和索引节点缓存 通用块层I/O 栈磁盘性能指标磁盘 I/O 观测进程 I/O 观测I/O瓶颈的排查思路思路一思路二 I/O优…

C语言笔记(鹏哥)上课板书+课件汇总(动态内存管理)--数据结构常用

动态内存管理 引言:将内存升起一段空间存放数据有几种手段 创建变量:存放一个值创建数组:存放多个连续的一组值 以上开辟的内存空间是固定的,创建大了,空间浪费,创建小了,空间不够。并且一旦…

uv - Getting Started 开始使用 [官方文档翻译]

文章目录 uv亮点安装项目脚本工具Python 版本pip 接口了解更多 入门安装 uv安装方法独立安装程序PyPICargoHomebrewWinGetScoopDockerGitHub 发布 升级 uvShell 自动补全卸载 第一次使用 uv特性Python 版本脚本项目工具pip 接口实用工具 获取帮助帮助菜单查看版本故障排除问题在…

HarmonyOS Next~鸿蒙系统安全:构建全方位的防护体系

HarmonyOS Next~鸿蒙系统安全:构建全方位的防护体系 ​ ​ 在数字化飞速发展的当下,操作系统的安全性成为了用户和开发者关注的焦点。华为鸿蒙系统(HarmonyOS)以其独特的架构和强大的安全性能,在众多操作…

本地安装deepseek大模型,并使用 python 调用

首先进入 ollama 官网 https://ollama.com/点击下载 下载完成后所有都是下一步,就可以 点击搜索 Models : https://ollama.com/search然后点击下载: 选择后复制: ollama run deepseek-r1:32b例如: 让它安装完成后&#xff1…

Linux wifi driver 注册和设备探测流程

基础流程 wifi驱动加载(insmod或者modprobe) 设备驱动匹配探测(我们常见的probe函数) 整体流程 驱动加载 → 注册支持设备 → 设备插入 → 匹配驱动 → 初始化硬件 → 创建网络接口 明确两点 两个流程 驱动加载&#xf…

【机器人】复现 GrainGrasp 精细指导的灵巧手抓取

GrainGrasp为每个手指提供细粒度的接触指导,为灵巧手生成精细的抓取策略。 通过单独调整每个手指的接触来实现更稳定的抓取,从而提供了更接近人类能力的抓取指导。 论文地址:GrainGrasp: Dexterous Grasp Generation with Fine-grained Con…

快速部署Samba共享服务器作为k8s后端存储

由于Ceph Squid(v19.2.1)‌不原生支持直接导出 SMB 服务器‌,需通过手动集成 Samba 或其他第三方工具实现‌ 所以直接部署最简单的 安装软件包 apt install samba编辑配置文件 vim /etc/samba/smb.conf在最末尾添加以下 # cp /etc/samba/sm…

【时时三省】(C语言基础)选择结构和条件判断

山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 选择结构和条件判断 在现实生活中需要进行判断和选择的情况是很多的。如:从北京出发上高速公路,到一个岔路口,有两个出口,一个是去上海方向,另一个是沈阳方向。驾车者到此处必须进行判断,根据自己的目的地…

【MYSQL】索引和事务

🥰🥰🥰来都来了,不妨点个关注叭! 👉博客主页:欢迎各位大佬!👈 本期内容讲解 MySQL 中的索引和事务,在学习的过程中,我们需要经常问自己为什么 文章目录 1. 索…

计划管理工具应该具备的能(甘特图)

在当今快节奏的项目管理环境中,高效地规划和跟踪项目进度是至关重要的。甘特图,作为项目管理领域的经典工具,以其直观的时间轴和任务分配方式,深受项目管理者的青睐。 随着数字化时代的到来,甘特图线上编辑器应运而生&…

Redis分布式寻址算法

分布式寻址算法是分布式系统中用于确定数据应该存储在哪个节点的算法。这些算法对于实现高效的数据存取、负载均衡和系统扩展性至关重要。以下是几种常见的分布式寻址算法的解释: 1. Hash 算法 原理:通过哈希函数将数据的键(Key&#xff09…

CSS动画

目录 一、核心概念与语法 1. keyframes 关键帧 2. animation 属性 二、动画调速函数(animation-timing-function) 1. 预设值 2. 贝塞尔曲线 3. 步进函数(steps()) 三、动画控制与交互 1. 暂停与恢复 2. JavaScript 控制…

2025年河北省第二届职业技能大赛网络安全项目 模块 B样题任务书

2025年河北省第二届职业技能大赛网络安全项目 模块 B样题任务书 河北省第二届职业技能大赛网络安全项目-模块 B-夺旗挑战赛(CTF)一、目标系统1二、目标系统2三、目标系统3四、目标系统4 需要真题环境-培训可以私信博主! 河北省第二届职业技能…

钞票准备好了吗?鸿蒙电脑 5 月见

3月20日,在华为 Pura 先锋盛典及鸿蒙智行新品发布会上,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东表示,华为终端全面进入鸿蒙时代,今年5月将推出鸿蒙电脑。 在3月20日的华为Pura先锋盛典及鸿蒙智行新品发布会上…

Java高频面试之集合-15

hello啊,各位观众姥爷们!!!本baby今天来报道了!哈哈哈哈哈嗝🐶 面试官:解决哈希冲突有哪些方法? 1. 开放寻址法(Open Addressing) 核心思想:当哈…

【机器学习】建模流程

1、数据获取 1.1 来源 数据获取是机器学习建模的第一步,常见的数据来源包括数据库、API、网络爬虫等。 数据库是企业内部常见的数据存储方式,例如:MySQL、Oracle等关系型数据库,以及MongoDB等非关系型数据库,它们能够…

GitHub 上的 Khoj 项目:打造你的专属 AI 第二大脑

在信息爆炸的时代,高效管理和利用个人知识变得愈发重要。GitHub 上的 Khoj 项目为我们提供了一个强大的解决方案,它能成为你的 “AI 第二大脑”,帮你轻松整合、搜索和运用知识。今天,就来详细了解下 Khoj。​ Khoj 是什么&#x…

爬虫(requsets)笔记

一、request_基本使用 pip install requests -i https://pypi.douban.com/simple 一个类型六个属性 r.text 获取网站源码 r.encoding 访问或定制编码方式r.url 获取请求的urlr.content 响应的字节类型r.status_code 响应的状态码r.headers 响应的头信息 import requestsur…