大模型中的数据

简介:        

       数据是基础大模型的生命线;这些模型的训练数据在很大程度上决定了这些模型可以获得哪些功能。数据的中心性并不是基础大模型所独有的;最近对以数据为中心的人工智能的呼吁表明了管理、理解和记录用于训练机器学习模型的数据的普遍重要性。具体而言,对于基础大模型,目前的做法是使用未指定或不明确的原则选择训练数据,并且训练数据的性质普遍缺乏透明度。我们认为,需要一种替代方法来重新构想围绕基础模型的数据生态系统:我们利用数据可视化和管理方面的工作,为基础模型提出一个数据中心。我们阐述了该提案如何与基础模型的许多相关的以数据为中心的考虑因素相关:选择,策展,文档,访问,可视化和检查,质量评估和法律的监管。

        基础模型标志着一种范式转变,越来越多的大量数据被馈送到这些模型中,以提高适应性能,总体经验法则是数据越多越好。如前所述,对数据策展的关注引起了对基础模型数据生命周期的关注,包括:

       1.  管理如此大规模的数据

       2.  在新模式中整合数据

       3.  对许可证和治理法规的推理-特别是考虑到基础模型培训中使用的大规模网络爬行时,

       4.  理解数据质量

       虽然基础大模型为这些挑战增加了新的和困难的方面,但我们看到这些问题与数据管理和数据分析以及工业ML管道等社区的核心挑战之间存在相似之处。例如,数据管理长期以来一直在研究可扩展的声明性系统,用于数据分析,版本控制,出处和集成解决挑战12。行业拥有应对挑战3的渠道,以管理各种数据许可证并帮助减少数据违规。有一个完整的研究和系统生态系统来应对挑战4,以支持交互式数据分析和可视化虽然这些解决方案不一定是基础模型就绪,但我们认为,更好地管理基础模型数据生命周期的路径应该从这些现有系统中获得灵感。

       在本文中,我们将讨论管理基础模型数据生命周期。我们首先概述了四个必要条件,包括大规模数据管理、对异构数据源的支持、数据治理和数据质量监控。然后,我们设想如何将所有这些需求集成到称为数据中心的整体数据管理解决方案中。数据中心只是一个数据管理工具包,可供私营或公共部门使用,以更好地支持基础模型数据生命周期的交互式管理。

1. 必要的数据管理

       当前基础模型开发的实践通常在从数据管理和数据文档到模型监测和修补的整个生命周期中是临时的。数据管理社区的研究表明,定义良好的数据管理平台通过数据摄取、数据版本控制、数据来源、有效分析和模型监控促进了大规模的ML模型开发.从数据管理社区中汲取灵感,我们在为基础模型构建整体数据管理平台时考虑了核心需求。

(1)  可扩展性。基础模型正在越来越大量的数据上进行训练Wudao 2.0模型正在4.9TB的多模态数据上进行训练。随着大多数最新模型主要在面向公众的数据集上进行训练,预计这一规模将增加。与每天收集并用于工业基础模型管道的PB级业务和个人数据相比,公共数据只占数据的极小部分。因此,对于可以处理多模态基础模型数据集的高度可扩展技术的需求日益增长。

(2)  数据整合。最近使用基础模型的工作表明,利用集成的结构化和非结构化数据可以帮助模型更好地泛化到罕见的概念,并提高事实知识的回忆。尽管最近取得了这些成功,但为基础模型集成数据集仍然是一个挑战。许多作品使用具有结构化实体知识或图像数据的非结构化文本数据。越来越需要跨文本、视频、眼动跟踪和机器人模拟等多种模式集成数据集。我们需要能够在工业规模上应用于多种模式和多个领域(如政府、商业和科学)的数据集成解决方案。

(3)  隐私和治理控制。用于基础模型的训练数据可能存在侵犯数据主体隐私的风险;他们的数据可能在未经其同意的情况下被披露、收集或使用,或者在最初同意的背景之外。同意和使用的问题与基础模型特别相关,因为下游应用并不总是可以预期的。正如合法性中所解释的那样,这些问题与用于基础模型训练的网络抓取数据集的流行情况更加复杂。由于关于如何管理和保护网络抓取的数据仍然存在公开的法律的问题,公共和私营部门的基础模型提供商仍然不清楚使用网络数据的后果。我们需要工具来帮助基础模型提供商适应新兴的法规和指导方针,以确保安全和负责任的数据管理。

(4)  了解数据质量。数据质量影响模型性能;然而,系统地、可扩展地理解训练数据和相关数据子集的工具包或方法仍处于起步阶段。数据创建过程可能很混乱,数据可能包含不同类型的偏差,并由有毒、虚假或重复的信息组成。数据也会不断更新和细化,可能会出现新的实体、分布变化和概念含义变化。此外,一旦部署,基础模型可能会在基础模型提供商需要检测和缓解的关键细粒度数据子群体上呈现不良行为。我们需要能够检测并潜在地缓解不同类型的不良数据的工具包,以交互和迭代的方式提高模型性能。这种工具包还需要适应训练数据的动态性质。

2. 数据中心解决方案

       在数据管理、数据科学和数据分析方面,我们设想了一个基础模型生命周期数据管理解决方案,我们称之为数据中心。虽然存在以ML为重点的数据中心以及更传统的数据管理系统的示例,但它们有下述特点:

1)不将数据集成视为第一类原语,

2)不原生地支持具有模型预测的端到端生命周期,

3)不允许交互驱动的数据管理和细化,其中基础模型提供者可以根据访问控制指南动态地探索和更新可能的数据集。

      我们现在讨论数据中心如何解决这四个迫切需要。

数据规模

为了应对大规模管理的挑战,数据中心将需要标准的数据管理解决方案,例如随着时间的推移存储和维护大规模数据集的基础设施,以及查询、选择和过滤数据集的可扩展接口。中心应该支持异构计算以及云基础设施,以支持不同环境中的可扩展解决方案。

数据整合

中心应该将数据集成作为一等公民。它将需要先进的数据集成解决方案,以允许跨模态和领域合并结构化和非结构化知识。此外,这意味着集线器将需要支持对异构数据集和源的存储和查询。

访问控制

考虑到中心的访问控制,中心将需要支持各种文件,例如,数据集表或数据声明,允许数据管理者反思他们的流程,并对预期用例、潜在偏差和数据集的局限性保持透明。数据中心将需要决定要上传的数据需要哪些文档(例如,数据源和数据描述)以及推荐哪些信息(例如,数据可以用于什么任务)。此外,随着数据集的发展,可能需要更新文档。数据源通常与许可证相关联,中心将需要整合具有不同法律的问题和条件的不同来源此外,某些数据集具有保护数据主体隐私的法律的指南。该中心将需要方法来确保数据集不会释放个人身份信息(PII),匿名或去身份化数据的聚合不会释放PII并且数据主体已经对其数据的传播给予了知情同意。从数据集成中提取想法,该中心应支持各种机制,以便能够有效和安全地维护和分享数据资源。特别是某些公共数据集的合法性(例如,Web转储)仍在决定中,中心迫切需要工具来帮助识别许可违规并减轻任何治理违规的影响。由于某些违规行为可能与模型行为有关,因此我们需要系统来支持更好地理解模型行为,正如我们接下来描述的那样。

数据质量工具

       借鉴数据分析和探索领域,随着用户交互式地选择、过滤和细化用于训练或适应的数据,中心将需要工具来快速理解用户的当前数据集及其对模型行为的影响。这些系统可以通过结合最近在切片上的工作的模型性能,允许端到端的基础模型监控(亚群)发现、相关子集的模型验证和数据评价。最近的工作还提出了使用模型来检测哪些数据亚群对给定输出贡献最大的方法,以进一步帮助模型调试

       一旦用户可以监控模型的行为,特别是在罕见的,但关键的子人群,中心应该为用户提供方法和指导,以维护模型,纠正模型错误。虽然模型修补仍然是一个悬而未决的问题,但的工作首次描述了使用数据工程来维护生产自监督系统,该系统通过更改数据而不是模型来纠正不良行为。我们认为数据中心需要支持用户接口,以便为模型维护注入有针对性的数据修改。

       我们还承认,数据管理和探索不是孤立进行的,并认为数据中心应该支持围绕共享有用指标和分析管道的社区。受Hugging FaceModelHubTableau Public的可视化共享平台等类似社区共享平台的启发,我们希望用户分享有关基础模型训练数据的见解。

开放性问题

       虽然我们描述的数据中心是受现有工具包和解决方案的启发,但我们不认为它们都准备好应对基础模型的挑战。特别是,围绕设计数据中心的一些悬而未决的问题是:我们应该如何支持数据版本化,以便在维护旧版本的同时更新数据集以实现再现性?一旦部署了模型并确定了错误桶,可能需要更新数据集以包含这些错误桶中的更多示例。应该如何收集这些新的、有针对性的例子?·训练中所述,我们想象更少的模型将从头开始训练,更多的模型将被微调。我们如何支持来源或谱系信息以了解原始数据的来源,同时保持受试者隐私?在公共部门,数据中心可能由一个由数据管理者和基础模型提供者组成的开源社区组织和运行。在这种情况下,谁存储数据等问题的答案?谁来为电脑买单如果违反许可证,谁负责?特别模糊。数据中心如何提供正确的工具,以便一旦这些问题的答案得到解决,它们就可以轻松地操作?·什么是正确的数据统计,以提供适当的文件,而不是太昂贵或难以获得?·数据中心如何支持有针对性的数据修改,如增强或数据编程·监控工具包如何更好地检测基础模型何时需要更新,因为动态变化的评估数据性能不佳?我们对数据中心的愿景并不完整或完全详细。然而,我们提出了关于数据挑战的初步想法,以及一个解决方案,以促进思考如何改进基础模型生命周期的数据管理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/188131.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue+SpringBoot解决session跨域问题

做了一个前后端分离,因为前后端的 session id不一致,导致前端请求时,后端的session读取不到对应的值,造成登录问题。 解决方法: SpringBoot项目: 添加一个跨域配置 代码如下: 或者controller使用CrossOrigin Conf…

No matching version found for @babel/compat-data@^7.23.5 处理

npm ERR! notarget No matching version found for babel/compat-data^7.23.5 处理 报错信息 npm WARN ERESOLVE overriding peer dependency npm ERR! code ETARGET npm ERR! notarget No matching version found for babel/compat-data^7.23.5. npm ERR! notarget In most …

【java】编译时bug 项目启动前bug合集

文章目录 1. jdk8中 Optional orElseThrow 编译时报错java: 未报告的异常错误X; 必须对其进行捕获或声明以便抛出2. 启动项目时提示 Error running Application: Command line is too long. Shorten command line for Application or also for Spring Boot default configurati…

算法学习—排序

排序算法 一、选择排序 1.算法简介 选择排序是一个简单直观的排序方法,它的工作原理很简单,首先从未排序序列中找到最大的元素,放到已排序序列的末尾,重复上述步骤,直到所有元素排序完毕。 2.算法描述 1&#xff…

传统算法:使用 Pygame 模块实现冒泡排序

使用 Pygame 模块实现了冒泡排序的动画演示。它首先生成一个包含随机整数的数组,并通过 Pygame 在屏幕上绘制这个数组的条形图。随后,通过冒泡排序算法对数组进行排序,同时使用动画效果可视化每一步的排序过程。在排序的过程中,相邻的元素进行比较,如果顺序不对则交换它们…

万宾科技监测设备,可燃气体监测仪特点一览

万宾科技的监测设备种类繁多,包括可燃气体监测仪、管网水位监测仪、内涝积水监测仪等。其中可燃气体监测仪是万宾科技的核心产品之一,用于监测环境中可燃气体的浓度,适用于对甲烷气体浓度进行实时监测,应用于燃气管网、排水管网、…

从cmd登录mysql

说明 先看看mysql.exe文件在哪个目录下,为了后面的操作方便,可以将该文件所在的路径增加到环境变量path中。 如果不增加到path环境变量中,那么在cmd窗口就要切换到mysql.exe文件所在的目录下执行。 在cmd窗口查看mysql命令的帮助信息 在cm…

Clickhouse集群的搭建方法及搭建过程中报错的解决方法

官方文档 https://clickhouse.com/docs/zh/getting-started/tutorial#cluster-deployment https://clickhouse.com/docs/en/engines/table-engines/special/distributed https://zookeeper.apache.org/ Clickhouse的优点 列式存储数据库,数据压缩; 关系…

报警消除(python)

import warningswarnings.filterwarnings("ignore") # 报警消除

编译原理:设计与实现一个简单词法分析器

设计与实现一个简单词法分析。具体内容是产生一个二元式文本文件,扩展名为dyd,可将Java或C程序(测试程序)分解成为一个一个的单词及类型。 (选做:并查“单词符号与种别对照表”得出其种别,用一数字表示。)…

CSS 多主题切换思路

前言 本篇仅提供多主题切换思路,示例简单且清晰。 实现 步骤一:多主题(颜色)定义 定义根伪类 :root,代码第 2 和 7 行。分别定义了默认和带参数的伪类;定义 CSS 变量,注意变量名需要以两个减号(--&…

adb修改android系统时间 adb shell date必须要root权限

adb Command adb root //需要root权限 adb shell setprop persist.sys.timezone GMT //校准时区 adb shell date MMDDhhmmYY.ss set //修改系统时间这里是GMT格林尼治时间,北京时间得转换一下 8小时 adb shell hwclock -w //同步硬件时间adb shell date 0201030422…

初识Linux:权限

目录 提示:以下指令均在Xshell 7 中进行 Linux 的权限 内核: 查看操作系统版本 查看cpu信息 查看内存信息 外部程序: 用户: 普通用户变为超级用户: su 和 su-的区别: root用户变成普通用户&#…

VsCode中Vue代码格式插件,Vetur、ESLint 、Prettier - Code formatter的介绍使用及相关配置

一、插件的介绍与安装 1、Vetur插件 Vetur是一款Vue代码高亮显示的一款插件,在没有使用此插件前,以 .vue的文件名代码是没有颜色的!!! 安装步骤:在扩展商店中搜索( Vetur )点击安装…

机器人最优控制开源库 Model-based Optimization for Robotics

系列文章目录 文章目录 系列文章目录前言一、开源的库和工具箱1.1 ACADO1.2 CasADi1.3 Control Toolbox1.4 Crocoddyl1.5 Ipopt1.6 Manopt1.7 LexLS1.8 NLOpt1.9 qpOASES1.10 qpSWIFT1.11 Roboptim 二、其他库和工具箱2.1 MUSCOD2.2 OCPID-DAE12.3 SNOPT 前言 机器人&#xff…

【论文阅读】1 SkyChain:一个深度强化学习的动态区块链分片系统

SkyChain 一、文献简介二、引言及重要信息2.1 研究背景2.2 研究目的和意义2.3 文献的创新点 三、研究内容3.1模型3.2自适应分类账协议3.2.1状态块创建3.2.2合并过程3.2.3拆分过程 3.3评价框架3.3.1性能3.3.1.1共识延迟3.3.1.2重新分片延迟3.3.1.3处理事务数3.3.1.4 约束 3.3.2 …

【代码】基于麻雀搜索优化Kmeans图像分割算法

程序名称:基于麻雀搜索优化Kmeans图像分割算法 实现平台:matlab 代码简介:首先使用麻雀搜索优化算法来确定 K-means 算法的初始质心位置,然后进行传统的 K-means 聚类。这样做的目的是为了避免 K-means 算法陷入局部最优解&…

使用Docker安装部署Swagger Editor并远程访问编辑API文档

文章目录 Swagger Editor本地接口文档公网远程访问1. 部署Swagger Editor2. Linux安装Cpolar3. 配置Swagger Editor公网地址4. 远程访问Swagger Editor5. 固定Swagger Editor公网地址 Swagger Editor本地接口文档公网远程访问 Swagger Editor是一个用于编写OpenAPI规范的开源编…

还得是字节出来的,太秀了...

前段时间公司缺人,也面了许多测试,一开始瞄准的就是中级水准,当然也没指望能来大牛,提供的薪资在15-20k这个范围,来面试的人有很多,但是平均水平真的让人很失望。看了简历很多上面都是写有4年工作经验&…

MatrixOne Meetup回顾 | 深圳站

11月11日,MatrixOne 社区在深圳成功举办了第二次 MatrixOne Meetup。活动当天,数十位外部小伙伴到场参与,一同分享云原生数据库相关知识内容。此次活动,我们也邀请了来自深圳素问智能的外部讲师,分享了目前火爆的大模型…