“弱智吧”才是人类面对AI的最后一道堡垒

在 AI 的研究领域中,语言模型的训练数据选择一直是一个关键问题。传统的智慧告诉我们,高质量的数据集应该是由专家精心挑选和校对的文本组成,以确保模型学习到的语言是规范、准确、有文化内涵的。

然而,最近的一项研究颠覆了这一观点,让整个AI界都大跌眼镜——弱智吧的数据竟然在中科院的在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分,成为了最佳的中文AI训练数据源之一,跑分超过百科、知乎、豆瓣、小红书等平台。

弱智吧段子集合了各种以冷笑话,谐音梗,词意混用等为基础构造的中文特色逻辑陷阱,用来训练中文 AI 的确是个好材料,我们也先乐一下。

我买了一斤藕,为什么半斤都是空的?

午餐肉,我可以晚上吃吗?

我想配个6000多的电脑,大概要多少钱?

香菇掉厕所了还能叫香菇吗?

玉皇大帝住的是平流层还是对流层?

变形金刚买保险是买车险还是人险?

陨石为什么每次都能精准砸到陨石坑?

为什么岳飞让岳母给他刺而不是让自己母亲给刺?

既然台上一分钟,台下十年功,那为什么不直接在台上练功?

为什么两个字是三个字?因为四个字也是三个字。

生鱼片是死鱼片。

等红灯是在等绿灯。

救火是在灭火。

这听起来是不是有些诙谐?这些数据的特点通常是非正式、包含大量网络用语、俚语、甚至是错别字和语法错误。这样的数据源,按理说,应该是AI训练中需要避免的“噪音”。

这项研究起初为解决中文大模型训练中的诸多问题

  1. 中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景。
  2. 不少数据集是用AI生成的,质量难以保证,容易出现事实性错误
  3. 即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题

中科院的研究者们在对多种中文数据集进行深入分析和比较后,发现弱智吧数据在多样性、覆盖面以及反映真实语言使用情况等方面表现出色。在8项不同的语言模型测试中,包括语义理解、情感分析、自然语言生成等,以弱智吧数据为基础训练出的模型性能竟然领先于其他传统认为更为“高质量”的数据集。

当然,这并不意味着我们可以完全放弃对数据质量的追求。相反,这一发现提醒我们,在构建AI系统时,应该更加注重数据的多样性和代表性,同时也要关注数据的质量。未来的AI训练可能会采用更加多元化的数据源,结合专家知识进行筛选和优化,以达到最佳的训练效果。

总之,弱智吧成为最佳中文AI训练数据的事实,不仅为我们提供了一个关于AI训练数据选择的新视角,也为AI的发展和应用打开了新的可能性。在这个充满惊喜的AI时代,我们期待着更多这样颠覆性的研究,引领我们走向一个更加智能的未来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/802227.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Java】Java中类的初始化顺序(静态方法,静态块,非静态块,最后有流程图)

📝个人主页:哈__ 期待您的关注 在日常使用Java的时候,我们都接触过new这个关键字,那你是否知道在我们的对象真正创建出来之前都做了哪些事情呢? 实际上要去判断一个类的初始化的顺序,需要分一下情况&…

String 和 StringBuffer、StringBuilder 的区别是什么

不可变性: String类是不可变的,即一旦创建了String对象,就不能修改它的值。每次对String对象的操作都会创建一个新的String对象,导致内存开销较大。 StringBuffer和StringBuilder类是可变的,它们允许修改已有的字符串…

Bean的默认名称

1.使用spring的注解 Component、Repository、Service、Controller 等注解去把一个类配置为bean时,如果不指定bean的名称,那么bean的名称的默认规则是: ①类名的首字母小写,例如:类名称 UserDao ,那么默认的…

hadoop中hdfs的fsimage文件与edits文件

hadoop中hdfs的fsimage文件与edits文件的作用 首先,我们抛出fsimage和edits文件的功能描述。 Fsimage文件: HDFS文件系统元数据的一个永久性的检查点,其中包含HDFS文件系统的 所有目录和文件inode的序列化信息。 Edits文件:存放HDFS文件系统的所有更…

C++笔记:STL容器库的使用

前置: 对于stl容器库,我只做了一些常用的笔记,关于更详细的使用可以参考:https://cppreference.com/https://cppreference.com/ 一.string--字符串 对于C中string字符串会比C语言的字符数组使用起来会顺手许多。 命名空间:std 关于…

二分最大值最小化-力扣-打家劫舍4

沿街有一排连续的房屋。每间房屋内都藏有一定的现金。现在有一位小偷计划从这些房屋中窃取现金。 由于相邻的房屋装有相互连通的防盗系统,所以小偷 不会窃取相邻的房屋 。 小偷的 窃取能力 定义为他在窃取过程中能从单间房屋中窃取的 最大金额 。 给你一个整数数…

蓝桥杯备考随手记: 二分查找

二分查找(Binary Search)是一种在有序数组中查找目标值的算法,也称为折半查找。它通过将目标值与数组的中间元素进行比较,来确定目标值在数组的哪一部分,然后将搜索范围缩小一半,再次比较,直到找…

使用串口给ESP8266发送AT指令无反应解决

解决方法:重新烧录固件 设置PC机波特率 设置PC机上的端口波特率和flash下载工具中的波特率一致,否则flash下载工具会一直提示串口连接失败。我这里将PC机上的串口波特率设置为115200,然后flash下载工具波特率也设置为115200 Windows系统上…

电脑远程控制esp32上的LED

1、思路整理 首先esp32需要连接上wifi 然后创建udp socket 接受udp数据 最后解析数据,控制LED 2、micropython代码实现 import network from socket import * from machine import Pin p2Pin(2,Pin.OUT)def do_connect(): #连接wifi wlan network.WLAN(network.…

芒果YOLOv8改进组合157:动态标签分配ATSS+新颖高效AsDDet检测头组合改进,共同助力VisDrone涨点1.8%,小目标高效涨点

💡本篇内容:【芒果YOLOv8改进ATSS标签分配策略|第三集】芒果YOLOv8改进组合157:动态标签分配ATSS+新颖高效AsDDet检测头组合改进,共同助力VisDrone涨点1.8%,小目标高效涨点 💡🚀🚀🚀本博客 标签分配策略ATSS改进+ 新颖高效AsDDet检测头组合改进,适用于 YOLOv8 …

超详细解读Transformer框架

Transformer是由谷歌大脑2017年在论文《Attention is All You Need》中提出的一种序列到序列(Seq2Seq)模型。自提出伊始,该模型便在NLP和CV界大杀四方,多次达到SOTA效果。NLP领域中,我们所熟知的BERT和GPT就是从Transformer中衍生出来的预训练…

使用Ollama在本地运行AI大模型gemma

1.下载: https://github.com/ollama/ollama/releases 2.配置环境变量 我的电脑-右键-属性-系统-高级系统设置-环境变量-【系统环境变量】新建 变量名:OLLAMA_MODELS (固定变量名) 变量值:E:\Ollama\Lib &#xff0…

iOS 开发中上传 IPA 文件的方法(无需 Mac 电脑)

引言 在 iOS 开发中,将 IPA 文件上传到苹果开发者中心是一个重要的步骤。通常情况下,我们需要使用 Mac 电脑上的 Xcode 或 Application Loader 工具来完成这个任务。然而,如果你没有 Mac 电脑,也没有关系,本文将介绍一…

Linux系统部署搭建AI私人知识库助手教程

前言 本篇文章教你如何搭建本地的私有大语言模型,和向量画数据库,实现一个本地的私有AI知识问答客服系统。需要用到的技术是开源项目由docker,fastgpt、one-api,开源LLM大模型,vllm或者ollama。 docker 是一款开源的应用容器引擎,用来快速构建服务。fastgpt 基于LLM大模型…

express里面的鉴权及express-session中间件的使用总结

了解 HTTP 协议的无状态性是进一步学习 Session 认证机制的必要前提。http 协议的无状态性,指的是客户端的每次 http 请求都是独立的,连续多个请求之间没有直接的关系,服务器不会主动保留每次 http 请求的状态。 什么是 Cookie Cookie 是存储…

如何在CentOS安装Nexus容器无公网IP远程管理本地仓库

文章目录 1. Docker安装Nexus2. 本地访问Nexus3. Linux安装Cpolar4. 配置Nexus界面公网地址5. 远程访问 Nexus界面6. 固定Nexus公网地址7. 固定地址访问Nexus Nexus是一个仓库管理工具,用于管理和组织软件构建过程中的依赖项和构件。它与Maven密切相关,可…

LeetCode-394. 字符串解码【栈 递归 字符串】

LeetCode-394. 字符串解码【栈 递归 字符串】 题目描述:解题思路一:辅助栈法解题思路二:递归法解题思路三:0 题目描述: 给定一个经过编码的字符串,返回它解码后的字符串。 编码规则为: k[encoded_string]…

Golang 为什么需要用反射

本质上是可以动态获取程序运行时的变量(类型) 比如现在我想实现一个通用的db插入函数,支持我传入所有类型的struct,每一种类型的struct是一个单独的表,以struct的名称作为表名,然后插入到不同的表中。 pa…

ios swift5 “Sign in with Apple“(使用苹果登录)怎样接入(第三方登录)集成AppleID登录

文章目录 截图1.在开发者网站的app id中添加Sign in with Apple功能2.在Xcode中添加Sign in with Apple功能3.代码:只有第一次登录的时候可以获取到用户名参考博客chatGPT答案 截图 1.在开发者网站的app id中添加Sign in with Apple功能 1.1 如果你新建app id,记得在…

Spring事务简介,事务角色,事务属性

1.Spring事务简介 事务作用:在数据层保障一系列的数据库操作同成功同失败Spring事务作用:在数据层或业务层保障一系列的数据操作同成功同失败 public interface PlatformTransactionManager{void commit(TransactionStatus status) throws TransactionE…