恕我直言,很多调参侠搞不清数据和模型谁更重要

作者:Dario Radecic,Medium 高质量技术博主
编译:颂贤

▲图源:[Brandon Lopez]

一般的AI课程会介绍很多如何通过参数优化来提高机器学习模型准确性的方法,然而这些方法通常都存在一定的局限性。这是因为我们常常忽视了现代机器学习一个非常重要的核心——数据。如果我们没有处理好训练数据没,上百个小时的时间都会被浪费在调整一个低质量数据训练出来的模型上,模型的准确度很容易就会低于预期,而这和模型调优是没有太大关系的。怎样才能避免这样的问题呢?

粗略地看,其实每个AI项目都由两部分组成:模型和数据。对于代码这部分,我们总能使用第三方库来尽可能地提高代码质量,但从来没有人告诉我们该如何充分提升数据的质量。这就是本文想要介绍的新思路:以数据为中心的AI。究竟什么是以数据为中心的AI?数据的数量与质量到底哪一个优先级更高?哪里可以找到好的数据集?这些问题本文都将带大家探讨。

什么是以数据为中心的AI?

既然AI由模型和数据两部分组成,那么我们可以想到有两种基本思路来指导我们的机器学习:

  • 以模型为中心: 通过改进模型来提升表现

  • 以数据为中心: 通过改进数据来提升表现

其实,以数据为中心的AI(data-centric AI)这一概念是吴恩达(Andrew Ng)的发明。吴恩达早前在油管上做了一次直播问答,专门讲解了什么是以数据为中心的AI。他提出,最近发表的学术论文中,99%都是在谈论模型,只有1%是以数据为中心的。其中有一句话特别值得注意:“别再花太多心思在模型优化上了”(your model architecture is good enough)。

吴恩达何出此言呢?ResNet, VGG, EfficientNet等学术界各路天才的种种智慧结晶,已经让我们现在能够接触到的模型架构变得非常强大了。试图再站在这些巨人的肩膀上改善她们的工作只能达到杯水车薪的效果。

不过,以模型为中心的思路的确更适合那些喜欢钻研理论的人,她们可以直接把手头的知识应用到具体场景中提升模型性能。而且,以数据为中心的思路听起来并不讨巧,谁会喜欢每天乐此不疲地给数据做标注呢?

然而事实证明,我们能做到的大部分性能提升都是通过以数据为中心的方法实现的。吴恩达在他的演讲中就展示了下面这组数据:

▲图1 — 基线、模型中心、数据中心性能比较(作者制图)

即使我们对钢铁缺陷这些事情没有什么了解,模型性能在数字上的显著提升我们是看得见的。我们可以看到,以模型为中心的方法对基线的改进不是零就是接近零,而且这种方法往往需要花费从业者数百小时的时间。

总结而言,我们可以得出一个很重要的经验教训:不要试图和一屋子的博士比智商。在想要改进模型之前,我们要首先确保手头上的数据质量是一流的。

数据要先保质还是保量?

要想追求数据的数量,通常的做法就是收集尽可能多的数据,并将其悉数扔给神经网络来学习映射关系。然而,一个数据集好用并不意味着它的数据量很大。我们可以参考数据集分享网站Kaggle上的数据集大小分布,图示如下:

▲图2 — Kaggle上的数据集大小分布 (图源作者)

我们可以看到,大多数数据集并没有太多的数据。在以数据为中心的方法中,数据集的大小并不重要。当然,我们不可能用三张图片去训练神经网络,但我们的重点要放到质量上,而不是数量。就算我们没有成百上千的图片也没关系,已有的数据质量和标注准确度是至关重要的。我们可以参考下面的例子,下图是标注人员为两个橙子的位置做出的两种不同的标注方法。

▲图3 — 为物体检测任务标注边界的不同方法(图源作者)

想要让模型准确度下降很简单,只要给它灌入标注不一致的数据就可以了。如果要追求数据的质量,我们就必须有严格而统一的标注规则。项目同时有多家标注商时情况就更是如此。

不过,就算数据的质量能够保证,我们到底需要多少数据才算够呢?这个问题比你想象的要难回答。大多数算法在其文档中会标明一个最小的推荐数据量。例如,YOLOv5就建议每个类别至少有1500张图片。我本人曾经设法用比这更少的数据取得了很好的结果,但是如果有更多的训练样本,模型的准确性肯定会提高。

总结而言,拥有大量的数据能够如虎添翼,但数据的量绝不是必需品。小数据集只要能有较高的数据质量,我们就可以用较少的数据达到四两拨千斤的效果。

高质量数据集哪里找?

现在我们来看一下两个能够免费获取高质量数据集的平台。

Kaggle

Kaggle拥有大量包括图表和图像在内的数据集。同时,Kaggle经常会举办各种各样的机器学习竞赛,其中不乏现金奖励,非常适合那些想要展示自身技能的同学。不过,尽管Kaggle已经非常出名,它没有针对国内的网络进行优化,下载数据集并非易事。

▲图4 — Kaggle数据集主页

格物钛公开数据集平台

也许你没有听说过这个平台,不过它的出现确实给算法开发者们带来了极大的帮助,不论你身处国内还是国外。

在格物钛公开数据集平台(gas.graviti.cn/open-datasets),用户可以通过数据集的名称联想检索、应用场景筛选、标注类型筛选、推荐、更新时间及热度筛选,轻松找到所需数据集。同时,用户无需下载,即可在数据集详情页在线查看标注情况及标签分布,掌握数据细节。

不过,如果你想下载数据集至本地,格物钛用户提供高速稳定的下载服务。将全球资源Host至国内镜像,无需VPN访问,满带宽极速下载。与进入海外官网下载相比,格物钛至少提速100%

简直是身处国内AI开发者的福音!

▲图5

事实上,格物钛平台上的数据集还在不断增长中,用户可以自发的上传一些开源数据集,其团队也会定期加入新的高质量公开数据集。例如,知名的自动驾驶数据集nuScenes就在平台上有所收录,并且有非常高效的在线可视化插件一键直观查看数据集内容:

▲图6 — 格物钛平台上的nuScenes数据集

不仅如此,当你需要某些未被上传的特定数据集时,你可以加入格物钛社区(微信或Discord)。格物钛提供了问题与需求的反馈渠道,便于一对一针对性回应、跟进、解决用户的需求

结语

以上就是对以数据为中心的AI的基本介绍。简单来说,以数据为中心的AI就是要更关心数据的质量而不是数量。然而,高质量的数据集是很难找到的。如果你想建立优质的机器学习模型,你就一定需要优质的数据集。对于接触数据集平台而言,Kaggle是一个很好的开始。但如果你对计算机视觉等具体领域感兴趣,并且想要以快捷高效的方式访问数据集,务必试试免费好用的格物钛公开数据集平台。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478087.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

专访美团外卖曹振团:天下武功唯快不破

本文转自InfoQ中文网站,首发地址:http://www.infoq.com/cn/news/2016/06/Meituan-take-away 马云曾经说过:世界是懒人创造出来的。在“懒人”们的推动下,O2O的战火已经燃烧到了外卖行业。据报告,2015年外卖市场年交易额…

LeetCode 720. 词典中最长的单词(Trie树)

1. 题目 给出一个字符串数组words组成的一本英语词典。从中找出最长的一个单词,该单词是由words词典中其他单词逐步添加一个字母组成。若其中有多个可行的答案,则返回答案中字典序最小的单词。 若无答案,则返回空字符串。 示例 1: 输入: …

postman调的通,python调用程序却要显示登录

postman调的通,python调用程序却要显示登录 1 解决方案: 添加verify False 2 手动在网页上复制粘贴token和auth相关验证在这里插入代码片 import requests url "" requests.packages.urllib3.disable_warnings()s requests.Session()s.tr…

论文浅尝 | 通过知识到文本的转换进行知识增强的常识问答

笔记整理:陈卓,浙江大学在读博士,主要研究方向为低资源学习和知识图谱论文链接:https://www.aaai.org/AAAI21Papers/AAAI-10252.BianN.pdf发表会议:AAAI 2021动机文章提出了对于未来CQA(Commonsense QA)问题的三个见解…

聊聊机器翻译界的“灌水与反灌水之战”!

文 | Willie_桶桶编 | 智商掉了一地针对机器翻译领域如何提高和判断实验可信度,这篇ACL2021的oustanding paper迈出了关键的一步!(来读!全文在末尾)作为不停读论文和调参炼丹的科研党,也许在我们的身边总会…

LeetCode 273. 整数转换英文表示

1. 题目 将非负整数转换为其对应的英文表示。可以保证给定输入小于 231 - 1 。 示例 1: 输入: 123 输出: "One Hundred Twenty Three"示例 2: 输入: 12345 输出: "Twelve Thousand Three Hundred Forty Five"示例 3: 输入: 1234567 输出: "One Mill…

数据标注平台doccano----简介、安装、使用、踩坑记录

1.doccano的安装与初始配置 1.1 doccano的用途 document classification 文本分类sequence labeling 序列标注,用于命名实体识别sequence to sequence seq2seq,用于翻译speech to text 语音转文本标注 命名实体标注 序列标注(如机器翻译&…

月圆花美 中秋快乐!

OpenKGOpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。点击阅读原文,进入 OpenKG 网站。

大众点评支付渠道网关系统的实践之路

业务的快速增长,要求系统在快速迭代的同时,保持很好的扩展性和可用性。其中,交易系统除了满足上述要求之外,还必须保持数据的强一致性。对系统开发人员而言,这既是机遇,也是挑战。本文主要梳理大众点评支付…

拍不完的脑袋:推荐系统打压保送重排策略

文 | 水哥源 | 知乎saying1.懂模型不只是要知道模型能干什么,更要知道它不能干什么2.在从业一段时间后应该有一次“转职”,如果你相信模型无所不能,你应该走科研路线;如果你对模型不是很放心,那你应该成为一名工程师3.…

LeetCode 572. 另一个树的子树(二叉树迭代器)

1. 题目 给定两个非空二叉树 s 和 t,检验 s 中是否包含和 t 具有相同结构和节点值的子树。s 的一个子树包括 s 的一个节点和这个节点的所有子孙。s 也可以看做它自身的一棵子树。 示例 1: 给定的树 s:3/ \4 5/ \1 2 给定的树 t:4 / \1 2 返回 tr…

FastAPI:Python 世界里最受欢迎的异步框架

FastAPI:Python 世界里最受欢迎的异步框架:https://www.cnblogs.com/traditional/p/14733610.html

论文浅尝 | Multimodal Few-Shot Learning with Frozen Language Models

笔记整理:李磊,浙江大学硕士,研究方向为自然语言处理 链接:https://arxiv.org/abs/2106.13884动机大规模的自回归语言模型(如GPT)在预训练阶段学习到了大量的知识,具有很好的学习新任务的能力&a…

Spark性能优化指南——高级篇

继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 调优概述 有的时候,我们可能会遇到大数据计算中一…

LeetCode 342. 4的幂(位运算)

文章目录1. 题目2. 解题2.1 通用解法2.2 找规律1. 题目 给定一个整数 (32 位有符号整数),请编写一个函数来判断它是否是 4 的幂次方。 示例 1: 输入: 16 输出: true示例 2: 输入: 5 输出: false进阶: 你能不使用循环或者递归来完成本题吗? …

格局打开,带你解锁 prompt 的花式用法

文 | Severus就如同《倚天屠龙记》中的主角张无忌,语言模型修炼了深厚的内功,但是遇到他的乾坤大挪移之前,他空有一身本领却不会用。但学会之后,于所有武功又都融会贯通。光明顶上血战六大派,他可以打出比崆峒派威力更…

自动机器学习pycaret,手把手教你自动提取特征、自动选取模型、自动评价

手把手教你自动提取特征、自动选取模型、自动评价 手把手教你使用pycaret Pycaret 3.0 功能抢先体验 5个PyCaret的常见误解

论文浅尝 | 基于异质图交互模型进行篇章级事件抽取

笔记整理:娄东方,浙江大学 & 恒生电子股份有限公司博士后,研究方向为事件抽取来源:ACL2021链接:https://arxiv.org/abs/2105.14924GitHub项目地址:https://github.com/RunxinXu/GIT本文关注篇章事件抽取…

GAN 的内在漏洞,只看眼睛就能找出虚拟人脸?

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

LeetCode 869. 重新排序得到 2 的幂(排序 全排列)

1. 题目 给定正整数 N ,我们按任何顺序(包括原始顺序)将数字重新排序,注意其前导数字不能为零。 如果我们可以通过上述方式得到 2 的幂,返回 true;否则,返回 false。 示例 1: 输入…