菜鸟学习数据科学家 5 大误区

全世界只有3.14 % 的人关注了

数据与算法之美


你准备好要成为一名数据科学家,积极的参加Kaggle比赛和Coursera的讲座。虽然这一切都准备好了,但是一名数据科学家的实际工作与你所期望的却是大相径庭的。


640?wx_fmt=gif


本文研究了作为数据科学家新手的5个常见错误。这是由我在塞巴斯蒂安·福卡德(Dr. Sébastien Foucaud)博士的帮助下一起完成的,他在指导和领导学术界与行业领域的年轻数据科学家方面拥有20多年的经验。本文旨在帮助你更好地为今后的实际工作做准备。


640?wx_fmt=jpeg


1、Kaggle成才论


640?wx_fmt=jpeg

Source: kaggle.com on June 30 18.


你通过参加Kaggle比赛,练习了数据科学领域的各项技能。如果你能把决策树和神经网络结合起来那就再好不过了。说实话,作为一个数据科学家,你不需要做那么多的模型融合。请记住,通常情况下,你将花80%的时间进行数据预处理,剩下的20%的时间用于构建模型。


640?wx_fmt=jpeg


作为Kaggle的一份子对你在很多方面都有帮助。所用到的数据一般都是彻底处理过的,因此你可以花更多的时间来调整模型。但在实际工作中,则很少会出现这种情况。一旦出现这种情况,你必须用不同的格式和命名规则来收集组装不同来源的数据。


做数据预处理这项艰苦的工作以及练习相关的技能,你将会花费80%的时间。抓取图像或从API中收集图像,收集Genius上的歌词,准备解决特定问题所需的数据,然后将其提供给笔记本电脑并执行机器学习生命周期的过程。精通数据预处理无疑会使你成为一名数据科学家,并对你的公司产生立竿见影的影响。


2、神经网络(Neural Networks)无所不能


在计算机视觉或自然语言处理的领域,深度学习模型优于其它机器学习模型,但它们也有很明显的不足。


640?wx_fmt=jpeg


神经网络需要依赖大量的数据。如果样本很少,那么使用决策树或逻辑回归模型的效果会更好。神经网络也是一个黑匣子,众所周知,它们很难被解释和说明。如果产品负责人或主管经理对模型的输出产生了质疑,那么你必须能够对模型进行解释。这对于传统模型来说要容易得多。


640?wx_fmt=jpeg


正如詹姆斯·勒(James Le)在一个伟大的邮件中所阐述的那样,有许多优秀的统计学习模型,自己可以学习一下,了解一些它们的优缺点,并根据用例的约束来进行模型的实际应用。除非你正在计算机视觉或自然语言识别的专业领域工作,否则最成功的模型很可能就是传统的机器学习算法。你很快就会发现,最简单的模型,如逻辑回归,通常是最好的模型。


640?wx_fmt=jpeg

来源:算法来自scikit-learn.org.


3、机器学习是产品


在过去的十年里,机器学习既受到了极大的吹捧,也受到了很大的冲击。大多数的初创公司都宣称机器学习可以解决现实中遇到的任何问题。


640?wx_fmt=png

来源:过去5年谷歌机器学习的趋势


机器学习永远都不应该是产品。它是一个强大的工具,用于生产满足用户需求的产品。机器学习可以用于让用户收到精准的商品推荐,也可以帮助用户准确地识别图像中的对象,还可以帮助企业向用户展示有价值的广告。


作为一名数据科学家,你需要以客户作为目标来制定项目计划。只有这样,才能充分地评估机器学习是否对你有帮助。


4、混淆因果和相关


有90%的数据大约是在过去的几年中形成的。随着大数据的出现,数据对机器学习从业者来说已经变得越来越重要。由于有非常多的数据需要评估,学习模型也更容易发现随机的相关性。


640?wx_fmt=jpeg

来源: http://www.tylervigen.com/spurious-correlations


上图显示的是美国小姐的年龄和被蒸汽、热气和发热物体导致的命案总人数。考虑到这些数据,一个学习算法会学习美国小姐的年龄影响特定对象命案数量的模式。然而,这两个数据点实际上是不相关的,并且这两个变量对其它的变量没有任何的预测能力。


当发现数据中的关系模式时,就要应用你的领域知识。这可能是一种相关性还是因果关系呢?回答这些问题是要从数据中得出分析结果的关键点。


5、优化错误的指标


机器学习模型通常遵循敏捷的生命周期。首先,定义思想和关键指标。之后,要原型化一个结果。下一步,不断进行迭代改进,直到得到让你满意的关键指标。


640?wx_fmt=jpeg


构建一个机器学习模型时,请记住一定要进行手动错误分析。虽然这个过程很繁琐并且比较费时费力,但是它可以帮助你在接下来的迭代中有效地改进模型。参考下面的文章,可以从Andrew Ng的Deep Learning Specialization一文中获得更多关于改进模型的技巧。


注意以下几个关键点:

  • 实践数据处理

  • 研究不同模型的优缺点

  • 尽可能简化模型

  • 根据因果关系和相关性检查你的结论

  • 优化最有希望的指标


原文标题:《Top 5 Mistakes of Greenhorn Data Scientists》

版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请留言联系删除,感谢合作。


640?wx_fmt=png

640?wx_fmt=png


640?wx_fmt=png

我们联合「机械工业出版社、图灵新知、人民邮电出版社、华东师范大学出版社、科学出版社」给大家精心挑选了 100 本 优秀数学读物免费 送给大家。包含:

640?wx_fmt=png

假如你想参与,在后台回复「锦鲤即可,xxxx(各自公众号名称)“史上最惨锦鲤”正在等你。

活动时间:1月30号至2月11号

结果公布时间:2月11号



640?wx_fmt=png精品课程推荐:

640?wx_fmt=png

640?wx_fmt=png

选购数学科普正版读物

严选“数学思维好物”

送给孩子的益智礼物   |   办公室神器

算法工程师成长阅读   |   居家高科技

理工科男女实用型礼物精选 

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

----640?点击头像关注----

640?wx_fmt=png

超级数学建模

640?wx_fmt=png

数据与算法之美

640?wx_fmt=jpeg

少年数学家

640?wx_fmt=jpeg

数锐学堂

640?wx_fmt=jpeg

惊喜酱(个人号)

640?wx_fmt=jpeg

玩酷屋COOL

640?wx_fmt=gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/301843.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java多线程 sycophantic_Java多线程volatile和synchronized总结

volatile是轻量级的synchronized,在多处理器(多线程)开发中保证了共享变量的“可见性”。可见性表示当一个线程修改了一个共享变量时,另外一个线程能读到这个修改的值。正确的使用volatile,能比synchronized的使用和执行成本更低,…

[BOOST] BOOST::Format

cout << format( "%1% says \"%2%\" to %1%.\n" ) % "Yousen" % "Hello";这句话将在标准输出上输出“Yousen says "Hello" to Yousen.”接下来简单说明一下format的用法。估计聪明人都猜到了&#xff0c;在格式化字符…

using IDisposable

using和IDisposable是组合使用的&#xff0c;像这种一个关键字和一个接口的组合&#xff0c;在C#中很少见的&#xff0c;using这个关键字&#xff0c;也就因为IDisposable多了一个身份。其实很多人都知道IDisposable&#xff0c;有一个方法void Dispose()&#xff0c;通常是用来…

春节特惠活动┃不只是舒适,简直是享受,Google公司用的腰靠,到底有什么秘密?...

▲数据汪特别推荐点击上图进入玩酷屋之前小木推荐“德国MINICUTE人体工学腰垫”受到了大家一致的好评和争相购买。小木为什么推荐这一款原因是&#xff1a;据统计&#xff0c;我国腰椎病患者已经突破2亿人。30~40岁人群中&#xff0c;患有颈腰椎病的占比59.1%&#xff01;而且有…

linux mysql phpadmin_linux安装phpmyadmin数据库管理

安装phpmyadminyum -y install phpmyadmin //执行yum在线安装程序安装完成后&#xff0c;可在/usr/share目录下找到phpMyAdmin找到 phpMyAdmin/libraries/config.default.php文件&#xff0c;将config.default.php复制到phpmyadmin目录下&#xff0c;然后更名为config.inc.…

2012平安夜

2012平安夜&#xff0c;我的博客园开通了&#xff0c;在这里我将与他开始崭新的学习生活。

.Net单元测试方法

单元测试是一种编程测试&#xff0c;这些测试既可以使用 Visual C# 或 Visual Basic 编写&#xff0c;也可以使用 Visual C 编写并用 /clr:safe 选项进行编译。单元测试用于通过直接调用某个类的方法&#xff08;传递相应参数&#xff09;来执行其他源代码。因此&#xff0c;如…

春节特惠活动┃给孩子讲100个科学道理,不如带他做这些趣味实验!

▲数据汪特别推荐点击上图进入玩酷屋玩具和学习看似是两个对立的东西&#xff0c;孩子天性爱玩&#xff0c;家长却希望孩子能多学习。不一定非要啃课本才能汲取知识&#xff0c;有时候&#xff0c;在轻松有趣的游戏中也能学到课堂上学不到的知识。让学习变得有趣、高效——给孩…

linux java 进程监控工具_推荐4个好用的Linux监控工具

本文介绍了作者常用的 4 个 Linux 监控工具&#xff0c;希望可以帮助读者提高生产力。身为一个运维开发人员&#xff0c;如果你不知道眼下当前服务器底层操作系统中正在发生什么&#xff0c;那就有点合眼摸象了。其实&#xff0c;你可以根据相应数据做出一定的推测&#xff0c;…

html页面音乐播放器_Embed代码

播放器代码如下&#xff1a; HTML播放器样式1 代码&#xff1a; <P aligncenter> <TABLE borderColor#bc8f8f cellSpacing1 width315 border1> <TBODY> <TR> <TD><EMBED style"FILTER: invert(); WIDTH: 315px; HEIGHT: 28px" sr…

看TensorFlow如何玩转深度学习

自 2015 年 11 月 9 号发布之后&#xff0c;TensorFlow 逐渐成为人工智能领域最广泛运用的深度学习框架。TensorFlow 是一个大规模机器学习的开源框架&#xff0c;提供了多种深度神经网络的支持。不仅 Google 在自己的产品线使用 TensorFlow&#xff0c;包括联想、小米、新浪网…

巧用Newtonsoft.Json处理重复请求/并发请求?

背景一些用户请求在某些情况下是可能重复发送的&#xff0c;如果是查询类操作并无大碍&#xff0c;但其中有些涉及写入操作&#xff0c;一旦重复了&#xff0c;可能会导致很严重的后果。例如交易接口如果重复请求&#xff0c;可能会重复下单。问题假设我们把请求参数&#xff0…

java鼠标改变窗口大小监听事件_java – 当用户拖动鼠标时,监听JFrame调整事件大小?...

当用户单击JFrame的角落来调整大小并拖动鼠标时&#xff0c;JFrame会根据用户拖动时鼠标的当前位置重绘。你怎么听这些事件&#xff1f;下面是我目前尝试的&#xff1a;public final class TestFrame extends JFrame {public TestFrame() {this.addComponentListener(new Compo…

phpmyadmin 安装 配置

自己的试验成功后&#xff0c;写下&#xff01; 1.先到网上下载phpmyadmin&#xff0c;再解压到可以访问的web目录下&#xff08;如果是虚拟空间&#xff0c;可以解压后通过ftp等上传到web目录下&#xff09;&#xff0c;当然您可以修改解压后该文件的名称。 2.配置config文件 …

春节特惠活动┃数学无用论??我们欠孩子真正的数学阅读

▲数据汪特别推荐点击上图进入玩酷屋说到数学&#xff0c;我想起了13年一场轰动行业各界的“数学无用论”&#xff01;那时微博上有个话题叫做#让数学滚出高考#&#xff0c;超过7成网友都表示支持&#xff0c;这可怕的比例就能说明在中国由于数学差导致命运被洗牌的真不在少数……

EF Core中高效批量删除、更新数据的Zack.EFCore.Batch发布三个新特性

Zack.EFCore.Batch是一个支持在Entity Framework Core中高效删除和更新数据的开源库。我们知道&#xff0c;EF Core中不支持高效的删除和更新数据&#xff0c;所有的更新和操作都是逐条数据处理。比如&#xff0c;如果使用如下的语句删除实现“删除所有价格大于10元的书“&…

2012年,总结

2012年&#xff0c;神奇又平凡的一年。玛雅人的世界末日被普通的一天击破&#xff0c;自此买蜡烛的人就可以每天点着蜡烛做饭和炒菜了&#xff0c;用的还是当初囤积的食盐。 2012年&#xff0c;我就这样平淡的毕业了。就这样上班了&#xff0c;一切还没准备妥当&#xff0c;直到…

python pytest allure_python测试框架pytest和测试报告allure的联合使用-----测试套件

最近采用jenkinspythonpytestallure写了一些自动化测试用例。碰到这样一种场景&#xff1a;如果我创建了2个测试任务&#xff0c;测试任务1包含2个测试用例test_a.py和test_b.py&#xff0c;测试任务2包含一个测试用例test_c.py。一. 常规操作假设我的代码目录结构有如下3个测试…

那天,我无意间瞟了眼程序员的桌面……

全世界只有3.14 % 的人关注了数据与算法之美爱因斯坦曾说过“要是乱糟糟的桌面意味着杂乱无章的脑袋&#xff0c;那空白桌面意味着什么呢&#xff1f;似乎很多在某些领域拥有天赋的人都不喜欢干净整洁的桌面&#xff0c;包括乔布斯和扎克伯格也是&#xff0c;甚至有的人一看到整…

.Net Core with 微服务 - Ocelot 网关

上一次我们通过一张架构图&#xff08;.Net Core with 微服务 - 架构图&#xff09;来讲述了微服务的结构&#xff0c;分层等内容。从现在开始我们开始慢慢搭建一个最简单的微服务架构。这次我们先用几个简单的 web api 项目以及 ocelot 网关项目来演示下网关是如何配置&#x…