冷启动问题:如何构建你的机器学习组合?

作为即将告别大学的机器学习毕业狗的你,会不会有种迷茫的感觉?你知道 HR 最看重的是什么吗?在求职季到来之前,毕业狗要怎么做,才能受到 HR 的青睐、拿到心仪的 Offer 呢?负责帮助应届生找到机器学习工作的 Edouard Harris 给我们分享了他见到的例子和观点,希望对面临就业压力不断增大的毕业狗们有点用!

更多干货内容请关注微信公众号“AI前线”(ID:ai-front)

我是一名物理学家,在 YC 初创公司工作。我们的工作是帮助应届毕业生找到他们的第一份机器学习工作。

前段时间,我曾写了一篇文章《The cold start problem: how to break into machine learning》(《冷启动问题:如何顺利进入机器学习》),阐述了为得到第一份机器学习的工作,你应该做哪些事情。我在那篇文章中说过,你应该做的一件事就是,建立个人机器学习项目的投资组合。但我漏了这一部分:如何才能做到。因此,在这篇文章中,我将阐述应该如何去做这件事。[1]

得益于我们的初创公司所做的事情,我才能看到如此多的个人项目的例子。这些个人项目有非常优秀的,也有非常槽糕的。让我给你例举两个非常优秀的例子。

押上所有赌注

下面是一则真实的故事,不过,为了保护个人隐私,我使用了化名。

当杂货店需要订购新库存时,X 公司就会使用人工智能来提醒杂货店。我们有一名学生,叫 Ron,他非常渴望能够在 X 公司工作,已经急不可耐了。为了确保能够得到 X 公司的面试机会,于是,他建立了一个个人项目。

通常情况下,我们不会建议像 Ron 那样把所有的赌注都押在一家公司。如果你刚开始这样做的话,是很有风险的。但是,就像我刚才说的,Ron 真的特别想到 X 公司工作,特别特别想。

那么,Ron 做了什么呢?

\"image\"
红框处表示该处缺少商品。

  1. Ron 用胶带将他的智能手机绑在购物车上。然后,他推着购物车在杂货店的过道来来回回地走,同时使用手机的摄像头记录下过道的情况。他在不同的杂货店这样做了 10~12 次。

  2. 回到家后,Ron 就开始构建机器学习模型。他的模型识别出了杂货店货架上的空白处,那是货架上缺少玉米片(或其他商品)的地方。

  3. 特别棒的是,Ron 在 GitHub 上实时构建了他的模型,完全公开。每天,他都会改进他的 repo(提高准确性,并记录 repo 自述文件的变更)。

  4. 当 X 公司发现 Ron 正在做这件事时,非常感兴趣。不止是好奇,事实上,X 公司还有点紧张。他们为什么会感到紧张呢?因为 Ron 无意中在几天内复制了他们的专有技术栈的一部分。[2]

X 公司的能力很强,他们的技术在行业中无出其右。尽管如此,4 天之内,Ron 的项目还是成功吸引了 X 公司 CEO 的注意力。

飞行员项目

这是另一则真实的故事。

Alex 主修历史专业,辅修俄语(这是真实的情况)。不同寻常的是,作为历史专业的大学生,他居然对机器学习产生了兴趣。更不寻常的是,他决定学习 Python,要知道,他从来没用 Python 写过一行代码。

Alex 选择了通过构建项目进行学习的方式。他决定构建一个分类器,用于检测战斗机飞行员在飞机上是否失去知觉。Alex 想通过观看飞行员的视频来发现是否失去意识。他知道,人们通过观察,很容易判断飞行员是否失去知觉。所以,Alex 觉得机器也应该有可能做到这一点。

以下是 Alex 在几个月的时间里所做的事情:

\"image\"

Alex构建的地球引力引发昏厥探测器的演示。

  1. Alex 在 YouTube 上下载了从驾驶舱拍摄的驾驶飞机时飞行员所有的视频。(如果你也感到好奇的话,这里有几十个这样的片段。)

  2. 接下来他开始标记数据。Alex 构建了一个 UI,让他能够滚动数千个视频帧,按下一个按钮表示 “有知觉”,另一个按钮表示 “无知觉”。然后自动将该视频帧保存到正确标记的文件夹中。这个标记过程非常非常无聊,花了他好几天的时间。

  3. Alex 为这些图像构建了一个数据管道,可以将飞行员从驾驶舱背景中抠出来,这样分类器就能更容易专注于飞行员。最后,他构建了自己的昏厥分类器。

  4. 在做这些事的同时,Alex 在社交媒体上向招聘主管展示了他的项目快照。每次
    他拿出手机展示这个项目时,他们都会问他是怎么做到的,构建的管道是怎么回事,以及怎么收集数据的等等。但从来没有人问过他的模型的准确度如何,要知道,这个模型的准确度就从来没超过 50%。

当然,Alex 早就计划提高模型的准确性,但是在他还没有实现这一计划时就已经被录用了。事实证明,对企业而言,他那个项目呈现出来的视觉冲击力,以及在数据收集方面表现出来的不屈不挠的精神和足智多谋,远比他的模型究竟有多好来得更为重要。

我刚才有没有提到 Alex 是一名主修历史,辅修俄语的学生?

他们有何共同之处

是什么让 Ron 和 Alex 如此成功?以下是他们做对的四件大事:

  1. Ron 和 Alex 并没有在建模上耗费太多的精力。我知道这听上去很奇怪,但是对于现在的许多用例来说,建模是一个已解决的问题。在实际工作中,除非你做的是最先进的人工智能研究,否则无论如何,你都需要耗费 80~90% 的时间来清理数据。为什么你的个人项目会有所不同呢?

  2. Ron 和 Alex 都收集了自己的数据。正因为如此,他们最终得到的数据比 Kaggle 或 UCI 数据库中的数据更为混乱。但是处理混乱的数据教会了他们如何处理这种混乱的数据。而且也迫使了他们从学术服务器下载数据以更好地理解自己的数据。

  3. Ron 和 Alex 营造了可视化效果。面试,并不能让无所不知的面试官能够客观地评估你的技能。面试的本质就是将自己推荐给他人。人类是视觉动物,因此,如果你掏出手机给面试官展示你所做的东西,那么,确保你做的东西看上去很有趣是值得的。

  4. Ron 和 Alex 所做的事似乎很疯狂。这太疯狂了。因为一般人不会把他们的智能手机用胶带绑在购物车上,也不会在 YouTube 上耗费大量时间就为了裁剪飞行员的视频。你知道是什么样的人才会这么疯狂?这样的人才会不惜一切代价去完成工作。公司真的非常、非常愿意雇佣这种人。

Ron 和 Alex 所做的事情,看上去似乎太多了,但实际上,他们所做的事儿并不比你在实际工作中所期望的多多少。这就是问题的关键:当你没有做某件事的工作经验时,招聘经理会看你做过的类似做某件事的工作经验。

幸运的是,你只需在这个级别上,构建一两个项目就可以了——Ron 和 Alex 的项目在他们各自所有面试中被反复使用。

因此,如果让我必须用一句话来总结一个卓越的机器学习项目的秘诀,那就是:用有趣的数据集去构建项目,这个数据集显然需要耗费大量精力来收集,并使其尽可能有视觉冲击力。


[1] 如果你想知道为什么这一点非常重要,那是因为招聘经理会查看你的业绩记录来评估你的技能。如果你没有业绩记录的话,那么,个人项目就是最为接近的替代者。

[2] 当然,Ron 的尝试远非完美:X 公司为这个问题投入了比他更多的资源。但情况非常相似,他们很快就要求 Ron 将他的 repo 设为 private。


原文链接:
https://towardsdatascience.com/the-cold-start-problem-how-to-build-your-machine-learning-portfolio-6718b4ae83e9

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/276492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript 对象所有API解析【2020版】

写于 2017年08月20日,虽然是2017年写的文章,但现在即将2020年依旧不过时,现在补充了2019年新增的ES10 Object.fromEntries()。发到公众号申明原创。若川顺便在此提前祝大家:2020年更上一层楼。近日发现有挺多人对对象基础API不熟悉…

javascript操作符之new 也疯狂 (2)

JavaScript本是一种基于原形的(prototypal)语言,但它的“new”操作符看起来有点像经典语言。这迷惑了广大程序员们,并导致了很多使用上的问题。 在JavaScript中,不要用到new Object()这种操作,该用{ }来代替…

python中if语句缺省else_9_【Python学习分享文章】_if(条件语句)

【Python学习分享文章】_if(条件语句)_logicalJudgement介绍及基本操作综述计算机的“条件语句”和生活中的“条件成立”是不一样的。一个生活中的例子如果被计算机执行则是如下段子:老婆让程序员老公去买苹果,说:“去水果店买5个苹果&#x…

PHP生成各种验证码和Ajax验证

转载链接:http://www.helloweba.com/view-blog-191.html 验证码在WEB应用中非常重要,通常用来防止用户恶意提交表单,如恶意注册和登录、论坛恶意灌水等。本文将通过实例讲解使用PHP生成各种常见的验证码包括数字验证码、数字字母验证码、中文…

若川的2019年度总结,波澜不惊

从2014年开始写年度总结至今已经六个年头了。正如孔子所说:逝者如斯夫,不舍昼夜。2019年的年度总结写得比较晚,都快农历新年了,此刻在家里继续写完这篇文章。往年基本是元旦之后几天就写完了。我的年度总结尽量写得非技术人员也能…

如何正确选择仓储物流供应商?

如何正确选择仓储物流供应商? 以前有做电商的朋友向我咨询过怎么去选择优质的仓储物流供应商?有哪些能做作为关键问题进行参考。作为一个优秀的合作伙伴是可以为客户提供超乎预期的服务的,上海维佳供应链服务专业提供物流外包解决仓储物流供应…

在虚机上安装WIN2003

Moss2-turn on-WM;SJY;SJYM;666666备注:计算机名在网络上必须是唯一的。姓名:WP; 单位:SJY; 计算机名称:SJYP; 密码:666666server 2003 R2版 MDGJK-PF6YQ-PD8DJ-RFQVM-7WKWG在“网络设置”页面上,单击“典型…

python字典获取关联值_【Python实战12】使用字典关联数据

现在我的手里有了新的一组数据,数据内容如下:james.txt:James Lee,2002-3-14,2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22,2-01,2.01,2:16julie.txt:Julie Jones,2002-8-17,2.59,2.11,2:11,2:23,3-10,2-23,3:10,3.21,3-21,3.01…

Sending HTML content in an email using PHP

转载链接&#xff1a;http://code.web-max.ca/misc_htmlemail.php 发送一个HTML格式的电子邮件&#xff0c;主要在邮件的头信息中定义邮件正文的类型&#xff1a; Content-Type:text/html;charset"utf-8"。 示例&#xff1a; <?php// Example $HTML …

Realtime Ray Tracing RenderMan Point Cloud

这里演示的是演示的是光线与包围盒测试。在装备Winfast 8800GT 512M的台式机上可以进行每秒4.6亿次点到射线的距离计算计算&#xff0c;用于判断点是否真正的与射线相交。外部数据的填充与准备延迟依旧是GPGPU应用的一个巨大门槛。白色是命中的包围盒&#xff0c;绿色的就是射线…

SharePoint文档上传管理

前台代码: <% Control Language"C#" AutoEventWireup"true" CodeBehind"FileUpload.ascx.cs" Inherits"UploadFile.FileUpload" %><table><tr><td style"width:138px; height: 24px;">请选择列表:…

如何制定有价值的目标

写于2017年07月09日23:29现在修改发布到公众号声明原创公司会制定一系列目标&#xff0c;个人也可以制定一些目标&#xff0c;有利于自我学习成长。那么看我这篇文章可以告诉你如何制定有价值的目标。会制定有价值的目标&#xff0c;绝对超越很多人。SMART原则王健林之前说定个…

清除dns缓存命令行_怎么防止移动dns劫持,防止移动dns劫持要先了解什么是dns劫持...

本人以网络技术出身&#xff0c;近两年接触CDN网络&#xff0c;处理了一些CDN方面的网络问题&#xff0c;大多数以运营商丢包&#xff0c;延迟抖动为主&#xff0c;也处理一些硬件故障&#xff0c;比如机械硬盘的读写io测试&#xff0c;内存条兼容性测试&#xff0c;服务器IPMI…

php 修改上传文件大小 (max_execution_time post_max_size)

转载链接&#xff1a;http://hi.baidu.com/ttl289/item/683c8223a54c6d0f76272cd7 有些朋友要通过自己的网站后台&#xff0c;包括论坛&#xff0c;来上传一些文件&#xff0c;php一般为2m&#xff0c;或8m&#xff08;以下我们按默认为2m&#xff09;&#xff0c;接下来就是来…

移动硬盘格式化(pc和mac共用)-菜鸟级解决方案[转]

用pc的时候买了一个320G的移动硬盘&#xff0c;从来没考虑过什么格式化的问题&#xff0c;插上就用了。 后来接触mac才发现pc和mac在移动存储设备的格式化上还是有不少冲突的。如果你的移动硬盘mac上不能修改&#xff0c;或者pc上找不到&#xff0c;那就尽情得批判万恶的资本主…

【php】php的ssh2扩展的安装

ssh2(secure shell2)&#xff0c;对于远端主机提供高安全性的资料传输工作。安装&#xff1a;1、首先要装OpenSSL。 2、要安装 libssh2../configure && make all install3、再然后&#xff0c;安装PECL/ssh2可以使用 pear install ssh2安装&#xff08;有的说是 pear i…

回答知乎问题:你写过什么自认为惊艳的诗?

首次整理于 2019-07-27 22:04:00&#xff0c;现在整理发布在公众号申明原创。整理了一下大学期间2012年&#xff5e;2016年发布在QQ空间&#xff0c;自己感觉写得还行的七首“诗词”。回答知乎问题&#xff1a;你写过什么自认为惊艳的诗&#xff1f;中国古诗词博大精深。小时候…

lighttpd安装配置支持php

转载链接&#xff1a;https://wiki.freebsdchina.org/howto/n/php_fastcgi_lighttpd 安装lighttpd 记得在SPAWNFCGI前打勾 [X] SPAWNFCGI Depend on spawn-fcgi utility #cd /usr/ports/www/lighttpd #make config #make install clean 安装php 模块自己看自己需要 #cd /usr/p…

密码可逆不可逆选择_膝关节损伤不可逆!跑步要注意!

膝盖同时也是运动者最常受伤的关节。根据美国运动医学整型外科协会的报告&#xff0c;美国每年约有三百万人拉伤、挫伤、或扭伤他们的膝部&#xff0c;其中约有一半是因为运动引起的。而对于跑者而言&#xff0c;影响最大的就是我们的膝关节。换言之&#xff0c;长跑的潜在危害…

MS CRM 2011 C#中获取Web Resource

原创地址&#xff1a;http://www.cnblogs.com/jfzhu/archive/2013/02/15/2913077.html 转载请注明出处 我在以前的文章中讲过如何用JScript读取web resource资源&#xff0c;我在本文中将要讲解如何在C#中获取web resource资源。 有时候可能有这样的需求&#xff0c;你需要在一…