冷启动问题:如何构建你的机器学习组合?

作为即将告别大学的机器学习毕业狗的你,会不会有种迷茫的感觉?你知道 HR 最看重的是什么吗?在求职季到来之前,毕业狗要怎么做,才能受到 HR 的青睐、拿到心仪的 Offer 呢?负责帮助应届生找到机器学习工作的 Edouard Harris 给我们分享了他见到的例子和观点,希望对面临就业压力不断增大的毕业狗们有点用!

更多干货内容请关注微信公众号“AI前线”(ID:ai-front)

我是一名物理学家,在 YC 初创公司工作。我们的工作是帮助应届毕业生找到他们的第一份机器学习工作。

前段时间,我曾写了一篇文章《The cold start problem: how to break into machine learning》(《冷启动问题:如何顺利进入机器学习》),阐述了为得到第一份机器学习的工作,你应该做哪些事情。我在那篇文章中说过,你应该做的一件事就是,建立个人机器学习项目的投资组合。但我漏了这一部分:如何才能做到。因此,在这篇文章中,我将阐述应该如何去做这件事。[1]

得益于我们的初创公司所做的事情,我才能看到如此多的个人项目的例子。这些个人项目有非常优秀的,也有非常槽糕的。让我给你例举两个非常优秀的例子。

押上所有赌注

下面是一则真实的故事,不过,为了保护个人隐私,我使用了化名。

当杂货店需要订购新库存时,X 公司就会使用人工智能来提醒杂货店。我们有一名学生,叫 Ron,他非常渴望能够在 X 公司工作,已经急不可耐了。为了确保能够得到 X 公司的面试机会,于是,他建立了一个个人项目。

通常情况下,我们不会建议像 Ron 那样把所有的赌注都押在一家公司。如果你刚开始这样做的话,是很有风险的。但是,就像我刚才说的,Ron 真的特别想到 X 公司工作,特别特别想。

那么,Ron 做了什么呢?

\"image\"
红框处表示该处缺少商品。

  1. Ron 用胶带将他的智能手机绑在购物车上。然后,他推着购物车在杂货店的过道来来回回地走,同时使用手机的摄像头记录下过道的情况。他在不同的杂货店这样做了 10~12 次。

  2. 回到家后,Ron 就开始构建机器学习模型。他的模型识别出了杂货店货架上的空白处,那是货架上缺少玉米片(或其他商品)的地方。

  3. 特别棒的是,Ron 在 GitHub 上实时构建了他的模型,完全公开。每天,他都会改进他的 repo(提高准确性,并记录 repo 自述文件的变更)。

  4. 当 X 公司发现 Ron 正在做这件事时,非常感兴趣。不止是好奇,事实上,X 公司还有点紧张。他们为什么会感到紧张呢?因为 Ron 无意中在几天内复制了他们的专有技术栈的一部分。[2]

X 公司的能力很强,他们的技术在行业中无出其右。尽管如此,4 天之内,Ron 的项目还是成功吸引了 X 公司 CEO 的注意力。

飞行员项目

这是另一则真实的故事。

Alex 主修历史专业,辅修俄语(这是真实的情况)。不同寻常的是,作为历史专业的大学生,他居然对机器学习产生了兴趣。更不寻常的是,他决定学习 Python,要知道,他从来没用 Python 写过一行代码。

Alex 选择了通过构建项目进行学习的方式。他决定构建一个分类器,用于检测战斗机飞行员在飞机上是否失去知觉。Alex 想通过观看飞行员的视频来发现是否失去意识。他知道,人们通过观察,很容易判断飞行员是否失去知觉。所以,Alex 觉得机器也应该有可能做到这一点。

以下是 Alex 在几个月的时间里所做的事情:

\"image\"

Alex构建的地球引力引发昏厥探测器的演示。

  1. Alex 在 YouTube 上下载了从驾驶舱拍摄的驾驶飞机时飞行员所有的视频。(如果你也感到好奇的话,这里有几十个这样的片段。)

  2. 接下来他开始标记数据。Alex 构建了一个 UI,让他能够滚动数千个视频帧,按下一个按钮表示 “有知觉”,另一个按钮表示 “无知觉”。然后自动将该视频帧保存到正确标记的文件夹中。这个标记过程非常非常无聊,花了他好几天的时间。

  3. Alex 为这些图像构建了一个数据管道,可以将飞行员从驾驶舱背景中抠出来,这样分类器就能更容易专注于飞行员。最后,他构建了自己的昏厥分类器。

  4. 在做这些事的同时,Alex 在社交媒体上向招聘主管展示了他的项目快照。每次
    他拿出手机展示这个项目时,他们都会问他是怎么做到的,构建的管道是怎么回事,以及怎么收集数据的等等。但从来没有人问过他的模型的准确度如何,要知道,这个模型的准确度就从来没超过 50%。

当然,Alex 早就计划提高模型的准确性,但是在他还没有实现这一计划时就已经被录用了。事实证明,对企业而言,他那个项目呈现出来的视觉冲击力,以及在数据收集方面表现出来的不屈不挠的精神和足智多谋,远比他的模型究竟有多好来得更为重要。

我刚才有没有提到 Alex 是一名主修历史,辅修俄语的学生?

他们有何共同之处

是什么让 Ron 和 Alex 如此成功?以下是他们做对的四件大事:

  1. Ron 和 Alex 并没有在建模上耗费太多的精力。我知道这听上去很奇怪,但是对于现在的许多用例来说,建模是一个已解决的问题。在实际工作中,除非你做的是最先进的人工智能研究,否则无论如何,你都需要耗费 80~90% 的时间来清理数据。为什么你的个人项目会有所不同呢?

  2. Ron 和 Alex 都收集了自己的数据。正因为如此,他们最终得到的数据比 Kaggle 或 UCI 数据库中的数据更为混乱。但是处理混乱的数据教会了他们如何处理这种混乱的数据。而且也迫使了他们从学术服务器下载数据以更好地理解自己的数据。

  3. Ron 和 Alex 营造了可视化效果。面试,并不能让无所不知的面试官能够客观地评估你的技能。面试的本质就是将自己推荐给他人。人类是视觉动物,因此,如果你掏出手机给面试官展示你所做的东西,那么,确保你做的东西看上去很有趣是值得的。

  4. Ron 和 Alex 所做的事似乎很疯狂。这太疯狂了。因为一般人不会把他们的智能手机用胶带绑在购物车上,也不会在 YouTube 上耗费大量时间就为了裁剪飞行员的视频。你知道是什么样的人才会这么疯狂?这样的人才会不惜一切代价去完成工作。公司真的非常、非常愿意雇佣这种人。

Ron 和 Alex 所做的事情,看上去似乎太多了,但实际上,他们所做的事儿并不比你在实际工作中所期望的多多少。这就是问题的关键:当你没有做某件事的工作经验时,招聘经理会看你做过的类似做某件事的工作经验。

幸运的是,你只需在这个级别上,构建一两个项目就可以了——Ron 和 Alex 的项目在他们各自所有面试中被反复使用。

因此,如果让我必须用一句话来总结一个卓越的机器学习项目的秘诀,那就是:用有趣的数据集去构建项目,这个数据集显然需要耗费大量精力来收集,并使其尽可能有视觉冲击力。


[1] 如果你想知道为什么这一点非常重要,那是因为招聘经理会查看你的业绩记录来评估你的技能。如果你没有业绩记录的话,那么,个人项目就是最为接近的替代者。

[2] 当然,Ron 的尝试远非完美:X 公司为这个问题投入了比他更多的资源。但情况非常相似,他们很快就要求 Ron 将他的 repo 设为 private。


原文链接:
https://towardsdatascience.com/the-cold-start-problem-how-to-build-your-machine-learning-portfolio-6718b4ae83e9

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/276492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript 对象所有API解析【2020版】

写于 2017年08月20日,虽然是2017年写的文章,但现在即将2020年依旧不过时,现在补充了2019年新增的ES10 Object.fromEntries()。发到公众号申明原创。若川顺便在此提前祝大家:2020年更上一层楼。近日发现有挺多人对对象基础API不熟悉…

PHP生成各种验证码和Ajax验证

转载链接:http://www.helloweba.com/view-blog-191.html 验证码在WEB应用中非常重要,通常用来防止用户恶意提交表单,如恶意注册和登录、论坛恶意灌水等。本文将通过实例讲解使用PHP生成各种常见的验证码包括数字验证码、数字字母验证码、中文…

若川的2019年度总结,波澜不惊

从2014年开始写年度总结至今已经六个年头了。正如孔子所说:逝者如斯夫,不舍昼夜。2019年的年度总结写得比较晚,都快农历新年了,此刻在家里继续写完这篇文章。往年基本是元旦之后几天就写完了。我的年度总结尽量写得非技术人员也能…

如何正确选择仓储物流供应商?

如何正确选择仓储物流供应商? 以前有做电商的朋友向我咨询过怎么去选择优质的仓储物流供应商?有哪些能做作为关键问题进行参考。作为一个优秀的合作伙伴是可以为客户提供超乎预期的服务的,上海维佳供应链服务专业提供物流外包解决仓储物流供应…

Realtime Ray Tracing RenderMan Point Cloud

这里演示的是演示的是光线与包围盒测试。在装备Winfast 8800GT 512M的台式机上可以进行每秒4.6亿次点到射线的距离计算计算,用于判断点是否真正的与射线相交。外部数据的填充与准备延迟依旧是GPGPU应用的一个巨大门槛。白色是命中的包围盒,绿色的就是射线…

如何制定有价值的目标

写于2017年07月09日23:29现在修改发布到公众号声明原创公司会制定一系列目标,个人也可以制定一些目标,有利于自我学习成长。那么看我这篇文章可以告诉你如何制定有价值的目标。会制定有价值的目标,绝对超越很多人。SMART原则王健林之前说定个…

清除dns缓存命令行_怎么防止移动dns劫持,防止移动dns劫持要先了解什么是dns劫持...

本人以网络技术出身,近两年接触CDN网络,处理了一些CDN方面的网络问题,大多数以运营商丢包,延迟抖动为主,也处理一些硬件故障,比如机械硬盘的读写io测试,内存条兼容性测试,服务器IPMI…

移动硬盘格式化(pc和mac共用)-菜鸟级解决方案[转]

用pc的时候买了一个320G的移动硬盘,从来没考虑过什么格式化的问题,插上就用了。 后来接触mac才发现pc和mac在移动存储设备的格式化上还是有不少冲突的。如果你的移动硬盘mac上不能修改,或者pc上找不到,那就尽情得批判万恶的资本主…

回答知乎问题:你写过什么自认为惊艳的诗?

首次整理于 2019-07-27 22:04:00,现在整理发布在公众号申明原创。整理了一下大学期间2012年~2016年发布在QQ空间,自己感觉写得还行的七首“诗词”。回答知乎问题:你写过什么自认为惊艳的诗?中国古诗词博大精深。小时候…

密码可逆不可逆选择_膝关节损伤不可逆!跑步要注意!

膝盖同时也是运动者最常受伤的关节。根据美国运动医学整型外科协会的报告,美国每年约有三百万人拉伤、挫伤、或扭伤他们的膝部,其中约有一半是因为运动引起的。而对于跑者而言,影响最大的就是我们的膝关节。换言之,长跑的潜在危害…

面试官问:能否模拟实现JS的call和apply方法

写于2018年11月30日,发布在掘金上阅读量近一万,现在发布到微信公众号申明原创。相对比较基础的知识,虽然日常开发可能用得比较少,各种源码中有很多call和apply,需要掌握。前言这是面试官问系列的第三篇,旨在…

prometheus 发送恢复 值_Prometheus基础知识介绍

【编者的话】本文会让你了解Prometheus是什么,并让你理解它在监控领域的适用场景。Prometheus起源很久以前,加利福尼亚州山景城有一家名为Google的公司。他们推出了大量产品,其中最著名的是广告系统和搜索引擎平台。为了运行这些不同的产品&a…

面试官问:JS的this指向

写于2018年12月25日,发布在掘金上阅读量近一万,现在发布到微信公众号申明原创。前言这是面试官问系列的第四篇,旨在帮助读者提升JS基础知识,包含new、call、apply、this、继承相关知识。面试官问系列文章如下:感兴趣的…

要做PPT,一直找不到资源?

写于 2016年6月,工作后就很少做PPT了。但工作至今也有人问我如何做PPT有没有模板之类的问题(比如:大学室友做公司年度汇报时也找到我问有没有模板,我发了这篇文章给他,他说不记得我写了这篇文章呀)&#xf…

Linux系统安装Appach 2.4.6

转载链接:http://www.cnblogs.com/kerrycode/p/3261101.html Apache简介 Apache HTTP Server(简称Apache)是Apache软件基金会的一个开放源码的网页服务器,可以在大多数计算机操作系统中运行,由于其多平台和安全性被广…

学习 redux 源码整体架构,深入理解 redux 及其中间件原理

如果觉得内容不错,可以设为星标置顶我的公众号1. 前言你好,我是若川。这是学习源码整体架构系列第八篇。整体架构这词语好像有点大,姑且就算是源码整体结构吧,主要就是学习是代码整体结构,不深究其他不是主线的具体函数…

pdf安装包_有么有pdf控件,不需要用户安装任何安装包直接打印的?

如果开发一个软件,需要用到PDF功能,您的选择是基于Adobe PDF吗? 如果是基于Adobe PDF,需要用户安装一个几十M的Adobe的安装包,这显然是不友好的。即使目前也有了一些其它的阅读器,大小也还好。但是&#xf…

[转] C#异步操作

Title 通过委托实现异步调用中BeginInvoke及回调函数的使用 通过委托实现异步调用的步骤: 1.定义委托。 2.将要进行异步调用的方法“实例化”到定义的委托。 3.在委托上调用BeginInvoke方法。其中,BeginInvoke的参数由三个部分构成。第一部分&#xff1…

HTTP Server Error 500 内部服务器错误

问题:HTTP500错误 或 Server Application Error ------------------------------------Server Application ErrorThe server has encountered an error while loading an application during the processing of your request. Please refer to the event log for mo…

使用 ohmyzsh 打造 windows、ubuntu、mac 系统高效终端命令行工具

如果觉得内容不错,可以设为星标置顶我的公众号原标题名:oh my zsh 和 windows git bash 设置别名提高效率写于2018年06月03日在我的微信交流群中听闻很多前端开发比较贫穷,没有买mac电脑(比如我),也没有用过…