离谱!以AI数据标注为名,偷拍女性上厕所?

55adcf9775166dafe3bf6263dcfd20e4.jpeg

源|新智元
文|好困 David

你绝对想不到,自己在家上厕所的「实时动态」,不仅被拿去给AI做了训练数据,而且还被发到了网上!

343bf3561c33553889451a9f4d2f72e4.png

最近,《麻省理工科技评论》在一篇万字长文调查中,就曝光了这样触目惊心的一幕——

图中,一位女士穿着淡紫色T恤的年轻女子正坐在自家的马桶上,而她的短裤已经脱到了大腿中部。

f368a87876217a279125b69290c7c864.png

萌萌的TA竟然是个偷窥狂?

时间回到2020年秋天,一系列从低角度拍摄的照片突然出现在了网络论坛上。其内容全是家庭生活中场景——家具的陈列,电视播放的节目内容,甚至连家庭成员的脸都看得一清二楚。

比如在下面这张图中,一个八九岁的男孩,正趴在走廊的地板上,并很高兴地注视着面前的这个物体。

bd5000bc2d22c96ddeaa9d85f7697f28.png

根据爆料,这些图片全部由iRobot开发的Roomba J7系列扫地机器人拍摄,之后则会被发给Scale AI进行处理,也就是那个大名鼎鼎的人工智能数据标注公司。

Scale AI成立于2016年,在其专有的众包平台Remotasks上,公司会以十分低廉廉的费用与较不富裕国家的远程工人签订合同,并由此建立了一个非常成功商业模式。

而这家公司的创始人Alexandr Wang,曾经从MIT辍学并白手起家,并在今年也就是25岁时,成为了全球最年轻亿万富翁。

0f9e46b701218c0414decfb011756b07.png

值得注意的是,人脸信息在原图中其实是清晰可见的。

我们看到的灰框框,是《麻省理工科技评论》为了保护隐私特地手动打上去的。

be3cbec2e19b46eb84dff1abd49953c2.png

那么问题来了,这些信息理论上应该是在严格的存储和访问控制之下的。然而,实际情况却是,它们被负责标注的工人分享到了网上。

这些由机器人拍摄的画面展示了世界各地的家庭房间,有些是人住的,有些是狗住的。家具、装饰品和位于墙壁和天花板上的物体被矩形框勾勒出来,并附有「电视」、「植物或花」和「天花板灯」等标注。

1f07fe3f50257517237bada7dca41d3e.png

对此,世界上最大的扫地机器人供应商iRobot证实,这些图像是由自家的Roombas在2020年拍摄的。

公司在一份声明中表示,所有这些图像都来自 「经过硬件和软件修改的特殊开发机器人,这些机器人现在和将来都不会出现在iRobot的消费者产品上」。

此外,iRobot还表示,他们已经与Scale AI分享了超过200万张图片,并与其他数据标注平台分享了数量不详的图片。

50c95a898f2b82968f3973e012648c51.png

机器学习革命带来了什么?

今天,越来越多的扫地机器人已经转向计算机视觉,通过训练算法从图像和视频中提取信息来接近人类的视觉,甚至配备激光雷达,该技术被广泛认为是当今市场上最精确但最昂贵的导航技术。

计算机视觉依赖于高清摄像头,越来越多的公司在其机器人真空吸尘器中安装了前置摄像头,用于导航和物体识别,以及越来越多的家庭监控。

为了使扫地机器人中的计算机视觉真正按预期工作,需要在高质量、多样化的数据集上对其进行训练,以反映它们可能看到的巨大范围。与自动驾驶汽车相比,扫地机器人面临的家庭环境更难以标准化,训练难度可想而知。

ecbe093c9922d5cf92131d677424217a.png

这时候,训练数据往往需要是更加个性化、私密化的,而且需要以大量的用户基数为支撑,收集这样的数据,需要用户的同意。

以本文iRobot为例,其95%以上的图像数据集来自真实的家庭,这些家庭成员要么是iRobot的员工,要么是由第三方数据供应商招募的志愿者。

根据iRobot的一份声明,使用开发设备的人同意让iRobot在设备运行时收集数据,包括视频流,并可由此换取「奖励」。

但公司拒绝说明这些激励措施是什么,只说它们「根据数据收集的长度和复杂性」而有所不同。

01627208e05008ebe98f1354d8d802e3.png

《麻省理工科技评论》采访的大多数扫地机器人公司明确表示,他们不使用客户数据来训练他们的机器学习算法。

然而,在东北大学研究物联网设备安全漏洞的博士生Dennis Giese在对这些机器人进行逆向工程之后发现,它们的管理软件中有一个名为「AI服务器」的文件夹,并有图像上传功能。

这么看来,这些公司所谓的「摄像头数据永远不会被发送到云端」,其实很难成立。

但即便如此,如果这些公司自己不说,或者没有遭到黑客攻击的话,没有人能够验证他们以「训练模型」为由从客户那里具体收集了什么。

1d66ba00d7971c06e0cc84b835abec08.png

我们的数据是怎么泄露的?

众所周知,机器学习算法的训练,需要投喂大量的数据。过程中所依赖的标注数据,则需要消耗非常多的人力资源才能完成。

作为一个新兴但不断增长的行业,数据标注预计到2030年将达到133亿美元的市场价值。

目前来说,负责对数据进行标注的,通常是发展中国家的低薪合同工。

他们通过转录低质量的音频改善语音识别软件,并通过标记照片和视频帮助扫地机器人识别环境中的物体。

7c617a444286babd2c309708cfcc3ec7.gif

2020年,Scale AI发布了一项全新的任务——Project IO。

其特点是,视角从地面以大约45度向上,图像内容为世界各地的墙壁、天花板和地板,以及上面的各种东西,当然也包括人。

通常来说,这些负责标注的工人会在Facebook、Discord和其他社交平台上建群,然后在其中讨论和工作有关的各种问题,比如分享处理延迟付款的建议,谈论报酬最好的任务,或请其他人帮忙等等。

bc44bc8f365e1845ebe397c30f025423.png

对此,iRobot表示,在社交媒体群组中分享图片违反了Scale与它的协议;Scale AI也表示,合同工分享这些图片违反了他们自己的协议。

但现实情况是,这种行为在众包平台上是几乎不可能被监管到的。

惊喜:你可能已经同意了!

扫地机器人制造商自己也认识到设备上的摄像头带来的更大的隐私风险。

对于摄像头带来的隐私风险,iRobot表示,公司已经对此采取很多保护措施,包括使用加密,定期修补安全漏洞,限制和监控内部员工对信息的访问,并向客户提供有关其收集的数据的详细信息。

35f7d682c13b0749526e3e2fac349682.png

但是,公司谈论隐私的方式和消费者理解隐私的方式之间存在很大差距。

Mozilla的隐私安全项目的研究员Jen Caltrider表示,在企业看来,数据安全指的是产品的物理和网络安全,或者它对黑客或入侵的脆弱性。而数据隐私是关于透明度:知道并能够控制公司拥有的数据,如何使用,为什么分享,是否保留、以及保留多久等等。

e234f7d73fa779387ca9fbffb500b8ae.png

他们有时会使用微妙的措辞差异,比如使用「共享」数据,而不是出售数据,这使得如何处理隐私对于非专业人士来说特别难以解析。

只不过,当一家公司说它永远不会出售你的数据时,它很可能会使用或与他人分享这些数据。

根据公司措辞含糊的隐私政策,这些广泛的数据收集定义往往是合乎规定的,几乎所有的隐私政策都包含一些条款,允许将数据用于「改善产品和服务」,用语非常广泛,基本上拿来干什么都行。

事实上,《麻省理工科技评论》审查了12个扫地机器人的隐私政策,所有这些政策,包括iRobot的,都包含类似的表述。

此外,大部分公司也都没有回应关于所谓「产品改进」是否包括机器学习算法的问题。

e91d851fb283c57aeeaf6654ea36e6a2.png

在隐私条款中列明的「不公平」或「欺骗性」的做法,基本上都是狭义的,也就是说,除非隐私政策明确规定 「嘿,我们不会让承包商看你的数据」,然后还是分享了数据,否则公司方面在法律上就是没问题的。

扫地机器人,只是个开始

对数据的渴求在未来几年只会增加。扫地机器人只是在我们生活中大量出现的联网设备中的一小部分,而扫地机器人领域的大公司,包括iRobot、三星、Roborock和戴森等,都表示出了比「扫地」更宏大的野心。

机器人技术,包括家用机器人技术,长期以来一直是真正的香饽饽。而且,真正的重点不在于扫地,而在于机器人。

eedb560c5e3dc5fc1403a02c21ea2104.jpeg

2018年,时任iRobot技术高级副总裁的Mario Munich就在一次演讲中解释过这个问题。

在关于该公司第一台计算机视觉扫地机器人Roomba 980的演示中,他展示了来自该设备有利位置的图像:包括一个有桌子、椅子和凳子的厨房,旁边是机器人算法对它们的标记和感知。

实际上的挑战不在于吸尘,而在于机器人,他解释说。如果我们能够更充分了解环境,就能够改变机器人的操作。

a75cc30c266636100c6c93346e2477f2.png

制造扫地机器人的公司已经在投资其他功能和设备,使我们更接近机器人的未来。

可想而知的是,这样的业务多样化大潮,带来的是对数据标注在深度和广度上巨大需求的双重增长,一旦这种需求没有有效监督,或者超出了监管的能力,对隐私的侵犯就变得几乎不可避免。

而很多时候,这种侵犯是以一种便捷、易用、智能的方式进行的。

5a8b3880d54e2d753f20b6315c57692f.jpeg

后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 e3da548ec4caed52c3a175e5edfd2823.png

[1]https://www.technologyreview.com/2022/12/19/1065306/roomba-irobot-robot-vacuums-artificial-intelligence-training-data-privacy/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476494.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

treemap怎么保证有序_干货!208道面试题教你怎么通过面试!

[如您对本文感兴趣,请点击标题下方蓝色“拓达IT训练营”添加关注,每天都有精彩实用文章呈现给您]一、Java 基础1.JDK 和 JRE 有什么区别?2. 和 equals 的区别是什么?3.两个对象的 hashCode()相同,则 equals()也一定为 …

看美女无数

看美女无数——代腾飞 2008年9月30日 于成都漫漫长假,却不知如何渡大千世界,却找不到去处只好独自骑着车儿压马路 来来往往,美女无数虽闭城不出,却也大饱眼福知足,知足 坐看春熙路,看美女购物熙来攘往&am…

LeetCode 107. 二叉树的层次遍历 II(队列)

1. 题目 给定一个二叉树,返回其节点值自底向上的层次遍历。 (即按从叶子节点所在层到根节点所在的层,逐层从左向右遍历) 例如: 给定二叉树 [3,9,20,null,null,15,7],3/ \9 20/ \15 7 返回其自底向上的层次遍历为…

什么是document对象?如何获取文档对象上的元素?_dom对象

DOM对象1. DOM树当网页被加载时,浏览器会创建页面的文档对象模型(Document Object Model),通过 HTML DOM对象,可访问 JavaScript HTML 文档的所有元素。HTML DOM 模型被构造为对象的树。节点(Node):HTML文档…

用python生成云词汇_用python生成词云wordcloud

代码如下:import wordcloudimport jiebaexcludes{"将军","却说","二人","不可","荆州","不能","如此","商议","如何","主公","军士","左右&q…

JavaScript在内层循环中断外层循环

很少见的用法…… var elem1 [1,2,3,5,6];var elem2 [7,5,0];label1 : { for (var i 0; i < 10; i) { for (var j 0; j < 10; j) { if (elem1[i] elem2[j]) { break label1; } } }} 转载于:https://www.c…

综述论文:机器学习中的模型评价、模型选择与算法选择!

源&#xff5c;机器之心本论文回顾了用于解决模型评估、模型选择和算法选择三项任务的不同技术&#xff0c;并参考理论和实证研究讨论了每一项技术的主要优势和劣势。进而&#xff0c;给出建议以促进机器学习研究与应用方面的最佳实践。论文链接&#xff1a;https://sebastianr…

阿里巴巴后台的使用体验

今天花了点时间&#xff0c;使用了一下阿里巴巴的会员后台&#xff0c;感叹一句“它的成功是有它的道理的”。在功能模块的使用上&#xff0c;它都提供了帮助&#xff0c;这种帮助不是简单的一个列表或者一篇文章&#xff0c;而是一种层次性的服务。首先会有一个所对应的功能模…

LeetCode 167. 两数之和 II - 输入有序数组(双指针)

1. 题目 给定一个已按照升序排列 的有序数组&#xff0c;找到两个数使得它们相加之和等于目标数。 函数应该返回这两个下标值 index1 和 index2&#xff0c;其中 index1 必须小于 index2。 说明: 返回的下标值&#xff08;index1 和 index2&#xff09;不是从零开始的。你可…

lcd液晶字体_等离子电视与液晶电视的区别

阅读本文前&#xff0c;请您先点击上面的蓝色字体&#xff0c;再点击“关注”&#xff0c;这样您就可以继续免费收到最新文章了。每天都有分享。完全是免费订阅&#xff0c;请放心关注。注&#xff1a;本文转载自网络&#xff0c;不代表本平台立场&#xff0c;仅供读者参考&…

母版中menu控件上传后出现脚本错误

这几天帮朋友做个小网站&#xff0c;为了网站更容易扩展&#xff0c;所以使用了.menu控件做网站导行&#xff0e;本来在做的时候没出错&#xff0c;可上 传之后却显示不出&#xff0c;动态菜单的部分&#xff0c;并且提示脚本错误&#xff0e;于是乎上网开始找答案&#xff0c;…

python编程入门课_程序设计入门—Python

知识单元一&#xff1a;程序设计语言基础第1周&#xff1a;程序设计的基础知识教学内容&#xff1a;计算的基本概念&#xff0c;计算机程序设计语言的历史&#xff0c;Python语言的发展简史及语言的特点&#xff0c;程序设计语言的基本语法教学要求&#xff1a;了解冯诺依曼计算…

稚晖君被曝离职华为!两年前加入华为天才少年计划,下一步创业方向是机器人...

文&#xff5c;羿阁 萧箫 发自 凹非寺源&#xff5c;量子位以“天才少年”身份加入华为的稚晖君&#xff0c;被曝已经离职&#xff0c;将开启创业&#xff01;虽然本人还没公开确认这一消息&#xff0c;但据华为员工爆料&#xff0c;目前华为内部已经搜不到对应的工号。要知道&…

python调用shell该引用到什么类_python调用shell, shell 引用python

标签&#xff1a;python 调用 shellget_line_num"wc -l as_uniq_info | awk ‘{print $1}‘" ###get the lines of "as_uniq_info"line_num os.popen(get_line_num).read().strip(‘\n‘)get_line_num 作为shell执行的命令&#xff0c;会取得文件as_uniq_i…

对抗机器学习逐年火爆,成蓝海赛道|附6篇必刷论文

对抗机器学习&#xff0c;是一种利用对抗博弈思想的机器学习技术&#xff0c;通过在Google Trends上对“对抗机器学习”进行检索发现&#xff0c;该领域检索热度逐年上升。今天给大家分享一个好出文章的对抗机器学习研究方向——人脸识别&#xff01;人脸对抗样本攻击的形式主要…

Windows CE.0002.ERROR:Image is too large for current RAM and RAMIMAGE settings.

在编译WinCE项目时&#xff0c;遇到ERROR:Image is too large for current RAM and RAMIMAGE settings.时&#xff0c;请将 下图所示选项选中&#xff0c;即可解决。 转载于:https://www.cnblogs.com/dingzhaofeng/archive/2008/10/16/1312538.html

王喆:计算广告技术综述与思考

‍编&#xff5c;王喆 源&#xff5c;DataFunTalk导读&#xff1a;大家好&#xff0c;我是《深度学习推荐系统》的作者王喆&#xff0c;很多同行可能读过这本系统性介绍推荐系统的书&#xff0c;但大多数人可能不知道我职业生涯的头四年都在做广告系统&#xff0c;之后才在推荐…

cpython 标准库_Python re标准库

re模块包含对正则表达式的支持。一、什么是正则表达式正则表达式是可以匹配文本片段的模式。最简单的正则表达是就是普通字符串&#xff0c;可以匹配其自身。你可以用这种匹配行为搜索文本中的模式&#xff0c;或者用计算后的值替换特定模式&#xff0c;或者将文本进行分段。1、…

NHibernate之旅(4):探索查询之条件查询(Criteria Query)

本节内容 NHibernate中的查询方法条件查询(Criteria Query)1.创建ICriteria实例2.结果集限制3.结果集排序4.一些说明根据示例查询(Query By Example)实例分析结语上一节&#xff0c;我们介绍了NHibernate查询语言的一种&#xff1a;NHibernate查询语言(HQL&#xff0c;NHiberna…

LeetCode 205. 同构字符串(哈希map)

1. 题目 给定两个字符串 s 和 t&#xff0c;判断它们是否是同构的。 如果 s 中的字符可以被替换得到 t &#xff0c;那么这两个字符串是同构的。 所有出现的字符都必须用另一个字符替换&#xff0c;同时保留字符的顺序。 两个字符不能映射到同一个字符上&#xff0c;但字符可…