读技术之外:社会联结中的人工智能04数据

news/2025/10/9 6:48:37/文章来源:https://www.cnblogs.com/lying7/p/19105421

读技术之外:社会联结中的人工智能04数据

1. 数据

1.1. NIST

  • 1.1.1. 美国国家标准与技术研究所 (National Institute of Standards and Technology, NIST)

  • 1.1.2. NIST成立于1901年,旨在加强国家测量基础设施建设,并为与工业化世界中的经济竞争对手(如德国和英国)进行竞争而制定标准

  • 1.1.3. 从电子健康记录到抗震摩天大楼,再到原子钟等,一切都在NIST的管辖范围内

  • 1.1.4. 成为时间、通信协议、无机晶体结构、纳米技术的测量机构

  • 1.1.5. 目标,是定义和支持各类标准,以使系统之间具有互操作性,现在,开发人工智能标准也被纳入NIST的工作范畴之中

  • 1.1.6. 为生物识别数据而设置的测试基础设施,便是NIST需要维护的内容之一

1.2. 面部照片本身很容易给人留下深刻的印象

  • 1.2.1. 面部照片是当前AI创造方法的原始基础

  • 1.2.2. 人类脸部数据是构建面部识别系统的核心

  • 1.2.3. 照片被设计为机器可读,并非用于人眼观看,但它们却可以带来非同寻常的视觉效果

1.3. 从在执法系统中识别特定个体,转变成为测试用于检测人脸的商业和学术AI系统的技术基准

  • 1.3.1. 面部照片是技术现实主义传统的一部分,旨在“提供罪犯的标准画像”​

1.4. 发明入案照片的阿尔方斯·贝蒂永(Alphonse Bertillon)等犯罪学家将其视为一种个人生平身份识别的机制,是发现惯犯所必需的

1.5. 弗朗西斯·高尔顿(Francis Galton)

  • 1.5.1. 统计学家和优生学奠基人

  • 1.5.2. 将囚犯的复合肖像作为检测生物学上确定“犯罪类型”的一种方法

  • 1.5.3. 基于一种面相学者的范式,其目标是找到一种通用的外观,以从外表中识别出深刻的性格特征

  • 1.5.4. 当面部照片被用作训练数据时,它们不再作为识别工具来发挥作用,而是用于微调一种自动化的视觉形式

  • 1.5.5. 面部照片用于检测面部的基本数学成分,以“将自然还原为其几何本质”

1.6. 面部照片构成了用于测试面部识别算法的档案的一部分

  • 1.6.1. 多重遭遇数据集中的人脸已成为标准化图像,成为一种比较算法准确性的技术基础

1.7. 照片中描绘的人及其家人都对这些图像的使用方式没有任何发言权,甚至对于他们是人工智能测试平台的一部分的事实可能毫不知情

  • 1.7.1. 这些人不被视为个人,而是作为共享技术资源的一部分—只是作为另一种面部识别验证测试程序的数据组件,这就是该领域备受推崇的“黄金标准”​

1.8. 一切都是数据,且随时可被使用

1.9. 图像是在没有背景信息和未经同意的情况下,从互联网或国家机构获取的

  • 1.9.1. 并不中立

  • 1.9.2. 代表着个人的历史、结构性的不平等,并与美国治安和监狱系统历史中的所有不公正为伴

  • 1.9.3. 这些图像能够以某种方式作为非政治性的惰性材料的假设,影响了机器学习工具“观察”的方式和内容

  • 1.9.4. 任何单个图像都可以轻松被另一个图像替换,系统依然会以同样的工作方式来运行

  • 1.9.5. 从互联网和社交媒体平台这些不断壮大且分布在全球的宝库中总能获取更多的数据

1.10. 如今,所有可公开访问的数字资料—即使是隐私的或可能具有破坏性的—都被一视同仁地抓取并收集到训练数据集中,用于为诸如治安维持、广告推广、文本翻译以及招聘自动化等应用生成AI模型

2. 让机器“看见”

2.1. 图像解释是一项极其复杂且关联性较强的工作,它在计算机科学领域很少被讨论

2.2. 图像是非常不稳定的,它们承载了多种潜在的意义、无法解决的问题以及矛盾

2.3. 真相不再是现实表征或取得共识的现实,而是从各种可用的在线资源中抓取的混乱图像

2.4. 人类工程师通过向计算机提供被标记的训练数据,来监督机器学习的效果

  • 2.4.1. 学习器是在这些被标记的数据示例上进行训练的算法

  • 2.4.2. 然后它会通知分类器,如何最佳地分析新输入的数据和预期输出数据或预测结果之间的关系

2.5. 正确的被标记数据的示例越多,算法就越能产生准确的预测

  • 2.5.1. 机器学习模型有很多种,包括神经网络、逻辑回归和决策树

2.6. 所谓的归纳推理,一种基于可用数据的开放假设,而不是从前提之上遵循逻辑推导出来的演绎推理

  • 2.6.1. 训练数据集是大多数机器学习系统进行推理的核心

    • 2.6.1.1. 它们是AI系统用来生成预测基础的主要原材料
  • 2.6.2. 训练数据不仅定义了机器学习算法的特征,还被用于评估算法随着时间推移的表现

2.7. 最著名的比赛之一是图网(ImageNet)挑战赛,研究人员在比赛中相互竞争,来看谁的方法可以最准确地分类和检测物体和场景

  • 2.7.1. 新的训练集继承了早期案例中的学习逻辑,然后衍生出了后续的案例

2.8. 训练数据是构建当代机器学习系统的基础

  • 2.8.1. 训练数据是现实情况的一种脆弱的形态

  • 2.8.2. 即使是最大的数据库也无法避免在一个无限复杂的世界被简化和分类时出现的基本滑移

3. 数据需求简史

3.1. 妇女通常只被认为是能够理解数据记录的输入设备

  • 3.1.1. 历史学家詹妮弗·莱特(Jennifer Light)

  • 3.1.2. 从事实的角度来看,她们加工数据和运行系统的角色,与设计战时数字计算机的工程师的角色一样重要

  • 3.1.3. 数据和处理系统之间的关系,已经被认为是一种无休止的消耗

  • 3.1.4. 机器需要大量的数据,并且肯定将从数百万人中提取广泛的素材

3.2. 语音识别

  • 3.2.1. 语音识别的问题最初是通过语言学方法来解决的

  • 3.2.2. 一个重要的案例来自IBM研究所的语音识别团队

    • 3.2.2.1. IBM并不是唯一一个开始大量收集词汇数据的组织
  • 3.2.3. 他们的技术为Siri和龙语音(Dragon Dictate)的语音识别系统,以及谷歌翻译和微软翻译等机器翻译系统奠定了基础

3.3. 若想使该统计学方法发挥作用,就需要大量真实的语音和文本数据或是训练数据

  • 3.3.1. 将语音从根本上简化为数据,以在缺乏语言知识或理解的情况下对其进行建模和解释

  • 3.3.2. 语音变得不再重要

3.4. 从内容简化到数据,从意义简化到统计模式识别

  • 3.4.1. 对数据原则而非语言原则的依赖带来了一系列新的挑战,因为这意味着统计模型必然由训练数据的特征决定

  • 3.4.2. 数据集不仅改善了随机过程的概率估计,而且增加了数据捕获更罕见结果的概率

3.5. 文本档案被视为语言的中立集合,就如同技术手册中的词语与同事们邮件交流的用语之间存在等价性一样

  • 3.5.1. 所有文本都是可重复利用和可交换的,只要有足够的文本,便可以训练出一个语言模型,并以非常高的成功率预测出词语的前后顺序

  • 3.5.2. 语言不是一种惰性物质,无论在哪里获取的语言数据都不会完全以相同的方式运行

3.6. 语言是没有中立基础的,所有的文本集合都有时间、地点、文化和政治的痕迹

  • 3.6.1. 一些语言由于缺少可用数据,人们无法使用此类研究方法进行分析,于是失去了关注

3.7. 系统底层数据的来源是非常重要的

  • 3.7.1. 依然没有标准方法来记录所有这些数据的来源或获取的方式

  • 3.7.2. 更不用提数据获取方式的伦理问题

  • 3.7.3. 这些数据集包含的会影响所有依赖他们的系统的偏差类型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/932239.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

做的比较简约的网站有哪些免费做电子名片的网站

在Ubuntu中,你可以使用du命令来查看文件夹的大小。du命令的全称是"disk usage",用于估计和显示目录或文件的磁盘使用空间。 如果你想查看某个特定文件夹的大小,你可以使用以下命令: du -sh /path/to/directory在这个命…

国家知识产权专利网官网电影网站怎么做优化

[html] input上传图片怎样触发默认拍照功能? 使用 capture 属性,capture 的值可以是:camera 打开摄像头user 打开前置摄像头environment 打开后置摄像头以上几个属性都不能保证设备会按照设置的一样打开前置或后置摄像头,如果设备…

泉州网站建站模板广州网站商城建设

剑指 Offer 20. 表示数值的字符串、29. 顺时针打印矩阵、31. 栈的压入、弹出序列、67. 把字符串转换成整数 题目描述: [20] 请实现一个函数用来判断字符串是否表示数值(包括整数和小数)。 数值(按顺序)可以分成以下几…

大兴网站开发phpmysql做网站

硬件产品的成本构成一款硬件产品的成本由许多因素构成,主要可以归为三类:研发成本、产品边际成本和服务成本。这里借用了经济学中的一个概念:边际成本,即增加一单位的产量所带来的成本增加量。对于任何一款硬件产品,每…

宜昌网站推广免费响应式企业网站源码

《软件设计的哲学》(A Philosophy of Software Design)是一本在软件架构与设计领域颇具影响力的书籍,作者 John Ousterhout 在书中分享了诸多深刻且实用的软件设计理念。书中列举的这些设计原则,汇聚了作者丰富的实战经验与深邃的…

建设网站应达到的目的和作用wordpress博客优化插件

1.引用变量 应用变量和指针十分相似,但是要注意二者的区别;例如,引用变量在声明引用时也要初始化,而不能像指针那样先声明再赋值。引用更接近const 指针。 int rat; int & rats rat; //int & rat…

平面设计网站灵感在线制作免费生成水印

图像按矩阵缩放:Matrix matrix new Matrix();matrix.postScale(...);matrix.postTranslate(...);matrix.postRotate(...);...我希望缩放的图像不会小于原始图像的一半,因此总变焦不应小于0.5.但是怎么做呢?我试图获取矩阵的第一个值来检查:f…

Potplayer Official Download LINK

http://potplayer.tv/ https://potplayer.daum.net/64 BIT: https://t1.daumcdn.net/potplayer/PotPlayer/Version/Latest/PotPlayerSetup64.exe

佛山企业网站建设渠道北京企业名录

文章目录 完全背包518. 零钱兑换 II (求组合方法数)思路分析代码实现思考总结 377. 组合总和 Ⅳ (求排列方法数)思路分析代码实现思考总结 完全背包 完全背包和01背包问题唯一不同的地方就是,每种物品有无限件。 依然举这个例子: 背包最大重量为4。 物…

各大网站提交入口网址空间中国网站

中介者(Mediator)模式是一种行为设计模式,它定义了一个对象来封装一组对象之间的交互。中介者对象负责控制和协调这些对象之间的交互,使得这些对象不需要显式地相互引用,从而降低它们之间的耦合。 以下是一个简单的中…

二廿计划(25.10.09 - 25.10.29)

目录09-13 15-18 19-23 24-2809-13 09本文来自博客园,作者:cwkapn,转载请注明原文链接:https://www.cnblogs.com/cwkapn/p/19129771

本地做那种网站好一些邯郸网站制

在使用R语言进行数据可视化的时候,常常需要将多张统计图表绘制在同一张图上面,从而更高效地传递信息,下面我们就来一起看看具体如何实现。一、使用R语言自带的函数绘制的图像R语言本身就已经内置了许多绘图函数,能够满足较为基本的…

阴阳师网站怎么做设计中国第一架飞机

1.首先,我是因为重装了ubantu系统,不得不重新配置ssh 2.第一步,在本机的终端安装ssh插件: (1) (2)restart开启这个ssh端口 3.然后,就在vscode里面,安装哪个…

商标查询网站医疗器械分类目录2021

5、hue整合oozie 第一步:停止oozie与hue的进程 通过命令停止oozie与hue的进程,准备修改oozie与hue的配置文件 第二步:修改oozie的配置文件(老版本的bug,新版本已经不需要了)这一步我们都不需要做了 修改ooz…

建网站学什么专业云游戏平台网页版

以占用内存的方式修改文件 待修改的文件 word1.txt,文件内容如下:现在要将文中的“汪淼”修改为“WM”,代码如下:#!-*-coding:utf-8-*- old_str 汪淼 new_str WM f1 open(word1.txt,r,encoding"utf-8") #…

怎么用ps切片在dw里做网站深圳网站建设制作设计平台

前言 在构建分布式系统时,选择适合的消息中间件是至关重要的决策。RabbitMQ、Kafka、ActiveMQ 和 RocketMQ 是当前流行的消息中间件之一,它们各自具有独特的特点和适用场景。本文将对这四种消息中间件进行综合比较,帮助您在项目中作出明智的…

网站充值接口怎么做新加坡网站后缀

MinGW:一个可自由使用和自由发布的Windows特定头文件和使用GNC工具集导入库的集合,允许你生成本地的Windows程序而不需要第三方C运行时 MinGW,即 Minimalist GNU For Windows。它是一些头文件和端口库的集合,该集合允许人们在没有第三方动态链…

网站建设 爱诚科技公司通用网址通用网站查询

序 unity是自带天空盒的: 但有的时候不想用自带的。怎么自定义?如何设置? 官方文档 Unity - Manual: The Lighting window (unity3d.com) 相关窗口的打开方法 天空盒对应的选项 实际操作 从标准材质球到天空盒材质球 新建一个材质球&…

路灯东莞网站建设一个vps主机放两个网站 速度

很多书籍中Eclipse的快捷键Ctrl Space在中文系统中被Alt / 代替转载于:https://www.cnblogs.com/jubincn/archive/2012/04/19/3381206.html