石家庄货运做网站公司河间做网站 申梦网络
web/
2025/10/5 15:25:37/
文章来源:
石家庄货运做网站公司,河间做网站 申梦网络,做旅游网站的设计感想,互联网公司花名推荐一、什么是计算机视觉
定义#xff1a;计算机视觉#xff08;Computer vision#xff09;是⼀⻔研究如何使机器“看”的科学#xff0c;更 进⼀步的说#xff0c;就是指⽤摄影机和计算机代替⼈眼对⽬标进⾏识别、跟踪和测量 等#xff0c;⽤计算机处理成为更适合⼈眼观察…
一、什么是计算机视觉
定义计算机视觉Computer vision是⼀⻔研究如何使机器“看”的科学更 进⼀步的说就是指⽤摄影机和计算机代替⼈眼对⽬标进⾏识别、跟踪和测量 等⽤计算机处理成为更适合⼈眼观察或传送给仪器检测的图像。
比如下图做到的不仅仅是检测到图像前景中有四个⼈、⼀条街道和⼏辆⻋。除了这些基本信息⼈类还能够看出图像前景中的⼈正在⾛路其中⼀⼈⾚脚我们甚⾄知道他们是谁。我们可以理性地推断出图中⼈物没有被⻋撞击的危险⽩⾊的⼤众汽⻋没有停好。⼈类还可以描述图中⼈物的穿着不⽌是⾐服颜⾊还有材质与纹理。⼈类能够理解和描述图像中的场景。 1.2 区分计算机视觉与其相关领域 计算机视觉图像处理图像分析机器⼈视觉和机器视觉是彼此紧密关联的学科。
1、计算机视觉的研究很⼤程度上针对图像的内容。如果你翻开带有上⾯这些名字的教材你会发现在技术和应⽤领域上他们都有着相当⼤部分的重叠。这表明这些学科的基础理论⼤致是相同的甚⾄让⼈怀疑他们是同⼀学科被冠以不同的名称。然⽽各研究机构学术期刊会议及公司往往把⾃⼰特别的归为其中某⼀个领域于是各种各样的⽤来区分这些学科的特征便被提了出来。下⾯将给出⼀种区分⽅法尽管并不能说这⼀区分⽅法完全准确。
2、图像处理旨在处理原始图像以应⽤某种变换。其⽬标通常是改进图像或将其作为某项特定任务的输⼊⽽计算机视觉的⽬标是描述和解释图像。例如降噪、对⽐度或旋转操作这些典型的图像处理组件可以在像素层⾯执⾏⽆需对图像整体具备全⾯的了解。
3、机器视觉主要是指⼯业领域的视觉研究例如⾃主机器⼈的视觉⽤于检测和测量的视觉。这表明在这⼀领域通过软件硬件图像感知与控制理论往往与图像处理得到紧密结合来实现⾼效的机器⼈控制或各种实时操作。
1.2 计算机视觉应用方向
⽬前CV公司⽐较集中的技术赛道有⼈脸识别、⾃动驾驶、医疗图像等但⽬前⽽⾔商业化落地最快的还是⼈脸识别及其业务相关的⼀些技术⽐如银⾏会⽤到⼈脸和⾃然场景下的OCR⽂字识别还有浸⼊式⼤数据⻛控安防会⽤到⼈脸、⼈体、⻋辆与⼤数据分析等。 1.2.1 行为跟踪
实体零售店利⽤计算机视觉算法和摄像头了解顾客及其⾏为。计算机视觉算法能够识别⼈脸确定⼈物特征如性别或年龄范围。此外零售店还可以利⽤计算机视觉技术追踪顾客在店内的移动轨迹分析其移动路线检测⾏⾛模式并统计零售店店⾯受到⾏⼈注意的次数。 添加视线⽅向检测后零售店能够回答这⼀重要问题将店内商品放在哪个位置可以提升消费者体验最⼤化销售额。计算机视觉还是开发防盗窃机制的强⼤⼯具。⼈脸识别算法可⽤于识别已知的商店扒⼿或检测出某位顾客将商品放⼊⾃⼰的背包。
1.2.2 医疗行业
在医疗⾏业中现有计算机视觉应⽤的数量⾮常庞⼤。毫⽆疑问医疗图像分析是最著名的例⼦它可以显著提升医疗诊断流程。此类系统对 MRI 图像、CT 扫描图像和 X 光图像进⾏分析找出肿瘤等异常或者搜索神经系统疾病的症状。在很多情况下图像分析技术从图像中提取特征从⽽训练能够检测异常的分类器。但是⼀些特定应⽤需要更细化的图像处理。
例如对结肠镜检查图像进⾏分析时分割图像是必要的这样才能找出肠息⾁防⽌结直肠癌。 上图是观察胸腔元素所需的图像分割结果。该系统分割每个重要部分并着⾊肺动脉蓝⾊、肺静脉红⾊、纵膈⻩⾊和横膈紫⾊。⽬前⼤量此类应⽤已经投⼊使⽤如估计产后出⾎量、量化冠状动脉钙化情况、在没有 MRI 的情况下测定⼈体内的⾎流量。 但是医疗图像并⾮计算机视觉在医疗⾏业中唯⼀的⽤武之地。⽐如计算机视觉技术为视障⼈⼠提供室内导航帮助。这些系统可以在楼层平⾯图中定位⾏⼈和周围事物等以便实时提供视觉体验。视线追踪和眼部分析可⽤于检测早期认知障碍如⼉童⾃闭症或阅读障碍这些疾病与异常注视⾏为⾼度相关。
1.2.1 自动驾驶
你是否思考过⾃动驾驶汽⻋如何「看」路计算机视觉在其中扮演核⼼⻆⾊它帮助⾃动驾驶汽⻋感知和了解周围环境进⽽恰当运⾏。计算机视觉最令⼈兴奋的挑战之⼀是图像和视频⽬标检测。这包括对不同数量的对象进⾏定位和分类以便区分某个对象是交通信号灯、汽⻋还是⾏⼈如下图所示 此类技术加上对来⾃传感器和/或雷达等来源的数据进⾏分析使得汽⻋能够看⻅。
二、计算机视觉任务
2.1 计算机视觉发展历程
1、1963年Larry Roberts发表了可能是CV领域的第一篇专业论文用以对简单几何体进行边缘提取和三维重建。1966年麻省理工学院(MIT)发起了一个夏季项目目标是搭建一个机器视觉系统完成模式识别(pattern recognition)等工作。 从现在来看当时的目标确实定的过大以至于到了50多年后的今天为止即使CV领域有了数以千计的科学工作者仍然无法建立起整个机器视觉系统。 2、七十年代同样是在MIT学者David Marr发表的著作《Vision》从严谨又长远的角度给出了CV的发展方向和一些基本算法其中不乏现在为人熟知的“图层”的概念、边缘提取、三维重建等。 整个60年代到80年代虽然CV的概念已经提出了20年但是与“识别”相关的工作进展得并不顺利。除了上述些许学者们点燃的星星之火很难看到太多突破性的方法和文献。因此人们开始思考如果图像识别太困难了那为什么不先试试图像分割呢 3、1999年David Lowe提出了尺度不变特征变换SIFT, Scale-invariant feature transform目标检测算法用于匹配不同拍摄方向、纵深、光线等图片中的相同元素。 12001年在互联网泡沫的大背景下CV领域却发展得风生水起并再次取得重大突破性进展Paul Viola和Michael Johns使用Adaboost算法实现了实时性的人脸检测。而这一技术仅在5年后就被富士胶片公司(Fujifilm)用于产品中——首个带有实时人脸检测功能的照相机。2同一时期Lazbnik, Schmid 和 Ponce等人提出了空间金字塔匹配算法SPM, Spatial Pyramid Matching具有开创性地将图片进行分块和特征提取以验证图片间的相似度。Dalal和Triggs等人提出了进行人物识别的HoG特征Histogram of Gradient。2009年Felzenswalb, McAllester和Ramanan等人提出了可变形部件模型DPM, Deformable Parts Model。4、随着互联网的不断发展学习计算机视觉可用的图片资源越来越多 1Everingham等人在2006年至2012年间搭建了一个大型图片数据库供机器识别和训练称为PASCAL Visual Object Challenge该数据库中有20种类别的图片每种图片数量在一千至一万张不等。2后来Li Fei-fei等人搭建了图像数据库ImageNet总计两万两千种类别和一千四百余万张图片。通过训练ImageNet所给出的数据集识别错误率正逐年下降并在2015年就已经低于了正常人类的错误率。图中值得注意的是在2012年识别错误率突然下降了近10个百分点这得益于卷积神经网络CNNConvolutional Neural Network的运用或者更为大家所知晓的概念就是——深度学习(Deep Learning)。CNN在识别错误率上远低于同年的其他模型这标志着以深度学习为核心的CV时代正式开启。
2.2.2 典型的计算机视觉任务
计算机视觉基于大量不同任务并组合在一起实现高度复杂的应用。计算机视觉中最常见的任务是图像和视频识别涉及确定图像包含的不同对象。 四大主要任务 图像分类目标检测目标分割目标追踪 1、图像分类
计算机视觉中最知名的任务可能就是图像分类了它对给定图像进行分类。我们看一个简单的二分类例子我们想根据图像是否包含旅游景点对其进行分类。假设我们为此任务构建了一个分类器并提供了一张图像见下图。 我们要得出这张建筑图片是否是埃菲尔铁塔。 2、目标检测 目标检测通常是从图像中输出单个目标的Bounding Box边框以及标签
我们想象一个同时包含定位和分类的动作对一张图像中的所有感兴趣对象重复执行该动作这就是目标检测。该场景中图像中的对象数量是未知的。因此目标检测的目标是找出图像中的对象并进行分类。 在这个密集图像中我们可以看到计算机视觉系统识别出大量不同对象汽车、人、自行车甚至包含文本的标志牌。这个问题对人类来说都算困难的。一些对象只显示出一部分因为它们有一部分在图像外或者彼此重叠。此外相似对象的大小差别极大。目标检测的一个直接应用是计数它在现实生活中应用广泛从计算收获水果的种类到计算公众集会或足球赛等活动的人数不一而足。
3、语义分割Semantic Segmentation
我们可以把实例分割看作是目标检测的下一步。它不仅涉及从图像中找出对象还需要为检测到的每个对象创建一个尽可能准确的掩码。 你可以从上图中看到实例分割算法为四位披头士成员和一些汽车创建掩码不过该结果并不完整尤其是列侬。 还有实例分割与语义分割有所不同物体分割不仅需要对图像中不同的对象进行分类而且还需要确定它们之间的界限、差异和关系。 4、目标追踪 目标追踪旨在追踪随着时间不断移动的对象它使用连续视频帧作为输入。该功能对于机器人来说是必要的以守门员机器人举例它们需要执行从追球到挡球等各种任务。目标追踪对于自动驾驶汽车而言同样重要它可以实现高级空间推理和路径规划。类似地目标追踪在多人追踪系统中也很有用包括用于理解用户行为的系统如零售店的计算机视觉系统以及在游戏中监控足球或篮球运动员的系统。
其他任务技术 图像标注 Image Captioning 图像标注是一项引人注目的研究领域它的研究目的是给出一张图片你给我用一段文字描述它。根据图片生成描述文字图像生成Image Generator文字转图像超分辨率、风格迁移、着色 超分辨率指的是从低分辨率对应物估计高分辨率图像的过程以及不同放大倍数下图像特征的预测这是人脑几乎毫不费力地完成的。最初的超分辨率是通过简单的技术如bicubic-interpolation和最近邻。在商业应用方面克服低分辨率限制和实现“CSI Miami”风格图像增强的愿望推动了该领域的研究。风格转换作为一个主题一旦可视化是相当直观的比如拍摄一幅图像并用不同的图像的风格特征呈现。着色是将单色图像更改为新的全色版本的过程。最初这是由那些精心挑选的颜色由负责每个图像中的特定像素的人手动完成的。2016年这一过程自动化成为可能同时保持了以人类为中心的色彩过程的现实主义的外观。行为识别 行为识别的任务是指在给定的视频帧内动作的分类以及最近才出现的用算法预测在动作发生之前几帧的可能的相互作用的结果。人体姿势估计 人体姿势估计试图找出人体部位的方向和构型。 2D人体姿势估计或关键点检测一般是指定人体的身体部位例如寻找膝盖眼睛脚等的二维位置。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/87425.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!