大数据聚类分析用于预测_多模态数据中的非负矩阵分解用于分割和标签预测

引用

Akata Z, Thurau C, Bauckhage C. Non-negative matrix factorization in multimodality data for segmentation and label prediction[C]. 2011.

摘要

随着 Internet 上带注释的多媒体数据的可用性不断提高,要求有一种技术可以实现不同类型数据的原则性联合处理。多视图学习和多视图聚类试图以同时的方式识别不同特征空间中的潜在成分。所得的基向量或质心忠实地代表数据上的不同视图,但是隐式耦合,并且它们是联合估计的。这为诸如标签预测,图像检索或语义分组之类的问题开辟了新途径。本文提出了一种用于多视图聚类的新模型,该模型将传统的非负矩阵分解扩展到不同数据矩阵的联合分解。因此,该技术为图像部分和属性的联合处理提供了一种新方法。图像分割和图像特征与图像标签的多视图聚类的首次实验显示出令人鼓舞的结果,并表明该方法为不同抽象级别的图像分析提供了一个通用框架。

1 动机和背景

社交网络的兴起和用户生成的内容运动已将 Internet 变成了一个几乎无限的,带有注释和评级的多媒体数据的存储库。例如,截至撰写本文时,flickr 上提供了超过 45 亿张图像,其中大多数由社区进行了标记,评级,分类和评估。这种发展为图像理解的研究提供了巨大的可能性,但同时也要求允许对不同类型的数据进行综合处理的方法。

我们的目标是对图像特征和图像标签进行原则上的联合处理。我们提出了一种用于多视图聚类的新技术,该技术可以同时确定不同特征空间中的潜在维数或质心向量。与诸如将不同类型的特征串联到单个描述符中的临时方法相反,多视图聚类忠实于不同描述符的不同特征。由于潜在分量或质心是联合估计的,因此多视图技术可进行高级推理。由于对于一个特征空间中的每个质心,在另一个空间中都有一个对应的质心,因此不同视图之间的转换非常简单。这为分割、自动图像标记或基于标签的图像检索提供了新的方法。

尽管它们具有悠久而古老的传统,但人们对多视图学习和多视图群集有了新的兴趣。可以同时发现不同空间中潜在成分的方法的典型示例是 Hotelling 的典型相关分析(CCA),该方法最近已经提出了核化和概率扩展。其他最近的发展考虑了将频谱聚类扩展到编码不同类型相似性的多个图。

我们的多视图聚类新方法将非负矩阵分解(NMF)扩展到几个数据矩阵的联合分解。它是出于以下注意事项:

1)与主成分分析(PCA)或奇异值分解(SVD)相似,CCA 不一定对诸如颜色直方图或项频率向量之类的纯非负数据具有合理性。但是,非负矩阵分解通常会产生可被视为基于零件的表示并适应人类感知的结果。

2)基于相似度矩阵的光谱聚类的方法随数据数量呈二次方缩放,因此在现代的大规模数据和图像分析问题中是禁止的。

3)另一方面,对于 NMF,存在有效的算法,该算法可将数十亿个条目的矩阵分解,这可能适用于多视图设置。

在下一部分中,我们阐明矩阵分解和聚类之间的关系。然后,在第 3 节中,我们根据研究现状简要回顾了 NMF,并将这种方法扩展到不同数据矩阵的联合分解。在第 4 节中,我们介绍了在图像分割,标签预测和图像检索中使用多视图 NMF 的实验。

2 矩阵降阶和聚类

在本节中,我们简要回顾一下矩阵秩降低如何应用于聚类或矢量量化问题。

15f7e8d7083a292d47897fa647146e8f.png

30cdad257fe5918856844e5202ca84d9.png

3 用于多视图聚类的 NMF

在本节中,我们首先总结非负矩阵分解(NMF),然后介绍我们对多视图聚类的 NMF 推广。

3.1 通过 NMF 分解数据

正交基向量(例如由 PCA 或 SVD 确定)并非始终是降维或聚类的最佳选择。特别是,仅由非负测量组成的数据在投影到由其主要特征向量跨越的低维子空间后,不能保证保持非负。作为对某些数据的非负性质正确的替代方案,Lee 和 Seung 推广了非负矩阵分解的概念。在计算机视觉中,图像数据通常由非负值组成,观察到 NMF 在分割,特征提取,运动或姿势估计方面可产生优异的结果。

NMF 被视为约束最小二乘优化问题,足以解决

d085c78ae53fa32bbe9b58fafba47141.png

c704df17e9bf52189dd8d6d967114077.png

尽管(8)在 W 或 H 中都是凸的,但(8)中的基矢量和系数的同时估计不允许采用封闭形式的解,并且已知存在许多局部最小值。可证明存在一个唯一的最优值,但是迄今为止尚无法确定能找到它的算法。

3.2 通过 NMF 同时分解多视图数据

本文提出的工作背后的主要动机是对可提供不同类型数据的实体进行聚类。例如,可以通过不同的抽象图像特征来表征从 flickr 检索到的图像,但同时存在用户生成的描述其内容或形式的标记或标签。我们假设同时对数据的这些不同视图进行聚类将产生更有意义的聚类,并可能提供一种工具来填充丢失的信息。特别地,图像特征和图像标签的多视图聚类可以提供一种方法,该方法在给定图像的情况下预测一组标签或在给定一组查询标签的情况下从数据库检索相关图像。

假设有一组 n 个不同的图像,它的特征可以是 m _ n 个图像特征矩阵 X 以及 l _ n 个逐个图像矩阵 Y。我们的基本思想是为图像和文本特征分别找到合适的基数 W 和 V,它们通过一个公共系数矩阵 H 隐式耦合。换句话说,我们的目标是找到两个低秩近似。

1ce8f9e63f3e59a3505323856ac2939b.png

我们的解决方案是将此思想形式化为两个受约束的最小二乘问题的凸组合。

b502bdd30d1e4d87e0481d92bee8098b.png

其中5bb642703a3e1ac9afb22c2dd4b3610f.png 是用户指定的常数,它允许表达两种要素类型中任一种的偏好。就像(8)中的原始 NMF 问题一样,(11)中的扩展问题也不允许采用封闭形式的解决方案。因此,我们使 Lee 和 Seung 型不动点迭代适合于我们的情况。对于基向量 W 和 V 的矩阵,更新规则立即执行并读取:

920a5aeef22701696b0dbc2583b96ed5.png

由于系数矩阵 H 现在耦合两个基数,因此其更新要稍微多一些。系数的定点迭代的简化版本为:

3bdbe21b8e377ab17e611660740408b2.png

3.3 讨论

我们在(11)中选择单个优化问题的凸组合并不是一个任意决定。非负矩阵分解与概率潜在语义分析之间存在着密切的联系。假设适当的归一化,NMF 可以理解为学习联合概率分布的参数,该参数表示为边际分布的乘积。通过选择两个 NMF 问题的凸组合,可以将此类推到学习分布分布的水平。这类似于潜在的 Dirichlet 分配,但我们将对未来的工作留下可能的影响。

我们注意到,通过设置0c6d8da5ba38785ed9311371075d0b7b.png,我们的模型及其更新会减少为 NMF 的原始形式。此外,该模型不限于两种不同类型的视图。它对 p 个不同视图的凸组合的扩展很简单:

a6da1807b8604362dc5c3b4e863f8cb8.png

最后,与所有交替最小二乘方案一样,可以保证多视图 NMF 的扩展更新算法的收敛性。我们省略了形式证明,但略述了论点:给定 H,(12)中的任何更新都不会增加(11)中的任何一项;给定 W 和 V,(13)中的更新不能增加(11)中的表达式。

4 实验

在以下小节中,我们介绍了通过使用多视图 NMF 进行图像分割,标签预测和图像检索获得的第一个实验结果。请注意,到目前为止,这些都是旨在验证该方法的初步实验。我们目前正在进行扩展的实验评估,以将所提出的方法与文献中的其他方法进行比较。

4.1 通过联合非负矩阵分解进行图像分割

在第一个系列实验中,我们将同时 NMF 应用于图像分割问题。我们考虑从 flickr 下载的自然场景的彩色图像。由于其所谓的感知均匀性,我们将 RGB 像素值转换为 LUV 色彩空间,这确保了色彩空间中等距的颜色在感知上也将等距。

为了将图像分割成均匀区域,我们从每个图像中采样了 1000 个像素,并建立了两个特征矩阵,一个包含 1000 个颜色信息的三维列向量,另一个包含 1000 个包含像素坐标的二维列向量。这样,我们将颜色与位置分开,并同时运行 NMF,以获得通过公共系数 H 耦合的各个空间中的质心向量 W 和 V。

我们进行了几个实验,其中我们改变了质心的数量 k = {4,10,20},加权参数= {0.1,0.5,0.9}。当较大时,对像素的颜色描述符给予更大的权重,而当较小时,对像素的位置给予更大的权重。在随机初始化为从高斯分布采样的正值之后,我们对矩阵 W,V 和 H 运行更新规则,直到收敛,但最多进行 100 次。

给定训练阶段的结果,这些实验中的测试阶段包括将图像的每个像素 x 分配给 k 个生成的聚类质心之一。给定 W 和 V,我们求解8ce4e53f7df136eae498095de249555a.png的系数 h,且聚类索引 c 根据

5e083a6208bd35ddc883626113c18ca6.png

ebdb54c75086f31d90f670c6c3c4a0de.png

2a40a0f75cc808ea1becd89fb257593a.png

图 1

4.2 通过图像和文本特征的联合分解来进行标签预测和图像检索

该系列实验旨在探索多视图 NMF 是否能够填充丢失的信息。我们考虑了从 flickr 的“最有趣”类别中检索到的一组自然图像训练。这组训练图像包含 10 个不同类别的动机(云,月光,海滩,轮船,桥梁,山脉,森林,城市,教堂,城堡),我们考虑每个类别 300 张图像。

在这些实验中,使用局部自相似(SSIM)特征提取方案计算特征向量。然后将特征向量聚类为 k = 750 个视觉单词的视觉词汇。对于数据集中的每个图像,将创建此词汇表的直方图。接下来,将数据集中所有图像的各个直方图收集在图像特征矩阵5e25a16c27fecd0fd9a1ff06080d2024.png中。

e156990d2168311b87eff2c03af095c1.png

4.2.1 标签预测

6c828ebfd113c27f978f3a4d0bcb8352.png

33a319c6c48f5f20dba9f9c1c21096a8.png

图 2

4.2.2 图像检索

给定 x,我们搜索ab7ae9cc577d4bffbbf5b9d3ff16c2b3.png最小的训练数据矩阵 X 的列向量 xi。表 2 中显示了与以下单词相对应的四个最相似的图像。

a54f6c123662c302dc39365f2915c299.png

表 1

5 结论与未来工作

本文介绍的工作旨在对图像进行分析,并为其提供更多信息。我们引入了一种用于多视图聚类的新模型,该模型将非负矩阵分解(NMF)的思想扩展到对不同类型特征的联合分析中。我们将多视图 NMF 转换为单个优化问题的凸组合,并在这种情况下对 NMF 采用众所周知的乘法定点算法。该方法避免了不同类型特征的临时组合,因此忠实于不同描述符的性质。我们的多视图 NMF 公式中的各个优化问题是通过一个公共系数矩阵耦合的。由于这种耦合,所得的基矢量或聚类质心允许从另一类型的描述符(例如图像特征)推断出一种类型的描述符(例如图像标签)。

在初步实验中,我们验证了该方法在图像分割,标签预测和基于标签的图像检索中的适用性。我们的第一个结果表明,多视图聚类可以提供适用于不同抽象级别的图像分析框架,可以通过以多视图方法提供的主要方式组合像素颜色和位置信息来识别图像部分。使用我们的框架可以将颜色直方图和按图像的文本向量等各种信息耦合在一起,我们发现它能够根据可用数据预测丢失的信息。

目前,我们正在进行更广泛的实验,以提供更定量的分析,并将拟议的方法与其他多视图方法(如(内核化)规范成分分析)进行比较。与现有的相关方法相比,我们期望多视图 NMF 的高效实现是可能的。为此,我们目前在模型中采用了凸包 NMF 等技术。我们还将进一步探讨多视图 NMF 与 LDA 的关系,以及它是否为层次化潜在主题模型提供替代方法。最后,我们设想了该方法的进一步应用,例如在高光谱成像领域。

致谢

本文由南京大学软件学院 2020 级硕士生刘子夕翻译转述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/331912.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员 rs编码_为什么声明性编码使您成为更好的程序员

程序员 rs编码在许多情况下,具有功能组成的声明式解决方案提供了优于传统命令式代码的出色代码指标。 阅读本文并了解如何使用具有功能组成的声明性代码成为一名更好的程序员。 在本文中,我们将仔细研究三个问题示例,并研究用于解决这些问题…

对象包装器与自动(拆箱)装箱+参数数量可变的方法+枚举类

【0】README 0.1) 本文描述源代码均 转自 core java volume 1, 旨在理解 自动拆箱(装箱)、printf的参数数量可变 以及 枚举类的详细说明; 0.2) 源代码: https://github.com/pacosonTang/core…

go 监测tcp 连接断开_TCP三次握手和四次挥手以及11种状态

三次握手置位概念:根据TCP的包头字段,存在3个重要的标识ACK、SYN、FINACK:表示验证字段 SYN:位数置1,表示建立TCP连接 FIN:位数置1,表示断开TCP连接三次握手过程说明:1.由客户端发送…

java序列化深克隆_如何在内存序列化中使用Java深克隆对象

java序列化深克隆在我以前的文章中,我解释了深度克隆和浅层克隆之间的区别 , 以及复制构造函数和防御性复制方法比默认的Java克隆如何更好。 使用复制构造函数和防御性复制方法进行的Java对象克隆当然具有某些优势,但是我们必须显式编写一些…

java反射机制+继承设计技巧

【0】README 0.1) 本文描述源代码均 转自 core java volume 1, 旨在理解 java反射机制 ;最后还顺带提出了 继承设计的技巧; 【1】反射相关 1)反射定义:能够分析类能力的程序称为反射; 2&…

60秒计时器的仿真电路_基于伏秒平衡的同步整流方案探讨

为了提高电源的效率和功率密度,尤其是低输出电压的应用场合,同步整流是不可或缺的。图1-1 反激输出二极管损耗比如上图的反激电源如果输出二极管 Vf0.7V,输出电压 Vout3V 则效率不会高于3/(30.7)81%。为了提升效率一般会选用低导通压降的肖特…

利用反射机制创建新类的两种方式及比较

【0】README 0.1) 本文描述源代码均 转自 http://blog.csdn.net/fenglibing/article/details/4531033 , 旨在深入理解 如何利用反射机制创建类实例; 0.2) 转载的源代码,参见 https://github.com/pacosonTang/core-ja…

如何设计高效测试用例_高效的企业测试-单元和用例测试(2/6)

如何设计高效测试用例在本系列的第一部分中,我们看到了有效测试应满足的一些普遍适用的原则和约束。 在这一部分中,我们将仔细研究代码级单元测试和组件或用例测试。 单元测试 单元测试验证单个单元(通常是类)的行为&#xff0c…

php mysql study_PHPstudy升级mysql数据库

首先查看phpstudy的mysql版本:方法一 使用mysql的version函数:mysql> selectversion();方法二 status命令mysql> status;方法三 直接在cmd下输入命令查看mysql -vmysql --help下面开始升级数据库1、备份好自己的数据库2、清空phpstudy…

selenium 等待_Selenium等待:内隐,外显,流利和睡眠

selenium 等待Selenium等待页面加载在Selenium脚本中起着重要的作用。 它们有助于使它们不易剥落,更可靠。 Selenium提供多次等待,以根据某些条件在脚本执行中提供足够的等待或暂停。 从而确保您在使用Selenium执行自动化测试时不会导致脚本失败。 在本教…

java接口概述

【0】README 0.1) 本文描述源代码均 转自 core java volume 1, 旨在理解 java 接口概念 ; 0.2)接口技术: 这种技术主要用来描述类具有什么功能, 并不给出每个功能的具体实现; 一个类可以实现多…

通过aws部署推荐系统_通过AWS Elastic Beanstalk轻松进行Spring Boot部署

通过aws部署推荐系统朋友不允许朋友写用户身份验证。 厌倦了管理自己的用户? 立即尝试Okta的API和Java SDK。 数分钟之内即可在任何应用程序中对用户进行身份验证,管理和保护。 几乎所有应用程序都依赖于身份验证。 开发人员以及雇用他们的公司都想确认…

图论算法基础

【0】README 0.1)本文总结于 数据结构与算法分析, 旨在复习数据结构中图论算法的基础知识; 【1】图论若干相关定义 1.1)图G定义:一个图G(V,E)由顶点及集V 和 边集E组成&#xff0c…

mysql 表丢失_Mysql数据库备份 部分数据表丢失 Mysql table doesn't exist 解决

问题:直接拷贝data下的数据库数据进行备份,重装升级了数据库,直接复制备份数据到新的数据库data目录下,发现部分数据表不见了。原因分析:以表“Table”为例:如类型是MyISAM, 数据文件则以”Table.frm”,”T…

aws 删除ec2实例_如何在AWS EC2实例上部署Spring Boot应用程序

aws 删除ec2实例你好朋友, 在本教程中,我们将看到如何在AWS EC2实例上部署Spring Boot应用程序。 这是我们将要执行的步骤。 1.使用Spring Boot Initialiser创建一个Spring Boot项目。 2.创建一个休息端点,部署后我们可以访问 3.启动EC2…

jdbc操作mysql数据库_JDBC操作MySQL数据库(一)

连接MySQL数据库连接数据源有两种方式:1)通过DriverManager类2)通过DataSource接口及JNDI资源获得连接DriverManager类的路径为java.sql.DriverManager,它主要完成驱动程序的装载和建立新的数据库连接。其常用方法如下:* getConnection (Stri…

只读事务上下文_我可以/应该在事务上下文中使用并行流吗?

只读事务上下文介绍 长话短说,您不应在并行流中使用事务。 这是因为并行流中的每个线程都有其自己的名称,因此它确实参与了事务。 Streams API旨在在某些准则下正常工作。 实际上,为了受益于并行性,不允许每个操作更改共享对象的…

mysql多表查询详解_MySQL多表查询详解上

时光在不经意间,总是过得出奇的快。小暑已过,进入中暑,太阳更加热烈的绽放着ta的光芒,...在外面被太阳照顾的人们啊,你们都是勤劳与可爱的人啊。在房子里已各种姿势看我这篇这章的你,既然点了进来&#xff…

无权最短路径

【0】README 0.1) 本文总结于 数据结构与算法分析, 源代码均为原创, 旨在理解 无权最短路径 的思想并用源代码加以实现; 【1】无权最短路径相关概念(边的权值赋值为1) 1.1)概述:下…

java 键入_在Java中键入Safe SQL

java 键入字符串,字符串,字符串 无论您使用的是JPA , MyBatis还是Spring Data JDBC之类的框架,总会最终将SQL语句声明为Java String。 这种方法的问题在于,您必须为每个语句编写测试,以确保它甚至是有效SQ…