缅甸网站后缀,软件商城有哪些,山西营销网站建设设计,网站版权备案引用Akata Z, Thurau C, Bauckhage C. Non-negative matrix factorization in multimodality data for segmentation and label prediction[C]. 2011.摘要随着 Internet 上带注释的多媒体数据的可用性不断提高#xff0c;要求有一种技术可以实现不同类型数据的原则性联合处理。… 引用Akata Z, Thurau C, Bauckhage C. Non-negative matrix factorization in multimodality data for segmentation and label prediction[C]. 2011.摘要随着 Internet 上带注释的多媒体数据的可用性不断提高要求有一种技术可以实现不同类型数据的原则性联合处理。多视图学习和多视图聚类试图以同时的方式识别不同特征空间中的潜在成分。所得的基向量或质心忠实地代表数据上的不同视图但是隐式耦合并且它们是联合估计的。这为诸如标签预测图像检索或语义分组之类的问题开辟了新途径。本文提出了一种用于多视图聚类的新模型该模型将传统的非负矩阵分解扩展到不同数据矩阵的联合分解。因此该技术为图像部分和属性的联合处理提供了一种新方法。图像分割和图像特征与图像标签的多视图聚类的首次实验显示出令人鼓舞的结果并表明该方法为不同抽象级别的图像分析提供了一个通用框架。1 动机和背景社交网络的兴起和用户生成的内容运动已将 Internet 变成了一个几乎无限的带有注释和评级的多媒体数据的存储库。例如截至撰写本文时flickr 上提供了超过 45 亿张图像其中大多数由社区进行了标记评级分类和评估。这种发展为图像理解的研究提供了巨大的可能性但同时也要求允许对不同类型的数据进行综合处理的方法。我们的目标是对图像特征和图像标签进行原则上的联合处理。我们提出了一种用于多视图聚类的新技术该技术可以同时确定不同特征空间中的潜在维数或质心向量。与诸如将不同类型的特征串联到单个描述符中的临时方法相反多视图聚类忠实于不同描述符的不同特征。由于潜在分量或质心是联合估计的因此多视图技术可进行高级推理。由于对于一个特征空间中的每个质心在另一个空间中都有一个对应的质心因此不同视图之间的转换非常简单。这为分割、自动图像标记或基于标签的图像检索提供了新的方法。尽管它们具有悠久而古老的传统但人们对多视图学习和多视图群集有了新的兴趣。可以同时发现不同空间中潜在成分的方法的典型示例是 Hotelling 的典型相关分析(CCA)该方法最近已经提出了核化和概率扩展。其他最近的发展考虑了将频谱聚类扩展到编码不同类型相似性的多个图。我们的多视图聚类新方法将非负矩阵分解(NMF)扩展到几个数据矩阵的联合分解。它是出于以下注意事项1)与主成分分析(PCA)或奇异值分解(SVD)相似CCA 不一定对诸如颜色直方图或项频率向量之类的纯非负数据具有合理性。但是非负矩阵分解通常会产生可被视为基于零件的表示并适应人类感知的结果。2)基于相似度矩阵的光谱聚类的方法随数据数量呈二次方缩放因此在现代的大规模数据和图像分析问题中是禁止的。3)另一方面对于 NMF存在有效的算法该算法可将数十亿个条目的矩阵分解这可能适用于多视图设置。在下一部分中我们阐明矩阵分解和聚类之间的关系。然后在第 3 节中我们根据研究现状简要回顾了 NMF并将这种方法扩展到不同数据矩阵的联合分解。在第 4 节中我们介绍了在图像分割标签预测和图像检索中使用多视图 NMF 的实验。2 矩阵降阶和聚类在本节中我们简要回顾一下矩阵秩降低如何应用于聚类或矢量量化问题。3 用于多视图聚类的 NMF在本节中我们首先总结非负矩阵分解(NMF)然后介绍我们对多视图聚类的 NMF 推广。3.1 通过 NMF 分解数据正交基向量(例如由 PCA 或 SVD 确定)并非始终是降维或聚类的最佳选择。特别是仅由非负测量组成的数据在投影到由其主要特征向量跨越的低维子空间后不能保证保持非负。作为对某些数据的非负性质正确的替代方案Lee 和 Seung 推广了非负矩阵分解的概念。在计算机视觉中图像数据通常由非负值组成观察到 NMF 在分割特征提取运动或姿势估计方面可产生优异的结果。NMF 被视为约束最小二乘优化问题足以解决尽管(8)在 W 或 H 中都是凸的但(8)中的基矢量和系数的同时估计不允许采用封闭形式的解并且已知存在许多局部最小值。可证明存在一个唯一的最优值但是迄今为止尚无法确定能找到它的算法。3.2 通过 NMF 同时分解多视图数据本文提出的工作背后的主要动机是对可提供不同类型数据的实体进行聚类。例如可以通过不同的抽象图像特征来表征从 flickr 检索到的图像但同时存在用户生成的描述其内容或形式的标记或标签。我们假设同时对数据的这些不同视图进行聚类将产生更有意义的聚类并可能提供一种工具来填充丢失的信息。特别地图像特征和图像标签的多视图聚类可以提供一种方法该方法在给定图像的情况下预测一组标签或在给定一组查询标签的情况下从数据库检索相关图像。假设有一组 n 个不同的图像它的特征可以是 m _ n 个图像特征矩阵 X 以及 l _ n 个逐个图像矩阵 Y。我们的基本思想是为图像和文本特征分别找到合适的基数 W 和 V它们通过一个公共系数矩阵 H 隐式耦合。换句话说我们的目标是找到两个低秩近似。我们的解决方案是将此思想形式化为两个受约束的最小二乘问题的凸组合。其中 是用户指定的常数它允许表达两种要素类型中任一种的偏好。就像(8)中的原始 NMF 问题一样(11)中的扩展问题也不允许采用封闭形式的解决方案。因此我们使 Lee 和 Seung 型不动点迭代适合于我们的情况。对于基向量 W 和 V 的矩阵更新规则立即执行并读取由于系数矩阵 H 现在耦合两个基数因此其更新要稍微多一些。系数的定点迭代的简化版本为3.3 讨论我们在(11)中选择单个优化问题的凸组合并不是一个任意决定。非负矩阵分解与概率潜在语义分析之间存在着密切的联系。假设适当的归一化NMF 可以理解为学习联合概率分布的参数该参数表示为边际分布的乘积。通过选择两个 NMF 问题的凸组合可以将此类推到学习分布分布的水平。这类似于潜在的 Dirichlet 分配但我们将对未来的工作留下可能的影响。我们注意到通过设置我们的模型及其更新会减少为 NMF 的原始形式。此外该模型不限于两种不同类型的视图。它对 p 个不同视图的凸组合的扩展很简单最后与所有交替最小二乘方案一样可以保证多视图 NMF 的扩展更新算法的收敛性。我们省略了形式证明但略述了论点给定 H(12)中的任何更新都不会增加(11)中的任何一项给定 W 和 V(13)中的更新不能增加(11)中的表达式。4 实验在以下小节中我们介绍了通过使用多视图 NMF 进行图像分割标签预测和图像检索获得的第一个实验结果。请注意到目前为止这些都是旨在验证该方法的初步实验。我们目前正在进行扩展的实验评估以将所提出的方法与文献中的其他方法进行比较。4.1 通过联合非负矩阵分解进行图像分割在第一个系列实验中我们将同时 NMF 应用于图像分割问题。我们考虑从 flickr 下载的自然场景的彩色图像。由于其所谓的感知均匀性我们将 RGB 像素值转换为 LUV 色彩空间这确保了色彩空间中等距的颜色在感知上也将等距。为了将图像分割成均匀区域我们从每个图像中采样了 1000 个像素并建立了两个特征矩阵一个包含 1000 个颜色信息的三维列向量另一个包含 1000 个包含像素坐标的二维列向量。这样我们将颜色与位置分开并同时运行 NMF以获得通过公共系数 H 耦合的各个空间中的质心向量 W 和 V。我们进行了几个实验其中我们改变了质心的数量 k {41020}加权参数 {0.10.5,0.9}。当较大时对像素的颜色描述符给予更大的权重而当较小时对像素的位置给予更大的权重。在随机初始化为从高斯分布采样的正值之后我们对矩阵 WV 和 H 运行更新规则直到收敛但最多进行 100 次。给定训练阶段的结果这些实验中的测试阶段包括将图像的每个像素 x 分配给 k 个生成的聚类质心之一。给定 W 和 V我们求解的系数 h且聚类索引 c 根据图 14.2 通过图像和文本特征的联合分解来进行标签预测和图像检索该系列实验旨在探索多视图 NMF 是否能够填充丢失的信息。我们考虑了从 flickr 的“最有趣”类别中检索到的一组自然图像训练。这组训练图像包含 10 个不同类别的动机(云月光海滩轮船桥梁山脉森林城市教堂城堡)我们考虑每个类别 300 张图像。在这些实验中使用局部自相似(SSIM)特征提取方案计算特征向量。然后将特征向量聚类为 k 750 个视觉单词的视觉词汇。对于数据集中的每个图像将创建此词汇表的直方图。接下来将数据集中所有图像的各个直方图收集在图像特征矩阵中。4.2.1 标签预测图 24.2.2 图像检索给定 x我们搜索最小的训练数据矩阵 X 的列向量 xi。表 2 中显示了与以下单词相对应的四个最相似的图像。表 15 结论与未来工作本文介绍的工作旨在对图像进行分析并为其提供更多信息。我们引入了一种用于多视图聚类的新模型该模型将非负矩阵分解(NMF)的思想扩展到对不同类型特征的联合分析中。我们将多视图 NMF 转换为单个优化问题的凸组合并在这种情况下对 NMF 采用众所周知的乘法定点算法。该方法避免了不同类型特征的临时组合因此忠实于不同描述符的性质。我们的多视图 NMF 公式中的各个优化问题是通过一个公共系数矩阵耦合的。由于这种耦合所得的基矢量或聚类质心允许从另一类型的描述符(例如图像特征)推断出一种类型的描述符(例如图像标签)。在初步实验中我们验证了该方法在图像分割标签预测和基于标签的图像检索中的适用性。我们的第一个结果表明多视图聚类可以提供适用于不同抽象级别的图像分析框架,可以通过以多视图方法提供的主要方式组合像素颜色和位置信息来识别图像部分。使用我们的框架可以将颜色直方图和按图像的文本向量等各种信息耦合在一起我们发现它能够根据可用数据预测丢失的信息。目前我们正在进行更广泛的实验以提供更定量的分析并将拟议的方法与其他多视图方法(如(内核化)规范成分分析)进行比较。与现有的相关方法相比我们期望多视图 NMF 的高效实现是可能的。为此我们目前在模型中采用了凸包 NMF 等技术。我们还将进一步探讨多视图 NMF 与 LDA 的关系以及它是否为层次化潜在主题模型提供替代方法。最后我们设想了该方法的进一步应用例如在高光谱成像领域。致谢本文由南京大学软件学院 2020 级硕士生刘子夕翻译转述