东莞网站建设属于什么专业优化营商环境 提升服务效能
news/
2025/9/23 18:13:19/
文章来源:
东莞网站建设属于什么专业,优化营商环境 提升服务效能,西安电子商务网站开发,如何在百度推广自己ICCV#xff0c;被誉为计算机视觉领域三大顶级会议之一。作为计算机视觉领域最高级别的会议之一#xff0c;其论文集代表了计算机视觉领域最新的发展方向和水平。阿里巴巴在今年的大会上有多篇论文入选#xff0c;本篇所解读的论文是阿里iDST与多家机构合作的入选论文之一被誉为计算机视觉领域三大顶级会议之一。作为计算机视觉领域最高级别的会议之一其论文集代表了计算机视觉领域最新的发展方向和水平。阿里巴巴在今年的大会上有多篇论文入选本篇所解读的论文是阿里iDST与多家机构合作的入选论文之一目标是教会机器读懂图片并尽量完整表达出来。 精准描述商品计算机视觉和自然语言处理的联合 近年来随着深度学习技术的快速发展, 人们开始尝试将计算机视觉(Vision)和自然语言处理(Language)两个相对独立的领域联合起来进行研究实现一些在过去看来非常困难的任务例如“视觉-语义联合嵌入(Visual-SemanticEmbedding)”。该任务需要将图像及语句表示成一个固定长度的向量进而嵌入到同一个矢量空间中。这样通过该空间中的近邻搜索可以实现图像和语句的匹配、检索等。 视觉语义联合嵌入的一个典型应用就是图像标题生成Image Captioning对于任意输入的一张图像, 在空间中找到最匹配的一句话, 实现图像内容的描述。在电商场景下, 淘宝卖家在发布一件商品时, 该算法可以根据卖家上传得图片, 自动生成一段描述性文字, 供卖家编辑发布使用。再比如视觉语义联合嵌入还可以应用于“跨模态检索(Cross-mediaRetrieval)”当用户在电商搜索引擎中输入一段描述性文字如“夏季宽松波希米亚大摆沙滩裙”、“文艺小清新娃娃领飞飞袖碎花A字裙”等, 通过文字-图像联合分析, 从商品图像数据库中找到最相关的商品图像返回给用户。 之前的不足只能嵌入较短的语句简单描述图片 以往的视觉语义联合嵌入方法往往只能对比较短的句子进行嵌入进而只能对图像做简单而粗略的描述然而在实际应用中人们更希望得到对图像或图像显著区域更为细致精确的描述。如图1所示我们不仅想知道谁在干什么还想知道人物的外表周围的物体背景时间地点等。 图1 现有方法的问题 现有方法“A girl is playing a guitar.” 我们提出的方法“a young girl sitting on a benchis playing a guitar with a black and white dog nearby.” 为了实现这个目标我们提出一个框架第一步从图像中找出一些显著性区域并用具有描述性的短语描述每个区域第二步将这些短语组合成一个非常长的具有描述性的句子如图2所示。 图2 我们的提出的框架 为此我们在训练视觉语义联合嵌入模型时不仅需要将整个句子嵌入空间更应该将句子中的各种描述性短语也嵌入空间。然而以往的视觉语义联合嵌入方法通常采用循环神经网络模型如LSTM(Long short-term memory)模型来表示语句。标准的LSTM模型有一个链式结构Chain structure每一个单元对应一个单词这些单词按出现顺序排成一列信息从第一个单词沿该链从前传到最后最后一个节点包含了所有的信息往往用于表示整个句子。显然标准的LSTM模型只适合表示整个句子无法表示一句话中包含的短语如图所示。 图3 链式结构的问题 论文创新方法提出层次化的LSTM模型 本文提出一种多模态、层次化的LSTM模型Hierarchical Multimodal LSTM。该方法可以将整个句子、句子中的短语、整幅图像、及图像中的显著区域同时嵌入语义空间中并且自动学习出“句子-图像”及“短语-图像区域”间的对应关系。这样一来我们生成了一个更为稠密的语义空间该空间包含了大量的描述性的短语进而可以对图像或图像区域进行更详细和生动的描述如图所示。 图4 本文提出的多模态层次结构 本文方法的创新性在于提出了一个层次化的LSTM模型根节点对应整句话或整幅图像叶子节点对应单词中间节点对应短语或图象中的区域。该模型可以对图像、语句、图像区域、短语进行联合嵌入Joint embedding并且通过树型结构可以充分挖掘和利用短语间的关系父子短语关系。其具体网络结构如下图所示 图5 网络结构 其中为每一个短语和对应的图像区域都引入一个损失函数用于最小化二者的距离通过基于结构的反向传播算法进行网络参数学习。 在图像-语句数据集上的比较 图 6在Flickr30K数据集上的对比 图 7在MS-COCO数据集上的对比 可见本文方法在几个公开数据集上都获得了很好的效果 在图像区域-短语数据集上的对比 我们提供了一个带有标注的图像区域-短语数据集MS-COCO-region其中人工标定了一些显著性物体并在这些物体和短语之间建立了联系。 图 8在MS-COCO-region数据集上的对比 下图是我们方法的可视化结果可见我们的短语具有很强的描述性 此外我们可以学习出图像区域和短语的对应关系如下 原文发布时间为2017-10-25 本文来自云栖社区合作伙伴“阿里技术”了解相关信息可以关注“阿里技术”微信公众号
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/913431.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!