seo是什么?东莞网站seo方法
news/
2025/9/23 20:28:09/
文章来源:
seo是什么?,东莞网站seo方法,做网站最快的编程语言,广州游戏开发公司有哪些分享嘉宾#xff1a;卞东海 百度 高级研发工程师编辑整理#xff1a;蒋郭鑫 河海大学出品平台#xff1a;DataFunTalk导读#xff1a;由于大数据时代的发展#xff0c;知识呈指数级增长#xff0c;而知识图谱技术又在近年来逐步火热#xff0c;因此诞生了利用知识图谱技…分享嘉宾卞东海 百度 高级研发工程师编辑整理蒋郭鑫 河海大学出品平台DataFunTalk导读由于大数据时代的发展知识呈指数级增长而知识图谱技术又在近年来逐步火热因此诞生了利用知识图谱技术进行智能创作的新想法。本文将分享基于知识图谱的多模内容创作技术及应用。主要包括以下四大部分百度知识图谱概览百度智能创作全景多模内容创作技术落地产品及应用案例01百度知识图谱概览首先介绍一下百度知识图谱的概览。1. 知识图谱的基本结构知识图谱以结构化的知识来描述客观世界的概念、实体及其属性和关系。从上图例子中我们可以看到和梁启超相关的一些概念和关系比如教育家和政治家是和梁启超相关的一些身份概念而梁启超和梁思成是父子的关系。2. 百度知识图谱的发展历程回顾百度知识图谱在过去十多年的主线工作和发展历程主要经历了四个阶段第一个阶段在2013年以前的Pre-KG阶段这也是学界和业界知识图谱发展的初级阶段百度的知识图谱立项并开始运用于百度知识搜索的知心产品第二阶段在2014年至2015年是知识图谱方法论和架构逐渐成型的阶段我们建立了垂类的领域知识库并规模化地应用于搜索的各类产品之中第三个阶段在2016年至2017年逐渐地深入建设通用知识图谱相关的架构、算法和机制开始全面应用于搜索、金融、客服、商业等各类产品线第四个阶段在2018年以后这一阶段技术建设的重点在于多元知识图谱的异构互联、图谱的主动输入和自学习、多媒体知识、复杂知识以及行业知识图谱的理解与构建等。3. 百度知识图谱的技术视图上图为百度知识图谱技术视图首先是知识获取技术即各种信息抽取的技术接下来是知识整合技术用于多元知识的融合然后是知识补全和扩展的技术用于不断地丰富知识图谱的内容知识表示学习、知识推理与计算等认知技术主要运用在搜索、推荐问答等业务当中最后收录模型可以持续高效地更新知识。最下面是支撑上面所有知识发现、组织与获取应用能力的架构和平台。4. 通用知识图谱应用我们的通用知识图谱目前在百度的核心业务中广泛地应用比如在搜索业务中支持了智能搜索可以直接返回问题的答案。在信息流的推荐业务中基于各类图谱去提升推荐的质量。在DuerOS等智能对话产品上提供了大量优质的内容。5. 行业知识图谱应用我们的行业知识图谱目前赋能了许多行业领域首先是基于海量专业知识构建的医疗知识图谱其包含了千万级的医学事实并开发了基于专业医疗知识的医疗计算认知引擎在多家三甲医院上线使用其次是智慧司法我们完成了标准、精细、体系化的类案知识体系的构建类案推荐效果显著在法案实际的使用当中结案的效率提高了一倍以上最后是智能客服我们引入知识图谱沉淀客服知识和信息资源通过理解客户的意图支持客服坐席的知识提示人工通话的接单量降低了70%。02百度智能创作全景1. 内容创作挑战创作是对人类现有知识和素材的组织和再创造。在内容创作领域像媒体、金融、政企都有大量的创作需求比如新闻稿件、金融报告、公司公文等。在创作时一般都有以下四个痛点第一是如何从海量信息中获取到有价值的内容第二是时效性要足够高像新闻稿件尤其是热门事件的新闻肯定是越快越好第三是要把控内容的质量避免出现错误第四是内容覆盖要广泛包括长尾和冷门领域。2. 百度大脑智能创作平台全景图针对上述问题解决方案可以简单总结为百度大脑智能创作平台全景图基于NLP、知识图谱、视觉、语音的技术和数据我们研发了智能自动创作和智能辅助创作的技术。在应用层提供包括新闻线索、热点分析、智能写稿、视频创作等核心的功能可以满足各个行业创作的需求。下面会详细介绍每个功能的核心点1自动创作让作者从重复工作中解放首先是智能自动创作通过数据加自动写作引擎的方式实时大量地生成覆盖多个领域的资讯让创作者从重复的工作中得到解放。像天气文章每天都需要在规定的时间内高效地发布数千篇文章单纯人工很难完成这些工作。但其实机器并不能够完全取代人类作者机器的优势在于它的高时效性、丰富的素材和大数据分析能力而人工撰稿在内容的深度、精彩的程度、题材的多样上远胜于机器所以我们的思路是让机器与创作者去分工协作。2辅助创作全流程智能辅助全能赋能内容生产于是我们同样打造了智能辅助创造的能力从创作前的素材的采集、理解给作者提供热点的发现、热词分析的能力到创作中的素材的推荐、编排再到创作后的质量检测、提升全流程的提供辅助创作的功能。自动和辅助的相结合可以实现效率与质量的双收。03多模内容创作技术在介绍核心技术前先看下机器创作和人工创作的区别以媒体为例创作过程一般有五个部分分别是策、采、编、审、发。具体来讲策是策划、要写什么采是根据要写的主题去找相关的素材编则是根据找到的素材写文章或制作视频然后是审核和发布。机器创作分别扮演着不同的角色比如自动创作这个线条其主要侧重点是在于采和编辑而辅助创作这个线条侧重点就在于采集、策划和审。1. 自动图文创作从我们目前已发布的文章类型来划分这里列出了六大类常见的自动创作出的文章第一类是计算/数值类主要场景是天气、体育、股市等第二类是聚合类是通过素材不同纬度的理解将相关的素材组织成文第三类是浓缩类就是将数千字的内容进行篇章级的摘要同时要符合原内容的篇章逻辑第四类是事件类主要是对同一个主题事件的不同阶段进行回顾第五类是分析类主要是对同一个事件进行多维度分析其利弊总结成文第六类是视频转写它将视频内容进行总结从而形成一篇文章。那么机器到底是怎么创作的呢一般来说要包括四步写作触发、文章生产、质量控制和文章发布阶段。这里重点是写作触发和文章生成阶段写作触发有两种方式一种是主动的比如话题挖掘我们要找到话题之后才会写作另外一种是被动的比如我们每天都能看到的大量的天气、股市预警信息自动的更新。文章生成是自动创作的核心机器的写作的时候其实和人的写作思路差不多首先我们需要有一个宏观的规划其次是每一段要写什么要用什么样的方式、什么样的数据这些进行微观的规划最后表层实现就是要对上面规划后的类似写作模板一样的东西进行具体的实现。下面来看一下图文创作实现这些能力的关键技术概览在技术概览当中我们可以看到无论是写作触发还是文章生成底层都需要依赖于知识图谱作为输入上层比较依赖于两个重要的技术方向一个是理解另外一个是生成。下面分别介绍具体关键技术1通用知识图谱第一个比较关键技术就是通用知识图谱通用知识图谱里面有非常多的有价值的信息。以生成明星CP类的文章为例我们需要从图谱中去获取明星之前的关系作为文章内容的切入点。比如邓超和孙俪通过图谱机器可以知道他们是夫妻的关系如果想在文章的正文当中插入一些关于邓超的介绍可以直接在图谱中获取邓超相关的个人公开的信息。所以知识图谱在智能创作中扮演着核心的角色贯穿全流程。2事件图谱我们的世界无时无刻不发生着事件、新闻资讯绝大部分也都会包含事件。人的一些属性或者关系可能会随着时间发生变化比如美国总统是谁这个问题在2021年1月20号之前是特朗普之后则变为了拜登。如果只是使用通用知识图谱并不能得到这些动态变化的信息而事件图谱可以很好地补充这一缺陷。3话题挖掘有了图谱作为基础接下来就可以从全网域的数据中获取一些相关的咨询信息然后我们从通用的知识图谱当中获取到对应的资讯中的实体概念从事件图谱当中获取与资讯对应的的热门事件接着再对这些概念和资讯进行进一步的分析和理解最后依据写作类型分别确定哪些话题可用就可以得到我们的写作话题。图上的例子中像“乌克兰”就是一个比较泛的话题而“乌克兰局势”相对就属于比较好的话题。4素材组织有了话题接下来就是如何去组织文章的素材在传统的做法当中当挖掘出写作的主题之后一般是直接检索关联的素材嵌入模板就结束了这种方案是比较浅层的整体的文章逻辑非常零散。在我们的做法中首先对素材包含的知识进行分析整合形成一个体系化的知识信息在生成文章时将该知识信息结合图谱中其他的相关联的知识同时作为输入这样生成的文章内容上会更加丰富文章的整体性逻辑会更强。5文本生成文本生成是自然语言生成下面的一个子任务有很多种类型从单模态到多模态这里我们常用的有三大类分别是文本到文本生成、数据到文本生成、多模到文本生成。针对不同的场景会使用不同的技术方案包括模型、规则、模板等。下面看不同的生成任务具体是如何实现的。文本到文本生成以摘要为例摘要生成一般有两种方案一种是抽取式另外一种是生成式。在真实场景中我们主要还是使用抽取式的方法。除了算法本身其实还要辅助很多的规则比如说摘要开头的句子不太合适在这种情况我们会使用词典来进行过滤。另外在一些场景下比如聚类的文章考虑到生成文章的多样性我们也会同时使用生成式的方法。有了图谱信息和摘要生成技术就可以做很多类型的文章了比如上图的文章它是一个事件脉络追溯的文章把中国的第一辆火星车“祝融号”的来龙去脉进行了一个非常详细的盘点。数据到文本生成主要用在计算数值类的快讯文章核心问题是如何去构建文章的模板。一般有三种方法第一种是人工去构建初始的模板第二种是从网上找到大量训练的数据从中挖掘出对应的KV对信息然后通过bootstrap的方式去训练第三种是根据输入的KV对去直接生成这种方案在短文案生成上的效果较好但是在文章级的长文本生成上目前还有很多问题。所以我们还是主要使用前两种方式去生成文章。视频到文本的生成方式应用场景有很多比如大家比较熟悉的视频会议记录就是一种当然了它们是不同的研究范畴。对于视频转图文我们的主要目标是希望生成的文章能够很好地表达视频的内容。我们目前的方法当中会同时使用模型和规则。首先是做视频的理解得到视频的一些感知数据像ocr、asr相关的信息为了确保文章的准确率我们会使用ocr和asr做一个双向的校验对输出的字幕会使用Ernie进行分类最后结合每一段去选择对应的关键帧作为图片。有了文本和对应的关键帧作为配图就可以按照这种时间的逻辑顺序生成一篇视频转写的文章。6配图生成除了文本生成我们还探索了文本到图片生成这是一个非常有应用价值的技术它除了可以生成各种类型的图片还能够帮助公司去避免图片版权相关的一些问题。对这方面技术了解的同学应该都看过DALL·E的生成效果可以说是非常惊艳的但仍存在一些问题比如图片分辨率较小图片质量不是特别高所以是不可以直接落地使用的。另外在真实的场景下作者检索图片时输入的往往都是概念而DALL·E更偏向于对确定性实体进行细节性描述。所以我们的做法是首先使用VQ-GAN代替了DALL·E的VQ-VAE并且提高了图片生成的分辨率。上图多肉植物图片可以看到质量是非常高的然后结合知识图谱让模型学习到更多的和抽象概念相关的知识保证模型能够理解人类常识性的概念在右上角这个示例中可以看到当输入的是“森林之王”时模型依然可以很好地生成对应的实体而且质量上相对也更好。2. 自动视频创作除了图文创作我们在视频创作上也进行了非常多的工作在公司内部和外部的合作当中也落地了很多的应用。对于视频的类型我们一般从输入数据的类型来进行划分可以分为三大类分别是视频到视频、文章到视频和数据到视频。视频跟图文创作相比最不一样的地方就是多了一个视频渲染的流程视频渲染是非常繁琐耗时的事情尤其是后台自动化的渲染所以我们针对创作的场景构建了我们自己的视频生成引擎它的底层主要是基于FFMPEG。我们把常用的一些操作都封装为渲染函数然后根据输入和模板进行视频的高效生产。视频创作的一个关键技术是“视频理解图谱”在以视频作为输入的场景下也就是video2video对视频素材的理解是进行后续生成的第一步。比如上图左上角给出的视频如果从标题看我们几乎得不到任何有关该视频的具体信息但是我们通过对视频内容的感知可以知道里面出现的演员有哪些出现了哪些实体、地点然后通过和知识子图进行关联就可以得到对应的影视剧的子图对子图再进行实体地点的计算推理就可以得到其对应的影视剧信息后续使用视频素材就会非常容易。另外一个关键技术是视频场景识别其在学界的研究对象主要是“时序动作提名”。在自动创作的时候我们会从挖掘的信息中获取用户最喜欢观看的一些视频场景然后对这些场景进行抽象。比如我们发现像亲吻、扣篮、打斗等场景都是用户喜欢的类型。因此我们就基于时序动作提名的算法来进行包含该动作场景的一些识别和检测。当识别出这些场景之后结合视频理解图谱就会得到当前视频片段所属的影视剧是哪一个这样就相当于对每个视频进行时序上打标签。有了这些标签之后可以把需要的视频片段进行整合通过一定的构建策略生产精彩集锦类的视频。另外一个比较常见的视频类型是图文转视频创作者只需要进行一次的稿件撰写就可以实现多种模态的发布可以大大节省人力。对于生成的资讯视频一般要求要足够的简洁视频的内容要和语音有对应关系。图文转视频的过程大概可以分为以下步骤首先生成文章摘要文章一般来说都是包含数百上千字的内容但是资讯类的视频长度可能在30秒到100秒左右因此我们需要进行摘要其次需要对摘要后的文本进行锚点选择锚点就是摘要后的一些比较关键的信息片段比如上图例子中“英特尔”就是一个比较关键的锚点这样做主要的原因是生成视频的素材输入大部分情况下都很少比如可能就2-3张图我们要把最相关的素材给到用户关注度最高的时间点上对于这些关键信息出现的时间点需要有对应的高相关的素材进行展示比如上述例子中的当语音说到“intel”的时候视频展示的是文章里面的包含intel的配图如果文章中无对应的高相关性的图片视频素材那就通过检索关联从知识图谱中获取对应的信息对于非锚点的时间区间可以使用文章中的其他低值素材作为填充同样地如果无素材则从知识图谱中获取相关素材最后使用视频生成引擎进行视频的渲染。最后是数据转视频像前面介绍的数据到文本的生成理论上来说都可以通过视频化的方式展示。在我们的应用中也发现视频方式展示的内容比图文更加受用户的喜爱因此我们构建了非常多的通用的视频模板。比如上图中深圳房价动态的视频我们可以定期获取动态更新的数据再结合知识图谱中已有数据就可以生成房价波动视频从而满足用户观看的需求。3. 辅助创作辅助创作核心的价值是可以告诉用户有什么可以写我们有跟媒体编辑聊过他们认为整个创作流程当中第一步的策划其实是最难的即如何找到有价值的创作点而辅助创作刚好可以做到这一点。以帮助用户进行选题策划为例我们可以将各类资讯的各个纬度进行理解和展示激发用户的创作灵感。辅助创作最关键的技术就是主题图谱它是支撑创作选题和选材的核心。上图左边的这张图中大的节点代表一个主题蓝色的是实体主题红色的是事件主题每个主题都有相应的素材、热度、稀缺度、行业和地域等属性主题之间的边关系包括了实体的spo关系、事件的从属关系以及更为抽象发散的隐式的关系。上图右边的这张图是主题图谱的构建过程首先我们是以实体、事件图谱、query、新闻等作为基础数据然后进行主题、属性和边关系的挖掘最后为用户提供按照热度、稀缺度进行主题素材的推荐和检索另外还能够基于边关系进行主题的扩展。下面具体看一下主题图谱具体是如何构建的主题分为实体主题和事件主题他们的挖掘方式各有不同。实体主题我们以百度的核心集为基础通过实体概念标注从各种资讯中挖掘出实体概念主题并抽取和计算每个主题的属性。事件主题我们通过对客观世界发生的事件通过对篇章进行阅读理解、问答的方式来抽取出事件主题。事件抽取策略通过百度ERNIE—基于知识增强的语义理解模型进行多轮问答技术来实现的。对于边关系的挖掘我们划定了三类边关系第一种是KG实体中的spo关系第二种是事件之间的关系但以上这两种关系都受限于严谨的语义关系而创作者在选题的时候往往会需要一些比较发散的、抽象性的思考。因此我们采用隐式关系来满足这种需求具体的做法是首先从篇章中抽取出主题然后对篇章的要素进行标注比如实体、地点、以及重要的term接下来分别从篇章数量热度、站点权重和共现位置计算这些term与主题的关系强度再计算时效性的衰减最后得到隐式关系的强度。辅助创作的另外一个比较有价值的应用是媒资智能管理简单来说就是帮助各个媒体进行视频的拆条、编目、标注的能力。拆条就是对一个完整的视频进行分割像新闻联播它可以分为很多的独立的片段拆条的力度可以是片段级、场景级、镜头级编目就是对拆条后的视频进行总结的描述。针对媒资智能管理应用场景我们构建了多模素材理解技术。通过获取视频中的感知数据信息然后对关键信息进行整合输出。比如跨场景的人脸追踪可以帮助我们对视频进行多粒度的拆条通过对这种实时资讯的抓取、理解以及检索和视频asr的解析可以帮助我们生成编目的解析。目前我们的方案在拆条、编目的效率上比纯人工提升了3-4倍。04落地场景及应用案例1. 自动创作应用落地自动创作方面我们在百度百家号落地了数十类的图文文章借助视频创作引擎我们在好看视频也落地了多种类型的视频作品CTR达到了与人工创作持平同时在百度地图落地了商家推广的视频产品。2. 辅助创作应用落地辅助方面在公司内部我们支持了百家号APP的多项创作能力例如热点分析、热门推荐、主题趋势等。3. 行业赋能在行业赋能方面自动创作上我们和国家预警中心中国天气网等部门进行了深度的合作辅助创作上我们支持了四川观察新闻视频的拆条和主题抽取的应用以及多家省级媒体的辅助能力的落地。此外在去年初我们还和人民日报达成了持续的合作输出了多项创作的核心能力。 分享嘉宾OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/913795.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!