怎么发布自己做的网站如何个网站做优化
news/
2025/9/23 8:24:17/
文章来源:
怎么发布自己做的网站,如何个网站做优化,有域名和服务器怎么建网站,网站建设芜湖文 | 兔子酱编 | 夕小瑶大家好#xff0c;我是可盐可甜的兔子酱#xff0c;一枚卖萌屋的资深潜水小编#xff0c;今天终于有了自己的第一篇文章#xff0c;希望耗时一周撰写的本文能让大家有所收获~这篇文章#xff0c;算是对自己在头部大厂2年算法岗炼丹经历的一个经验浓… 文 | 兔子酱编 | 夕小瑶大家好我是可盐可甜的兔子酱一枚卖萌屋的资深潜水小编今天终于有了自己的第一篇文章希望耗时一周撰写的本文能让大家有所收获~这篇文章算是对自己在头部大厂2年算法岗炼丹经历的一个经验浓缩和总结不算实习的话实际是工作一年多的萌新。时间倒退到2018年从我找算法岗实习开始先问两个问题暖个身Q1: 2018年工业界最火的算法岗是什么答CV、NLP、推荐。Q2: 2018年工业界招人最多的NLP方向是什么答对话系统、机器翻译。虽然读研的我沉溺于做着文本表示、模型鲁棒性相关的工作但是一方面目睹了小度、天猫精灵、小爱同学为代表的C端对话产品正面厮杀另一方面领略了10086和各大银行APP里宛如智障般的智能客服和“正在接入人工客服您前面还有999人”。当时的我觉得对话系统要给这个世界带来一波重要的变革了它将是最能让大众体验人工智能技术的产品了。抱着这个坚天定真的信念先是轻松屠了当年某知名的智能客服天池竞赛的榜单然后义无反顾的将简历投到了那个将AI、对话作为公司核心战略的大厂。很开心顺利拿到了实习和秋招提前批special offer。没成想最想去的团队一下子就去了以至于事后都有些遗憾没体验过其他小伙伴口中惊心动魄的秋招。至此我与对话系统的故事正式开始了。谈谈对话这个“顶流”行业先简单介绍下全球视角下的工业界对话产品发展史吧行内的小伙伴可以快速跳过。2011年世界闻名的人机大战主角——IBM的Wastson在智力竞猜节目中战胜人类向全世界宣告了计算机拥有了自然语言理解能力和人机对话能力。同年乔布斯收购SiriSiri担起了苹果向AI领域进军的大旗作为智能数字助理搭载在iPhone上。2014年微软在中国区发布会上发布了第一款个人智能助理Cortana中文名小娜同年亚马逊推出自己的智能语音助理Alexa和智能音箱Echo凭借新颖性和稳定性迅速占据了全球市场。2016年谷歌也完成了它的对话产品-谷歌assistant。到了2017年中国本土的对话产品开始觉醒、登场。17年下半年阿里的天猫精灵、小米的小爱同学正式推出2018年百度的小度智能音箱以及华为AI音箱相继跟上这些头部大厂率先抢占了市场和人心而后第二梯队的思必驰、出门问问等产品又进一步参与了对话市场的瓜分。初露锋芒看起来一片欣欣向荣啊怎么会跟“凉”扯上关系呢首先C端对话产品成本巨大但盈利空间不明朗加上激烈的市场竞争一边是用户打开了新世界的大门直呼nb另一边企业在头疼变现手段在线广告电商推荐会员付费硬件输出似乎传统的商业模式在这个场景下都能搞搞仔细一看又发现似乎都不太能大搞。长期高额的技术投入却得不到真金白银的反馈怎么办呢于是企业将目光投向了B端市场。电信运营商、银行、政务司法、能源电力等各大传统行业都需要部署大量的人工客服客服就是一个天然的对话场景如果用对话技术替代掉人工坐席不仅降低人力成本而且提升服务效率况且传统企业面临技术更新转型纷纷想踏上AI这趟快车所以智能客服的前景一片春天呐。谈谈需求和技术当我真正开始战斗在企业对话产品的一线却发现事情没有那么简单。下面我们讲讲技术话题工业界对话系统的核心目的是通过人机对话接口让机器为用户提供服务。这里的服务可以是 解答用户一个疑问帮用户办理一件事或者是单纯的聊天情感服务 这三个核心需求对应的技术模块分别是问答基于FAQ、文档、表格、KG等任务式对话闲聊请记下这三个需求和三套对应的技术模块接下来这三点将分别简称为 一类需求、二类需求和三类需求 并贯穿本文重点内容。三类需求闲聊显然前两个需求都是在满足用户的刚需而最后一个需求抖音不香么吃鸡不好玩吗陌陌用过吗淘宝两块钱的陪聊不满足吗一句话讲工业界对话系统最能满足用户刚需创造商业价值的更多还是在于问答和任务式对话微软小冰的结局正是对第三条需求的证伪。有人说闲聊的商业化之所以失败是因为闲聊技术不够成熟只要我预训练模型足够大等我打败了Google的Meena[1]Facebook的Blender[2]微软的DialoGPT[3]百度的PLATO[4]我就能像人一样逼真幽默会聊天了想象一下哪怕你做到了像人一样会聊天又能怎样呢满足情感和娱乐化需求创造大规模商业价值那你的对手将会是整个文娱产业。游戏、短视频、网剧、音乐甚至陌生人社交APP一个终于做到像人的产品能干掉哪个呢当然了你如果说要再给这个闲聊系统装一个肉体那当我没说。。。可能确实有更大的商业化想象空间就要看下法律、伦理答不答应。。。证伪了第三类需求再来说说第一类需求——问答。一类需求问答没错“解答用户一个疑问”看起来是很刚需的功能。但仔细一想百度做了20年知乎做了10年不就是这个需求吗问答是什么就是精准满足用户query那就可以理解成百度搜索的TOP1搜索结果或者知乎上的回答最高赞。换句话讲就是做一个 缩小版、精准版、垂直版的搜索引擎 。这下你是不是可以理解为什么出道最晚的小度反而会比天猫精灵和小爱音箱“更聪明”了既然都说了可以用搜索引擎的方式去满足对话的第一个需求那去做不就是啦有啥好凉的呢首先来说说理想层面。问答或者说搜索TOP1中文做的最好的显然就是某度了。大家可能平时搜索时都有遇到这种前端样式。这就是搜索TOP1问答的典型场景。如果每次用户在对话产品中的提问都像在通用搜索引擎中这样这么理想、生活化就好了。但是不知道大家有没有试过在百度里面搜索一些稍微冷门的问题比如你会发现根本没有搜索TOP1问答卡片的影子了。然而这种垂直行业、细节化的用户query恰恰是对话产品第一类需求中的高频问题在通用搜索中由于TOP1的准确率要求非常高因此面对这种冷门、细节化的query模型回答不了可以直接展现搜索的相关结果让用户自己去底下找答案。但是在对话产品中几乎注定了是一问一答如果你没有高精准的找到那个TOP1的回答那你几乎只能跟用户说“对不起我好像不明白”。然后用户就“玛德智障给我转人工”尽管学术界对问答对匹配问题研究的挺彻底了但是SOTA模型放在业务数据中翻车的情况太常见了所以脱离了业务的模型不算好模型。问答对的质量决定了模型效果的上限更何况随着数据的增加问题之间的边界模糊和交叉现象会进一步增加匹配的难度。当然我们做问答引擎的过程中在搜索范式之外可以增加针对问答场景设计的辅助模块来缓解无法精准回答的尴尬局面比如在召回、精排和后处理阶段增加复杂的处理逻辑。可是若要同时做到垂直而精准同时还试图通用化用一套模型/系统实现跨场景跨行业的大规模落地变现在现有技术范式下几乎是一件不可能的事情。再者学术界的问答系统的研究重点普遍聚焦在开放域问答和阅读理解问题上所谓迁移学习、domain adaption、预训练、小样本学习等技术还不足以经受的住现实的考验撑不起一个通用和垂直兼备的问答引擎依然免不了要一个行业一个行业的做一份数据一份数据的标。用一个模型去精准的覆盖多个场景和行业是非常不现实的。总结一下对话中的第一类需求表面上是一个垂直领域的搜索TOP1匹配问题而实际操作中的难点诸多。如果技术上无法实现通用、垂直且精准的问答满足要么技术平台方一个订单一个订单的啃导致平台方大规模变现艰难要么就降低标准导致业务方的用户用脚投票不停的对机器人喊“我要转人工”导致业务方重金砸来的智能客服系统也没有真正节约多少运营成本。这个问题是我认为对话系统第一类需求的技术硬伤是打开百亿规模市场的最大障碍。更不必说第一类需求中还存在query描述冗长/超短、FAQ库不完备、甚至ASR解析噪声等问题。当然相比上面的最大问题这些优先级都可以后排。不过话说回来毕竟算上实习我做对话也就2年时间目光有限或许将来会出现更好的解法呢好了第三类需求和第一类需求都聊完了。最后聊聊第二类需求也就是任务式对话。二类需求任务式对话前面讲的问答需求一类需求本质上是一个文本相关性问题因此技术抽象上更多的是一个搜索、问答问题而任务完成式需求二类需求由于要帮助用户完成任务目标比如订票、订餐、查天气等就免不了要跟系统功能性的API打交道就注定了要做query结构化即意图识别、实体槽位填充将文本转成系统查询API。然而像智能音箱这种C端对话产品因为是面向所有用户的我们无法预先知道用户所有的意图永远不要低估一个用户的脑洞即意图是开放域的。对于一些高频意图如询问天气、播放周杰伦的歌等我们可以富集、标注大量数据甚至写个规则就搞定了。然而对大量的长尾意图就处理困难了不仅难以采集到充分的数据进行标注甚至难以穷举并定义这些意图是什么。更加糟糕的是意图的权重还是不一样的比如“投诉”的意图识别错了代价要比“订票”高的多。此外还有一个在论文中不会提及的真实问题那就是如何在开放域下识别一句话“没有意图”比如一只猫爬过用户键盘并按下了ENTER。再来谈实体识别这也是学术界已经研究烂的技术了为什么工业界还是做不好呢主要的原因是实际业务中的实体不只是机构名/人名/地名这么简单和理想而是些和业务紧密联系的专有名词往往是某一家公司所独有的词汇。比如运营商场景中的套餐实体“30元每月30G”这个时候既没有足够的标注数据套餐每隔一段时间还会变化所以学术界的那一套NER的方法太fragile了。所以工业界采用的方法目前还是以规则为主模型为辅。此外任务式对话还会面临多轮问题这就涉及到了对话管理的概念。工业界的对话管理的第一要义是绝对可控性所以技术选型上都是pipeline系统而非端到端系统尽管学术界从2015年就有了端到端任务式对话相关的研究工作[5]。对话管理模块是多轮对话的控制中枢决定了对话如何进行下去以及对话的质量作用是维护和更新对话状态以及判断系统的下一步动作。目前工业界的普遍做法是基于有限状态机这种方法需要事前显式定义对话系统的所有可能状态优点是可控缺点是状态转移过程是人为定义的一旦出现定义范围之外的情况无法处理就变成人工智障了此外对于用户回答偏离业务设计的情况怎么拉回到对话的主流程上再比如用户前一个意图还没结束可能就开启了下一个意图这个时候如何处理即使对话流程配置的很精细也无法应对可能的突发和未知状况这些都是实际应用中经常面临的问题。因此虽然学术界普遍认为任务式对话的各个子模块似乎都做的差不多了甚至端到端也看似不少paper了但来到真实场景才会发现学术界的问题定义和测试集太过理想了。联想到很多产品都在吹“我们的产品用了A学习B技术能做到C效果”可是它真的给产品的用户体验带来提升了吗提升了多少呢对话的痛点问题又解决了多少呢。路在何方在当今深度学习大风口与预训练小风口的带动下不可否认的是NLP领域迎来一波质的飞跃但是在对话问题上却远远没有乐观到能一下子解决实际问题的程度。对话领域要迎来颠覆必须有超脱于单纯的炼丹技术和预训练范式之外的突破。这个突破是什么我也不知道但至少是个机器学习命题。我也一直在思考该怎么跳出这个不断挖字典写规则和不断标数据finetune的桎梏。我也希望真正热爱对话的学术界研究者们能将更多的精力放在对话框架层面的痛点问题上而不单单是DSTC又屠了榜、训了个更大的闲聊模型能聊的更像人了、意图识别准确率又提升了1%。这些都不是影响对话大规模落地的痛点问题。回到标题上来对话系统凉透了吗相信认真看完本文的小伙伴心里已经有了答案。对话确实很难过去的一年里某AI Lab解散多个C端产品面临调整B端业务订单难啃难以大规模变现学术界对话研究热点又似乎跟工业界痛点不合节拍外界一片看衰。但对话依然是个很有意思有意义的研究课题它的社会价值和人类憧憬一直没有改变。萌屋作者兔子酱一个颜值与智商双高的妹纸毕业于“信息黄埔”北邮。和小夕一起打过比赛霸过榜现在在百度智能客服团队拿过最高奖的团队做对话方向的NLP业务落地货真价实的懂业务的算法工程师。微信号elec_Wang9018欢迎来撩后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1]Adiwardana, Daniel, et al. Towards a human-like open-domain chatbot. arXiv preprint arXiv:2001.09977 (2020).[2]Roller, Stephen, et al. Recipes for building an open-domain chatbot. arXiv preprint arXiv:2004.13637 (2020).[3]Zhang, Yizhe, et al. Dialogpt: Large-scale generative pre-training for conversational response generation. arXiv preprint arXiv:1911.00536 (2019).[4]Bao, Siqi, et al. Plato-2: Towards building an open-domain chatbot via curriculum learning. arXiv preprint arXiv:2006.16779 (2020).[5]Wen, Tsung-Hsien, David Vandyke, Nikola Mrksic, Milica Gasic, Lina M. Rojas-Barahona, Pei-Hao Su, Stefan Ultes, and Steve Young. A network-based end-to-end trainable task-oriented dialogue system. arXiv preprint arXiv:1604.04562(2016).
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/911896.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!