强化学习,商业化之路宣告死亡了吗?

4f5367d6bf6ecf3ca2e902e59b01fac5.png

文 | Shona

继DeepMind推出AlphaGo已过去7年,强化学习在游戏行业有了不少应用,例如游戏陪玩、AI托管等。

在这过程中,越来越多的公司 / 研究院所为强化学习的研究投入了大量的资源与精力。随之而来的,也有不少质疑,不少人对强化学习的印象还仅仅停留在游戏层面,认为它落地到其他行业是非常之困难的。

到目前为止,我们回顾自热潮掀起,再到质疑声频出,强化学习是否真的挺进各行各业?它创造商业价值了吗?

换句话说,强化学习的商业化之路,是否已宣告死亡?

前不久,这件事情在国外引起了热议。

cd01692196df2cc9b5beaf3c0d76d251.png

一位在国外任职“数据科学家”的网友提出,在真实的工业界场景中,似乎很少见到像游戏这样的可以轻松建立agent模拟环境的场景,而一个理想的模拟环境对训练RL来说是非常重要的。商业场景中,应用RL是非常不切实际的。

在实际的工业界场景中,人们通常认为训练强化学习模型会遇到以下几个问题:
1)采样效率低: 强化学习的agent与环境的交互有限,没有办法采样足够多的数据,部分场景常常只能收集一些重复无用的数据。

2)试错成本高: 除了游戏AI行业这类试错成本比较低的行业,在某些领域中,试错成本较高成为强化学习发展的瓶颈。例如,医疗行业、无人驾驶。应用模拟仿真解决问题又会带来数据一致性的挑战。

3)巨大的动作空间: 例如推荐系统存在成千上万的item,电商行业有大量的商品需要推荐,强化学习需要针对各个action做非常充足的探索,此时强化学习的落地需要结合业务背景,如何抽象出强化学习相关的问题显得非常重要。比如,把单个商品或者单个用户当做action可能会有点不切实际,使用用户群体、商品类型的话action space会小很多。

但仅仅靠这几点又不足以说明没有适合RL的商业场景。

帖子的讨论区里,有一些网友试图列举当前RL在商业上成功落地的场景。

1. 网站优化

796b7fc8e5195d42658224b7911bbcec.png

比如这位网友提到强化学习中经典的MAB(multi-arm bandit)模型可以用于网站优化,并且楼中楼提供了一些现成可用工具,比如Vowpal Wabbit。

2. 推荐系统

d54b33f8f7df5a504c112018e5919202.png

强化学习在推荐系统已落地使用的应用较多,其长期价值建模能力、探索能力都让它有足够的优势促进人均时长、商业收入等推荐领域核心指标的提升。不管是在内容推荐上,还是涉及商业化的多介质混排上,强化学习都能出一份力。YouTube、阿里、腾讯、京东、快手等都落地了强化学习推荐算法,其中,实现相对简单,对线上损失小的offline RL应用比online RL更多。

我们知道传统的推荐系统可以看作一个单点预测,即基于用户特征(包含上下文)从海量的候选池中检索出少量的内容,用户对推荐系统的每次请求看作一个独立的过程。强化学习则将整个用户生命周期作为建模的对象,用户整个行为过程视为一个马尔可夫决策过程,从而在一定程度上更能考虑在上下文中的行为对用户心智的影响。

d97f0289f9edd7e090cae30758a91558.png

强化学习可以应用在推荐系统的召回、精排、重排的全链路阶段。例如,Youtube的Top-K RL算法通过sample softmax、校准数据权重等方式解决了动作空间过大、在线离线样本分布不一致等问题,提供了强化学习在召回领域的新视角。快手提出了基于强化学习的序列化排序框架,将输出 N 个视频序列的任务建模为 N 次决策过程,依次从候选集中挑选出 N 个视频,完成端到端的排序过程。微信看一看也应用强化学习预测每个内容出现的位置。其中,在重排阶段的落地更多一点,可以更灵活地定义reward,比如,时长、收入、多样性、惊喜度等。

进一步地,如果最大限度地提高混排模型的实时性,强化学习模型也能在手机端通过实时捕捉用户行为进行内容筛选,更有效且更精准地推荐。端重排技术目前在快手、淘宝都有落地。

笔者拿自己用强化学习在推荐领域落地的经验来说,起初一直把强化学习框架的搭建当做一件很复杂的事情(因为太想一步到位),不过还是慢慢调整了思路和心态。为了建模用户更长程的收益,选择了使用RL,但应用到整个序列生成是困难的,只用在多目标融合上行不行?online的框架需要架构和资源支持,降本增效的场景下,我用offline RL可不可以?offline RL的外推误差很严重,Q值总是被过估计,那还可以补充约束,比如BCQ, CQL, IQL等。

3. 控制问题&机器人

e88eeea1c484cc713821c0af18171fcb.png

RL在这个领域的应用潜力也得到了楼中楼若干网友的肯定。

说到机器人,就不得不提明星公司“波士顿动力”了,他家经常因为惊艳的demo视频吸引大众的眼球,但不得不说....商业化之路看起来并不明朗。

潜力是一方面,真正的商业化落地又是另一方面了。

4. 组合优化问题&NP-hard问题

e730053eed60bb209b2a3a4436796bc2.png

这个场景还是让读者感到有些耳目一新的。但也有网友指出,对于“旅行商问题”这种已经被求解的比较好的组合优化问题,RL可能不太占优势,很可能不如线性规划好使。

楼中楼网友进一步补充了RL求解组合优化问题的优势:

e16c488b210298f3904fa79450a0839e.png

即​:

1. RL求解可能比线性规划快得多

2. RL往往可以扩展到更大规模的场景

3. RL对于新问题有更强的解决能力

除此之外,还有网友指出一些research topic也可以用RL求解。

但不得不说,除了推荐这个场景以外,其他几个场景的商业价值只能说“想像力有限”。

笔者这里也补充几个工业界应用RL解决问题的例子,这几个场景也是相对来说有较大商业价值的。

广告行业: 在广告场景中的应用与推荐类似,阿里、京东等都落地了基于强化学习的流量预估与分配、实时竞价等算法。

芯片行业: 谷歌利用基于强化学习的方案,6小时即可完成芯片布局的设计,能力超过人类。论文被刊登在Nature,成为首个具有泛化能力的芯片布局方法,轰动业界。

619347661a3e3a89e2a1ef38671d8ba3.png

​自动驾驶: 运动规划是无人驾驶系统的核心模块之一,但由于自动驾驶场景的复杂性与不确定性,常规算法的迭代效率较低。强化学习在解决时序性决策问题方面的优势与智能驾驶的决策过程非常契合。Waymo的ChauffeurNet强化学习自动驾驶模型成功应用于实车的模仿学习,实现了可以在一个没有其他车辆、行人的乡村环境中安全巡航的实车驾驶系统。百度 Apollo 也基于动力学仿真落地了强化学习决策算法。

当然,引入强化学习或其他智能算法后,如何提高自动驾驶系统安全性与稳定性依然是悬而未决的问题,但起码辅助驾驶强化学习还是可以帮上忙的~

其他行业,比如化学分子逆合成和新药设计,DeepMimic运动机器人,对话系统,也都能找到强化学习算法的身影。

769daf781c91197ee426b02da1e3acf6.png
▲图片来自网络

想了解RL更多应用场景的小伙伴,可以看这位网友贴的一本书:

97212296d94f6a03daccb0cb6f4bf188.png

工业界应用:

fee87b2fe09d12871ea125108af45e6d.png

传送门:

https://rl-book.com/applications/

从以上列举的诸多RL落地场景来看,强化学习还是一个成长中的领域,大部分前沿方法和实际落地还相差较远,能撑起商业想象空间的场景更是乏善可陈,但在一些问题契合的场景,RL创造了一些价值。

如今,距离AlphaGO诞生已经7年了,人们和资本对于RL的热情已经褪去了不少。尽管这些年学术界和工业界都付出了巨大的努力,但RL的商业化却似乎总让人觉得差点意思。

强化学习的商业化之路,未来还会有更大的想象空间吗?

35f8cadfd46d7059e2af95ca3605da03.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

转usb驱动cmw500 ni_支持USB Type-C接口的外置蓝光驱动器IO Data BRP-UT6 / MC2本月发售...

IO Data以其非正统的数据设备闻名,最近IO Data新推出了一款支持USB Type-C接口的外置超薄蓝光驱动器设备 BRP-UT6 / MC2,除了支持USB-C接口,其配置是非常标准的超薄外置蓝光光驱规格,支持最新的BDXL和M-DISC规格,附赠M…

ajax缓存处理

最近写程序是发现,使用ajax的时候,有时候既然不能访问请求页面了,压根就不走后台代码了.........测试了很久,发现应该是缓存的问题:可以在前台异步调用是加上:xmlHTTP.setRequestHeader("If-Modified-Since","0");或者如果你的后台请求页面是一个.aspx页面…

程序员面试金典 - 面试题 16.26. 计算器(栈)

1. 题目 给定一个包含 正整数、加()、减(-)、乘(*)、除(/)的算数表达式(括号除外),计算其结果。 表达式仅包含非负整数,, - ,*,/ 四种运算符和空格 。 整数除法仅保留整数部分。 示例 1: 输入: "32*2" 输…

深度学习撞墙?谷歌:是时候动用钞能力了

文 | 天于刀刀推特上万众瞩目的明星语言大模型比赛项目 Inverse Scaling Prize 终于在近期落下了帷幕,这也是社区中第一次针对 scaling law 反例的探究,各式各样的大模型和 NLP 任务在比赛期间被提出和应用,同样许许多多的成果也在这次比赛中…

python教程输入_python怎么输入一个集合

set()函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等。 set 语法: class set([iterable]) 参数说明: iterable -- 可迭代对象对象; 返回值: 返回新的…

来了就不会空着手回去.

如果您需要帮助,可以到我的"文章"去看看,也许对您有帮助....以动手实践为荣 , 以只看不练为耻;以打印日志为荣 , 以单步跟踪为耻;以空格缩进为荣 , 以制表缩进为耻;以单元测试为荣 , 以人工测试为耻;以模块复用为荣 , 以复制粘贴为耻;以多态应用为荣 , 以分支判断为耻…

LeetCode 第 23 场双周赛(970/2044,前47.5%)

文章目录1. 比赛结果2. 题目1. LeetCode 5360. 统计最大组的数目 easy2. LeetCode 5362. 构造 K 个回文字符串 medium3. LeetCode 5361. 圆和矩形是否有重叠 medium4. LeetCode 5363. 做菜顺序 hard1. 比赛结果 做出来了 1、3 两题,继续加油! 第二道字符…

杀疯了…4个月发表论文的实操手册来了!

科研的本质:解决问题,创造新事物(新问题、新方法、新发现、新理论)科研论文的关键的体现在于将所得结果详实记录并进行科学分析后,总结成果写成论文由同行评议认可后发表。科研的完整过程那么如何在4-6个月内产出论文呢,这次我和一…

tkinter的可视化拖拽工具_可视化越做越丑?这五个高级图表效果实现流程分享给你...

今天我们来说一说数据可视化,想必很多人在入门数据分析之后,就会经常进行可视化的工作,所谓一图胜千言,图表用的好,真的是会事半功倍的。但现实情况下,很多人遇到的问题是:你做的图表太丑了&…

WinForm的App.config

项目右键&#xff0d;&#xff0d;添加&#xff0d;&#xff0d;添加新项&#xff0d;&#xff0d;选择应用程序配置文件 即出现App.config.打开App.config, 键入&#xff1a; <appSettings></appSettings>然后在 appSettings中就可以定义变量及变量的数值了。比…

LeetCode 1403. 非递增顺序的最小子序列(排序)

1. 题目 给你一个数组 nums&#xff0c;请你从中抽取一个子序列&#xff0c;满足该子序列的元素之和 严格 大于未包含在该子序列中的各元素之和。 如果存在多个解决方案&#xff0c;只需返回 长度最小 的子序列。如果仍然有多个解决方案&#xff0c;则返回 元素之和最大 的子…

独自一人,怒发AI顶会论文

长短作为曾经熬通宵肝论文的过来人&#xff0c;小编要吐槽&#xff0c;论文写久了真的会头秃&#xff0c;尤其是确定选题和找创新点、idea的时候&#xff0c;是薅头发事件的高发阶段。对于那些导师放养、在自己的摸索中磕磕绊绊前行的科研新手们&#xff0c;焦虑总是瞅准时机就…

winform响应时间最长是多少分钟_当詹姆斯退役时,他的总出场时间会达到多少分钟?...

在勒布朗-詹姆斯进入他职业生涯的第17个年头之际&#xff0c;Bleacher Report将目光锁定在了这位四届MVP的身上&#xff0c;在度过即将到来的2019-20赛季以及剩余的名人堂职业生涯之后&#xff0c;他的多项数据在联盟历史中会处于怎样的地位呢&#xff1f;詹姆斯已在历史排行榜…

[转载]WebBrowser知识

WebBrowser知识WebBrowser知识Q: What is WebBrowser?A: The WebBrowser is Microsofts Internet Explorer in the form of an ActiveX control. It can be imported into the Delphi IDE and dropped on a form like any other component. Therefore, you can harness the po…

LeetCode 1404. 将二进制表示减到 1 的步骤数(字符串加法)

1. 题目 给你一个以二进制形式表示的数字 s 。请你返回按下述规则将其减少到 1 所需要的步骤数&#xff1a; 如果当前数字为偶数&#xff0c;则将其除以 2 。如果当前数字为奇数&#xff0c;则将其加上 1 。 题目保证你总是可以按上述规则将测试用例变为 1 。 示例 1&#…

可以炸掉用户脑袋的VR设备来了!元宇宙与现实连接了?

编 | Aeneas 昕朋源 | 新智元游戏失败就杀死你的头显&#xff0c;就问你敢不敢戴&#xff1f;对于很多游戏设计者来说&#xff0c;游戏里的死亡根本不够刺激。在他们看来&#xff0c;要玩就玩真的——在游戏里死了&#xff0c;你就是真死了。Oculus VR创始人帕尔默洛基&#xf…

spark调用python_在MRS集群中使用Python3.7运行PySpark程序,调用RDD的take函数报错处理...

现象 如果我们安装了python3.7版本来运行spark&#xff0c;并且用到了RDD的take函数&#xff0c;就会报错&#xff1a;RuntimeError: generator raised StopIteration 我们可以编写一个python脚本test.py来进行测试&#xff0c;用spark-submit命令提交&#xff1a; spark-submi…

对称加密(DES)

usingSystem;usingSystem.Collections.Generic;usingSystem.Text;usingSystem.Security.Cryptography;usingSystem.IO;namespaceComponent{ public class Security { public Security() { } //默认密钥向量 private static …

AI终于能替我写论文了

编 | 小舟、陈萍源 | 机器之心Meta AI 提出了一个可以总结学术文献&#xff0c;解决数学问题的新模型&#xff0c;该模型还能生成百科文章&#xff0c;编写科学代码&#xff0c;注释分子和蛋白质等等。近年来&#xff0c;随着各学科领域研究的进步&#xff0c;科学文献和数据呈…

网站访问量怎么刷_基于爬虫刷新某网站访问量!我说怎么上千万呢

前言&#xff1a;前一段时间看到有博友写了爬虫去刷新博客访问量一篇文章&#xff0c;当时还觉得蛮有意思的&#xff0c;就保存了一下&#xff0c;但是当我昨天准备复现的时候居然发现文章404了。所以本篇文章仅供学习交流&#xff0c;严禁用于商业用途当我在写文章的同时&…