行稳、致远 | 技术驱动下的思考感悟

news/2025/9/22 15:55:44/文章来源:https://www.cnblogs.com/Jcloud/p/19105434

行稳: 做好当下,结果第一

读书和加入京东以来的这十几年,我感触最深的一个点就是要做好当下。我个人是一个思维比较跳脱,想法算是比较多的人。总是喜欢瞎折腾,喜欢想东想西。有时候有点 “这山望见那山高” 的意思。

 

我本科的专业是偏电力的控制工程,做过那个电动汽车的无线充电。但是后来美国交换的时候看到了别人在做足式机器人控制,这个东西对于当时的我来说简直是太酷了,再加上当时Boston Dynamics的人形机器人爆火。我就赶紧选上了机器人学,以及后续的非线性控制的课程。 但是这个控制课到后面就是比较抽象难于理解的非线性微分方程和微分几何了,比较艰深了。这时候大概就是15、16年了,AI开始火起来了,我又一想,哎,搞机器人大脑好像比搞身体更有想象力啊,然后就开始机器学习。后来读研究生,读博士我其实仍然还延续着类似的做法,一开始做应用、做推荐。然后又觉得贝叶斯方法通用,常青树,开始研究贝叶斯方法。然后又是一些moment matching 方法, 有global optima,有全局解,很棒啊。这样看起来是涉猎广泛但实际上却是浅尝辄止。本科时期或许还可以混得过去,到了研究生期间问题就暴露无遗了。因为现在的要求不是比谁知识更广博,不是通过组合一些已有的东西去组成一个似是而非的东西,而是真正地要深入地去钻研,去解决一个问题,要用结果来说话。就是因为这样一直处在选题、权衡、调整的循环中,我文章就出的很慢啊,读博的整个过程前期放飞自我,后期真的是压力山大。这是我亲身实践过的弯路,也是我读书阶段给我最大的教训:确定好当下要做的事情,明确一个目标,就要绝不动摇地把重点放在努力执行上,用最终的结果去说话。

 

 


 

 

很巧的是,来到公司以后,听了公司技术专家的培训课程,老师也提到了这样的一句话:“这个世界上根本没有正确的选择,我们只不过是要努力奋斗使当初的选择变得正确。” 我个人还是很被触动的。虽然也有说法说 “选择比努力更重要”的,但是对我这样现阶段技术人来说,多数情况都是在当下有明确的需求任务、或者目前信息还不足以进行完美预见的,那这样的话踏实专心干活就好了。这样一种立足当下,脚踏实地的态度可让我减少大量无意义的内耗,专注于工作,事事有回应,件件有着落。解决好业务需求,去交付结果并赢得认可,才能成为一个比较靠谱的人。

 

三、致远:业务为本、技术驱动

那作为一个同时也比较有理想的技术人,我们也不仅仅只做安排好的事情,低头耕地,也会抬头看天。我总会听到“技术驱动” 这个词。看到新闻里各种技术创新的政策引导,比如今年7月浙江省的这个《关于引导企业从“产品驱动”向“技术驱动”创新模式转型,强化企业核心技术创新能力的建议》;听到刘总提到技术驱动是降低成本,提高效率和体验的重要手段;看到比如推荐系统这样的技术已经极大地改变了现代信息传递的模式和通路。但是实际工作中,好像很多时候我们经常是在接各种各样的需求,在各个排期之间奔波,似乎离技术驱动这样的“星辰大海”比较遥远;这个问题其实也困扰了我很久,后来接受了公司的各种培训以及Leader的指导后终于可能开始初窥门径。

 

公司解决问题的整体流程是业务-产品-研发,即业务运营本身的需求提到产品,产品与研发设计解决方案,然后以产品的形式返回给业务使用。初看下来研发确实是承接需求的一方,但是如果作为研发我们在完成业务需求的时候,尝试去深入理解业务逻辑,思考当前业务需求的来源是什么,后面还可能会出现什么问题,从技术的角度看是否有散点的需求可以合并解决,从后面走到前面,想到前面,就可能可以实现业务需求与技术探究的有机结合。就会给我们技术人以更大施展和腾挪的空间。

 

去年开始,我开始接触一个重点项目。 在当时建设系统的时候,为保证输出的质量,会对重保的部分数据结果进行人工审核。这一时期其实我们的主要需求是优化准召,但是有人工审核这肯定是就是未来可以优化的点嘛,结合当时大语言模型发展如火如荼发展的态势,我们尝试了基于LLM训练判别器来进行自动预审核过滤来降低人工审核的成本。这个其实一定程度上说我们是走在了业务需求的前面,因为效率本身还不是当下业务亟待解决的问题。但是业务方也还是非常乐于见到我们做这样子的尝试,给了我们很多的空间和支持。

模型判别可以获得令人满意的效果,然而,这仍不足以大规模应用。由于采用了大语言模型作为基础,模型推理耗时严重,使用A-100推理1000W条数据约需接近50h。为此,我们又主动对模型进行了蒸馏压缩,将其压缩六倍+,而精度几乎不下降。 成果也得以应用到了很多个比较重要的业务场景。虽然这只是一个比较小的case哈,但是对我们来说它是我针对业务运营进行技术驱动的一次重要尝试,当然这还是一个比较初级的实践优化了系统的一个小环节。一定程度上展现了“想在业务前面”的价值。所以说,主动、深入理解业务逻辑,预见业务发展的潜在需求,可以为后续技术手段的探究和运用留出比较大的空间,方便让技术的力量渗透到业务的每一个角落。

 

四、致远:技术突破,行业影响

以上是从技术驱动业务的角度的一个小小的感悟,对于我们个人技术能力的提升和突破来讲,我们多少都有一些技术使命感,就希望我们做出来一个技术点,在行业上是特别领先的。那么如何去在自己的领域上进行一些创新突破,提升自己,以及公司的技术影响。这个是一个很系统性,很复杂的工程,需要广博的基础知识、很好的提炼问题的能力、独到的解决思路、持之以恒的努力等等。在这一点上我也在摸索和向大家学习中,仅分享持续学习和技术问题提炼两个小点来抛转引玉一下吧。

 

持续学习:作为技术人永远不能忽视技术能力的提升。特别是比如像我们所在的AI这个快速变化的技术领域,持续学习非常必要的,专业力永远是立身之本。我们要密切关注行业动向,了解并学习前沿科技,提升对技术的敏锐度,勇于尝试和布局;积极参与学术活动和技术论坛,保持同行的交流,避免陷入闭门造车的困境,长期地去修炼好自己的内功。

 

深入思考:在日常工作中常有的一种感觉是支持业务的过程中找不到有价值的技术点去深究。 那这个时候感觉就还是需要对手上的业务进行持续、深入的思考了。京东的平台很大,业务场景很复杂,其实抽象出很有意义的探究问题的概率是蛮大的。 就比如之前遇到的一个业务问题,一个看似简单的二分类问题,其实也蕴含着很多很有意义的技术点,比如他的正、负样本天然地就严重不均衡,很难直接训练模型用于正例的抽取,这就是非常经典的label imbalance问题。 我们那个问题中判别是成对进行的,要两两判别两个SKU中间是不是存在某种联系,可以将prompt和商品标题缓存来加速模型的推理,这就蕴含着最近LLM推理很火的Prefix Cache思想。训练好的模型上线使用还有模型轻量化等等一系列后续的任务。这都是我们进行突破的机会。经过仔细的分析、解构和抽象,很多业务问题是包含有很深刻的、值得讨论的技术问题的。用这样的实际问题切入进行深究,很多时候会比在研究机构那种follow paper型的搞法效率更高、理解更到位。京东给我们提供了足够大的舞台,我们接下来要看怎么把这个表演去完成。

我在做大模型应用的过程中就被模型训练速度慢困扰了很久。因为我们有非常多的场景有训练的需求,待训练模型参数量很大,训练数据很多,我们还需要做大量的实验来获得最优的策略设置。在计算资源紧张的情况下还真的是很头疼。在模型固定的情况下,业务实践中通常会随机采样部分数据训练来缓解这个问题。但是更深入地思考后,就会出现新的疑问:这些方式是选取样本的合理策略吗?能保证原有模型效果的保留吗?还有没有更好的方式?基于这样的一个问题和这样的一个思考,结合大量相关工作的启发,我们设计了一种新的动态数据选择的方法。仅保留信息量最大的数据子集进行训练来减少计算消耗,实现降本提速。随后也从理论上证明了这样训练模型大概率最终会收敛到与常规训练相同的损失,确保了其可行性。这个工作也被顶级会议ICLR录用了。

 

 


 

 

 

但是还没有结束,我们还可以更进一步。大模型效果与训练样本量的幂率关系(Power Scaling Law)是海量算力需求的核心因素。如图所示,横轴是训练的样本量,纵轴是验证损失。增加10^8训练数据,模型Loss仅下降0.05。这一规律意味着任何进一步的减少误差尝试都可能需要增加一个数量级的样本。既然上面我们发现用少量的样本训练也可以达到接近的效果,那么是不是可以通过数据选择来突破幂率形式,实现如下图所示的指数形式的新Scaling Law呢?那这样就是非常有影响力的问题了。

 


 

最后,虽然今天聊了很多技术驱动和创新,但我们不能进行不切实际的创新,还要站在业务的视角思考技术的价值。技术驱动并非单纯创新探究, 重点仍是交付价值;技术影响也非纸上谈兵或拿着锤子找钉子,而是发源与对实际业务问题的探究。

 

 

五、未来期望

以上就是我的一些小小的心得。 那么随着大模型和类通用智能技术的出现,我们正处于一场技术革命的前沿。现在是时候扎根在业务应用中。在京东这个广阔的平台去实现自己的价值,以技术来驱动生产环节优化、流程升级以及产品更新。最终实现集团“以技术为本,致力于更高效和可持续的世界”的使命。

 

图片来自: https://www.youtube.com/watch?v=pW1VlhLX2gI; www.biped.solutions

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/909544.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在控制台执行这段代码可以列出所有::selection规则

// 在控制台执行这段代码可以列出所有::selection规则 Array.from(document.styleSheets).forEach(sheet => { try { Array.from(sheet.cssRules).forEach(rule => { if(rule.selectorText && rule.sele…

JDK从8升级到21的问题集

一、背景与挑战 1.升级动因 ◦Oracle长期支持策略 ◦现代特性需求:协程、模式匹配、ZGC等 ◦安全性与性能的需求 ◦AI新技术引入的版本要求 2.项目情况 ◦100+项目并行升级的协同作战 ◦多技术栈并存 ◦持续集成体系的…

网站建设公司调查报告wordpress多国语言版本

首先,Kafka无法保证消息的全局有序性,这是因为Kafka的设计中允许多个生产者并行地向同一个主题写入消息。而且,一个主题可能会被划分为多个分区,每个分区都可以在独立的生产者和消费者之间进行并行处理。因此,生产者将…

wordpress游客变用户品牌网站和优化网站

各位小伙伴们大家好,欢迎来到这个小扎扎的ElasticSearch专栏,本篇博客由B战尚硅谷的ElasticSearch视频总结而来,鉴于 看到就是学到、学到就是赚到 精神,这波依然是血赚 ┗|`O′|┛ 🌆 内容速览 1 es数据格…

网站色彩搭配方案泰安市高新区建设局网站

前言 当谈到异步编程时,C#中的async/await是一个强大且方便的工具。它使得编写并发和异步操作变得更加简单和可读,同时提供良好的可维护性。本文将详细解释async/await的使用,以及如何在C#中有效地利用它来实现异步操作。 目录 前言1. async…

先做网站装修还是先买虚拟主机wordpress china 中文

任务7:采集这5页中胜点列的数据,找出胜点最高的召唤师,将召唤师姓名填入答案中 此题采集的是胜点列表的数据如下 通过控制台审查元素查看,可以看到是乱码,记得几年前的快手,小红书,抖音也采用了此类反爬措施,html页面显示的是乱码,浏览器能正常显示数据,大概率就是…

科技公司网站案例做 在线观看免费网站

引言 在数据结构和算法的世界里,平衡二叉搜索树(Balanced Binary Search Tree, BST)是一种非常重要的数据结构。AVL树(Adelson-Velsky和Landis发明的树)就是平衡二叉搜索树的一种,它通过自平衡来维护其性质…

网站建设是用自己的服务器重庆室内设计

第1周:SQL入门 学习SQL语句的书写语法和规则从零学会SQL:入门​www.zhihu.com 第2周:查询基础 Select查询语句是SQL中最基础也是最重要的语句,这周我们就来利用Select来对表中的数据进行查询。从零学会SQL:简单查询​w…

福建建设局网站无锡市建设银行总行网站

puppeteer 文档:puppeteer.js中文文档|puppeteerjs中文网|puppeteer爬虫教程 Puppeteer本身依赖6.4以上的Node,但是为了异步超级好用的async/await,推荐使用7.6版本以上的Node。另外headless Chrome本身对服务器依赖的库的版本要求比较高,c…

做网站能用本地的数据库嘛商业空间设计案例网站

1月11日,由零售圈主办、20零售连锁协会协办、30零售行业媒体支持的中国零售圈大会暨2024未来零售跨年盛典在西安落下帷幕,在这个零售行业盛典中,第七在线凭借其高精尖产品和卓越的服务质量成功入选,并荣获了“百灵奖 Buylink Awar…

虚拟主机网站建设网站开发文档范文

11服务: 功能:控制MCU进行重启,重启分为硬重启和软重启,11服务一般代表软重启,虽然它里面有个子服务是硬件重启,这里需要注意下;硬重启在日常工作中一般代表B重启。命令格式(请求&am…

做网站犯法了 程序员有责任吗江干网站建设

一、背景 近年来由于危险河道管理措施不到位,调峰电站泄水风险长期存在,信息通报制度缺失以及民众安全警觉性不高等因素导致的水电站在泄洪时冲走下游河道游客以及人民财产的事故频发。 二、系统介绍 水电站智能监测泄洪预警系统是一种集成了物联网、云…

超前探展!2025 云栖大会朋友圈晒图必备

2025 云栖大会来了! 从基础设施、大模型到 Agent 和具身智能 全景呈现 AI 技术演进与产业落地 尽在 9.24-9.26 杭州云栖小镇! 2025 云栖大会将持续三天,来自 50 余个国家的 2000 多位演讲嘉宾将齐聚杭州,通过云栖前…

古蔺中国建设银行网站改变网站的域名空间

其实这篇文章不是这里的,只是,后台很傻B地进不了了。也不知道是什么乱七八糟的问题。先写在这里,当做这么久没更新的偷懒好了。(而且,挑出来的这些都是精华呢!),大家各取所需吧: 1. …

html5 公司网站盘锦网站推广

611. 有效三角形的个数 给定一个包含非负整数的数组,你的任务是统计其中可以组成三角形三条边的三元组个数。 示例 1: 输入: [2,2,3,4] 输出: 3 解释: 有效的组合是: 2,3,4 (使用第一个 2) 2,3,4 (使用第二个 2) 2,2,3注意: 数组长度不超过1000。数组里整数的范…

杭州好的做网站公司阿里云申请域名做网站

当提到C的时候,很多人会觉得语法复杂、学习曲线陡峭,并且好像与C语言还有点"纠缠不清"。尽管如此,C仍然是当今世界上最受欢迎和最有影响力的编程语言之一。特别是在当今快速发展的人工智能(AI)领域&#xff…

衡量网站质量的标准工信部官网查询系统查询手机

微软发布了Entity Framework Core2.1,为EF开发者带来了很多期待已久的特性。EF Core 2.1增加了对SQL GROUP BY的支持,支持延迟加载和数据种子等。EF Core 2.1的第一个重要新增特性是将GroupBy操作符翻译成包含GROUP BY子句的SQL。缺乏这种支持被认为是EF…

织梦响应式茶叶网站模板php网站开发技术

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 实现方案 📒📝 操作步骤📝 注意事项⚓️ 相关链接 ⚓️📖 介绍 📖 小米设备的广告一直是用户头疼的问题,无论是开屏广告、应用内广告还是系统广告,都影响了用户体验。本文将详细介绍如何通过小米路由器实现去除广告…

凯里建设网站专注WordPress网站建设开发

在buildAdmin的表格中,通过按钮来选中和取消某一行 这种情况,只适合表格行的单选 在elementplus是这样说的 我们所使用的就是这个方法 看一下buildAdmin中的用法 highlight-current-row 是element-plus 中表格的属性 因为 buildadmin 中的table是对 el…

AutoCAD 2025 CAD 安装包中文永久免费免激活破解版下载及详细安装教程

一、CAD2025软件下载链接 软件名称:CAD2025 软件大小:2.69GB 安装环境:Win10以及以上 下载链接:(建议手机保存后到电脑端打开,下载解压无需任何密码) 夸克网盘:https://pan.quark.cn/s/9e4f2565ec22 迅雷网盘:…