佛山网站开发公司秦皇岛微信公众号
news/
2025/9/22 21:14:36/
文章来源:
佛山网站开发公司,秦皇岛微信公众号,推广普通话活动,模板之家免费下载方法2019双11#xff0c;支付宝参战的第十一年。
与十一年前相比#xff0c;双11的许多东西都改变了。比如金额——2684亿#xff0c;差不多是十一年前的5000倍#xff1b;比如流量——订单峰值54.4万笔/秒#xff0c;曾经是想都不敢想的数字#xff1b;再比如层出不穷的新技…2019双11支付宝参战的第十一年。
与十一年前相比双11的许多东西都改变了。比如金额——2684亿差不多是十一年前的5000倍比如流量——订单峰值54.4万笔/秒曾经是想都不敢想的数字再比如层出不穷的新技术就是这些惊人数字背后的“秘密武器”给迎战双11的战士们作最完备的武装。 也有始终不变的东西。大战来临前的紧张、不安、如履薄冰对每一个细节反复check的“强迫症”以及胜利之后的欣喜、释然、满心充实和下一步砥砺前行。
支付宝的技术工作就是“半年搞建设半年搞大促”。虽然是一句戏言但足够从侧面证明大促作为实践战场的重要性。而每当双11圆满落下帷幕技术人也就到了收获的季节。那些历经双11大考的新技术就像经历过了“成人式”一样一一走到台前开始独当一面。 SOFAMesh金融级云原生第一步
众所周知金融机构因为肩负的责任重大面对新技术时普遍都是比较保守的。支付宝也不例外尤其是在双11这种场景下流量大峰值高平时不管多小的问题在这时候都可能被放大成不得了的大问题。
于是今年的大促迫在眉睫时SOFAMesh团队还在纠结。来自周围的各种声音让他们感到压力很大。被问到的最多的问题就是“这个靠不靠谱”
一个“行”字在双11的面前可能有千钧之重。能不能扛过零点的流量峰值能不能保障稳定能不能保证不出差错
Mesh是一项很新的技术社区开源项目本就不成熟而SOFAMesh是支付宝从第一行代码就开源加自主开发的项目在金融级的严苛要求面前在双11的极端场景之下究竟行不行谁心里都没有底。
然而此时不上整整两年的心血就白费了。反过来说如果能打赢这一仗就证明云原生之路在双11这种体量的考验之下都是可行的这对于整个行业而言会是一个很好的标杆。
“蚂蚁金服要做金融行业技术的拓荒者和实践者。”资深技术专家杨海悌说。
这已不是蚂蚁金服第一次做“吃螃蟹的人”在金融机构普遍依赖IOE时他们率先开始探索分布式现在分布式渐渐成为主流他们又率先琢磨起云原生。
“以前都是业务推动技术现在到了技术为业务提供红利的时候了。”对于自己看着长大的SOFAMesh杨海悌一面很有信心一面也十分忐忑。
SOFAMesh是支付宝针对金融行业的特殊需求而开发的金融级中间件属于金融级云原生分布式框架SOFAStack的一部分这个框架的开发始于2009年几乎和双11同龄。
是骡子是马总得遛过了才知道。SOFAMesh的第一份答卷很快交了出来——以往分时复用的资源切换需要4小时用上了SOFAMesh之后不到4分钟。性能提升将近百倍。
分时复用顾名思义就是在不同的时间段里让同一个资源能够“复用”于多个应用。这一技术能够减少资源闲置提高资源的利用效率。这一技术在2018年双11就曾立过功——当时支付宝面对这天猫双11和自己的会员大促的“双大促”挑战为了节约成本少采购一些资源上线了分时调度1.0使用同一批资源同时支持两个大促在支撑天猫双 11 和经济体用户增长两个大促的同时IT成本一分钱也没有涨。
但去年在弹性架构模式下做分时调度切换资源需要重新配置和部署相关系统4个小时的切换时间虽然成功支持了“双大促”还是满足不了对短时间内快速调用资源有需求的业务。
到了今年由于SOFAMesh的上线切换资源不再需要重新部署切换时间缩短到了3分40秒。这意味着像蚂蚁森林那样每天都会面临流量小高峰的业务无需事先留足资源余量提前10分钟开始切换资源都绰绰有余。
“将来切换时间还有望缩短到秒级。”杨海悌说。
2019年双11SOFAMesh扮演了非常重要角色——100%覆盖蚂蚁金服核心支付链路几十万容器峰值千万QPS平均RT响应时间 0.2ms是业界最大的 Service Mesh 集群。它在洪峰面前的稳定性和平滑性以及对效率的显著提升都是有目共睹的。 这张漂亮的成绩单背后其实就是一个字——行。
“云原生”已经成为业界公认的技术趋势它的目标是提升运维效率、降低资源使用成本、提升服务安全可靠性等。云原生带来的基础设施升级为技术演进提供基础能力支撑并且提升未来架构空间的想象力。2019也是支付宝的金融级云原生落地元年包括SOFAMesh在内的一系列云原生技术经历双11的考验之后向整个业界证明——我们行云原生这条路也行。
双11之后蚂蚁金服举办的发布会上副CTO胡喜宣布会将SOFAMesh也对外公开。
正如“元年”一词所说这只是蚂蚁金服在新的开拓之路上迈出的第一步。
OceanBase 2.2世界纪录就是用来打破的
OceanBase被人质疑“行不行”的次数更是多到数不过来。
数据库是命脉尤其是金融机构的数据库出一点问题都是真金白银的问题哪个业务都不敢冒风险老老实实抱着老牌进口货Oracle图个太平。
但Oracle也没见过双11这种阵仗随着双11的流量连年翻番它的性能眼见着碰到了天花板。2014年双11前的压测Oracle出现了10%的流量缺口。 OceanBase感到机会来了。在那之前他们已经“蛰伏”了四五年没有固定的业务最落魄的时候甚至面临团队解散和项目取消的境况。
当时的OceanBase将满5岁版本号却还是0.x外表看来甚至还是个demo一上来就要承接双11的10%的流量相当于支付宝平日流量的最高峰而且要做的还是最核心的交易系统——一分钱都不能出错的那种。
一时之间“你们行不行”的质疑声此起彼伏。
“别人说我们不行的时候我们都非常坚定地认为行。”蚂蚁金服研究员杨传辉说。他是OceanBase开发团队的初期成员之一亲眼见过OceanBase写下第一行代码。
从拿下10%的任务到双11的正式大考时间不足两周。最后十来天资深运维专家师文汇带着全团队几乎不眠不休地做优化硬是把长达10毫秒的响应时间降低到了1毫秒以下。
那一年的双11OceanBase没出一个差错一战成名。
今年的双11OceanBase的版本号是2.2。在为版本命名方面他们的谨慎作风一如既往。
但是OceanBase的每一次版本迭代发生的都是“脱胎换骨”的变化自己创下的纪录也由自己不断刷新——
2018年双11基于OceanBase 2.0分区方案的架构正式上线这一架构解决了数据库可扩展的瓶颈将每秒交易的承载能力提升到百万级并让性能提升了50%。
50%的提升不是个小数目但更令人惊讶的是仅仅一年之隔在2019年的双11中全新上线的OceanBase2.2版本在2.0的基础上又让性能提高了50%。
就在今年的10月3日权威机构国际事务处理性能委员会TPC披露蚂蚁金服的分布式关系数据库OceanBase打破美国甲骨文公司保持了9年的世界纪录登顶TPC-C榜单同时也成为首个登上该榜单的中国数据库系统。
短短的一个月之后在2019年双11的考场之上OceanBase2.2又再次刷新了数据库处理峰值达6100万次/秒创造了新的世界纪录。
在金融级核心数据库的严格要求之下OceanBase为何还能有这样跨越式的性能升级
关键的秘密在于OceanBase背后是原生的分布式数据库设计以及PAXOS协议通过水平扩展x86服务器就可以达到无限伸缩支持大规模高并发的效果。
另一方面今年为了进一步提升性能和降低延迟OceanBase还通过中间件的优化自动将多条SQL聚合成轻量级的存储过程这个过程让原本需要数十次SQL网络交互的任务降低为单次网络交互整体RT降低了20%。
现在支付宝的业务已经100%跑在OceanBase上作为我国第一个自研的金融级分布式数据库经过六年的双11锤炼它也已经具备了走出蚂蚁金服、走向更广阔天地的底气。
今年双11中支付宝支付业务100%切换到OceanBase内置的Oracle兼容模式上支持Oracle语法以及存储过程优化的同时又兼具OceanBase的分布式能力如分布式分区表、全局事务等响应时间也更加平稳。双11之后OceanBase2.2也将正式公开发布。
“不过在别人觉得我们什么都行的时候我们反而会冷静下来想想自己还有哪些不行的地方。”杨传辉说对技术上一切未知的敬畏才能让大家走得更远。
图智能复杂金融关系的最优解
“过去很长一段时间图数据库和图计算一直停留在学术研究阶段行业应用场景不多是因为没有强的场景驱动所以市场没有太多发展” 蚂蚁金服计算存储首席架构师何昌华指出。但是反过来看图相关的产品近年来热度不断攀升其核心原因是因为强场景的驱动特别是金融场景它非常善于处理大量的、复杂的、关联的、多变的网状数据通过节点和关联的数据模型去快速解决复杂的关系问题。
蚂蚁的一站式图平台的诞生也有着鲜明的蚂蚁金服特色同样是“被业务倒逼出来的”。
蚂蚁金服在2014年左右就开始跟进社区的图计算的研究当时的团队在一些开源产品基础上进行了小规模的尝试做了之后发现效果很好图数据库能够很好地和金融、社交业务结合起来。但是蚂蚁金服有着巨大的数据量需要以分布式架构来支撑高并发的大数据量和大吞吐量但当时无论是开源还是商业数据库产品都只是单机版都难以适应蚂蚁金服如此大的数据量和复杂的环境。于是艰难而又步步扎实的自研之路开始了。
最开始要解决的是图数据的存储和在线查询的问题。
从数据量来看分布式架构是唯一的选择。从满足金融场景高并发低延时的需求来看选择原生图结构而非基于关系型数据库基础上封装图数据成为必然。但也因为以上两点导致整个开发难度大大增加。
从2015年初团队开始组建经过“冬练三九、夏练三伏”的苦修以及在代码、运维、稳定性等每一环节的极致追求第一个图数据库版本GeaBase在2016年初发布。
而这时候刚好遇到支付宝史上最大一次改版模块化功能被替换成信息流大大强化了社交关系属性GeaBase开始接入支付宝链路。
百炼成钢经过几个月的压测2016年6月新版支付宝上线GeaBase迎来了第一笔流量。接着几年从支付宝大改版到新春红包再到双11GeaBase迎来了业务的绽放期到2019年双11GeaBase双11主链路上单集群规模突破万亿边点边查询突破800万QPS平均时延小于10ms成为支付宝核心链路上非常重要的一环
数据存储和查询的问题解决了紧接着要解决的是分析计算的问题。 在一开始我们思考的是如何在海量的图数据里做数据挖掘的问题。在面对千亿乃至万亿级规模几TB到几百TB的数据用超大内存物理机和高速网络来实现离线全图计算对企业来说不太现实资源也存在极大的浪费。因此我们重点放在如何在满足业务功能/性能需求的同时利用碎片化的现有资源实现 “按需计算”的能力。
因此2017年我们在海量数据基础上设计了一套离线计算的框架提供自适应的分区策略资源消耗能比同类产品降低一个数量级同时性能还能远远优于GraphX等开源产品。
同时为了方便业务算法人员根据其业务进行二次开发还开放了C和JAVA的接口除了业界常见的图编程框架的Pregel、GAS我们还做了一定的“微创新”和能力扩展提供了更高性能更加丰富功能的接口。
全量分析计算的事情解决了但随着“310”策略的推进风控业务的发展对分析的时效性的要求越来越高分析需要更快更实时2018年我们开始考虑在线图计算的能力。
有时候并不是所有业务都需要进行复杂的图分析而是在满足一定的条件后才开始进行子图的迭代计算。最后基于图的迭代计算的结果在进行数据链路的处理后再提供给在线使用。
因此一个场景在完整的计算链路中需要流计算和图计算两种模态的融合计算。我们打破了传统计算模态的边界提供流图融合的计算系统。通过将数据流和控制流相结合并提供动态DAG的能力从而实现按需计算弹性扩缩容。
用户可以通过一套统一的DSLSQLGremlin/GQL、一套计算系统来实现完成流图融合的链路实现基于数据驱动的在线图计算能力同时减少了用户的学习、运维成本。
在2019年双11上在线图计算技术大放异彩通过秒级决策在花呗等场景帮助业务效果提升12倍。
从“海量”图存储到离线全图 “按需计算”再到“实时”在线图计算蚂蚁的图智能技术跟随业务一步步发展壮大。
融合计算引擎新计算威力初现
今年的双11还落地应用了一套新的“神器”——融合计算引擎它耗费了近百位工程师一整年的心血。
融合计算引擎的基础是蚂蚁金服联合 UC Berkeley 大学推进的新一代计算引擎Ray它很年轻2018年融合计算引擎项目启动时它只有几万行代码距离金融级线上环境的应用还差得很远。
“我们用了一整年把它增加到了几十万行代码并且涵盖了C、java、Python等所有语言。”蚂蚁金服资深技术专家周家英说。
至少4个团队在共同“养育”这个引擎四个奶爸带娃磕磕绊绊在所难免难度远远大于一个团队负责一个引擎。
但开发时的“难”是为了应用时的“简”。
在计算引擎执行层面不同计算模式的数据是可以在引擎内共享的很少借助第三方存储因此对外部存储和网络传输的开销也都有极大的节省。
在应用方面融合计算引擎不仅能够解决金融场景中需要衔接多个不同计算模式的难题还能支持各种不同时效性的业务并在支付过程中提供秒级智能决策能力。
并且随着融合引擎的落地也改变着技术同学的研发习惯。我们希望通过融合计算引擎达成研发态运行态运维态三位一体的统一例如在动态图计算场景计算开发同学只需要编写一个流图的计算作业就可以实现秒级6度邻居的图迭代计算同样在机器学习领域通过编写一个包含流模型训练服务的计算作业就可以实现端到端秒级模型导出的在线学习能力。这样从研发到运行态计算整体效率都得到了极大提升。
2018年融合计算就在花呗反套现的智能甄别之中表现卓越。到了2019年融合计算引擎已经在支付宝不同场景中落地——图计算在花呗蚂蚁森林等场景中大规模上线图数据库Geabase突破万亿边。
2019年支付宝新春红包活动中融合计算引擎用在线学习能力支持了新春红包的智能文案让它的算法跑在了新的在线学习的体系上。这个体系融合了流计算和机器学习让机器学习的模型迭代速度从以前的小时级别提升到了现在的秒级别。本次双11时它在“支日历”的推荐算法方面发挥了重要作用。
通过融合流计算、服务和并发查询融合计算引擎减少了60%的机器资源使用把端到端的延迟压低到了毫秒级同时还能支持金融网络的业务查询和监控。
今年双11中融合计算引擎在至少三个场景中成功落地并被验证可行“还跑在了蚂蚁金融级关键决策链路上。”周家英不无兴奋“这证明了我们的计算引擎具备了金融级的能力。”
事实上无论是在双11这样的极端大考场景中还是在支付宝、阿里巴巴以及各个互联网科技公司的日常应用场景中数据驱动的业务也越来越多。相应地海量数据的实时处理、分析和应用以及人工智能、深度学习等新技术的开发都在要求着更强大的计算能力以及能够应对复杂场景的多种计算模式。
面对未来更多的是未知——我们尚且不知未来会出现什么样的场景这些场景会要求什么样的计算模式和计算能力。“融合计算是真正意义上的新计算的第一步。”蚂蚁金服计算存储首席架构师何昌华说。 原文链接 本文为云栖社区原创内容未经允许不得转载。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/910395.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!