五阿哥钢铁电商平台Docker容器云平台建设实践——你想知道的都在这里!

前言

五阿哥钢铁电商平台(www.wuage.com)是由钢铁行业第一的中国五矿与互联网第一的阿里巴巴联手打造,并充分运用双方股东优势资源,即:阿里巴巴在大数据、电商运营、互联网产品技术上的巨大优势,尤其是在B2B终端买家上的独有市场基础,以及中国五矿67年的行业经验,和遍布全球的200多个营销和物流网点,致力于为钢铁行业带来全新而持续的发展。Docker容器云平台是运维技术团队为内部服务整合、开发的一套容器管理平台,支持基础设施私有云和公有云对接,实现云上和云下实例使用一套平台进行管理,业务实例按需弹性扩容和缩容,规范化的项目管理流程、测试、上线流程,旨在将开发、测试人员从基础环境的配置与管理中解放出来,使其更聚焦于自己的业务开发。

本文主要结合在五阿哥业务场景情况,从以下三个部分讲解:

1、为什么使用Docker技术 。

2、Docker容器云架构方案。

3、技术的选型和实践。

为什么使用Docker技术

1.硬件资源利用率的问题,造成部分成本的浪费

在网站功能中不同的业务场景有计算型的,有IO读写型的,有网络型,有内存型的,集中部署应用就会导致资源利用率不合理的问题。比如,一个机器上部署的服务都是内存密集型,那么CPU资源就都很容易浪费了。

2.单物理机多应用无法进行有效的隔离,导致应用对资源的抢占和相互影响

一个物理机器跑多个应用,无法进行所使用的CPU,内存,进程进行限制,如果一个应用出现对资源的抢占问题,就会引起连锁反应,最终导致网站部分功能不可用。

3.环境、版本管理复杂,上线部署流程缺乏,增加问题排查的复杂度

由于内部开发流程的不规范,代码在测试或者上线过程中,对一些配置项和系统参数进行随意的调整,在发布时进行增量发布,一旦出现问题,就会导致测试的代码和线上运行的代码是不一致的,增加了服务上线的风险,也增加了线上服务故障排查的难度。

4.环境不稳定,迁移成本高,增加上线风险

在开发过程中存在多个项目并行开发和服务的依赖问题,由于环境和版本的复杂性很高,不能快速搭建和迁移一个环境,导致无法在测试环境中无法模拟出线上的流程进行测试,很多同学在线上环境进行测试,这里有很高的潜在风险,同时导致开发效率降低。

5.传统虚拟机和物理机占用空间大,启动慢,管理复杂等问题

传统虚拟机和物理机在启动过程进行加载内核,执行内核和init进行,导致在启动过程占用很长时间,而且在管理过程中会遇到各种各样的管理问题。

Docker容器云架构方案

基于Docker容器技术,运维技术团队开发了五阿哥网站的容器云平台。整体架构图如下:

图片描述

基础设施

基础设施包含网络、服务器、存储等计算资源。

多云对接

私有云(VMware)和公有云(aliyun)进行统一托管,包含网络区域配置,VM实例开通及Docker的环境初始化配置等。

弹性调度

Docker容器云平台集群节点管理,Saltstack进行配置管理,镜像中心管理业务镜像,统一监控,统一日志管理,定时任务管理。

服务编排

服务注册,服务发现,容器节点在线的扩容和缩容,服务优雅上线,回滚降级,规范Java,Node,Python,iOS,Android等规范化的上线。

统一门户

规范化整个业务流程,简洁的用户流程,可动态管理整个云环境的所有资源。

技术选型及实践

镜像标准

众所周知,Docker的镜像是分层的。对镜像分层进行约定:
第一层是操作系统层,由CentOS/Alpine等基础镜像构成,安装一些通用的基础组件;
第二层是中间件层,根据不同的应用程序,安装它们运行时需要使用到的各种中间件和依赖软件包,如,nginx、tomcat等;
第三层是应用层,这层仅包含已经打好包的各应用程序代码。

图片描述

经验总结:如何让自己的镜像变的更小,PUSH的更快?

图片描述

  • dockerfile构建应用镜像,在中间件层遇到一些需要安装的软件包时,尽可能的使用包管理工具(如yum)或以git clone方式下载源码包进行安装,目的是将软件包的copy和安装控制在同一层,软件部署成功后清除一些无用的rpm包或源码包,让基础镜像的尺寸更小。
  • Java应用镜像中并没有将jdk软件包打入镜像,将jdk部署在每台宿主上,在运行镜像时,通过挂载目录的方式将宿主机上的java家目录挂载至容器指定目录下。因为它会把基础镜像撑得非常大;
  • 在构建应用镜像时,docker会对这两层进行缓存并直接使用,仅会重新创建代码出现变动的应用层,这样就提高了应用镜像的构建速度和构建成功后向镜像仓库推送的速度,从整体流程上提升了应用的部署效率。

编排工具

图片描述

Rancher图形化管理界面,部署简单、方便, 可以与AD、LDAP、GITHUB集成,基于用户或用户组进行访问控制,快速将系统的编排工具升级至kubernetes或者swarm,同时有专业的技术团队进行支持,降低容器技术入门的难度。

图片描述

基于以上优点我们选择Rancher作为我们容器云平台的编排工具,在对应用的容器实例进行统一的编排调度时,配合Docker-Compose组件,可以在同一时间对多台宿主机执行调度操作。同时,在服务访问出现峰值和低谷时,利用特有的rancher-compose.yml文件调用“SCALE”特性,对应用集群执行动态扩容和缩容,让应用按需求处理不同的请求。
[https:/zhuanlan.zhihu.com/p/2...]()

网络模型

图片描述

由于后端开发基于阿里的HSF框架,生产者和消费者之间需要网络可达,对网络要求比较高,需要以真实IP地址进行注册和拉取服务。所以在选择容器网络时,我们使用了Host模式,在容器启动过程中会执行脚本检查宿主机并分配给容器一个独立的端口,来避免冲突的问题。

持续集成

监测代码提交状态,对代码进行持续集成,在集成过程中执行单元测试,代码Sonar和安全工具进行静态扫描,将结果通知给开发同学同时部署集成环境,部署成功后触发自动化测试(自动化测试部分后续会更新https://zhuanlan.zhihu.com/id...)。

图片描述

静态扫描结果:

图片描述

持续部署

是一种能力,这种能力非常重要,把一个包快速部署在你想要的地方。平台采用分布式构建、部署,master管理多个slave节点,每个slave节点分属不同的环境。在master上安装并更新插件、创建job、管理各开发团队权限。slave用于执行job。

图片描述

基于上述架构,我们定义了持续部署规范的流程:

  1. 开发同学向gitlab提交代码;
  2. 拉取项目代码和配置项文件,执行编译任务;
  3. 拉取基础镜像,将编译好的应用包打入生成最新的应用镜像,推送到镜像仓库;
  4. 根据当前应用及所属环境定制化生成docker-compose.yml文件,基于这个文件执行rancher-compose命令,将应用镜像部署到预发环境(发布生产前的测试环境,相关配置、服务依赖关系和生产环境一致)。
  5. 预发环境测试通过后将应用镜像部署至线上环境,测试结果通知后端测试同学。

监控管理

通过zabbix 自动注册(AutoRegistration),Grafana通过调用zabbix的API接口进行监控指标的统一展示。
图片描述

图片描述

日志管理

容器在运行时会在只读层之上创建读写层,所有对应用程序的写操作都在这层进行。当容器重启后,读写层中的数据(包含日志)也会一并被清除。虽然可以通过将容器中日志目录挂载到宿主机解决此类问题,但当容器在多个宿主机间频繁漂移时,每个宿主机上都会有留存应用名的部分日志,增加了开发同学查看、排查问题的难度。

综上所述,日志服务平台作为五阿哥网站日志仓库,将应用运行过程中产生的日志统一存储,并且支持多种方式的查询操作。

图片描述

通过在日志服务的管理界面配置日志采集路径,在容器中部署agent把应用日志统一投递到logstore中,再在logstore中配置全文索引和分词符,以便开发同学能够通过关键字搜索、查询想要的日志内容。
经验总结:如何避免日志的重复采集问题?

  • 日志服务agent需要在配置文件“ilogtail_config.json”中增加配置参数“check_point_filename”,指定checkpoint文件生成的绝对路径,并且将此路径挂载至宿主机目录下,确保容器在重启时不会丢失checkpoint文件,不会出现重复采集问题。

服务注册

etcd是一个具备高可用性和强一致性的键值存储仓库,它使用类似于文件系统的树形结构,数据全部以“/”开头。etcd的数据分为两种类型:key和directories,其中key下存储单独的字符串值,directories下则存放key的集合或者其他子目录。

图片描述

在五阿哥环境中,每个向etcd注册的应用服务,它们的根目录都以”/${APP_NAME}_${ENVIRONMENT}”命名。根目录下存储每个应用实例的Key信息,它们都以“${IP}-${PORT}”的方式命名。
下图是使用上述约定,存储在etcd上某应用实例的数据结构:

图片描述

可以看到我是使用get方法向etcd发送请求的,请求的是部署在预发环境(PRE)的搜索服务(search);在它的根目录“/search_PRE”下,仅存储了一个应用实例的信息,这个实例的key是“172.18.100.31-86”;对应的value是“172.18.100.31:86‘’,整个注册过程是这样的:

①通过代码为容器应用程序生成随机端口,和宿主机正在使用的端口进行比对,确保端口没有冲突后写入程序配置文件;
②把通过python和etcd模块编写的服务注册工具集成在脚本中,将IP地址和上一步获取的随机端口以参数的方式传递给服务注册工具;
③待应用程序完全启动后,由服务注册工具以约定好的数据结构将应用实例的写入etcd集群,完成服务注册工作;
④容器定时向etcd发送心跳,报告存活并刷新ttl时间;
⑤容器脚本捕获rancher发送至应用实例的singnal terminal信号,在接收到信号后向etcd发送delete请求删除实例的数据。
注:在ttl基础上增加主动清除功能,在服务正常释放时,可以立刻清除etcd上注册信息,不必等待ttl时间。

经验总结:容器在重启或者意外销毁时,让我们一起看一下这个过程中容器和注册中心都做了什么事情?

应用在注册是携带key 和value时携带了ttl超时属性,就是考虑到当服务集群中的实例宕机后,它在etcd中注册的信息也随之失效,若不予清除,失效的信息将会成为垃圾数据被一直保存,而且配置管理工具还会把它当做正常数据读取出来,写入web server的配置文件中。要保证存储在etcd中的数据始终有效,就需要让etcd主动释放无效的实例信息,来看一下注册中心刷新的机制,代码直接奉上:

图片描述

服务发现

confd是一个轻量级的配置管理工具,支持etcd作为后端数据源,通过读取数据源数据,保证本地配置文件为最新;不仅如此 ,它还可以在配置文件更新后,检查配置文件语法有效性,以重新加载应用程序使配置生效。这里需要说明的是,confd虽然支持rancher作为数据源,但考虑易用性和扩展性等原因,最终我们还是选择了etcd。

和大多数部署方式一样,我们把confd部署在web server所在的ECS上,便于confd在监测到数据变化后及时更新配置文件和重启程序。confd的相关配置文件和模板文件部署在默认路径/etc/confd下,目录结构如下:
/etc/confd/
├── conf.d
├── confd.toml
└── templates
confd.toml是confd的主配置文件,使用TOML格式编写,因为etcd是集群部署,有多个节点,将interval、nodes等选项写到了这个配置文件里。
cond.d目录存放web server的模板配置源文件,也使用TOML格式编写。该文件用于指定应用模板配置文件路径(src)、应用配置文件路径(dest)、数据源的key信息(keys)等。

templates目录存放web server下每个应用的模板配置文件。它使用Go支持的text/template语言格式进行编写。在confd从etcd中读取到最新应用注册信息后,通过下面的语句写入模板配置文件中:
{{range getvs "/${APP_NAME}/*"}}

    server {{.}};

{{end}}
图片描述

通过supervisor管理confd进程。confd在运行后会每隔5秒对etcd进行轮询,当某个应用服务的K/V更新后,confd会读取该应用存储在etcd中的数据,写入到模板配置文件中,生成这个应用配置文件,最后由confd将配置文件写入到目标路径下,重新加载nginx程序使配置生效。(代码请参考:https://zhuanlan.zhihu.com/id...)

总结

以上是五阿哥运维技术团队针对Docker容器云平台建设实践,目前已经将权限开放给开发同学,实现云上和云下实例使用一套平台进行管理,业务实例按需弹性扩容和缩容,规范化的项目管理和发布流程,实例和业务可按需进行扩容和缩容,实现7*24小时“一站式”的持续交付,开发同学更聚焦于自己的业务开发,提高了公司的研发过程的效能。

接下来会不断优化和适配各种业务场景,逐渐完善容器云平台,同时会将容器云平台各种功能,总结的经验和教训不断分享给大家,给大家在工作中一些参考,避免走重复的“弯路”。

作者简介:刘晓明,五阿哥(www.wuage.com)公司运维技术负责人,拥有10年的互联网开发和运维经验。一直致力于运维工具的开发和运维专家服务的推进,赋能开发,提高效能。最后给自己代个盐~~欢迎大家有空时翻下我牌子(知乎号:布道 ),看看之前的文章,顺便关注下专栏“开发运维”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/539515.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

web浏览器_Web上的分享(Share)API

我认为Web Share API非常酷,简而言之,它会利用您所使用的平台上的原生共享功能(如果该平台支持的话)。我喜欢这个:在iOS上激活的Web Share API远远不止这些东西:为什么?Web Share API只是几行代码。简单!没…

exfat单元分配要设置多少_微软宣布,支持往Linux内核里添加exFAT存储了!跨系统存储的福音...

栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAIexFAT,是微软开发的文件系统,为闪存而生。你的U盘、SD卡、手机等等存储设备,能存4G以上的大文件,很大程度上是它的功劳。可exFAT一直是专有的,微软手握多项专利。所以&am…

Jetbrains 系 IDE 编辑器的代码提示功能

著名的 Jetbrains 可谓编程界的一大福音,众多有名代码编辑器比如 ItelliJ IDEA、PHPStorm、WebStorm、PyCharm 等,均出自这家公司麾下。 对于中国的Java开发者来说,可能使用 Eclipse 的人最多。 使用Idea的程序员也不少, 而且每个人都在鼓吹其…

tkmybatis 子查询_真假童子命符箓道长教你如何查询

童子命查询方法一:童子命在相术里,指的是一生都霉运连连如过本命年的人。古代关于真童子命查询有口诀“春秋甲寅子,冬夏卯未辰; 金木乙卯未,水火庚辛壬; 土命逢辰巳,童子定为真”解释上面的口诀…

ECLIPSE配置OSGI服务器

eclipse版本如下: Eclipse Java EE IDE for Web Developers. Version: Mars Release (4.5.0) Build id: 20150621-1200 ------------------------ 1、进入eclipse-----run----run configuration---osgi framework---new 2、取消全选 3、在搜索框中输入 osgi&a…

AD19 add pins to nets错误_为什么我认为Rust的Result错误处理方式不如Exception

由于是对技术的个人评判,欢迎理性讨论。我曾经也当过纯函数式的脑残粉,认为宇宙第一棒的代数数据结构用来处理错误,是无上的优雅和绝对的安全。一个看似人畜无害的接口抛出异常带来的崩溃,是各类疑难杂症的罪魁祸首。综合起来&…

Java @Transient 注解使用

2019独角兽企业重金招聘Python工程师标准>>> 我们建实体类的时候啊,有时候实体类的属性和数据库表字段不一致的时候,比如多一个属性,那你不加这个注解就会报错,因为映射的时候会提示(提示啥我给忘了&#x…

oracle—ebs_采购功能点操作手册,oracle—EBS_采购功能点操作手册

erp实施企业采购模块构架及日常业务操作指导“人力资源”页签可以设置是否“使用审批层次结构”来决定采购单据的审批路径。如不选定,则表示采购单据将使用员工的“主管”结构来进行审批。“员工编号”方法默认自业务组定义时的“员工编号生成”方法设置。1.2采购选…

combobox控件 如何把三角形放大_初中数学|全等三角形全部知识点总结

今天,琦老师为大家整理了[初中数学重要考点,全等三角形的全部知识点],希望帮助大家中考数学快速提分( #小学数学#初中数学#数学)除了图片内容,大米君也为大家分享[如何灵活运用这些知识点的方法]大家记得跟着做起来哦~提高复习效果…

Spring中引入其他配置文件

原文:http://www.cnblogs.com/LiuChunfu/p/5605473.html ------------------------------------------------------------------------------ 一、引入其他 模块XML   在Spring的配置文件,有时候为了分模块的更加清晰的进行相关实体类的配置。 比如…

oracle不要重复记录,Oracle中去重复记录 不用distinct

用distinct关键字只能过滤查询字段中所有记录相同的(记录集相同),而如果要指定一个字段却没有效果,另外distinct关键字会排序,效率很低 。select distinct name from t1 能消除重复记录,但只能取一个字段,现在要同时取…

miui游戏驱动程序偏好设置_米粉必看:小米官方教你如何关闭 MIUI 广告 - 小米,MIUI...

IT之家 11 月 9 日消息 小米的 MIUI 在用户心中的口碑一直是比较好的,但该系统也并非完美,被吐槽的较多的一个点就是系统内的广告比较多。今天,小米官方微博 小米服务那些事 分享了几个能够减少 MIUI 广告的方法,米粉不妨了解一下…

Spring Cloud Zuul网关 Filter、熔断、重试、高可用的使用方式。

时间过的很快,写springcloud(十):服务网关zuul初级篇还在半年前,现在已经是2018年了,我们继续探讨Zuul更高级的使用方式。 上篇文章主要介绍了Zuul网关使用模式,以及自动转发机制,但其实Zuul还有更多的应用…

oracle 9 插入日期,oracle date日期类型 精析

一、date1.date、sysdate格式说明展示date类型,展示格式既可以为:YYYY/MM/DD,也可以为YYYY/MM/DD HH24:MI:SS;其存储格式只有一种:YYYY/MM/DD HH24:MI:SS展示格式一:当你只存年月日时,date实际存…

CentOS 7.1下KVM的安装与配置

由于没有物理机可用,在自己的VMware Workation中CentOS 7搭建完成。 首先查看VMware Workation是否支持虚拟化,把红框内打钩即可。 虚拟化开启并安装CentOS系统,建议CentOS安装64bit。我的环境用的是CentOS 7。进入系统,首先查看服…

软件生成问候图片_这些社交软件你玩过几个?

提到聊天软件,我们的手机肯定安装有微信QQ,不过微信QQ都是主打熟人社交,而下面几个软件都是陌生人社交。这些社交软件,总有一款你安装过。注意,非按排名介绍。第一款:陌陌陌陌是一款基于地理位置的开放式移动视频社交应…

Android5.0新控件

谷歌在推出Android5.0的同时推出了一些新控件,Android5.0中最常用的新控件有下面5种。 1. CardView(卡片视图) CardView顾名思义是卡片视图,它继承FrameLayout。它是一个带圆角的背景和阴影FrameLayout。CardView被包装为一种布局…

Druid使用起步—在javaWeb项目中配置监控

原文章:http://my.oschina.net/u/568779/blog/152813 ---------------------------------------------------- druid wiki 当我们在javaWEB项目中使用到druid来作为我们的连接池的时候,一定不会忘了添加监控功能。下面我们就来看一下,在一个…

ip地址管理系统_门禁监控管理系统项目总结

门禁监控管理系统项目总结1、门禁管理设备(IFACE802) 16台 ,都有独立的网线到控制的房间。IP地址从 192.168.1.101--192.168.1.116。(地下一层 新家的最后一间是在附近的一个房间接的网线。一层的大门 有1台控制器和IFACE802 部署了2根网线)2、门禁控制的IP地址 192.168.1.1173…

平板电脑可以插u盘吗_有手机还需要平板电脑吗 酷比魔方iplay30平板电脑评测

原标题:有手机还需要平板电脑吗 酷比魔方iplay30平板电脑评测一、前言:前段时间我们一帮60岁左右的退休老头、老太太到农家乐去玩,玩累了就开始喝茶,一坐下来,人人都把手机掏出来,看着他们看手机的姿势&…