网易NDH大数据平台使用经验
网易NDH大数据平台是基于Hadoop、HDFS、Hive、Spark、Impala、Yarn等开源组件进行二次开发的大数据套件,具有数据集成、开发运维、规范建模、数据治理、数据服务等功能的一站式数据开发治理平台。
以下是根据实际使用该平台的经验进行的一些总结。
1、自助分析中,既可以查看大数据平台的数据,也可以查看数据源的数据。一般在数据中台或者数据仓库中发现异常数据时,需要直连数据源进行溯源排查。有了该功能,可以无需安装数据源客户端软件,即可写SQL进行排查。但是该功能只支持少量的数据库类型,如Oracle,Mysql等(未来应该会支持越来越多的主流数据库类型)。
2、数据集成在并发量大时会频发异常,比如对Mysql进行采集,同时并发采集5张表,可能会发生数据写入hdfs临时文件load出问题,同时并发量大时也会对源库的读操作产生压力,造成数据库连接中断异常。
3、对大数据平台中的结构化数据进行分析时,优先使用自带的Impala引擎,查询速度快。在进行离线数据任务开发时,优先选择Spark引擎,执行速度快。
4、平台所有的元数据放在自带的Mysql数据库中,因此可以通过SQL语句,查询离线跑批任务的执行情况,如运行开始时间,是否正常等。结合脚本程序,可以对日常跑批自行进行监控提醒。
5、数据地图功能可以方便的查看表的元数据信息,如字段名、字段注释等。数据地图中,可以设置表的主键,但是事实上该主键约束并未生效,主键列仍然可以存放重复值。因此若要写检核程序,判断主键列是否有重复值。
6、离线开发中,除了基础的写SQL,还支持嵌套流、选择节点、轮询节点,这样可以实现复杂的流程控制。另外,还支持调用外部scrpt(shell or perl),支持调用spark任务(java or python)。
7、离线开发支持“提交上线”功能,这样可以直接基于该套件记录每次的改动,实现版本管理的功能。
8,支持将用户创建的自定义UDF函数,通过将Jar包上传至平台中,完成在UDF studio进行注册登记,后续平台使用者可以直接使用UDF中的函数。
作为公司数据治理及研发人员,在22年参与了网易NDH大数据平台的软件搭建,之后基于该平台进行全司数据资产归集,并针对不同业务主题,开发了多个数据集市供报表及BI访问,同时还开发了数据API服务。整体感觉该平台还是可靠的。平台刚搭建结束进入使用阶段时,会时不时出现一些不稳定不可用问题,后续供应商不断进行升级优化,截止目前,平台的可靠性已经大大的提升。不过目前生产环境中表的最大规模在亿级左右,还未真正在大数据体量下测试过平台。希望未来有机会在真正的大数据场景下体验下大数据平台的厉害。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/913162.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!