网站建设和网站维护是什么企业网站布局960
网站建设和网站维护是什么,企业网站布局960,送菜网站制作,wordpress logo.svg一.广州电商公司
1.简单自我介绍 2.介绍下之前的公司离线数仓项目 3.mysql和hive区别#xff1f; 4.sql的执行顺序#xff1f; 5.hive的优化 6.说下你之前公司来#xff0c;你的技能层次在每个公司#xff1f;你怎么评价你的技能#xff1f; 7.你的之前业务主要是做什么 4.sql的执行顺序 5.hive的优化 6.说下你之前公司来你的技能层次在每个公司你怎么评价你的技能 7.你的之前业务主要是做什么我说了项目分工 8.数仓的分层分几层按照数据域分层问几层 9.sql优化一般怎么优化的 10.非本专业怎么进行后续学习的 11.系统函数怎么用的 12.数据迁移怎么做的 13.数据可视化界面怎么做的bi你们讲解是谁负责 14.有用过dws层直接对接bi嘛mysql数据库有用吗为啥对接bi 3.mysql和hive区别 hive不是数据库除了sql语法有点像其他都不一样 hive mysql 存储位置 hdfs 本地磁盘 计算引擎 分布式mr、tez、spark 自己的单机的 计算效率 数据量大快 小快 数据更新 适合分析select 增删改查
5.hive的优化
group by
1map端预聚合 (预聚合的配置参数为hive.map.aggr默认值true)
2数据倾斜时进行负载均衡处理
通过将参数hive.groupby.skewindata默认false设置为true那么在进行group by时会启动两个MR job。第一个job会将map端数据随机输入reducer每个reducer做部分聚合操作相同的group by key会分布在不同的reducer中。第二个job再将前面预处理过的数据按key聚合并输出结果这样就起到了均衡的效果。
3)count(distinct)
当数据量大时效率会很低尤其是数据倾斜的时候。
可以通过group by代替count(distinct)使用。
4)本地模式
对于处理小数据量的任务我们不需要通过集群模式进行处理因为为该任务实际触发的job执行等开销可能比实际任务的执行时间还要长Hive可以通过本地模式在单台机器上处理所有的任务。 set hive.exec.mode.local.autotrue;
------------------------------------------------------------ 2map Join 大小表join避免shuffle 3SMB Join sort merge bucket join 大表 join 大表 分桶表分桶字段 关联字段 桶排序 字段 分桶的数量成比例 4分区、分桶 分区避免全表扫描 分桶做SMB的时候 抽样key判断倾斜 5压缩 snappy 6存储格式 列式 orc id name age 1 zs 18 2 ls 19 行式 1 zs 18 2 ls 19 列式 1 2 zs ls 18 19 查询效率高 存储结构更紧密压缩后更小 select name from A 行式 text、sequnencefile 列式 orc、parquet orc为hive而生的跟hive性能更强 parquet兼容性更好 7调整reduce的数量 指定参数 默认 -1 表示禁用 估算机制 数据量/ 每个Reducer处理上限默认256M 特殊语法 orderby 、 count(distinct ) 优先级 特殊语法 参数 估算机制 8谓词下推 默认开启 select xx from A join B on A.idB.id and A.id10 select xx from A join B on A.idB.id where A.id10 经过谓词下推第二种也会先 过滤再join效果一样 9并行执行 默认开启 10开启cbo 默认开启 11合并小文件 危害 解决 JVM重用 CombineHiveInputFormat merge功能 结束后再另外启动一个job来合并小文件于16m的文件 小于 16m 》 256m map-only默认开启 map-reduce默认关闭需要开启 12使用多引擎 mr 跑 年、月 时间跨度大、数据量大的指标 tez 现在没用 spark 跑日常天指标 set hive.execution.enginee mr; sql1; set hive.execution.engineespark; sql2;
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/92505.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!