现在的网站开发用什么技术南宁百度seo

news/2025/9/24 12:08:20/文章来源:
现在的网站开发用什么技术,南宁百度seo,短视频seo代理,济宁人才网招聘信息网简介#xff1a; MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库#xff0c;以 Serverless 架构提供快速、全托管的在线数据仓库服务#xff0c;消除了传统数据平台在资源扩展性和弹性方面的限制#xff0c;最小化用户运维投入#xff0c;使您可以经济并高效的分析处…简介 MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库以 Serverless 架构提供快速、全托管的在线数据仓库服务消除了传统数据平台在资源扩展性和弹性方面的限制最小化用户运维投入使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析将数据高效转换为业务洞察。 本文为2021年阿里云峰会阿里云开发者大会大数据与AI一体化开发平台分论坛如何基于MaxCompute快速打通数据仓库和数据湖的湖仓一体实践演讲翻译稿。 点击视频观看现场精彩回放视频资料下载链接   讲师孙莉莉 阿里云智能 高级技术专家 本文主要分为四个部分 一、湖仓融合的趋势分析 二、阿里云湖仓一体 三、客户案例分析 四、湖仓一体演示 一、 湖仓融合的趋势分析 现在很多企业说不清楚现有大数据系统是数据湖还是数据仓库所以先带着大家一起回顾一下。过去20年整个大数据技术发展的过程通过这样一个剖析希望能够让大家理解数据湖和数据仓库到底是一个什么样的系统它们是因为什么原因产生的并且今天我们提的湖仓一体它出现的一个背景是什么。纵观整个计算机科学技术领域对于数据处理的技术主要分为四个阶段数据库阶段、大数据技术探索阶段、大数据技术发展阶段、大数据普惠阶段。 数据库阶段主要是在上个世纪70年代至90年代期间这个阶段主要是数据库加单机的黄金时代。数据库系统主要是面向操作面向事务面向在线业务系统的一个数据系统。其实在90年代左右数据仓库概念就已经出现了。数据仓库面向的是历史全量数据分析探查但因为当时的整体数据量并不大所以用一些数据库技术的扩展能够支持当时数据仓库的需求。 2000年左右随着互联网技术的爆发我们迎来了大数据时代。在这个阶段我们用传统数据库的技术是很难满足海量数据处理的需求。大家应该都知道Google的三篇论文分布式存储、调度、计算奠定了整个大数据技术的基础。基本上在同一个时期2006年出现了Hadoop的系统阿里巴巴在2009年发展出了飞天系统包括微软等头部公司都发展出了比较优秀的分布式系统。整个这个阶段整个大数据的技术其实是把数据做起来数据大起来再说。 2010年左右进入了大数据的一个蓬勃发展阶段这个阶段是之前我们希望大数据技术从能用转变为好用。这个阶段出现了一系列以SQL表达为主的一些引擎包括Hadoop体系发展出来Hive、Flink、Presto等一系列引擎。这个时候逐渐形成了以HDFS为统一的存储以ORC、Parquet 为开放的文件格式上面有很多开放引擎为主的一个体系这个体系像我们今天讲的数据湖系统。这个阶段Hadoop的本质其实是一个数据湖系统。那数据湖的本质是什么本质是统一的存储能够存储原始的数据能够支持多种计算范式这就是数据湖的本质。 同一时期阿里巴巴在飞天系统的基础上发布了 MaxCompute Google 发布了Big QueryAWS 发布了Redshift。这几个系统可以称之为大数据时代下的云数据仓库。那云数据仓库系统跟上述Hadoop体系有什么区别呢云数据仓库并不对外暴露文件系统暴露的是对数据的描述用表的方式用视图的方式暴露出来。存储引擎计算引擎是被屏蔽在系统里面的所以存储引擎计算引擎可以进行深度的优化然而用户是没有办法感知的。这个阶段可以看出来整个大数据技术已经开始细分已经初步的形成了湖的形态和仓的形态。 现在我们所处的这个阶段也就是2015年左右我们进入了大数据普惠阶段。这个阶段我们有观察到两个趋势。第一个趋势大数据技术的发展除了追求规模性能之外。更多的是看数据安全、数据治理、稳定性、低成本等企业级能力。我们也可以看出来阿里巴巴 基于MaxCompute 构建出了非常有阿里特色的数据中台系统。开源体系也发展出了Atlas和Ranger主要围绕血缘、治理、安全等开源项目。第二个趋势随着AI、IOT、云原生技术的发展对于非结构化数据处理的需求越来越强烈。使用云上对象存储作为统一存储的趋势越来越明显。Hadoop的体系也逐渐由HDFS为统一存储发展为云上像S3、OSS这样的云存储做为统一存储的数据湖体系。与此同时出现了很多数据湖构建像AWS Lake Formation以及阿里云发布的DLF这样的产品。仓的这条线也在为了适应这样一个趋势我们也在跟数据湖做很密切的联动发展出了外表通过外表的方式可以对数据库里面的数据进行联邦计算。 纵观整个20年的发展随着大数据技术的演进其实是发展出来了仓跟湖的两种体系。 我们可以用下图这张表来对比一下数据湖跟数据仓库到底有什么区别。 整体上来说数据湖是一个宽进宽出相对协同比较松耦合的系统。数据仓库是一个严进严出比较严格紧耦合的系统。数据湖是数据先进来然后再开始用所以是属于事后建模。可以存储结构化、半结构化、非结构化数据。数据湖是提供了一套标准的开放接口来支持更多的引擎像插拔式的插到这个体系里面所以它是向所有的引擎开放。但是这里要注意了正是因为它是插拔式的这种方式计算跟存储其实是独立的两套系统。它们彼此之间其实是不能够相互理解的也没有办法做到深度的优化。这样其实导致引擎的优化只能做到适度有限优化。数据湖易于启动但是随着数据规模的增长一系列的治理管理的问题出现后期是比较难以运维的。因为数据湖不做Schema的强一致的数据检查所以数据治理比较低难管理使用。因为数据湖的数据是先进来再使用所以它更适合解决未知的问题比如探查类的分析科学计算数据挖掘等计算处理。 数据仓库在对比维度里基本都是相反的状态数据仓库是一个严格的系统所以需要事前建模数据经过转化清洗进到仓里面存储类型变为结构化或者半结构化。因为数据仓库是一个相对封闭的系统是一个自闭环的系统所以数据仓库向特定引擎开放但是恰恰因为数据仓库是一个自闭环系统它的计算引擎、存储引擎、元数据之间是可以做到非常深度、垂直的优化可以获得一个非常好的性能。数据仓库因为事前建模数据才能进来所以难启动相对来讲启动成本较高。但一旦数据进入数仓之后整个数据的高质量方便做治理这个时候它的整体成本会降低甚至达到一个免运维的状态。数据仓库的Schema会做强一致的检查所以数据质量很高易于使用。所以数据仓库的计算负载天然的适合做离线计算交互式计算以及BI和可视化。 整体上来讲数据湖更偏灵活性数据仓库更偏企业级能力。那么这两种特点对于企业到底意味着什么呢我们用下面这张图来表示。 横轴是代表企业的业务规模纵轴是代表企业搭建一套大数据系统所需要的成本。在企业初创的时候整个业务规模还不大数据从产生到消费的整个链路是一个探索和创新的阶段。在这个阶段使用数据湖是非常容易启动成本也是比较低的。但是随着业务的发展和壮大参于的人员和部门越来越多对于数据质量管理、权限控制、成本要求会越来越高。这个时候再使用数据湖成本是指数级上升。所以这个时候适合用数据仓库可以做好成本控制、数据质量管理等。从上图可以看出对于一个企业来讲在不同的阶段数据湖和数据仓库都发挥着各自关键的作用。那是否有一种技术或者架构能同时发挥出两者的优势呢 以阿里云对业界的观察和本身大量的实践我们认为数据湖和数据仓库正在发生融合。并且它们以各自的方式向着湖仓一体的方向进行演进。从上图中可以看出数据仓库到湖仓一体的演进方向数据湖到湖仓一体的演进方向两者是相反的相对的。那么在它们各自的演进上面需要做什么工作呢 数据仓库是一个严格的系统所以数据仓库更适合做事务支持Schema强一致检查和演进天然支持BI更容易做实时性。对于数据湖优势在于数据类型丰富支持多种计算模式有开放的文件系统开放的文件格式是存储计算分离的架构。 所以数据仓库到湖仓一体的演进需要从本身拥有的特性发展出数据湖的特性。其实是要跟HDFS、OSS这样的系统做好联动做好融合所以数据仓库的结构更偏左右结构。对于数据湖到湖仓一体的演进是需要更多的站在HDFS、OSS基础上面来做出强仓的特性。所以数据湖的结构更像一个上下结构。那么DeltaLake和Hudi其实就是在上下结构当中插了一层做了一个湖上面的能够支持强仓的文件类型。 但不管是数据仓库到湖仓一体还是数据湖到湖仓一体最终大家演进的这个方向都是一致的都是湖仓一体。湖仓一体的特性是不变的四种偏仓的特性四种偏湖的特性。 二、阿里云湖仓一体 上图为阿里云湖仓一体整体架构从下往上看底层是网络层中间层为湖仓引擎层在往上是DataWorks 湖仓数据开发层最上面是业务应用层。我们重点来讲下引擎层阿里云湖仓一体是左右结构左边是阿里云数据仓库 MaxCompute右边是阿里云数据湖 EMR中间是通过元数据的统一通过开放格式兼容以达到数据跟任务可以在数据仓库和数据湖之间的任意流动。在2020年云栖大会上发布的是对于Hadoop数据湖的支持。近期我们已经支持了OSS 数据湖的湖仓一体。 上图右侧是列出来一些我们近期发布的具体功能点。 支持云原生数据湖 MaxCompute 对接了阿里云数据湖构建产品DLF可以做到元数据的自动发现做到湖/仓元数据统一存储和管理。 对于数据湖查询更好的性能 近期阿里云正在灰度一个功能智能Cache此功能可以实现OSS到仓里面智能化的数据分层。MaxCompute 在2020年发布了查询加速功能未来一个版本我们会把查询加速引擎也投射到数据湖上面让它能够支持数据湖上面的查询加速。 生态开放性近期已支持Delta Lake开源文件格式。 DataWorks 统一的数据开发平台DataWorks支持多引擎提供了湖仓一体开发体验。 不管是从上下结构还是左右结构演进过来的湖仓一体最终都应该是一个简单易用的系统体系。阿里云湖仓一体有四大关键特性这四大关键特性都是在围绕怎么把数据湖跟数据仓库做到更加易用。 快速接入 主要有两个层次一个是网络层一个是湖仓一体的开通层。MaxCompute 支持云上云下任何环境下Hadoop体系的打通因为MaxCompute 自有的多租户体系如何跟特定的一个用户环境打通技术方面有很大的挑战我们研发了PrivateAccess网络连通技术来达到这个目标。第二个关于DataWorks白屏操作自助开通湖仓一体未来我们会很快发布一个版本用户在控制台里面就可以很快开通湖仓一体目前还是需要用工单方式来提交开通。 2. 统一的数据/元数据 其中关键的技术是有一个Database级别的元数据映射就是我们可以把数据湖上面的Database映射成MaxCompute 里面的一个Project。数据湖上面的数据不需要移动就可以让 MaxCompute 像访问操作普通Project一样进行消费。同时做到数据湖和数据仓库的数据/元数据做到实时同步如果数据湖内的一张表数据或者Schema发生变化可以及时的反应在 MaxCompute 数仓这一侧。同时 MaxCompute 具备内置的存储跟文件格式我们也在持续的跟进开源生态内的文件格式包含上文提到的Delta Lake。 3. 提供统一的开发体验 数据湖和数据仓库本身是两套不同的系统两个系统有不同的数据库模型的定义对象模型的定义我们在MaxCompute 这一侧把数据湖跟数据仓库的对象模型进行了统一再加上 MaxCompute 的SQL和Spark是高度兼容社区的所以我们可以做到作业在两套系统内无缝迁移。 4. 自动数仓 这条线比较有意思也是我们近期重点投入领域。我们去年做了一版Cache主要是根据历史数据做Cache今年我又做了一版Cache是能够根据业务场景动态调整的策略智能化Cache最终是要做到数据可以在数据湖跟数据仓库中智能化的冷热分层。我们的Cache本身需要存储跟计算要做到深度耦合所以数仓做这层Cache可以做到更加的极致。另外我们还尝试在数据湖的数据上进行打标跟识别是从数据建模的角度来判定哪些数据更适合放到仓里面哪些数据更适合放到湖里面。比如一些结构化被反复访问比较高频的表数据更适合放到数据仓库内。如果偏非结构化/半结构化低频的数据更适合放到数据湖内。最终的目的是为了在性能、成本以及业务效果上达到一个最佳的平衡。 阿里云湖仓一体适合哪些场景概况起来有三大类。 Hadoop集群利旧上云 线下Hadoop上云需要很繁重的数据、任务搬迁甚至要修改。这时就可以使用湖仓一体让线下Hadoop跟阿里云 MaxCompute 进行快速的打通线下的作业不需要修改不需要搬迁的情况下可以直接运行到MaxCompute 的系统里面。 数据湖ETL/Ad-hoc加速 MaxCompute 作为SaaS模式云数据仓库具有高性能、低成本以及Serverless能力。通过湖仓一体是可以把仓的能力投射到湖里面。 企业级跨平台的统一大数据平台 企业可以基于湖仓一体的技术将现有的一个或多个Hadoop甚至OSS湖上的数据跟 MaxCompute 数仓进行一个打通最后构建一整套统一的数据开发统一的管理、治理、调度的数据开发平台。对上层业务提供的是统一的、透明的中台能力。 三、客户案例分析 案例1、MaxCompute 数仓跟Hadoop数据湖的数仓一体案例业务介绍 •主要做社交媒体领域里的推荐 / 排序、文本 / 图像分类、反垃圾 / 反作弊等。在开源 Hadoop数据湖的基础上借助阿里巴巴MaxCompute和PAI解决了超大规模下的特征工程、模型训练等性能问题形成了MaxCompute 和Hadoop数据湖共存的格局。 痛点 •数据同步安排专人专项负责工作量巨大 •训练数据体量大导致耗时多无法满足实时训练要求 •新写 SQL 数据处理 query无法复用 Hive SQL 原有 query。 价值 •通过湖仓一体无须进行数据搬迁和作业迁移原有生产作业无缝灵活调度MaxCompute 集群和 EMR 集群中且性能有提升 •封装构建AI计算中台极大提升该团队的业务支撑能力。 案例2、MaxCompute 数仓跟OSS数据湖的湖仓一体案例业务介绍 •客户广告算法团队是湖仓一体主要客户主要应用是机器学习DW MC PAI EAS 在线模型服务 。 痛点 •算法团队想更集中在业务和算法上需要自服务程度高、一站式的机器学习平台 •Hadoop 集群是多团队共用使用集群管控较严无法短时间支撑大workload 的创新业务。 价值 •通过湖仓一体将新业务平台与原有数据平台打通PAI on MaxCompute DataWorks 为客户创新业务提供敏捷、一站式机器学习模型开发、训练、模型发布大规模计算能力、EAS 模型发布流程 •起到好的示范作用并快速复制到其他业务线高效的支撑了该客户业务的快速增长。 案例3、MaxCompute数仓跟OSS数据湖的湖仓一体案例业务介绍 •丰富的大数据平台建设经验持续进行平台的迭代升级以满足业务不断发展的需求。从国外某厂商迁移到阿里云后积极建设和改造数据湖架构。 痛点 •第一代数据湖是 EMR OSS公司引入的数据中台的执行引擎和存储是Maxcompute两套异构的执行引擎带来存储冗余、元数据不统一、权限不统一、湖仓计算不能自由流动。 价值 •将 EMR 的元数据统一到DLF底层使用 OSS 作统一存储并通过湖仓一体打通EMR数据湖和MaxCompute数仓两套体系让数据和计算在湖和仓之间自由流动 •实现湖仓数据分层存储。数据中台对数据湖数据进行维度建模的中间表存储在MaxCompute上建模的结果表放在数据湖里供EMR或其他引擎消费。 四、湖仓一体演示 MaxCompute数仓跟OSS数据湖的湖仓一体演示 点击观看实践操作视频 MaxCompute数仓跟Hadoop数据的湖仓一体演示 点击观看实践操作视频 原文链接 本文为阿里云原创内容未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/915682.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

温州网站 公司做网站招标

一、源码特点 idea 开发 SSM 学员信息管理系统是一套完善的信息管理系统,结合SSM框架和bootstrap完成本系统,对理解JSP java编程开发语言有帮助系统采用SSM框架(MVC模式开发),系统具有完整的源代码和数据库&#xff…

网站建设主要学什么软件济宁哪里有网站建设

五层: 应用层:应用层是最高层,负责为用户提供网络服务和应用程序。在应用层,用户应用程序与网络进行交互,发送和接收数据。典型的应用层协议包括HTTP(用于网页浏览)、SMTP(用于电子邮…

数组和链表读取、插入、删除以及查找的区别

数组和链表是两种常见的数据结构,它们在读取、插入、删除操作上有显著差异,下面详细说明: 1. 读取(访问)操作数组: 数组是连续的内存空间,元素按索引(下标)存储,因此可以通过索引直接访问任意位置的元素,时…

day 09 课程

day 09 课程课程:https://www.bilibili.com/video/BV1o4411M71o/?spm_id_from=333.788.videopod.episodes&p=168 9.1 了解函数———————————————————————————————————————…

在K8S中,日志分析工具有哪些可以与K8S集群通讯?

在Kubernetes中,日志分析工具与集群的通信方式多样,可以根据部署位置和采集方式分为几大类。以下是主流工具的详细分类和介绍: 📊 日志分析工具分类概览 graph TDA[K8S日志分析工具] --> B1[集群内部部署]A --…

在K8S中,网络通信模式有哪些?

好的,这是一个非常核心的问题。Kubernetes 的网络模型是一个复杂的体系,但我们可以将其分解为几个清晰的层次来理解。 Kubernetes 网络通信模式可以分为四大类,下图清晰地展示了这四类通信的全景:A[Kubernetes 网络…

中山网站代运营python nginx做网站

Creator 版本: 3.8.2 目标平台:小游戏开发 压缩后 我不知道别人压缩几百kb是怎么做到的。不过哪个要钱。 我这个技巧不用花钱。 论坛有教程但是没有教详细怎么做。 开整! 做一个空白的场景。然后写一个load脚本。load主场景。 从代码可…

厦门网站建设a建筑设计工资一般多少

TCP客户端数据通信 文章目录 TCP客户端数据通信1、软件准备2、硬件准备3、仿真电路原理图4、仿真代码实现5、仿真结果本文将介绍Arduino在Protues仿真环境中作为TCP客户端,如何与TCP服务器进行数据通信。 1、软件准备 1)Arduino IDE或 VSCode + PlatformIO 2)Proteus电路仿…

一文教你搞定PASS 2025:样本量计算神器安装到使用全流程

软件介绍 PASS 2025 是用于效能分析和样本量估计的统计软件包,它在前版本基础上新增了37项样本量计算程序,涵盖医学研究、社会科学调查、工程实验等多种复杂统计场景。新增的Logrank类检验样本量计算程序,能精准计算…

React 18.2中采用React Router 6.4

React 18.2中采用React Router 6.4pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&…

题解:AT_abc257_h [ABC257Ex] Dice Sum 2

柿子还是得写在草稿纸上手推。 题意:很简单了,不再赘述。 做法: 首先这个权值有点抽象,我们写出来稍微化简一下。 \[\frac{1}{6^n}\sum_{x_1=1}^6\sum_{x_2=1}^6\cdots\sum_{x_n=1}^6(\sum_{i=1}^na_{i,x_i})^2 - …

ClickHouse UPDATE 机制详解 - 若

ClickHouse UPDATE 机制详解 问题现象 在使用ClickHouse进行UPDATE操作时,经常会遇到这样的现象: UPDATE ethereum.block_tasks SETstatus = pending, owner = consumer-1_1758676754070328000, assigned_at = 2025-…

Jetpack Room 从入门到精通 - 实践

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

网站建设unohacha免费北京网站建设

导言 在 Rust 中,互斥器(Mutex)是一种用于在多个线程之间共享数据的并发原语。互斥器提供了一种安全的方式,允许多个线程访问共享数据,但每次只允许一个线程进行写操作。本篇博客将详细介绍 Rust 中互斥器的使用方法&…

不干胶网站做最好的wordpress关闭

应用场景:一个游戏可能会衍生出其他APP或小程序之类的软件,例如王者营地是王者荣耀的官方APP,王者营地提供资讯、赛事、社区、战绩等功能。所以游戏端会和衍生出来的软件端做一些数据互通。这里把软件端称为中台系统。 Get请求和Post请求的区…

自建个网站怎么做网站建设与管理是干什么的

Windows 下本地 Docker RAGFlow 部署指南 环境要求部署步骤1. 克隆代码仓库2. 配置 Docker 镜像加速(可选)3. 修改端口配置(可选)4. 启动服务5. 验证服务状态6. 访问服务7. 登录系统8. 配置模型8.1 使用 Ollama 本地模型8.2 使用在线 API 服务9. 开始使用10. 常见问题处理端…

ClickHouse index_granularity 详解 - 若

ClickHouse index_granularity 详解 什么是 index_granularity index_granularity 是ClickHouse中一个重要的性能配置参数,它定义了索引的粒度(granularity),即每多少个数据行会创建一个索引标记(index mark)。 …

PADS笔记

PADS笔记PCB设计流程准备--功能确定、元器件选型 元件库建立-元器件符号、器件封装 绘制原理图-根据电路功能,将元器件符号进行连接 导出网络表--将元器件的连接关系,以及元器件的信息导出一个文件,以方便导入到其他…

【2025最新教程】Claude Code国内使用_保姆级新手安装使用教程_最强AI编程工具

【2025最新教程】Claude Code国内使用_保姆级新手安装使用教程_最强AI编程工具什么是 Claude Code Claude Code 是 Anthropic 推出的一个 agentic 编码工具 (agentic coding tool),可以在命令行(terminal)中运行,或…

如何计算sequence粒度的负载均衡损失 - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …