ETL介绍及kettle等工具学习

ETL（Extract, Transform, Load）是数据集成领域的核心流程，用于将数据从多个分散的源系统中抽取、清洗、转换后加载到目标数据仓库或数据湖中，以支持分析、报表和决策。其核心目标是通过规范化、结构化和优化数据，为后续的数据分析提供高质量的数据基础。

抽取（Extract）
- 数据来源：关系型数据库（如MySQL、Oracle）、NoSQL数据库、API、日志文件、CSV/Excel等。
- 抽取模式：
  - 全量抽取：首次抽取所有数据（适合小数据量）。
  - 增量抽取：基于时间戳、日志（CDC, Change Data Capture）或版本号仅抽取增量数据（适合大数据场景）。
- 挑战：处理异构数据源、高频率抽取的性能问题。
转换（Transform）
- 数据清洗：处理缺失值、去重、纠正错误（如日期格式不一致）。
- 数据标准化：统一单位（如货币转换）、编码（如性别“男/女”转“M/F”）。
- 业务规则应用：计算衍生字段（如销售额=单价×数量）、聚合（按地区汇总销量）。
- 数据结构化：将非结构化数据（如JSON、日志）转换为结构化表。
- 技术实现：通过SQL、脚本或ETL工具内置函数实现。
加载（Load）
- 目标系统：数据仓库（如Snowflake、Redshift）、数据湖（如Hadoop、S3）、OLAP数据库等。
- 加载策略：
  - 全量覆盖：清空目标表后重新加载（适合静态数据）。
  - 增量追加：仅插入新数据（需处理主键冲突）。
  - 合并更新（UPSERT）：更新已有记录并插入新记录。
- 优化：分区加载、批量提交以提高效率。

传统批处理ETL
- 场景：数据量大、实时性要求低（如夜间执行）。
- 工具：Informatica PowerCenter、Kettle、Talend。
- 缺点：延迟高，难以满足实时分析需求。
实时/近实时ETL
- 技术：Kafka（流数据）、Flink、Spark Streaming。
- 场景：实时监控、风控系统。
- 挑战：需处理数据乱序、状态管理等问题。
云原生ETL
- 工具：AWS Glue（Serverless）、Azure Data Factory、Google Dataflow。
- 优势：弹性扩缩容、与云存储（S3、BigQuery）深度集成。
ELT（Extract-Load-Transform）
- 原理：先加载原始数据到目标系统（如数据湖），再利用目标系统的计算能力（如Spark、Snowflake）进行转换。
- 适用场景：原始数据需保留、目标系统计算能力强。

工具	类型	特点
Informatica	商业	功能全面，支持复杂逻辑，适合企业级应用。
Talend	开源/商业	基于代码生成（Java/Python），支持大数据生态（Hadoop、Spark）。
Microsoft SSIS	商业	与SQL Server深度集成，图形化界面易用。
Apache NiFi	开源	专注于数据流，支持低代码实时处理。
AWS Glue	云服务	Serverless架构，自动生成PySpark代码，与Redshift/S3无缝集成。
Kettle (PDI)	开源	完全免费，图形化设计，社区活跃，适合中小型项目。

安装：需Java环境，下载Kettle后解压即可运行spoon.sh/spoon.bat。
设计转换：
- 拖拽输入步骤（如“CSV文件输入”“表输入”）。
- 添加转换步骤（如“字段选择”“计算器”“排序”）。
- 配置输出步骤（如“表输出”“Excel输出”）。
调试：通过“预览”功能查看数据流，设置断点。
执行与调度：
- 本地执行：直接运行转换或作业。
- 定时调度：通过Kitchen调用作业，结合操作系统的Crontab或Windows任务计划。
日志与监控：查看执行日志，监控数据行处理情况。