业务应用和大数据平台的数据流向

概述

业务应用与大数据平台之间的交互是实现数据驱动决策和实时业务处理的关键环节。其交互方式多样,协议选择取决于数据流向、实时性要求及技术架构。一句话总结,数据流向可以是从业务应用写入大数据平台,也可以是大数据平台回写至业务应用的数据库。


一、交互场景与协议分类

1. 数据采集(业务应用 → 大数据平台)

目标:将业务数据(日志、交易记录等)实时或批量传输到大数据平台存储或处理。

常用协议与工具
  1. HTTP/HTTPS

    • 场景:业务应用通过 REST API 发送数据。
    • 工具
      • Apache Flume:通过 HTTP Source 接收数据,写入 HDFS/Kafka。
      • 自定义 API 服务:业务应用直接调用大数据平台的 API 网关。
    • 示例
      # 业务应用通过 POST 请求发送 JSON 数据
      import requests
      data = {"user_id": 123, "action": "purchase"}
      response = requests.post("https://bigdata-api.example.com/events", json=data)
      
  2. 消息队列协议(TCP/AMQP/MQTT)

    • 场景:高吞吐、低延迟的实时数据传输。
    • 工具
      • Apache Kafka:业务应用通过 Kafka Producer 发送数据到 Topic。
      • RabbitMQ:使用 AMQP 协议传输数据。
    • 示例(Kafka):
      // 业务应用发送数据到 Kafka
      Properties props = new Properties();
      props.put("bootstrap.servers", "kafka-broker:9092");
      Producer<String, String> producer = new KafkaProducer<>(props);
      producer.send(new ProducerRecord<>("user_events", "key", "{\"event\": \"login\"}"));
      
  3. 文件传输协议(SFTP/SCP/HDFS API)

    • 场景:批量上传日志文件或数据库导出文件。
    • 工具
      • Apache NiFi:通过 SFTP 拉取文件后写入 HDFS。
      • Hadoop HDFS Client:直接调用 HDFS API 上传文件。
    • 示例(HDFS CLI):
      # 业务服务器上传日志到 HDFS
      hdfs dfs -put /var/log/app.log /data/raw/logs/
      

2. 数据处理与查询(双向交互)

目标:大数据平台处理数据后,业务应用查询结果或订阅实时分析结果。

常用协议与工具
  1. SQL 协议(JDBC/ODBC)

    • 场景:业务应用通过 SQL 查询数据仓库。
    • 工具
      • Apache Hive/Trino:提供 JDBC 驱动,支持标准 SQL 查询。
      • ClickHouse:高性能 OLAP 数据库,支持 HTTP 和 JDBC。
    • 示例(JDBC 查询 Hive):
      // 业务应用通过 JDBC 连接 Hive
      Class.forName("org.apache.hive.jdbc.HiveDriver");
      Connection conn = DriverManager.getConnection("jdbc:hive2://hive-server:10000/default");
      Statement stmt = conn.createStatement();
      ResultSet rs = stmt.executeQuery("SELECT user_id, COUNT(*) FROM logs GROUP BY user_id");
      
  2. REST API

    • 场景:查询预计算的结果(如报表、用户画像)。
    • 工具
      • Elasticsearch:通过 REST API 提供全文检索和聚合结果。
      • Superset/Tableau:可视化工具通过 API 拉取数据。
    • 示例(查询 Elasticsearch):
      # 业务应用查询用户行为统计
      curl -XGET "http://es-server:9200/user_actions/_search?q=action:login"
      
  3. 流式结果订阅(WebSocket/SSE)

    • 场景:实时监控或告警(如风控系统接收实时异常事件)。
    • 工具
      • Apache Flink:通过 WebSocket 或 Kafka 推送实时处理结果。
      • Redis Pub/Sub:业务应用订阅频道获取实时数据。
    • 示例(Flink + WebSocket):
      // Flink 将处理结果写入 WebSocket Sink
      DataStream<String> alerts = ...; // 实时风控结果
      alerts.addSink(new WebSocketSink("ws://business-app:8080/alerts"));
      

3. 反向数据同步(大数据平台 → 业务应用)

目标:将分析结果(推荐模型、用户标签)回写至业务数据库或缓存。

常用协议与工具
  1. 数据库协议(JDBC/ODBC)

    • 场景:将聚合结果写入 MySQL、PostgreSQL 等业务数据库。
    • 工具
      • Apache Spark:使用 JDBC 写入业务库。
      • Airflow:通过 Python 脚本同步数据。
    • 示例(Spark 写 MySQL):
      # Spark 将结果写入业务库
      df.write.format("jdbc") \.option("url", "jdbc:mysql://mysql-host:3306/app_db") \.option("dbtable", "user_stats") \.save()
      
  2. 缓存协议(Redis/Memcached)

    • 场景:实时更新缓存中的用户画像或推荐结果。
    • 工具
      • Apache Flink:直接调用 Redis Sink 更新缓存。
    • 示例(Flink + Redis):
      // Flink 实时更新 Redis 中的用户积分
      DataStream<Tuple2<String, Integer>> userScores = ...;
      userScores.addSink(new RedisSink<>(config, new RedisMapper(...)));
      
  3. 文件导出(SFTP/HTTP)

    • 场景:生成 CSV/Excel 报表供业务下载。
    • 工具
      • Apache Airflow:定时导出数据到 SFTP 服务器。
      • MinIO:通过预签名 URL 提供临时下载链接。
    • 示例(Airflow SFTP 导出):
      # Airflow 任务将 Hive 查询结果导出到 SFTP
      sftp_operator = SFTPOperator(task_id="export_report",ssh_conn_id="sftp_conn",local_filepath="/tmp/report.csv",remote_filepath="/reports/report_{{ ds }}.csv"
      )
      

二、协议选型关键因素

  1. 实时性要求

    • 实时:Kafka、WebSocket、Redis Pub/Sub。
    • 准实时/批量:JDBC、SFTP、HDFS。
  2. 数据规模

    • 大文件/高吞吐:HDFS、Kafka。
    • 小数据/低延迟:HTTP、gRPC。
  3. 安全性

    • 敏感数据:HTTPS、SFTP、Kerberos 认证的 HDFS。
    • 公开数据:HTTP、普通 JDBC。
  4. 技术栈兼容性

    • Java 生态:优先选 Kafka、HDFS、Hive JDBC。
    • Python 生态:多用 REST API、PySpark、Airflow。

三、典型架构示例

电商实时推荐系统
  1. 数据采集
    • 用户点击流数据通过 Kafka 实时发送至 Flink。
  2. 数据处理
    • Flink 实时计算用户兴趣标签,写入 Redis
  3. 结果反馈
    • 业务应用(推荐服务)通过 Redis 读取标签,生成推荐列表。
  4. 离线分析
    • 每日通过 Spark 批量计算历史订单数据,结果写入 MySQL 供运营查看。
日志分析平台
  1. 日志收集
    • 业务服务器通过 Filebeat 将日志发送至 Kafka
  2. 存储与处理
    • Kafka 数据落地到 HDFS,由 Spark 进行 ETL。
  3. 查询展示
    • 处理后的数据导入 Elasticsearch,前端通过 REST API 查询可视化仪表盘。

四、安全与治理

  1. 认证与授权
    • Kafka:SASL/SCRAM 或 SSL 客户端认证。
    • HDFS:Kerberos 集成 LDAP/AD。
  2. 数据加密
    • 传输层:TLS(如 HTTPS、Kafka SSL)。
    • 存储层:HDFS Transparent Encryption。
  3. 审计与监控
    • 记录 API 调用日志(如 Elasticsearch Audit Log)。
    • 使用 Prometheus + Grafana 监控接口性能。

总结

业务应用与大数据平台的交互是一个多层次、多协议协作的过程,需根据具体场景选择合适的技术栈。核心要点包括:

  • 实时场景:优先使用消息队列(Kafka)和流处理引擎(Flink)。
  • 批量处理:依赖 HDFS、Spark 和调度工具(Airflow)。
  • 查询与反馈:通过 SQL(JDBC)、REST API 或缓存(Redis)实现。
  • 安全:始终贯穿传输加密、身份认证与权限控制。

通过合理设计交互协议与工具链,可构建高效、稳定且安全的数据流水线。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/70675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

山东大学软件学院nosql实验一环境配置

环境&#xff1a;前端vue后端springboot 软件环境&#xff1a; MongoDB MongoDBCompass 实验步骤与内容&#xff1a; 在官网下载安装包&#xff08;最新版&#xff09; 配置环境环境变量 在“高级系统设置-环境变量”中&#xff0c;可以将MongoDB添加到环境变量Path中(D:\…

《计算机视觉》——图像拼接

图像拼接 图像拼接是将多幅有重叠区域的图像合并成一幅全景或更大视角图像的技术&#xff0c;以下为你详细介绍&#xff1a; 原理&#xff1a;图像拼接的核心原理是基于图像之间的特征匹配。首先&#xff0c;从每幅图像中提取独特的特征点&#xff0c;如角点、边缘点等&#x…

后台管理系统-园区管理

功能演示和模版搭建 <template><div class"building-container"><!-- 搜索区域 --><div class"search-container"><div class"search-label">企业名称&#xff1a;</div><el-input clearable placeholde…

CSS中padding和margin属性的使用

在 HTML 中&#xff0c;padding 和 margin 是用于控制元素布局和间距的重要属性。 一、Padding&#xff08;内边距&#xff09; 定义&#xff1a;Padding 是指元素内容与元素边框之间的距离。它可以在元素内部创造出空白区域&#xff0c;使得内容不会紧贴着边框。 作用 增加元…

git中,如何查看具体单个文件的log

在 Git 中&#xff0c;可以使用多种方式查看单个文件的提交日志&#xff08;Log&#xff09;&#xff0c;以下详细介绍不同场景下的查看方法&#xff1a; 目录 一、基本命令查看文件的完整提交日志 二、查看文件提交日志并显示差异内容 三、限制显示的提交日志数量 四、按…

日常知识点之刷题一

1&#xff1a;流浪地球 0~n-1个发动机&#xff0c;计划启动m次&#xff0c;求最后启动的发动机的个数。 以及发动机的编号。&#xff08;模拟过程&#xff0c;每次手动启动的机器对应时间向两边扩散&#xff09; //输入每个启动的时间和编号 void test_liulang() {int n, m;ci…

C++面向对象编程技术研究

一、引言 面向对象编程&#xff08;OOP&#xff09;是一种程序设计方法&#xff0c;它将现实世界中的实体抽象为“对象”&#xff0c;并通过类和对象来实现程序的设计。OOP的核心思想包括封装、继承和多态&#xff0c;这些特性使得程序更加模块化、易于扩展和维护。C作为一种支…

Day54(补)【AI思考】-SOA,Web服务以及无状态分步解析与示例说明

文章目录 **SOA&#xff0c;Web服务以及无状态**分步解析与示例说明**分步解析与示例说明****1. 核心概念解析****2. 为什么说SOA与Web服务是“正交的”&#xff1f;****3. 架构风格 vs. 实现技术****4. 接口&#xff08;Interface&#xff09;的核心作用****5. Web服务的“被认…

【Deepseek高级使用教程】Deepseek-R1的5种高级进阶玩法,5分钟教会你Deepseek+行业的形式进行工作重构的保姆级教程

AI视频生成&#xff1a;小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频https://aitools.jurilu.com/ 最近&#xff0c;有各行各业的小伙伴问我&#xff0c;到底应该怎么将deepseek融入进他们自身的工作流呢&#xff1f;其实这个问题很简单。我就以…

selenium爬取苏宁易购平台某产品的评论

目录 selenium的介绍 1、 selenium是什么&#xff1f; 2、selenium的工作原理 3、如何使用selenium&#xff1f; webdriver浏览器驱动设置 关键步骤 代码 运行结果 注意事项 selenium的介绍 1、 selenium是什么&#xff1f; 用于Web应用程序测试的工具。可以驱动浏览…

[实现Rpc] 客户端 | Requestor | RpcCaller的设计实现

目录 Requestor类的实现 框架 完善 onResponse处理回复 完整代码 RpcCaller类的实现 1. 同步调用 call 2. 异步调用 call 3. 回调调用 call Requestor类的实现 &#xff08;1&#xff09;主要功能&#xff1a; 客户端发送请求的功能&#xff0c;进行请求描述对服务器…

P2889 [USACO07NOV] Milking Time S

题目大意 有 N N N 个小时可以挤奶。其中有 m m m 个时间段可以给 Bessis 奶牛挤奶。第 i i i 个时间段为 s i s_i si​ ~ t i t_i ti​&#xff0c;可以获得 E f f i Eff_i Effi​ 滴奶。每次挤完奶后&#xff0c;人都要休息 R R R 小时。最后问&#xff0c;一共能挤出…

ONNX转RKNN的环境搭建和部署流程

将ONNX模型转换为RKNN模型的过程记录 工具准备 rknn-toolkit:https://github.com/rockchip-linux/rknn-toolkit rknn-toolkit2:https://github.com/airockchip/rknn-toolkit2 rknn_model_zoo:https://github.com/airockchip/rknn_model_zoo ultralytics_yolov8:https://github…

20250221 NLP

1.向量和嵌入 https://zhuanlan.zhihu.com/p/634237861 encoder的输入就是向量&#xff0c;提前嵌入为向量 二.多模态文本嵌入向量过程 1.文本预处理 文本tokenizer之前需要预处理吗&#xff1f; 是的&#xff0c;文本tokenizer之前通常需要对文本进行预处理。预处理步骤可…

C++基础知识学习记录—多态

1、函数覆盖 函数覆盖也被称为函数重写&#xff0c;类似于函数隐藏&#xff0c; 函数覆盖是多态的前提条件之一。 函数覆盖与函数隐藏的区别&#xff1a; ● 基类的被覆盖函数需要使用virtual关键字修饰&#xff0c;表示这个函数是一个虚函数 在Qt Creator中虚函数是斜体 虚…

GoFly框架中集成Bolt 和badfer两个Go语言嵌入式键值数据库

本插件集成了Bolt 和badfer两个纯Go实现的快速的嵌入式K/V数据库&#xff0c;方便开发时本地存储使用。插件集成Bolt 和badfer两个&#xff0c;如果确定使用其中一个&#xff0c;也可以把其中不用的一个删除&#xff0c;不删除也不会有任何影响。 插件使用说明 1.安装插件 到…

AWS - Redshift - 外部表读取 Parquet 文件中 timestamp 类型的数据

问题&#xff1a; 通过 Redshift Spectrum 功能可以读取 S3 中的文件&#xff0c;当读取 Parquet 文件时&#xff0c;如果列格式设置为 timestamp&#xff0c; 通过 psql 客户端读取会出现以下错误&#xff1a; testdb# select * from myspectrum_schema_0219.test_ns; ERROR…

Pretraining Language Models with Text-Attributed Heterogeneous Graphs

Pretraining Language Models with Text-Attributed Heterogeneous Graphs EMNLP 推荐指数&#xff1a;#paper/⭐⭐#​ 贡献&#xff1a; 我们研究了在更复杂的数据结构上预训练LM的问题&#xff0c;即&#xff0c;TAHG。与大多数只能从每个节点的文本描述中学习的PLM不同&…

重新求职刷题DAY18

1.513. 找树左下角的值 给定一个二叉树的 根节点 root&#xff0c;请找出该二叉树的 最底层 最左边 节点的值。 假设二叉树中至少有一个节点。 示例 1: 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 输入: root [2,1,3] 输出: 1思路&#xff1a; 这…

B站pwn教程笔记-2

这次是栈溢出基础。 栈基础知识 栈帧结构概览 看上图的高地址和低地址。arguments是子函数的形参。蓝色的是上一个栈的ebp值&#xff0c;用于在子函数执行完毕之后&#xff0c;返回到正确的ebp. heap的占的内存大大的超过stack。 下面看看调用栈的详细过程。 一个函数都是以…