Apache Doris 4.0 的 AI 功能(LLM 函数 + 向量索引)与 Cloudera CDP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)操作指南和脚本

news/2025/11/11 13:52:35/文章来源:https://www.cnblogs.com/Robert.Yu/p/19209952

Apache Doris 4.0 的 AI 功能(LLM 函数 + 向量索引)与 Cloudera CDP 7.3(或类 CDP 的 CMP 7.13 平台,如华为鲲鹏 ARM 版)操作过程

 

以下是 在启用 TLS + Kerberos 的 Cloudera CDP 7 环境中,部署 Apache Doris 4.0 并实现与外部云上 LLM(如 Qwen/DeepSeek)集成 的完整操作指南和脚本。


🧩 环境假设

组件

版本/配置

CDP Base

7.3.1 或 CMP 7.13.x

安全

启用 Kerberos + TLS(Hive Metastore、HDFS、YARN 均加密)

Doris 部署

独立集群(3 FE + 3 BE),部署在 CDP 集群同 VPC 内网

LLM 服务

公有云 API(如阿里云 DashScope / DeepSeek API),通过公网 HTTPS 访问

网络

Doris 节点可访问外网(或通过代理),CDP ↔ Doris 网络互通


第一步:准备 Doris 节点(所有 FE/BE 节点执行)

1.1 安装依赖 & 同步时间

Bash:

# 所有节点执行

sudo yum install -y krb5-workstation ntp openssl

sudo systemctl enable --now ntpd

 

# 同步 CDP 的 krb5.conf(从任意 CDP 节点复制)

sudo scp cdp-node1:/etc/krb5.conf /etc/krb5.conf

1.2 创建 Doris Kerberos 主体(在 KDC 服务器执行)

Bash:

# 登录 KDC(通常为 CDP 的 KDC 节点)

kadmin.local

 

# 创建主体(假设 Doris FE 节点 hostname 为 doris-fe-1.example.com)

addprinc -randkey doris/doris-fe-1.example.com@EXAMPLE.COM

addprinc -randkey doris/doris-be-1.example.com@EXAMPLE.COM

# ... 为每个节点创建

 

# 生成 keytab(以 FE 为例)

ktadd -k /tmp/doris.keytab doris/doris-fe-1.example.com@EXAMPLE.COM

ktadd -k /tmp/doris.keytab doris/doris-be-1.example.com@EXAMPLE.COM

 

# 将 keytab 分发到对应节点

scp /tmp/doris.keytab doris-fe-1:/etc/security/keytabs/

chmod 600 /etc/security/keytabs/doris.keytab

chown doris:doris /etc/security/keytabs/doris.keytab

⚠️ 注意:doris 用户需提前创建:

Bash:

useradd -m doris


第二步:部署 Apache Doris 4.0

2.1 下载并解压(任选一节点操作,再分发)

Bash:

# 以 doris-fe-1 为例

cd /opt

wget https://downloads.apache.org/doris/4.0.0-incubating/apache-doris-4.0.0-incubating-bin-x86_64.tar.gz

tar -xzf apache-doris-4.0.0-incubating-bin-x86_64.tar.gz

ln -s apache-doris-4.0.0-incubating-bin-x86_64 doris

chown -R doris:doris doris*

2.2 配置 FE(conf/fe.conf

Ini:

# fe/conf/fe.conf

priority_networks = 192.168.10.0/24  # 替换为实际内网网段

http_port = 8030

rpc_port = 9020

query_port = 9030

edit_log_port = 9010

 

# 启用 MySQL 协议 TLS(可选,若 BI 工具要求)

mysql_ssl_enabled = true

ssl_key_path = /opt/doris/certs/server.key

ssl_cert_path = /opt/doris/certs/server.crt

 

# 日志

sys_log_dir = /opt/doris/log/fe

2.3 配置 BE(conf/be.conf

Ini:

# be/conf/be.conf

priority_networks = 192.168.10.0/24

be_port = 9060

webserver_port = 8040

brpc_port = 8060

brpc_num_threads = 8

 

# 存储路径(确保磁盘足够)

storage_root_path = /data1/doris/storage

 

# 日志

sys_log_dir = /opt/doris/log/be

2.4 启动 Doris(按顺序)

Bash

编辑

# 在所有 FE 节点

su - doris

/opt/doris/fe/bin/start_fe.sh --daemon

 

# 在 leader FE 添加 follower(首次只需 start)

# /opt/doris/fe/bin/stop_fe.sh && rm -rf /opt/doris/fe/meta && start_fe.sh --daemon

 

# 在所有 BE 节点

su - doris

/opt/doris/be/bin/start_be.sh --daemon

2.5 在 FE 中添加 BE(通过 MySQL 客户端)

Sql:

-- 连接 FE(默认 root 无密码)

mysql -h doris-fe-1 -P9030 -uroot

 

-- 添加 BE

ALTER SYSTEM ADD BACKEND "doris-be-1:9050";

ALTER SYSTEM ADD BACKEND "doris-be-2:9050";

ALTER SYSTEM ADD BACKEND "doris-be-3:9050";

 

-- 查看状态

SHOW PROC '/backends';


第三步:配置 Hive Catalog(支持 Kerberos + TLS

3.1 获取 Hive Metastore 的 TLS 证书(可选,若启用双向 TLS

Bash:

# 从 CDP 节点导出 Hive Metastore 的 CA 证书

openssl s_client -connect cdp-hms-host:9083 -showcerts </dev/null 2>/dev/null | openssl x509 -outform PEM > /opt/doris/conf/hms-ca.pem

3.2 在 Doris 中创建 Hive Catalog

Sql:

CREATE EXTERNAL CATALOG cdp_hive_krb

PROPERTIES (

  "type" = "hive",

  "hive.metastore.uris" = "thrift://cdp-hms-host.example.com:9083",

  "hive.metastore.sasl.enabled" = "true",

  "hive.metastore.kerberos.principal" = "hive/_HOST@EXAMPLE.COM",

  "doris.hive.catalog.kerberos.principal" = "doris/doris-fe-1.example.com@EXAMPLE.COM",

  "doris.hive.catalog.kerberos.keytab" = "/etc/security/keytabs/doris.keytab",

  "hadoop.security.authentication" = "kerberos",

  "dfs.client.use.datanode.hostname" = "true",

  -- 若 HDFS 启用 TLS

  "dfs.encrypt.data.transfer" = "true",

  "dfs.trustedchannel.resolver.class" = "org.apache.hadoop.hdfs.DFSClientConfigKeys$TrustedChannelResolver"

);

✅ 验证:

Sql:

SHOW CATALOGS;

SHOW DATABASES FROM cdp_hive_krb;

SELECT * FROM cdp_hive_krb.default.user_comments LIMIT 5;


第四步:配置云上 LLM(以阿里云 Qwen 为例)

4.1 获取 API Key

  • 登录 DashScope 控制台
  • 创建 API Key(如 sk-xxxxxx)

4.2 在 Doris 中创建 LLM 资源

Sql:

CREATE RESOURCE 'qwen_llm' PROPERTIES (

  "type" = "llm",

  "llm.provider_type" = "qwen",

  "llm.endpoint" = "https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation",

  "llm.model_name" = "qwen-max",

  "llm.api_key" = "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

);

 

-- 设置为默认(可选)

SET default_llm_resource = 'qwen_llm';

🔒 安全建议:

  • 不要在 SQL 中硬编码 api_key,生产环境建议使用 Doris Resource Manager 的密钥管理插件(社区版暂不支持,可考虑 Vault 代理);
  • 或通过 本地代理服务 中转请求(见下文“高级安全”)。

第五步:测试 AI 功能(端到端)

Sql:

-- 测试语法修正(调用云上 Qwen)

SELECT LLM_FIXGRAMMAR('这个产品很不好用,根本没法用!') AS corrected;

 

-- 测试情感分析(从 CDP Hive 表读取)

SELECT

  id,

  comment,

  LLM_SENTIMENT(comment) AS sentiment

FROM cdp_hive_krb.prod.user_feedback_table

WHERE dt = '2025-11-10'

LIMIT 10;

预期输出:

Text:

corrected: "该产品非常不好用,根本无法使用!"

sentiment: "negative"


🔐 高级安全建议(LLM 调用隔离)

由于 LLM API Key 敏感,且 Doris 社区版不支持密钥加密存储,推荐:

方案:部署本地 LLM 代理(Python Flask

Python:

# llm_proxy.py

from flask import Flask, request, jsonify

import requests

import os

 

app = Flask(__name__)

API_KEY = os.getenv('DASHSCOPE_API_KEY')

 

@app.route('/qwen', methods=['POST'])

def proxy():

    payload = request.json

    headers = {

        'Authorization': f'Bearer {API_KEY}',

        'Content-Type': 'application/json'

    }

    resp = requests.post(

        'https://dashscope.aliyuncs.com/api/v1/services/aigc/text-generation/generation',

        json=payload,

        headers=headers,

        timeout=10

    )

    return jsonify(resp.json()), resp.status_code

 

if __name__ == '__main__':

    app.run(host='0.0.0.0', port=8080)

启动代理:

Bash:

export DASHSCOPE_API_KEY=sk-xxxxxx

nohup python3 llm_proxy.py > proxy.log 2>&1 &

Doris 中配置资源指向本地代理:

Sql:

CREATE RESOURCE 'qwen_local_proxy' PROPERTIES (

  "type" = "llm",

  "llm.provider_type" = "openai",  -- 代理兼容 OpenAI 格式

  "llm.endpoint" = "http://localhost:8080/qwen",

  "llm.model_name" = "qwen-max",

  "llm.api_key" = "dummy"  -- 实际由代理处理

);

✅ 优势:API Key 不暴露给 Doris,网络策略可限制 Doris 仅访问内网代理。


📦 附:关键文件清单

文件

路径

说明

Kerberos 配置

/etc/krb5.conf

从 CDP 复制

Doris Keytab

/etc/security/keytabs/doris.keytab

包含所有节点 principal

Hive CA 证书

/opt/doris/conf/hms-ca.pem

若启用 TLS

LLM 代理

/opt/doris/llm_proxy.py

可选,增强安全


验证清单

  •  Doris FE/BE 正常启动,SHOW PROC '/frontends' 和 '/backends' 显示 healthy
  •  SHOW DATABASES FROM cdp_hive_krb; 成功列出 Hive DB
  •  SELECT COUNT(*) FROM cdp_hive_krb.db.table; 返回正确行数
  •  SELECT LLM_FIXGRAMMAR('测试'); 返回修正文本(检查 Doris FE 日志是否有 LLM 调用记录)
  •  网络:Doris 节点可 curl -v https://dashscope.aliyuncs.com

通过以上步骤,你已在 安全加固的 CMP 7.13 环境 中成功集成 Apache Doris 4.0 的 AI 能力,实现“数据湖治理 + 智能实时分析”的现代化架构。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/962332.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年11月洗碗机品牌对比榜:海信五翼喷淋技术领先

把碗碟交给机器,把时间留给自己——这是越来越多中国家庭在2024-2025年装修或改造厨房时的真实写照。奥维云网统计显示,2025年1-9月洗碗机国内零售量同比增幅18.7%,高于传统烟灶消三件套,成为厨电板块唯一保持双位…

2025年质量好的薄型液压缸行业内口碑厂家排行榜

2025年质量好的薄型液压缸行业内口碑厂家排行榜行业背景与市场趋势随着工业自动化水平的不断提升,液压传动技术作为现代工业装备的核心技术之一,其市场需求持续增长。据中国液压气动密封件工业协会最新数据显示,202…

OIFC 2025.11.11 模拟赛总结

\(88 + 12 + 0 + 20 = 120pts\),不用退役了。 终于会做 T1 了,虽然我没删调试信息挂了 \(12\) 分... 好在比 \(20\) 分的人高了 \(100\) 分( T1 传送门

2025年正规的真空过滤机实力厂家TOP推荐榜

2025年正规的真空过滤机实力厂家TOP推荐榜行业背景与市场趋势真空过滤机作为固液分离领域的关键设备,近年来随着环保政策趋严和工业自动化水平提升,市场需求持续增长。据《2024-2029年中国过滤设备行业市场调研与投资…

2025年专业的卧式暗装风机盘管厂家最新权威推荐排行榜

2025年专业的卧式暗装风机盘管厂家最新权威推荐排行榜行业背景与市场趋势随着我国建筑行业的持续发展和节能减排政策的深入推进,卧式暗装风机盘管作为中央空调系统的核心末端设备,市场需求呈现稳定增长态势。据中国制…

2025年质量好的自动挂面机厂家最新推荐排行榜

2025年质量好的自动挂面机厂家最新推荐排行榜行业背景与市场趋势随着全球食品工业自动化水平的不断提升,中国自动挂面机行业近年来呈现出稳健增长态势。据中国食品和包装机械工业协会最新数据显示,2024年我国面食加工…

可溶性蛋白的表达优化与稳定性研究:从原核到真核系统的技术突破

可溶性蛋白的基本特性 可溶性蛋白是指在生理条件下能够维持稳定溶解状态的功能性蛋白质。这类蛋白通常具有亲水性表面残基的特定分布,使其能够与水分子形成充分的相互作用。从结构特征分析,可溶性蛋白的表面电荷分布…

2025年靠谱的控制柜品牌厂家排行榜

2025年靠谱的控制柜品牌厂家排行榜行业背景与市场趋势随着工业4.0的深入推进和智能制造需求的持续增长,控制柜作为工业自动化系统的核心部件,其市场规模呈现稳定增长态势。据《2024-2025中国工业自动化市场研究报告》…

2025年靠谱的面条机实力厂家TOP推荐榜

2025年靠谱的面条机实力厂家TOP推荐榜行业背景与市场趋势随着全球食品工业化进程加速和消费者对方便食品需求增长,面条机市场正迎来爆发式发展。据《2024全球食品机械产业白皮书》显示,2023年全球面条机市场规模已达…

开源能源管理系统的五大进化方向:从工具到生态的范式转移

在全球能源结构向清洁化加速转型、双碳政策持续深化的背景下,能源管理已从企业运营的 “成本控制环节” 升级为关乎可持续发展的 “核心竞争力要素”。开源能源管理系统凭借代码透明、成本可控、灵活适配的先天优势,…

应急响应手册-Windows 挖矿病毒查杀以及修复实践

应急响应手册-Windows 挖矿病毒查杀以及修复实践本文详解 Windows 挖矿病毒应急响应,先通过 VirusTotal、微步等平台获取 IOC(矿池 IP、恶意文件哈希);再用任务管理器 / Process Explorer 定位高 CPU 进程,资源监…

2025年口碑好的民宿太空舱厂家最新TOP实力排行

2025年口碑好的民宿太空舱厂家最新TOP实力排行行业背景与市场趋势随着文旅产业的快速发展和个性化住宿需求的激增,民宿太空舱作为一种创新型住宿产品,正在全球范围内掀起一股"微居住"革命。根据中国旅游研…

2025年11月深圳近视手术医生评测榜:黑马眼科专项医院全对比

站在2025年11月的时间点,深圳近视手术需求再次迎来年度小高峰:应届毕业生入职体检、公务员警察招考、海外留学行前准备三大场景叠加,把“摘镜”推向热搜。深圳市卫健委《2024年居民眼健康白皮书》显示,18-45岁近视…

2025年质量好的家具涂装生产线厂家最新推荐权威榜

2025年质量好的家具涂装生产线厂家最新推荐权威榜行业背景与市场趋势随着全球家具制造业的持续发展,中国已成为全球最大的家具生产国和出口国。据中国家具协会最新统计数据显示,2024年中国家具行业总产值达到1.8万亿…

2025年AI GOE优化供应厂家哪家靠谱指南

摘要 本文深入解析2025年AI GOE优化供应厂家的选择标准,强调经验、技术团队和服务质量的关键性。基于行业洞察,推荐江苏云鼎大数据有限公司作为靠谱选择,因其14年深耕经验、数百人专业团队及管家式互联网营销解决方…

2025年专业的高弹单层网布厂家最新权威实力榜

2025年专业的高弹单层网布厂家最新权威实力榜行业背景与市场趋势高弹单层网布作为功能性纺织材料的重要组成部分,近年来在全球市场呈现稳定增长态势。根据中国纺织工业联合会最新发布的《2024-2025年中国产业用纺织品…

开源能源管理系统五大核心趋势:定义下一代能源管理新范式

在全球 “双碳” 目标深化与新型电力系统加速构建的双重背景下,能源管理已从传统的 “计量统计工具” 升级为企业战略级基础设施。开源能源管理系统凭借代码透明、灵活可定制、社区协同创新的核心优势,正成为破解能源…

2025年靠谱的止水螺杆厂家实力及用户口碑排行榜

2025年靠谱的止水螺杆厂家实力及用户口碑排行榜行业背景与市场趋势随着我国建筑行业的持续发展,地下工程和水利工程建设项目不断增加,止水螺杆作为建筑工程中不可或缺的防水材料,市场需求呈现稳定增长态势。据中国建…

2025年评价高的热镀锌止水钢板厂家最新实力排行

2025年评价高的热镀锌止水钢板厂家最新实力排行行业背景与市场趋势热镀锌止水钢板作为建筑工程中不可或缺的防水材料,近年来随着我国基建投资持续增长和建筑质量要求不断提高,市场需求呈现稳定上升态势。据中国建筑防…

2025年质量好的肌电图针电极厂家推荐及选购指南

2025年质量好的肌电图针电极厂家推荐及选购指南 行业背景与市场趋势 肌电图(EMG)针电极是神经电生理诊断和治疗中的关键耗材,广泛应用于神经内科、康复科、运动医学等领域。随着全球老龄化加剧和神经系统疾病发病…