可商用,可离线运行,可API接口调用的开源AI数字人项目Heygem,喂饭级安装教程

前言

Hygem 效果图

image-20250430132003307

Heygem 是一款开源项目,致力于发挥你电脑硬件的全部潜力,让你无需依赖云端,也能在本地高效运行各类开源AI数字人模型。无论是 AI 语音对话、虚拟主播,还是数字人驱动引擎,Heygem 通过底层性能调度与资源管理优化,带来轻量、易用、强大的本地 AI 体验。

特点:

  • 可商用:但用户量超过10万或年营收达1000万美元以上的企业需签署商业许可协议。
  • 可以断网使用:程中要下载Docker服务和客户端,需要联网,安装后可断网使用。
  • 支持Windows和Linux桌面系统,不支持Mac系统。
  • 支持本地Api接口调用,可见文末补充模块。

Hygem 部署教程

一、准备工作:检查自己的电脑配置

硬盘空间要求

  • 【必须】C盘:用于存储服务镜像文件,建议至少预留 100GB 空间。如果空间不足,可以在安装 Docker 后指定其他盘符,但部分情况可能强制使用 C 盘。
  • 【必须】D盘:必须存在!用于存储数字人素材和作品数据,建议预留 30GB 以上空间。

系统要求

  • 操作系统需为 Windows 10(版本号 19042.1526) 或更高。

推荐配置(建议越高越好)

硬件推荐配置
CPUIntel i5-13400F(或同等性能)
内存至少 32GB(低于32G容易报错)
显卡NVIDIA RTX 4070(RTX 30/40 系列优先)

💡 小编实测配置:12700 + RTX 3070,运行效果良好!

显卡驱动要求

  • 必须使用 NVIDIA 独立显卡,并确保驱动为最新版。
  • NVIDIA的50系显卡正在适配中。
  • 暂不支持 AMD 显卡。

二、开始安装,跟着我的步骤一步一步来

这里面的步骤

第一步:安装Node.js(数字人软件界面基础)
1、前往官网下载安装最新版 Node.js:

🔗 Node.js 官网

https://nodejs.org/zh-cn

image-20250429160626795

2、下载并安装

下载完成之后,双击安装

image-20250429160742790

tips:过程全程点击“Next”即可。

3、验证安装是否成功

使用CMD打开命令提示符,输入以下命令查询

node -v

安装成功截图:

image-20250429203951167


第二步:安装 WSL 环境(Docker运行的基础)

wsl的意思是Windows 子系统 Linux,在windows上运行linux虚拟机;

1. 检查并安装 WSL

检查是否安装打开命令行,输入:

wsl --list --verbose
若已安装

image-20250429204751380

可跳过至“第三步:安装 Docker Desktop”

若未安装

会提示:“适用于 Linux 的 Windows 子系统没有已安装的分发”输入以下命令开始安装:

更新wsl环境,可能会遇到网络问题,看下面

wsl --update

安装wsl,默认会自动选择ubuntu系统

wsl --install
2. WSL 安装失败解决方案(网络问题)

如遇到报错,可尝试修改 hosts 文件:

路径:C:\Windows\System32\drivers\etc\hosts

添加以下内容至末尾并保存:

185.199.108.133 raw.githubusercontent.com

image-20250429204448023

然后重新运行相关命令。


第三步:安装 Docker Desktop(Heygem运行基础)
  • 前往官网下载安装包: 🔗 Docker 官网

🔍 **提示:**若无法访问 Docker 官网,可从文末资料包下载。

image-20250429210000802

image-20250429210022251

image-20250429210057248

安装成功界面:

image-20250429210121115


第四步:安装Heygem需要的dokcer镜像, AI 数字人服务端
1. 下载源码

GitHub 地址:
🔗 https://github.com/GuijiAI/HeyGem.ai

🔍 **提示:**若无法访问 GitHub 官网,可从文末资料包下载源码。

2.配置Docker 加速镜像(提高下载速度)

点击 Docker 设置 → Docker Engine,替换为以下内容:

image-20250422145633294

{"builder": {"gc": {"defaultKeepStorage": "20GB","enabled": true}},"experimental": false,"registry-mirrors": ["https://docker-0.unsee.tech","https://docker-cf.registry.cyou","https://docker.1panel.live"]
}

修改后点击 Apply & Restart,等待镜像拉取完成。

3. 拉取heygem镜像
  1. 进入项目 /deploy 目录,找到 docker-compose.yml 文件;

    image-20250429231242811

  2. 地址栏输入 cmd 打开命令行,执行以下命令:

image-20250429231101210

docker-compose up -d

image-20250429231202952

⚠️ 说明:

  • 此操作约需 70GB 流量,建议连接稳定 WiFi和有线网络;
  • 安装时间可能在半小时以上,视网速而定。(小编安装了2小时)
  • 为了方便大家下载文末资料包中小编已经提取了所有的docker

成功截图:

image-20250421201936617


image-20250429235102687

🔍 **提示:**这3个Docker镜像,可从文末资料包下载。

第五步:安装Heygem, AI 数字人客户端

服务端成功运行后,接下来安装客户端与 AI 数字人“面对面”交流。

1. 下载客户端

🔗 HeyGem 官方 Releases 下载页

选择最新版本的 HeyGem-x.x.x-setup.exe

image-20250429233015612

image-20250429233029939

2. 安装并运行

双击安装包完成安装,桌面会生成快捷方式:

客户端图标


三、使用

使用前需要打开docker(双击打开就行,无需其他操作),然后再启动HeyGem,就能愉快的使用了

image-20250429233145596

四、补充:

本地Api调用

Docker 启动后会在本地暴露几个端口,通过http://127.0.0.1可以调用。

具体代码可以参考

  • src/main/service/model.js
  • src/main/service/video.js
  • src/main/service/voice.js
模特训练
  1. 将视频分离为静音视频 + 音频

  2. 音频放到

    D:\heygem_data\voice\data
    

    D:\heygem_data\voice\data是与guiji2025/fish-speech-ziming服务约定的,可以在docker-compose中修改

  3. 调用

    http://127.0.0.1:18180/v1/preprocess_and_tran
    

    接口

    参数示例:

    {
    "format": ".wav",
    "reference_audio": "xxxxxx/xxxxx.wav",
    "lang": "zh"
    }
    

    返回示例:

    {
    "asr_format_audio_url": "xxxx/x/xxx/xxx.wav",
    "reference_audio_text": "xxxxxxxxxxxx"
    }
    

    记录下返回结果后续音频合成需要用到

音频合成

接口:http://127.0.0.1:18180/v1/invoke

// 请求参数
{"speaker": "{uuid}", // 一个UUID保持唯一即可"text": "xxxxxxxxxx", // 需要合成的文本内容"format": "wav", // 固定传参"topP": 0.7, // 固定传参"max_new_tokens": 1024, // 固定传参"chunk_length": 100, // 固定传参"repetition_penalty": 1.2, // 固定传"temperature": 0.7, // 固定传参"need_asr": false, // 固定传参"streaming": false, // 固定传参"is_fixed_seed": 0, // 固定传参"is_norm": 0, // 固定传参"reference_audio": "{voice.asr_format_audio_url}", // 上一步“模特训练”的返回值"reference_text": "{voice.reference_audio_text}" // 上一步“模特训练”的返回值
}
视频合成
  • 合成接口:http://127.0.0.1:8383/easy/submit

    // 请求参数
    {"audio_url": "{audioPath}", // 音频路径"video_url": "{videoPath}", // 视频路径"code": "{uuid}", // 唯一key"chaofen": 0, // 固定值"watermark_switch": 0, // 固定值"pn": 1 // 固定值
    }
    
  • 进度查询:http://127.0.0.1:8383/easy/query?code=${taskCode}

    get 请求,参数taskCode是上面合成接口入参中的code

更详细的说明请参见: https://github.com/GuijiAI/HeyGem.ai/blob/main/README_zh.md#%E5%BC%80%E6%94%BE-api

🔖 资料包获取

为方便大家部署体验,这里提供一份完整的资料包。

防止链接被和谐,建议先保存后使用

下载链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/78864.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三个概念:DataBinding,Dependency Property 与DataTemplate

WPF 核心概念详解:DataBinding、Dependency Property 和 DataTemplate 1. DataBinding (数据绑定) 基本概念 DataBinding 是 WPF 的核心机制,用于在 UI 元素和数据源之间建立自动同步关系。 关键特性 双向绑定:数据变化自动反映到 UI&…

C语言教程(二十六):C 语言内存管理详解

一、C 语言内存区域划分 在 C 语言程序运行时,内存主要分为以下几个区域: 1.1 栈区(Stack) 特点:由编译器自动分配和释放,主要存储函数的局部变量、函数参数、返回地址等。栈区的内存分配和释放是按照后进先出(LIFO)的原则进行的,速度快。示例: #include <stdio.…

腾讯云服务器性能提升全栈指南(2025版)

腾讯云服务器性能提升全栈指南&#xff08;2025版&#xff09; 一、硬件选型与资源优化 1. 实例规格精准匹配 腾讯云服务器提供计算型CVM、内存型MEM、大数据型Hadoop等12种实例类型。根据业务特性选择&#xff1a; • 高并发Web应用&#xff1a;推荐SA3实例&#xff0…

决策树在电信客户流失分析中的实战应用

在当今数据驱动的时代&#xff0c;数据分析和机器学习技术在各行业的应用愈发广泛。电信行业面临着激烈的竞争&#xff0c;客户流失问题成为影响企业发展的关键因素之一。如何准确预测客户是否会流失&#xff0c;并采取相应措施挽留客户&#xff0c;是电信企业关注的重点。决策…

【HCIA】VRRP

前言 二层交换机为了破环发明了堆叠&#xff0c;把几台实际的交换机视作一个虚拟的交换机&#xff0c;实现了链路的复用和环路的破坏。那么对应到三层的路由器&#xff0c;我们有 VRRP&#xff08;Virtual Router Redundancy Protocol&#xff09;&#xff0c;它可以让路由器分…

第15讲:基础柱状图与分组柱状图美化指南

目录 🧭 一、为什么要关注柱状图的“美化”? 🧱 二、基础柱状图的构建逻辑(以 ggplot2 为例) 🎨 三、美化细节全面升级 ✅ 1. 自定义配色与透明度 ✅ 2. 添加数值标签 ✅ 3. 设置 y 轴刻度与坐标轴美学 👨‍🔬 四、分组柱状图(Grouped Bar Plot) 💎 五…

SV 仿真的常识

文章目录 SV对verilog的扩展&#x1f4d8; 标准文档名称&#xff1a; 从SV到仿真通用过程解读实例解读 SV的仿真过程并行仿真颗粒度SV仿真调度调度区域 SV对verilog的扩展 SystemVerilog 和 Verilog 的语法标准由 **IEEE&#xff08;美国电气和电子工程师协会&#xff09;**制…

苏德战争前期苏联损失惨重(马井堂)

苏德战争前期&#xff08;1941年6月22日德国发动“巴巴罗萨行动”至1941年底至1942年初&#xff09;是苏联在二战中损失最惨重的阶段之一。以下是主要方面的损失概述&#xff1a; ‌一、军事损失‌ ‌人员伤亡与俘虏‌ 至1941年底&#xff0c;苏军伤亡约‌300万人‌&#xff…

联邦学习的收敛性分析(全设备参与,不同本地训练轮次)

联邦学习的收敛性分析 在联邦学习中,我们的目标是分析全局模型的收敛性,考虑设备异构性(不同用户的本地训练轮次不同)和数据异质性(用户数据分布不均匀)。以下推导从全局模型更新开始,逐步引入假设并推导期望损失的递减关系,最终给出收敛性结论。 1. 全局模型更新与泰…

多线程爬虫中实现线程安全的MySQL连接池

多线程爬虫中实现线程安全的MySQL连接池 在日常开发中&#xff0c;数据库操作频繁建立/关闭连接会带来性能损耗&#xff0c;尤其在多线程场景中更容易出现连接复用、阻塞等问题。因此&#xff0c;本文介绍如何使用 Python 封装一个 线程安全的 MySQL 连接池&#xff0c;并通过…

HTML:常用标签(元素)汇总

文章目录 一、标签分类1、块标签与行标签 二、排版标签三、文本标签1、常用2、不常用 四、图片标签五、超链接1、跳转页面2、跳转文件或下载文件3、跳转到锚点4、唤起本地应用 六、列表七、表格八、表单九、框架十、HTML实体十一、全局属性十二、meta元信息 一、标签分类 1、块…

20250430在ubuntu14.04.6系统上完成编译NanoPi NEO开发板的FriendlyCore系统【严重不推荐,属于没苦硬吃】

【开始编译SDK之前需要更新源】 rootrootubuntu:~/friendlywrt-h3$ sudo apt update 【这两个目录你在ubuntu14.04.6系统上貌似git clone异常了】 Y:\friendlywrt-h3\out\wireguard Y:\friendlywrt-h3\kernel\exfat-nofuse 【需要单线程编译文件系统&#xff0c;原因不明】 Y:…

【AI论文】CipherBank:通过密码学挑战探索LLM推理能力的边界

摘要&#xff1a;大型语言模型&#xff08;LLMs&#xff09;已经展现出非凡的能力&#xff0c;尤其是最近在推理方面的进步&#xff0c;如o1和o3&#xff0c;推动了人工智能的发展。尽管在数学和编码方面取得了令人印象深刻的成就&#xff0c;但在需要密码学专业知识的领域&…

艺术与科技的双向奔赴——高一鑫荣获加州联合表彰

2025年4月20日,在由M.A.D公司协办的“智艺相融,共赴价值巅峰”(Academic and Artistic Fusion Tribute to the Summit of Value)主题发布会上,音乐教育与科技融合领域的代表人物高一鑫,因其在数字音乐教育与中美文化交流方面的杰出贡献,荣获了圣盖博市议员Jorge Herrera和尔湾市…

【深度学习的灵魂】图片布局生成模型LayoutPrompt(1)

&#x1f308; 个人主页&#xff1a;十二月的猫-CSDN博客 &#x1f525; 系列专栏&#xff1a; &#x1f3c0;《深度学习理论直觉三十讲》_十二月的猫的博客-CSDN博客 &#x1f4aa;&#x1f3fb; 十二月的寒冬阻挡不了春天的脚步&#xff0c;十二点的黑夜遮蔽不住黎明的曙光 目…

Compose笔记(二十)--TextField

这一节主要了解一下Compose的TextField,TextField 是一个用于接收用户文本输入的 UI 组件,允许用户通过键盘输入、编辑或删除文本。简单用法总结如下: API value&#xff1a;当前输入的文本内容。 onValueChange 含义&#xff1a;当用户输入文本时触发的回调函数&#xff0c;参…

在Linux虚拟机下使用vscode,#include无法跳转问题

总结&#xff1a;需要通过Linux指令来添加编译器和压缩文件&#xff0c;解压&#xff0c;这样获得的编译器会具有可执行权限类似于 -rwxr-xr-x 1 user user 12345 Apr 26 14:22 myscript.sh 如果你直接从window中拖入文件到Linux文件下&#xff0c;你需要自己来再度开启可编译…

ArcGIS+GPT:多领域地理分析与决策新方案

技术点目录 AI大模型应用ArcGIS工作流程及功能prompt的使用技巧AI助力工作流程AI助力数据读取AI助力数据编辑与处理AI助力空间分析AI助力遥感分析AI助力二次开发AI助力科研绘图ArcGISAI综合应用了解更多 ——————————————————————————————————…

基础术语说明

车间&#xff1a;工厂内集中进行加工或装配的独立空间&#xff0c;配备设备、工具及人员&#xff0c;是生产活动的核心载体。 比如装配车间、总装车间、油漆车间等 生产线&#xff1a;以流水作业形式将原材料转化为成品的设备与人员的组合系统&#xff0c;强调连续性和效率。…

Splunk 使用Role 实现数据隔离

很多人知道 Splunk 有很多自带的Role, 今天我就要说说定制化的Role: 1: 在创建新role 的界面: 2: 在如下的界面,可以定制allow index name: 3: 创建好新Role 后,在SAML 添加新的group 的时候,就可以看到Role 给某个group: 4: 这样一个特定组的人来申请Splunk 权限,就可…