LiveTalking本地化部署指南

LiveTalking 介绍

LiveTalking是一个开源的实时交互数字人系统,通过多模态AI技术实现语音驱动的虚拟形象生成,支持低延迟视频流输出,适用于虚拟客服、直播、教育等多种场景。‌

github地址:https://github.com/lipku/LiveTalking
gitee地址:https://gitee.com/lipku/LiveTalking

技术架构与核心功能

系统采用‌三平面哈希表示‌进行高效三维空间编码,结合‌区域注意力模块‌融合语音与眼部动作信号,实现精准的唇形同步和表情驱动;核心模块包括:

  • 语音识别(ASR)‌:支持Whisper、Hubert等模型,将语音实时转为文本。
  • 大语言模型(LLM)‌:可接入阿里云Qwen、OpenAI等,处理自然语言理解与生成。
  • 文本转语音(TTS)‌:集成GPT-SoVITS、FishSpeech及云服务(如腾讯云TTS),支持声音克隆和多语种播报。
  • 视觉驱动‌:采用MuseTalk、Wav2Lip等模型,实现半身动画与背景替换。
    系统通过‌WebRTC或RTMP‌输出视频流,端到端延迟低于300ms,单GPU可并发支持16个以上会话。‌

本地服务器部署实验

部署环境与硬件配置

● 操作系统:Ubuntu
● GPU:NVIDIA GeForce RTX 4090 (24GB 显存)
● 内存:24GB

LiveTalking 数字人项目部署与运行指南

本文档基于 LiveTalking 项目(支持 MuseTalk 模型)的实验环境配置流程整理,旨在帮助开发者快速搭建实时交互式数字人服务。

1. 环境准备

1.1 获取源码

首先,将项目代码克隆至本地环境:

git clone https://github.com/lipku/LiveTalking.git cd LiveTalking
1.2 创建虚拟环境

建议使用 Conda 创建独立的 Python 3.10 环境:

conda create-n livetalk python=3.10
1.3 激活虚拟环境后,安装依赖库

根据你的 CUDA 版本安装对应的 PyTorch 及项目依赖。注意: 本示例基于 CUDA 12.8 环境。

组件版本/配置
CUDA12.8
PyTorch2.8.0
Torchvision0.23.0
Torchaudio2.8.0

执行安装命令:

conda activate livetalk pip install torch==2.8.0torchvision==0.23.0torchaudio==2.8.0--index-url https://download.pytorch.org/whl/cu128 pip install-r requirements.txt

💡 提示:若你的服务器 CUDA 版本不同,请移步 PyTorch 官网 获取对应版本的安装命令。

2. 模型配置

在启动服务前,需确保模型权重文件已准备就绪。

  • 操作步骤:
    1. 访问 Hugging Face 或项目指定的模型库。
    2. 下载 MuseTalk 模型所需的核心权重文件(如 sd-vae-ft-mse 等)。
    3. 将下载的文件放置于项目根目录下的 models/ 文件夹中。

注:虽然项目支持自动下载,但鉴于网络环境,推荐手动下载并放置文件以确保完整性。

最终下载的模型文件如下

下载模型文件可以使如下bash代码

#!/bin/bash# Set the checkpoints directoryCheckpointsDir="models"# Create necessary directoriesmkdir-p models/musetalk models/musetalkV15 models/syncnet models/dwpose models/face-parse-bisent models/sd-vae models/whisper# Install required packagespip install-U"huggingface_hub[cli]"pip install gdown# Set HuggingFace mirror endpointexport HF_ENDPOINT=https://hf-mirror.com# Download MuseTalk V1.0 weightshuggingface-cli download TMElyralab/MuseTalk \--local-dir$CheckpointsDir \--include"musetalk/musetalk.json""musetalk/pytorch_model.bin"# Download MuseTalk V1.5 weights (unet.pth)huggingface-cli download TMElyralab/MuseTalk \--local-dir$CheckpointsDir \--include"musetalkV15/musetalk.json""musetalkV15/unet.pth"# Download SD VAE weightshuggingface-cli download stabilityai/sd-vae-ft-mse \--local-dir$CheckpointsDir/sd-vae \--include"config.json""diffusion_pytorch_model.bin"# Download Whisper weightshuggingface-cli download openai/whisper-tiny \--local-dir$CheckpointsDir/whisper \--include"config.json""pytorch_model.bin""preprocessor_config.json"# Download DWPose weightshuggingface-cli download yzd-v/DWPose \--local-dir$CheckpointsDir/dwpose \--include"dw-ll_ucoco_384.pth"# Download SyncNet weightshuggingface-cli download ByteDance/LatentSync \--local-dir$CheckpointsDir/syncnet \--include"latentsync_syncnet.pt"# Download Face Parse Bisent weightsgdown--id154JgKpzCPW82qINcVieuPH3fZ2e0P812-O $CheckpointsDir/face-parse-bisent/79999_iter.pth curl-L https://download.pytorch.org/models/resnet18-5c106cde.pth \-o $CheckpointsDir/face-parse-bisent/resnet18-5c106cde.pth echo"✅ All weights have been downloaded successfully!"

里面有些没必要下载,所以我去huggingface上下载对应的权重文件的。

3. 服务启动与访问

3.1 启动应用

配置完成后,运行以下命令启动服务:

python app.py--model musetalk--transport webrtc--avatar_id musetalk_avatar1

当出现以下页面时,访问网址http://serverip:8010/webrtcapi.html

3.2 获取服务地址

服务启动后,需获取服务器的局域网 IP 地址(serverip):

ip a

在输出结果中找到 eth0 网卡下的 inet 字段,即为你的服务器 IP。

3.3 Web 端交互

打开浏览器,访问以下地址:

  • 基础演示页面:
    http://:8010/webrtcapi.html
    • 点击 Start 按钮加载数字人。
    • 在文本框输入内容并提交,数字人将实时播报。
  • 进阶仪表盘(推荐):
    http://:8010/dashboard.html
    • 对话模式:集成大语言模型,支持智能问答交互。
    • 朗读模式:输入文本进行播报。
    • 语音交互:支持通过麦克风按钮进行实时语音对话。

打开web页面如下

点击start,会显示数字人,在input text中输入要朗读的文本,数字人就会进行播报

如果要体验更完整功能的Web页面,推荐访问链接:http://serverip:8010/dashboard.html

如上图所示,有对话模式和朗读模式,对话模式接了大模型,可以进行智能问答。下面的语音按钮还支持语音对话。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1164703.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

django-flask基于python的个人健康管理系统的设计和实现

目录设计背景与目标系统架构与功能技术实现与创新应用价值与展望关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!设计背景与目标 随着健康意识的提升,个人健康管理系统成…

Gemini3现在能做这种地图轨迹动画了,免费就能体验!

大家好,我是轩辕。 有段时间刷短视频经常刷到各种历史人物一生的足迹图:有一天我在想:这种动画能不能让AI给我做呢? 于是我打开各种AI工具,尝试了一番。 这是最新的ChatGPT 5.2做的:这是Gemini3 Pro做的&am…

*面向工业场景的高效目标检测系统:基于BiFPN与注意力机制的YOLOv8架构优化与实现

文章目录 **面向工业场景的高效目标检测系统:基于BiFPN与注意力机制的YOLOv8架构优化与实现** **第一章:核心技术架构——双向特征金字塔与注意力协同** **第二章:项目环境配置与数据预处理** **第三章:改进模块完整实现** **第四章:完整网络架构配置** **第五章:优化训练…

基于ollama、llamafile部署的大模型使用

一、ollama方式1.本地部署ollama部署方式:见本地部署ollama博客内容2.基于langchain使用from langchain_ollama.chat_models import ChatOllama llm ChatOllama(model"deepseek-r1:8b", # 与本地 ollama run 的模型名保持一致base_url"htt…

django-flask基于python的个人学习任务挑战系统 学习助手软件设计与实现

目录摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 基于Python的Django-Flask个人学习任务挑战系统旨在帮助用户高效管理学习任务,提升学习动力与效率。系统结…

面向工业场景的高效目标检测系统:基于BiFPN和注意力机制的YOLOv8架构优化及实现

文章目录 **面向工业场景的高效目标检测系统:基于BiFPN与注意力机制的YOLOv8架构优化与实现** **第一章:核心技术架构——双向特征金字塔与注意力协同** **第二章:项目环境配置与数据预处理** **第三章:改进模块完整实现** **第四章:完整网络架构配置** **第五章:优化训练…

django-flask基于python的公司销售订单管理系统的设计与实现

目录摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 随着信息技术的快速发展,企业销售订单管理系统的数字化和智能化成为提升运营效率的关键。基于Python的Dja…

明确每项关键决策中谁负责(Responsible)、谁批准(Accountable)、咨询谁(Consulted)、通知谁(Informed)

软件项目人员职责简化对照表:人员类别主要职责简述关键能力/角色定位项目管理人员(项目经理)制定项目计划、控制进度与成本、组建团队、协调资源、解决冲突、推动决策兼具技术理解力与管理能力,项目总协调人高级管理人员定义项目战…

踩坑三周,我终于把 Claude Code 和 Codex 塞进了浏览器— 一个让手机也能写代码的疯狂想法

「在地铁上用手机写代码」,这个念头最早是怎么蹦出来的,我已经记不清了。只记得那天加班到凌晨两点,拖着疲惫的身躯挤进末班地铁,手里还攥着一个没解决的 bug。要是这时候能掏出手机,让 AI 帮我把代码改了该多好&#…

一行隐藏文本可劫持AI系统——无需点击,无需恶意软件,仅凭文字

一行隐藏文本可劫持AI系统——无需点击,无需恶意软件,仅凭文字 英国NCSC警告该弱点可能永远无法完全修复——因为它与语言模型如何阅读文本紧密相连。 一位银行客户要求ChatGPT查询账户余额。这个人工智能返回了另外十七位客户的账户详情,并开…

django-flask基于python的关于流量业务的用户投诉管理系统

目录Django-Flask 流量业务用户投诉管理系统摘要关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!Django-Flask 流量业务用户投诉管理系统摘要 该系统基于 Python 的 Django 和 Flas…

django-flask基于python的管网隐患安全巡检系统

目录 Django-Flask 基于 Python 的管网隐患安全巡检系统摘要 关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! Django-Flask 基于 Python 的管网隐患安全巡检系统摘要 随着城市化进…

毕设实战:基于多尺度空洞注意力(MSDA)的YOLOv8改进与视觉识别优化

文章目录 毕设实战:基于多尺度空洞注意力(MSDA)的YOLOv8改进与视觉识别优化 一、技术背景与方案优势 二、环境搭建与依赖准备 2.1 虚拟环境配置 2.2 数据集准备 三、MSDA模块的代码实现 3.1 多尺度空洞注意力(MSDA)核心代码 3.2 嵌入MSDA到YOLOv8的Backbone 四、模型训练与…

BQB有几种认证方式?需要哪些资料?

BQB 认证:认证方式及所需资料(纯文本版)BQB 认证即蓝牙技术联盟(Bluetooth SIG)的蓝牙产品资格认证,是蓝牙产品合法使用蓝牙商标、接入蓝牙技术体系的全球必备认证,通过后产品将获得 QDID&#…

办理3C认证需要准备哪些资料?

办理 3C 认证(中国强制性产品认证)的资料分为通用基础资料(所有产品必备)、专项技术资料(按产品类型补充)、工厂质量体系文件(第三方认证模式必备)、特殊情况补充资料(如…

办理3C认证需要准备哪些资料?

办理 3C 认证(中国强制性产品认证)的资料分为通用基础资料(所有产品必备)、专项技术资料(按产品类型补充)、工厂质量体系文件(第三方认证模式必备)、特殊情况补充资料(如…

3c认证的相关内容介绍

3C 认证,全称中国强制性产品认证(China Compulsory Certification),是中国政府依据《中华人民共和国认证认可条例》《强制性产品认证管理规定》实施的法定强制性产品合格评定制度,自 2002 年正式实施,旨在保…

提示工程已死?上下文工程才是大模型开发的“黄金标准“,小白秒变AI大神!

几年前,包括一些顶尖的 AI 研究人员在内的许多人声称,提示工程(prompt engineering)很快就会消亡。 显然,他们大错特错。事实上,提示工程现在比以往任何时候都更加重要,其重要性甚至让它被重新…

短信为何在亚洲更 “吃香”?中美通信习惯差异的底层逻辑

为什么大多数亚洲国家手机短信的使用远比美国更加普遍?短信为何在亚洲更 “吃香”?中美通信习惯差异的底层逻辑大多数亚洲国家手机短信的使用远比美国更普遍,核心是通信成本、基础设施、社交文化、功能替代四大因素的差异,让短信在…

手把手教你用7款AI写论文工具,精准控率无压力操作指南

还在为开题报告无从下笔而焦虑?或是被导师的修改意见搞得晕头转向?又或者,面对查重和AI检测率感到束手无策?别担心,你不是一个人在战斗。随着AI技术的飞速发展,一系列强大的AI论文写作工具应运而生&#xf…