Gradio全解20——Streaming:流式传输的多媒体应用(3)——实时语音识别技术

Gradio全解20——Streaming:流式传输的多媒体应用(3)——实时语音识别技术

  • 本篇摘要
  • 20. Streaming:流式传输的多媒体应用
    • 20.3 实时语音识别技术
      • 20.3.1 环境准备和开发步骤
        • 1. 环境准备
        • 2. ASR应用开发步骤(基于Transformers)
      • 20.3.2 配置ASR模型
      • 20.3.3 构建全上下文ASR演示系统
      • 20.3.4 构建流式ASR演示系统
    • 参考文献:

本章目录如下:

  1. 《Gradio全解20——Streaming:流式传输的多媒体应用(1)——流式传输音频:魔力8号球》;
  2. 《Gradio全解20——Streaming:流式传输的多媒体应用(2)——构建对话式聊天机器人》;
  3. 《Gradio全解20——Streaming:流式传输的多媒体应用(3)——实时语音识别技术》;
  4. 《Gradio全解20——Streaming:流式传输的多媒体应用(4)——基于Groq的带自动语音检测功能的多模态Gradio应用》;
  5. 《Gradio全解20——Streaming:流式传输的多媒体应用(5)——基于WebRTC的摄像头实时目标检测》;
  6. 《Gradio全解20——Streaming:流式传输的多媒体应用(6)——构建视频流目标检测系统》。

本篇摘要

本章讲述流式传输的应用,包括音频、图像和视频格式的流式传输。

20. Streaming:流式传输的多媒体应用

本章讲述流式传输的应用,包括音频、图像和视频格式的流式传输。音频应用包括流式传输音频、构建音频对话式聊天机器人、实时语音识别技术和自动语音检测功能;图像应用包括基于WebRTC的摄像头实时目标检测;视频应用包括构建视频流目标检测系统。

20.3 实时语音识别技术

自动语音识别技术(Automatic speech recognition:ASR)作为机器学习中将语音信号转换为文本的重要领域,正处于快速发展阶段。当前ASR算法已普遍应用于智能手机设备,并逐步渗透到专业工作流程中,如医护人员的数字助理系统。由于ASR算法直接面向终端用户,所以必须确保其能够实时准确处理各种语音特征(包括不同口音、音高及背景噪声环境)。

通过Gradio平台,开发者可快速构建ASR算法模型的演示系统,便于测试团队验证或通过麦克风等设备进行自主实时测试。本教程将通过两部分演示如何将预训练语音转文本模型部署至Gradio交互界面:第一部分采用全上下文模式,即用户完成整段录音后才执行预测;第二部分将演示改造为流式处理模式,实现语音实时转换功能。

20.3.1 环境准备和开发步骤

开始之前,先准备环境,比如安装gradio、Transformers及ffmpeg等python包,再按照应用开发步骤进行实战。

1. 环境准备

请确保已安装gradio的Python包,同时本教程需要预训练语音识别模型支持,我们还需要以下两个ASR库构建演示系统:Transformers(安装命令:pip install torch transformers torchaudio),我们使用Transformers中Whisper模型实现语音识别;FFmpeg处理麦克风输入文件,因为Transformers会自动安装ffmpeg,所以建议至少安装其中一个库以便跟进教程。FFmpeg是领先的多媒体框架,能够解码、编码、转码、复用、解复用、流式传输、过滤及播放几乎所有人类与机器创建的媒体内容。该框架支持从最冷门的古老格式到最前沿的技术标准——无论这些格式是由标准委员会、开源社区还是商业公司设计,详细信息请参阅:FFmpeg。

2. ASR应用开发步骤(基于Transformers)

实时语音识别(ASR)应用开发步骤全部基于Transformers,具体步骤如下:

  1. 配置ASR模型环境;
  2. 构建全上下文ASR演示系统;
  3. 构建流式ASR演示系统。

20.3.2 配置ASR模型

首先,需要准备一个ASR模型——可以是自行训练的模型,或是下载预训练模型。本教程将使用Whisper的预训练ASR模型作为示例,以下是加载Hugging Face Transformers中Whisper模型的代码:

from transformers import pipelinepl = pipeline("automatic-speech-recognition", model="openai/whisper-base.en")

配置完成!

20.3.3 构建全上下文ASR演示系统

然后,创建全上下文ASR演示,即用户需完整录制音频后,系统才会调用ASR模型进行推理。利用Gradio实现这一功能非常简单——只需基于上述pipeline对象创建处理函数即可。

具体实现将采用Gradio内置的Audio组件:输入组件将接收用户麦克风输入并返回录音文件路径,输出组件将使用标准Textbox组件显示识别结果。代码如下:

import gradio as gr
from transformers import pipeline
import numpy as nptranscriber = pipeline("automatic-speech-recognition", model="openai/whisper-base.en")def transcribe(audio):sr, y = audio# Convert to mono if stereoif y.ndim > 1:y = y.mean(axis=1)y = y.astype(np.float32)y /= np.max(np.abs(y))return transcriber({"sampling_rate": sr, "raw": y})["text"]  demo = gr.Interface(transcribe,gr.Audio(sources="microphone"),"text",
)
demo.launch()

transcribe函数接受单一参数audio,这是一个用户录制的音频numpy数组。管道对象期望音频为float32格式,因此我们首先将其转换为float32,然后使用transcriber提取转录文本。

此程序在Hugging Face的地址为:gradio/asr,演示截图如下:
在这里插入图片描述

20.3.4 构建流式ASR演示系统

要实现流式处理,需进行以下配置调整:

  1. 在Audio组件中设置streaming=True以支持流式传输;
  2. 在Interface中启用live=True参数以支持实时传输;
  3. 添加状态存储机制state以保存用户音频流。

具体实现代码如下:

import gradio as gr
from transformers import pipeline
import numpy as nptranscriber = pipeline("automatic-speech-recognition", model="openai/whisper-base.en")
def transcribe(stream, new_chunk):sr, y = new_chunk# Convert to mono if stereoif y.ndim > 1:y = y.mean(axis=1)y = y.astype(np.float32)y /= np.max(np.abs(y))if stream is not None:stream = np.concatenate([stream, y])else:stream = yreturn stream, transcriber({"sampling_rate": sr, "raw": stream})["text"]  demo = gr.Interface(transcribe,["state", gr.Audio(sources=["microphone"], streaming=True)],["state", "text"],live=True,
)
demo.launch()

请注意,我们现在有一个状态变量,因为我们需要跟踪所有音频历史。随着接口运行,每次有新的小段音频时,transcribe函数将会被调用,在状态中跟踪迄今为止所有的音频记录并将新音频片段作为new_chunk;new_chunk经过处理后,将返回新的完整音频并存储回当前状态,同时也返回转录文本。整个过程中,我们只需要简单地将音频拼接在一起,并对整个音频调用转录器对象;也可以优化为其它更有效率的处理方式,比如每次接收到新音频片段时,仅重新处理最后5秒的音频。

现在,ASR模型将在用户说话时进行推理!注意在进度条开始后录音,运行截图如下:
在这里插入图片描述

参考文献:

  1. Streaming AI Generated Audio
  2. Run Inference on servers
  3. Spaces ZeroGPU: Dynamic GPU Allocation for Spaces

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/78197.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用xlwings将两张顺序错乱的表格进行数据核对

有如下一个excel表,姓名列的内容相同,顺序不同;月薪有部分内容不同。 目的:要找出哪几条月薪不同。 通常的做法,要使用excel的高级筛选。 在此,使用xlwings实现,在不同的内容上涂色。 代码如…

2025大模型安全研究十大框架合集(10份)

2025大模型安全研究十大框架合集的详细介绍: Anthropic AI信任研究框架 Anthropic于2024年10月更新的《安全责任扩展政策》(RSP),提出了一个灵活的动态AI风险治理框架。该框架规定当AI模型达到特定能力时,将自动升级安全措施,如…

Qt/C++开发监控GB28181系统/云台控制/获取预置位信息/添加删除调用预置位

一、前言 之前用onvif已经完美实现了设备的云台控制和预置位的功能,这个基础功能在监控系统中是使用频率很高的,所有gb28181肯定也提供了这样的功能,很多人以为是通过包含xml数据,对应节点指定对应的动作来实现,其实不…

第T8周:猫狗识别

● 语言环境:Python3.8.8 ● 编译器:Jupyter Lab ● 深度学习环境:TensorFlow2.4.1 猫狗识别 一、前期工作1. 设置GPU 二、数据预处理1. 加载数据2.再次检查数据3.配置数据集 三、构建VG-16网络四、编译五、训练模型六、模型评估七、预测八、…

主流微前端框架比较

主流微前端框架比较 以下表格列出了当前主流微前端框架的核心对比信息,包括基本介绍、核心特性、适用场景、技术栈兼容性、优缺点、社区维护情况和典型应用案例等: 框架基本介绍核心特性与机制适用场景技术栈兼容性优缺点社区维护情况典型应用案例qiankun蚂蚁金服推出的生产…

大学生入学审核系统设计与实现【基于SpringBoot + Vue 前后端分离技术】

一、项目概述 1.1 项目背景 随着高校的不断扩招,传统的入学审核管理模式已不能满足大规模学生数据的处理需求。人工管理不仅效率低下,还容易出现疏漏。本系统通过信息化手段,提升入学审核过程中的数据管理和审批效率。 1.2 系统目标 系统…

云计算-容器云-服务网格Bookinfo

服务网格:创建 Ingress Gateway 将 Bookinfo 应用部署到 default 命名空间下,请为 Bookinfo 应用创建一个网 关,使外部可以访问 Bookinfo 应用。 上传ServiceMesh.tar.gz包 [rootk8s-master-node1 ~]# tar -zxvf ServiceMesh.tar.gz [rootk…

Spring 分批处理 + 冷热数据分离:历史订单高效迁移与数据清理实战

在实际业务中,随着时间推移,订单量持续增长,若未及时进行数据治理,会造成数据库膨胀、查询缓慢、性能下降等问题。为了实现数据分层管理和系统高性能运行,我们在项目中采用了“冷热数据分离 分批迁移 数据清理”的综…

新手SEO优化核心步骤

内容概要 对于SEO新手而言,建立系统化的优化框架是突破入门瓶颈的关键。SEO的核心在于通过技术手段与内容策略的结合,提升网站在搜索引擎中的可见性与用户价值。具体而言,新手需优先掌握关键词研究,明确目标用户的搜索意图&#…

C++ 之 【list的简介、list 的构造函数、iterator、容量操作、元素访问、增删查改与迭代器失效】

目录 1.list的介绍 2.list的使用 2.1 构造函数 2.2 iterator 的使用 2.3 容量操作 2.4 元素访问 2.5 增删查改 2.5.1头插头删与尾插尾删 2.5.2 insert 、erase 函数 2.5.3 clear、swap函数 2.5.4 关于find函数 3.迭代器失效 1.list的介绍 (1)list的底层通常实现为带…

Laravel Octane 项目加速与静态资源优化指南

Laravel Octane 项目加速与静态资源优化指南 一、Octane 核心加速配置 扩展安装与环境配置 composer require laravel/octane # 安装核心扩展‌php artisan octane:install # 生成配置文件(选择 Swoole/RoadRunner 等服务器)‌服务器参数调优‌ …

高露洁牙膏是哪个国家的品牌?高露洁牙膏哪一款最好?

高露洁是来自于美国一个比较有知名度的品牌,在1806年的时候创立。总部是在美国纽约公园大道,在1873年时,高露洁就已经开始销售罐装牙膏。 在1896年时期推出可折叠管牙膏,在口腔护理产品发展的过程中拥有着不容忽视的地位。在1992…

【Python爬虫详解】第八篇:突破反爬体系的工程实践

当矛与盾的较量进入白热化,突破反爬需要的不只是技巧,更是一套完整的工程化解决方案——本文将揭示对抗现代反爬体系的九大核心战术。 一、JavaScript混淆的深度破解 1. AST(抽象语法树)解混淆 案例:某电商平台商品价…

【Linux调整FTP端口】

Linux调整FTP端口 一、确保新端口未被占用在修改端口之前,可以使用以下命令检查端口是否被占用: 二、修改vsftpd配置文件1. 打开vsftpd配置文件2. 找到并修改端口配置3. 保存并退出4. 重启vsftpd服务 三、配置防火墙 在Linux系统中修改FTP端口&#xff0…

npm打包内存不足- JavaScript heap out of memory

直接贴出报错信息 <--- Last few GCs --->[30904:0000010F60FE58E0] 22090 ms: Scavenge 2037.4 (2069.4) -> 2036.4 (2074.2) MB, 2.5 / 0.0 ms (average mu 0.228, current mu 0.216) allocation failure [30904:0000010F60FE58E0] 22101 ms: Scavenge 2…

AI大语言模型破译“未知未知”的密钥:开源情报、被动收入与智能体协作的深层机理与实践

在人类认识世界的漫长征程中&#xff0c;信息与知识的获取和运用一直是核心驱动力。我们从“一无所知”的状态&#xff0c;逐渐积累“已知已知”&#xff0c;并在此基础上识别“已知未知”&#xff0c;设定目标去探索解答。然而&#xff0c;真正能够带来范式转变、颠覆现有格局…

kubelet 清理资源以缓解磁盘压力

kubelet 资源清理缓解磁盘压力指南 在 Kubernetes 集群中&#xff0c;当节点磁盘压力过大时&#xff0c;可通过以下几种方式利用 kubelet 清理资源&#xff0c;从而缓解磁盘压力。 一、镜像垃圾回收 自动回收 kubelet 内置了镜像垃圾回收机制&#xff0c;其行为由配置参数控…

SPOJ 11576 TRIP2 - A Famous King’s Trip 【Tarjan+欧拉回路】

自我吐槽 &#xff08;哭 题目传送门 SPOJ 洛谷 题目大意 让你在简单无向图上删去2条边&#xff0c;使该图联通并存在欧拉回路 输出字典序最小的一对边 思路 考虑到存在欧拉回路的充要条件&#xff0c;即 i n x ≡ 0 ( m o d 2 ) ∀ i ( 1 ≤ i ≤ n ) in_x\equiv 0 (\m…

藏文情感分析器入门学习实践

&#x1f3af; 项目目标&#xff1a; 输入一段藏文短句。自动分析这句话的情感倾向&#xff1a;积极&#xff08;正面&#xff09;/消极&#xff08;负面&#xff09;/中立。 &#x1f50d; 技术原理简介 情感分析是什么&#xff1f; 情感分析&#xff08;Sentiment Analysi…

双指针(5)——有效三角形个数

题目&#xff1a; 这道题我们首先可能会想到暴力解法&#xff0c;三个for循环然后进行check&#xff08;&#xff09;。时间复杂度肯定是不允许的。 同时&#xff0c;验证可以组成三角形的条件是任意两边之和大于第三边&#xff0c;这就意味着我们每组要进行三次比较。但也有捷…