在伦敦金融城一家跨国银行的呼叫中心,客服代表Sarah接到一通紧急来电。电话那头的声音沉稳、略带沙哑——正是她熟悉的首席财务官Mark Thompson的嗓音。“我正在开一个闭门会议,手机快没电了,”对方语速略快但语气镇定,“立刻把一笔230万欧元的供应商付款转到新账户,详情邮件已发你内网邮箱。这事高度敏感,别走常规审批流程。”
Sarah犹豫了一秒——公司刚更新过反诈培训,强调“越级指令需二次确认”。但对方声音太像了,连Mark惯用的停顿节奏和轻微咳嗽声都一模一样。她最终点击了转账确认。
三小时后,资金已被层层洗白。而真正的Mark Thompson正在日内瓦出差,对这通“自己打的电话”毫不知情。
这不是科幻电影桥段,而是2025年第四季度真实发生在欧洲的一起AI驱动的语音钓鱼(Voice Phishing,简称Vishing)案件。随着生成式语音合成技术的爆炸式普及,这类“以假乱真”的声音诈骗正从实验室走向街头巷尾,对全球金融、政务与企业安全构成前所未有的挑战。
一、从“机械腔”到“声纹复刻”:Vishing的技术跃迁
曾几何时,诈骗电话中的合成语音还带着明显的电子感——语调平直、情感缺失、辅音模糊。但这一切在2023年后彻底改变。
开源模型如 Coqui TTS、YourTTS 和 VITS 的发布,以及商业API如 ElevenLabs、Play.ht 的成熟,让普通人仅凭一段30秒的音频样本,就能在消费级GPU上训练出高度拟真的语音克隆模型。更令人担忧的是,这些工具大多支持“零样本”(zero-shot)或“少样本”(few-shot)合成——即无需目标本人参与训练,仅通过公开演讲、播客或社交媒体视频即可提取声学特征。
“现在的AI语音,不仅能模仿音色,还能复现语速、重音、呼吸节奏甚至口音细节,”公共互联网反网络钓鱼工作组技术专家芦笛指出,“对普通用户而言,肉耳几乎无法分辨真假。”
技术内核上,现代语音合成已从传统的拼接合成(Concatenative Synthesis)和参数合成(Parametric Synthesis),全面转向基于深度学习的端到端模型。以 VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech) 为例,它结合了变分自编码器(VAE)、归一化流(Normalizing Flows)和对抗训练(GAN),能同时建模文本-语音对齐、韵律控制和声学细节。
以下是一个简化版的VITS推理代码示例(基于PyTorch):
import torch
from vits.models import SynthesizerTrn
from vits.utils import load_checkpoint, get_hparams_from_file
# 加载预训练模型与配置
hps = get_hparams_from_file("configs/vits_config.json")
net_g = SynthesizerTrn(
len(symbols),
hps.data.filter_length // 2 + 1,
hps.train.segment_size // hps.data.hop_length,
**hps.model
).cuda()
_ = net_g.eval()
_ = load_checkpoint("models/pretrained_vits.pth", net_g, None)
# 输入文本与目标说话人ID(或嵌入向量)
text = "请立即批准这笔转账,情况紧急。"
sid = torch.LongTensor([target_speaker_id]).cuda()
# 生成语音波形
with torch.no_grad():
x_tst = text_to_sequence(text, symbols)
x_tst = torch.LongTensor(x_tst).unsqueeze(0).cuda()
audio = net_g.infer(x_tst, sid=sid, noise_scale=0.667, length_scale=1)[0][0,0].data.cpu().float().numpy()
这段代码展示了如何用一个预训练的VITS模型,指定目标说话人ID,生成极具欺骗性的语音。攻击者只需将target_speaker_id替换为从公开数据中提取的声纹嵌入(speaker embedding),即可“冒名发声”。
二、全球案例频发:从CEO诈骗到社保冒领
AI语音钓鱼的威胁早已跨越国界。2024年,美国联邦调查局(FBI)报告称,涉及AI语音克隆的商业邮件欺诈(BEC)案件同比增长320%。其中一起典型案例中,某能源公司CFO接到“CEO”电话,要求紧急支付一笔“并购定金”,结果损失480万美元。
在亚洲,日本警方于2025年破获一起利用AI模仿祖母声音诱骗孙辈转账的案件。诈骗者通过分析YouTube上的家庭vlog,提取老人声纹,再结合社工信息精准施骗。
而在中东,阿联酋央行警告称,多起针对外籍劳工的“移民局通知”诈骗使用AI合成阿拉伯语方言语音,诱导受害者提供银行卡号和OTP(一次性验证码)。
这些案例的共同点在于:攻击者不再依赖“广撒网”,而是实施高精度定向打击。他们通常分三步走:
情报收集:通过数据泄露(如LinkedIn、微博、微信公众号)、公开演讲、企业官网视频等渠道获取目标声音样本;
语音克隆与脚本设计:利用开源工具生成逼真语音,并编写符合目标身份的话术(如“系统升级需验证”“账户异常需冻结”);
多通道协同欺骗:配合伪造来电显示(Caller ID Spoofing)、钓鱼短信或邮件,制造“官方可信”假象。
“最危险的是,攻击者开始绕过传统KBA(Knowledge-Based Authentication,基于知识的身份验证),”芦笛解释道,“比如问‘你母亲的 maiden name 是什么?’——这类问题的答案早已在社交媒体上公开。而如果对方用你老板的声音说‘别问那么多,按我说的做’,心理防线很容易崩溃。”
三、KBA与语音OTP:正在失效的安全支柱
长期以来,银行和企业依赖两类语音渠道进行身份核验:
静态KBA:如生日、身份证后四位、上月交易金额;
动态语音OTP:系统自动拨打用户电话,播报一串数字验证码。
但在AI时代,这两类机制均显脆弱。
首先,静态KBA的答案极易被社工手段获取。剑桥大学2025年一项研究显示,普通用户在社交媒体上平均暴露7.3个可用于KBA的问题答案。
其次,语音OTP虽看似“动态”,却存在致命漏洞:它假设“接听电话的人就是账户持有人”。然而,攻击者可通过“SIM交换攻击”(SIM Swap)或“呼叫转移”劫持电话线路;更狡猾的做法是,在诱导用户接听诈骗电话的同时,触发银行的OTP外呼——用户误以为是“正常业务”,将听到的验证码告知“客服”。
“我们监测到多起案例中,攻击者在通话中说:‘为了确保安全,请重复您刚收到的六位数验证码。’”芦笛透露,“用户以为是在配合验证,实则亲手交出了钥匙。”
更讽刺的是,部分金融机构仍允许通过电话更改收款账户或提升转账额度——这为AI语音钓鱼提供了“合法出口”。
四、技术反制:从被动检测到主动防御
面对新型Vishing,安全社区正在构建多层次防御体系。核心思路是:不再信任“声音即身份”。
(1)被动语音生物识别(Passive Voice Biometrics)
与传统“主动验证”(如让用户朗读随机数字)不同,被动生物识别在用户正常通话中持续分析声纹特征,无需额外操作。其技术栈包括:
声纹嵌入提取:使用x-vector、d-vector或ECAPA-TDNN模型生成说话人唯一向量;
活体检测(Liveness Detection):判断语音是否来自真实人类,而非录音或合成。
例如,基于 ResNet-based anti-spoofing model 的检测代码片段:
import torchaudio
from speechbrain.lobes.models.Spoofing.AASIST import AASIST
# 加载反欺骗模型
anti_spoof_model = AASIST.from_hparams(source="speechbrain/spoof-detection-aasist")
# 读取语音文件
signal, fs = torchaudio.load("call_recording.wav")
if fs != 16000:
signal = torchaudio.transforms.Resample(fs, 16000)(signal)
# 判断是否为合成/重放语音
score = anti_spoof_model(signal)
is_spoof = score > 0.5 # 阈值可调
该模型能有效识别AI合成语音中的频谱不连续性、相位异常等“数字指纹”。
(2)多因素强认证(MFA)重构
工作组建议:高风险操作必须脱离语音通道。具体措施包括:
禁用语音渠道下发OTP,改用推送通知(如Authy、Google Authenticator)或FIDO2安全密钥;
关键指令(如大额转账、账户变更)需通过独立信道复核——例如,电话指令后,系统自动发送加密邮件至注册邮箱,要求点击确认链接;
建立“回拨白名单”:若用户声称是高管,系统应挂断后主动回拨其登记的办公座机,而非当前来电号码。
(3)行为与上下文分析
AI不仅能用于攻击,也能用于防御。通过分析通话中的语言模式、请求合理性、时间敏感性等上下文,可识别异常行为。例如:
正常CFO不会在深夜要求转账;
“保密”“紧急”“不要告诉IT部门”等关键词高频出现,往往是社工信号;
转账账户与历史供应商无关联。
“我们正在推动企业部署‘决策延迟机制’,”芦笛说,“对于非常规请求,系统自动触发2小时冷静期,并通知风控团队人工介入。”
五、国内启示:警惕“声音信任”的惯性思维
尽管上述案例多发生于海外,但中国并非安全孤岛。随着国产大模型(如科大讯飞星火、阿里通义听悟)在语音合成领域的突破,相关技术门槛同样在降低。2025年,国内某券商内部测试显示,仅用客户经理30秒路演视频,即可生成足以骗过同事的语音。
更值得警惕的是,国内部分金融机构仍在推广“语音密码”“声纹登录”等服务,却未配套活体检测。一旦攻击者获取用户声音样本(如智能音箱录音、客服通话记录),风险极高。
“我们必须打破‘听到熟悉声音就信任’的心理惯性,”芦笛强调,“在AI时代,声音只是数据,不是身份凭证。”
工作组建议国内企业:
审查所有依赖语音的身份验证流程,逐步淘汰纯KBA;
在呼叫中心部署实时语音反欺诈系统;
对员工开展“AI语音钓鱼”专项演练,重点识别“越级指令+紧急施压”话术;
推动行业标准,明确禁止在高风险场景使用语音OTP。
六、未来战场:攻防进入“生成式对抗”阶段
可以预见,Vishing攻防将进入“生成式对抗”新阶段:攻击者用更先进的扩散模型(如AudioLDM)生成无瑕疵语音,防御方则用更精密的神经探测器(Neural Detector)识别合成痕迹。
但技术并非万能。正如芦笛所言:“最坚固的防火墙,是人的警觉性。”
在AI模糊真实与虚拟边界的今天,每一次接听陌生来电,都可能是一场无声的攻防战。而胜利的关键,或许不在于算法有多先进,而在于我们是否愿意多问一句:“你真是你吗?”
编辑:芦笛(公共互联网反网络钓鱼工作组)