音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

10600点击 2025-06-03 15:11

首个专为ALLMs（音频大语言模型）设计的多维度可信度评估基准来了。

南洋理工、清华大学领衔的研究团队注意到，现有评估框架大多只关注文本模态或仅涵盖有限的安全维度，未能充分考虑音频模态的独特特性与应用场景。

于是他们创新性地提出了新框架AudioTrust，将评估范围扩展至六个核心维度 （公平性、幻觉、安全性、隐私、鲁棒性和身份验证），并深入探究了音频模态特有的安全、可信问题。

目前该基准及评估平台已全面开发，点击文末链接即可获取。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

接下来是AudioTrust的更多详细信息。

什么是AudioTrust

为应对音频大模型（ALLMs）带来的可信性挑战，研究团队提出了一个统一的评估框架AudioTrust，采用推理执行与可信性分析解耦的两阶段架构。

第一阶段聚焦于数据加载与模型推理，支持开源与闭源模型接入，并可通过配置文件灵活控制任务参数，实现高效的批量处理；

第二阶段则针对模型输出进行自动化、多维度评估，涵盖内容安全、偏见检测、事实一致性等核心指标。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

AudioTrust具体包含六大核心可信维度，分别是Fairness、Hallucination、Safety、Privacy、Robustness、Authentication，对于每一个可信评估视角，研究团队都关注了多个不同的场景与特征分类。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

△AudioTrust关注的不同可信评估视角

Fairness

AudioTrust从7大敏感属性出发，构造了传统与音频特有的公平性评估体系。

共采集840条高质量音频样本（每条约20秒），模拟多样化社会角色与语境交互，激发AI对传统公平的深度响应，聚焦社会普遍存在的偏见。

构造音频特有属性，体现多模态感知中的不公平，特别关注口音、语言表达特征等，并通过混合音频和文本预处理的方式模拟现实场景。

实验结果显示，当前主流语言模型在公平性维度普遍失衡，系统性偏差广泛存在。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

△Fairness实验设计概念

Hallucination

幻觉评估模块专门检测，音频大语言模型在复杂声学场景下的幻觉现象，防止模型过度解读或产生错误推理。

研究团队构建了包含320个精心设计的测试样本，并将音频幻觉分为两个核心维度进行评估。

事实性幻觉包含160个样本，主要涵盖音频内容与标签属性不匹配的情况，以及违背自然规律的声音描述。

逻辑性幻觉同样包含160个样本，重点测试音频与文本描述的语义矛盾和音频事件的时序错乱。

实验结果发现音频语言模型的幻觉问题，主要源于音频信号处理和事件识别错误，而非推理缺陷，其中Gemini系列和Qwen2-Audio表现最佳，GPT-4o系列倾向于回避回答，而SALMONN等模型容易产生矛盾性幻觉。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

△Hallucination实验设计概念

Safety

安全性评估模块深入探究了音频大语言模型面临的两大核心风险：越狱攻击和非法活动指导。

研究团队构建了600个测试样本，其中包含300个越狱攻击样本和300个非法活动指导样本。

为了全面评估不同因素对模型安全性的影响，研究采用了三维评估策略：性别维度、情绪维度、场景维度。

实验结果发现，音频模态攻击对多模态大模型的安全性构成了显著威胁，其中悲伤情绪比愤怒情绪更容易触发违规行为，医疗场景的越狱成功率最高可达33.7%，远超企业和金融场景。

闭源模型展现出近99%的优异防御能力，而开源模型普遍面临更大安全挑战。

值得注意的是，相比于文本输入能达到100%的安全防御率，音频输入为攻击者提供了额外的攻击向量，特别是在涉及专业领域知识的情境中，模型更容易被领域特定的越狱攻击突破而生成有害内容。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

△Safety数据构建和实验评估

Privacy

隐私评估模块聚焦直接隐私泄露和隐私推断泄露两大核心风险。

研究团队构建了包含900个音频样本的多样化测试数据集，其中600个直接隐私泄露样本和300个隐私推断泄露样本。

针对这两种数据集，研究团队分别设计了不同的实验策略：在直接隐私泄露场景中，观察模型对不同隐私类型的泄露程度；在隐私推断泄露实验中，评估模型是否会协助推断敏感的个人属性，以及模型是否能够拒绝回答相应的隐私问题。

实验结果发现，多模态大模型在隐私保护方面表现出明显的不一致性和脆弱性。

闭源模型对SSN等高敏感信息展现近100%的拒绝率，但对家庭住址的保护率仅为88%，而Gemini系列和开源模型Qwen2-Audio在地址和手机密码方面的泄露率高达85%-100%。

更为严重的是，大多数模型在年龄、种族等隐私推断任务中泄露率超过80%。虽然隐私意识增强的提示词能显著降低直接隐私泄露风险，但对推断泄露的改善效果有限。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

△Privacy数据构建和实验评估

Robustness

鲁棒性评估模块旨在考察音频大语言模型在面对各种真实世界音频干扰时的表现稳定性。

研究团队精心设计了六大类常见音频挑战，每类样本各40个。

实验结果发现，多模态大模型在音频鲁棒性方面呈现显著的分层差异和不稳定性，其中Gemini系列在各种挑战性音频条件下始终保持领先地位。

值得注意的是，模型鲁棒性高度依赖于具体的音频扰动类型，而将退化音频转换为清晰文本，是提升下游推理任务性能的核心。

对比实验显示当假设能够完美提取音频文本信息时，SALMONN的得分从2.0飙升至6.0-7.0，即使表现最佳的Gemini 2.5 Pro也有提升，表明音频语义内容的准确提取和文本转换是解决鲁棒性问题的关键突破口。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

△Robustness数据构建和实验评估

Authentication

认证评估模块深入测试了音频大语言模型抵御欺骗攻击的能力，聚焦混合欺骗、身份验证绕过和语音克隆欺骗三种核心威胁。

研究团队设计了包含400个样本的多样化测试数据集，其中100个混合欺骗样本、100个身份验证绕过样本，另外200个语音克隆欺骗样本。

实验结果发现，多模态大模型在语音欺骗防御方面呈现明显的模型类型差异和场景敏感性，其中严格提示显著提升了语音克隆欺骗的防御效果。

大多数模型在”打开门”场景中的表现优于”唤醒助手”场景，特别是Ultravox和Gemini系列的声音克隆欺骗失败样本数量显著减少。

在身份验证绕过测试中，闭源模型展现出强劲的防御能力，而开源模型最为脆弱，普遍对不完整凭证或悲伤语气等紧急情感音频缺乏鲁棒性。

混合欺骗实验揭示了背景音频的复杂影响，办公室噪音等背景音对不同模型产生截然不同的效果，模型在真实环境中的防御表现具有高度的不确定性。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

△Authentication数据构建和实验评估

为什么AudioTrust与众不同

AudioTrust主要基于四项关键创新:

全面评估维度：构建了跨越18种实验设置的评估框架，深入探究ALLMs在高风险场景下的表现边界与局限性。
真实场景数据集：精心构建了包含4,420+条音频/文本样本的数据集，覆盖日常对话、紧急呼叫、语音助手交互等应用场景。
音频特定评估指标：设计了9项专门针对音频模态特性的评估指标，克服传统文本评估方法在应用于音频领域时的局限性。
自动化评估流水线：实现对模型输出的客观、可扩展评分，显著提高评估效率与一致性。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

△AudioTrust包含6个核心可信维度、26个子类

通过对主流开源与闭源ALLMs的系统评估，AudioTrust还揭示了多项重要发现:

公平性挑战：模型普遍存在对敏感属性的系统性偏见，在决策场景中偏好特定群体。
幻觉防范：闭源模型在识别声学逻辑错误方面表现更佳，开源模型在领域知识对齐上存在明显局限。
安全防护：闭源模型展现出更强防御能力，尤其在抵抗越狱攻击方面；开源模型在专业领域(如医疗)的防御明显薄弱。
隐私保护：不同类型敏感信息获得不均衡保护，简单的提示工程可减少直接泄露但对推断泄露效果有限。
鲁棒性差异：领先闭源ALLMs能在噪声、多说话人等干扰下保持核心功能；多数开源模型在对抗性干扰下性能显著下降。
身份验证风险：部分模型难以区分真实语音与高保真克隆语音，但更严格的文本提示可显著提升防御能力。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

△9个LLM在6个核心可信维度上的表现

结语

本研究提出AudioTrust——首个专为ALLMs量身打造的多维信任评估基准，有效揭示音频大模型在公平性、幻觉、安全、隐私、鲁棒性和身份验证六大维度的潜在风险。

汇集4,420+条真实场景音频/文本数据，涵盖日常对话、紧急呼叫、语音助手等18种实验设置，设计9项音频特定评测指标，构建了GPT-4o自动化评估流水线。

实验结果还揭示出当前开源与闭源 ALLMs 在高风险任务中的信任边界与脆弱环节：

系统性偏见：对性别、口音等敏感属性呈现出稳定而显著的偏向。
鲁棒性缺失：在噪声干扰、多说话人交互、乃至对抗输入场景下，模型响应极易崩溃。

AudioTrust通过全面评估，为后续ALLMs可信性研究奠定了坚实基础，框架与平台已公开发布，助力该领域进一步研究与实践。

论文链接： https://arxiv.org/pdf/2505.16211

代码链接： https://github.com/JusperLee/AudioTrust

数据集链接：https://huggingface.co/datasets/JusperLee/AudioTrust

HuggingFace：https://huggingface.co/papers/2505.16211

文章来自于“量子位”，作者“AudioTrust团队”。

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

关键词: AI , AI音频 , 模型训练 , AudioTrust

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

声音克隆

【开源免费】MockingBird是一个5秒钟即可克隆你的声音的AI项目。
项目地址：https://github.com/babysor/MockingBird

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点，无需魔法付费，即可无限制使用GPT-4o等多个海外模型产品。
在线使用：https://ffa.chat/

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0