AI资讯新闻榜单内容搜索-语音识别

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语音识别
小米双模型正式开源!MiMo-V2.5-Pro无中断肝出“macOS”:54个应用全开、浏览器真能冲浪

小米双模型正式开源!MiMo-V2.5-Pro无中断肝出“macOS”:54个应用全开、浏览器真能冲浪

小米双模型正式开源!MiMo-V2.5-Pro无中断肝出“macOS”:54个应用全开、浏览器真能冲浪

没错,用的就是主打长程任务、模糊指令遵循,跻身国产Agent第一梯队的小米MiMo‑V2.5 Pro。小米最新发布的MiMo‑V2.5系列,包含Pro旗舰Agent、全模态基座、TTS语音合成、ASR语音识别四大模型,综合实力对标国际顶尖水准。

来自主题: AI产品测评
6663 点击    2026-04-29 10:04
2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%

2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%

2秒钟转写5分钟音频!国产新语音模型拿下多项SOTA,定价骤减90%

阶跃星辰今日发布新一代自动语音识别模型StepAudio 2.5 ASR。该模型面向语音转写与长音频处理场景,在架构上引入Multi-Token Prediction(多Token预测)以提升推理效率,并通过扩展上下文窗口强化长内容识别能力。

来自主题: AI资讯
9374 点击    2026-04-25 10:22
ListenHub ASR 语音识别 API 全新上线,无限免费!无限免费!

ListenHub ASR 语音识别 API 全新上线,无限免费!无限免费!

ListenHub ASR 语音识别 API 全新上线,无限免费!无限免费!

ListenHub ASR 语音识别 API 全新上线,无限免费。 API 特点: 本地离线转录,无需 API Key,安装即可使用。专为 Agent 设计,方便你的 Claude Code 和龙虾🦞直接接入自动化工作流。

来自主题: AI资讯
9334 点击    2026-03-13 19:12
大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

大模型真听懂了吗?最全综合性口语感知与推理基准 | ICLR'26

随着多模态大模型能力不断扩展,语音大模型(SpeechLLMs) 已从语音识别走向复杂语音交互。然而,当模型逐渐进入真实口语交互场景,一个更基础的问题浮现出来:我们是否真正定义清楚了「语音理解」的能力边界?

来自主题: AI技术研报
10562 点击    2026-02-24 15:35
击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了

击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了

击败GPT、Gemini,复旦×创智孵化创业团队「模思智能」,语音模型上新了

近日,由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别(ASR)模型 MOSS-Transcribe-Diarize,不但可以语音转文字,还可以将音频片段与对话中不同的说话者关联起来,性能超过了 GPT-4o、Gemini、豆包等一众模型。

来自主题: AI资讯
9400 点击    2026-01-21 12:05
翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言

翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言

翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言

在7000多种人类语言中,只有少数被现代语音技术听见,如今这种不平等或将被打破。Meta发布的Omnilingual ASR系统能识别1600多种语言,并可通过少量示例快速学会新语言。以开源与社区共创为核心,这项技术让每一种声音都有机会登上AI的舞台。

来自主题: AI资讯
9403 点击    2025-11-12 08:38
重磅发布!国家队出手解决企业跨省通信「老大难」,语音识别错误率暴降20%

重磅发布!国家队出手解决企业跨省通信「老大难」,语音识别错误率暴降20%

重磅发布!国家队出手解决企业跨省通信「老大难」,语音识别错误率暴降20%

还在忍受方言听不懂、跨省业务推进难?联通直接放出「云+AI」大招,把这些通信顽疾一锅端!本文为你揭秘,运营商如何用科技智慧破局,打开信息「黑匣子」,让效率飙升!

来自主题: AI资讯
8283 点击    2025-10-31 15:30
刚刚!阿里发新模型,幻觉率爆降70%

刚刚!阿里发新模型,幻觉率爆降70%

刚刚!阿里发新模型,幻觉率爆降70%

智东西9月15日报道,今天,阿里巴巴通义实验室推出了FunAudio-ASR端到端语音识别大模型。这款模型通过创新的Context模块,针对性优化了“幻觉”、“串语种”等关键问题,在高噪声的场景下,幻觉率从78.5%下降至10.7%,下降幅度接近70%。

来自主题: AI技术研报
9572 点击    2025-09-16 11:23
AI听懂的,究竟是动物的语言,还是人类的想象?

AI听懂的,究竟是动物的语言,还是人类的想象?

AI听懂的,究竟是动物的语言,还是人类的想象?

如果说眼睛是心灵之窗,那么语言或许就是通往心灵的门户。

来自主题: AI技术研报
8048 点击    2025-06-27 10:47
做语音识别现在还能融3000万美金?海外顶级VC押注AI-Native的语音交互,下一个操作系统级的机会!

做语音识别现在还能融3000万美金?海外顶级VC押注AI-Native的语音交互,下一个操作系统级的机会!

做语音识别现在还能融3000万美金?海外顶级VC押注AI-Native的语音交互,下一个操作系统级的机会!

你有没有想过,我们每天敲击键盘的这个动作,可能很快就会变成历史?150 年前发明的键盘,竟然仍然是我们与计算机交流的主要方式。

来自主题: AI资讯
8175 点击    2025-06-27 10:36