
语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%
语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%没想到,文小言接入推理模型的大更新背后,百度还藏了一手“质变”级技术大招???
来自主题: AI技术研报
7029 点击 2025-04-03 09:55
没想到,文小言接入推理模型的大更新背后,百度还藏了一手“质变”级技术大招???
实现智能、类似人类的端到端语音聊天。
两个多月前那个对标GPT-4o的端到端语音模型,终于开源了。大神Karpathy体验之后表示:nice!
本文出自启元世界多模态算法组,共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥,研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。