小米模型实现声音理解新SOTA!数据吞吐效率暴增20倍,推理速度快4倍 | 全量开源
小米模型实现声音理解新SOTA!数据吞吐效率暴增20倍,推理速度快4倍 | 全量开源声音理解能力新SOTA,小米全量开源了模型。 MiDashengLM-7B,基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B Thinker作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。
声音理解能力新SOTA,小米全量开源了模型。 MiDashengLM-7B,基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B Thinker作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。
沉寂了长达半年之后,“AI六小虎”中有4家,用接连发布的新模型,又杀回了模型竞技场。就在半年前,六小虎的命题,还是“失败”。
在数据隐私日益重要的 AI 时代,如何在保护用户数据的同时高效运行机器学习模型,成为了学术界和工业界共同关注的难题。
Science重磅揭露科研圈两大乱象:一是「论文工厂」已形成庞大产业链,部分编辑、作者、中介相互勾结;二是ChatGPT悄然渗入科研写作,22%计算机论文含AI痕迹。系统性造假与技术滥用,正重塑学术界根基。
在 2025 年第二季度财报中,Palantir 交出了一份几乎所有 SaaS 从业者都梦寐以求的成绩单:美国商业业务收入同比增长 93%、总收入突破 10 亿美元、调整后经营利润率 46%、自由现金流利润率 57%、Rule of 40 指数高达 94%。
老黄曾预言,每个像素都将由AI生成!刚刚,谷歌DeepMind放出的「通用世界模型」Genie 3,一句话即生720p实时模拟世界,1分钟视觉记忆一致性超高。刚刚,谷歌DeepMind祭出新一代通用世界模型——Genie 3,能模拟出史无前例的丰富交互环境。
还是Claude痛快,Claude Opus 4.1前脚曝光,今天这就正式发了。编程性能再次突破天花板,超越Claude Opus 4,拿下SOTA。此外在Agent任务和推理方面进一步升级。但加量不加价,定价和Claude Opus 4一样。
今天凌晨,OpenAI 甩出一对王炸,正式发布两款开源模型:gpt-oss-120b 和 gpt-oss-20b。是的,你没看错,那个曾经被戏称为 CloseAI 的男人,带着他的诚意,回来了!
MiniMax副总裁、战略投资负责人魏瀚曈已离职,据消息人士透露,魏瀚曈将入职一家投资机构。公开资料显示,魏瀚曈曾在平安、字节跳动、小红书等公司从事战略投资方面工作,2024年5月从小红书离职后,入职MiniMax,并出任战略投资负责人,对外用的是MiniMax副总裁的称谓。其个人实名认证的社交平台显示,在MiniMax最后离开的时间是今年7月。
GPT-5又咕咕,但是把Claude新模型诈了出来—— Claude Opus 4.1,被曝正在进行内部测试。