融资1050万美金,世界上首个交互式语音AI视频模型Lemon Slice-2发布
融资1050万美金,世界上首个交互式语音AI视频模型Lemon Slice-2发布他们开发了一个叫做 Lemon Slice-2 的 AI 模型,可以把任何一张静态图片——无论是公司员工照、卡通角色、还是文艺复兴时期的油画——瞬间变成一个能实时对话的视频头像。
他们开发了一个叫做 Lemon Slice-2 的 AI 模型,可以把任何一张静态图片——无论是公司员工照、卡通角色、还是文艺复兴时期的油画——瞬间变成一个能实时对话的视频头像。
欧洲音频公司 Mirelo AI 刚刚拿下 4100 万美元种子轮,由 a16z 与 Index Ventures 领投。他们不是再做一个剪辑工具,而是训练自己的音频模型,主打用户给视频,Mirelo 补上所有声音。自动生成音效与配乐,并把它们精确同步到画面上。
「假如一条失控的电车冲向一个无辜的人,而你手边有一个拉杆,拉动它电车就会转向并撞向你自己,你拉还是不拉?」 这道困扰了人类伦理学界几十年的「电车难题」,在一个研究中,大模型们给出了属于 AI 的「答案」:一项针对 19 种主流大模型的测试显示,AI 对这道题的理解已经完全超出了人类的剧本。
上周我还在折腾各种图片、视频生成模型,这周又到了编程周。前天MiniMax丢出了个在编程界绝对有分量的模型:MiniMax-M2.1。然后发现就在刚才已经开源了:
由香港大学丁凯欣领导,联合华南理工大学周洋以及快手科技Kling团队共同完成的这项研究,开发出了一个名为“炼金师”(Alchemist)的AI系统。它就像一位挑剔的大厨,能从海量图片数据中精准挑选出最有价值的一半。
圣诞假期,马斯克给全球画师送了份「厚礼」。起因是社交平台 X 上线了一个基于 Grok 模型的「AI 编辑」功能。用户只需长按手机图片或点击网页版的「编辑图片」按钮,就能输入文字指令,让 AI 随意修改别人发布的作品。
。过去的行业共识是:端侧只能跑小模型,性能与体验必须妥协;真正的能力仍得依赖云端最强模型。万格智元要打破的,正是这条旧认知。公司正在打造的cPilot端侧算力引擎,选择了一条更难、却更接近未来的路径:通过自研的非GPU推理引擎,让300亿、500亿等超大模型在性能有限制的消费硬件上高效推理
英伟达在开源模型上玩的很激进: “最高效的开放模型家族”Nemotron 3,混合Mamba-Transformer MoE架构、NVFP4低精度训练全用上。而且开放得很彻底:
能自动查数据、写分析、画专业金融图表的AI金融分析师来了!最近,中国人民大学高瓴人工智能学院提出了一个面向真实金融投研场景的多模态研报生成系统——玉兰·融观(Yulan-FinSight)。
最近,清华大学教授、智谱AI首席科学家唐杰发了一条长微博,总结了自己2025年对大模型进展的感悟。从预训练到中后训练、长尾场景的对齐能力,再到Agent、多模态和具身智能的发展,其中有不少亮点。