
清华&哈佛4D语言场建模新方法,动态场景精准识别|CVPR2025
清华&哈佛4D语言场建模新方法,动态场景精准识别|CVPR2025来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法——4D LangSplat。该方法基于动态三维高斯泼溅技术,成功重建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。这一突破为相关领域的研究与应用提供了新的可能性, 该工作目前已经被CVPR2025接收。
来自清华大学、哈佛大学等机构的研究团队提出了一种创新方法——4D LangSplat。该方法基于动态三维高斯泼溅技术,成功重建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。这一突破为相关领域的研究与应用提供了新的可能性, 该工作目前已经被CVPR2025接收。
Nvidia刚刚发布了「世界生成」模型Cosmos-Transfer1,可以根据多种模态的空间控制输入(如分割、深度和边缘)生成世界模拟,使得世界生成具有高度可控性。开发者使用模型能够创建高度逼真的模拟环境,用于训练机器人和自动驾驶车辆。
澳大利亚国立大学团队提出了ARINAR模型,与何凯明团队此前提出的分形生成模型类似,采用双层自回归结构逐特征生成图像,显著提升了生成质量和速度,性能超越了FractalMAR模型,论文和代码已公开。
3月20日,国家儿童医学中心、首都医科大学附属北京儿童医院(以下简称“北京儿童医院”)联合北京百川智能科技有限公司(以下简称“百川智能”)、小儿方健康科技(北京)有限公司(以下简称“小儿方”)正式发布国内首个儿科大模型——“福棠·百川”儿科大模型,同时发布两款人工智能应用即AI儿科医生基层版和专家版。
据“新浪科技”近日报道,和月之暗面齐名、估值高达200亿元的“大模型六小虎之一”百川智能,其联合创始人焦可已离职,另一位联合创始人陈炜鹏也正在办理离职手续,两人未来或将在AI领域创业,目前正在寻求融资。
到目前为止,百川智能是所有大模型企业中,唯一对外高调表达要all in 医疗的。这种明确的表态,让百川智能备受关注的同时,也背负了很多的质疑。百川智能和王小川近日再次成为媒体关注的焦点,主要关注点是百川智能的组织调整,以及大部分人对于百川为什么收缩金融业务而all in医疗表示出极大的不解。
近日,Roblox 发布了一个用于 3D 智能的基础模型 Cude。据介绍,Roblox 的目标是构建一个可以生成 Roblox 游戏各方面体验的 3D 智能基础模型,从生成 3D 物体和场景到人物角色,再到描述事物行为的编程脚本。
硅星人独家获悉,2025年3月20日,物理人工智能领域创业公司松应科技完成天使轮融资,本轮领投机构为中科创星,上海天使会、接力天使、奇绩创坛跟投。关于本轮融资目的,硅星人了解到,松应科技作为快速兴起的物理AI领域初创公司,本次融资资金主要用于产品研发,扩充团队和开发者生态构建。
奥特曼表示,DeepSeek是一支优秀的团队,“给我上了一课”,并让奥特曼重新思考到底应该为免费用户提供什么功能。同时,奥特曼还剧透,未来的GPT-5将会向免费用户开放。
AI Agents(智能体)也有自己的“摩尔定律”了?!就在最近,Nature报道了一项来自非营利研究机构METR的最新发现:AI在完成长期任务方面的进步速度惊人,其时间跨度大约每七个月翻一番。
有25万块GPU的CoreWeave,已提交上市文件,计划IPO。虽然有英伟达等支持,但CoreWeave估值350亿美元,并不被媒体看好。而科技媒体初创Edward Zitron,更是直言CoreWeave财务糟糕,就是定时炸弹,而GenAI炒作泡沫即将破裂!
当你要求AI"帮我订一张去纽约的机票"时,它需要理解目标、分解步骤、适应变化,这个过程远比看起来复杂。UC伯克利的研究者们带来了振奋人心的新发现:通过将任务规划和执行分离的PLAN-AND-ACT框架,他们成功将智能体在长期任务中的规划能力提升了54%,创造了新的技术突破。
欧洲初创公司 Pruna AI 一直在研究 AI 模型的压缩算法,该公司的优化框架将于周四开源。Pruna AI 在几个月前完成了 650 万美元的种子轮融资。参与此次初创公司投资的包括 EQT Ventures、Daphni、Motier Ventures 以及 Kima Ventures。
现在,你可以指导 GPT-4o 的说话方式了。
Manus 团队公司的另外一款产品,面向国内用户的 Monica中文版,如今全面开放,无需邀请码。并且同步上线了 app 和网页插件版本,插件可以在浏览英文页面时提供全文翻译,体验很丝滑。
估计AI行业又要躁动一会了。最近,据官方消息披露,前DeepSeek核心成员出去创业了。更准确地说,是原幻方量化(DeepSeek母公司)的核心成员——项国明,出去创立了一家新公司,名叫迪洛斯智能,主攻企业AI应用平台。
AI智能体迎来新玩家!Grok 3推出的DeeperSearch功能,提升DeepSearch搜索能力,更加深入分析复杂主题。免费放开Deep Research功能后,Gemini 2.0公布研究智能体6大使用技巧。2025年度Agent大战开打!
DeepSeek、通义千问等大模型 + AR眼镜,打开GTC老黄演讲的姿势,可以是这样:
近日,前字节跳动 AI 技术专家解浚源在朋友圈官宣加入具身智能创业公司千寻智能,并发布了千寻智能最新披露的 Spirit v1 VLA 演示视频。据悉,解浚源目前任职千寻智能具身智能部负责人,全面负责具身大模型的研发工作。
RAG工作发展时间线(2020年至今)。展示了RAG相关研究的三个主要领域:基础(包括RAG学习和RAG框架)、进阶和评估。关键的语言模型(GPT-3、GPT-4等)发展节点标注在时间线上。
今天,百图生科宣布开源其领先的xTrimo V2中的蛋白质语言模型xTrimoPGLM,7个不同参数量的模型均已发布在huggingface和github,供全球用户自由获取和使用。xTrimoPGLM是全球首个千亿参数的蛋白质语言模型,性能超越了ESM-2、ProGen2等此前业界领先的蛋白质模型,并在药物分子设计和优化、抗体工程与疫苗开发、酶工程和生物催化剂设计等领域展现出广泛应用前景。
在GTC2025大会上,NVIDIA依旧延续着“算力的故事”。如果AI的发展依旧遵循着scaling law(规模定律),那么这个故事还能继续讲下去。
随着硅基流动的 SiliconCloud 等平台上线 DeepSeek-R1,市面上出现了不少测试各大厂商 API 服务的评测文章及反馈,不过,从我们收到的不少内容及反馈来看,其中的对比测试方式多有漏洞,内容质量参差不齐。
Anthropic终于为Claude解锁了网络搜索功能,这一姗姗来迟的升级让它从「数据截止」的限制中解放出来,网友泪目欢呼雀跃!现在,Claude不仅能实时获取网络资讯,还能在回答中附上来源,实用性大幅提升。
全面评估大模型生成式写作能力的基准来了!
不是四折叠,余承东刚刚揭秘了华为“想不到的新产品”—— 16:10“阔形屏”折叠手机Pura X!
这是SemiAnalysis最新的一篇GTC大会的分析文章,难得Dylan这么勤快,在GTC放发布后,就立马出了这篇长达31页的分析报告。
单视角三维场景重建一直是计算机视觉领域中的核心挑战之一,尤其在捕捉高保真室外场景细节时,如何确保结构一致性和几何精度显得尤为困难。
测一测现有AI生成视频是否符合物理运动规律!
大家好,最近感觉有点AI编程搞产品上瘾了😂。这次主要想和大家分享第二个小产品 art4kid.com 过程中遇到的挑战和收获。这个产品也是通过AI编程完成的,我所做的主要就是把握方向,发现问题,让AI思考问题发生原因然后解决问题,还有提供一些视觉。