AI资讯新闻榜单内容搜索-训练

港大联合字节跳动提出JoVA: 一种基于联合自注意力的视频-音频联合生成模型

视频 - 音频联合生成的研究近期在开源与闭源社区都备受关注，其中，如何生成音视频对齐的内容是研究的重点。

来自主题: AI技术研报

8343 点击 2025-12-30 10:27

单agent落幕，双agent才能解决复杂问题！附LangGraph+Milvus实操

做agent简单，但是做能落地的agent难，做能落地的长周期agent更是难上加难！

来自主题: AI技术研报

8706 点击 2025-12-30 09:58

全景视觉的Depth Anything来了！Insta360推出DAP，200万数据打造全场景360°空间智能新高度

在空间智能（Spatial Intelligence）飞速发展的今天，全景视角因其 360° 的环绕覆盖能力，成为了机器人导航、自动驾驶及虚拟现实的核心基石。然而，全景深度估计长期面临 “数据荒” 与 “模型泛化差” 的瓶颈。

来自主题: AI技术研报

6648 点击 2025-12-30 09:57

Agent「记吃不记打」？华为诺亚&港中文发布SCOPE：Prompt自我进化，让HLE成功率翻倍

在 LLM Agent 领域，有一个常见的问题：Agent 明明 "看到了" 错误信息，却总是重蹈覆辙。

来自主题: AI技术研报

8418 点击 2025-12-30 09:54

SIGGRAPH Asia 2025｜当视频生成真正「看清一个人」：多视角身份一致、真实光照与可控镜头的统一框架

在电影与虚拟制作中，「看清一个人」从来不是看清某一帧。导演通过镜头运动与光线变化，让观众在不同视角、不同光照条件下逐步建立对一个角色的完整认知。然而，在当前大量 customizing video generation model 的研究中，这个最基本的事实，却往往被忽视。

来自主题: AI技术研报

8936 点击 2025-12-30 09:52

QwenLong-L1.5发布：一套配方，三大法宝，让30B MoE模型长文本推理能力媲美GPT-5

作为大模型从业者或研究员的你，是否也曾为一个模型的 “长文本能力” 而兴奋，却在实际应用中发现它并没有想象中那么智能？

来自主题: AI技术研报

8287 点击 2025-12-29 14:35

别再吹AI搞科研了！新评测泼冷水：顶尖模型离「合格科学家」还差得远

如今，大模型在理解、推理、编程等方面表现突出，但AI的“科学通用能力”（SGI）尚无统一标准。

来自主题: AI技术研报

9106 点击 2025-12-29 14:12

AAAI 2026 Oral｜LENS：基于统一强化推理的分割大模型

文本提示图像分割（Text-prompted image segmentation）是实现精细化视觉理解的关键技术，在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然语言指令，在复杂的视觉场景中定位并分割出任意目标。

来自主题: AI技术研报

9671 点击 2025-12-29 14:06

人类基准测试大翻车：样本不足、方法不透明，AI性能结论可信吗？

我们经常在一些对比 AI 性能的测试中，看到宣称基础模型在自然语言理解、推理或编程任务等性能超人类的相关报道。

来自主题: AI资讯

6230 点击 2025-12-29 09:36

告别「单线程」思维：通研院提出NPR框架，让智能体进化出原生的并行推理大脑

近年来，大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇总与取舍时，传统的链式思维（Chain-of-Thought）往往就开始「吃力」：容易被早期判断带偏、发散不足、自我纠错弱，而且顺序生成的效率天然受限。

来自主题: AI技术研报

10568 点击 2025-12-29 09:36