AI技术研报-这里有最前沿的人工智能技术解读

如何自动优化领域任务的提示词？用EGO-Prompt｜NeurIPS 2025

大型语言模型（LLMs）正迅速成为从金融到交通等各个专业领域不可或缺的辅助决策工具。但目前LLM的“通用智能”在面对高度专业化、高风险的任务时，往往显得力不从心。

来自主题: AI技术研报

8078 点击 2025-11-07 10:52

RLinf上新πRL：在线强化学习微调π0和π0.5

近年来，基于流匹配的 VLA 模型，特别是 Physical Intelligence 发布的 π0 和 π0.5，已经成为机器人领域备受关注的前沿技术路线。流匹配以极简方式建模多峰分布，能够生成高维且平滑的连续动作序列，在应对复杂操控任务时展现出显著优势。

来自主题: AI技术研报

11208 点击 2025-11-07 10:17

Feed-Forward 3D综述：三维视觉如何「一步到位」

在 3D 视觉领域，如何从二维图像快速、精准地恢复三维世界，一直是计算机视觉与计算机图形学最核心的问题之一。从早期的 Structure-from-Motion (SfM) 到 Neural Radiance Fields (NeRF)，再到 3D Gaussian Splatting (3DGS)，技术的演进让我们离实时、通用的 3D 理解越来越近。

来自主题: AI技术研报

6720 点击 2025-11-07 10:15

开源即爆火！英伟达重磅推出OmniVinci全模态大模型

你是否想过，未来的 AI 将会是什么样子？

来自主题: AI技术研报

6376 点击 2025-11-06 16:30

推翻「预测下一个token」范式！微信AI新研究：把token压缩成连续向量更具性价比

大模型一个token一个token生成，效率太低怎么办？

来自主题: AI技术研报

8051 点击 2025-11-06 16:29

机械手真正「活」了，银河通用&清华推出DexNDM，用神经动力学重塑灵巧操作

机器人使用灵巧手帮人类在工厂里拧螺丝，在家里切菜做饭的一天何时可以到来？为了实现这一愿景，旨在解决灵巧操作技能 sim-to-real 难题的 DexNDM 应运而生。

来自主题: AI技术研报

7074 点击 2025-11-06 15:01

距离觉醒意识，人工智能还差一具肉身？

当AI能写诗、能编程，甚至能和你争论哲学，它会不会真的“有感觉”？它会不会像你一样，体验到红色的炙热或痛苦的尖锐？

来自主题: AI技术研报

6016 点击 2025-11-06 15:00

扩展外部测试时Scaling Law，中关村学院新发现：轻量级验证器可解锁LLM推理最优选择

在大语言模型（LLM）席卷各类复杂任务的今天，“测试时扩展”（Test-Time Scaling，TTS）已成为提升模型推理能力的核心思路 —— 简单来说，就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说，Test-Time Scaling 分成两类：

来自主题: AI技术研报

7790 点击 2025-11-06 14:59

2张4090竟能本地微调万亿参数Kimi K2！趋境联合清华北航把算力门槛击穿了

微调超大参数模型，现在的“打开方式”已经大变样了：仅需2-4 张消费级显卡（4090），就能在本地对DeepSeek 671B乃至Kimi K2 1TB这样的超大模型进行微调了。

来自主题: AI技术研报

8006 点击 2025-11-06 10:52

中英双语、29项第一、像素级理解：360 FG-CLIP2登顶全球最强图文跨模态模型

这年头，AI 创造的视觉世界真是炫酷至极。但真要跟细节较真儿，这些大模型的「眼力见儿」可就让人难绷了。

来自主题: AI技术研报

7500 点击 2025-11-06 10:34

大模型不擅长点鼠标？中科院团队打造AI专属交互界面，任务成功率提升67%

在日常使用电脑时，看着屏幕、点击鼠标是再自然不过的基本操作。但这种对人类明明很容易的操作方式，却成为 AI 的巨大挑战：它们视力差、动作慢、不擅长看也不擅长点。

来自主题: AI技术研报

6087 点击 2025-11-06 10:32

北大字节开源首个时空推理视频模型！思考过程全透明，性能超越GPT-4o

AI看视频也能划重点了！

来自主题: AI技术研报

11180 点击 2025-11-06 09:40

NeurIPS 2025 Spotlight | 你刷到的视频是真的么？用物理规律拆穿Sora谎言

随着生成式 AI（如 Sora）的发展，合成视频几乎可以以假乱真，带来了深度伪造与虚假信息传播的风险。现有检测方法多依赖表层伪影或数据驱动学习，难以在高质量生成视频中保持较好的泛化能力。其根本原因在于，这些方法大都未能充分利用自然视频所遵循的物理规律，挖掘自然视频的更本质的特征。

来自主题: AI技术研报

9242 点击 2025-11-06 09:39

陶哲轩，用AI爆改科研范式

陶哲轩让ChatGPT把复杂的数学论文翻译成Lean代码，与AI合作完成形式化证明。AI能理解论文、写出正确命题，却常在关键处卡壳。经过人机配合，终于生成1125行被验证的证明。

来自主题: AI技术研报

9434 点击 2025-11-06 09:37

40页的上下文工程ebook「深度拆解」｜weaviate

如果你也在做 RAG 或智能体应用，大概经历过这些瞬间：文档切得太碎，答案失去上下文；切得太大，又召回不准；加了更多提示词，效果可能更不稳定。

来自主题: AI技术研报

7857 点击 2025-11-06 09:37

多智能体系统中，如何用向量数据库共享上下文？OpenAgents x Milvus

静态编排 VS 动态编排，谁是多agent系统最优解？通常来说，面对简单问题，采用react模式的单一agent就能搞定。可遇到复杂问题，单一agent就会立刻出现包括但不限于以下问题：串行执行效率低：无法同时完成并行的子步骤（如 “同时爬取 A、B 两个网站的数据”）。

来自主题: AI技术研报

8471 点击 2025-11-06 09:33

数字生命「培养皿」里，AI竟然学会了打架、结盟、抢地盘

一直以来，关于人工生命（Artificial Life, ALife）的研究致力于回答这样一个问题：生命的复杂性能否在计算系统中自然涌现？

来自主题: AI技术研报

7581 点击 2025-11-05 17:22

全球首个「导航大脑」上线！一句话让机器人自己找路回家

银河通用联合多所大学发布了全球首个跨本体全域环视导航基座大模型NavFoM，让机器人能自己找路，而不再依赖遥控，从而推动具身智能向规模化商业落地演进。

来自主题: AI技术研报

6844 点击 2025-11-05 17:20

具身智能一步踏入Scaling Law！10B+基础模型，27万小时真实数据

当前机器人领域，基础模型主要基于「视觉-语言预训练」，这样可将现有大型多模态模型的语义泛化优势迁移过来。但是，机器人的智能确实能随着算力和数据的增加而持续提升吗？我们能预测这种提升吗？

来自主题: AI技术研报

7089 点击 2025-11-05 16:42

比NanoBanana更擅长中文和细节控制！兔展&北大Uniworld V2刷新SOTA

比Nano Banana更擅长P细节的图像编辑模型来了，还是更懂中文的那种。

来自主题: AI技术研报

8003 点击 2025-11-05 16:42

扩散不死，BERT永生！Karpathy凌晨反思：自回归时代该终结了?

谷歌遗珠与IBM预言：一文点醒Karpathy，扩散模型或成LLM下一步。

来自主题: AI技术研报

10212 点击 2025-11-05 16:41

清北联合推出Motion Transfer，比肩Gemini Robotics，让机器人直接从人类数据中端到端学习技能

近期，Google DeepMind 发布新一代具身大模型 Gemini Robotics 1.5，其核心亮点之一便是被称为 Motion Transfer Mechanism（MT）的端到端动作迁移算法 —— 无需重新训练，即可把不同形态机器人的技能「搬」到自己身上。不过，官方技术报告对此仅一笔带过，细节成谜。

来自主题: AI技术研报

8747 点击 2025-11-05 16:39

用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型，扩散语言模型的推理性能和效率大幅提升

扩散大语言模型得到了突飞猛进的发展，早在 25 年 2 月 Inception Labs 推出 Mercury—— 第一个商业级扩散大型语言模型，同期人民大学发布第一个开源 8B 扩散大语言模型 LLaDA，5 月份 Gemini Diffusion 也接踵而至。

来自主题: AI技术研报

9740 点击 2025-11-05 15:17

AI太空竞赛？英伟达H100刚上天，谷歌Project Suncatcher也要将TPU送上天

11 月 2 日，英伟达首次把 H100 GPU 送入了太空，参阅报道《英伟达发射了首个太空 AI 服务器，H100 已上天》。而刚刚谷歌宣布，他们也要让 TPU 上天。

来自主题: AI技术研报

8072 点击 2025-11-05 15:15

震荡股市中的AI交易员：DeepSeek从从容容游刃有余? 港大开源一周8k星标走红

2025 年 10 月，美股经历了一轮典型的震荡行情：月初科技股强势反弹，月中通胀数据扰动市场，10 月 10 日前后纳指单日波动超过 3%。就在这波谲云诡的市场环境中，港大黄超教授团队的开源 AI-Trader 项目正式启动实盘测试。该项目上线一周时间在 GitHub 上获得了近 8K 星标，展现了社区对 AI 自主交易技术和金融市场分析的能力高度关注。

来自主题: AI技术研报

7062 点击 2025-11-05 10:28

最强开源0.9B级OCR模型！PaddleOCR-VL本地一键部署，私密性拉满【喂饭级教程】

前不久我写了一篇百度最新的OCR模型（PaddleOCR-VL）的文章反响还不错。

来自主题: AI技术研报

11442 点击 2025-11-05 10:28

清华AI数学家系统攻克均匀化理论难题！人机协同完成17页严谨证明

当AI不再只是解题机器，而能与人类并肩完成严谨的科研证明，这意味着什么？

来自主题: AI技术研报

6660 点击 2025-11-05 10:27

让AI生成视频「又长又快」：Rolling Forcing实现分钟级实时生成

想象一下，你正在玩一款开放世界游戏，角色在无缝衔接的世界中自由漫游，游戏引擎必须实时生成一条无限长的视频流来呈现这个虚拟世界。或者，你戴着 AR 眼镜在街头行走，系统需要根据你的视线与动作，即时生成与你环境交互的画面。无论是哪种场景，都对 AI 提出了同样的要求：能实时生成高质量、长时间连贯的视频流。

来自主题: AI技术研报

7013 点击 2025-11-05 09:58

Context Engineering 2.0：在未来，一个人的本质，就是其所有上下文的总和｜上海交大

在几天前，上海交大发布了一篇名为《上下文工程2.0：上下文工程的上下文》（Context Engineering 2.0: The Context of Context Engineering）的重磅论文。

来自主题: AI技术研报

6854 点击 2025-11-05 09:57

多模态大模型理解物理工具吗？PhysToolBench提出了衡量多模态大模型对物理工具理解的基准

人类之所以能与复杂的物理世界高效互动，很大程度上源于对「工具」的使用、理解与创造能力。对任何通用型智能体而言，这同样是不可或缺的基本技能，对物理工具的使用会大大影响任务的成功率与效率。

来自主题: AI技术研报

10839 点击 2025-11-05 09:57