AI技术研报-这里有最前沿的人工智能技术解读

智能体落地元年，Agent Infra是关键一环｜对话腾讯云&Dify

毋庸置疑！2025年title属于「Agent元年」。

来自主题: AI技术研报

10680 点击 2025-12-23 14:52

AI一旦开始「内卷」，会变成什么样？腾讯混元和上交联合揭秘多智能体「饥饿游戏」

在多智能体系统的想象中，我们常常看到这样一幅图景：多个 AI 智能体分工协作、彼此配合，像一个高效团队一样攻克复杂任务，展现出超越单体智能的 “集体智慧”。

来自主题: AI技术研报

11202 点击 2025-12-23 14:33

为什么Agent总是Demo猛如龙实战一条虫？

为什么Agent在演示时无所不能，到了实际场景却频频拉胯？

来自主题: AI技术研报

10339 点击 2025-12-23 14:32

全网首测！首款国产GPU「AI算力本」现场上手

除了英特尔和AMD，现在我们终于可以选择国产笔记本电脑显卡了！这款显卡的背后，饱含着中国工程师们日夜攻坚的汗水与泪水。

来自主题: AI技术研报

11601 点击 2025-12-23 10:35

ImageNet分数越高，生成反而越糊？iREPA给出解释

学霸的谎言被揭穿！一篇来自Adobe Research的论文发现，高语义理解并不会提升生成质量，反而可能破坏空间结构。用iREPA简单修改，削弱全局干扰，生成质量立即飙升。

来自主题: AI技术研报

10714 点击 2025-12-23 10:05

最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品

在过去两年里，记忆（Memory）几乎从 “可选模块” 迅速变成了 Agent 系统的 “基础设施”：对话型助手需要记住用户习惯与历史偏好；代码 / 软件工程 Agent 需要记住仓库结构、约束与修复策略；

来自主题: AI技术研报

10098 点击 2025-12-23 09:28

复杂空间推理新SOTA，性能提升55%！中山大学新作SpatialDreamer

中山大学等机构推出SpatialDreamer，通过主动心理想象和空间推理，显著提升了复杂空间任务的性能。模拟人类主动探索、想象和推理的过程，解决了现有模型在视角变换等任务中的局限，为人工智能的空间智能发展开辟了新路径。

来自主题: AI技术研报

11352 点击 2025-12-23 09:27

RL加持的3D生成时代来了！首个「R1 式」文本到3D推理大模型AR3D-R1登场

强化学习（RL）在大语言模型和 2D 图像生成中大获成功后，首次被系统性拓展到文本到 3D 生成领域！面对 3D 物体更高的空间复杂性、全局几何一致性和局部纹理精细化的双重挑战，研究者们首次系统研究了 RL 在 3D 自回归生成中的应用！

来自主题: AI技术研报

9192 点击 2025-12-23 09:27

OpenAI这招太狠！AI从「躲猫猫」到「自爆黑料」，主打一个坦白

随着AI越来越强大并进入更高风险场景，透明、安全的AI显得越发重要。OpenAI首次提出了一种「忏悔机制」，让模型的幻觉、奖励黑客乃至潜在欺骗行为变得更加可见。

来自主题: AI技术研报

8099 点击 2025-12-23 09:26

MiniMax海螺视频团队首次开源：Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队不藏了！首次开源就揭晓了一个困扰行业已久的问题的答案——为什么往第一阶段的视觉分词器里砸再多算力，也无法提升第二阶段的生成效果？翻译成大白话就是，虽然图像/视频生成模型的参数越做越大、算力越堆越猛，但用户实际体验下来总有一种微妙的感受——这些庞大的投入与产出似乎不成正比，模型离完全真正可用总是差一段距离。

来自主题: AI技术研报

8898 点击 2025-12-22 17:07

100万亿Token揭示真相：中国开源AI拿下30%全球份额，推理已成主流

之前我在这篇文章(超全面免费 AI API 分享！零成本开启你的AI之旅！)中介绍过 OpenRouter 这个大模型 API 聚合平台，最近他们通过分析了100 万亿 token用户真实数据，发布了一篇研究报告，反应了真实用户的大模型使用现状。100 万亿 token 是什么概念呢？是人类所有文字资料的好几倍，这个数据量非常有说服力。

来自主题: AI技术研报

8612 点击 2025-12-22 17:05

辛顿高徒压轴，谷歌最新颠覆性论文：AGI不是神，只是「一家公司」！

2025年底，当人类都在憧憬和等待一个全知全能的AI之神时，谷歌DeepMind却泼了一盆冷水！

来自主题: AI技术研报

6558 点击 2025-12-22 16:42

AI体育教练来了！中国团队打造SportsGPT，完成从数值评估到专业指导的智能转身

在AI席卷各行各业的今天，体育圈的“智能化”走到哪一步了？

来自主题: AI技术研报

8529 点击 2025-12-22 16:40

对标GPT-4o和香蕉！浙大开源ContextGen：布局身份协同新SOTA

浙江大学ReLER团队开源ContextGen框架，攻克多实例图像生成中布局与身份协同控制难题。基于Diffusion Transformer架构，通过双重注意力机制，实现布局精准锚定与身份高保真隔离，在基准测试中超越开源SOTA模型，对标GPT-4o等闭源系统，为定制化AI图像生成带来新突破。

来自主题: AI技术研报

10329 点击 2025-12-22 16:08

让AI像人类画家一样边画边想，港中文&美团让模型「走一步看一步」

在文生图（Text-to-Image）和视频生成领域，以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。

来自主题: AI技术研报

11658 点击 2025-12-22 16:05

智能体如何学会「想象」？深度解析世界模型嵌入具身系统的三大技术范式

长期以来，具身智能系统主要依赖「感知 - 行动」的反应式回路，缺乏对未来的预测能力。而世界模型的引入，让智能体拥有了「想象」未来的能力。

来自主题: AI技术研报

10191 点击 2025-12-22 16:04

迪士尼真的造出了「雪宝」Olaf！但为了不让它“融化”，工程师逼疯了AI

还记得之前非常火的雪宝Olaf机器人吗？

来自主题: AI技术研报

10243 点击 2025-12-22 16:03

MiniMax海螺首次开源，发现了AI视觉生成领域的Scaling Law

2025 年还有一周结束，年底，AI 视频圈又卷起来了。

来自主题: AI技术研报

9816 点击 2025-12-22 16:02

Gemini 确诊重度焦虑：为了让 AI 像人，我们把它逼疯了

如果你的 Gemini 突然告诉你，它感到深深的羞耻，或者它因为害怕犯错而夜不能寐，你会怎么想？

来自主题: AI技术研报

7308 点击 2025-12-22 11:46

遥遥无期的AGI是画大饼吗？两位教授「吵起来了」

大模型的通用性和泛化性越来越强大了。

来自主题: AI技术研报

7956 点击 2025-12-22 11:43

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型（World Model）」热潮之后，一个现实问题逐渐浮出水面：世界模型的可视化与交互，依然严重受限于底层 Web 端渲染能力。

来自主题: AI技术研报

10556 点击 2025-12-22 10:17

首个文本到3D生成RL范式诞生，攻克几何与物理合理性

在大语言模型和文生图领域，强化学习（RL）已成为提升模型思维链与生成质量的关键方法。

来自主题: AI技术研报

7246 点击 2025-12-22 09:38

从 RAG 到 Context：2025 年 RAG 技术年终总结

过去的 2025 年，对于检索增强生成（RAG）技术而言，是经历深刻反思、激烈辩论与实质性演进的一年。

来自主题: AI技术研报

8608 点击 2025-12-22 09:37

相机运动误差降低40%！DualCamCtrl：给视频生成装上「深度相机」，让运镜更「听话」

你的生成模型真的「懂几何」吗？还是只是在假装对齐相机轨迹？

来自主题: AI技术研报

10953 点击 2025-12-22 09:33

不靠死记布局也能按图生成，多实例生成的布局控制终于“可控且不串脸”了丨浙大团队

尽管扩散模型在单图像生成上已经日渐成熟，但当任务升级为高度定制化的多实例图像生成（Multi-Instance Image Generation, MIG）时，挑战随之显现：

来自主题: AI技术研报

10961 点击 2025-12-22 09:33

LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

近日，来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型：VL-JEPA。据作者 Pascale Fung 介绍，VL-JEPA 是第一个基于联合嵌入预测架构，能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报

10155 点击 2025-12-21 12:39

只靠国产算力预训练，稳！全流程开源，「开元」盛世真来了

鹏城实验室与清华大学PACMAN实验室联合发布了鹏城脑海‑2.1‑开元‑2B（PCMind‑2.1‑Kaiyuan‑2B，简称开元‑2B）模型，并以全流程开源的方式回应了这一挑战——从训练数据、数据处理框架、训练框架、完整技术报告到最终模型权重，全部开源。

来自主题: AI技术研报

9481 点击 2025-12-21 12:38

让大模型不再过度思考！上海AI Lab后训练新范式重塑CoT，推理又快又好

近日，上海人工智能实验室的研究团队提出了一种全新的后训练范式——RePro（Rectifying Process-level Reward）。这篇论文将推理的过程视为模型内部状态的优化过程，从而对如何重塑大模型的CoT提供了一个全新视角：

来自主题: AI技术研报

8706 点击 2025-12-21 12:35

人人都是导演：CineCtrl首个实现视频生成中的相机运镜与摄影效果统一控制

现有视频生成模型往往难以兼顾「运镜」与「摄影美学」的精确控制。为此，华中科技大学、南洋理工大学、商汤科技和上海人工智能实验室团队推出了 CineCtrl。作为首个统一的视频摄影控制 V2V 框架，CineCtrl 通过解耦交叉注意力机制，摆脱了多控制信号共同控制的效果耦合问题，实现了对视频相机外参轨迹与摄影效果的独立、精细、协调控制。

来自主题: AI技术研报

9517 点击 2025-12-21 12:34

MiniMax海螺首次开源 VTP，打通了 Visual Tokenizer 的 Scaling Law

MiniMax 海螺视频团队「首次开源」了 VTP（Visual Tokenizer Pre-training）项目。他们同步发布了一篇相当硬核的论文，它最有意思的地方在于 3 个点：「重建做得越好，生成反而可能越差」，传统 VAE 的直觉是错的

来自主题: AI技术研报

9663 点击 2025-12-20 10:04