AI技术研报-这里有最前沿的人工智能技术解读

登顶开源SOTA！上交大&小红书LoopTool实现工具调用任务的「数据进化」

在过去两年，大语言模型 (LLM) + 外部工具的能力，已成为推动 AI 从 “会说” 走向 “会做” 的关键机制 —— 尤其在 API 调用、多轮任务规划、知识检索、代码执行等场景中，大模型要想精准调用工具，不仅要求模型本身具备推理能力，还需要借助海量高质量、针对性强的函数调用训练数据。

来自主题: AI技术研报

11945 点击 2025-11-19 16:40

周靖人署名，通义实验室开源智能体自进化系统：让模型学会“自我反思”，14B也能越级打怪

智能体自进化，阿里开源了新成果。

来自主题: AI技术研报

11120 点击 2025-11-19 16:39

无需重训练+即插即用+性能零损耗，蚂蚁集团×南洋理工首发微调安全框架，让模型既安全又高效

无需重新训练，也能一键恢复模型的安全意识了。

来自主题: AI技术研报

10520 点击 2025-11-19 16:38

NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测

人类高级视觉皮层在个体间存在显著的功能差异，而构建大脑编码模型（brain encoding models）—— 即能够从视觉刺激（如图像）预测人脑神经响应的计算模型 —— 是理解人类视觉系统如何表征世界的关键。传统视觉编码模型通常需要为每个新被试采集大量数据（数千张图像对应的脑活动），成本高昂且难以推广。

来自主题: AI技术研报

11170 点击 2025-11-19 15:21

ConsistEdit来了：无需训练，实现高精度、高一致性的视觉编辑新范式

无需额外训练即可适配预训练生成模型的编辑方法，凭借灵活、高效的特性，已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制（如 Prompt-to-Prompt、MasaCtrl）实现文本引导编辑，但当前技术存在两大核心痛点，严重限制其在复杂场景的应用

来自主题: AI技术研报

10911 点击 2025-11-19 15:19

MiniMax M2 太猛了，推出9.9元编程套餐，又打中开发者心趴！

MiniMax，今年真猛。

来自主题: AI技术研报

10625 点击 2025-11-19 10:07

华为诺亚发布ScaleNet：模型放大通用新范式

在基础模型领域，模型规模与性能之间的缩放定律（Scaling Law）已被广泛验证，但模型增大也伴随着训练成本、存储需求和能耗的急剧上升。如何在控制参数量的前提下高效扩展模型，成为当前研究的关键挑战。

来自主题: AI技术研报

10792 点击 2025-11-19 09:31

从《塞尔达传说》理解 Agent 的上下文工程：Claude Skills 还是被低估了

Claude 近期发布的 Skills 功能很火，不少开发者都在尝试、试用。

来自主题: AI技术研报

11458 点击 2025-11-19 09:31

视频生成Prompt何须仅是文字！字节&港中文发布Video-As-Prompt

视频创作中，你是否曾希望复刻变成 Labubu 的特效，重现吉卜力风格化，跳出短视频平台爆火的同款舞蹈，或模仿复杂有趣的希区柯克运镜？

来自主题: AI技术研报

11068 点击 2025-11-19 09:30

ChatGPT求婚火了，一句「我愿意」刷屏！网友：是真爱了

从浪漫订婚到失落痛哭，AI爱情正在撕开新的社会裂缝。在哈佛MIT，一项研究揭示：AI伴侣既能抚慰孤独，也可能让人陷入依赖。当《Her》变成现实，我们或许才刚刚面对真正的挑战。

来自主题: AI技术研报

10666 点击 2025-11-19 09:07

视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？

近年来，以 Veo、Sora 为代表的视频生成模型展现出惊人的合成能力，能够生成高度逼真且时序连贯的动态画面。这类模型在视觉内容生成上的进步，表明其内部可能隐含了对世界结构与规律的理解。更令人关注的是，Google 的最新研究指出，诸如 Veo 3 等模型正在逐步显现出超越单纯合成的 “涌现特性”，包括感知、建模和推理等更高层次能力。

来自主题: AI技术研报

8643 点击 2025-11-19 09:06

医疗AI智能体全面综述：行业爆发，年增长130%！

AI智能体正把医疗AI从「看片子」升级成会思考、能行动的「医生搭档」。研究人员发表的最新综述，用通俗语言拆解智能体如何读懂多模态数据、像专家一样规划决策，又能扮演医生、护士、健康管家等多重角色；同时提醒：越智能越危险，必须配套严格评估、隐私保护与伦理护栏，才敢让它走进真实诊疗。

来自主题: AI技术研报

8688 点击 2025-11-19 09:06

真机RL！最强VLA模型π*0.6来了，机器人在办公室开起咖啡厅

本周，美国具身智能创业公司 Physical Intelligence（简称 PI 或 π）发布了旗下的最新机器人基础模型 π*0.6。PI 是一家总部位于旧金山的机器人与 AI 创业公司，其使命是将通用人工智能从数字世界带入物理世界：他们的首个机器人通用基础模型名为 π₀，让同一套软件控制多种物理平台执行各类任务。

来自主题: AI技术研报

10550 点击 2025-11-18 16:14

上下文工程：为什么你的 AI Agent 总是“断片”？

AI Agent 在处理复杂任务时经常“掉链子”。你刚告诉它的信息，它很快就忘了。给它的工具越多，它反而越混乱。这不是个例。

来自主题: AI技术研报

11801 点击 2025-11-18 16:11

金山与华科发布多模态模型MonkeyOCR v1.5：文档解析能力超越PaddleOCR-VL，复杂表格解析首次突破90%

是金山派来的猴子，复杂文档解析有救了！

来自主题: AI技术研报

12189 点击 2025-11-18 15:16

韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

今年 2 月，月之暗面提出了一种名为 MoBA 的注意力机制，即 Mixture of Block Attention，可以直译为「块注意力混合」。

来自主题: AI技术研报

11400 点击 2025-11-18 15:15

让大模型学会「心灵感应」：基于思维沟通的多智能体合作范式来了

如果多个大模型能读懂彼此的想法，会发生什么？

来自主题: AI技术研报

11500 点击 2025-11-18 15:12

谢赛宁盛赞字节Seed新研究！单Transformer搞定任意视图3D重建

单Transformer搞定任意视图3D重建！

来自主题: AI技术研报

8272 点击 2025-11-18 15:12

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

当我们谈论大型语言模型（LLM）的"强化学习"（RL）时，我们在谈论什么？从去年至今，RL可以说是当前AI领域最炙手可热的词汇。

来自主题: AI技术研报

11846 点击 2025-11-18 15:11

告别「一条路走到黑」：通过自我纠错，打造更聪明的Search Agent

为了同时解决知识的实时性和推理的复杂性这两大挑战，搜索智能体（Search Agent）应运而生。它与 RAG 的核心区别在于，Search Agent 能够通过与实时搜索引擎进行多轮交互来分解并执行复杂任务。这种能力在人物画像构建，偏好搜索等任务中至关重要，因为它能模拟人类专家进行深度、实时的资料挖掘。

来自主题: AI技术研报

8049 点击 2025-11-18 14:39

抱歉了GPT-5，这次是中国AI「上岸」了

基层医生的AI好助手来了！国产AI，更懂中国医生。

来自主题: AI技术研报

10712 点击 2025-11-18 10:51

Zleap技术解密：后RAG时代已来，SAG重新定义AI搜索

大家好，我是Jomy，是智跃Zleap的CEO，也是Zleap产品和技术的主要设计者。此前在报道中，我曾粗略介绍过Zleap产品背后的技术：一个能帮助CEO自动整理、总结海量企业内部信息的智能Agent。今天，我要正式为大家介绍驱动这个Agent的底层技术：SAG。

来自主题: AI技术研报

11081 点击 2025-11-18 10:40

AI为啥不懂物理世界？李飞飞、杨立昆：缺个「世界模型」，得学大脑新皮质工作

我们的大脑蕴藏着待解的进化密码，而AI的未来或许正系于此。

来自主题: AI技术研报

8762 点击 2025-11-18 10:07

成本仅0.3美元，耗时26分钟！CudaForge：颠覆性低成本CUDA优化框架

CUDA 代码的性能对于当今的模型训练与推理至关重要，然而手动编写优化 CUDA Kernel 需要很高的知识门槛和时间成本。与此同时，近年来 LLM 在 Code 领域获得了诸多成功。

来自主题: AI技术研报

10842 点击 2025-11-18 10:06

首个完整开源的生成式推荐框架MiniOneRec，轻量复现工业级OneRec！

中科大 LDS 实验室何向南、王翔团队与 Alpha Lab 张岸团队联合开源 MiniOneRec，推出生成式推荐首个完整的端到端开源框架，不仅在开源场景验证了生成式推荐 Scaling Law，还可轻量复现「OneRec」，为社区提供一站式的生成式推荐训练与研究平台。

来自主题: AI技术研报

11782 点击 2025-11-18 09:35

这些大神在Meta的论文看一篇少一篇了

离开Meta的大佬们，留下作品还在陆续发表，今天轮到田渊栋。

来自主题: AI技术研报

6867 点击 2025-11-18 09:33

Nature子刊：港大等首提下一代AI硬件系统，能耗锐减57.2%

港大、港科大与西电团队登上Nature子刊，破解AI芯片核心难题。他们攻克存算一体架构中模数转换器（ADC）这个占能耗87%的「黑洞」，利用忆阻器可编程特性打造能自适应数据分布的「智能标尺」，使AI芯片功耗锐减57.2%，面积缩小30.7%，为下一代高效AI硬件系统开辟新路。

来自主题: AI技术研报

9747 点击 2025-11-17 15:03

不懂绘画也能做动画，OiiOii AI 玩法抢先分享！

嗨大家好！我是阿真！继续为大家带来一些有趣的好玩的工具分享。

来自主题: AI技术研报

13409 点击 2025-11-17 15:02

解决特斯拉「监督稀疏」难题，DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

在自动驾驶领域，VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日，特斯拉（Tesla）在 ICCV 的分享中，就将其面临的核心挑战之一公之于众 ——“监督稀疏”。

来自主题: AI技术研报

9372 点击 2025-11-17 15:00

SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

随着生成式 AI 的快速发展，从文本生成图像、视频，到构建完整的三维世界，AI “创造空间” 的能力正以前所未有的速度突破边界。然而，现有 3D 场景生成方法仍存在明显局限：模型往往直接输出每个物体的几何参数（位置、大小、方向等），结果容易出现漂浮、重叠、穿模等问题；场景结构缺乏逻辑一致性，难以编辑或复用，更无法像程序那样精确控制空间关系与生成逻辑。

来自主题: AI技术研报

10959 点击 2025-11-17 14:33