AI技术研报-这里有最前沿的人工智能技术解读

ConsistEdit来了：无需训练，实现高精度、高一致性的视觉编辑新范式

无需额外训练即可适配预训练生成模型的编辑方法，凭借灵活、高效的特性，已成为视觉生成领域的研究热点。这类方法通过操控 Attention 机制（如 Prompt-to-Prompt、MasaCtrl）实现文本引导编辑，但当前技术存在两大核心痛点，严重限制其在复杂场景的应用

来自主题: AI技术研报

9659 点击 2025-11-19 15:19

MiniMax M2 太猛了，推出9.9元编程套餐，又打中开发者心趴！

MiniMax，今年真猛。

来自主题: AI技术研报

7748 点击 2025-11-19 10:07

华为诺亚发布ScaleNet：模型放大通用新范式

在基础模型领域，模型规模与性能之间的缩放定律（Scaling Law）已被广泛验证，但模型增大也伴随着训练成本、存储需求和能耗的急剧上升。如何在控制参数量的前提下高效扩展模型，成为当前研究的关键挑战。

来自主题: AI技术研报

9429 点击 2025-11-19 09:31

从《塞尔达传说》理解 Agent 的上下文工程：Claude Skills 还是被低估了

Claude 近期发布的 Skills 功能很火，不少开发者都在尝试、试用。

来自主题: AI技术研报

9993 点击 2025-11-19 09:31

视频生成Prompt何须仅是文字！字节&港中文发布Video-As-Prompt

视频创作中，你是否曾希望复刻变成 Labubu 的特效，重现吉卜力风格化，跳出短视频平台爆火的同款舞蹈，或模仿复杂有趣的希区柯克运镜？

来自主题: AI技术研报

9979 点击 2025-11-19 09:30

ChatGPT求婚火了，一句「我愿意」刷屏！网友：是真爱了

从浪漫订婚到失落痛哭，AI爱情正在撕开新的社会裂缝。在哈佛MIT，一项研究揭示：AI伴侣既能抚慰孤独，也可能让人陷入依赖。当《Her》变成现实，我们或许才刚刚面对真正的挑战。

来自主题: AI技术研报

9338 点击 2025-11-19 09:07

视频模型真在推理，还是「表演」推理？港中文等质疑：Chain-of-Frame是真的吗？

近年来，以 Veo、Sora 为代表的视频生成模型展现出惊人的合成能力，能够生成高度逼真且时序连贯的动态画面。这类模型在视觉内容生成上的进步，表明其内部可能隐含了对世界结构与规律的理解。更令人关注的是，Google 的最新研究指出，诸如 Veo 3 等模型正在逐步显现出超越单纯合成的 “涌现特性”，包括感知、建模和推理等更高层次能力。

来自主题: AI技术研报

7480 点击 2025-11-19 09:06

医疗AI智能体全面综述：行业爆发，年增长130%！

AI智能体正把医疗AI从「看片子」升级成会思考、能行动的「医生搭档」。研究人员发表的最新综述，用通俗语言拆解智能体如何读懂多模态数据、像专家一样规划决策，又能扮演医生、护士、健康管家等多重角色；同时提醒：越智能越危险，必须配套严格评估、隐私保护与伦理护栏，才敢让它走进真实诊疗。

来自主题: AI技术研报

7226 点击 2025-11-19 09:06

真机RL！最强VLA模型π*0.6来了，机器人在办公室开起咖啡厅

本周，美国具身智能创业公司 Physical Intelligence（简称 PI 或 π）发布了旗下的最新机器人基础模型 π*0.6。PI 是一家总部位于旧金山的机器人与 AI 创业公司，其使命是将通用人工智能从数字世界带入物理世界：他们的首个机器人通用基础模型名为 π₀，让同一套软件控制多种物理平台执行各类任务。

来自主题: AI技术研报

8932 点击 2025-11-18 16:14

上下文工程：为什么你的 AI Agent 总是“断片”？

AI Agent 在处理复杂任务时经常“掉链子”。你刚告诉它的信息，它很快就忘了。给它的工具越多，它反而越混乱。这不是个例。

来自主题: AI技术研报

10282 点击 2025-11-18 16:11

金山与华科发布多模态模型MonkeyOCR v1.5：文档解析能力超越PaddleOCR-VL，复杂表格解析首次突破90%

是金山派来的猴子，复杂文档解析有救了！

来自主题: AI技术研报

10611 点击 2025-11-18 15:16

韩松等提出FlashMoBA，比MoBA快7.4倍，序列扩到512K也不会溢出

今年 2 月，月之暗面提出了一种名为 MoBA 的注意力机制，即 Mixture of Block Attention，可以直译为「块注意力混合」。

来自主题: AI技术研报

10012 点击 2025-11-18 15:15

让大模型学会「心灵感应」：基于思维沟通的多智能体合作范式来了

如果多个大模型能读懂彼此的想法，会发生什么？

来自主题: AI技术研报

10399 点击 2025-11-18 15:12

谢赛宁盛赞字节Seed新研究！单Transformer搞定任意视图3D重建

单Transformer搞定任意视图3D重建！

来自主题: AI技术研报

6984 点击 2025-11-18 15:12

Agent的RL和LLM的RL是一回事吗？牛津用500+论文写成综述，一次说清Agentic RL

当我们谈论大型语言模型（LLM）的"强化学习"（RL）时，我们在谈论什么？从去年至今，RL可以说是当前AI领域最炙手可热的词汇。

来自主题: AI技术研报

9792 点击 2025-11-18 15:11

告别「一条路走到黑」：通过自我纠错，打造更聪明的Search Agent

为了同时解决知识的实时性和推理的复杂性这两大挑战，搜索智能体（Search Agent）应运而生。它与 RAG 的核心区别在于，Search Agent 能够通过与实时搜索引擎进行多轮交互来分解并执行复杂任务。这种能力在人物画像构建，偏好搜索等任务中至关重要，因为它能模拟人类专家进行深度、实时的资料挖掘。

来自主题: AI技术研报

6677 点击 2025-11-18 14:39

抱歉了GPT-5，这次是中国AI「上岸」了

基层医生的AI好助手来了！国产AI，更懂中国医生。

来自主题: AI技术研报

9413 点击 2025-11-18 10:51

Zleap技术解密：后RAG时代已来，SAG重新定义AI搜索

大家好，我是Jomy，是智跃Zleap的CEO，也是Zleap产品和技术的主要设计者。此前在报道中，我曾粗略介绍过Zleap产品背后的技术：一个能帮助CEO自动整理、总结海量企业内部信息的智能Agent。今天，我要正式为大家介绍驱动这个Agent的底层技术：SAG。

来自主题: AI技术研报

9688 点击 2025-11-18 10:40

AI为啥不懂物理世界？李飞飞、杨立昆：缺个「世界模型」，得学大脑新皮质工作

我们的大脑蕴藏着待解的进化密码，而AI的未来或许正系于此。

来自主题: AI技术研报

7539 点击 2025-11-18 10:07

成本仅0.3美元，耗时26分钟！CudaForge：颠覆性低成本CUDA优化框架

CUDA 代码的性能对于当今的模型训练与推理至关重要，然而手动编写优化 CUDA Kernel 需要很高的知识门槛和时间成本。与此同时，近年来 LLM 在 Code 领域获得了诸多成功。

来自主题: AI技术研报

9534 点击 2025-11-18 10:06

首个完整开源的生成式推荐框架MiniOneRec，轻量复现工业级OneRec！

中科大 LDS 实验室何向南、王翔团队与 Alpha Lab 张岸团队联合开源 MiniOneRec，推出生成式推荐首个完整的端到端开源框架，不仅在开源场景验证了生成式推荐 Scaling Law，还可轻量复现「OneRec」，为社区提供一站式的生成式推荐训练与研究平台。

来自主题: AI技术研报

10282 点击 2025-11-18 09:35

这些大神在Meta的论文看一篇少一篇了

离开Meta的大佬们，留下作品还在陆续发表，今天轮到田渊栋。

来自主题: AI技术研报

5671 点击 2025-11-18 09:33

Nature子刊：港大等首提下一代AI硬件系统，能耗锐减57.2%

港大、港科大与西电团队登上Nature子刊，破解AI芯片核心难题。他们攻克存算一体架构中模数转换器（ADC）这个占能耗87%的「黑洞」，利用忆阻器可编程特性打造能自适应数据分布的「智能标尺」，使AI芯片功耗锐减57.2%，面积缩小30.7%，为下一代高效AI硬件系统开辟新路。

来自主题: AI技术研报

8658 点击 2025-11-17 15:03

不懂绘画也能做动画，OiiOii AI 玩法抢先分享！

嗨大家好！我是阿真！继续为大家带来一些有趣的好玩的工具分享。

来自主题: AI技术研报

9839 点击 2025-11-17 15:02

解决特斯拉「监督稀疏」难题，DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law

在自动驾驶领域，VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日，特斯拉（Tesla）在 ICCV 的分享中，就将其面临的核心挑战之一公之于众 ——“监督稀疏”。

来自主题: AI技术研报

8064 点击 2025-11-17 15:00

SIGGRAPH Asia 2025 | 让3D场景生成像「写代码」一样灵活可控

随着生成式 AI 的快速发展，从文本生成图像、视频，到构建完整的三维世界，AI “创造空间” 的能力正以前所未有的速度突破边界。然而，现有 3D 场景生成方法仍存在明显局限：模型往往直接输出每个物体的几何参数（位置、大小、方向等），结果容易出现漂浮、重叠、穿模等问题；场景结构缺乏逻辑一致性，难以编辑或复用，更无法像程序那样精确控制空间关系与生成逻辑。

来自主题: AI技术研报

9695 点击 2025-11-17 14:33

偶然刷到的一个逆天项目：AI黑客...

做过独立开发的朋友都清楚，虽然现在 AI 已经能写出相当不错的前端，后端也有成熟的 BaaS 服务，但应用开发并不仅仅只是写份代码。

来自主题: AI技术研报

6661 点击 2025-11-17 14:33

Lumina-DiMOO：多模态扩散语言模型重塑图像生成与理解

上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模（Discrete Diffusion Modeling），Lumina-DiMOO 打破了多模态任务之间的壁垒，在同一离散扩散框架下，完成从文本→图像、图像→图像、图像→文本的全栈能力闭环。

来自主题: AI技术研报

8313 点击 2025-11-17 14:33

VinciCoder：多模态统一代码生成框架和视觉反馈强化学习，数据代码模型权重已开源

长期以来，多模态代码生成（Multimodal Code Generation）的训练严重依赖于特定任务的监督微调（SFT）。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功，但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力，阻碍了通用视觉代码智能（Generalized VIsioN Code Intelligence）的发展。

来自主题: AI技术研报

8957 点击 2025-11-17 14:32

垃圾刷多了AI也会变蠢！“年度最令人不安的论文”

你知道有个全球年度词汇叫“脑损伤”（Brain Rot）吗？

来自主题: AI技术研报

5921 点击 2025-11-17 10:22