AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
OpenAI发布最新里程碑:对齐的本质是「人格」

OpenAI发布最新里程碑:对齐的本质是「人格」

OpenAI发布最新里程碑:对齐的本质是「人格」

就在最近,OpenAI扔出一篇重磅论文。他们发现,只教AI好好看病,它写代码居然也不作弊了。方法简单到离谱:拿5%的训练数据,教模型在回答健康问题时诚实、谨慎、知错能改。

来自主题: AI技术研报
7410 点击    2026-06-21 11:31
你以为是 AI 在干活,其实那个循环一直是你——一个 OpenAI 员工聊 loop engineering

你以为是 AI 在干活,其实那个循环一直是你——一个 OpenAI 员工聊 loop engineering

你以为是 AI 在干活,其实那个循环一直是你——一个 OpenAI 员工聊 loop engineering

OpenAI 的 tevfik 写了篇关于 loop engineering 的文章,开头那句我读完顿了一下。他说,他和 coding agent 协作,到现在大多还是同一个流程:我解释一个任务,等结果,审一遍,再发下一条指令。代码是 agent 写的,但我在后台还干着另一份活——我记着发生了什么、决定下一步做什么、判断这事到底完成没。

来自主题: AI技术研报
7130 点击    2026-06-21 10:59
斯坦福报告:中国自主培养,顶尖AI人才崛起

斯坦福报告:中国自主培养,顶尖AI人才崛起

斯坦福报告:中国自主培养,顶尖AI人才崛起

斯坦福胡佛研究所追踪了 DeepSeek 七篇论文背后 356 名研究者的完整职业轨迹。美国培养出的最优秀 AI 人才正在大规模回流中国,而中国本土管道已经能独立产出前沿模型的核心贡献者。

来自主题: AI技术研报
9102 点击    2026-06-21 10:44
从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

从“一句成片”到“长轨推演”:探究多模态智能体在长视频编辑中的应用

近年来,大语言模型(LLMs)在长篇视觉叙事中展现出卓越潜力,生产方式正迅速从单一模型生成转向面向生产的智能体系统。但长视频剪辑仍然是一个极难控制的长期任务。模型有时会在缺乏素材依据的情况下强行生成,甚至在面对明显断档的转场或人物不一致时依然“盲目拼接”。

来自主题: AI技术研报
9557 点击    2026-06-21 10:41
AI接管数字世界!华为Claw-Anything:面向跨设备、跨时间、跨服务的Claw评测与数据引擎

AI接管数字世界!华为Claw-Anything:面向跨设备、跨时间、跨服务的Claw评测与数据引擎

AI接管数字世界!华为Claw-Anything:面向跨设备、跨时间、跨服务的Claw评测与数据引擎

我们相信,常驻型 (always-on) AI 助理的下一次飞跃,不在于把某一个模型单点调得更聪明,而在于扩展智能体的上下文 (Scaling Agent Context)—— 不断拓宽助理能够持续 "感知 — 推理 — 执行" 的范围,作为生活连接器连接用户的信息孤岛,直到它能接管用户的整个数字世界。

来自主题: AI技术研报
7736 点击    2026-06-21 10:34
沿着何恺明团队「漂移模型」再走一步:奖励只需排名,单步文生图偏好优化提速3.51倍

沿着何恺明团队「漂移模型」再走一步:奖励只需排名,单步文生图偏好优化提速3.51倍

沿着何恺明团队「漂移模型」再走一步:奖励只需排名,单步文生图偏好优化提速3.51倍

来自西湖大学和香港中文大学(深圳)的团队沿着这一思路提出 Drifting Preference Optimization(DrPO),把漂移场用于单步文生图模型的偏好后训练。在 DrPO 中,奖励只负责对候选图像排序,不参与反向传播。具体而言,针对同一个文本提示词,当前模型生成一组候选图像。高分样本在特征空间中产生吸引,低分样本产生排斥,并结合参考模型约束给出模型的更新方向。

来自主题: AI技术研报
7372 点击    2026-06-21 10:33
CameraSquad:精准运镜,多视角一致——视频世界模型的空间智能新范式

CameraSquad:精准运镜,多视角一致——视频世界模型的空间智能新范式

CameraSquad:精准运镜,多视角一致——视频世界模型的空间智能新范式

如今,CameraSquad 的出现,让这种多视角一致的视频生成与 3D 世界状态构建成为现实。近日,中国科学院大学高林研究员团队联合卡迪夫大学、香港科技大学和快手可灵团队,提出了一种面向多轨迹并行生成的相机可控视频生成方法 CameraSquad [1],相关论文已被 ACM SIGGRAPH 2026 录用。

来自主题: AI技术研报
7321 点击    2026-06-21 10:32
ICML 2026|从「鉴伪」到「修复」,AI图像取证进入闭环时代

ICML 2026|从「鉴伪」到「修复」,AI图像取证进入闭环时代

ICML 2026|从「鉴伪」到「修复」,AI图像取证进入闭环时代

对于 AI 生成图像中可能存在的不自然伪影,我们是否不仅能够将其定位和解释,还能进一步对其进行修复,使图像恢复为更加真实、自然的视觉外观?围绕这一问题,来自北京大学等机构的研究者提出了 GenShield:一个统一的自回归框架,将 AI 生成图像检测 与 图像伪影修复 结合到同一个闭环中,实现从 “诊断” 到 “修复” 的一体化建模。

来自主题: AI技术研报
7420 点击    2026-06-21 10:31
深入理解 Claude Code:从 CLAUDE.md 到 Hooks、Skills、Subagents..

深入理解 Claude Code:从 CLAUDE.md 到 Hooks、Skills、Subagents..

深入理解 Claude Code:从 CLAUDE.md 到 Hooks、Skills、Subagents..

在常规的对话外,Claude Code(也可以是 Codex)其实还提供了一些别样的控制(或者说:上下文注入)方法,比如:CLAUDE.md、Rules、Skills、Subagents、Hooks、Output Styles、以及 System Prompt Append

来自主题: AI技术研报
9566 点击    2026-06-21 00:03
LLM终于学会推公式了!博世x清华推出FunctionEvolve:LLM-SRBench提升3.6倍,AI-Feynman满分

LLM终于学会推公式了!博世x清华推出FunctionEvolve:LLM-SRBench提升3.6倍,AI-Feynman满分

LLM终于学会推公式了!博世x清华推出FunctionEvolve:LLM-SRBench提升3.6倍,AI-Feynman满分

来自博世中央研究院与清华大学的研究人员提出 FunctionEvolve 框架,在两大基准测试上大幅刷新了这项任务的结果。在 LLM-SRBench 的 129 个合成科学方程任务上,FunctionEvolve 最终给出的公式在 55.8% 的任务上与真实公式等价(SA@1 = 72/129),是此前最好结果的 3.6 倍;

来自主题: AI技术研报
7299 点击    2026-06-20 10:24
碰撞暴降45.5%、200km 0接管!港大团队:自动驾驶真正的突破不在预训练,在后训练

碰撞暴降45.5%、200km 0接管!港大团队:自动驾驶真正的突破不在预训练,在后训练

碰撞暴降45.5%、200km 0接管!港大团队:自动驾驶真正的突破不在预训练,在后训练

香港大学李弘扬团队联合华为、上海创智学院及清华大学李升波教授团队,发表的最新论文World Engine: Towards the Era of Post-Training for Autonomous Driving给出了系统回答。

来自主题: AI技术研报
7797 点击    2026-06-20 10:24
ICML 2026|Agent通讯的「运营商」哪家强?UIUC团队发布ProtocolBench

ICML 2026|Agent通讯的「运营商」哪家强?UIUC团队发布ProtocolBench

ICML 2026|Agent通讯的「运营商」哪家强?UIUC团队发布ProtocolBench

多智能体系统正在从学界走向业界。 在 Coding、Research 等真实场景里,越来越多系统不再只依赖单个 agent,而是由多个 Agent 分工协作:有人负责规划,有人负责检索,有人调用工具,

来自主题: AI技术研报
7957 点击    2026-06-20 10:21
快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了

本研究由快手科技语言大模型团队完成,核心作者吕民轩、梅铁桦、杜坦隆等。快手科技与中国科学院大学联合提出 GoLongRL,一套完全开源的长上下文强化学习后训练方案,包含 23K 样本 RLVR 数据集

来自主题: AI技术研报
7347 点击    2026-06-20 10:21
Kimi Work 推出目标模式:连肝 24 小时做了本漫画书,已开源

Kimi Work 推出目标模式:连肝 24 小时做了本漫画书,已开源

Kimi Work 推出目标模式:连肝 24 小时做了本漫画书,已开源

自从上次介绍过 Kimi Work 外加 Fable 无情下线之后,我发现我还真越来越频繁地在使用这个桌面端 APP 了。当然模型能力只是一方面,关键桌面 APP 比起网页来说,在使用上还是要方便得太多了……而且也不用关心网络切来切去啥的。

来自主题: AI技术研报
9356 点击    2026-06-19 10:18
Zvec 完全指南:从概念到实践

Zvec 完全指南:从概念到实践

Zvec 完全指南:从概念到实践

阿里开源的生产级向量数据库,跑在进程里,亿级数据毫秒响应

来自主题: AI技术研报
10209 点击    2026-06-19 10:16
ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮,Holi-Spatial打造400万级空间多模态数据集

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮,Holi-Spatial打造400万级空间多模态数据集

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮,Holi-Spatial打造400万级空间多模态数据集

从原始视频出发,无需人工介入,自动生成 3D 重建、深度、2D mask、3D 框、实例描述、3D grounding 和空间问答。Holi-Spatial 试图把「空间智能」的数据生产,推进到自动化、可扩展的新阶段。

来自主题: AI技术研报
6293 点击    2026-06-19 10:16
Agent 记忆,我们全都理解错了?

Agent 记忆,我们全都理解错了?

Agent 记忆,我们全都理解错了?

在做 Agent Memory 工程化探索的这几个月里,我经常有种被概念淹没的窒息。图结构记忆、AutoMemory、做梦机制、各种层出不穷的 Memory 框架……整个技术社区似乎陷入了一种每遇到一个新场景就要发明一套新词汇的群体焦虑中。

来自主题: AI技术研报
7784 点击    2026-06-19 09:25
ICML 2026 Spotlight | AI隐私训练时,那个最难控制的「阀门」能自动调节吗?

ICML 2026 Spotlight | AI隐私训练时,那个最难控制的「阀门」能自动调节吗?

ICML 2026 Spotlight | AI隐私训练时,那个最难控制的「阀门」能自动调节吗?

近日,来自英国南安普顿大学(University of Southampton)和广州大学的研究者团队提出 SlaClip,一种用于差分隐私随机梯度下降(DP-SGD)[1] 的自适应梯度剪裁方法。

来自主题: AI技术研报
7698 点击    2026-06-19 09:24
RAG新SOTA,还在5亿条数据上跑进秒级,只有它了

RAG新SOTA,还在5亿条数据上跑进秒级,只有它了

RAG新SOTA,还在5亿条数据上跑进秒级,只有它了

广州智跃深空人工智能科技有限公司 Zleap AI 提出的 SAG(SQL-Retrieval Augmented Generation) 出场了。其实,名字已经点题了——不是 Graph、Hippo,而是 SQL-Retrieval。它的核心想法是在离线阶段,SAG 先把原始文本先整理成「事项 + 实体」的数据库结构。等查询来了,再围绕当前问题,用 SQL 动态串出一张局部线索网。

来自主题: AI技术研报
8257 点击    2026-06-18 16:58
3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产

3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产

3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产

最近几天,一个 3B 的小模型在 X 上火了,因为在一些难度可验证的推理任务上(比如编程),它进入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能区间,而它的体积远小于这些模型。

来自主题: AI技术研报
10188 点击    2026-06-18 15:30
2天手搓商业级App!开源GLM-5.2+Image2太绝了~【附教程】

2天手搓商业级App!开源GLM-5.2+Image2太绝了~【附教程】

2天手搓商业级App!开源GLM-5.2+Image2太绝了~【附教程】

大家好,我是袋鼠帝。 如果你家的猫狗真的能说话,它们开口第一句会说什么?

来自主题: AI技术研报
9446 点击    2026-06-18 15:29
干掉 Whisper:我把 VoiceVault 迁移到 FunASR,本地转录加总结爽的飞起,已然是一枚离线录音加待办神器

干掉 Whisper:我把 VoiceVault 迁移到 FunASR,本地转录加总结爽的飞起,已然是一枚离线录音加待办神器

干掉 Whisper:我把 VoiceVault 迁移到 FunASR,本地转录加总结爽的飞起,已然是一枚离线录音加待办神器

把 VoiceVault 的转录引擎从 Whisper 迁移到 FunASR(sherpa-onnx),中文识别速度提升 3x,不再需要 500MB 的模型文件。但"切个后端"这件听起来很简单的事,让我在 GitHub Release 的 404、Tauri 白屏、trait object 生命周期和 CSP 策略里翻滚了一整天。

来自主题: AI技术研报
5541 点击    2026-06-18 15:28
英伟达GEAR实验室刚刚放出大招,物理世界的自动研究 AutoResearch 首次成为现实

英伟达GEAR实验室刚刚放出大招,物理世界的自动研究 AutoResearch 首次成为现实

英伟达GEAR实验室刚刚放出大招,物理世界的自动研究 AutoResearch 首次成为现实

AutoResearch这个词关注AI的同学应该不陌生,大神Andrej Karpathy提出的Agent 自主科研项目,现在已经是GitHub的明星项目了,应用不计其数。

来自主题: AI技术研报
7772 点击    2026-06-18 15:04
开源版AI虚拟主播来了,完全离线运行

开源版AI虚拟主播来了,完全离线运行

开源版AI虚拟主播来了,完全离线运行

还记得那个火爆全球的 AI Vtuber neuro-sama 吗?一个能实时和观众互动的 AI 虚拟主播。

来自主题: AI技术研报
8148 点击    2026-06-18 12:00
腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

腾讯混元最新开源:一套RL框架打通多个模态,庞天宇团队新作

大语言模型的RL技术已日趋成熟,多模态生成模型的强化学习训练却仍在“各自为战”——图像扩散模型一套流程、视频生成另一套标准、VLM和LLM又有不同的技术栈。

来自主题: AI技术研报
6895 点击    2026-06-18 11:25