AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
龙虾让位!硅谷顶流AI「爱马仕」一夜闯进微信,冲上全球第一

龙虾让位!硅谷顶流AI「爱马仕」一夜闯进微信,冲上全球第一

龙虾让位!硅谷顶流AI「爱马仕」一夜闯进微信,冲上全球第一

硅谷新宠Hermes Agent一夜爆火,不仅在GitHub狂揽6.6万星,更因原生接入微信让开发者全线沸腾。如今,Hermes署名的首篇「顶会级」论文也出世了。

来自主题: AI技术研报
5517 点击    2026-04-13 15:05
日嫖1000次!Qwen3.6反代API接入任意工具

日嫖1000次!Qwen3.6反代API接入任意工具

日嫖1000次!Qwen3.6反代API接入任意工具

昨天我发现 Qwen3.6“倒反天罡”。

来自主题: AI技术研报
7811 点击    2026-04-13 15:02
挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

挤干大模型高分「水分」!最强模型仅49分,南大傅朝友发布Video-MME-v2

现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及 3300 + 人工时高质量标注,揭示模型与人类的巨大鸿沟(49 vs 90)、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。

来自主题: AI技术研报
9890 点击    2026-04-13 15:01
分享一个我用了2年的深度研究Prompt,半小时帮你搞懂任何陌生领域。

分享一个我用了2年的深度研究Prompt,半小时帮你搞懂任何陌生领域。

分享一个我用了2年的深度研究Prompt,半小时帮你搞懂任何陌生领域。

前两天办完大会,然后昨天周末跟一个朋友吃饭,聊着聊着他突然放下筷子看着我说了一句,不是哥们,你怎么什么都懂一点?

来自主题: AI技术研报
9530 点击    2026-04-13 14:31
迎接范式革命:最新、最全的大模型Latent Space综述,NUS、复旦、清华等联合出品

迎接范式革命:最新、最全的大模型Latent Space综述,NUS、复旦、清华等联合出品

迎接范式革命:最新、最全的大模型Latent Space综述,NUS、复旦、清华等联合出品

从 2024 年底的关于潜在空间的早期探索,再到 2025 年底和 2026 年初的相关研究爆发,潜空间范式正在彻底重塑大模型 (LLMs, VLMs, VLAs 等延伸模型) 的底层设计逻辑。

来自主题: AI技术研报
6974 点击    2026-04-13 14:31
Harness 刚火,可能就要成为过去时了|Hao好聊论文

Harness 刚火,可能就要成为过去时了|Hao好聊论文

Harness 刚火,可能就要成为过去时了|Hao好聊论文

随着任务的复杂度提升,Agent(智能体)的上下文在无限膨胀。在无穷的历史对话、工具调用输出、中间步骤以及报错信息中,模型迷糊了,于是开始跳步、忽视、绕道。

来自主题: AI技术研报
7681 点击    2026-04-13 13:51
CVPR 2026 | 摆脱相机依赖!M4Human推动毫米波人体感知迈向新阶段

CVPR 2026 | 摆脱相机依赖!M4Human推动毫米波人体感知迈向新阶段

CVPR 2026 | 摆脱相机依赖!M4Human推动毫米波人体感知迈向新阶段

想象几个并不遥远的场景: 医院的病房里,刚做完手术的患者正在练习下床、走动,智能系统通过摄像头捕捉他的动作,判断步态是否稳定、有没有跌倒风险;回到家,在卧室或浴室这样私密的空间里,老人起身、转身、洗漱,甚至意外滑倒的瞬间,也可能被视觉传感器记录,只为了让 AI 能更早发现异常;

来自主题: AI技术研报
8264 点击    2026-04-13 13:50
大佬深度解析:Coding Agent的底层运行逻辑是什么?

大佬深度解析:Coding Agent的底层运行逻辑是什么?

大佬深度解析:Coding Agent的底层运行逻辑是什么?

在本文中,我将探讨编码智能体(coding agents)及其智能体编排(agent harnesses)的整体设计:它们究竟是什么、工作原理如何,以及在实际应用中各组件是如何协同运作的。

来自主题: AI技术研报
7269 点击    2026-04-13 13:50
Claude Code源码全拆解:55个目录、331个模块,最强Agent架构长什么样

Claude Code源码全拆解:55个目录、331个模块,最强Agent架构长什么样

Claude Code源码全拆解:55个目录、331个模块,最强Agent架构长什么样

Anthropic 的 Claude Code 源码被扒了个干干净净。55 个目录、331 个模块、目前业界最经受实战检验的 Agent 架构——全部暴露在 .map 文件里。

来自主题: AI技术研报
9349 点击    2026-04-13 13:49
南大团队直击大模型高分神话:人类90分,最强模型仅49分

南大团队直击大模型高分神话:人类90分,最强模型仅49分

南大团队直击大模型高分神话:人类90分,最强模型仅49分

现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分,以及3300+人工时高质量标注,揭示模型与人类的巨大鸿沟(49vs90)、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报
7456 点击    2026-04-13 13:48
告别浏览器封装,Hermes Desktop 为 Hermes Agent 带来纯正 Mac 体验

告别浏览器封装,Hermes Desktop 为 Hermes Agent 带来纯正 Mac 体验

告别浏览器封装,Hermes Desktop 为 Hermes Agent 带来纯正 Mac 体验

对于已经在使用强大的 Hermes Agent 的 Mac 用户来说,现在有了一款能让您的工作流更加流畅、更具原生体验的工具——Hermes Desktop。它并非一个简单的浏览器封装,而是一款专为 macOS 设计的本地应用程序,旨在将您最关心的工作流程无缝集成到一个窗口中。

来自主题: AI技术研报
5977 点击    2026-04-13 11:22
护航MiniMax、驯服小龙虾,腾讯云的AI Agent“数字总部”亮了

护航MiniMax、驯服小龙虾,腾讯云的AI Agent“数字总部”亮了

护航MiniMax、驯服小龙虾,腾讯云的AI Agent“数字总部”亮了

腾讯云“防爆箱”护航百万“龙虾”上岗,已助力MiniMax强化学习训练。

来自主题: AI技术研报
6736 点击    2026-04-13 10:14
蒸馏万物成skill,B站UP花叔开源的「女娲.skill」,一周 8k star

蒸馏万物成skill,B站UP花叔开源的「女娲.skill」,一周 8k star

蒸馏万物成skill,B站UP花叔开源的「女娲.skill」,一周 8k star

「小猫补光灯」的作者花生...啊不...这人改名叫花叔了...hhhh,又整了一个新活:一周 8000 多个 star

来自主题: AI技术研报
5746 点击    2026-04-13 10:13
同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖

同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖

同一个模型,换个Harness排名跳了25位:智能体基础设施完全解剖

LangChain 只换了模型外面的基础设施——同一个模型、同一套权重——就从 TerminalBench 2.0 排行榜 30 名开外直接跳到了第 5 名。另一个独立研究项目让大模型自己优化这层基础设施,达到了 76.4% 的通过率,超过了所有人工设计的方案。

来自主题: AI技术研报
6490 点击    2026-04-13 10:13
ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

ICRA 2026|NUS邵林团队提出T(R,O) Grasp:刷新跨智能体灵巧抓取SOTA,实现5FPS动态环境交互

T (R,O) Grasp 是一种基于物体 — 机器手空间关系建模的图扩散架构,具备跨智能体的统一表征能力。在 NVIDIA 40GB A100 GPU 上,该方法可实现 5 FPS 的推理速度和 50 grasp/s 的吞吐量,并在多种智能体上取得 94.83% 的平均抓取成功率,刷新了跨智能体灵巧抓取的 SOTA,具备与动态场景实时交互的能力。

来自主题: AI技术研报
6041 点击    2026-04-13 09:38
如何使用Hermes Agent稳定爬取公众号文章

如何使用Hermes Agent稳定爬取公众号文章

如何使用Hermes Agent稳定爬取公众号文章

Browser Use是Hermes Agent官方推荐的云端浏览器自动化提供商之一:

来自主题: AI技术研报
9526 点击    2026-04-13 09:38
ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!

ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!

ICLR 2026|隐式思考模型LRT:「隐式思维链」推理,更快更强!

近日,哈尔滨工业大学(深圳)联合深圳河套学院、Independent Researcher提出了隐式思考模型 LRT(Latent Reasoning Tuning),通过一个轻量级的推理网络,将大模型冗长的「思维链」压缩为紧凑的隐式向量表征,一次前向计算即可完成推理,无需逐 token 生成数千字的中间推理过程。

来自主题: AI技术研报
9413 点击    2026-04-13 09:35
小模型用不好Skill?新范式SKILL0让模型学会Skill的底层逻辑,3B模型推理token省5倍

小模型用不好Skill?新范式SKILL0让模型学会Skill的底层逻辑,3B模型推理token省5倍

小模型用不好Skill?新范式SKILL0让模型学会Skill的底层逻辑,3B模型推理token省5倍

浙江大学联合美团龙猫团队、清华大学推出全新研究成果——SKILL0,并提出技能内化(Skill Internalization)——小模型真正需要的,或许不是推理时的“外挂技能”,而是将技能内化为本能。

来自主题: AI技术研报
8058 点击    2026-04-12 11:56
Anthropic 官方指南:怎么给 Agent 设计工具

Anthropic 官方指南:怎么给 Agent 设计工具

Anthropic 官方指南:怎么给 Agent 设计工具

本文翻译自 Anthropic 官方博客「Seeing like an agent: how we design tools in Claude Code」,作者 Thariq Shihipar,Claude Code 团队工程师,今天发布。以下为逐段中英对照翻译

来自主题: AI技术研报
7509 点击    2026-04-12 11:28
循环即实验室:八个AI自主研究系统横评

循环即实验室:八个AI自主研究系统横评

循环即实验室:八个AI自主研究系统横评

今天 Interesting Engineering++ 发了一篇长文,把这些系统放在同一个分析框架里做了横评,回答的就是这些问题。原文地址:interestingengineering.substack.com/p/the-loop-is-the-lab

来自主题: AI技术研报
9477 点击    2026-04-11 14:22
OpenClaw的风刮到了多模态生成,6B小模型超越Nano Banana 2!

OpenClaw的风刮到了多模态生成,6B小模型超越Nano Banana 2!

OpenClaw的风刮到了多模态生成,6B小模型超越Nano Banana 2!

近日,上海人工智能实验室联合南京大学、香港中文大学及上海交通大学,将OpenClaw的成功应用于多模态生成领域。他们提出GEMS(Agent-Native Multimodal Generation with Memory and Skills),激发小模型潜力,甚至让6B小模型在部分任务超越了Nano Banana 2。

来自主题: AI技术研报
7770 点击    2026-04-11 10:36
大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练

大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练

大模型能“原地”改参数了!字节Seed&北大新论文:测试时推理无需加层重训练

字节Seed最新研究,让大模型能“原地改参数”了。既不用改模型结构,也不用重新训练,还跑得很快。具体是这么个情况。智能体时代嘛,大家都知道模型们面对的任务开始变得越来越复杂、上下文越来越长。

来自主题: AI技术研报
8136 点击    2026-04-11 10:25
多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

多模态幻觉的病因「高熵节点」找到了!全基准幻觉率下降

多模态大推理模型的幻觉,很多时候并非「没看见」,而是在最不确定的推理阶段想偏了。最新研究发现,模型在生成because、however、wait等transition words时,往往处于高熵关键节点,更容易脱离图像证据、转向语言脑补。LEAD在高熵阶段不急于输出单一离散token,而是先在潜在语义空间保留多种候选推理方向,并通过视觉锚点持续拉回图像证据,显著缓解幻觉。

来自主题: AI技术研报
8989 点击    2026-04-11 09:37
2026年第一季度,AI Agent完成了它的成人礼|2026 Q1 AI趋势白皮书

2026年第一季度,AI Agent完成了它的成人礼|2026 Q1 AI趋势白皮书

2026年第一季度,AI Agent完成了它的成人礼|2026 Q1 AI趋势白皮书

2026 年第一季度,它和另外四种完全不同的 Agent 产品形态在同一个窗口期同时冒了出来。OpenClaw 走个人助理、Cowork 走办公协作、Codex App 走长程工程任务、Perplexity Computer 走统一工作站、腾讯云 ADP 走企业平台。

来自主题: AI技术研报
7514 点击    2026-04-10 15:59
库里被「采访」、杨紫被「演」短剧?别慌!蚂蚁AI鉴真拿下CVPR 2026冠军,专治黑产

库里被「采访」、杨紫被「演」短剧?别慌!蚂蚁AI鉴真拿下CVPR 2026冠军,专治黑产

库里被「采访」、杨紫被「演」短剧?别慌!蚂蚁AI鉴真拿下CVPR 2026冠军,专治黑产

最近,计算机视觉领域的顶级会议 CVPR 2026 的 NTIRE 鲁棒性 AIGC 图像检测挑战赛( Robust AI-Generated Image Detection in the Wild Challenge )结果出炉。蚂蚁集团 AI 安全实验室的队伍 MICV 凭借在鲁棒性测试样本上 ROC AUC 达到了惊人的 0.9723,成功摘得「复杂真实场景鲁棒性样本测试」挑战赛的冠军。

来自主题: AI技术研报
9458 点击    2026-04-10 15:57
视频生成不再「断片」:OneStory给模型装上「选择性记忆」,跨镜头讲故事人物场景始终如一丨CVPR'26

视频生成不再「断片」:OneStory给模型装上「选择性记忆」,跨镜头讲故事人物场景始终如一丨CVPR'26

视频生成不再「断片」:OneStory给模型装上「选择性记忆」,跨镜头讲故事人物场景始终如一丨CVPR'26

最近,来自Meta与University of Copenhagen的研究者提出了OneStory: Coherent Multi-Shot Video Generation with Adaptive Memory(收录于CVPR 2026)。这项工作聚焦于一个核心问题:如何在生成多镜头视频时,有效保留长程跨镜头上下文,从而实现更强的叙事一致性。

来自主题: AI技术研报
6509 点击    2026-04-10 15:36
Claude Managed Agents完整上手指南

Claude Managed Agents完整上手指南

Claude Managed Agents完整上手指南

Anthropic 刚刚给所有开发者发了一张快车票。Claude Managed Agents 正式公测,你不需要自己搭 Docker、写沙箱、管状态、做错误恢复——三个 API 调用,十分钟,一个生产级智能体就跑起来了。

来自主题: AI技术研报
8096 点击    2026-04-10 09:42