AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AI智能体开发指南(2025版)

AI智能体开发指南(2025版)

AI智能体开发指南(2025版)

一位肉身行为体对人工智能体的独家指南

来自主题: AI技术研报
6704 点击    2025-07-07 11:35
750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集

750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集

750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集

现在,国内研究机构就从数据基石的角度出发,拿出了还原真实动态世界的新进展:上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构聚焦世界生成的第一步——世界探索,联合推出一个持续迭代的高质量视频数据集项目——Sekai(日语意为“世界”),服务于交互式视频生成、视觉导航、视频理解等任务,旨在利用图像、文本或视频构建一个动态且真实的世界,可供用户不受限制进行交互探索。

来自主题: AI技术研报
6163 点击    2025-07-07 11:22
Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准

大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力?

来自主题: AI技术研报
6156 点击    2025-07-07 10:39
集成20+先进算法,优于GPT-4o,自主因果分析智能体来了

集成20+先进算法,优于GPT-4o,自主因果分析智能体来了

集成20+先进算法,优于GPT-4o,自主因果分析智能体来了

想象这样一个场景:你是一位生物学家,手握基因表达数据,直觉告诉你某些基因之间存在调控关系,但如何科学地验证这种关系?你听说过 "因果发现" 这个词,但对于具体算法如 PC、GES 就连名字都非常陌生。

来自主题: AI技术研报
7026 点击    2025-07-07 10:22
Diffusion约2倍无损加速!训练-推理协同的缓存学习框架来了| HKUST&北航&商汤

Diffusion约2倍无损加速!训练-推理协同的缓存学习框架来了| HKUST&北航&商汤

Diffusion约2倍无损加速!训练-推理协同的缓存学习框架来了| HKUST&北航&商汤

面对扩散模型推理速度慢、成本高的问题,HKUST&北航&商汤提出了全新缓存加速方案——HarmoniCa:训练-推理协同的特征缓存加速框架,突破DiT架构在部署端的速度瓶颈,成功实现高性能无损加速。

来自主题: AI技术研报
6612 点击    2025-07-06 15:05
原来Scaling Law还能被优化?Meta这招省token又提效

原来Scaling Law还能被优化?Meta这招省token又提效

原来Scaling Law还能被优化?Meta这招省token又提效

2017 年,一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭,其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后,AI 领域的发展更是进入了快车道。

来自主题: AI技术研报
6054 点击    2025-07-06 14:56
OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

OAI/谷歌/DeepSeek首次合体「AI梦之队」!战力飙升30%,碾压一切单模型

三个前沿AI能融合成AGI吗?Sakana AI提出Multi-LLM AB-MCTS方法,整合o4-mini、Gemini-2.5-Pro与DeepSeek-R1-0528模型,在推理过程中动态协作,通过试错优化生成过程,有效融合群体AI智慧。

来自主题: AI技术研报
7114 点击    2025-07-06 13:06
华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

大模型越来越大,通用能力越来越强,但一遇到数学、科学、逻辑这类复杂问题,还是常“翻车”。为破解这一痛点,华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林(Forest-of-Thought,FoT)。

来自主题: AI技术研报
6703 点击    2025-07-06 11:54
LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节

LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节

LeCun团队揭示LLM语义压缩本质:极致统计压缩牺牲细节

那问题来了:大型语言模型(LLM)虽然语言能力惊人,但它们在语义压缩方面能做出和人类一样的权衡吗?为探讨这一问题,图灵奖得主LeCun团队,提出了一种全新的信息论框架。该框架通过对比人类与LLM在语义压缩中的策略,揭示了两者在压缩效率与语义保真之间的根本差异:LLM偏向极致的统计压缩,而人类更重细节与语境。

来自主题: AI技术研报
5297 点击    2025-07-06 11:17
GitHub上5.4k+Star爆火,构建生产级Agent 的12因素

GitHub上5.4k+Star爆火,构建生产级Agent 的12因素

GitHub上5.4k+Star爆火,构建生产级Agent 的12因素

这是一篇在GitHub上获得5.3k+星标的重要技术文档,其中蕴含的洞察值得每一位AI产品开发者深度思考。

来自主题: AI技术研报
6190 点击    2025-07-06 11:04
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越“吃不消”:视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报
6198 点击    2025-07-05 19:00
4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

Skywork-Reward-V2全新发布!巧妙构建超高质量的千万级人类偏好样本,刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数,小体积也能媲美大模型性能。

来自主题: AI技术研报
6122 点击    2025-07-05 14:00
10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

这个AI让打工人「磕头」致谢。 前段时间,我们报道了 5 款大模型参加了今年山东高考的事儿,为了弄清楚各大模型在 9 个科目中的具体表现,我们对着测评明细表挨个儿分析,搞得狼狈又崩溃。要是哪个 AI 能一键分析表格,我当场就能给它磕一个。

来自主题: AI技术研报
6340 点击    2025-07-05 13:41
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo AI研究院联合港中文以及上交团队为了攻克这些难题,从训练数据和模型结构两方面,系统性地分析了如何在MLLM训练中维持纯语言能力,并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。

来自主题: AI技术研报
6019 点击    2025-07-05 13:12
首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报
6662 点击    2025-07-05 13:02
Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报
6115 点击    2025-07-05 12:46
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。

来自主题: AI技术研报
5494 点击    2025-07-05 12:33
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。 基于人类反馈的强化学习(RLHF)就是用来解决这个问题的,其中的奖励模型 (Reward Model, RM)扮演着重要的裁判作用,它专门负责给 LLM 生成的内容打分,告诉模型什么是好,什么是不好,可以保证大模型的「三观」正确。

来自主题: AI技术研报
6307 点击    2025-07-05 12:10
AI科学家组团搞科研,爆肝万字报告震惊医学家!Nature独刊揭秘细节

AI科学家组团搞科研,爆肝万字报告震惊医学家!Nature独刊揭秘细节

AI科学家组团搞科研,爆肝万字报告震惊医学家!Nature独刊揭秘细节

谷歌、斯坦福等陆续推出「AI科学家」,协助人类科学家推动科研范式革新。科学家亲身试用后或震惊其洞察之深,或质疑其缺乏灵感与人性温度,AI能代替人类思考吗?

来自主题: AI技术研报
7329 点击    2025-07-04 12:15
登上热搜!Prompt不再是AI重点,新热点是Context Engineering

登上热搜!Prompt不再是AI重点,新热点是Context Engineering

登上热搜!Prompt不再是AI重点,新热点是Context Engineering

最近「上下文工程」有多火?Andrej Karpathy 为其打 Call,Phil Schmid 介绍上下文工程的文章成为 Hacker News 榜首,还登上了知乎热搜榜。

来自主题: AI技术研报
5538 点击    2025-07-04 10:57
Nature研究遭质疑:像人类一样思考的AI,竟有点“荒谬”?

Nature研究遭质疑:像人类一样思考的AI,竟有点“荒谬”?

Nature研究遭质疑:像人类一样思考的AI,竟有点“荒谬”?

人工智能(AI),如果可以像人类一样“思考”,或许能够帮助我们理解人类的思维方式,尤其是不同心理状态(如抑郁或焦虑)的人群如何做出决策,进而为人类健康研究提供一个新视角。

来自主题: AI技术研报
5418 点击    2025-07-04 10:48
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

虽然旋转位置编码(RoPE)及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。

来自主题: AI技术研报
7664 点击    2025-07-04 10:44
推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

DeepMind新研究揭示了当与推理无关的想法,被直接注入到模型的推理过程中时,它们却难以恢复,而且越大的模型越难恢复。

来自主题: AI技术研报
8273 点击    2025-07-04 10:36
别瞧不起「提示词」芝大论文爆火:Prompt Science已被定义

别瞧不起「提示词」芝大论文爆火:Prompt Science已被定义

别瞧不起「提示词」芝大论文爆火:Prompt Science已被定义

最近网上出现了一些很有趣的声音——"提示词已死"、"写提示词把自己写死了",这些文章认为随着模型变得越来越智能,精心设计提示词的时代已经过去了。但芝加哥大学的最新研究却给出了完全相反的结论:prompt不仅没有死,反而是理解大模型最重要的科学工具。

来自主题: AI技术研报
6837 点击    2025-07-04 09:55
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。

来自主题: AI技术研报
6496 点击    2025-07-04 09:44
智源OmniGen2登场,国产多模态图像生成开源!一周狂揽2000星外网爆火

智源OmniGen2登场,国产多模态图像生成开源!一周狂揽2000星外网爆火

智源OmniGen2登场,国产多模态图像生成开源!一周狂揽2000星外网爆火

智源统一图像生成模型OmniGen2发布后,立刻在AI图像生成领域掀起巨响,多模态技术生态进一步打通。才一周,GitHub星标就已经破了2000,X上的话题浏览数直接破数十万。

来自主题: AI技术研报
5702 点击    2025-07-03 19:04
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了

首次!世界模型、动作模型融合,全自回归模型WorldVLA来了

首次!世界模型、动作模型融合,全自回归模型WorldVLA来了

阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。

来自主题: AI技术研报
6246 点击    2025-07-03 18:59
本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

AI非上云不可、非集群不能?万字实测告诉你,32B卡不卡?70B是不是智商税?要几张卡才能撑住业务? 全网最全指南教你如何用最合适的配置,跑出最强性能。

来自主题: AI技术研报
6132 点击    2025-07-03 18:53