AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

无损加速视觉语言模型推理!轻松剪掉视觉冗余Token|腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型(LVLM)变得越来越聪明,但也越来越“吃不消”:视觉Token数量的激增所带来的推理成本暴涨,正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报
5938 点击    2025-07-05 19:00
4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

4000万样本炼出AI读心术,刷新七榜SOTA,最强「人类偏好感应器」开源

Skywork-Reward-V2全新发布!巧妙构建超高质量的千万级人类偏好样本,刷新七大评测基准SOTA表现。8款模型覆盖6亿至80亿参数,小体积也能媲美大模型性能。

来自主题: AI技术研报
5823 点击    2025-07-05 14:00
10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

10分钟搞定Excel世锦赛难题!首个超越人类Excel Agent,网友:想给它磕一个

这个AI让打工人「磕头」致谢。 前段时间,我们报道了 5 款大模型参加了今年山东高考的事儿,为了弄清楚各大模型在 9 个科目中的具体表现,我们对着测评明细表挨个儿分析,搞得狼狈又崩溃。要是哪个 AI 能一键分析表格,我当场就能给它磕一个。

来自主题: AI技术研报
6067 点击    2025-07-05 13:41
vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo突破手机AI部署难题,绕开MoE架构限制,骁龙8 Elite流畅运行|ICCV 2025

vivo AI研究院联合港中文以及上交团队为了攻克这些难题,从训练数据和模型结构两方面,系统性地分析了如何在MLLM训练中维持纯语言能力,并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。

来自主题: AI技术研报
5741 点击    2025-07-05 13:12
首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

首个GUI多模态大模型智能体可信评测框架+基准:MLA-Trust

MLA-Trust 是首个针对图形用户界面(GUI)环境下多模态大模型智能体(MLAs)的可信度评测框架。该研究构建了涵盖真实性、可控性、安全性与隐私性四个核心维度的评估体系,精心设计了 34 项高风险交互任务,横跨网页端与移动端双重测试平台,对 13 个当前最先进的商用及开源多模态大语言模型智能体进行深度评估,系统性揭示了 MLAs 从静态推理向动态交互转换过程中所产生的可信度风险。

来自主题: AI技术研报
6410 点击    2025-07-05 13:02
Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

Agent RL和智能体自我进化的关键一步: TaskCraft实现复杂智能体任务的自动生成

近年来,基于智能体的强化学习(Agent + RL)与智能体优化(Agent Optimization)在学术界引发了广泛关注。然而,实现具备工具调用能力的端到端智能体训练,首要瓶颈在于高质量任务数据的极度稀缺。

来自主题: AI技术研报
5846 点击    2025-07-05 12:46
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。

来自主题: AI技术研报
5268 点击    2025-07-05 12:33
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破

大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。 基于人类反馈的强化学习(RLHF)就是用来解决这个问题的,其中的奖励模型 (Reward Model, RM)扮演着重要的裁判作用,它专门负责给 LLM 生成的内容打分,告诉模型什么是好,什么是不好,可以保证大模型的「三观」正确。

来自主题: AI技术研报
5964 点击    2025-07-05 12:10
AI科学家组团搞科研,爆肝万字报告震惊医学家!Nature独刊揭秘细节

AI科学家组团搞科研,爆肝万字报告震惊医学家!Nature独刊揭秘细节

AI科学家组团搞科研,爆肝万字报告震惊医学家!Nature独刊揭秘细节

谷歌、斯坦福等陆续推出「AI科学家」,协助人类科学家推动科研范式革新。科学家亲身试用后或震惊其洞察之深,或质疑其缺乏灵感与人性温度,AI能代替人类思考吗?

来自主题: AI技术研报
7068 点击    2025-07-04 12:15
登上热搜!Prompt不再是AI重点,新热点是Context Engineering

登上热搜!Prompt不再是AI重点,新热点是Context Engineering

登上热搜!Prompt不再是AI重点,新热点是Context Engineering

最近「上下文工程」有多火?Andrej Karpathy 为其打 Call,Phil Schmid 介绍上下文工程的文章成为 Hacker News 榜首,还登上了知乎热搜榜。

来自主题: AI技术研报
5247 点击    2025-07-04 10:57
Nature研究遭质疑:像人类一样思考的AI,竟有点“荒谬”?

Nature研究遭质疑:像人类一样思考的AI,竟有点“荒谬”?

Nature研究遭质疑:像人类一样思考的AI,竟有点“荒谬”?

人工智能(AI),如果可以像人类一样“思考”,或许能够帮助我们理解人类的思维方式,尤其是不同心理状态(如抑郁或焦虑)的人群如何做出决策,进而为人类健康研究提供一个新视角。

来自主题: AI技术研报
5185 点击    2025-07-04 10:48
ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

ICML 2025 Oral工作再升级!上海AI Lab联合复旦、港中文推出支持更长视频理解的最佳工具VideoRoPE++

虽然旋转位置编码(RoPE)及其变体因其长上下文处理能力而被广泛采用,但将一维 RoPE 扩展到具有复杂时空结构的视频领域仍然是一个悬而未决的挑战。

来自主题: AI技术研报
7417 点击    2025-07-04 10:44
推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

推理AI致命弱点,大模型变「杠精」!被带偏后死不悔改

DeepMind新研究揭示了当与推理无关的想法,被直接注入到模型的推理过程中时,它们却难以恢复,而且越大的模型越难恢复。

来自主题: AI技术研报
8065 点击    2025-07-04 10:36
别瞧不起「提示词」芝大论文爆火:Prompt Science已被定义

别瞧不起「提示词」芝大论文爆火:Prompt Science已被定义

别瞧不起「提示词」芝大论文爆火:Prompt Science已被定义

最近网上出现了一些很有趣的声音——"提示词已死"、"写提示词把自己写死了",这些文章认为随着模型变得越来越智能,精心设计提示词的时代已经过去了。但芝加哥大学的最新研究却给出了完全相反的结论:prompt不仅没有死,反而是理解大模型最重要的科学工具。

来自主题: AI技术研报
6590 点击    2025-07-04 09:55
Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model )+ PPO,③ 可验证奖励 (Verifiable Reward)+ GRPO(DeepSeek R1)。

来自主题: AI技术研报
6197 点击    2025-07-04 09:44
智源OmniGen2登场,国产多模态图像生成开源!一周狂揽2000星外网爆火

智源OmniGen2登场,国产多模态图像生成开源!一周狂揽2000星外网爆火

智源OmniGen2登场,国产多模态图像生成开源!一周狂揽2000星外网爆火

智源统一图像生成模型OmniGen2发布后,立刻在AI图像生成领域掀起巨响,多模态技术生态进一步打通。才一周,GitHub星标就已经破了2000,X上的话题浏览数直接破数十万。

来自主题: AI技术研报
5475 点击    2025-07-03 19:04
首次!世界模型、动作模型融合,全自回归模型WorldVLA来了

首次!世界模型、动作模型融合,全自回归模型WorldVLA来了

首次!世界模型、动作模型融合,全自回归模型WorldVLA来了

阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。

来自主题: AI技术研报
5972 点击    2025-07-03 18:59
本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

本地LLM万字救场指南来了!全网超全AI实测:4卡狂飙70B大模型

AI非上云不可、非集群不能?万字实测告诉你,32B卡不卡?70B是不是智商税?要几张卡才能撑住业务? 全网最全指南教你如何用最合适的配置,跑出最强性能。

来自主题: AI技术研报
5918 点击    2025-07-03 18:53
谢赛宁团队新作:不用提示词精准实现3D画面控制

谢赛宁团队新作:不用提示词精准实现3D画面控制

谢赛宁团队新作:不用提示词精准实现3D画面控制

曾几何时,用文字生成图像已经变得像用笔作画一样稀松平常。

来自主题: AI技术研报
5459 点击    2025-07-03 18:16
ChatGPT惨败Llama!MIT官宣AI开飞船0%失败率,马斯克火星殖民不再是梦

ChatGPT惨败Llama!MIT官宣AI开飞船0%失败率,马斯克火星殖民不再是梦

ChatGPT惨败Llama!MIT官宣AI开飞船0%失败率,马斯克火星殖民不再是梦

MIT最新研究让LLM直接操控宇宙飞船进行太空追逐挑战赛:ChatGPT少量微调即获第二,开源Llama更胜一筹,凭提示词精准追踪卫星、节省燃料,更是0%失败率,验证AI小数据高效与自主航天可行,为未来的太空漫游铺路。

来自主题: AI技术研报
6415 点击    2025-07-03 11:48
Bengio亲手戳穿CoT神话!LLM推理是假象,25%顶会论文遭打脸

Bengio亲手戳穿CoT神话!LLM推理是假象,25%顶会论文遭打脸

Bengio亲手戳穿CoT神话!LLM推理是假象,25%顶会论文遭打脸

原来,CoT推理竟是假象!Bengio带队最新论文戳穿了CoT神话——我们所看到的推理步骤,并非是真实的。不仅如此,LLM在推理时会悄然纠正错误,却在CoT中只字未提。

来自主题: AI技术研报
8084 点击    2025-07-03 11:09
让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统

让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统

让GUI智能体不再「过度执行」,上海交大、Meta联合发布OS-Kairos系统

本文第一作者是上海交通大学计算机学院三年级博士生程彭洲,研究方向为多模态大模型推理、AI Agent、Agent 安全等。通讯作者为张倬胜助理教授和刘功申教授。

来自主题: AI技术研报
8149 点击    2025-07-03 11:03
超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

超CLIP准确率11%!伯克利港大阐明「LLM文本-视觉」对齐深层机制

多模态对齐模型借助对比学习在检索与生成任务中大放异彩。最新趋势是用冻结的大语言模型替换自训文本编码器,从而在长文本与大数据场景中降低算力成本。LIFT首次系统性地剖析了此范式的优势来源、数据适配性、以及关键设计选择,在组合语义理解与长文本任务上观察到大幅提升。

来自主题: AI技术研报
5836 点击    2025-07-03 11:00
AI Agent、传统聊天机器人有何区别?如何评测?这篇30页综述讲明白了

AI Agent、传统聊天机器人有何区别?如何评测?这篇30页综述讲明白了

AI Agent、传统聊天机器人有何区别?如何评测?这篇30页综述讲明白了

自从 Transformer 问世,NLP 领域发生了颠覆性变化。大语言模型极大提升了文本理解与生成能力,成为现代 AI 系统的基础。而今,AI 正不断向前,具备自主决策和复杂交互能力的新一代 AI Agent 也正加速崛起。

来自主题: AI技术研报
4642 点击    2025-07-03 10:31
普通人用Gemini CLI提效的 1 万种方法!藏师傅保姆级教程

普通人用Gemini CLI提效的 1 万种方法!藏师傅保姆级教程

普通人用Gemini CLI提效的 1 万种方法!藏师傅保姆级教程

大家好,这里是歸藏(guizang),分享一下 Gemini CLI 不写代码能有多好用! 前几天最近随着 Claude Code 这个命令行 AI 代码工具的火爆,谷歌也耐不住寂寞推出了自己的同类产品 Gemini CLI,而且完全免费,非常顶。

来自主题: AI技术研报
6777 点击    2025-07-03 10:22