AI资讯新闻榜单内容搜索-LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLM
重塑记忆架构:LLM正在安装「操作系统」

重塑记忆架构:LLM正在安装「操作系统」

重塑记忆架构:LLM正在安装「操作系统」

超长上下文窗口的大模型也会经常「失忆」,「记忆」也是需要管理的。

来自主题: AI技术研报
8201 点击    2025-07-16 16:26
AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

AI进化时间表已现!LLM每7个月能力翻倍,2030年职场不复存在?

LLM正以前所未有的速度进化:METR发现,它们的智能每7个月就翻一番。到了2030年,一个模型可能只需几小时,就能搞定人类工程师几个月的工作。别眨眼,你的岗位或许已在倒计时中。

来自主题: AI技术研报
6669 点击    2025-07-15 10:24
比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

比Adam更有效,POET从谱不变原理出发,让LLM训练又稳又快

Zeju Qiu和Tim Z. Xiao是德国马普所博士生,Simon Buchholz和Maximilian Dax担任德国马普所博士后研究员

来自主题: AI技术研报
9168 点击    2025-07-15 10:11
ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

ICCV 2025 | 清华&腾讯混元X发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

多模态大模型通常是在大型预训练语言模型(LLM)的基础上扩展而来。尽管原始的 LLM 并不具备视觉理解能力,但经过多模态训练后,这些模型却能在各类视觉相关任务中展现出强大的表现。

来自主题: AI技术研报
7089 点击    2025-07-15 10:07
ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面

ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面

ACL 2025|自我怀疑还是自我纠正?清华团队揭示LLMs反思技术的暗面

反思技术因其简单性和有效性受到了广泛的研究和应用,具体表现为在大语言模型遇到障碍或困难时,提示其“再想一下”,可以显著提升性能 [1]。然而,2024 年谷歌 DeepMind 的研究人员在一项研究中指出,大模型其实分不清对与错,如果不是仅仅提示模型反思那些它回答错误的问题,这样的提示策略反而可能让模型更倾向于把回答正确的答案改错 [2]。

来自主题: AI技术研报
7195 点击    2025-07-14 15:40
告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜

使用过程奖励模型(PRM)强化大语言模型的推理能力已在纯文本任务中取得显著成果,但将过程奖励模型扩展至多模态大语言模型(MLLMs)时,面临两大难题:

来自主题: AI技术研报
7744 点击    2025-07-12 11:58
全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

最近,Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务,OpenAI o3领跑全场,DeepSeek紧追Gemini挤入前四!不过从结果来看,要猜中科研人的偏好,自动评估系统远未及格。

来自主题: AI技术研报
7666 点击    2025-07-11 17:12
打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench

当前,大语言模型(LLMs)在编程领域的能力受到广泛关注,相关论断在市场中普遍存在,例如 DeepMind 的 AlphaCode 曾宣称达到人类竞技编程选手的水平

来自主题: AI技术研报
9090 点击    2025-07-11 17:05
LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

LLM「拒绝回答」难题有救了!最新研究让AI学会人情世故 | COLM'25

最新研究发现,模型的规模和通用语言能力与其处理敏感内容的判断能力并无直接关联,甚至开源模型表现的更好。

来自主题: AI技术研报
8697 点击    2025-07-11 16:10