AI资讯新闻榜单内容搜索-LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLM
142页长文揭秘DeepSeek-R1「思维大脑」!开启全新「思维链学」研究

142页长文揭秘DeepSeek-R1「思维大脑」!开启全新「思维链学」研究

142页长文揭秘DeepSeek-R1「思维大脑」!开启全新「思维链学」研究

DeepSeek-R1是近年来推理模型领域的一颗新星,它不仅突破了传统LLM的局限,还开启了全新的研究方向「思维链学」(Thoughtology)。这份长达142页的报告深入剖析了DeepSeek-R1的推理过程,揭示了其推理链的独特结构与优势,为未来推理模型的优化提供了重要启示。

来自主题: AI技术研报
8196 点击    2025-04-22 18:59
连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

连Claude 3.5都败下阵来,大语言模型能否定位软件服务的故障根因?

论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。贺品嘉老师团队的研究重点是软件工程、LLM for DevOps、大模型安全。

来自主题: AI技术研报
5887 点击    2025-04-22 17:58
扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

扩散LLM推理用上类GRPO强化学习!优于单独SFT,UCLA、Meta新框架d1开源

当前,强化学习(RL)方法在最近模型的推理任务上取得了显著的改进,比如 DeepSeek-R1、Kimi K1.5,显示了将 RL 直接用于基础模型可以取得媲美 OpenAI o1 的性能不过,基于 RL 的后训练进展主要受限于自回归的大语言模型(LLM),它们通过从左到右的序列推理来运行。

来自主题: AI技术研报
5310 点击    2025-04-22 08:39
LeCun被痛批:你把Meta搞砸了!烧掉千亿算力,自曝折腾20年彻底失败

LeCun被痛批:你把Meta搞砸了!烧掉千亿算力,自曝折腾20年彻底失败

LeCun被痛批:你把Meta搞砸了!烧掉千亿算力,自曝折腾20年彻底失败

「一位顶尖科学家,有数千亿美元的资源,却仍然能把Meta搞砸了!」最近,圈内对LeCun的埋怨和批评,似乎越来越压不住了。有人批评说,Meta之所以溃败,LeCun的教条主义就是罪魁祸首。但LeCun却表示,自己尝试了20年自回归预测,彻底失败了,所以如今才给LLM判死刑!

来自主题: AI技术研报
9126 点击    2025-04-21 10:40
让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度

让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度

让DeepSeek更可靠!清华提出Hyper-RAG,用超图提升知识建模精准度

Hyper-RAG利用超图同时捕捉原始数据中的低阶和高阶关联信息,最大限度地减少知识结构化带来的信息丢失,从而减少大型语言模型(LLM)的幻觉。

来自主题: AI技术研报
6150 点击    2025-04-21 10:23
两个脑袋比一个好。自适应Multi-Agent框架M500实现41%的提升。| 最新

两个脑袋比一个好。自适应Multi-Agent框架M500实现41%的提升。| 最新

两个脑袋比一个好。自适应Multi-Agent框架M500实现41%的提升。| 最新

Two Heads are Better Than One"(两个脑袋比一个好/双Agent更优)源自英语中的一句古老谚语。MAS-TTS框架的研究者将这一朴素智慧应用到LLM中,创造性地让多个智能体协同工作,如同专家智囊团。

来自主题: AI技术研报
7676 点击    2025-04-19 13:39
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌

Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌

Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌

4 月 14 日,谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲,主题为「AI 的重要趋势:我们是如何走到今天的,我们现在能做什么,以及我们如何塑造 AI 的未来?」

来自主题: AI技术研报
7151 点击    2025-04-18 14:40
迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

迈向推理时代:900+篇参考文献揭示长链思维的前世今生,最全综述来了

近年来,大模型(Large Language Models, LLMs)在数学、编程等复杂任务上取得突破,OpenAI-o1、DeepSeek-R1 等推理大模型(Reasoning Large Language Models,RLLMs)表现尤为亮眼。但它们为何如此强大呢?

来自主题: AI技术研报
8305 点击    2025-04-16 15:00
AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

AI涌现人类情感!希腊「乐之神」Orpheus开源,单卡可跑语音流式推理

开源语音模型Orpheus让LLM涌现出人类情感!在A100 40GB显卡上,30亿参数模型的流式推理速度甚至超过了音频播放速度。甚至可以zero-shot克隆声音。

来自主题: AI技术研报
6125 点击    2025-04-15 15:26