AI资讯新闻榜单内容搜索-推理模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 推理模型
腾讯混元推出首款开源混合推理模型:擅长Agent工具调用和长文理解

腾讯混元推出首款开源混合推理模型:擅长Agent工具调用和长文理解

腾讯混元推出首款开源混合推理模型:擅长Agent工具调用和长文理解

6 月 27 日,腾讯混元宣布开源首个混合推理 MoE 模型 Hunyuan-A13B,总参数 80B,激活参数仅 13B,效果比肩同等架构领先开源模型,但是推理速度更快,性价比更高。模型已经在 Github 和 Huggingface 等开源社区上线,同时模型 API 也在腾讯云官网正式上线,支持快速接入部署。

来自主题: AI资讯
5425 点击    2025-06-28 17:49
突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR

Deepseek 的 R1、OpenAI 的 o1/o3 等推理模型的出色表现充分展现了 RLVR(Reinforcement Learning with Verifiable Reward

来自主题: AI技术研报
8115 点击    2025-06-27 10:03
从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

从RLHF、PPO到GRPO再训练推理模型,这是你需要的强化学习入门指南

强化学习(RL)已经成为当今 LLM 不可或缺的技术之一。从大模型对齐到推理模型训练再到如今的智能体强化学习(Agentic RL),你几乎能在当今 AI 领域的每个领域看到强化学习的身影。

来自主题: AI技术研报
5763 点击    2025-06-22 16:08
坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!

坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!

坏了!R1的秘密被Deepmind发现了!「啊哈时刻」首次被披露,现已可量化!

自年初起,DeepSeek-R1、OpenAI o3、Qwen3等推理模型相继问世,展现出令人惊叹的智能水平,但它们为什么突然变得这么聪明?东京大学联合Google DeepMind的研究者们终于找到了答案。

来自主题: AI资讯
5551 点击    2025-06-21 13:01
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%

大型推理模型(LRMs)在解决复杂任务时展现出的强大能力令人惊叹,但其背后隐藏的安全风险不容忽视。

来自主题: AI技术研报
7108 点击    2025-06-14 12:35
四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

四万字·深度求索|泛聊一下强化学习(RL)下的深度推理(DR)对真实世界(RW)建模与泛化的本质

强化学习·RL范式尝试为LLMs应用于广泛的Agentic AI甚至构建AGI打开了一扇“深度推理”的大门,而RL是否是唯一且work的一扇门,先按下不表(不作为今天跟大家唠的重点),至少目前看来,随着o1/o3/r1/qwq..等一众语言推理模型的快速发展,正推动着LLMs和Agentic AI在不同领域的价值与作用,

来自主题: AI技术研报
7929 点击    2025-06-13 10:48
1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了

1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了

1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了

推理模型开始「自言自语」、量子计算进入临界点……AI大航海时代已然启航,这不是一次产品发布会,而是未来的预言书。巴黎GTC大会,黄仁勋开讲了!这次他脱下了皮衣。

来自主题: AI资讯
6047 点击    2025-06-12 18:59
别再信“LRM无需优化提示词”了,你至少输掉23%的性能,以R1为例

别再信“LRM无需优化提示词”了,你至少输掉23%的性能,以R1为例

别再信“LRM无需优化提示词”了,你至少输掉23%的性能,以R1为例

还记得DeepSeek-R1发布时AI圈的那波狂欢吗?"提示工程已死"、"再也不用费心写复杂提示了"、"推理模型已经聪明到不再需要学习提示词了"......这些观点在社交媒体上刷屏,连不少技术大佬都在转发。再到最近,“提示词写死了”......现实总是来得这么快——乔治梅森大学的研究者们用一个严谨得让人无法反驳的实验,狠狠打了所有人的脸!

来自主题: AI技术研报
7072 点击    2025-06-12 11:59