AI资讯新闻榜单内容搜索-语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语言模型
物理AI的「原生」时刻:原力灵机发布具身大模型DM0

物理AI的「原生」时刻:原力灵机发布具身大模型DM0

物理AI的「原生」时刻:原力灵机发布具身大模型DM0

当前,大语言模型(LLMs)和视觉语言模型(VLMs)在语义领域的成功未能直接迁移至物理机器人,归根结底在于其互联网原生的基因。

来自主题: AI技术研报
5881 点击    2026-03-11 15:04
Anthropic工程师都离不开!深夜随手撸出的开源神器,被OpenAl高价收购,23人创业逆袭

Anthropic工程师都离不开!深夜随手撸出的开源神器,被OpenAl高价收购,23人创业逆袭

Anthropic工程师都离不开!深夜随手撸出的开源神器,被OpenAl高价收购,23人创业逆袭

昨日,OpenAI 宣布收购了 Promptfoo 以保障其 AI 智能体的安全。这家成立于 2024 年的 AI 安全初创公司,专注于保护大语言模型免受网络攻击。OpenAI 在一篇博客文章中表示,交易完成后,Promptfoo 的技术将整合进 OpenAI Frontier,该平台是其近期推出的、供企业构建和管理 AI 智能体的平台。

来自主题: AI资讯
10338 点击    2026-03-10 15:09
从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述

从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述

从训练到推理的「瘦身」演进:首篇高效扩散语言模型(dLLM)深度综述

在生成式 AI 的浪潮中,自回归(Autoregressive, AR)模型凭借其卓越的性能占据了统治地位。然而,其「从左到右」逐个预测 Token 的串行机制,天生限制了并行生成的可能性。

来自主题: AI技术研报
6337 点击    2026-03-10 14:29
ICLR 2026|早于DeepSeek Engram,STEM已重构Transformer「记忆」

ICLR 2026|早于DeepSeek Engram,STEM已重构Transformer「记忆」

ICLR 2026|早于DeepSeek Engram,STEM已重构Transformer「记忆」

近年来,随着大语言模型规模与知识密度不断提升,研究者开始重新思考一个更本质的问题:模型中的参数应如何被组织,才能更高效地充当「记忆」。

来自主题: AI技术研报
8110 点击    2026-03-10 09:31
CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

CVPR 2026 | AI寒武纪时刻?字节世界模型新作,仅靠视觉学习真实世界知识

视觉世界模型 “VideoWorld 2” 由豆包大模型团队与北京交通大学联合提出。不同于 Sora 2 、Veo 3、Wan 2.2 等主流多模态模型,VideoWorld 系列工作在业界首次实现无需依赖语言模型,即可认知世界。

来自主题: AI技术研报
5741 点击    2026-03-09 14:29
让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

让搜索Agent不「傻等」:人大团队依托扩散模型实现「一心二用」,边等搜索结果边思考,加速15%性能不减

中国人民大学团队在论文DLLM-Searcher中,第一次让扩散大语言模型(dLLM)学会了这种“一心二用”的本事。目前主流的搜索Agent,不管是Search-R1还是R1Searcher,用的都是ReAct框架。这个框架的执行流程是严格串行的:

来自主题: AI技术研报
8024 点击    2026-03-02 10:00
DeepSeek新论文来了!联手清华、北大,优化智能体大模型推理

DeepSeek新论文来了!联手清华、北大,优化智能体大模型推理

DeepSeek新论文来了!联手清华、北大,优化智能体大模型推理

「DeepSeek V4 来了!」这样的消息是不是已经听烦了?总结来说,这篇新论文介绍了一个名为「DualPath」的创新推理系统,专门针对智能体工作负载下的大语言模型(LLM)推理性能进行优化。具体来讲,通过引入「双路径 KV-Cache 加载」机制,解决了在预填充 - 解码(PD)分离架构下,KV-Cache 读取负载不平衡的问题。

来自主题: AI技术研报
8682 点击    2026-02-27 11:35
大语言模型真的会「推理」吗?一项系统性研究梳理 LLM 的结构性推理失败

大语言模型真的会「推理」吗?一项系统性研究梳理 LLM 的结构性推理失败

大语言模型真的会「推理」吗?一项系统性研究梳理 LLM 的结构性推理失败

近期发表于 TMLR 的论文《Large Language Model Reasoning Failures》对这一问题进行了系统性梳理。该研究并未围绕 “模型是否真正理解” 展开哲学层面的争论,而是采取更加务实的路径 —— 通过整理现有文献中的失败现象,构建统一框架,系统分析大语言模型的推理短板。

来自主题: AI技术研报
7914 点击    2026-02-26 10:52
刚刚,阿里端出春节「硬菜」千问 3.5!我让它做了个拜年网页,结果出乎意料

刚刚,阿里端出春节「硬菜」千问 3.5!我让它做了个拜年网页,结果出乎意料

刚刚,阿里端出春节「硬菜」千问 3.5!我让它做了个拜年网页,结果出乎意料

没有让我们等待多久,阿里刚刚正式发布并开源了 Qwen3.5 系列模型,页面显示有两款模型,分别为最新大语言模型的 Qwen3.5-Plus,以及定位为开源系列旗舰的 Qwen3.5-397B-A17B。两者均支持文本处理与多模态任务。

来自主题: AI资讯
11028 点击    2026-02-16 20:05