AI资讯新闻榜单内容搜索-大语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大语言模型
AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?

AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?

AI大佬曼宁转赞,MetaGPT团队首提「Atom of Thoughts」,原子化思考让4o-mini暴打推理模型?

大语言模型(LLM)近年来凭借训练时扩展(train-time scaling)取得了显著性能提升。然而,随着模型规模和数据量的瓶颈显现,测试时扩展(test-time scaling)成为进一步释放潜力的新方向。

来自主题: AI技术研报
6390 点击    2025-03-16 12:42
医学可用!推理增强RAG:精准诊断、智能补问、高效解析 | WWW 2025

医学可用!推理增强RAG:精准诊断、智能补问、高效解析 | WWW 2025

医学可用!推理增强RAG:精准诊断、智能补问、高效解析 | WWW 2025

南洋理工大学的研究团队提出了MedRAG模型,通过结合知识图谱推理增强大语言模型(LLM)的诊断能力,显著提升智能健康助手的诊断精度和个性化建议水平。MedRAG在真实临床数据集上表现优于现有模型,准确率提升11.32%,并具备良好的泛化能力,可广泛应用于不同LLM基模型。

来自主题: AI技术研报
4965 点击    2025-03-14 16:19
3700次预训练总结超参规律,开源海量实验,告别盲猜

3700次预训练总结超参规律,开源海量实验,告别盲猜

3700次预训练总结超参规律,开源海量实验,告别盲猜

近年来,大语言模型 LLMs 在多种任务上的卓越表现已得到广泛认可。然而,要实现其高效部署,精细的超参数优化至关重要。为了探究最佳超参数的规律,我们开展了大规模的实证研究,通过在不同配置上进行网格搜索,我们揭示了一套通用的最优超参数缩放定律(Optimal Hyperparameter Scaling Law)。

来自主题: AI技术研报
8287 点击    2025-03-13 15:15
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场

大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。

来自主题: AI技术研报
6608 点击    2025-03-13 14:41
长文本向量模型在4K Tokens 之外形同盲区?

长文本向量模型在4K Tokens 之外形同盲区?

长文本向量模型在4K Tokens 之外形同盲区?

2025 年 2 月发布的 NoLiMA 是一种大语言模型(LLM)长文本理解能力评估方法。不同于传统“大海捞针”(Needle-in-a-Haystack, NIAH)测试依赖关键词匹配的做法,它最大的特点是 通过精心设计问题和关键信息,迫使模型进行深层语义理解和推理,才能从长文本中找到答案。

来自主题: AI技术研报
3855 点击    2025-03-12 15:08
在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在长文本上比Flash Attention快10倍!清华等提出APB序列并行推理框架

在 ChatGPT 爆火两年多的时间里,大语言模型的上下文窗口长度基准线被拉升,以此为基础所构建的长 CoT 推理、多 Agent 协作等类型的高级应用也逐渐增多。

来自主题: AI技术研报
7083 点击    2025-03-12 14:53
可自定义的推理框架SoT-Agent,通过小路由模型自适应推理,更灵活,更经济 | 最新

可自定义的推理框架SoT-Agent,通过小路由模型自适应推理,更灵活,更经济 | 最新

可自定义的推理框架SoT-Agent,通过小路由模型自适应推理,更灵活,更经济 | 最新

本文介绍了一项突破性的AI推理技术创新——思维草图(SoT)框架。该框架从人类认知过程中获取灵感,通过一个200M大小的路由模型将LLM引导到概念链、分块符号化和专家词汇三种推理范式,巧妙地解决了大语言模型推理过程中的效率瓶颈。

来自主题: AI技术研报
6137 点击    2025-03-11 16:21
富士康开发出台湾首个推理大模型FoxBrain,性能落后于DeepSeek

富士康开发出台湾首个推理大模型FoxBrain,性能落后于DeepSeek

富士康开发出台湾首个推理大模型FoxBrain,性能落后于DeepSeek

北京时间3月10日,据《华尔街日报》报道,富士康母公司鸿海已研发出中国台湾地区首个具备先进推理能力的大模型,性能上落后于DeepSeek的部分大模型。鸿海周一表示,已自主研发了具备推理能力的人工智能(AI)大语言模型FoxBrain,并在四周内完成训练。FoxBrain最初为公司内部使用而设计,具备数据分析、数学运算、推理以及代码生成的能力。

来自主题: AI资讯
9066 点击    2025-03-10 17:46