AI资讯新闻榜单内容搜索-语言模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 语言模型
北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型

北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型

北大团队让AI学会考古!全球首个古希腊陶罐3D视觉问答数据集发布,还配了专用模型

现在AI都懂文物懂历史了。一项来自北京大学的最新研究引发关注:他们推出了全球首个面向古希腊陶罐的3D视觉问答数据集——VaseVQA-3D,并配套推出了专用视觉语言模型VaseVLM。这意味着,AI正在从“识图机器”迈向“文化考古Agent”。

来自主题: AI技术研报
7553 点击    2025-11-07 14:49
如何自动优化领域任务的提示词?用EGO-Prompt|NeurIPS 2025

如何自动优化领域任务的提示词?用EGO-Prompt|NeurIPS 2025

如何自动优化领域任务的提示词?用EGO-Prompt|NeurIPS 2025

大型语言模型(LLMs)正迅速成为从金融到交通等各个专业领域不可或缺的辅助决策工具。但目前LLM的“通用智能”在面对高度专业化、高风险的任务时,往往显得力不从心。

来自主题: AI技术研报
6949 点击    2025-11-07 10:52
扩展外部测试时Scaling Law,中关村学院新发现:轻量级验证器可解锁LLM推理最优选择

扩展外部测试时Scaling Law,中关村学院新发现:轻量级验证器可解锁LLM推理最优选择

扩展外部测试时Scaling Law,中关村学院新发现:轻量级验证器可解锁LLM推理最优选择

在大语言模型(LLM)席卷各类复杂任务的今天,“测试时扩展”(Test-Time Scaling,TTS)已成为提升模型推理能力的核心思路 —— 简单来说,就是在模型 “答题” 时分配更多的计算资源来让它表现更好。严格来说,Test-Time Scaling 分成两类:

来自主题: AI技术研报
6834 点击    2025-11-06 14:59
用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升

用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升

用更一致的轨迹、更少的解码步数「驯服」掩码扩散语言模型,扩散语言模型的推理性能和效率大幅提升

扩散大语言模型得到了突飞猛进的发展,早在 25 年 2 月 Inception Labs 推出 Mercury—— 第一个商业级扩散大型语言模型,同期人民大学发布第一个开源 8B 扩散大语言模型 LLaDA,5 月份 Gemini Diffusion 也接踵而至。

来自主题: AI技术研报
8816 点击    2025-11-05 15:17
HF日趋榜一!真端到端模型AutoDeco终结手动调参解码

HF日趋榜一!真端到端模型AutoDeco终结手动调参解码

HF日趋榜一!真端到端模型AutoDeco终结手动调参解码

大语言模型(LLM)的「炼丹师」们,或许都曾面临一个共同的困扰:为不同任务、不同模型手动调整解码超参数(如 temperature 和 top-p)。这个过程不仅耗时耗力,而且一旦模型或任务发生变化,历史经验便瞬间失效,一切又得从头再来。

来自主题: AI技术研报
10171 点击    2025-11-04 16:14
字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」,Bengio组参与

字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」,Bengio组参与

字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」,Bengio组参与

现代 LLM 通常依赖显式的文本生成过程(例如「思维链」)来进行「思考」训练。这种策略将推理任务推迟到训练后的阶段,未能充分挖掘预训练数据中的潜力。

来自主题: AI技术研报
8377 点击    2025-11-04 16:12
英伟达发射了首个太空AI服务器,H100已上天

英伟达发射了首个太空AI服务器,H100已上天

英伟达发射了首个太空AI服务器,H100已上天

11 月 2 日,英伟达首次把 H100 GPU 送入了太空。作为目前 AI 领域的主力训练芯片,H100 配备 80GB 内存,其性能是此前任何一台进入太空的计算机的上百倍。在轨道上,它将测试一系列人工智能处理应用,包括分析地球观测图像和运行谷歌的大语言模型(LLM)。

来自主题: AI资讯
7679 点击    2025-11-04 12:09
最具争议性研究:大模型中间层输出可 100% 反推原始输入

最具争议性研究:大模型中间层输出可 100% 反推原始输入

最具争议性研究:大模型中间层输出可 100% 反推原始输入

Transformer 语言模型具有单射性,隐藏状态可无损重构输入信息。

来自主题: AI技术研报
8488 点击    2025-11-04 11:32
让LLM不再话痨,快手HiPO框架来了

让LLM不再话痨,快手HiPO框架来了

让LLM不再话痨,快手HiPO框架来了

当用户向大语言模型提出一个简单问题,比如「单词 HiPPO 里有几个字母 P?」,它却正襟危坐,开始生成一段冗长的推理链:

来自主题: AI技术研报
8119 点击    2025-11-04 10:44