AI资讯新闻榜单内容搜索-LLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLM
移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

移动GUI智能体迈向实用化!全新验证器架构V-Droid,刷新成功率纪录

移动GUI自动化智能体V-Droid采用「验证器驱动」架构,通过离散化动作空间并利用LLM评估候选动作,实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。

来自主题: AI技术研报
6162 点击    2025-04-15 14:53
什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

近年来,大语言模型(LLMs)的对齐研究成为人工智能领域的核心挑战之一,而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习(RLHF),还是基于「RL-Free」的各类直接偏好优化方法(例如 DPO),都离不开高质量偏好数据集的构建。

来自主题: AI技术研报
7243 点击    2025-04-15 14:29
阿里智能化研发起飞!RTP-LLM 实现 Cursor AI 1000 token/s 推理技术揭秘

阿里智能化研发起飞!RTP-LLM 实现 Cursor AI 1000 token/s 推理技术揭秘

阿里智能化研发起飞!RTP-LLM 实现 Cursor AI 1000 token/s 推理技术揭秘

RTP-LLM 是阿里巴巴大模型预测团队开发的高性能 LLM 推理加速引擎。它在阿里巴巴集团内广泛应用,支撑着淘宝、天猫、高德、饿了么等核心业务部门的大模型推理需求。在 RTP-LLM 上,我们实现了一个通用的投机采样框架,支持多种投机采样方法,能够帮助业务有效降低推理延迟以及提升吞吐。

来自主题: AI技术研报
6300 点击    2025-04-14 15:13
过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

过程奖励模型也可以测试时扩展?清华、上海AI Lab 23K数据让1.5B小模型逆袭GPT-4o

随着 OpenAI o1 和 DeepSeek R1 的爆火,大语言模型(LLM)的推理能力增强和测试时扩展(TTS)受到广泛关注。然而,在复杂推理问题中,如何精准评估模型每一步回答的质量,仍然是一个亟待解决的难题。传统的过程奖励模型(PRM)虽能验证推理步骤,但受限于标量评分机制,难以捕捉深层逻辑错误,且其判别式建模方式限制了测试时的拓展能力。

来自主题: AI技术研报
7226 点击    2025-04-14 14:39
中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

近年来,随着大型语言模型(LLMs)的快速发展,多模态理解领域取得了前所未有的进步。像 OpenAI、InternVL 和 Qwen-VL 系列这样的最先进的视觉-语言模型(VLMs),在处理复杂的视觉-文本任务时展现了卓越的能力。

来自主题: AI技术研报
3918 点击    2025-04-14 13:57
谢赛宁等新作上线,多模态理解生成大一统!思路竟与GPT-4o相似?

谢赛宁等新作上线,多模态理解生成大一统!思路竟与GPT-4o相似?

谢赛宁等新作上线,多模态理解生成大一统!思路竟与GPT-4o相似?

来自Meta和NYU的团队,刚刚提出了一种MetaQuery新方法,让多模态模型瞬间解锁多模态生成能力!令人惊讶的是,这种方法竟然如此简单,就实现了曾被认为需要MLLM微调才能具备的能力。

来自主题: AI技术研报
6244 点击    2025-04-13 14:11
7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量

7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量

7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量

学术写作通常需要花费大量精力查询文献引用,而以ChatGPT、GPT-4等为代表的通用大语言模型(LLM)虽然能够生成流畅文本,但经常出现“引用幻觉”(Citation Hallucination),即模型凭空捏造文献引用。这种现象严重影响了学术论文的可信度与专业性。

来自主题: AI技术研报
7250 点击    2025-04-11 10:20
首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

首个统一多模态模型评测标准,DeepSeek Janus理解能力领跑开源,但和闭源还有差距

统一多模态大模型(U-MLLMs)逐渐成为研究热点,近期GPT-4o,Gemini-2.0-flash都展现出了非凡的理解和生成能力,而且还能实现跨模态输入输出,比如图像+文本输入,生成图像或文本。

来自主题: AI技术研报
7237 点击    2025-04-10 10:20
用 Agent 重塑生产力!揭秘扣子的史诗级三大更新,还有三个彩蛋!

用 Agent 重塑生产力!揭秘扣子的史诗级三大更新,还有三个彩蛋!

用 Agent 重塑生产力!揭秘扣子的史诗级三大更新,还有三个彩蛋!

LLM Agent 火了两年了,但业界仍然存在许多非共识。智能体数量卷上去了,概念炒上去了,但质量参差不齐,娱乐向的不好玩,提效向的不好用,具体企业落地更是各种大小问题不断。

来自主题: AI资讯
5118 点击    2025-04-10 09:41