AI资讯新闻榜单内容搜索-对齐

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 对齐
首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

在多模态大模型快速发展的当下,如何精准评估其生成内容的质量,正成为多模态大模型与人类偏好对齐的核心挑战。然而,当前主流多模态奖励模型往往只能直接给出评分决策,或仅具备浅层推理能力,缺乏对复杂奖励任务的深入理解与解释能力,在高复杂度场景中常出现 “失真失准”。

来自主题: AI技术研报
8978 点击    2025-05-14 11:01
北大团队引领3D生成与对齐革新:OctGPT打破扩散模型垄断

北大团队引领3D生成与对齐革新:OctGPT打破扩散模型垄断

北大团队引领3D生成与对齐革新:OctGPT打破扩散模型垄断

最近,北京大学陈宝权教授带领团队在三维形状生成和三维数据对齐方面取得新的突破。在三维数据生成方面,团队提出了3D自回归模型新范式,有望打破3D扩散模型在三维生成方面的垄断地位。

来自主题: AI技术研报
7937 点击    2025-04-25 10:08
喝点VC|a16z对话心理健康公司Slingshot AI创始人:通过AI扩大心理健康服务的可及性

喝点VC|a16z对话心理健康公司Slingshot AI创始人:通过AI扩大心理健康服务的可及性

喝点VC|a16z对话心理健康公司Slingshot AI创始人:通过AI扩大心理健康服务的可及性

作为一家公司,我们专注于三件事:预训练、微调和对齐。我们使用自有数据集进行预训练,这一点非常关键,而很多公司并不具备这样的能力。然后,我们用专家手工整理的数据进行微调。最有趣、最重要的部分在于对齐,这与简单地寻找“当前最优解”是截然不同的。

来自主题: AI资讯
5944 点击    2025-04-16 14:29
什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

什么样的偏好,才叫好的偏好?——揭秘偏好对齐数据的「三驾马车」

近年来,大语言模型(LLMs)的对齐研究成为人工智能领域的核心挑战之一,而偏好数据集的质量直接决定了对齐的效果。无论是通过人类反馈的强化学习(RLHF),还是基于「RL-Free」的各类直接偏好优化方法(例如 DPO),都离不开高质量偏好数据集的构建。

来自主题: AI技术研报
7066 点击    2025-04-15 14:29
类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练,以强化其指令跟随能力。受语言领域的启发,多模态偏好优化技术凭借其在数据效率和性能增益方面的优势,被广泛用于对齐人类偏好。目前,该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而,这一方法不仅资源消耗巨大,训练过程仍然极具挑战。

来自主题: AI技术研报
9166 点击    2025-04-08 14:18
ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识

ICLR 2025 Oral | IDEA联合清华北大提出ChartMoE:探究下游任务中多样化对齐MoE的表征和知识

最近,全球 AI 和机器学习顶会 ICLR 2025 公布了论文录取结果:由 IDEA、清华大学、北京大学、香港科技大学(广州)联合团队提出的 ChartMoE 成功入选 Oral (口头报告) 论文。据了解,本届大会共收到 11672 篇论文,被选中做 Oral Presentation(口头报告)的比例约为 1.8%

来自主题: AI技术研报
3775 点击    2025-04-01 15:27
喝点VC|a16z对话心理健康公司Slingshot AI创始人:我们专注于三件事:预训练、微调和对齐

喝点VC|a16z对话心理健康公司Slingshot AI创始人:我们专注于三件事:预训练、微调和对齐

喝点VC|a16z对话心理健康公司Slingshot AI创始人:我们专注于三件事:预训练、微调和对齐

作为一家公司,我们专注于三件事:预训练、微调和对齐。我们使用自有数据集进行预训练,这一点非常关键,而很多公司并不具备这样的能力。然后,我们用专家手工整理的数据进行微调。最有趣、最重要的部分在于对齐,这与简单地寻找“当前最优解”是截然不同的。

来自主题: AI资讯
4922 点击    2025-03-27 14:14