AI资讯新闻榜单内容搜索-对齐方法

用慢思考提升模型安全性，北交大、鹏城实验室提出系统2对齐

OpenAI 在 “双十二” 发布会的最后一天公开了 o 系列背后的对齐方法 - deliberative alignment，展示了通过系统 2 的慢思考能力提升模型安全性的可行性。

来自主题: AI技术研报

8009 点击 2025-01-24 14:45

模型安全和可靠性、系统整合和互操作性、用户交互和认证…… 当“多模态”“跨模态”成为不可阻挡的AI趋势时，多模态场景下的安全挑战尤其应当引发产学研各界的注意。

来自主题: AI技术研报

8582 点击 2025-01-18 10:48

代码模型可以自己进化，利用自身生成的数据来进行指令调优，效果超越GPT-4o直接蒸馏！

来自主题: AI技术研报

6885 点击 2024-11-28 20:44

多图像场景也能用DPO方法来对齐了！由上海交大、上海AI实验室、港中文等带来最新成果MIA-DPO。这是一个面向大型视觉语言模型的多图像增强的偏好对齐方法。

来自主题: AI技术研报

4677 点击 2024-11-01 20:53

大模型对齐新方法，让数学推理能力直接提升9%。

来自主题: AI技术研报

5978 点击 2024-03-13 11:10

有的大模型对齐方法包括基于示例的监督微调（SFT）和基于分数反馈的强化学习（RLHF）。然而，分数只能反应当前回复的好坏程度，并不能明确指出模型的不足之处。相较之下，我们人类通常是从语言反馈中学习并调整自己的行为模式。

来自主题: AI技术研报

6094 点击 2024-02-03 12:52

OPO 无需训练即可实现实时动态对齐，而且因其即插即用的特性，适用于所有的开源与闭源大模型。

来自主题: AI技术研报

8289 点击 2024-01-23 15:03