AI资讯新闻榜单内容搜索-对齐

当奖励成为漏洞：从对齐本质出发自动「越狱」大语言模型

本文第一作者为香港大学博士研究生谢知晖，主要研究兴趣为大模型对齐与强化学习。

来自主题: AI技术研报

7227 点击 2024-08-31 15:09

LLM蒸馏到GNN，性能提升6.2%！Emory提出大模型蒸馏到文本图｜CIKM 2024

Emory大学的研究团队提出了一种创新的方法，将大语言模型（LLM）在文本图（Text-Attributed Graph, 缩写为TAG）学习中的强大能力蒸馏到本地模型中，以应对文本图学习中的数据稀缺、隐私保护和成本问题。通过训练一个解释器模型来理解LLM的推理过程，并对学生模型进行对齐优化，在多个数据集上实现了显著的性能提升，平均提高了6.2%。

来自主题: AI技术研报

11618 点击 2024-08-23 16:35

一文搞懂SFT、RLHF、DPO、IFT

SFT、RLHF 和 DPO 都是先估计 LLMs 本身的偏好，再与人类的偏好进行对齐

来自主题: AI资讯

7773 点击 2024-08-22 17:04

LLM智能「参差不齐」！AI大牛Karpathy用表情包解释「9.9<9.11」

前段时间冲上热搜的问题「9.11比9.9大吗？」，让几乎所有LLM集体翻车。看似热度已过，但AI界大佬Andrej Karpathy却从中看出了当前大模型技术的本质缺陷，以及未来的潜在改进方向。

来自主题: AI技术研报

9591 点击 2024-08-09 14:38

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

为了对齐 LLM，各路研究者妙招连连。

来自主题: AI技术研报

11759 点击 2024-08-05 14:09

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

大模型展现出了卓越的指令跟从和任务泛化的能力，这种独特的能力源自 LLMs 在训练中使用了指令跟随数据以及人类反馈强化学习（RLHF）。

来自主题: AI技术研报

10678 点击 2024-08-03 14:29

4轮暴训，Llama 7B击败GPT-4！Meta等让LLM「分饰三角」自评自进化

Meta、UC伯克利、NYU共同提出元奖励语言模型，给「超级对齐」指条明路：让AI自己当裁判，自我改进对齐，效果秒杀自我奖励模型。

来自主题: AI技术研报

9661 点击 2024-07-31 16:05

AI也会「刷抖音」！清华领衔发布短视频全模态理解新模型 | ICML 2024

音视频大语言模型在处理视频内容时，往往未能充分发挥语音的作用。video-SALMONN模型通过三部分创新：音视频编码和时间对齐、多分辨率因果Q-Former、多样性损失函数和混合未配对音视频数据训练。该模型不仅在单一模态任务上表现优异，更在视听联合任务中展现了卓越的性能，证明了其全面性和准确性。

来自主题: AI技术研报

7871 点击 2024-07-31 15:05

「越狱」事件频发，如何教会大模型「迷途知返」而不是「将错就错」？

大型语言模型（LLM）展现出了令人印象深刻的智能水平。因此，确保其安全性显得至关重要。已有研究提出了各种策略，以使 LLM 与人类伦理道德对齐。然而，当前的先进模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越狱攻击，并被用于恶意用途。

来自主题: AI技术研报

9647 点击 2024-07-30 16:55

彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

知识图谱作为结构化知识的重要载体，广泛应用于信息检索、电商、决策推理等众多领域。然而，由于不同机构或方法构建的知识图谱存在表示方式、覆盖范围等方面的差异，如何有效地将不同的知识图谱进行融合，以获得更加全面、丰富的知识体系，成为提高知识图谱覆盖度和准确率的重要问题，这就是知识图谱对齐（Knowledge Graph Alignment）任务所要解决的核心挑战。

来自主题: AI技术研报

7131 点击 2024-07-26 18:00