AI资讯新闻榜单内容搜索-对齐

独家｜ChatGPT核心贡献者姜旭归国创业：把LLM的Scaling带到具身智能

姜旭是少数完整参与过 OpenAI 大模型核心技术演进的华人创业者之一。2019 至 2023 年间，他经历了 GPT 系列能力爆发最关键的阶段，工作横跨底层训练 infra、大规模预训练、RLHF 对齐算法与数据构建等核心链路。

来自主题: AI资讯

11442 点击 2026-05-22 10:26

无需构造偏好对：TGO用标量反馈对齐视觉生成模型｜ICML'26

生成模型的偏好对齐，可能正在进入一个新的阶段。

来自主题: AI技术研报

10820 点击 2026-05-18 09:54

ICML 2026 | 将多教师冲突转化为动态约束，破解多模态大模型推理对齐难题

在多模态大模型（MLLM）快速发展的浪潮中，融合多模型 “集体智慧” 已成为提升模型性能的关键路径，并催生了多教师知识蒸馏这一主流范式。然而，不同来源的教师模型在架构与优化上的差异，其在相似推理过程中呈现出不稳定甚至偏移的认知轨迹，即 “概念漂移”（Concept Drift）。

来自主题: AI技术研报

8332 点击 2026-05-14 09:30

只要24GB 内存，能在本地 Mac上跑无限制的Gemma 4 31B了

有个31B参数的大模型，正常需要80GB显存才能跑。但现在，24GB显存就能跑满血版。这个版本叫Gemma-4-31B-JANG_4M-CRACK——"CRACK"这个词不要理解歪了，它本质是量化压缩加上对齐微调之后的部署版本，不是什么黑客攻击，就是工程优化。24GB，MacBook Pro，直接跑。苹果用户优先优化，MLX原生支持，月下载13000次。

来自主题: AI资讯

9900 点击 2026-05-10 11:39

ACL 2026｜告别冗长思维链！Laser用「概率叠加」重塑多模态大模型隐式推理

为了解决这一痛点，由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院以及哈佛大学联合组成的研究团队，提出了一种名为 Laser 的全新隐式视觉推理范式。该研究从认知心理学中汲取灵感，引入了 “Forest-before-Trees” 的认知机制，通过动态窗口对齐学习（DWAL），首次实现了在隐空间中维持视觉特征的 “概率叠加” 状态。

来自主题: AI技术研报

7110 点击 2026-05-08 14:07

ICSE 2026杰出论文 | 突破代码模型真实工程落地瓶颈，北大团队提出SEAlign对齐框架：显著提升软件工程智能体决策质量

在代码大模型和代码智能体技术快速发展的今天，一个日益凸显的现象是：能够在经典代码生成基准上取得优异成绩的模型，一旦被放入真实软件工程环境中，表现却往往大幅下滑。

来自主题: AI技术研报

6899 点击 2026-05-07 15:02

谷歌再发「香蕉」！何恺明等引爆视觉Transformer时刻

最近，谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、 3D图形学名家Thomas Funkhouser，正式发布了Vision Banana。它向世界宣告：视觉AI终于不再需要那些臃肿的任务头了，理解，本质上只是生成过程中的一次「对齐」。

来自主题: AI技术研报

9987 点击 2026-04-24 16:13

训练提速4.6倍！FP4+BF16双轨并行，NVIDIA×港大×MIT联手重新定义扩散模型训练速度上限

当强化学习后训练的大规模 rollout 已经被证明能够提升图像生成模型的偏好对齐能力，推理负担就成了制约训练速度的核心瓶颈。来自 NVIDIA、港大和 MIT 的团队提出的 Sol-RL，通过「FP4 先探索、BF16 再训练」的后训练框架，将达到等效 reward 水平的收敛速度最高提升到 4.64x，在训练速度与对齐效果之间给出了一条更具工程可行性的解法。

来自主题: AI技术研报

9600 点击 2026-04-16 16:07

「10万小时人类数据」不搞对齐只靠规模，灵初智能Psi-R2登顶MolmoSpaces！

4 月 10 日晚，灵初智能发布了大模型、数据集与合作计划：包括策略模型 Psi-R2、世界模型 Psi-W0，以及总规模近 10 万小时的人类操作数据。它想回答的问题也很直接 —— 当真机数据不再是唯一解，机器人还能靠什么继续 scaling？

来自主题: AI资讯

8964 点击 2026-04-11 11:01

为了不跟龙虾抢电脑用，有人开始造Agent专属的“三无”硬件，比Mac Mini+存储便宜

郭亚楠说，Context就承接了新需求。传统OS让人和软件对齐，新OS应该让人和Agent对齐。因为Context是个人数据的结构化、语义化集合，它就像OS管理内存和CPU一样管理每个人的数字痕迹。

来自主题: AI资讯

8839 点击 2026-04-05 10:54