LaPha:你的Agent轨迹其实嵌入在一个Poincaré球? LaPha:你的Agent轨迹其实嵌入在一个Poincaré球? 关键词: AI,LaPha,模型训练,人工智能 在经典强化学习问题中,动作空间通常是离散且有限的。例如在围棋中,一步棋就是一次行动;在机器人控制或视觉 - 语言 - 行动(VLA)模型中,动作往往来自一个有限的控制指令集合。 来自主题: AI技术研报 5742 点击 2026-03-18 14:54