社交推理基准测试,其中具身人工智能玩《Among Us》
TL;DR - 在AI领域中存在一个具身化的实时基准测试,顶尖模型通过玩《Among Us》游戏来检验社交智能:包括欺骗、说服和协作能力。 - 这些模型展现出稳定的"社交风格"(领导型vs从众型;安全型vs有害型)。