
李飞飞团队提出世界模型基准:“世界生成”能力迎来统一评测,3D/4D/视频模型同台PK
李飞飞团队提出世界模型基准:“世界生成”能力迎来统一评测,3D/4D/视频模型同台PK世界模型领域最新进展,要比拼“世界生成”了。
来自主题: AI技术研报
8828 点击 2025-04-10 12:15
世界模型领域最新进展,要比拼“世界生成”了。
VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。
Google DeepMind的SCoRe方法通过在线多轮强化学习,显著提升了大型语言模型在没有外部输入的情况下的自我修正能力。该方法在MATH和HumanEval基准测试中,分别将自我修正性能提高了15.6%和9.1%。
无需依赖外部反馈或额外模型,纯纯的自我纠正。