当提示词优化器学会进化,竟能胜过强化学习 当提示词优化器学会进化,竟能胜过强化学习 关键词: AI,模型训练,提示词,反思式提示词进化 仅靠提示词优化就能超越 DeepSeek 开发的 GRPO 强化学习算法? 是的,你没有看错。近日上线 arXiv 的一篇论文正是凭此吸引了无数眼球。 来自主题: AI技术研报 5790 点击 2025-08-01 11:42