AI资讯新闻榜单内容搜索-RL

18.5万美元设计大战：AI vs 无代码，谁才是未来？

昨天，两位独立开发者上演了一场现场设计大战： Brett Williams，Webflow老司机，通过他的网页设计工作室Designjoy年入100万+美元 Henrik Westerlund，19岁营销专业辍学生，来自Lovable，一款通过文本提示生成完整功能网页应用的AI产品

来自主题: AI资讯

7796 点击 2025-03-02 21:12

千万网友围观，两个语音AI开始加密通话，网友：中间真没骂我两句?

AI智能体有自己的交流方式。

来自主题: AI资讯

10005 点击 2025-03-02 16:02

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek 用的 GRPO 占用大量内存？有人给出了些破解方法》。

来自主题: AI技术研报

9175 点击 2025-03-02 15:14

受R1启发，微软亚洲发布Logic-RL，帮助LLM通过RL解决"骑士与骗子"逻辑谜题

本文深入解析一项开创性研究——"Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning"，该研究通过基于规则的强化学习技术显著提升了语言模型的推理能力。微软亚洲的研究团队受DeepSeek-R1成功经验的启发，利用结构化的逻辑谜题作为训练场，为模型创建了一个可以系统学习和改进推理技能的环境。

来自主题: AI技术研报

6958 点击 2025-02-26 09:56

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

DeepSeek啥都开源了，就是没有开源训练代码和数据。现在，开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。

来自主题: AI技术研报

8852 点击 2025-02-22 21:30

10美元成功复现DeepSeek顿悟时刻，3B模型爆发超强推理！微软论文实锤涌现

不到10美元，3B模型就能复刻DeepSeek的顿悟时刻了？来自荷兰的开发者采用轻量级的RL算法Reinforce-Lite，把复刻成本降到了史上最低！同时，微软亚研院的一项工作，也受DeepSeek-R1启发，让7B模型涌现出了高级推理技能。

来自主题: AI技术研报

6763 点击 2025-02-22 15:50

机器人视觉控制新范式！ByteDance Research新算法实现通过性能SOTA

世界模型（World Model）作为近年来机器学习和强化学习的研究热点，通过建立智能体对其所处环境的一种内部表征和模拟，能够加强智能体对于世界的理解，进而更好地进行规划和决策。

来自主题: AI技术研报

7512 点击 2025-02-21 14:28

一键将老视频超清修复，Topaz出的这个新AI工具有点强。

经常有群友问我有没有什么把视频修复的工具。而我过去最推荐的，也是我心中目前最牛逼的视频修复工具，自然就是TopazVideoAI了。但，斗转星移，日月如梭，现在已经2025年了。我们在进化，而Topaz他们家，自然也再进化，前两天他们家又整了个新活，搞了个叫Starlight的新东西。

来自主题: AI资讯

7991 点击 2025-02-21 10:41

AI游戏设计师问世，自学成才，无需任何先前知识

游戏开发不仅需要生成新颖的内容，更需要在保持游戏世界一致性、多样性和用户修改持续性方面达到高度平衡。近日，一篇发表在Nature上的研究论文World and Human Action Models towards Gameplay Ideation揭示了如何利用生成式AI模型推动游戏玩法创意的生成。

来自主题: AI技术研报

8767 点击 2025-02-20 10:20

o3拿下IOI 2024金牌！新论文公布RL秘诀：AI自己设计测试时推理策略，无需人类干预

IOI 2024金牌，OpenAI o3轻松高分拿下！

来自主题: AI技术研报

9450 点击 2025-02-13 10:11