
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练过去几年,随着基于人类偏好的强化学习(Reinforcement Learning from Human Feedback,RLHF)的兴起,强化学习(Reinforcement Learning,RL)已成为大语言模型(Large Language Model,LLM)后训练阶段的关键技术。
过去几年,随着基于人类偏好的强化学习(Reinforcement Learning from Human Feedback,RLHF)的兴起,强化学习(Reinforcement Learning,RL)已成为大语言模型(Large Language Model,LLM)后训练阶段的关键技术。
留给 Cursor 一枝独秀的时间不多了, 上周被 Anthropic 推出的 Claude Code 背刺,悄悄取消了500次的Agent对话限制, 这周又匹配上了新的对手, 出道两年半,带着插件时期积累下来的编程痛点,Comate AI IDE 来了!
机器人终于有了自己的“离线大脑”。
上周,我们做的Get笔记发布了2.0版本。熟悉软件开发的人都知道,整数版本号通常代表着一个重要的里程碑。
切肥皂、修驴蹄甚至挖树根……谁还没看过解压视频?这次谷歌Gemini下场也做起了解压视频——还是带提示词的那种!
集成市场各类日历、会议与任务管理应用程序,可智能规划日程。
大模型驱动的 AI 智能体(Agent)架构最近讨论的很激烈,其中一个关键争议点在于: 多智能体到底该不该建?
今天,Gemini 家族迎来了一个新成员:Gemini Robotics On-Device。这是谷歌 DeepMind 首个可以直接部署在机器人上的视觉-语言-动作(VLA)模型,可以帮助机器人更快、更高效地适应新任务和环境,同时无需持续的互联网连接。
MyShell 自从进入 ShellAgent 的框架阶段,由于深度融合了 ComfyUI 生态,图像视频流的 Agent 迎来了井喷式的爆发。上个月据说上新了 150+个,竞争确实有点激烈了。但其实图像视频流的能力并不代表 ShellAgent 所能做的全部可能性,仍然有大量值得探索的场景等待创作者去尝试。
2025年,随着 Agent 应用在千行百业加速落地,Agent 应用开发的实际需求和痛点也正在发生变化。