
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。
强化学习改变了大语言模型的后训练范式,可以说,已成为AI迈向AGI进程中的关键技术节点。然而,其中奖励模型的设计与训练,始终是制约后训练效果、模型能力进一步提升的瓶颈所在。
不是简单的聊天机器人,而是让专业知识“活”起来的操作系统。2025年7月10日,孚知流(Fuzflo)正式发布面向“业务专家”的Agent生产与操作系统Leapility,并宣布完成千万级人民币天使轮融资,投资机构为棋兆资本。
曾被 OpenAI 相中,开价 30 亿美元的 AI 编程初创公司 Windsurf,如今转身投奔了 Google。就在刚刚,Google 宣布将 Windsurf 部分高管及工程团队纳入其旗下的 DeepMind 团队,重点推进「代理式编码」(Agentic Coding)方向的研究。
大家好,我是歸藏(guizang),熬夜给大家带来 Kimi K2 模型和提升K2模型的CC+K2邪修教程。大家好,我是歸藏(guizang),熬夜给大家带来 Kimi K2 模型和提升K2模型的CC+K2邪修教程。
我是一个重度的 AI产品使用“患者”说自己是一个患者,是最近发现有几次自己对 AI 生产的“高质量”内容已经没有感觉了,我觉得我深度阅读的能力退化...我最早接触到 AI 可以追溯到大学时期阅读的赫伯特・西蒙的《人工智能科学》这本书,它对人工智能领域所涉及的脑科学、经济学、心理学、设计科学很多学科都做了有意思的解读。
结果点进去一看,我人直接傻了——这家伙用的竟然是 kimi-k2-0711-preview 模型!这个K2模型的简直离谱到家了: 业界第一个说自己是1万亿参数的模型,这规模直接吓人 MoE架构 + 32B激活参数
DeepSeek火爆全球,现在美国版“梁文锋”来了。来自美国的互联网券商巨头Robinhood的CEO——Vlad Tenev决定投身人工智能创业浪潮,与Tudor Achim联合打造了一家专注于人工智能的初创公司——Harmonic AI。
今天是 xAI 的大日子,伊隆・马斯克早早就宣布了会在今天发布 Grok 4 大模型,AI 社区的眼球也已经向其聚拢,就等着看他的直播(等了挺久)。当然,考虑到 Grok 这些天的「失控」表现,自然也有不少人是在等着看笑话。
最近,Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务,OpenAI o3领跑全场,DeepSeek紧追Gemini挤入前四!不过从结果来看,要猜中科研人的偏好,自动评估系统远未及格。
AI圈的“GitHub”居然开始卖机器人了!HuggingFace最新发布开源桌面机器人ReachyMini,5小时内卖出超13万欧元(约为人民币109万元)!