关于LLM-as-a-judge范式,终于有综述讲明白了
关于LLM-as-a-judge范式,终于有综述讲明白了评估和评价长期以来一直是人工智能 (AI) 和自然语言处理 (NLP) 中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入,往往无法判断精妙的属性并提供令人满意的结果。
评估和评价长期以来一直是人工智能 (AI) 和自然语言处理 (NLP) 中的关键挑战。然而,传统方法,无论是基于匹配还是基于词嵌入,往往无法判断精妙的属性并提供令人满意的结果。
36氪获悉,近日北京悦点科技有限公司(以下简称“悦点科技”)完成数千万元人民币的天使轮融资。本轮融资由云启资本独家投资,融得资金将主要用于公司在企业级GenAI应用平台的进一步研发和商业拓展。
本期 AGI 路线图中关键节点:Sora、DiT、Runway Gen-3、可灵 AI、Oasis、世界模拟器
之前领导OpenAI安全团队的北大校友翁荔(Lilian Weng),离职后第一个动作来了。当然是发~博~客。这次的博客一如既往万字干货,妥妥一篇研究综述,翁荔本人直言写起来不容易。主题围绕强化学习中奖励黑客(Reward Hacking)问题展开,即Agent利用奖励函数或环境中的漏洞来获取高奖励,而并未真正学习到预期行为。
不仅仅是“构建AGI”,要确保它造福人类! 政策研究部门核心人员离职! Rosie Campbell-OpenAI的政策研究员,也是原研究科学家、政策研究负责人Miles Brundage亲密共事的伙伴。
上周我们受谷歌邀请,来到了国际象棋世界冠军赛的现场。其中最激动的就是采访世界冠军丁立人老师(中国第一个男子国际象棋世界冠军!采访稿过几天会发布!)以及体验谷歌的 AI 展区!展区包括 AI 象棋解说(Chatting Chess),帮助小白和观众通俗易懂地学习如何下棋;
绘本故事在小红书赛道可以产生变现,相信您肯定了解,无论是做绘本售卖、挂小车、还是起号,都是不二之选.但制作过程是极其繁琐,如果不尝试AI agent coze工作流模式,只能使用很多软件相互协调搭配制作。 这是舰长使用工作流生成后,剪映剪辑后的效果视频
人工智能语音初创公司PlayAI宣布在种子轮融资中筹集了2100万美元。该公司表示,将利用这笔资金投资于其生成式人工智能(GenAI)语音模型和语音代理平台。
Letta(由之前爆火的 MemGPT 更名)最近做了一个关于 AI Agents Stack 的研究报告。
LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是,语言模型预训练损失是高度可预测的。然而,下游能力的可预测性要差得多,有时甚至会出现涌现跳跃(emergent jump),这使得预测未来模型的能力变得具有挑战性。