大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。
大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。
这阵子玩了不少 AI 应用,感觉大家都在卷一个事,让 AI 更强、更快、更全能。但聊多了会发现,无论模型能力多强,它们大多还像是解决问题的工具,在下一次对话里把你忘得一干二净。
8 月 13 日,Google I/O Connect China 2025——Google 开发者大会在上海拉开帷幕。来自 Google 全球不同领域的专家,为中国出海开发者们带来 AI 驱动下的前沿技术、创新开发工具以及全球化平台的最新动态。
AI生成论文泛滥成灾,arXiv平台看不下去了—— 紧急升级审核机制,用自动化工具来检测AI生成内容。 Nature最新发现,原来每年竟然都有2%的论文会因为AI使用被拒?! 比如像,bioRxiv和medRxiv每天都要拒绝十多篇公式化AI手稿,每个月就高达7000多份。
首个开源多模态Deep Research Agent来了。整合了网页浏览、图像搜索、代码解释器、内部 OCR 等多种工具,通过全自动流程生成高质量推理轨迹,并用冷启动微调和强化学习优化决策,使模型在任务中能自主选择合适的工具组合和推理路径。
随手拍的一张图,就能秒变3A级游戏大作?! 刚刚,腾讯全新开源游戏视频生成框架Hunyuan-GameCraft,专为游戏环境设计,让任何人都能轻松搞定游戏制作。
印度音频连续剧平台Pocket FM 致力于成为音频界的 Netflix。该公司计划根据用户喜好,为其匹配拥有数百集内容的音频剧集。为实现这一目标,平台需要快速发布内容——这正是其目前借助 AI 技术发力的方向。
AI图像的水印技术要变天了!一款全新的去水印技术——UnMarker,能在5分钟内去除市面上几乎所有的AI图像水印。
AI 编程助手虽备受追捧、话题不断,但现实远没有想象中光鲜。许多热门工具——如 Cursor、Windsurf——其实都在亏本运营。TechCrunch 报道称,这类产品毛利率极低,甚至为负,也就是说,每新增一个用户,亏损就会进一步扩大。这并非初创公司为抢占市场的短期现象,而是市场在传递一个明确信号:这种商业模式走不通。
以前创投圈有句名言,叫VC/PE的尽头是放贷。这背后的逻辑非常朴素:无论任何产业都需要金融支持,而贷款是最直接、最明码标价的金融工具;与此同时,贷款又是金融服务中最依赖人力、最陈旧、最碎片化的领域之一,目前大多数提供贷款的金融机构仍然依赖孤立的系统、耗费大量人力的流程以及被动的合规方法。