
苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源
苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。
来自主题: AI资讯
10100 点击 2024-08-14 17:25
苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。
AI 视频生成公司 HeyGen 最近完成了 6000 万美元的 A 轮融资,公司估值已达 5 亿美元。此次融资由 Benchmark 领投,Conviction、Thrive Capital 和 Bond Capital 参与。截至目前,HeyGen 已累计筹到 7400 万美元。
Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。
还有12款大模型全军覆没……
让大模型直接操纵格斗游戏《街霸》里的角色,捉对PK,谁更能打?GitHub上一种你没有见过的船新Benchmark火了。
3 月 11 日,零一万物宣布推出基于全导航图的新型向量数据库 「笛卡尔(Descartes)」,已包揽权威榜单 ANN-Benchmarks 6 项数据集评测第一名。
针对图像编辑中的扩散模型,中科院联合Adobe和苹果公司的研究人员发布了一篇重磅综述。