花21000块钱,测34205条主流大模型用例,结论免费给你

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
花21000块钱,测34205条主流大模型用例,结论免费给你
7914点击    2026-02-24 15:31

我是洛小山,你学习 AI 的搭子。


春节闭关五天,我做了个东西:一个大模型场景化测评平台。


35000+ 次模型跑测,一共 42+ 模型,11,000 块人民币。


我全部跑完了,结论汇成一个平台,还会持续更新。


以后再有人问你「哪个模型好」,你就不用再凭感觉答了。


地址:xsct.ai (小山出题.ai)


其实是: XiaoShan Scenario Capability Testing(小山场景化能力评测平台),专为 AI 产品经理和 AI 时代需要做模型选型的超级个体而做。


目标是填补大模型「榜单分数」和你业务「实际选型决策」之间的空白。


花21000块钱,测34205条主流大模型用例,结论免费给你


直接上图,先看看这个文字综合榜。


花21000块钱,测34205条主流大模型用例,结论免费给你


第一名 Claude Sonnet 4.6,综合 95.4,成本 $3/$15。


第二名 Qwen3.5-plus,综合 95.3,成本 $0.12/$0.69。


两个差不到 0.2 分,但价格差了将近 20 倍


再看图像生成。


花21000块钱,测34205条主流大模型用例,结论免费给你


NBP 毫无疑问用例第一,紧随其后的是即梦 4.5。


除了榜单以外,你可以直观看到模型同一个任务上的横向对比。


比如:中英文混合的赛博朋克「未来酒吧 CYBER BAR」霓虹招牌,光晕、反射、雨夜场景…


7 个模型,同台竞技。


花21000块钱,测34205条主流大模型用例,结论免费给你


即梦 4 第一 82.5 分。


Gemini 3 Pro 80.1 分。


很多时候,肉眼就能看出质感的差距,也可以看出来模型自己的生图偏好。


换一个任务:敦煌莫高窟壁画风格。


飞天、莲花、矿物颜料质感,平面化构图。


花21000块钱,测34205条主流大模型用例,结论免费给你


即梦 4  85.8 分和 Gemini 3 Pro 85.8 并列第一,


即梦 4  便宜整整 60 倍


还有一些极限挑战,看看模型的天花板在哪。


噩梦挑战一


五种语言同时出现在一张海报上,中、英、日、法、阿拉伯语。


花21000块钱,测34205条主流大模型用例,结论免费给你


7 个模型全部翻车,都没能通过,最高分只有 58.5。


但你可以清楚地看到每个模型翻的地方,比如哪个字、哪个语言上翻车了。


这个场景下,只有 Nano Banana 系列能做好圆环的文字。


噩梦挑战二


一个挺离谱的数学控制用例。


野餐篮食材精确盘点,7种水果共15个、5个三明治(部分打开)、8个饮料容器、9套餐具…


然后物品还有堆叠和遮挡。


花21000块钱,测34205条主流大模型用例,结论免费给你


7 个模型也还是全部没有通过


最高分 64.2,所以,「数清楚」对生图模型来说极难。


但不同模型翻车的方式不一样,一些数量大致对、只是没有遵循细节要求。有的模型连食材种类都搞不清楚。


这种差异,才是边界测试真正的价值所在。


我的这个平台从 2 个物体到 10 个物体,以及更多物体的混合,都完整测了一遍,有兴趣可以直接点击【查看原文】或者 xsct.ai 查看


花21000块钱,测34205条主流大模型用例,结论免费给你


看用例就很有意思了,因为同一个任务,你可以一眼看完所有模型的生图结果,不用逐张点开…


花21000块钱,测34205条主流大模型用例,结论免费给你


比如这个拟人化能力测试:未来城市街道,各种交通工具都有了人格特征。


六张图同时摆出来,哪个公交车「眼睛」更灵动,哪个更像贴纸,不同模型之间的喜好是怎样的…


因为分数是客观的,但有时候你还需要对「风格」有感受,这样摊开对比,你就有更直观的感受了。


还有一个功能,我做出来之后自己觉得很开心的:AI 直接帮你标出图哪里有问题。


花21000块钱,测34205条主流大模型用例,结论免费给你


比如这个:文艺复兴天使 + 蒸汽朋克机械融合的任务。


AI 在图上直接框出天使胸口的齿轮区域,标注:「齿轮缺乏深度感,像是贴在胸口的薄片,未体现『内部露出』」,得分 65。


精确到哪个部位、哪个问题、扣了多少分。


有的时候我不一定会发现这些问题,就算能发现,自己肉眼评图太费时间,AI 帮我框出来,效率会高很多很多


然后是网页生成,平台里模型生成的网页,是真的可以运行的:


花21000块钱,测34205条主流大模型用例,结论免费给你


比如这是 Gemini 3 Flash Preview 生成的数独游戏,评分 73.9,通过。


可以直接在平台上体验,有难度选择、计时器、储存记录。不是截图,是真的跑起来的 HTML。


再看文字类用例。


同一个任务「散文文风迁移」,基础、进阶、困难三档难度,排名是不一样的。


基础档:


花21000块钱,测34205条主流大模型用例,结论免费给你


基础档的 32 个模型前几名全是 95.1,几乎拉不开差距。


qwen3-max 标注「最优性价比」,得分 94.7,性价比极高。


进阶档:


花21000块钱,测34205条主流大模型用例,结论免费给你


任务变难(要做文风分析 + 融入古典意象仿写 250 字),排名开始分化。


qwen3-max 从基础档第 7,跳到进阶档第 1,96.9 分。


困难档:


花21000块钱,测34205条主流大模型用例,结论免费给你


 困难档(深度文风迁移到风格迥异的现代城市场景),头部模型稳在 95 左右。


但再往下看,掉分的模型很多。


这个差距,才是你在真实复杂任务里,真正需要知道的东西。


看完这些图,你大概知道这是啥平台了~


这个是能帮助 AI 产品经理和超级个体的辅助工具。


你不需要再自己花钱花时间测模型了,可以在这里找找你想要的答案。


接下来,我想聊聊我为什么要搞这个…


01|我痛了很久的一个问题


做 AI 产品这几年,被问最多的问题是:


「山佬,你觉得现在用哪个模型最好?」


有的时候,我真的不知道怎样回答。因为这个问题根本就没有最标准的答案。


你说 Claude 好吧,对方问:Gemini 不是也很强?


你说 Gemini 好,对方问:Qwen 是不是更便宜?


你说 Qwen 便宜,对方问:但效果能好吗?


有的时候在御三家里绕圈子,绕来绕去,都答不到点子上。


因为真正的问题从来不是「哪个最好」。


而是,哪个模型能最贴近你的业务场景,最好的模型不一定是你业务场景里最具性价比的模型。


关键的是:我这个具体任务,用哪个模型,花多少钱,最划算。


02|但你自己测,代价太大了


假设你是 AI 产品经理,老板要你降本,问问你的想法。


你面对的局面可能是这样的:如果只从御三家里选,显得你对大模型没有真正的理解,只会随大流。


想认真测一轮?那就要自己设计用例,自己打 API,自己写评估脚本,等结果出来了再人工复核打分。


我算过这个开销:一轮认真的横评,覆盖主流模型,光 API 费用就得几百+。


设计用例、跑测试、写评估逻辑,加上人工复核的时间成本,没有一两周根本做不完。


大公司可以养团队专门干这个事。


但对于大部分 AI 产品经理、独立开发者、小团队来说,这个代价其实不小。


然后最终的结果是:


大家还是凭感觉选模型。或者认准一两个模型,不到价格瓶颈就不换。


03|所以我自己跑了一遍


这件事我酝酿了很久,一直想做。


春节期间,终于可以心无旁骛做一件开心的事情。


做到凌晨五点,睡到十一点多,起来继续做,连肝五天。


做之前我没想到会花这么多的费用。


先上账单,不然你不会相信我说的数字。


这是 OpenRouter 的后台,测评进行到一半时的截图…


花21000块钱,测34205条主流大模型用例,结论免费给你


$2,000,175K 次请求,718M tokens…而且这只是跑到一半。


这还只是 OpenRouter 一个平台,不算其他的。


为了保证数据准确,我的原则是:国内模型一律用官方 API,不走第三方中转。


所以,我给国产的平台们全部都充了400 块钱左右…


这是我系统后台的供应商配置页面:


花21000块钱,测34205条主流大模型用例,结论免费给你


同时接入的官方供应商:MiniMax、智谱、月之暗面(Kimi)、深度求索、火山引擎、腾讯混元、阿里云百炼、小米 MiMo…


每一家都是独立接入的官方 API,不是 OpenRouter 转发。


这是测评系统的管理后台:


花21000块钱,测34205条主流大模型用例,结论免费给你


总评测数 35172 条,平均分 85.25,已测 42 个模型,已测用例 629 条。


然后还有开发平台本身的费用…我用 Cursor 写的这整个平台:


花21000块钱,测34205条主流大模型用例,结论免费给你


Cursor Ultra 套餐 $200/月,On-Demand 用量这个月又花了 $705


两项加起来,光 Cursor 这个月就快 $900 多刀了。


把所有账单加在一起:前后大概花了 1500 刀,折合约 11000 块人民币。


说贵是真的贵。


但我觉得这些钱花得很值,因为我把结论做成了一个平台,不仅仅只有我自己用,是大家都可以来一起看,一起交流。


不过,虽然这个平台只花了几天时间 Vibe 出来,但背后的方法论,我积累了快两年。


如果你感兴趣,你可以到 xsct.ai/methodology 这里阅读这个平台完整的测评方法论,还可以直接复制 Markdown 给 AI ,和 AI 交流。


花21000块钱,测34205条主流大模型用例,结论免费给你


系统里目前积累了 629 条测试用例,覆盖三大类:


  • 文本类:写作、翻译、推理、代码、幻觉对抗、角色扮演、润色、摘要…


  • 图像生成类:风格还原、文字渲染、多语言排版、创意构图…


  • 网页生成类:交互设计、响应式布局、表单、游戏、电商落地页…


每个大类下,用例分基础 / 进阶 / 困难 三档难度。


每一条用例,都能展开看:任务是什么、Prompt 是什么、每个模型实际输出了什么、评分标准是什么、哪里做得好、哪里不行。


你也可以直接复制 CURL,拿去自己的环境里跑。


花21000块钱,测34205条主流大模型用例,结论免费给你


比如这条是 GPT-5 Nano 的多轮对话用例,场景是心理咨询助手,6 条消息的完整交互。


左边是多维度评分细项(立场一致性 90、识别误区 85、礼貌表达 95),中间是完整的 Prompt 和对话记录,右边是模型输出。


右上角一键「复制 CURL」,直接在你自己的 API 环境里复现。


04|如果你正好还要汇报


先看这张雷达图:


花21000块钱,测34205条主流大模型用例,结论免费给你


你可以挑选任意的五个主流模型,生成雷达图。


这样横向对比其他几个模型,凹陷在哪,一眼就看见了。


或者选取合适的维度,生成大模型的对比直方图。


花21000块钱,测34205条主流大模型用例,结论免费给你


直接截图或者导出,就能拿出去给你老板汇报。


逼格拉满。


页面下面可以对每个维度细节打分,你可以查看不同用例下,各个模型在不同难度下的总分和具体分值。


花21000块钱,测34205条主流大模型用例,结论免费给你


也可以直接看模型的能力天花板。


花21000块钱,测34205条主流大模型用例,结论免费给你


这些图也能体现很多的问题,用雷达图举例。


花21000块钱,测34205条主流大模型用例,结论免费给你


Claude 整体圆润,各维度均衡,没有明显短板。


DeepSeek,L-QA 和 L-CriticalThinking(批判思考) 明显凹陷。


批判性思维这个维度,DeepSeek 得了 66.1 分,Claude 是 92.5 分,差距 26 分。也就是说DeepSeek 可能容易被带节奏。


你给它一个方向,它就顺着往下走,不太会反驳你。


这在客服问答、知识问答类场景,风险比比较大。


GLM-5,L-Math(数学) 和 L-ChinesePinyin(汉语拼音) 有明显短板。


但它在创意写作上出奇地好,L-Context 上下文理解 98.1 分,L-Creative 创意写作 SOTA。


但一旦到了数学推理和中文拼音处理,碰到复杂任务就掉得很多。


Qwen,L-Hallucination(幻觉)对抗比我预期的弱。


在需要「不能瞎编」的场景,比如法律、医疗、事实核查类任务,用这个模型就要谨慎。


这些结论不是我拍脑袋说的,是几万条用例跑出来的。


当然!因为目前这个系统还存在一些局限性,比如现在只用了 Gemini 3 Flash 一个模型打分,没有用多个模型打分取平均。


这些用例也是 Claude 4.6 Opus 生成的,我还没有那么多时间一一校准。所以上面的结论,也仅为这些数据的基础结论。


后续我还会优化测评体系,为你提供相对更准确的分数。


还有一件事我觉得很重要。


因为很多时候我试了半天,发现模型效果不好,不知道是自己 Prompt 没写好,还是模型本来就做不到。


所以我专门设计了一批「能力边界」用例,专门测这条线在哪。


我要区分是「模型问题」还是「我的 Prompt 问题」。


比如定向数数:让图像模型生成精确数量的物品:


花21000块钱,测34205条主流大模型用例,结论免费给你


第一组,普通难度的计数任务。就这个,大部分模型已经开始掉分了。


花21000块钱,测34205条主流大模型用例,结论免费给你


你点开详情,还看到模型实际生成的图里,哪个物品数错了。


横评完,平台能给你更直观的感受:是你 Prompt 的问题,还是这个模型的能力天花板就在这里。


花21000块钱,测34205条主流大模型用例,结论免费给你


这样的标注,能帮你在实际业务里节省大量调 Prompt 的时间。


你可以来这个平台先确认模型有没有这个能力,再去优化 Prompt。


继续加难度:叠加「光影渲染」要求:


花21000块钱,测34205条主流大模型用例,结论免费给你


当任务同时要求「数量精确」+「光影效果」+「材质质感」,所有模型的分数都跌了,但跌幅不一样。


掉分少的,或许才是你在这类场景里应该用的模型。


05|你真正需要的,不是总分,而是场景


这个是我一直不相信模型跑分的关键原因,因为模型跑分无法说明和你业务场景的适配性。


你真正需要的是:我这个具体的场景,用哪个模型最合适。


举个例子,你在做文字创作相关的功能,各维度的模型差异是这样的:


花21000块钱,测34205条主流大模型用例,结论免费给你


这是文字创作维度(写作、中文处理、上下文、创意、摘要)的柱状图对比。


L-ChinesePinyin:glm-5 以 99.0 分遥遥领先,deepseek 94.4 垫底。


L-Context(上下文理解):glm-5 98.1,deepseek 86.1 明显落后。


再看创意写作的细分场景,同在「L-Creative」大类下,各场景的冠军其实不一样:


花21000块钱,测34205条主流大模型用例,结论免费给你


文体实验:Claude 96.1 SOTA。


多视角叙事:glm-5 95.4,反超 Claude 93.7。


仿写风格:glm-5 93.8 SOTA。


对话创作:Claude 和 qwen3.5 并列 95.5。


因为没有一个模型能全面碾压所有细分场景。


你真正要看的,是你的业务需要的那一格。


想直接搜你的场景?


平台支持关键词 + 语义混合搜索:


花21000块钱,测34205条主流大模型用例,结论免费给你


比如搜「文风」,找到 32 个模型在「散文文风迁移写作」这个场景下的全部排名。


qwen3-max 综合 95.5 第一,基础 94.7,进阶 96.9,困难 95.0。


切换「基础 / 进阶 / 困难」,不同难度下哪个模型更适合你,一眼就能看出来。


06|还能帮你直接算这笔账


选完模型,下一步就是要算成本了。


这是我很刚需的功能:


花21000块钱,测34205条主流大模型用例,结论免费给你


选好要对比的模型,填你的 token 用量和调用次数,平台直接给你算钱,标准的单位是美元,但平台会拉取最新汇率换算。


比如同等调用量(输入 10k token,输出 2k,调用 100 次),你再设置一下基准,就可以对多个模型横向对比。


比如以 qwen3.5-plus 为基准:


  • OpenAI: gpt-oss-20b:比 qwen3.5 便宜 77.2%


  • doubao-seed-2-0-mini:便宜 65.9%


  • deepseek-v3.2:反而贵 47.7%


很多人看宣传,以为 DeepSeek 很便宜。


但这张表算出来,它比 Qwen3.5-plus 贵将近一半。


你也不用再自己扒文档、换算汇率、算每次调用多少钱了。


07|还有两个有意思的


第一件:网页生成测评,这是市面上没人做过的。


大部分测评平台只测文本。


但现在越来越多的业务场景是直接让模型生成网页…


电商落地页、仪表盘、表单、互动游戏…


我专门做了 W 系列网页用例。


而且平台里可以直接点开,模型生成的网页是真的可以运行的,截图评价也是对着真实渲染结果打的:


花21000块钱,测34205条主流大模型用例,结论免费给你


这条是 Gemini 3 Flash Preview 生成的数独游戏。


评分 73.9,通过。core_game_logic 92 分、visual_and_ux 90 分。


右边的网页可以直接打开玩。


第二件:前沿资讯,附带评测分数。


每次新模型发布,这里会同步整理,不仅仅转发新闻,一些便宜的,我会直接跑。


一个模型晚上发,早上你过来,就能看到模型结果了。


花21000块钱,测34205条主流大模型用例,结论免费给你


2026 年 2 月,Claude Sonnet 4.6、GLM-5、Qwen3.5 Plus、Gemini 3.1 Pro 的发布,全在这里。


每条资讯下面直接看到综合分、基础/进阶/困难分层评分,还有价格。


08|如果你有想测的场景,告诉我


如果你有具体的业务场景,不知道用哪个模型,可以来这里提需求:


花21000块钱,测34205条主流大模型用例,结论免费给你


填你的场景描述、评测维度、刚需程度,我们帮你跑一遍,结论发给你。


有实际项目需求的,或者非常急需决策的,都可以提哈。


09|不完美的开始


这个平台,现在还不完美。


1500 刀花出去了,但有些边界 case 还没来得及处理,有些功能还有 bug。还有很多的 Case 都没来得及跑(比如 Web 的)…


我一个人(加上很少很少的资源)在做这件事,没办法把所有问题都在发布前解决掉。


于是,有个请求:


如果你在使用过程中遇到了问题、报错,或者发现了明显不对的地方,欢迎直接在平台里反馈给我。


每一条用例下面都有「反馈用例异常」的按钮,点一下就好。我会尽快修复。


你的反馈,对我来说比任何东西都有价值。


如果身边有人在选模型,可以把链接发给他,如果这个平台能帮到他们,我会觉得很值很开心。


终|我们一起共建


我本身也是许多模型的应用方,这个平台也是专门为了方便自己而做,XSCT Bench 会一直保持独立运营,不会自己骗自己~

不会接受任何的模型厂商赞助,也没有暗箱排名,不做改分,所有数据与输出真实、透明、可追溯。


保证给你的是最准确的最真实的信息。


花21000块钱,测34205条主流大模型用例,结论免费给你


如果你想基于用例自己跑一下,可以直接使用我平台的数据集。

https://github.com/itshen/XSCT_Bench_Dataset


选错模型,是最隐形的浪费。


性能浪费了,钱也浪费了,时间还浪费了。


XSCT Bench 平台,数据在这儿,每个人自有判断。


以后再有人问你「用哪个模型好」,把这个链接甩给他就行了。


xsct.ai


小山出题.ai


欢迎把这篇文章转给正在选模型的朋友。


你现在最想搞清楚的是哪个场景下哪个模型?


欢迎评论区告诉我,说不定下一批测评就是你点的单。


我是洛小山,我们下次见。


关于我


我是洛小山,一个在 AI 浪潮中不断思考和实践的大厂产品总监。


我不追热点,只分享那些能真正改变我们工作模式的观察和工具。


如果你也在做 AI 产品,欢迎关注我,我们一起进化。


文章来自于微信公众号 "洛小山",作者 "洛小山"

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0