AI资讯新闻榜单内容搜索-模型评测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型评测
力压李飞飞团队登顶WorldScore,黑马Manifold AI领跑世界动作模型新范式

力压李飞飞团队登顶WorldScore,黑马Manifold AI领跑世界动作模型新范式

力压李飞飞团队登顶WorldScore,黑马Manifold AI领跑世界动作模型新范式

通用世界模型评测榜单 WorldScore 登顶、建立具身世界模型评测榜单 WorldArena 、发布通用世界模型 WorldScape 、发布世界-动作模型 WorldScape Policy,这家低调的世界模型创业公司 Manifold AI(流形空间)近期走出隐身模式频频出手,开始领跑世界-动作模型具身新路线。

来自主题: AI资讯
7843 点击    2026-04-04 11:03
林俊旸离职后,阿里Qwen3.5首次发新

林俊旸离职后,阿里Qwen3.5首次发新

林俊旸离职后,阿里Qwen3.5首次发新

今日,阿里千问最新旗舰模型预览版Qwen3.5-Max-Preview正式亮相,并登上全球大模型评测平台LMArena。在最新榜单中,该模型拿下1464分,进入第一梯队,同时带动阿里千问跻身全球大模型实验室前五、国内第一。

来自主题: AI资讯
7915 点击    2026-03-20 14:40
国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程

国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程

国产医疗大模型登顶权威榜单!核心秘籍:PB级训练数据、模拟医生真实会诊过程

2月7日,中文医疗大模型评测平台MedBench公布最新多模态大模型评测榜单,数坤科技的数坤坤多模态医学大模型V3以63.6分拿下第一。在榜单中,V3的表现超过微医、云知声旗下医疗行业大模型,以及OpenAI、谷歌、阿里千问旗下通用大模型。

来自主题: AI资讯
7606 点击    2026-02-14 10:38
Claude 5史诗级泄露,史上最强编程模型评测炸裂!核心秘密曝光

Claude 5史诗级泄露,史上最强编程模型评测炸裂!核心秘密曝光

Claude 5史诗级泄露,史上最强编程模型评测炸裂!核心秘密曝光

Anthropic的新模型要来了!代号Fennec的Claude Sonnet 5马上要发布,性能吊打市面上所有编程大模型,价格还砍掉50%,还能比肩一整个人类开发团队,可以说达到编程领域的巅峰。

来自主题: AI资讯
8891 点击    2026-02-04 17:27
具身智能DeepSeek时刻!千寻智能模型开源即登顶全球榜单

具身智能DeepSeek时刻!千寻智能模型开源即登顶全球榜单

具身智能DeepSeek时刻!千寻智能模型开源即登顶全球榜单

全球榜单中唯一成功率超过50%的模型。今日,千寻智能正式开源自研VLA基础模型Spirit v1.5,就在前一天,该模型在全球具身智能模型评测平台RoboChallenge上,综合评测斩获第一。

来自主题: AI资讯
9254 点击    2026-01-12 09:27
807道灵魂拷问后,中国模型竟在「意义测试」中夺冠!

807道灵魂拷问后,中国模型竟在「意义测试」中夺冠!

807道灵魂拷问后,中国模型竟在「意义测试」中夺冠!

AI不仅会做PPT,写代码,它还能理解更深层次的问题。在美国的一项偏重于文化领域的新基准测试中,中国开源模型Qwen3夺冠,DeepSeek的R1跻身前六,力压多家全球顶级的明星模型。

来自主题: AI资讯
5901 点击    2025-12-23 10:06
中国AI开源16强,最新出炉

中国AI开源16强,最新出炉

中国AI开源16强,最新出炉

知名AI大模型评测Chatbot Arena放榜!阿里Qwen3-235B-A22B-Instruct-2507位列大语言模型总榜第三,月之暗面Kimi-K2-0711-preview、深度求索DeepSeek-R1-0528并列为总榜第五,以开源之姿超越Claude 4、GPT-4.1等顶尖闭源模型。

来自主题: AI资讯
10613 点击    2025-08-05 10:47
ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

ACL 2025 Oral | 你的模型评测搭子上线:Evaluation Agent懂你更懂AI

怎么快速判断一个生成模型好不好? 最直接的办法当然是 —— 去问一位做图像生成、视频生成、或者专门做评测的朋友。他们懂技术、有经验、眼光毒辣,能告诉你模型到底强在哪、弱在哪,适不适合你的需求。

来自主题: AI技术研报
7652 点击    2025-07-18 11:02
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事

对话中国信通院魏凯:AI下半场,大模型要少说话,多做事

对话中国信通院魏凯:AI下半场,大模型要少说话,多做事

今年2月DeepSeek爆火,震惊国内外。实际上,在此之前,中国信息通信研究院(下称:中国信通院)的大模型评测团队就观察到国内模型性能迅速提升的势头,他们当中就包括中国信通院人工智能研究所所长魏凯。

来自主题: AI资讯
7771 点击    2025-07-01 10:17
通专融合,思维链还透明,上海AI Lab为新一代大模型打了个样

通专融合,思维链还透明,上海AI Lab为新一代大模型打了个样

通专融合,思维链还透明,上海AI Lab为新一代大模型打了个样

OpenAI 研究员姚顺雨近期发布文章,指出:AI 下半场将聚焦问题定义与评估体系重构。在 AI 发展新阶段,行业需要通过设计更有效的模型评测体系,弥补 AI 能力与真实需求的差距。

来自主题: AI技术研报
11183 点击    2025-05-24 15:33