AI资讯新闻榜单内容搜索-大模型评测

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 大模型评测
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能

DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能

DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能

DeepSeek放大招!新模型专注数学定理证明,大幅刷新多项高难基准测试。在普特南测试上,新模型DeepSeek-Prover-V2直接把记录刷新到49道。目前的第一名在657道题中只做出10道题,为Kimi与AIME2024冠军团队Numina合作成果Kimina-Prover。

来自主题: AI技术研报
7803 点击    2025-05-01 22:52
中文大模型幻觉测评系列:事实性幻觉测评结果发布!

中文大模型幻觉测评系列:事实性幻觉测评结果发布!

中文大模型幻觉测评系列:事实性幻觉测评结果发布!

SuperCLUE-Fact是专门评估大语言模型在中文短问答中识别和应对事实性幻觉的测试基准。测评任务包括知识、常识、对抗性和上下文幻觉。

来自主题: AI资讯
8106 点击    2025-04-15 17:04
蚂蚁医疗大模型拿下MedBench测评“双料”冠军

蚂蚁医疗大模型拿下MedBench测评“双料”冠军

蚂蚁医疗大模型拿下MedBench测评“双料”冠军

近日,记者发现,国内权威医疗大模型评测平台MedBench在官网更新了榜单。多个医疗AI产品及研究团队入榜,其中蚂蚁AI健康管家团队研发的蚂蚁医疗大模型以评测榜单97.5、自测榜单98.2的高分再度夺得双料冠军。

来自主题: AI资讯
5633 点击    2025-03-13 10:30
司南首期多模态模型闭源榜单发布!48个模型同台竞技,谁将脱颖而出?

司南首期多模态模型闭源榜单发布!48个模型同台竞技,谁将脱颖而出?

司南首期多模态模型闭源榜单发布!48个模型同台竞技,谁将脱颖而出?

基于闭源评测基准,近期司南针对国内外主流多模态大模型进行了全面评测,现公布司南首期多模态模型闭源评测榜单。首期榜单共包含 48 个多模态模型,其中包含:3 个国内 API 模型:GLM-4v-Plus-20250111 (智谱),Step-1o (阶跃),BailingMM-Pro-0120 (蚂蚁)

来自主题: AI技术研报
8060 点击    2025-03-06 19:45
易慧智能发布汽车行业大模型评测集,并重磅推出模型路由技术方案

易慧智能发布汽车行业大模型评测集,并重磅推出模型路由技术方案

易慧智能发布汽车行业大模型评测集,并重磅推出模型路由技术方案

10月25日,汽车行业AI产品和业务解决方案提供商易慧智能发布了汽车行业首个大模型评测集。此次评测旨在全面评估市面上主流大模型在汽车行业中的实际应用效果,特别关注于汽车营销场景的应用评估。在此基础上,易慧智能重磅推出创新的模型路由技术方案——基于多模型的YiAgent群体智能技术框架。

来自主题: AI资讯
4103 点击    2024-10-26 11:11
大模型常用评测基准汇总

大模型常用评测基准汇总

大模型常用评测基准汇总

基于评测维度,考虑到各评测集关注的评测维度,可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯
10543 点击    2024-07-23 19:24
国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品

国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品

国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品

2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

来自主题: AI资讯
9824 点击    2024-05-17 17:25