AI资讯新闻榜单内容搜索-CMMLU

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: CMMLU
媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

媲美OpenAI事实性基准,这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能(AI)领域的一个悬而未解的问题。为了测量语言模型的事实正确性,近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域,目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报
7349 点击    2024-11-20 15:02
实测“超越GPT-4”的百川超千亿参数模型:医疗问答业内最强?

实测“超越GPT-4”的百川超千亿参数模型:医疗问答业内最强?

实测“超越GPT-4”的百川超千亿参数模型:医疗问答业内最强?

百川智能又对产品进行了一次大更新,发布了Baichuan 3模型。这次更新后,在多个权威通用能力评测CMMLU、GAOKAO和AGI-Eval中,其英文能力已经逼近 GPT-4,在中文任务表现上甚至超越了GPT-4:

来自主题: AI资讯
7499 点击    2024-01-30 11:27
一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

商业利益的加入,就必然会驱使AI大模型厂商争先恐后去刷榜了。“不服跑个分”这句话,相信关注手机圈的朋友一定不会感到陌生。诸如安兔兔、GeekBench等理论性能测试软件,由于能够在一定程度上反映手机的性能,因此备受玩家的关注。

来自主题: AI资讯
5302 点击    2023-12-03 15:31