AI资讯新闻榜单内容搜索-

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

谁是在线购物领域最强大模型？也有评测基准了。

来自主题: AI技术研报

4650 点击 2024-11-20 15:09

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能（AI）领域的一个悬而未解的问题。为了测量语言模型的事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报

9910 点击 2024-11-20 15:02

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

算起来，距离 5 月 14 日 OpenAI 发布 GPT-4o 高级语音模式已经过去了半年时间。在这期间，AI 实时语音对话已经成为了有能力大厂秀肌肉、拼实力的新战场。

来自主题: AI资讯

7688 点击 2024-11-20 15:01

3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校

顶不住了，真的顶不住。 AI顶会NeurIPS公布了今年「高中组」论文的获奖结果。

来自主题: AI资讯

8927 点击 2024-11-20 14:55

如何为你的场景选择合适的LLM模型

当你开始任何客户项目时，最常见的问题之一是：“我应该使用哪个模型？” 这个问题没有直接的答案，它是一个过程。在本博客中，我们将解释这个过程，这样下次客户问你这个问题时，你可以与他们分享这份文档。

来自主题: AI资讯

8364 点击 2024-11-20 14:50

Hugging Face，AI时代的“军火库”

如果把人工智能比作人类技术史上的一场革命，那么 Hugging Face 就是这场革命中的一位「使者」，它用一场场真诚的拥抱，拉近了科研与应用、技术与人之间的距离。今天，Hugging Face 已成为 AI 开源领域的明星，拥有超过 50 亿美元的估值，并成功将开源精神与商业化模式融合，成为全球最活跃的 AI 社区之一。但这一切，起点却颇为意外，从一款聊天机器人开始。

来自主题: AI资讯

7735 点击 2024-11-20 14:47