AI资讯新闻榜单内容搜索-eva

全球百模争霸，国产大模型拿下多个冠军！智源FlagEval全球评测榜单出炉

2024年快要结束了，世界大模型究竟孰强孰弱？刚刚，智源研究院发布了下半年大模型综合评测结果，涵盖了开源闭源100+模型，横跨文本、语音、图像和视频等多个领域。

来自主题: AI资讯

8941 点击 2024-12-20 15:12

100+大模型综测结果出炉！智源发布FlagEval“百模”评测结果，覆盖文本语音图片视频多种模态

2024年12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

来自主题: AI资讯

9732 点击 2024-12-20 09:43

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能（AI）领域的一个悬而未解的问题。为了测量语言模型的事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报

10334 点击 2024-11-20 15:02

RAGEval：实现实际场景检索增强生成系统（RAG）的“精准诊断”

清华大学NLP实验室联合北京师范大学、中国科学院大学、东北大学等机构的研究人员推出了全新的评测方法 RAGEval，通过快速构建场景化评估数据实现对检索增强生成（RAG）系统的“精准诊断”。

来自主题: AI技术研报

5914 点击 2024-11-08 19:31

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

让 LLM 在自我进化时也能保持对齐。

来自主题: AI技术研报

7051 点击 2024-11-05 14:44

Veeva中国总经理丁晓枫：启动3.0中国战略，打造商业化全数字生态闭环

2024年10月24日，全球生命科学行业云软件领导者Veeva Systems (NYSE: VEEV) 在上海举“2024 Veeva中国商务峰会”，活动现场，Veeva宣布了其基于中国市场洞察的一系列业务进展。

来自主题: AI资讯

4263 点击 2024-11-01 14:35

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

TL;DR：DuoAttention 通过将大语言模型的注意力头分为检索头（Retrieval Heads，需要完整 KV 缓存）和流式头（Streaming Heads，只需固定量 KV 缓存），大幅提升了长上下文推理的效率，显著减少内存消耗、同时提高解码（Decoding）和预填充（Pre-filling）速度，同时在长短上下文任务中保持了准确率。

来自主题: AI技术研报

5449 点击 2024-10-24 11:33