AI资讯新闻榜单内容搜索-eva

RAG测评关键指标

RAG（Retrieval-Augmented Generation）是一种结合信息检索与文本生成的技术，旨在提高大型语言模型（LLM）在回答复杂查询时的表现。它通过检索相关的上下文信息来增强生成答案的质量和准确性。解读RAG测评：关键指标与应用分析

来自主题: AI资讯

5568 点击 2024-10-11 10:06

在AI的世界里，模型的评估往往被看作是最后的「检查点」，但事实上，它应该是确保AI模型适合其目标的基础。

来自主题: AI资讯

5570 点击 2024-10-07 14:07

Google DeepMind的SCoRe方法通过在线多轮强化学习，显著提升了大型语言模型在没有外部输入的情况下的自我修正能力。该方法在MATH和HumanEval基准测试中，分别将自我修正性能提高了15.6%和9.1%。

来自主题: AI技术研报

11146 点击 2024-09-27 19:26

当前流行的基于嵌入检索的RAG（Retrieval-Augmented Generation）技术由Meta在2020年首次提出，最初应用于开放领域的抽取式问答。

来自主题: AI资讯

8885 点击 2024-09-08 11:00

快速更迭的开源大模型领域，又出现了新王：Reflection 70B。横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。这个新模型 Reflection 70B，来自 AI 写作初创公司 HyperWrite。

来自主题: AI资讯

8104 点击 2024-09-06 16:36

随着大模型研究的深入，如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力，LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。

来自主题: AI技术研报

11930 点击 2024-08-21 14:28

检索增强生成（Retrieval-Augmented Generation, RAG）技术正在彻底革新 AI 应用领域，通过将外部知识库和 LLM 内部知识的无缝整合，大幅提升了 AI 系统的准确性和可靠性。然而，随着 RAG 系统在各行各业的广泛部署，其评估和优化面临着重大挑战

来自主题: AI资讯

5728 点击 2024-08-18 17:10

基于评测维度，考虑到各评测集关注的评测维度，可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯

13207 点击 2024-07-23 19:24

随着人工智能和大型模型技术的迅猛发展，检索增强生成（Retrieval-Augmented Generation, RAG）已成为大型语言模型生成文本的一种主要范式。

来自主题: AI技术研报

10781 点击 2024-07-10 18:43

当前大语言模型（LLM）的评估方法受到数据污染问题的影响，导致评估结果被高估，无法准确反映模型的真实能力。北京大学等提出的KIEval框架，通过知识基础的交互式评估，克服了数据污染的影响，更全面地评估了模型在知识理解和应用方面的能力。

来自主题: AI技术研报

5843 点击 2024-07-02 18:25