AI资讯新闻榜单内容搜索-合成数据

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 合成数据
大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力

大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力

大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力

在大语言模型(LLMs)后训练任务中,由于高质量的特定领域数据十分稀缺,合成数据已成为重要资源。虽然已有多种方法被用于生成合成数据,但合成数据的理论理解仍存在缺口。为了解决这一问题,本文首先对当前流行的合成数据生成过程进行了数学建模。

来自主题: AI技术研报
6358 点击    2024-10-15 18:38
大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手

大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手

大模型「强崩溃」!Meta新作:合成数据有「剧毒」,1%即成LLM杀手

1%的合成数据,就让LLM完全崩溃了? 7月,登上Nature封面一篇论文证实,用合成数据训练模型就相当于「近亲繁殖」,9次迭代后就会让模型原地崩溃。

来自主题: AI技术研报
4413 点击    2024-10-14 10:12
斯坦福重磅,突破小规模语料瓶颈,EntiGraph合成数据增强算法让LLM更聪明

斯坦福重磅,突破小规模语料瓶颈,EntiGraph合成数据增强算法让LLM更聪明

斯坦福重磅,突破小规模语料瓶颈,EntiGraph合成数据增强算法让LLM更聪明

如何处理小众数据,如何让这些模型高效地学习专业领域的知识,一直是一个挑战。斯坦福大学的研究团队最近提出了一种名为EntiGraph的合成数据增强算法,为这个问题带来了新的解决思路。

来自主题: AI资讯
6759 点击    2024-09-20 10:31
LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

LLM的范式转移:RL带来新的 Scaling Law

从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之前的 Q-star,其合成数据的方法会大幅提升 LLM 的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上,帮助 OpenAI 新一代 Orion。

来自主题: AI资讯
7433 点击    2024-08-31 11:19
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学

合成数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。

来自主题: AI技术研报
8737 点击    2024-08-19 14:52
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准

LLM的数学推理能力缺陷得到了很多研究的关注,但最近浙大、中科院等机构的学者们提出,先进模型在视觉推理方面同样不足。为此他们提出了一种多模态的视觉推理基准,并设计了一种新颖的数据合成方法。

来自主题: AI技术研报
8571 点击    2024-08-08 14:41
Meta的Llama 3是合成数据训练?数据荒了解一下

Meta的Llama 3是合成数据训练?数据荒了解一下

Meta的Llama 3是合成数据训练?数据荒了解一下

如今一场席卷人工智能圈的“石油危机”已经出现,几乎每一家AI厂商都在竭力寻求新的语料来源,但再多的数据似乎也填不满AI大模型的胃口。更何况越来越多的内容平台意识到了手中数据的价值,纷纷开始敝帚自珍。为此,“合成数据”也成为了整个AI行业探索的新方向。

来自主题: AI资讯
7164 点击    2024-08-05 12:23
CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升

CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升

CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升

为了解决这个问题,一些研究尝试通过强大的 Teacher Model 生成训练数据,来增强 Student Model 在特定任务上的性能。然而,这种方法在成本、可扩展性和法律合规性方面仍面临诸多挑战。在无法持续获得高质量人类监督信号的情况下,如何持续迭代模型的能力,成为了亟待解决的问题。

来自主题: AI技术研报
6036 点击    2024-08-01 15:55
英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码

英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码

英伟达最新技术分享:手把手教你用Llama 3.1合成数据改进模型!附代码

适逢Llama 3.1模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或RAG系统的微调生成合成数据。

来自主题: AI技术研报
9670 点击    2024-07-29 20:20