AI资讯新闻榜单内容搜索-数据集

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 数据集

星环科技孙元浩：语料已经是大模型最大的挑战

星环科技孙元浩：语料已经是大模型最大的挑战

星环科技孙元浩：语料已经是大模型最大的挑战

「原来以为语料已经匮乏了，大模型训练已经没有语料了，实际上不是的，数据还远远没有跑光」。

来自主题: AI资讯

9754 点击 2024-06-16 18:09

Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

训练数据的数量和质量，对LLM性能的重要性已经是不言自明的事实。然而，Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水，他们预测，互联网上可用的人类文本数据将在四年后，即2028年耗尽。

来自主题: AI技术研报

11134 点击 2024-06-15 16:20

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

刚刚，英伟达全新发布的开源模型Nemotron-4 340B，有可能彻底改变训练LLM的方式！从此，或许各行各业都不再需要昂贵的真实世界数据集了。而且，Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，甚至可以和GPT-4掰手腕！

来自主题: AI技术研报

6297 点击 2024-06-15 15:58

对话林咏华：刚在“AI春晚”上开源了3.4T数据集的智源，是如何死磕大模型数据难题的

对话林咏华：刚在“AI春晚”上开源了3.4T数据集的智源，是如何死磕大模型数据难题的

对话林咏华：刚在“AI春晚”上开源了3.4T数据集的智源，是如何死磕大模型数据难题的

本周五，一年一度的AI春晚“北京智源大会”正式开幕。本次大会AI明星浓度，放在全球范围内可能也是独一份：OpenAI Sora负责人Aditya Ramesh作为神秘嘉宾进行了分享，并接受了DiT作者谢赛宁的“拷问”、李开复与张亚勤炉边对话AGI、还集齐了国内大模型“四小龙”，百川智能CEO王小川、智谱AI CEO张鹏、月之暗面CEO杨植麟、面壁智能CEO李大海…… 这还只是第一天上午的开幕式。

来自主题: AI资讯

11272 点击 2024-06-15 15:38

FineWeb技术报告出炉！揭秘HuggingFace规模最大、质量最高预训练数据集

FineWeb技术报告出炉！揭秘HuggingFace规模最大、质量最高预训练数据集

FineWeb技术报告出炉！揭秘HuggingFace规模最大、质量最高预训练数据集

从大规模网络爬取、精细过滤到去重技术，通过FineWeb的技术报告探索如何打造高质量数据集，为大型语言模型（LLM）预训练提供更优质的性能。

来自主题: AI资讯

10745 点击 2024-06-09 18:06

5秒完成3D生成，真香合成数据集已开源，上交港中文新框架超越Instant3D

5秒完成3D生成，真香合成数据集已开源，上交港中文新框架超越Instant3D

5秒完成3D生成，真香合成数据集已开源，上交港中文新框架超越Instant3D

使用大模型合成的数据，就能显著提升3D生成能力？

来自主题: AI资讯

10468 点击 2024-06-09 17:19

首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升

首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升

首次证实白盒Transformer可扩展性！马毅教授CRATE-α：鲸吞14亿数据，性能稳步提升

CRATE-α是一种新型Transformer架构变体，通过设计改进提升了模型的可扩展性、性能和可解释性，CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型，其性能会随着模型和数据集规模扩大而继续提升。

来自主题: AI技术研报

10507 点击 2024-06-06 15:48

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

众所周知，对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说，构建高质量的网络规模数据集是非常重要的。然而，即使是最先进的开源 LLM 的预训练数据集也不公开，人们对其创建过程知之甚少。

来自主题: AI技术研报

10351 点击 2024-06-04 17:45

即插即用，快速适配！港大FlashST：简单通用的智慧交通时空预测模型 | ICML 2024

即插即用，快速适配！港大FlashST：简单通用的智慧交通时空预测模型 | ICML 2024

即插即用，快速适配！港大FlashST：简单通用的智慧交通时空预测模型 | ICML 2024

华南理工大学和香港大学的研究人员在ICML 2024上提出了一个简单而通用的时空提示调整框架FlashST，通过轻量级的时空提示网络和分布映射机制，使预训练模型能够适应不同的下游数据集特征，显著提高了模型在多种交通预测场景中的泛化能力。

来自主题: AI技术研报

10353 点击 2024-06-04 15:54

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

一般而言，训练神经网络耗费的计算量越大，其性能就越好。在扩大计算规模时，必须要做个决定：是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。

来自主题: AI技术研报

7363 点击 2024-06-03 17:55

上一页当前第25页,共32页下一页