AI资讯新闻榜单内容搜索-训练数据

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 训练数据

史上最大高质量科学推理后训练数据集开源，快速让Qwen3等变“科学家”

史上最大高质量科学推理后训练数据集开源，快速让Qwen3等变“科学家”

史上最大高质量科学推理后训练数据集开源，快速让Qwen3等变“科学家”

有史规模最大的开源科学推理后训练数据集来了！上海创智学院、上海交通大学（GAIR Lab）发布MegaScience。该数据集包含约125万条问答对及其参考答案，广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域，旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。

来自主题: AI技术研报

8010 点击 2025-08-09 15:52

训练数据爆减至1/1200！清华&生数发布国产视频具身基座模型，高效泛化复杂物理操作达SOTA水平

训练数据爆减至1/1200！清华&生数发布国产视频具身基座模型，高效泛化复杂物理操作达SOTA水平

训练数据爆减至1/1200！清华&生数发布国产视频具身基座模型，高效泛化复杂物理操作达SOTA水平

机器人能通过普通视频来学会实际物理操作了！来看效果，对于所有没见过的物品，它能精准识别并按照指令完成动作。

来自主题: AI技术研报

8253 点击 2025-07-26 11:58

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

在噪声污染严重影响预训练数据的质量时，如何能够高效且精细地精炼数据？中科院计算所与阿里Qwen等团队联合提出RefineX，一个通过程序化编辑任务实现大规模、精准预训练数据精炼的新框架。

来自主题: AI技术研报

8504 点击 2025-07-22 10:03

ACM MM 2025 | EventVAD：7B参数免训练，视频异常检测新SOTA

ACM MM 2025 | EventVAD：7B参数免训练，视频异常检测新SOTA

ACM MM 2025 | EventVAD：7B参数免训练，视频异常检测新SOTA

现有视频异常检测（Video Anomaly Detection, VAD）方法中，有监督方法依赖大量领域内训练数据，对未见过的异常场景泛化能力薄弱；而无需训练的方法虽借助大语言模型（LLMs）的世界知识实现检测，但存在细粒度视觉时序定位不足、事件理解不连贯、模型参数冗余等问题。

来自主题: AI技术研报

8141 点击 2025-07-21 10:28

MIT发布自适应语言模型！新任务，自生成远超「GPT-4.1合成训练数据」

MIT发布自适应语言模型！新任务，自生成远超「GPT-4.1合成训练数据」

MIT发布自适应语言模型！新任务，自生成远超「GPT-4.1合成训练数据」

自适应语言模型框架SEAL，让大模型通过生成自己的微调数据和更新指令来适应新任务。SEAL在少样本学习和知识整合任务上表现优异，显著提升了模型的适应性和性能，为大模型的自主学习和优化提供了新的思路。

来自主题: AI技术研报

8915 点击 2025-07-10 11:33

Meta新注意力机制突破Transformer上限，还用上了OpenAI的开源技术

Meta新注意力机制突破Transformer上限，还用上了OpenAI的开源技术

Meta新注意力机制突破Transformer上限，还用上了OpenAI的开源技术

Meta挖走OpenAI大批员工后，又用OpenAI的技术搞出新突破。新架构名为2-Simplicial Transformer，重点是通过修改标准注意力，让Transformer能更高效地利用训练数据，以突破当前大模型发展的数据瓶颈。

来自主题: AI技术研报

8036 点击 2025-07-08 12:01

vivo突破手机AI部署难题，绕开MoE架构限制，骁龙8 Elite流畅运行｜ICCV 2025

vivo突破手机AI部署难题，绕开MoE架构限制，骁龙8 Elite流畅运行｜ICCV 2025

vivo突破手机AI部署难题，绕开MoE架构限制，骁龙8 Elite流畅运行｜ICCV 2025

vivo AI研究院联合港中文以及上交团队为了攻克这些难题，从训练数据和模型结构两方面，系统性地分析了如何在MLLM训练中维持纯语言能力，并基于此提出了GenieBlue——专为移动端手机NPU设计的高效MLLM结构方案。

来自主题: AI技术研报

8811 点击 2025-07-05 13:12

策略改写「一战历史」！中科院开源全新博弈智能体框架DipLLM

策略改写「一战历史」！中科院开源全新博弈智能体框架DipLLM

策略改写「一战历史」！中科院开源全新博弈智能体框架DipLLM

中科院自动化所提出DipLLM，这是首个在复杂策略游戏Diplomacy中基于大语言模型微调的智能体框架，仅用Cicero 1.5%的训练数据就实现超越

来自主题: AI资讯

9274 点击 2025-07-01 15:30

AI“读书”合法了：美法院最新裁定，无需作者同意，已购书籍可用于训练AI

AI“读书”合法了：美法院最新裁定，无需作者同意，已购书籍可用于训练AI

AI“读书”合法了：美法院最新裁定，无需作者同意，已购书籍可用于训练AI

无需原作者同意，AI可以用已出版书籍作训练数据了。

来自主题: AI监管政策

11267 点击 2025-06-26 16:23

10%训练数据超越100%表现，机器人学习领域迎来重要突破

10%训练数据超越100%表现，机器人学习领域迎来重要突破

10%训练数据超越100%表现，机器人学习领域迎来重要突破

第一作者陈昌和是美国密歇根大学的研究生，师从 Nima Fazeli 教授，研究方向包括基础模型、机器人学习与具身人工智能，专注于机器人操控、物理交互与控制优化。

来自主题: AI技术研报

11182 点击 2025-06-11 14:29

上一页当前第5页,共14页下一页