AI资讯新闻榜单内容搜索-模型训练

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能，你需要这种提示范式

多模态大模型（Multimodal Large Language Models，MLLMs）在不同的任务中表现出了令人印象深刻的能力，尽管如此，这些模型在检测任务中的潜力仍被低估。

来自主题: AI技术研报

11680 点击 2024-07-22 14:58

中科大联合华为诺亚提出Entropy Law，揭秘大模型性能、数据压缩率以及训练损失关系

数据是大语言模型（LLMs）成功的基石，但并非所有数据都有益于模型学习。

来自主题: AI技术研报

10505 点击 2024-07-22 14:55

盛名一时的BERT哪去了？这个问题的答案昭示了LLM范式的转变

编码器模型哪去了？如果 BERT 效果好，那为什么不扩展它？编码器 - 解码器或仅编码器模型怎么样了？

来自主题: AI资讯

9695 点击 2024-07-22 14:50

ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型对齐技术（Alignment）所要攻克的难题。

来自主题: AI资讯

12112 点击 2024-07-21 17:10

KDD 2024｜港大黄超团队深度解析大模型在图机器学习领域的「未知边界」

在信息爆炸的当今时代，我们如何从浩如烟海的数据中探寻深层次的联系呢？

来自主题: AI技术研报

10939 点击 2024-07-21 14:21

LoRA综述来了! 浙大《大语言模型的LoRA研究》综述

低秩适应（Low-Rank Adaptation，LoRA）通过可插拔的低秩矩阵更新密集神经网络层，是当前参数高效微调范式中表现最佳的方法之一。此外，它在跨任务泛化和隐私保护方面具有显著优势。

来自主题: AI技术研报

12435 点击 2024-07-21 14:02

仅微调0.02%参数，性能接近全量微调！上交大推出高效微调统一新范式

Scaling Laws当道，但随着大模型应用的发展，基础模型不断扩大的参数也成了令开发者们头疼的问题。

来自主题: AI资讯

8519 点击 2024-07-21 00:33

大模型“自学”后能力反下降，Llama/Mistral都没逃过

AI经过多轮“自我提升”，能力不增反降？

来自主题: AI技术研报

9188 点击 2024-07-19 17:04

LLama+Mistral+…+Yi=? 免训练异构大模型集成学习框架DeePEn来了

随着大语言模型展现出惊人的语言智能，各大 AI 公司纷纷推出自己的大模型。这些大模型通常在不同领域和任务上各有所长，如何将它们集成起来以挖掘其互补潜力，成为了 AI 研究的前沿课题。

来自主题: AI技术研报

9669 点击 2024-07-19 16:21

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

MoE 因其在训推流程中低销高效的特点，近两年在大语言模型领域大放异彩。作为 MoE 的灵魂，专家如何能够发挥出最大的学习潜能，相关的研究与讨论层出不穷。此前，华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ，包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等，引发了广泛关注。

来自主题: AI技术研报

6155 点击 2024-07-19 16:16