AI资讯新闻榜单内容搜索-MOE

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: MOE
「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​

「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​

「大模型变小」成年度大趋势!1月AI四大研究精彩亮点超长总结,模型合并MoE方法是主流​

AI大模型并非越大越好?过去一个月,关于大模型变小的研究成为亮点,通过模型合并,采用MoE架构都能实现小模型高性能。

来自主题: AI技术研报
4411 点击    2024-02-09 12:11
国内首个!最火的MoE大模型APP来了,免费下载,人人可玩

国内首个!最火的MoE大模型APP来了,免费下载,人人可玩

国内首个!最火的MoE大模型APP来了,免费下载,人人可玩

MoE(混合专家)作为当下最顶尖、最前沿的大模型技术方向,MoE能在不增加推理成本的前提下,为大模型带来性能激增。比如,在MoE的加持之下,GPT-4带来的用户体验较之GPT-3.5有着革命性的飞升。

来自主题: AI资讯
9087 点击    2024-02-06 17:53
「天工2.0」MoE大模型发布

「天工2.0」MoE大模型发布

「天工2.0」MoE大模型发布

「天工AI」国内首个MoE架构免费向C端用户开放的大语言模型应用全新问世。

来自主题: AI资讯
10473 点击    2024-02-06 12:48
打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉

2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。

来自主题: AI技术研报
9262 点击    2024-02-04 13:59
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。

来自主题: AI技术研报
6472 点击    2024-01-31 16:23
从零手搓MoE大模型,大神级教程来了

从零手搓MoE大模型,大神级教程来了

从零手搓MoE大模型,大神级教程来了

Hugging Face上有一位机器学习大神,分享了如何从头开始建立一套完整的MoE系统。

来自主题: AI技术研报
5059 点击    2024-01-29 16:30
大模型“四小龙”,能否跨越深渊?

大模型“四小龙”,能否跨越深渊?

大模型“四小龙”,能否跨越深渊?

一张名为《大模型的深渊》的图,在去年广为流行。吃瓜群众惊诧地发现,原来绝大多数大模型,都挤在深不见底的层级,“宣称自己快要落地的”“再等等决定啥时候落地的”“什么落地不落地的”“怎么还有这么多没听说过的大模型啊”……

来自主题: AI资讯
2117 点击    2024-01-27 12:36
顶流Mamba竟遭ICLR拒稿,学者集体破防变????,LeCun都看不下去了

顶流Mamba竟遭ICLR拒稿,学者集体破防变????,LeCun都看不下去了

顶流Mamba竟遭ICLR拒稿,学者集体破防变????,LeCun都看不下去了

一项ICLR拒稿结果让AI研究者集体破防,纷纷刷起小丑符号。争议论文为Transformer架构挑战者Mamba,开创了大模型的一个新流派。发布两个月不到,后续研究MoE版本、多模态版本等都已跟上。

来自主题: AI资讯
4946 点击    2024-01-27 10:57
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色,成为了基于注意力的 Transformer 架构的一大有力替代架构。

来自主题: AI技术研报
10227 点击    2024-01-23 15:09