AI资讯新闻榜单内容搜索-MOE模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: MOE模型

破解MoE模型“规模越大，效率越低”困境！中科院自动化所提出新框架

破解MoE模型“规模越大，效率越低”困境！中科院自动化所提出新框架

破解MoE模型“规模越大，效率越低”困境！中科院自动化所提出新框架

大模型参数量飙升至千亿、万亿级，却陷入“规模越大，效率越低” 困境？中科院自动化所新研究给出破局方案——首次让MoE专家告别“静态孤立”，开启动态“组队学习”。

来自主题: AI技术研报

7747 点击 2025-10-13 10:26

6.1B打平40B Dense模型，蚂蚁开源最新MoE模型Ling-flash-2.0

6.1B打平40B Dense模型，蚂蚁开源最新MoE模型Ling-flash-2.0

6.1B打平40B Dense模型，蚂蚁开源最新MoE模型Ling-flash-2.0

今天，蚂蚁百灵大模型团队正式开源其最新 MoE 大模型 ——Ling-flash-2.0。作为 Ling 2.0 架构系列的第三款模型，Ling-flash-2.0 以总参数 100B、激活仅 6.1B（non-embedding 激活 4.8B）的轻量级配置，在多个权威评测中展现出媲美甚至超越 40B 级别 Dense 模型和更大 MoE 模型的卓越性能。

来自主题: AI技术研报

8433 点击 2025-09-18 15:42

OpenAI突然开源1200亿参数MoE模型！专家连夜解码发现：Hidden Size=2880藏惊天陷阱，第3条让GPU厂商集体崩溃！

OpenAI突然开源1200亿参数MoE模型！专家连夜解码发现：Hidden Size=2880藏惊天陷阱，第3条让GPU厂商集体崩溃！

OpenAI突然开源1200亿参数MoE模型！专家连夜解码发现：Hidden Size=2880藏惊天陷阱，第3条让GPU厂商集体崩溃！

gpt5来临前夕，oai疑似发布的小模型gpt-oss 120B的架构图已经满天飞了。难得openai要open一次，自然调动了我的全部注意力机制。本来以为oai还要掏出gpt2意思意思，结果看到了一个120B moe。欸？！

来自主题: AI资讯

9273 点击 2025-08-04 15:03

华为又开源了个大的：超大规模MoE推理秘籍

华为又开源了个大的：超大规模MoE推理秘籍

华为又开源了个大的：超大规模MoE推理秘籍

超大规模MoE模型（如DeepSeek），到底该怎么推理才能做到又快又稳。现在，这个问题似乎已经有了标准答案——华为一个新项目，直接把推理超大规模MoE背后的架构、技术和代码，统统给开源了！

来自主题: AI资讯

6788 点击 2025-07-01 16:05

已节省数百万GPU小时！字节再砍MoE训练成本，核心代码全开源

已节省数百万GPU小时！字节再砍MoE训练成本，核心代码全开源

已节省数百万GPU小时！字节再砍MoE训练成本，核心代码全开源

字节对MoE模型训练成本再砍一刀，成本可节省40%！刚刚，豆包大模型团队在GitHub上开源了叫做COMET的MoE优化技术。

来自主题: AI技术研报

7351 点击 2025-03-10 21:57

微软急刹车，被曝撤掉大波数据中心租赁！DeepSeek冲击，算力泡沫要破？

微软急刹车，被曝撤掉大波数据中心租赁！DeepSeek冲击，算力泡沫要破？

微软急刹车，被曝撤掉大波数据中心租赁！DeepSeek冲击，算力泡沫要破？

DeepSeek开源第二弹如期而至。这一次，他们把MoE模型内核库开源了，支持FP8专为Hopper GPU设计，低延迟超高速训练推理。

来自主题: AI资讯

10242 点击 2025-02-25 15:14

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

本周，在阿里云通义千问 Qwen 团队提交的一篇论文中，研究人员发现了目前最热门的 MoE（混合专家模型）训练中存在的一个普遍关键问题，并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡，使得 MoE 模型的性能和专家特异性都得到了显著的提升。

来自主题: AI技术研报

3973 点击 2025-01-26 11:12

中国最大开源MoE模型，255B参数无条件免费商用，元象发布

中国最大开源MoE模型，255B参数无条件免费商用，元象发布

中国最大开源MoE模型，255B参数无条件免费商用，元象发布

元象XVERSE发布中国最大MoE开源模型：XVERSE-MoE-A36B，该模型总参数255B，激活参数36B，达到100B模型性能的「跨级」跃升。

来自主题: AI资讯

5107 点击 2024-09-14 14:58

微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

微软「小而美」系列三连发！视觉小钢炮PK GPT-4o，MoE新秀力压Llama 3.1

微软Phi 3.5系列上新了！mini模型小而更美，MoE模型首次亮相，vision模型专注多模态。

来自主题: AI技术研报

5853 点击 2024-08-21 18:14

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

150B token从头训练，普林斯顿Meta发布完全可微MoE架构Lory

前几天，普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型，论文提出构建完全可微的MoE模型，是一种预训练自回归语言模型的新方法。

来自主题: AI技术研报

10159 点击 2024-05-20 16:10

上一页当前第1页,共2页下一页