AI资讯新闻榜单内容搜索-moe

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: moe
DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

DeepSeek做大→Mega MoE,Tri Dao团队加快→SonicMoE

近日,由普林斯顿大学 Tri Dao(FlashAttention 的一作)和加州大学伯克利分校 Ion Stoica 领导的一个联合研究团队也做出了一个超快的索尼克:SonicMoE。据介绍,SonicMoE 能在英伟达 Blackwell GPU 上以峰值吞吐量运行!并且运算性能超过了 DeepSeek 之前开源并引发巨大轰动的 DeepGEMM。

来自主题: AI技术研报
7552 点击    2026-05-04 10:17
不可思议!400B大模型在iPhone上跑起来了

不可思议!400B大模型在iPhone上跑起来了

不可思议!400B大模型在iPhone上跑起来了

刚看到这个 Demo 的时候着实有些想笑,很久没有见过吐词如此之慢的大模型了。观感上就像「闪电」老师。尽管只有每秒 0.6 个 tokens 的输出速率,这依旧是一个令人不可思议的工作。因为这是一个跑在 iPhone 17 Pro 上的 400B 大模型!

来自主题: AI资讯
9570 点击    2026-05-02 11:02
不换GPU,性能飙升2.8倍!英伟达用软件暴打摩尔定律

不换GPU,性能飙升2.8倍!英伟达用软件暴打摩尔定律

不换GPU,性能飙升2.8倍!英伟达用软件暴打摩尔定律

MoE模型的稀疏激活本是优势,却常陷通信瓶颈。NVIDIA以软件为利剑,通过程序化依赖启动和全对全通信革新,在三个月内将GB200的单GPU吞吐提升2.8倍,真正释放Blackwell硬件潜力。

来自主题: AI技术研报
8968 点击    2026-04-28 10:09
刚刚,DeepSeek开始频繁更新:Tile Kernels、DeepEP V2

刚刚,DeepSeek开始频繁更新:Tile Kernels、DeepEP V2

刚刚,DeepSeek开始频繁更新:Tile Kernels、DeepEP V2

就在刚刚,DeepSeek 的 GitHub 开始了频繁更新,上线开源了一个新的代码库 Tile Kernels,同时并对 DeepEP 代码库进行了更新,上线了 DeepEP V2。距离上次 DeepSeek 悄悄更新 Mega MoE、FP4 Indexer 还不到一周。

来自主题: AI资讯
8753 点击    2026-04-24 10:09
都是你能部署的:Qwen3.6和Gemma4,谁更适合作为你的下一代本地MoE模型?

都是你能部署的:Qwen3.6和Gemma4,谁更适合作为你的下一代本地MoE模型?

都是你能部署的:Qwen3.6和Gemma4,谁更适合作为你的下一代本地MoE模型?

阿里前几天开源的Qwen3.6-35B-A3B,让这次讨论不再只是一次普通的新旧模型对比。它一边要面对谷歌Gemma4-26B-A4B的外部竞争,一边又必须回答一个更麻烦的问题:相较于 Qwen3.5-35B-A3B,它到底是升级,还是修补?更现实的是,很多人现在真正跑着的,其实是Qwen3.5-27B,那么这条新的35B-A3B路线,到底值不值得迁过去。

来自主题: AI技术研报
8564 点击    2026-04-23 09:23
Cursor 凌晨自曝黑科技:重写 MoE 生成机制,Blackwell 推理性能直接翻倍!网友:直接榨干B200最后一滴带宽!

Cursor 凌晨自曝黑科技:重写 MoE 生成机制,Blackwell 推理性能直接翻倍!网友:直接榨干B200最后一滴带宽!

Cursor 凌晨自曝黑科技:重写 MoE 生成机制,Blackwell 推理性能直接翻倍!网友:直接榨干B200最后一滴带宽!

今天早上,Cursor 在X上发布一条推文:“我们重建了 MoE 模型在 Blackwell GPU 上生成 Tokens 的方式,导致推理速度快了 1.84 倍。”

来自主题: AI资讯
10300 点击    2026-04-08 10:24
谷歌重磅开源Gemma 4!手机离线跑 Agent、还降内存,Qwen 被拉进正面对决

谷歌重磅开源Gemma 4!手机离线跑 Agent、还降内存,Qwen 被拉进正面对决

谷歌重磅开源Gemma 4!手机离线跑 Agent、还降内存,Qwen 被拉进正面对决

刚刚,谷歌正式发布 Gemma 4,称“这是其迄今为止最智能的开放模型系列”。该系列面向复杂推理与智能体工作流设计,采用商业许可的 Apache 2.0 许可证开源。Gemma 4 提供四种规格:Effective 2B(E2B)、Effective 4B(E4B)、26B 混合专家模型(MoE)和 31B 稠密模型(Dense)。

来自主题: AI资讯
9289 点击    2026-04-03 01:35
Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力

Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力

Dense、MoE之外第三条Scaling路径:交大提出JTok模块,省1/3算力

为了松绑参数与计算量,MoE 曾被寄予厚望 。它靠着稀疏激活的专家子网络,在一定程度上实现了模型容量与计算量的解耦 。然而,近期的研究表明,这并非没有代价的免费午餐 :稀疏模型通常具有更低的样本效率 ;随着稀疏度增大,路由负载均衡变得更加困难 ,且巨大的显存开销和通信压力导致其推理吞吐量往往远低于同等激活参数量的 dense 模型 。

来自主题: AI技术研报
8615 点击    2026-03-03 14:15
DeepSeek连更GitHub,华尔街回想起被支配的恐惧:“DeepSeek第二时刻”要来了

DeepSeek连更GitHub,华尔街回想起被支配的恐惧:“DeepSeek第二时刻”要来了

DeepSeek连更GitHub,华尔街回想起被支配的恐惧:“DeepSeek第二时刻”要来了

DeepSeek员工节后一上班,美国AI圈又要抖三抖了(doge)。就从十几个小时前开始,DeepSeek的GitHub仓库突然一阵猛更新,Merge了一堆PR:维护者主要是mowentian——DeepSeekMoE等论文的署名作者之一Huang Panpan。他这一干活不要紧,大洋彼岸“V4来了???”的紧张神经,又被瞬间挑了起来。

来自主题: AI资讯
9951 点击    2026-02-25 10:37