华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由
华为GTS LocMoE+:高可扩展性亲和度 MoE 架构,低开销实现主动路由MoE 因其在训推流程中低销高效的特点,近两年在大语言模型领域大放异彩。作为 MoE 的灵魂,专家如何能够发挥出最大的学习潜能,相关的研究与讨论层出不穷。此前,华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ,包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等,引发了广泛关注。
搜索
MoE 因其在训推流程中低销高效的特点,近两年在大语言模型领域大放异彩。作为 MoE 的灵魂,专家如何能够发挥出最大的学习潜能,相关的研究与讨论层出不穷。此前,华为 GTS AI 计算 Lab 的研究团队提出了 LocMoE ,包括新颖的路由网络结构、辅助降低通信开销的本地性 loss 等,引发了广泛关注。
小模型,正在成为 AI 巨头的新战场。
尽管有很多初创公司试图用人工智能驱动的搜索来取代当下的搜索引擎,但一家名为 Exa 的初创公司有一个不同的想法:为人工智能打造一个谷歌。创始人 Jeff Wang 和 Will Bryk 认为 Google 为人类做了什么,他们就希望通过 Exa 为 AI 做类似的事情。
这几日,AI 圈又一“震惊”事件!!
今天,OpenAI忽然官宣推出全新小模型「GPT-4o Mini」,相当于旗舰模型GPT-4o的轻量经济版来供开发者使用。
大模型开源的热潮下,隐藏着诸多问题,从定义的模糊到实际开放内容的局限性,Lecun再陷Meta大模型是否真开源的质疑风波只是冰山一角。
大模型在语言、图像领域取得了巨大成功,时间序列作为多个行业的重要数据类型,时序领域的大模型构建尚处于起步阶段。近期,清华大学的研究团队基于Transformer在大规模时间序列上进行生成式预训练,获得了任务通用的时序分析模型,展现出大模型特有的泛化性与可扩展性
2024年AI人才争夺战硝烟弥漫战况升级,马斯克与OpenAI纠葛不断再结新梁子,就在xAI完成巨额融资前,核心成员Kosic竟重返OpenAI。
近日,《连线》杂志联合ProofNews联合发表一篇调查文章,指责苹果、Anthropic等科技巨头未经许可使用YouTube视频训练AI模型。但训练数据的使用边界究竟在哪里?创作者、大公司和开发者正在陷入知识产权的罗生门……
GPT-4o mini深夜忽然上线,OpenAI终于开卷小模型!每百万输入token已达15美分的超低价,跟GPT-3相比,两年内模型成本已降低99%。Sam Altman惊呼:通往智能的成本,已变得如此低廉!另外,清华同济校友为关键负责人。