
MiniMax押注线性注意力,让百万级长文本只用1/2700算力|对话MiniMax-01架构负责人钟怡然
MiniMax押注线性注意力,让百万级长文本只用1/2700算力|对话MiniMax-01架构负责人钟怡然Transformer架构主导着生成式AI浪潮的当下,但它并非十全十美,也并非没有改写者。
Transformer架构主导着生成式AI浪潮的当下,但它并非十全十美,也并非没有改写者。
多智能体系统分布式共识优化的一系列研究来了!
OpenAI新模型全网实测惊艳来袭!o3缩放图像被玩疯,o4-mini速解Project Euler,碾压人类。AI初创CEO说,OpenAI凭此一役已经重回榜首,甚至有经济学家直言AGI已经来临!
根据DeepSeek过往的产品更新周期来看,梁文锋的主场时间又快到了。
AI 外衣下的“血汗工厂”
凌晨3点,AI第8次把按钮写成button_1,我差点把电脑砸了...
这是一份142页的研究论文,本文深入解析了大型推理模型DeepSeek-R1如何通过"思考"解决问题。研究揭示了模型思维的结构化过程,以及每个问题都存在甜蜜点"最佳推理区间"的惊人发现。这标志着"思维学"这一新兴领域的诞生,为我们理解和优化AI推理能力提供了宝贵框架。
向量模型的核心功能是测量语义相似度,但这个测量结果很容易受到多种干扰因素的影响。在本文中,我们将着眼于文本向量模型中一个普遍存在的偏差来源:输入内容的长度。
今年的 GTC 大会,英伟达发布了通用机器人模型 GR00T N1,老黄特别提到未来重点关注的趋势是「Physical AI」(物理 AI)。
从人们被大模型“震撼”完开始思考如何把这项技术用起来的第一天,教育就是被很多人天然想到的场景。一个能压缩全世界知识的AI,天然就是一个人类想象里“老师”的样子。