字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」,Bengio组参与
字节Seed团队发布循环语言模型Ouro,在预训练阶段直接「思考」,Bengio组参与现代 LLM 通常依赖显式的文本生成过程(例如「思维链」)来进行「思考」训练。这种策略将推理任务推迟到训练后的阶段,未能充分挖掘预训练数据中的潜力。
现代 LLM 通常依赖显式的文本生成过程(例如「思维链」)来进行「思考」训练。这种策略将推理任务推迟到训练后的阶段,未能充分挖掘预训练数据中的潜力。
AI万亿赌局,马斯克们正越来越富,但人类在集体失业?Hinton最新末日警告,科技巨头不裁员,根本赚不到钱。
大模型推理到底要不要「长篇大论」?过去一年,OpenAI o 系列、DeepSeek-R1、Qwen 等一系列推理模型,把「长链思维」玩到极致:答案更准了,但代价是推理链越来越长、Token 消耗爆炸、响应速度骤降。
该论文提出 FractalForensics,一种基于分形水印的主动深度伪造检测与定位方法。不同于以往的水印向量,为达成伪造定位的功能,论文提出的水印以矩阵形式出现。
早上工作的时候发现,Trae的模型列表中已经找不到Claude模型了。与此同时,行业群内、包括官方答疑群内也有不少朋友反应,自己的Trae都用不上claude。细心的朋友发现,虽然Claude模型消失了但付费用户的订阅里显示每月增加了300次的快速请求。猜测此举是对claude模型下架的一种补偿。
11 月 2 日,英伟达首次把 H100 GPU 送入了太空。作为目前 AI 领域的主力训练芯片,H100 配备 80GB 内存,其性能是此前任何一台进入太空的计算机的上百倍。在轨道上,它将测试一系列人工智能处理应用,包括分析地球观测图像和运行谷歌的大语言模型(LLM)。
精彩,实在是精彩!硅谷“甄嬛传”——老马、奥特曼和llya的爱恨情仇又更新了。
昨天一大早,就发现美团开源了他们首款全模态实时交互大模型:LongCat-Flash-Omni。
是孩子该看的东西。
擎天柱靓丽演示背后,是近百号员工每日8小时,疯狂重复固定动作,擦桌子、扮大猩猩等,他们正用体力「喂饱」擎天柱。