写代码不用编辑器!Transformer八子之一:单卡5090复刻Transformer所有研究!AI耗尽万亿Token学概念,正在用“外星人逻辑”泛化
写代码不用编辑器!Transformer八子之一:单卡5090复刻Transformer所有研究!AI耗尽万亿Token学概念,正在用“外星人逻辑”泛化“完全抛弃传统的代码编辑器,我直接告诉 AI 去修改代码。”
搜索
“完全抛弃传统的代码编辑器,我直接告诉 AI 去修改代码。”
我们今天以 PDF 写论文的方式,已经持续了三百多年。然而论文其实是把一段混乱反复、充满试错的真实研究,讲成一个干净利落、足以服人的完美故事。
我做产业研究这么多年,第一次被一组数字震住,是在今年年初。
具身智能公司戴盟机器人(Daimon Robotics)新近完成亿元A轮融资,本轮融资由汇川产投和中国电信联合投资。与此同时量子位还获悉了关于这家公司的另一则消息——阿里通义实验室前多模态研究专家原玮浩加入戴盟,担任首席AI科学家。
AI火,能理解,说算力很缺,也可以理解,然后内存不够了,能源不够了,通信带宽不够了,感觉AI产业链上的每个环节最近都在挨个成为短板和热点,散户们也在一轮又一轮地对着行情研究前沿技术。
如果说扩散世界模型的瓶颈,是每一步去噪都要把同一个大 Transformer 再跑一遍,那么 WorldCache 的思路就是:不要再把所有 Token、所有时间步都当成同一件事。这篇工作把 “哪些内容适合缓存”和“哪些时刻必须重算” 拆开处理,在不重新训练模型、几乎不增加额外显存的前提下,把缓存真正做成了一套更贴合世界模型结构的推理策略。
刚刚,顾全全发文告别字节 Seed 团队。在此之前,他是 Seed 旗下聚焦科学智能领域的 AI4S 团队核心成员。顾全全是机器学习理论、大模型对齐以及 AI4S 科学智能领域知名的学者。他于 2007 年和 2010 年分获清华大学自动化专业学士、控制科学与工程硕士学位,2014 年获伊利诺伊大学香槟分校计算机科学博士学位,随后在普林斯顿大学运筹与金融工程系(ORFE)开展统计学博士后研究。
最近,前沿实验室 Mind Lab 密集发布了一系列关于 LoRA 与 PEFT(高效微调)的研究结果,似乎描绘出了另一条大模型「持续学习」的路径。在 Mind Lab 的视角中,PEFT 不再是对大模型全参数后训练的一种廉价平替,更是实现从 “基础模型” 向 “可持续学习智能体” 过渡的核心架构机制。
华为天才少年被具身智能企业哄抢。AI 科技评论最新获悉,前华为天才少年李一同近期已加入具身智能明星公司吉翼智能,任吉翼大模型研发中心总工程师,将主导公司在大模型与系统测试等核心板块的攻坚工作。履历方面,李一同为上海交大ACM班毕业,墨尔本大学博士,曾是华为天才少年,华为终端云语言大模型技术负责人。华为期间,李一同主要负责基于生成式大模型和人机对话方向的研究。
本文团队长期从事负责任的人工智能与人工智能赋能社会科学相关研究,围绕视觉生成大模型安全治理、智能体安全等方向开展系统性工作,相关成果发表于AAAI、ICML、TMM 等国际期刊与会议。