150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory
150B token从头训练,普林斯顿Meta发布完全可微MoE架构Lory前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是一种预训练自回归语言模型的新方法。
前几天,普林斯顿大学联合Meta在arXiv上发表了他们最新的研究成果——Lory模型,论文提出构建完全可微的MoE模型,是一种预训练自回归语言模型的新方法。
大语言模型可谓是迄今为止对人类行为最大的建模,如何借助大语言模型工具,让科技发展更好地应用到真实人类社会中去?从哈佛物理系到大语言模型结合社会学和经济学的研究,朱科航的思考路径,聚焦在对人类行为的深度学习和理解。在开始今天阅读之前,大家不妨先猜一猜,大语言模型之前人类应用最广的 TOP2 机器学习是什么?Enjoy
本月初,来自 MIT 等机构的研究者提出了一种非常有潜力的 MLP 替代方法 ——KAN。
“Scaling Law不是万金油”——关于大模型表现,华为又提出了新理论。
本次公布的获奖论文中,有多位华人作者。
AI-Native 的应用 Day One 就应该收费。这几乎是开发者当下的共识。
2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。
在人工智能科学的先锋领域,尤其是深度学习与决策智能的探索中,文青松博士凭借其在学术研究与实际应用方面的卓越贡献,已然成为业界领军人物。
日前,北京大学智能学院可视计算与学习实验室陈宝权教授团队与苏黎世联邦理工学院健康科技系转化医学研究所Simone Schürle-Finke教授团队展开合作,首次使用物理模拟技术辅助可编程磁性微米级机器人的制造。
本论文作者包括帝国理工学院硕士生杨润一、北航二年级硕士生朱贞欣、北京理工大学二年级硕士生姜洲、北京理工大学四年级本科生叶柏均、中国科学院大学本科大三学生张逸飞、中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)负责人赵健、清华大学智能产业研究院(AIR)助理教授赵昊等。