离职谷歌的Transformer作者创业,连发3个模型(附技术报告)
离职谷歌的Transformer作者创业,连发3个模型(附技术报告)去年 8 月,两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI,总部位于日本东京。
搜索
去年 8 月,两位著名的前谷歌研究人员 David Ha、Llion Jones 宣布创立一家人工智能公司 Sakana AI,总部位于日本东京。
自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。
PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。
最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中,TextMonkey 处于国际领先地位,有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。
Mistral 可以说是欧洲目前最有代表性的 AI 公司,开源小模型、MoE、专注欧洲多语言市场等等,都让它与美国的几家大模型公司如 OpenAI、Anthropic 截然不同。
3 月 23 日,国内通用大模型创业公司阶跃星辰在 2024 全球开发者先锋大会上发布了公司的通用大模型产品。阶跃星辰创始人、CEO 姜大昕博士在大会开幕式上对外发布了 Step 系列通用大模型,包括 Step-1 千亿参数语言大模型、Step-1V 千亿参数多模态大模型以及 Step-2 万亿参数 MoE 语言大模型预览版。
拒绝赛博朋克,千呼万唤始出来。为了兑现牛逼,马斯克最近下了血本:Grok-1宣布开源。据官方信息,这是一个参数高达3140亿的混合专家模型,是目前所有开源模型中规模最大的。
AGI时代,越来越近了。本月,中国初创AGI(通用人工智能)公司月之暗面宣布旗下大模型工具Kimi Chat正式升级到200万字参数量,与五个月前该大模型初次亮相时的20万字相比,提升十倍。Kimi Chat的升级彻底引爆市场,同时也引起长文本大模型(Long-LLM)细分赛道更加激烈的竞争。
我们就是奔着AGI去的,不然这群人聚在一起干嘛?2024年2月,在准备一场分享会的PPT中,前微软全球副总裁、如今的阶跃星辰CEO姜大昕,把他看到的一句评论放进了自我介绍: 在微软混得风生水起,怎么想不开创业?
“Sora最快今年内开放公测。” 在一场访谈中,OpenAI CTO Mira Murati亲自透露了这一消息。