上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
6004点击    2024-07-05 00:45

今年上海世界人工智能大会,谁最受关注?


展区现场,有个挤得水泄不通的互动——


像孙猴子一样在全世界大闹天宫的AI大模型,而且真的和《大闹天宫》联动!


只需一张真人正面图片,就能get天庭打工人寸照;在测出属于你的《大闹天宫》版MBTI的同时,玉帝老儿还会赏咱个天上的官儿当当,何不美哉?


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


这个对大多数人来说见了就挪不动腿的AI互动体验背后,背后还是一支越来越出圈的国产大模型团队


它不仅手握多模态能力,还在WAIC上亮出了手里最新的万亿MoE大模型。


平时低调,亮相不多,但总是一鸣惊人。


阶跃星辰,微软前全球副总裁,微软亚洲互联网工程院前首席科学家姜大昕创立,出道不早,但后发先至,目前已是公认的大模型第一梯队玩家,位列大模型创业“六小强”。


而且这一次WAIC期间,阶跃星辰展示的大模型能力,不只是和孙悟空携手闹天空那么简单。


万亿MoE+多模态大模型


阶跃目前推出的模型均为Step系列


新模型发布之前,小结一下过去的成员:今年3月,阶跃共发布3款模型,即Step-1千亿参数语言大模型、Step-1V千亿参数多模态大模型、Step-2万亿参数MoE语言大模型(预览版)


在这次WAIC,Step家族增加3名新成员。


  • Step-2万亿参数语言大模型正式版


  • Step-1.5V千亿参数多模态大模型


  • Step-1X图像生成大模型


第一个是MoE结构的万亿参数大语言模型,后面二者则是多模态模型。


大语言模型:Step-2正式版


3月底的全球开发者先锋大会开幕式上,阶跃展示了万亿参数MoE语言大模型Step-2的预览版。


不是我说,阶跃是懂什么叫“浅尝辄止”的,只有预览版,让人心痒痒。


好在阶跃团队坚信Scaling Law,因此不断训练更大模型。


这次,Step-2正式版终于正式亮相。


Step-2拥有万亿参数,采用MoE架构,官方介绍,Step-2在数理逻辑、编程、中文知识、英文知识、指令跟随等方面体感全面逼近GPT-4。


背后有阶跃团队花了大心思的巧思在。


首先是创新算法架构。


一般而言,主流训练MoE模型有两种方式,不然就基于已有模型通过upcycle(向上复用)开始训练,不然就从头开始训练。


Upcycle方式所需算力相对更低、训练效率更高,但随随便便就到这种方式的天花板了。


比如基于拷贝复制得到的MoE模型,非常容易出现专家同质化严重的情况。


而选择从头开始训练MoE模型的话,能够探得更高的模型上限,但作为代价,训练难度也会增大。


俗话说得好,勇敢阶跃,不怕困难(doge)


在设计Step-2的MoE架构时,阶跃星辰迎难而上,完全自主研发,从头开始训练。


过程中,通过部分专家共享参数、异构化专家设计等创新MoE架构设计,Step-2这个混合专家模型中的每个专家都得到了充分训练。


故而,Step-2总参数量达到万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。


此外,Step-2的训练过程中,阶跃的系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术,支撑起了整个模型的高效训练。


多模态大模型:追求多模理解和生成的统一


姜大昕曾经坚定表示过,团队追求的是多模理解和生成的统一,“Step系列大模型将为多模理解和生成的统一奠定坚实基础。”


于是,在多模理解方面秀肌肉的Step-1.5V多模态大模型,以及在多模生成方面小有所成的Step-1X图像生成大模型,这次也对外发布。

Step-1.5V多模态大模型从Step-1V千亿参数多模态大模型迭代而来。


Step-1V大模型已经可以精准描述和理解图像中的文字、数据、图表等信息,并根据图像信息实现内容创作、逻辑推理、数据分析等多项任务。


而视频中的内容,它也可以轻松理解。


对比前作,Step-1.5V多模态大模型有明显跃升。


  • 感知能力:创新的图文混排训练方法,让Step-1.5V能理解复杂图表、流程图、准确感知物理空间复杂的几何位置,还能够处理高分辨率和极限长宽比的图像。


  • 推理能力:根据图像内容进行各类高级推理任务,如解答数学题、编写代码、创作诗歌等。


  • 视频理解能力:它不仅能够准确识别视频中的物体、人物和环境,还能够理解视频的整体氛围和人物情绪。


另一个新发布的Step-1X图像生成大模型,有600M、2B、8B三种参数量,分别适合对于速度敏感、日常主力(平衡效果和速度)、追求更高效更极致这三种场景。


通过全链路自研的DiT模型架构,Step-1X有更好的文本prompt和生成图片的语义对齐能力,以及指令跟随能力。


还有个不得不提的点:


Step-1X针对中国元素进行了深度优化,有关中国元素、文化的内容都能轻松拿下,生成的效果也更符合国人审美。


对外亮相第一天起,阶跃星辰就摆明姿态,攀登AGI巅峰之路“万亿参数”和“多模融合”缺一不可。


这次一股脑儿推出的三款新模型,就是其在既定路线上向前探索的有力证明。


不可或缺的AI应用与生态布局


阶跃星辰不是WAIC上唯一推陈出新的大模型玩家。


在现场有一种强烈的感受,相比去年WAIC,展区的大模型厂商出现了更多创业公司的身影,尤为不同的是,无论是展商、论坛还是观众,对AI大模型应用的关注和讨论都占去不小篇幅。


类似“模应一体”“杀手级应用”“AI应用生态”这般的话题,频频被提起。


姜大昕此前有过一个生动的比喻:模型和产品的关系,就像灵魂和皮囊


当你具体到某个应用的时候一定要通用模型跟它深度绑定,应用才能做到极致。

反过来也是一样,我不觉得一个光做应用的公司,没有一个模型跟它深度绑定的话,它能做到极致。

这就凸显出阶跃星辰在模型与产品之间的伏线千里之妙。


以自家Step系列模型为基座,阶跃星辰的产品共有两类,自有产品和合作产品。


自有产品方面,有聊天类应用跃问,定位个人效率助手,web端和App端可用;AI开放世界平台冒泡鸭,提供海量智能体,主打一个休闲娱乐。


两款toC产品,均已全面开放使用。


这里重点介绍一下跃问,它拥有联网搜索、代码分析增强(POT)等能力,能够提供信息查询、语言学习、创意写作、图文解读等服务。


和其它家聊天类应用相比,它有一个最大的优势:多模态内容理解能力。


它能够帮助用户识别真实世界的万事万物:


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


能够理解和分析复杂的金融图表:


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


还能理解热梗图片中的深意:


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


甚至能够根据欧洲杯赛程表,梳理生成“一图读懂”:


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


合作产品方面,最亮眼的就是此次吸粉无数的《大闹天宫》AI互动体验


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


动画电影《大闹天宫》制作于1961年,是上美影的灵魂代表作,60年来,更成为几代人钟爱的回忆。


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


半个多世纪以来,基于这个国民IP的创新层出不穷,还能玩出什么新花样?


围绕《大闹天宫》,阶跃团队与上影集团利用AIGC和大模型技术,联合推出了AI互动体验产品,让大家能与电影情境深度融合。


玩法也很简单:


上传一张个人照片,然后开始走Step系列大模型生成的剧情。


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


模型算法会识别照片特征,提取后结合《大闹天宫》的画风和角色,完成风格迁徙,生成新的肖像


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


剧情发展过程中,用户能选择,也能和系统对话交谈。


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


等等,这还没完!


根据刚才做出的选择和回答,大模型还会进一步分析用户的MBTI人格,最后得出结论:


如果你在天庭当打工人,最适合什么差事?


(没办法咯,孙悟空大闹天宫前也老老实实做了段时间弼马温)


量子位测出来,是enfp的赤脚大仙


都说光脚的不怕穿鞋的,本大仙今天就原地罢工吧(不是)


据说只有1%的人能测出来齐天大圣,不是我,我慕了。


没在现场但想玩一把的朋友们,可点击文末阅读原文,也欢迎大家把测出来的MBTI和神仙职位在评论区分享~


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强


上述产品不只是阶跃星辰利用自家大模型能力对外输出的全部。


据了解,在内容、金融、网络文学、知识服务、影视等领域,阶跃星辰都和行业头部展开合作,多维探索面向C端用户的创新应用。


国产大模型创业第一梯队新格局


对于所有的大模型玩家来说,从ChatGPT诞世的那一天起,全球范围内的竞争就愈发激烈,再也没有停歇过。


尤其是WAIC现场,这样的信号传递得非常明显。


谷歌、Meta、BAT、华为、讯飞、深度求索、AI四小龙……老牌AI布局者,在AI 2.0时代的实力依然不可小觑。


背后原因是AI 2.0实质上是随着研究深入,对判别式AI与生成式AI的人为划分,而深度学习的核心三驾马车,即对算法、算力、数据的掌握和运用,依然是重中之重。


但古今中外,一个时代有一个时代的公司,每个时代都会有代表性的公司出现


AI 2.0时代的大模型初创公司,确实已经出现了对技术和产业的发展至关重要的锐力。


WAIC展区,就有这样的玩家出现,而且经过第一阶段的竞速和洗牌,大模型创业的上半场基本已经结束。


在上半场中,能够脱颖而出的创业玩家,首先通过自研基础大模型,证明了自己的技术研发实力;其次还通过产品和应用,开启了商业模式试水,构建起了技术-产品-数据-商用的初步飞轮;最后,还获得了创投和资本市场的认证,完成了独角兽级别的巨额融资,有粮草和底气可以开启下一阶段比拼。


实际上,上半场也是创业玩家的分水岭,能够在此时此刻把公司推至独角兽级别,是角逐下半场的门票体现。


也就是说,没有门票,基本就告别下半场了,更别说AGI了。


因为随着第一阶段竞速,市场的作用开始展现,不论是技术人才、研发资源、创投资本,都在急剧收敛,形成马太效应——留在桌上的玩家会获得更多的资源挑战更大的目标,下了桌的玩家,原先有的也要被拿回。


互联网时代、移动互联网时代、AI1.0时代的轨迹,再次重复上演。


而现在,在AI2.0上半场拿到门票的创业玩家,格局初现,六小强锐不可当——


智谱华章、月之暗面、MiniMax、零一万物、百川智能、阶跃星辰……越来越多被放在一起谈论。


而阶跃星辰,是其中后发的一个,但正在展现出谋定而后动的后发优势。


而且它是为数不多,在国内同时拥有多模态大模型能力和万亿MoE大模型的玩家,这代表了面向下半场的某种潜在竞争力和加速度来源。


文章来源于:微信公众号量子位


上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强

关键词: WAIC , AI , 大模型 , 人工智能 , AI峰会
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0