阿里开源14B电影级视频模型!实测来了:免费可玩,单次生成时长可达分钟级
阿里开源14B电影级视频模型!实测来了:免费可玩,单次生成时长可达分钟级AI视频生成正在迎来“通义时刻”! 就在昨夜,阿里突然发布了一款由音频驱动的14B视频模型Wan2.2-S2V—— 仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。
AI视频生成正在迎来“通义时刻”! 就在昨夜,阿里突然发布了一款由音频驱动的14B视频模型Wan2.2-S2V—— 仅需一张图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。
爆火的神秘图像编辑模型nano-banana,终于脱掉了“香蕉皮”! 就在今天,谷歌官方认领,并表明这个模型其实是Gemini 2.5 Flash Image。
人类和AI在工作中如何协作?耶鲁和南大的研究人员合作的这篇论文讲清楚了。 这篇论文提出了一个数学框架,通过把工作技能拆分成两个层次来解释这个问题
刚刚,又一个人工智能国际顶会为大模型「上了枷锁」。 ICLR 2025 已于今年 4 月落下了帷幕,最终接收了 11565 份投稿,录用率为 32.08%。
只用一周,一个相当于人类20年经验的“数字技术工人”——基于时序大模型和Agent的智能体,就能直接上岗。
Gemini 2.5 Flash Image是谷歌最新发布的顶级图像生成与编辑模型,被网友誉为「最强图像模型」。其化身nano-banana在LMArena盲测中以历史最大优势夺冠,凭借角色一致性、提示编辑、原生世界知识和多图像融合四大能力,引发广泛关注。
刚刚,面壁智能再放大招——MiniCPM-V 4.5多模态端侧模型横空出世:8B参数,越级反超72B巨无霸,图片、视频、OCR同级全线SOTA!不仅跑得快、看得清,还能真正落地到车机、机器人等。这一次,它不只是升级,而是刷新了端侧AI的高度。
智东西8月26日报道,近日,美国浏览器公司Brave发布博客,称该公司在美国知名AI搜索独角兽Perplexity打造的AI浏览器Comet中发现了一个严重安全漏洞,攻击者可通过在网页中发布恶意指令,来操纵AI浏览器登录网站、访问邮箱、获取验证码,并将这些敏感信息发送给外部攻击者。全程耗时两分半,连普通人也能完成这种攻击。
Perplexity 将允许出版商分享 AI 搜索产生的收入,该公司此举旨在应对部分媒体对其内容使用提出的批评和法律诉讼。
Sakana AI以自然演化为灵感,提出了一种全新的模型融合进化方法M2N2。通过引入自然界的「择偶机制」,AI可以像生物一样「竞争、择偶、繁衍」。在当前全球算力短缺、模型训练实际规模受制的情况下,Sakana AI借助自然界的启示,为模型融合探索出了一条新路。