集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?MEGA-Bench是一个包含500多个真实世界任务的多模态评测套件,为全面评估AI模型提供了高效工具。研究人员发现,尽管顶级AI模型在多个任务中表现出色,但在复杂推理和跨模态理解方面仍有提升空间。
搜索
MEGA-Bench是一个包含500多个真实世界任务的多模态评测套件,为全面评估AI模型提供了高效工具。研究人员发现,尽管顶级AI模型在多个任务中表现出色,但在复杂推理和跨模态理解方面仍有提升空间。
Sora 的发布让广大研究者及开发者深刻认识到基于 Transformer 架构扩散模型的巨大潜力。作为这一类的代表性工作,DiT 模型抛弃了传统的 U-Net 扩散架构,转而使用直筒型去噪模型。鉴于直筒型 DiT 在隐空间生成任务上效果出众,后续的一些工作如 PixArt、SD3 等等也都不约而同地使用了直筒型架构。
OpenAI o1风格的推理大模型,有行业垂直版了。HK-O1aw,是由香港生成式人工智能研发中心(HKGAI)旗下AI for Reasoning团队(HKAIR) 联合北京大学对齐团队(PKU-Alignment Team)推出的全球首个慢思考范式法律推理大模型。
两个月前,我们对 AI 游戏的认知刚刚被谷歌 GameNGen 颠覆。他们实现了历史性的突破,从此不再需要游戏引擎,AI 能基于扩散模型,为玩家生成实时可玩的游戏。
虽然有些人认为人工智能是种威胁,但美国军方却将其视为探测威胁的工具。美国防部近期在肯塔基州蓝草陆军仓库(BGAD)部署了一套由安防初创公司Scylla开发的人工智能监控系统,以提升军事设施的安保能力。该系统在为期八个月的测试中展现出卓越的性能,将为美国核设施安全带来革命性变革。
人工智能的发展速度不断加快,以前从未想到过的能力现在已成为现实。尤其是AI代理——或者可以说是虚拟同事,在未来,他们将与我们一起工作,甚至最终能够独立执行任务。
近日,天桥脑科学研究院和普林斯顿大学等多所研究机构发布了一篇研究论文,详细阐述了长期记忆对 AI 自我进化的重要性,并且他们还提出了自己的实现框架 —— 基于多智能体的 Omne,其在 GAIA 基准上取得了第一名的成绩。
近日,智谱在公众号陆续放出电脑版本与手机版本的AI Agent实操视频:
另一种类似但更高级的「PUA」大模型方法出现了,它可以写下让所有的浏览器和人眼都不可见,只有 AI 模型可以读取的指令。 这种手段早在互联网出现之前就有了,分属于信息科学中的一个子类,这就是「隐写术」(Steganography)。
GAGAvatar的出现正是为了解决这一瓶颈,通过一次前向传播就能生成3D高斯参数,实现高效的渲染与动画驱动。