李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了
李飞飞、吴佳俊团队新作:不需要卷积和GAN,更好的图像tokenizer来了当我们看到一张猫咪照片时,大脑自然就能识别「这是一只猫」。但对计算机来说,它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片,实际上是一个包含 300 万个数字的数据集(1000×1000×3 个颜色通道)。每个数字代表一个像素点的颜色深浅,从 0 到 255。
当我们看到一张猫咪照片时,大脑自然就能识别「这是一只猫」。但对计算机来说,它看到的是一个巨大的数字矩阵 —— 假设是一张 1000×1000 像素的彩色图片,实际上是一个包含 300 万个数字的数据集(1000×1000×3 个颜色通道)。每个数字代表一个像素点的颜色深浅,从 0 到 255。
阿里全面转向“AI化”
最近在推特上刷到一条视频,特别火爆,彻底把我看呆了。
AI能为乙游玩家带来什么?
Stability AI 发布了一款新 AI 模型——Stable Virtual Camera,该公司宣称该模型能将 2D 图像转化为,具有真实深度和视角的“沉浸式”视频。
终于到了适合跟大家介绍大模型的万能接口 MCP(Model Context Protocol)的时候了!
皮衣老黄,带着最强AI芯片GB300闪亮登场“AI超级碗”GTC,燃爆全场!
bolt.new、Cursor 之外,来自瑞典的 Lovable 是最近的一家 AI 编程新秀。
火热的智能体离杀手级爆款有多远?
通过收集六名志愿者一周的多模态生活数据,研究人员构建了300小时的第一视角数据集EgoLife,旨在开发一款基于智能眼镜的AI生活助手。项目提出了EgoButler系统,包含EgoGPT和EgoRAG两个模块,分别用于视频理解与长时记忆问答,助力AI深入理解日常生活并提供个性化帮助。