AI资讯新闻榜单内容搜索-视觉

打造图像编辑领域的ImageNet？苹果用Nano Banana开源了一个超大数据集

在开放研究领域里，苹果似乎一整个脱胎换骨，在纯粹的研究中经常会有一些出彩的工作。这次苹果发布的研究成果的确出人意料：他们用谷歌的 Nano-banana 模型做个了视觉编辑领域的 ImageNet。

来自主题: AI技术研报

9628 点击 2025-10-27 11:13

超越Runway！Adobe发布新神器：P视频比P图还简单

全新AI工具EditVerse将图片和视频编辑整合到一个框架中，让你像P图一样轻松P视频。通过统一的通用视觉语言和上下文学习能力，EditVerse解决了传统视频编辑复杂、数据稀缺的问题，还能实现罕见的「涌现能力」。在效果上，它甚至超越了商业工具Runway，预示着一个创作新纪元的到来。

来自主题: AI技术研报

8216 点击 2025-10-25 10:42

HumanSense：探索多模态推理边界，打造「察言观色会共情」的全模态交互伙伴

在科幻作品描绘的未来，人工智能不仅仅是完成任务的工具，更是为人类提供情感陪伴与生活支持的伙伴。在实现这一愿景的探索中，多模态大模型已展现出一定潜力，可以接受视觉、语音等多模态的信息输入，结合上下文做出反馈。

来自主题: AI技术研报

7275 点击 2025-10-24 10:51

无VAE扩散模型！清华&可灵团队「撞车」谢赛宁团队「RAE」

长期以来，扩散模型的训练通常依赖由变分自编码器（VAE）构建的低维潜空间表示。然而，VAE 的潜空间表征能力有限，难以有效支撑感知理解等核心视觉任务，同时「VAE + Diffusion」的范式在训练

来自主题: AI技术研报

6116 点击 2025-10-23 15:10

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

太卷了，DeepSeek-OCR刚发布不到一天，智谱就开源了自家的视觉Token方案——Glyph。既然是同台对垒，那自然得请这两天疯狂点赞DeepSeek的卡帕西来鉴赏一下：

来自主题: AI技术研报

8296 点击 2025-10-22 23:58

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报

7005 点击 2025-10-22 14:57