长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx 长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx 关键词: Oryx,多模态,OryxViT,AI,多模态模型 视觉数据的种类极其多样,囊括像素级别的图标到数小时的视频。现有的多模态大语言模型(MLLM)通常将视觉输入进行分辨率的标准化或进行动态切分等操作,以便视觉编码器处理。然而,这些方法对多模态理解并不理想,在处理不同长度的视觉输入时效率较低。 来自主题: AI资讯 2924 点击 2024-09-29 14:44