
阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%
阿里8B模型拿下多页文档理解新SOTA,324个视觉token表示一页,缩减80%高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。
来自主题: AI技术研报
6608 点击 2024-09-13 21:27
高效多页文档理解,阿里通义实验室mPLUG团队拿下新SOTA。
一条磁力链,又在AI圈掀起狂澜。成立一年法国AI独角兽Mistral,官宣首个多模态模型Pixtral 12B,不仅能看懂手绘稿,还可以理解复杂公式、图表。
Mistral的多模态大模型来了!Pixtral 12B正式发布,同时具备语言和视觉处理能力。
随着大语言模型的飞速发展,角色扮演智能体(RPAs)正逐渐成为 AI 领域的热门话题。
ChatGPT 要进化了?
本文第一作者为 Chuanyang Jin (金川杨),本科毕业于纽约大学,即将前往 JHU 读博。本文为他本科期间在 MIT 访问时的工作,他是最年轻的杰出论文奖获得者之一。
在AI-2.0时代,OCR模型的研究难道到头了吗!?
论文共同第一作者郑淼,来自于周泽南领导的百川对齐团队,毕业于北京大学,研究方向包括大语言模型、多模态学习以及计算机视觉等,曾主导MMFlow等开源项目。
大模型时代,有个大家普遍焦虑的问题:如何落地?往哪落地?
免训练多模态分割领域有了新突破!