AI资讯新闻榜单内容搜索-多模态模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态模型
MME-Finance:来自同花顺的金融领域多模态模型专业评估基准

MME-Finance:来自同花顺的金融领域多模态模型专业评估基准

MME-Finance:来自同花顺的金融领域多模态模型专业评估基准

MME-Finance 是一个专为金融领域设计的多模态基准测试,由同花顺财经旗下的 HiThink 研究团队联合多家高校共同开发,旨在评估和提升多模态大型语言模型(MLLMs)在金融领域的专业理解和推理能力。

来自主题: AI资讯
3190 点击    2024-11-08 14:06
新扩散模型OmniGen一统图像生成,架构还高度简化、易用

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。

来自主题: AI技术研报
10658 点击    2024-10-29 13:38
比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

比扩散模型快50倍!OpenAI发布多模态模型实时生成进展,作者还是清华校友,把休假总裁Greg都炸出来了

两位清华校友,在OpenAI发布最新研究—— 生成图像,但速度是扩散模型的50倍。 路橙、宋飏再次简化了一致性模型,仅用两步采样,就能使生成质量与扩散模型相媲美。

来自主题: AI资讯
3105 点击    2024-10-24 15:51
视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点:只要能够非常好的预测下一个 token,就能帮助人类达到通用人工智能(AGI)。

来自主题: AI资讯
3376 点击    2024-10-21 14:23
苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

苹果多模态模型大升级!文本密集、多图理解,全能小钢炮

多模态大语言模型(MLLM)如今已是大势所趋。 过去的一年中,闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。

来自主题: AI资讯
3623 点击    2024-10-14 09:50
Radical Ventures合伙人:挖掘Agents的四大重要创业机会

Radical Ventures合伙人:挖掘Agents的四大重要创业机会

Radical Ventures合伙人:挖掘Agents的四大重要创业机会

如果您正在探寻人工智能未来的辉煌篇章,那么答案就在这里。 OpenAI的领导者Sam Altman和Greg Brockman最近表示:“现在正是我们展望未来的最佳时机。”他们预见了一个新时代,用户将不再只是与单一的模型对话,而是与由众多多模态模型和工具构成的系统互动,这些系统能够代表用户执行操作。

来自主题: AI资讯
3454 点击    2024-10-09 11:06
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

视觉数据的种类极其多样,囊括像素级别的图标到数小时的视频。现有的多模态大语言模型(MLLM)通常将视觉输入进行分辨率的标准化或进行动态切分等操作,以便视觉编码器处理。然而,这些方法对多模态理解并不理想,在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯
3045 点击    2024-09-29 14:44