AI资讯新闻榜单内容搜索-多模态

结构化表格也成模态！浙大TableGPT2开源，最强表格AI问世

现在正是多模态大模型的时代，图像、视频、音频、3D、甚至气象运动都在纷纷与大型语言模型的原生文本模态组合。而浙江大学及其计算机创新技术研究院的一个数十人团队也将结构化数据（包括数据库、数仓、表格、json 等）视为了一种独立模态。

来自主题: AI技术研报

6762 点击 2024-11-07 17:45

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

来自中科大等单位的研究团队共同提出了用来有效评估多模态大模型预训练质量的评估指标 Modality Integration Rate（MIR），能够快速准确地评估多模态预训练的模态对齐程度。

来自主题: AI技术研报

5385 点击 2024-11-04 17:13

斯坦福&哈佛医学院 - MMedAgent，一个用于医疗领域的多模态医疗AI智能体

与最先进的开源方法甚至闭源模型 GPT-4o 相比，MMedAgent 在各种医疗任务中实现了卓越的性能。此外，MMedAgent 在更新和集成新医疗工具方面表现出效率。

来自主题: AI技术研报

8845 点击 2024-11-04 09:49

o1图像理解神秘现身，网友疯狂测试！Altman自曝：o2研究生级水平破105%

完整版o1图像理解能力，被提前「放出」了？网友曝出o1能够识图，进行推理总结。现在，o1多模态一大波试用已经铺屏全网。

来自主题: AI资讯

5313 点击 2024-11-03 14:52

Ferret-UI 2：苹果最新跨平台通用GUI理解多模态大模型

Ferret-UI 2 是苹果研究团队最新发表的一款先进的多模态大型语言模型（MLLM），旨在实现跨多个平台的通用用户界面（UI）理解。

来自主题: AI技术研报

9097 点击 2024-11-01 12:27

RTE年度场景三强专访：实时语音、多模态Agent，创业机会在哪里？

10 月 25 日， RTE 年度场景 Showcase 暨第四届 RTE 创新大赛，Founder Park 作为核心生态合作伙伴应邀出席。

来自主题: AI资讯

5217 点击 2024-11-01 10:26

一个真正意义上的实时多模态智能体框架，TEN Framework 为构建下一代 AI Agent 而生

有了 TEN（Transformative Extensions Network，变革性扩展网络），开发者们终于不用再「绞尽脑汁」了！TEN 是全球首个真正实现实时多模态智能体的框架，不仅能减少开发痛点，还让你轻松从头开始构建下一代 AI 应用。

来自主题: AI资讯

8499 点击 2024-10-30 15:55

突破短视频局限！MMBench 团队构建中长视频开放问答评测基准，全面评估多模态大模型视频理解能力

GPT-4o 四月发布会掀起了视频理解的热潮，而开源领军者Qwen2也对视频毫不手软，在各个视频评测基准上狠狠秀了一把肌肉。

来自主题: AI技术研报

5159 点击 2024-10-30 13:59

统一图像生成，无需繁杂插件！智源发布扩散模型框架OmniGen

多模态模型，统一图像生成。

来自主题: AI资讯

8201 点击 2024-10-30 13:39

谷歌Q3电话会：25%的代码由AI完成，未来将推出多模态项目Astra

三季度谷歌母公司Alphabet总营收同比增长15%，EPS盈利增近37%远超预期；各业务中云营收增长最迅猛，云业务营业利润同比增超六倍、均再创单季新高；资本支出在二季度环比增近10%后转降0.9%，略高于预期；三季度广告收入增逾10%，其中谷歌搜索和YouTube广告的营收连续两季放缓，仍高于预期；YouTube广告和订阅总收入一年来首次单季突破500亿美元。

来自主题: AI资讯

10439 点击 2024-10-30 10:38