多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染
多模态模型评测框架lmms-eval发布!全面覆盖,低成本,零污染随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。
随着大模型研究的深入,如何将其推广到更多的模态上已经成为了学术界和产业界的热点。最近发布的闭源大模型如 GPT-4o、Claude 3.5 等都已经具备了超强的图像理解能力,LLaVA-NeXT、MiniCPM、InternVL 等开源领域模型也展现出了越来越接近闭源的性能。
爆火神经网络架构KAN,上新了!
意图识别框架上,正在酝酿一场从“以手机为中心”到“以人为中心”的交互之变
作为基础的视觉语言任务,指代表达理解(referring expression comprehension, REC)根据自然语言描述来定位图中被指代的目标。REC 模型通常由三部分组成:视觉编码器、文本编码器和跨模态交互,分别用于提取视觉特征、文本特征和跨模态特征特征交互与增强。
当一家人工智能公司的首席执行官更像是计算机科学家而不是推销员时,我感觉更舒服
合成数据2.0秘诀曝光了!来自微软的研究人员们提出了智能体框架AgentInstruct,能够自动创建大量、多样化的合成数据。经过合成数据微调后的模型Orca-3,在多项基准上刷新了SOTA。
Mamba 虽好,但发展尚早。
Mamba 架构的大模型又一次向 Transformer 发起了挑战
TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。
只是换掉Transformer架构,立马性能全方位提升,问鼎同规模开源模型!