
面壁智能联合清华发布最新多模态对齐框架RLHF-V,减少“过泛化”幻觉达业内最佳水平
面壁智能联合清华发布最新多模态对齐框架RLHF-V,减少“过泛化”幻觉达业内最佳水平多模态技术是 AI 多样化场景应用的重要基础,多模态大模型(MLLM)展现出了优秀的多模态信息理解和推理能力,正成为人工智能研究的前沿热点。上周,谷歌发布 AI 大模型 Gemini,据称其性能在多模态任务上已全面超越 OpenAI 的 GPT-4V,再次引发行业的广泛关注和热议。
多模态技术是 AI 多样化场景应用的重要基础,多模态大模型(MLLM)展现出了优秀的多模态信息理解和推理能力,正成为人工智能研究的前沿热点。上周,谷歌发布 AI 大模型 Gemini,据称其性能在多模态任务上已全面超越 OpenAI 的 GPT-4V,再次引发行业的广泛关注和热议。
最近,有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的惊喜可能就是处理 3D 和视频的能力。至于 3D 能力到底是指看得懂 3D 图像,还是能输入 3D 模型,目前只能靠猜。
多模态大语言模型展现了强大的图像理解和推理能力。但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。
小模型的风潮,最近愈来愈盛,Mistral和微软分别有所动作。而网友实测发现,Mistral-medium的代码能力竟然完胜了GPT-4,而所花成本还不到三分之一。
最近,UC伯克利的一项研究揭示了LLM和小孩子们在认知上的一项重要差别——创造新的因果结构的能力。
今天,我要和大家聊一聊近期在AI领域掀起波澜的一款产品:字节跳动推出的coze。
离圣诞节还有一周了,GPT-4.5是发还是不发?OpenAI还没动作,网上已经是各种爆料漫天飞。各位大V煞有介事,Altman则是急着辟谣。按以往的规律看,这次爆料的真实性倒是不小。
Ilya领衔的OpenAI对齐团队,刚刚发表了首篇论文——用类似GPT-2监督GPT-4的方法,或可帮人类搞定自己更聪明的超级AI!
GPT 4.5疑似大泄漏: 一个是新模型将具备全新多模态能力,文本语音图片以及视频和3D信息全都能一并处理,并且还可以跨模态理解。
OpenAI GPT-4.5 遭泄露,我们即将见识「加强版」多模态大模型