GPT-4o差点没及格!首个多任务长视频评测基准,它有亿点难
GPT-4o差点没及格!首个多任务长视频评测基准,它有亿点难难度大升级的多任务长视频理解评测基准MLVU来了!
难度大升级的多任务长视频理解评测基准MLVU来了!
新鲜出炉的Claude 3.5 Sonnet,更快、更便宜,还是全球最强。
号称不可能轻易被击败的AGI基准ARC-AGI被GPT-4o撼动,GPT-4o以在公共测试集50%、在训练集71%的准确率成为了新的SOTA!
Claude大模型又双叒叕更新升级了!
今天, OpenAI劲敌Anthropic忽然丢炸弹,发布下一代旗舰大模型Claude 3.5 Sonnet。
测试Gemini1.5 Pro、GPT-4o等多模态大模型的新基准来了,针对视频理解能力的那种。
苹果OpenAI官宣合作,GPT-4o加持Siri,让AI个性化生成赛道热度飙升。
GTP-4o挑战悬赏八百万的超难数据集,实现SOTA!
OpenAI和谷歌接连两场发布会,把AI视频推理卷到新高度。 但业界还缺少可以全面评估大模型视频推理能力的基准。 终于,多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。
GPT-4o掀起一股全模态(Omni-modal)热潮,去年的热词多模态仿佛已经不够看了。