大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准
大模型无法真正理解视频,GPT-4o正确率仅36%,南洋理工大团队提出新基准视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解力。
视频大型语言模型(Video LLMs)的发展日新月异,它们似乎能够精准描述视频内容、准确的回答相关问题,展现出足以乱真的人类级理解力。
7 月 26 日,在 WAIC 2025 世界人工智能大会上,中国移动九天人工智能研究院全面开源九天结构化数据大模型 “数据 - 模型 - 测评” 三位一体的完整模型体系,包括了结构化数据体系、TReB 标准化测评框架、支持微调及推理全流程模型。
尽管全球科技界正热烈庆祝 GPT-4、DeepSeek 等大模型展现出的惊艳能力,但一个根本性问题仍未被真正解决: 这些 AI 模型是否真正理解人类的指令与意图?
行业首个社交大模型全景解析:既能兼顾社交理解与平台规则,又能洞察理解用户。小红书重磅推出RedOne——一款面向SNS(社交网络服务)领域的定制化LLM,旨在突破单一任务基线模型的性能瓶颈,并且构建全面覆盖SNS任务的基座模型。
为什么机器人能听懂指令却做不对动作?语言大模型指挥机器人,真的是最优解吗?端到端的范式到底是不是通向 AGI 的唯一道路?这些问题背后,藏着机器智能的未来密码。
本周四,知名初创公司 Manus 推出了一项重要新功能,可以通过向上百协同工作的 AI 智能体分配任务来进行广泛的研究。今年早些时候,Manus 的多智能体平台改变了人们应用 AI 工具的方式。不过现在,这家创业公司正在试图开发一种与大模型深度思考 Deep Research 同样重要的新能力。
大模型时代,AI基建的重要性已经不言而喻。
《新智核》独家获悉,阿里健康推出了一款全新的医学助手App“氢原子”。据悉,这款AI产品收录千万级医学核心期刊文献,查阅权威指南;大模型辅助语义搜索、AI总结、全文翻译和智能问答,同时也可以查到相关专业的医疗健康解读。
几百年前开普勒通过观测数据,总结出了行星运动的规律,例如行星沿椭圆轨道运行,这让他能精确预测行星未来的位置。这就像今天的基础模型,通过学习海量数据,可以很好地进行序列预测(比如接下一句话)。
家人们!燃起来了燃起来了! 今天,HuggingFace的开源大模型排行榜前10名中,竟有9个席位被中国模型占据!(深挖了一下,另外一位也是我们华人大神的项目)