
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学
为防AI刷题,Nature等顶刊最新封面被做成数据集,考验模型科学推理能力|上海交通大学近年来,以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型,在各大基准测试(如MMMU)中捷报频传,纷纷刷榜成功。
近年来,以GPT-4o、Gemini 2.5 Pro为代表的多模态大模型,在各大基准测试(如MMMU)中捷报频传,纷纷刷榜成功。
Github CEO卸任后未被替代,宣布并入微软Core AI部门,终结其七年独立运营。开发者担忧此举损害开源独立性及免费数据访问,质疑Copilot等AI战略会主导未来。微软此举旨在整合资源强化AI开发工具,但社区文化前景存疑。
氛围编程(vibe coding),这个由 Andrej Karpathy 带火的热词,已经成为了一种相当流行的编程方式。但这种编程方式的流行程度究竟如何,目前还没有什么比较可靠的统计数据。
对于计算任务负载来说,越是专用,效率就越高,谷歌的 TPU 就是其中的一个典型例子。它自 2015 年开始在谷歌数据中心部署后,已经发展到了第 7 代。目前的最新产品不仅使用了最先进的制程工艺打造,也在架构上充分考虑了对于机器学习推理任务的优化。TPU 的出现,促进了 Gemini 等大模型技术的进展。
数据在AI时代的重要性已经不言而喻,但悬而未决的是—— 如何精确量化这些数据的价值、辨别其优劣? 为此,上海人工智能实验室OpenDataLab团队在数据领域持续深耕,正式推出了开放数据竞技场OpenDataArena。
95%的AI项目,回报都挂零?!! MIT最新报告显示,原来只有5%的AI项目才能创造百万美元价值,其余的都仍在亏损。
AI虚拟细胞(AIVC)旨在借助海量生物数据与AI模型,精确模拟细胞在各种基因或药物扰动下的响应状态。最近两年,AIVC正快速渗透到生命科学与医药研发领域,但仍面临数据类型繁杂、模型难以泛化、缺乏统一标准等制约。2025年6月,Arc Institute发起首届“虚拟细胞挑战赛”,通过构建统一的数据基座与测评标准体系,引导细胞建模走向规范。
近年来,以多智能体系统(MAS)为代表的研究取得了显著进展,在深度研究、编程辅助等复杂问题求解任务中展现出强大的能力。现有的多智能体框架通过多个角色明确、工具多样的智能体协作完成复杂任务,展现出明显的优势。
作为开放世界游戏的标杆,GTA 系列不仅在游戏圈声名赫赫。尤其是在 AI 驱动的视频生成、三维生成或是世界模型等领域里,研究者们不仅采用游戏内场景为训练数据,更将生成类 GTA 的完整世界作为长久以来的目标。
邀请码被炒到10万一个的Manus,前阵子首次宣布年化收入达到9000万美元。从3月上线到现在,满打满算也就几个月时间。一个AI产品的增长势头,真能这么快就做到一年近6亿人民币的年收入?关键是,不少网友质疑Manus用的还不是常见的ARR指标,而是一个叫RRR的指标——收入运行率。