不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出
不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从心」。
近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在图文理解、视觉问答等任务上取得了令人瞩目的进展。然而,当面对需要精细空间感知的任务 —— 比如目标检测、实例分割或指代表达理解时,现有模型却常常「力不从心」。
10月15日消息,近日,在泰安市卫星互联网产业发展暨“星算”计划02组星座合作大会上,国星宇航“星算”计划02组星座正式发布,单星算力突破10P的“天秤-10”卫星同步亮相。此外,多项产业合作项目现场达成签约。
加州大学伯克利分校等机构的研究人员,近日推出了一种全新的基因组语言模型GPN-Star,可以将全基因组比对和物种树信息装进大模型,在人类基因变异预测方面达到了当前最先进的水平。
10月16日消息,OpenAI首席执行官山姆·奥特曼于美国当地时间周三表示,该公司并非"经选举产生的世界道德警察"。此前,他决定放宽限制,允许其聊天机器人ChatGPT生成成人内容,这一决定引发了强烈反弹。
无论是中文的粤语、闽南话、吴语,还是欧洲的荷兰比尔茨语方言、法国奥克语,亦或是非洲和南美的地方语言,方言都承载着独特的音系与文化记忆,是人类语言多样性的重要组成部分。然而,许多方言正在快速消失,语音技术如果不能覆盖这些语言,势必加剧数字鸿沟与文化失声。
互联网大厂要引流,教育大厂想变现。
在这个新访谈中,Sutton 与多位专家一起,进一步探讨 AI 研究领域存在的具体问题。
AI席卷职场,大厂裁员与岗位替代加速。奥特曼称能被AI取代的工作并非「真工作」。硅谷上演「代码战争」:有人拥抱Cursor/Claude提效,有人拒用AI遭解雇。在效率与质量拉扯中,人类价值与工作定义正被重写。
“如果一个问题只需小模型就能回答,为什么还要让更贵的大模型去思考?”
从2025年9月开始,美国多家科技巨头放弃彼此间的“恩恩怨怨”,转而围绕算力展开串联合作,呈现成片的“合纵连横”态势。
在最近的一篇 NeurIPS 25 中稿论文中,来自中山大学、加州大学 Merced 分校、中科院自动化研究所、诚橙动力的研究者联合提出了一个全新开源的高自由度灵巧手平台 — RAPID Hand (Robust, Affordable, Perception-Integrated, Dexterous Hand)。
这是一个信息悖论的时代。
四十年前,他说:「计算机永远不会思考」。四十年后,AI开始拒绝指令、撒谎、反思、甚至「自我保护」。哲学家约翰·塞尔——「中文屋」思想实验的作者、AI怀疑论的旗手,却在去世的那一周,被时代反讽。他花一生质问机器是否真正「理解」,而如今,机器反问我们:你们的理解,又凭什么是真实的?
当地时间10月15日,人工智能初创公司Anthropic发布轻量级模型Claude Haiku 4.5。同时知情人士透露,该公司计划2026年实现年化营收近三倍增长,以巩固其作为OpenAI主要竞争对手的行业地位。
正如前几天网上泄露与传闻所预料的那样,深夜,谷歌发布了最新的 AI 视频生成模型 Veo 3.1。Veo 3.1 带来了更丰富的音频、叙事控制,以及更逼真的质感还原。在 Veo 3 的基础上,Veo 3.1 进一步提升了提示词遵循度,并在以图生视频时提供更高的视听质量。
只花120元,效果吊打70000元微调!腾讯提出一种升级大模型智能体的新方法——无训练组相对策略优化Training-Free GRPO。无需调整任何参数,只要在提示词中学习简短经验,即可实现高性价比提升模型性能。
智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。
前端UI的工作,被谷歌AI一夜干没了。 就在最新能力展示中,Gemini 3.0 Pro居然自己“捏”出了一个macOS。
在几天前的开发者大会上,OpenAI 发布了一套面向开发者和企业的完整工具集 AgentKit。其中,可视化画布 Agent Builder 用于创建、管理和版本化多智能体工作流,通过拖拽节点的方式即可编辑工作流。
找AI帮忙不要再客气了,效果根本适得其反。 宾夕法尼亚州立大学的一项研究《Mind Your Tone》显示,你说话越粗鲁,LLM回答越准。
在AI浪潮中,蚂蚁集团重磅推出万亿参数思考模型Ring-1T,不仅在数学竞赛上刷新开源SOTA,还在逻辑推理和医疗问答中脱颖而出。实测显示,其推理能力直逼闭源巨头,开源AI迈入万亿参数时代。
那边OpenAI的Sora2还没全面开放,这边国内团队已经上线了自己的“特色打法”。 清华特奖选手创办的Sand.ai,上线了音画同步视频模型GAGA-1。
在杭州奥体中心演唱会现场,一套名为「Co-Sight 2.0」的AI系统成功保障了网络稳定,其背后是中兴通讯研发的、新近登顶Hugging Face GAIA全球权威榜单的超级智能体。
上海连线迪拜,对话竟丝滑完成!就在刚刚,一款全新AI翻译耳机创造了这个奇迹,精准互译的同时,响应延迟低至两秒。背后的这家公司,又一次用硬核科技让世界惊叹。
当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。从数学解题到代码生成,RLVR 本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑 —— 但现实是,以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。
大家都在 FOMO 的时候,不断提出新的问题,很重要。 不是所有问题都有用,但提出好问题很重要。
数据显示,仅2025年开年以来,美国已有超过一万个岗位因为引入AI而被裁撤。Anthropic CEO Dario Amodei认为AI技术的扩散对就业和社会的冲击,已经到了必须向全世界预警的地步。
扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。
全球首个AI Agent交易市场MuleRun(骡子快跑)正式上线,面向所有用户开放使用。MuleRun的Logo是一个像素风骡子,平台上集合了不同类型的多个Agent。Agent的创作者多为各领域中懂得某个具体流程、有经验的人,他们将自己的技能变为工作流后做成Agent。
Ilya最新发文引爆全网,AGI内部实现了吗?OpenAI前主管的一句话,瞬间点醒了许多人:AI其实早已觉醒,只是我们还在大梦中不醒。