
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。
多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推理效率的降低。
在全球 AI 人才争夺战愈演愈烈的今天,许多技术人却不得不面对一种无力的现实。最近,OpenAI 的一位核心研究员 Kai Chen,因绿卡申请被拒,不得不离开美国,这一消息在科技圈引发了广泛关注。
春天,1000 个通用 Agent 正在爆发。 所有的 Chatbot,都在改造成 Agent。技术在迁移,新的技术栈催生了新的产品形态——通用 Agent、Manus、Deep Research,一如过去两年大家的信仰,应用一定是中国开发者的机会。
Perplexity CEO Aravind Srinivas 近日在接受 TheVerge 采访时表示,「Perplexity 最终的目标是构建像 Windows、Mac、Android 或 iOS 这样的操作系统,操作系统才是最终极的战场。」
尽管LLM看似能够进行流畅推理和问题解答,但它们背后的思维链其实只是复杂的统计模式匹配,而非真正的推理能力。AI模型仅仅通过海量数据和经验法则来生成响应,而不是通过深刻的世界模型和逻辑推理来做决策。
大模型之战烽火正酣,谷歌Gemini 2.5 Pro却强势逆袭!Gemini Flash预训练负责人亲自揭秘,深挖Gemini预训练的关键技术,看谷歌如何在模型大小、算力、数据和推理成本间找到最优解。
2024年底,「与光同尘」推出的全球首部纯AI连载动画《果果星球》于11月16日正式首发上线,故事设定在遥远的1105光年之外,一个只有水果蔬菜存在的“果果星球”上,主角是一群可爱的果蔬人类“吃土星人”,他们的冒险由此开始。
“2月16日那一周,感觉全中国的政府企业都在上Deepseek,甚至很多单位原来一张卡都没有,突然就有了DeepSeek满血版。”金山办公Office产研事业部副总经理刘丹说道,“那段时间我认识的大部分领导也都在问,‘你们到底什么时候接,怎么样的节奏’,整个行业都特别火热。”
2023 年 7 月份,我们曾经观察过妙鸭相机靠 AI 写真功能一炮而红,又快速陨落的全过程。而在产品数据下滑的同时,同年 11 月 13 日,妙鸭相机对外确认,产品负责人张月光离职。
本月初,代表全美2200多家新闻机构的新闻/媒体联盟(News/Media Alliance)发起“支持负责任AI”运动,呼吁监管机构强制科技巨头为AI产品使用的内容付费。但就在美国媒体抱团保卫自己的知识产权时,单打独斗的维基百科则宣布向AI厂商“投降”。
爱范儿观察到,商业摄影领域正加速迎来技术革新——以美图云修 Pro 为代表的专业级 AI 修图工具,其实已经深入人像精修、批量调色等后期工作流的核心环节,不但让商业摄影机构显著提升批量出片的工作效率,也让商业摄影的入行门槛进一步降
4月27日,字节跳动正式启动2026届Top Seed大模型顶尖人才校招计划,开放招募30位顶尖应届博士。大约一个月前,字节跳动开始推进一项名为“节节高”的招聘计划吸引年轻人,计划对毕业不到3年的人才进行大面积扩招,如果内推的社招候选人工作年限≤3年,将有额外奖金。
AI女友游戏广告,正在悄悄入侵你的朋友圈。母胎单身二十年的阿宝躺在沙发上刷手机,朋友圈一则游戏广告引起了他的注意。此时的他还不知道,一次出于好奇的点击,不仅让他打开了新世界的大门,还即将令他莫名其妙损失9.9元。
一场帮助孩子“戒掉”AI软件的行动,正在一群年轻妈妈中展开。原因是她们还在上幼儿园的孩子们,整日沉迷于和AI软件打电话。32岁的福州妈妈林悠发现,她四岁的儿子墨墨,无论做什么事情都要拿着手机和AI软件聊天。比如墨墨会一边搭积木,一边和AI软件聊天;一边画画,一边和AI软件聊天。
在当前大语言模型(LLMs)广泛应用于问答、对话等任务的背景下,如何更有效地结合外部知识、提升模型对复杂问题的理解与解答能力,成为 RAG(Retrieval-Augmented Generation)方向的核心挑战。
阿里Qwen3凌晨开源,正式登顶全球开源大模型王座!它的性能全面超越DeepSeek-R1和OpenAI o1,采用MoE架构,总参数235B,横扫各大基准。这次开源的Qwen3家族,8款混合推理模型全部开源,免费商用。
坏了,AI 当「舔狗」这件事藏不住了。今天凌晨,OpenAI CEO Sam Altman 发了一个有趣帖子,大意是:由于最近几轮 GPT-4o 的更新,导致其个性变得过于阿谀奉承,因此官方决定尽快进行修复。
你见过一个翻译软件,能把一个pdf的文字、表格、公式都翻译出来,还保持原本的排版吗?
今天,一张图在网上爆火:中国AI专利数量占全球70%,成TOP 1!不过,曾撰写「AI 2027」预测报告的研究员却发长篇博文表示,AI竞赛美国稳操胜券,原因就在算力上。
一位华人博士用ChatGPT治好了困扰一年多的头晕,而另一位网友靠AI缓解了十年腰痛。求医不如问ChatGPT?20美元的订阅费完胜昂贵理疗课!AI让医疗变得触手可及,省时又省钱。
聚是一团火,散是满天星。
宝可梦之后,让大模型玩井字棋又成了一个新的热门挑战。
最近对了几个agent相关的代码项目,总结了一下目前整体的设计思路,比如如何设计一个基于agent和浏览器沙箱的AI产品,分析了关键架构、工作流程、关键组件及其交互方式。
已推出变压器声纹监测系统、高铁走行部异音检测设备、声像仪等核心产品。
多模态大模型几何解题哪家强?
大模型技术加速向产业渗透,如何直击业务痛点、带来真实增效?
通过蒙特卡洛树搜索筛选高难度样本,ThinkLite-VL仅用少量数据就能显著提升视觉语言模型的推理能力,无需知识蒸馏,为高效训练提供了新思路。
一项来自清华大学和上海交通大学的研究颠覆了对可验证奖励强化学习(RLVR)的认知。RLVR被认为是打造自我进化大模型的关键,但实验表明,它可能只是提高了采样效率,而非真正赋予模型全新推理能力。
最近在看 Agent 方向的论文和产品,已经被各种进展看花了眼。但我发现,真正能超越 demo,能在 B 端场景扎实落地的却寥寥无几。
近期,美国FDA正式宣布计划逐步取消在单抗疗法等药物研发中对动物实验的强制性要求。