「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁作为 2025 年动作最多的 AI 产品之一,夸克近期在发布了「AI 超级框」后,又带来了新的 AI 多模态入口————拍照问夸克。作为手机相比其他 AI 硬件来讲,拍照是让手机自始至终留在 AI 最前线的原因,围绕手机相机这个入口,不断涌现出优秀的 AI 原生应用。
作为 2025 年动作最多的 AI 产品之一,夸克近期在发布了「AI 超级框」后,又带来了新的 AI 多模态入口————拍照问夸克。作为手机相比其他 AI 硬件来讲,拍照是让手机自始至终留在 AI 最前线的原因,围绕手机相机这个入口,不断涌现出优秀的 AI 原生应用。
阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。该模型总参数量为 19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持 11 类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。
GPT-4o又双叒更新了。这一次,在智力和个性方面再次进化,STEM解决能力增强,响应更主动。与此同时,有人曝出它的生图质量大不如前。
根据他们刚发布的 2024 年财报,这家以“天工”大模型在国内引发不少关注的公司,2024 年的海外业务收入达到 51.5 亿元,海外业务收入占比竟然高达 91.0%!这在国内科技公司里,算的上“异类”。
马斯克xAI与X合并后,又有新动向!彭博社消息,马斯克正在为合并后的XAI Holding寻求一笔200亿美元(约1450亿人民币)的融资。如果交易完成,新·XAI的估值将超过1200亿美元(约8745亿人民币)。
o3看照片识位置的功能,简直令人毛骨悚然!Django Web大神Simon Wilson发现,o3凭借Python代码,就能破解自己照片的地理位置。这实在太反乌托邦了,人类的地理信息,对于AI已经完全透明了?
“模型会有很多,但应用才是王者。” 百度创始人李彦宏在Create 2025大会上直指AI产业重心。面对飞速迭代的大模型和开发者对应用价值持续性的普遍疑虑,他强调找对场景、善用模型工具的应用将超越模型本身。
视觉AI终极突破来了!英伟达等机构推出超强多模态模型DAM,仅3B参数,就能精准描述图像和视频中的任何细节。刚刚,英伟达联手UC伯克利、UCSF团队祭出首个神级多模态模型——Describe Anything Model(DAM),仅3B参数。
近期,一款 AI 浏览器产品 Fellou 在各大 AI 用户社群、媒体测评内容中陆续出现,受到热议与关注。Fellou 官方给出的定位是全球首个 Agentic Browser,一款基于 AI 技术的新型浏览器。Fellou 的核心亮点在于,用户只需一句话,Fellou 就能自动解析指令并跨多个网页和系统调度操作,从数据采集、表单填写到报告生成,实现一站式无缝交付。
终于,免费用户也能用上OpenAI的DeepResearch了,量子位也进行了新鲜实测!OpenAI深夜官宣,基于o4-mini某个版本的轻量版DeepResearch正式上线。按照官方说法,轻量版的回答会更短,但智能水平将几乎无异于满血版本。
他们打造的端侧大模型已经可以在树莓派这样的微型设备上流畅运行,首批搭载Yan架构大模型的具身智能机器人也已经面世。当下AI算力竞赛愈演愈烈之际,他们的“低算力”“群体智能”之路正在获得更多关注。本期「大模型创新架构」主题访谈,量子位邀请到RockAI CEO刘凡平,聊聊他们选择非Transformer架构路线背后的故事,以及通过架构及算法创新实现AGI的技术愿景。
解决了安装难、不安全、开发慢的问题后,MCP Server 数量暴增后,马上就会迎来 GPTs 同款的至暗时刻。简单来说,AI开放计划的核⼼在于通过 AI 应⽤和 MCP Server 连接开发者和⽤户。
这里介绍一下Vidu,Vidu是由生数科技联合清华大学正式发布的中国首个长时长、高一致性、高动态性视频大模型。Vidu在语义理解、推理速度、动态幅度等方面具备领先优势,并上线了全球首个“多主体参考”功能,突破视频模型一致性生成难题,开启了视觉上下文时代。最近上线了 Vidu Q1 的高质量视频大模型,不仅视频效果质感更高,而且性价比很不错。
全球首个去中心化强化学习训练的32B模型——INTELLECT-2震撼发布!无需授权,就能用自家异构计算资源参与其中,让编码、数学与科学领域的推理性能迈向新高度。
这次春季更新,微软带来了 365 Copilot Wave-2 ,系统级的AI助手重大升级版,任何Windows 系统自带。本来凭借得天独厚的资源,应该秒天秒地秒众多AI产品,但是这波时隔一年的更新,微软CEO纳德拉亲自在X上发布,用户却并不买账,批评的潮水淹没了评论区。
5月19-23日,ICRA 2025将在美国亚特兰大举行。届时,第一届“探索机器人能力边界双臂机器人挑战赛(WBCD,What Bimanual Can Do)”决赛也将在ICRA 2025现场拉开帷幕。
Google DeepMind正式发布其最新的音乐生成模型Lyria2,标志着音乐创作领域人工智能又一重大突破。该新模型具备高保真音频生成和专业音质,为音乐家、制作人和创作者提供了更强大的工具。
专为GitHub打造的免费百科全书来了——DeepWiki,覆盖全球所有GitHub存储库,无需注册即可食用。
就在刚刚,美国政府曝光了各界对「AI行动计划」的全部政策建议。OpenAI措辞激烈地表示,DeepSeek让我们看到,必须马上锁死中国AI,必须限制高端GPU芯片和模型权重流向中国!Anthropic同样呼吁:必须立马补上H20这一关键漏洞,并且严控H100的门槛。
在斯坦福,有一门专门讲 Transformer 的课程,名叫 CS 25。
近日,GPT-4.5核心开发者之一的Kai Chen因绿卡申请被拒,面临被迫离开美国的困境。与此同时,1700多名国际学生和研究人员因签证审查受阻,Nature调查显示75%的美国科学家正考虑逃离。这种人才流失或将影响美国在全球AI领域的领先地位。
和邀请码、内测说拜拜,百度95后年轻小团队以内部创业形式,30天肝出了个“手机端Manus”现货。
10个月破千万收入,75倍PS值
百度文心大模型X1 Turbo正式发布了。这个基于4.5 Turbo的深度思考模型,效果领先DeepSeek-R1、V3,且价格仅为R1的25%!而文心4.5 Turbo在低价的同时,多模态能力更是让人出乎意料。
人类数据市场正经历一次巨大变革。这个市场原来是众包模式,即找很多低中技能的人员为早期ChatGPT那种模型写些语法勉强正确的句子。
大模型趋势下,教育领域正在经历前所未有的变革。
Harvey 绝对是法律场景落地最成功的 AI 企业了。
从对话机器人到情绪陪伴者,AI 智能体如何走进课堂?
AI 编程助手的不断升级,让越来越多开发者将它们融入实际项目流程中。然而,不同模型与工具之间的体验差异,往往让人又爱又恨。本文作者在尝试用 Claude 开发游戏并为此付出 417美元后,再次挑战使用 Gemini 2.5 + Cursor 打造新作——而这一次,不仅完全免费,整体开发体验也“大幅超预期”。
她21岁创立AI公司,靠5%股份逆风翻盘!Lucy Guo如何从自学编程到辍学创业,超越Taylor Swift,成为全球最年轻的白手起家女亿万富翁?Scale AI最新估值为250亿美元,这也让联合创始人Lucy Guo凭借其股份身价暴涨。