
视频世界模型JEPA‑2与Meta AI的具身智能系统
视频世界模型JEPA‑2与Meta AI的具身智能系统JEPA-2(V-JEPA 2)是Meta最新推出的视频世界模型,采用视图嵌入预测(Joint Embedding Predictive Architecture)框架进行自监督预训练。
JEPA-2(V-JEPA 2)是Meta最新推出的视频世界模型,采用视图嵌入预测(Joint Embedding Predictive Architecture)框架进行自监督预训练。
像人一样推理。 大模型的架构,到了需要变革的时候? 在对复杂任务的推理工作上,当前的大语言模型(LLM)主要采用思维链(CoT)技术,但这些技术存在任务分解复杂、数据需求大以及高延迟等问题。
2025 年 6 月 23 日,由 GMI Cloud 联合 InfoQ 举办的 “2025 AI 应用出海年中洞察暨 GMI Cloud 新品发布会” 在线上举行。
还记得 2022 年 11 月,魔搭社区在周靖人的倡议下诞生,他当时说:“真正让 AI 开发变得更简单,实现 AI 应用的百花齐放”。
今年2月DeepSeek爆火,震惊国内外。实际上,在此之前,中国信息通信研究院(下称:中国信通院)的大模型评测团队就观察到国内模型性能迅速提升的势头,他们当中就包括中国信通院人工智能研究所所长魏凯。
作者在淘宝发现内测的“AI万能搜”,认为它旨在解决用户购物时“模糊指向”和“需求指向”的痛点,替代传统海量搜索结果。
在日常生活中,我们常通过语言描述寻找特定物体:“穿蓝衬衫的人”“桌子左边的杯子”。如何让 AI 精准理解这类指令并定位目标,一直是计算机视觉的核心挑战。
大模型可以不再依赖人类调教,真正“自学成才”啦?新研究仅通过RLVR(可验证奖励的强化学习),成功让模型自主进化出通用的探索、验证与记忆能力,让模型学会“自学”!
全球动漫产业年增长超10%,但产能严重不足(顶级工作室排期2-3年),根源在于高度依赖手工(30%-40%流程仍用纸张)。AI技术(关键帧生成、动作捕捉、AI导演助理等)正尝试融入制作流程,但仍受限于画面稳定性(如5%-10%美学误差)、动作夸张性缺失和伦理问题(声优抵制)。未来需平衡技术突破(创造新美学可能)与人才培育(避免基础岗位断层)。
在长达数周的高强度「挖角」之后,Meta 今天凌晨宣布正式成立超级智能实验室(Meta Superintelligence Labs,简称 MSL)。Meta CEO 马克·扎克伯格在当时时间周一发布的一封内部信中透露,MSL 将整合公司现有的基础 AI 研究(FAIR)、大语言模型开发以及 AI 产品团队,并组建一个专门研发下一代 AI 模型的新实验室。
这款叫咔皮记账的软件,主打用 AI 给记账人省事,来自商汤科技。才上线六个月,已经获得了百万用户,人均每天记录 6 笔账目。记账也可以和花钱一样无痛吗?我试用了一周,发现还真行。
直到前几天,我偶然刷到了一个 AI 工具聚合网站,并在其中看到了一个带着骷髅头的子目录标题——《人工智能墓地》。是的,在几乎所有人都在为人工智能开香槟之时,这个网站给AI产品刨了个祖坟。
刚刚,AlphaEvolve又上大分了!基于它的开源实现OpenEvolve,靠自学成才、自己写代码,直接在苹果芯片上进化出了比人类还快21%的GPU核函数!这一刻,是自动化编程史上真正里程碑时刻,「AI为AI编程」的新时代正式开启,自动化奇点真要来了。
OpenAI 在向大企业和政府机构推销其人工智能技术时 ,借鉴了许多软件公司的做法,提供内部研究人员和软件工程师为客户定制 AI 解决方案。
百度文心大模型开源,如期而至。就在今天,百度官宣文心大模型4.5系列正式开源,还同步提供API服务。
6月28日,由国家能源集团自主研发的全球首个千亿级发电行业大模型——“擎源”发电行业大模型在京正式发布。
华人团队做的 OpenArt,在 10 人团队的情况下已经将 ARR 做到了 1600 万美金,其 CEO Coco Mao 陆陆续续分享了不少经验,
如果你是程序员,又对股票感兴趣,那八成动过写个脚本的念头。这个想法的初版通常很简单:找个免费的股票数据 API,用 Python 拉取 K 线,算一下 MACD 或者 RSI 指标,然后写几个 if/else 来触发买入卖出信号。测试几次,发现收益还不错,特容易兴奋上头。
最近,一款新的开源 AI 驱动的代码编辑器 Void IDE发布了测试版,它将自己定位为一个注重隐私且免费的替代品,与流行的闭源 AI 编辑器如 Cursor 和 GitHub Copilot 竞争。
OpenAI计划发布一个非常强大的开源模型。它能够让人们在本地运行极其强大的模型,重新认识“本地部署”的可能性。
最近,你可能刷到过一些奇趣的猫咪视频。主角通常是一只很胖的橘猫,像人一样在送外卖,或者刚看完电影就冲进健身房假装减肥。这些有点好笑、有点可爱的“大橘剧场”,配上魔性的“喵喵”音乐,正在抖音、小红书和TikTok上到处传播 。
MariaDB 最近发布了 MariaDB Community Server 11.8,作为 2025 年的年度长期支持(LTS)版本,现已普遍可用。新版本引入了集成的向量搜索功能,适用于 AI 驱动和相似性搜索应用程序,增强了 JSON 功能,并提供了用于数据历史和审计的时态表。
上海车展落幕,一直悬而未决的问题,有了明确的否定答案:智能辅助驾驶仍然是车企的必争之地,这是当前竞争最激烈、变化最剧烈、用户感知最强烈的模块,因此,当下谈论AI汽车的产品力,最具代表性的就是看智能辅助驾驶的体验和能力。
最近,社交媒体平台 YouTube 上涌现出一批以 Sean “Diddy” Combs 审判为题材的假视频,这些视频利用 AI 生成的图像和声音,伴随虚假信息,吸引了数千万的观看量。
近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。
故事的开始是发生在 1 年多前,硅谷发生了令人震惊的杀妻案件。凶手用拳头一拳拳打死了自己的妻子,再加上 华人、高学历、清华、大厂这样的无敌光环,这件案子当时格外引人关注。
最近,由香港大学黄超教授团队发布的开源项目「一体化的多模态RAG框架」RAG-Anything,有效解决了传统RAG的技术局限,实现了「万物皆可RAG」的处理能力。
在传统工具主导的设计流程中,从 Figma 或 Sketch 起稿,到开发团队手工编码,哪怕是一个简单的网页原型,通常也要经过多轮反复沟通与来回修改,整个流程周期以“周”为单位计算。而 Readdy.ai 的出现,正推动这个流程进入以“秒”计时的 AI 原生时代。
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出局限性。
图像模型开源还得是FLUX!Black Forest Labs刚刚宣布开源旗舰图像模型FLUX.1 Kontext[dev],专为图像编辑打造,还能直接在消费级芯片上运行。