Jina-VLM:可在笔记本上跑的多语言视觉小模型
Jina-VLM:可在笔记本上跑的多语言视觉小模型今天我们正式发布 Jina-VLM,这是一款 2.4B 参数量的视觉语言模型(VLM),在同等规模下达到了多语言视觉问答(Multilingual VQA)任务上的 SOTA 基准。Jina-VLM 对硬件需求较低,可在普通消费级显卡或 Macbook 上流畅运行。
今天我们正式发布 Jina-VLM,这是一款 2.4B 参数量的视觉语言模型(VLM),在同等规模下达到了多语言视觉问答(Multilingual VQA)任务上的 SOTA 基准。Jina-VLM 对硬件需求较低,可在普通消费级显卡或 Macbook 上流畅运行。
翻车是真的,希望也是真的。
参与到成千上万个优秀游戏的创作中去。
Canvas-to-Image 是一个面向组合式图像创作的全新框架。它取消了传统「分散控制」的流程,将身份参考图、空间布局、姿态线稿等不同类型的控制信息全部整合在同一个画布中。用户在画布上放置或绘制的内容,会被模型直接解释为生成指令,简化了图像生成过程中的控制流程。
引言:全网热议背后的本体论修正
随着多模态大模型(MLLMs)在各类视觉语言任务中展现出强大的理解与交互能力,如何高效地处理原生高分辨率图像以捕捉精细的视觉信息,已成为提升模型性能的关键方向。
“谷歌刚把免费版 Gemini API 的每日请求次数从 250 降到了 20,我的 n8n 自动化脚本现在基本都用不了了。这对任何开发小型项目的人来说都是个打击。”网友 Nilvarcus 表示。近日,有网友曝出 Google 收紧了 Gemini API 免费层级的限制:Pro 系列已经取消,Flash 系列每天仅 20 次。这对开发者来说远远不够用。
该公司年度经常性收入不到1000万美元。据TechCrunch援引知情人士报道,美国AI合成研究创企Aaru已完成由红点创投领投的A轮融资,公司名义估值(公司对外公布用于宣传的估值)达到10亿美元(约合人民币70.7亿元)。
12月8日,Airwallex空中云汇继今年5月后再次宣布获得新一轮3.3亿美元G轮融资,投后估值达 80 亿美元,较六个月前 F 轮融资时上涨近 30%。本次融资由Addition领投,T. Rowe Price、Activant、Lingotto、Robinhood Ventures和 TIAA Ventures等全球顶级资本参与投资。
今年,全球科技圈都在热议一个词:Agent(智能体)。
近日,张予彤意外出现在清华大学的一场交流会上。投资界从接近Kimi人士了解到,张予彤已经出任月之暗面总裁一职,“负责公司的整体战略与商业化,包括融资,也会参与一些新产品的开发。”
真正的 AI ,距离眼镜还有多远?如果你今年一直在密切关注 AI 眼镜/AI 硬件领域的大厂动态,那你肯定对 Google I/O 期间 DeepMind 发布的 Project Astra AI 项目演示印象深刻。而在今天刚刚举行的 Google The Android Show 特别节目中,这一愿景终于迎来了真正的落地时刻。
几乎每一次普适性的技术革命都会带来内容生态的变化,AI 也不例外。
进入 2025 年,生成式 AI 正在从“概念验证”走向“规模化落地”,技术与应用的节奏明显加快。这个趋势在 Y Combinator 的 Demo Day 上体现得尤为清晰:在最新的 F25 批次中,AI 公司占比高达 53%(83 家 / 156 家),而在 2021 年的 W21 批次,这一数字仅为 12%。
这届 ICLR 的烦心事还没有结束。
据特朗普最新社交媒体消息透露,美国政府计划允许英伟达(Nvidia)对华出口其H200芯片,这是这家AI芯片设计公司为维持其在世界第二大经济体的市场准入所做努力的最新转折。该芯片的性能高于此前获准销售的H20,但不如该公司今年发布的顶级Blackwell产品,也不如明年将推出的Rubin系列芯片。
在工业界动辄十万卡的暴力美学面前,学术界正沦为算力的「贫民窟」。当高校人均不足0.1张卡时,AI科研的主导权之争或许已经没有了悬念。
从去年到今年,清华大学教授张数一和团队连着两个冬天做出两个“AI+蛋白质”成果,它们分别是极速压缩与智能重建蛋白质序列空间的 EvoAI,以及能够 24 小时昼夜不停、全自动进化蛋白质的 iAutoEvoLab 工厂。相关论文分别发表于 Nature Methods 和 Nature Chemical Engineering。
我们习惯了AI在屏幕上侃侃而谈、生成美图,好像它无所不知。但假如把它“扔”进一个真实的手术室,让它用主刀医生的第一视角来判断下一步该用哪把钳子,这位“学霸”很可能当场懵圈。
本文为Milvus Week系列第5篇,该系列旨在把Zilliz团队过去半年多积累的先进的技术实践和创新整理成多篇干货深度文章发布。
刚刚,梁文锋入选《自然》2025年度十大人物榜单!Nature给出的评语是:科技颠覆者!正式报道中,则用「这位中国金融奇才的DeepSeek AI模型惊艳了世界」。
这一次,AI真的是快要砸掉我的饭碗了。智谱最新升级的新一代视觉推理模型——GLM-4.6V。在深度体验一波之后,我们发现写图文并茂的公众号推文,还只是GLM-4.6V能力的一隅。
AI 领域迄今最大规模的用户行为实录,刚刚发布了。这是全球模型聚合平台 OpenRouter 联合硅谷顶级风投 a16z 发布的一份报告,基于全球 100 万亿次真实 API 调用、覆盖 300+款 AI 模型、60+家供应商、超过 50% 非美国用户 。
今日,美团正式发布并开源图像生成模型LongCat-Image,这是一款在图像编辑能力上达到开源SOTA水准的6B参数模型,重点瞄准文生图与单图编辑两大核心场景。在实际体验中,它在连续改图、风格变化和材质细节上表现较好,但在复杂排版场景下,中文文字渲染仍存在不稳定的情况。
李笛携原小冰核心团队创立新公司“明日新程”(Nextie),聚焦群体智能与认知大模型,推出内测产品“团子”,通过多智能体协作提升AI认知能力,计划2026年1月7日上线。奇绩创坛参与投资。
上周,“豆包手机助手”一跃成为AI圈与手机圈的年度热点,热度与争议齐飞。我们抢在首批样机售罄前,自费3499元入手了一台搭载豆包手机助手的努比亚M153工程机,进行了3天的沉浸式体验,对这其中的争议和真实使用体验有了更深的感受。
目标物理世界的“ChatGPT时刻”。
GPU编程变天了。
这是一条门槛最高、监管最严、落地最复杂的赛道,也是人类和 AI 都必须要走的赛道。