
Mistral发布了全世界最好的OCR,希望不是吹牛
Mistral发布了全世界最好的OCR,希望不是吹牛今天,他们自称发布了世界上最好的 OCR API,它能够将复杂的 PDF 文件转换为文本文件,以便 AI 模型处理。现在,所有大模型的输入端格式都是文本,或者规整的、容易识别的文本文件,但这个世界上,还有很多文件是粗糙的,不规整的,难以识别的,它需要依赖强大的 OCR 功能才能转换为文本。
今天,他们自称发布了世界上最好的 OCR API,它能够将复杂的 PDF 文件转换为文本文件,以便 AI 模型处理。现在,所有大模型的输入端格式都是文本,或者规整的、容易识别的文本文件,但这个世界上,还有很多文件是粗糙的,不规整的,难以识别的,它需要依赖强大的 OCR 功能才能转换为文本。
AI Agent是一个应该非常个人化的东西。
藏了下一代Ray-Ban Meta的影子。
Manus发布后的火爆完全超出了团队预期,注册端口还遭到了暴力破解,团队一直在处理各种问题,目前仍处于超负荷运转状态。
码来!
M3 Ultra终极引擎,可跑千亿模型
新趋势、新业态
StyleStudio能解决风格迁移中风格过拟合、文本对齐差和图像不稳定的问题,通过跨模态AdaIN技术融合文本和风格特征、用教师模型稳定布局、引入基于风格的无分类器引导,实现精准控制风格元素,提升生成图像的质量和稳定性,无需额外训练,使用门槛更低!
less structure,more intelligence.
一条鲶鱼,让AI搜索格局从内容生态驱动转向内容形式驱动
张涛此前在字节跳动负责国际化产品的战略规划与落地,2023年,他加入王慧文创办的人工智能公司光年之外,担任产品负责人,主导AI产品的研发与商业化探索。2024年7月,张涛与首席科学家季逸超(Peak)、连续创业者肖弘(Red)共同创立Manus AI,并担任合伙人。他目前主要负责产品战略、市场沟通及用户体验优化。
Manus 被喷了一天。3/5晚上发布时,几乎所有我关注的AI开发者都在转发,集体情绪是非常兴奋的。大家都觉得这是一个非常牛逼的产品。然后早上各大AI自媒体发了测评,情绪推向了极致。
最近两天,我们见证了 Manus 的破圈。但邀请码一码难求。这就不禁让我想到,是否能做一个开源版呢?于是和同事吃完饭的时候一拍即合,回公司搓了三个小时,终于把这个 OpenManus 完成了!
傍上中国移动和华为两个“大哥”, 乐聚人形机器人迎来“智变”。
当涉及到空间推理任务时,LLMs 的表现却显得力不从心。空间推理不仅要求模型理解复杂的空间关系,还需要结合地理数据和语义信息,生成准确的回答。为了突破这一瓶颈,研究人员推出了 Spatial Retrieval-Augmented Generation (Spatial-RAG)—— 一个革命性的框架,旨在增强 LLMs 在空间推理任务中的能力。
智源联手多所顶尖高校发布的多模态向量模型BGE-VL,重塑了AI检索领域的游戏规则。它凭借独创的MegaPairs合成数据技术,在图文检索、组合图像检索等多项任务中,横扫各大基准刷新SOTA。
故事从去年10月26日说起,在那天,黄叔非常喜欢的Arc浏览器被创始人Josh Miller决定战略性放弃,开始开发新的AI Agent浏览器Dia: 同一天,HideCloud和Peak刚从武汉飞回北京,落地后,HideCloud震惊的发现,打开手机刷的第一条推特就是上面这条,因为,此前的两天,他们在武汉决定了终止AI浏览器的研发工作,莫名其妙的中美两只团队在同一刻达成了共识。
仅用32B,就击败o1-mini追平671B满血版DeepSeek-R1!阿里深夜重磅发布的QwQ-32B,再次让全球开发者陷入狂欢:消费级显卡就能跑,还一下子干到推理模型天花板!
DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络(Multi-head Latent Attention, MLA)是其经济推理架构的核心之一,通过对键值缓存进行低秩压缩,显著降低推理成本 [1]。
Manus刷屏一天,从开始的一夜成名,到中间的一码难求,再到质疑它的宣发一掷千金,整个过程里,FOMO情绪和直觉警惕交缠不休,是很有意思的传播学样本。
AI催生数据标注员,文科生转型与大厂调整。
腾讯AI助手腾讯元宝APP近期修改用户协议内容一事引发关注,成为热搜。焦点是使用AI应用或者产品的用户上传和生成内容的权利归属问题。自2月以来,有网友发现腾讯元宝的用户服务协议中,知识产权和其他权利的部分,包括了用户上传的内容,以及用元宝大模型生成的内容。
当下,很多人想进入AI行业谋职。而在其中,文科人因为和AI之间隔着技术的壁垒,成为了转行难度看起来最难的一群人。我们拜访了一些成功入职AI行业的文科生,发现文科生转行AI,没那么难。他们说,当下踟蹰犹豫的人,可能会错过入行的最佳时机。
昨夜,AI Agent 产品 Manus 横空出世,瞬间点燃科技圈。此刻,所有 AI 爱好者都在疯抢 Manus 邀请码,甚至在某二手交易平台上,邀请码的价格已经被炒到 999 元到 5 万元不等。
当模型复杂度增加到一定程度后,模型开始对训练数据中的噪声和异常值进行拟合,而不是仅仅学习数据中的真实模式。这导致模型在训练数据上表现得非常好,但在新的数据上表现不佳,因为新的数据中噪声和异常值的分布与训练数据不同。
AI Coding 是我们长期关注的领域,在这个领域中我们已经介绍过 bolt.new、Cursor 等公司,Lovable 是最新快速崛起的一家公司。Lovable 产品自发布以来就展示了惊人的增长速度,ARR 几乎每周增长 100 万美元,3 个月 ARR 就从 0 增长至 1700 万美元,付费用户数高达 3 万多人,成为欧洲历史上增速最快的初创企业。
基于闭源评测基准,近期司南针对国内外主流多模态大模型进行了全面评测,现公布司南首期多模态模型闭源评测榜单。首期榜单共包含 48 个多模态模型,其中包含:3 个国内 API 模型:GLM-4v-Plus-20250111 (智谱),Step-1o (阶跃),BailingMM-Pro-0120 (蚂蚁)
Manus 来了。它让我想起两个概念:「抽象之梯」和「抽象泄漏」。我感觉的趋势:AI 的抽象封装越来越完善,抽象泄漏问题被更好地解决,留给与人交互的界面,变得极为简单直接。这时候,人在这个界面中,交互什么呢?交互自己当前在「抽象之梯」的所在位置(理解深度)。
用AI能下沉成功吗?当北上广打工人在深夜焦虑自己的岗位会不会被deepseek取代时,他们会默默打开短视频,假装自己又学习了新的AI知识,并没有被时代时代的浪潮甩下。
DeepSeek现身香港?