只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。
只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL)。
整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL)。
当谷歌用量子计算机窥探到经典世界无法触及的物理秘密时,我们离那个能设计新药、创造新材料的「量子霸权」又近了一大步,下一个诺贝尔奖的种子或许已在此刻种下。
OpenAI前研究副总裁Liam Fedus与DeepMind材料科学领军者Ekin Cubuk共创Periodic Labs,以一轮高达3亿美元的种子融资走出隐身模式,震惊硅谷。然而,曾给出祝福的前东家OpenAI,并未参与本轮投资。
视频里,演员们穿着精致的戏服,在片场与工作人员互动、准备拍摄;摄影机、灯光、演员、助理,全都在忙。 就是这样一个 35 秒的「泄露」片段,在社交媒体上迅速疯传,YouTube 相关视频播放量破千万。
在3D内容创作领域,如何像玩乐高一样,自由生成、编辑和组合对象的各个部件,一直是一个核心挑战。香港大学、VAST、哈尔滨工业大学及浙江大学的研究者们联手,推出了一个名为 OmniPart 的全新框架,巧妙地解决了这一难题。该研究已被计算机图形学顶会 SIGGRAPH Asia 2025 接收。
美国签证体系,尤其在科技人才领域,长期被诟病为成本高、周期长、透明度低。前微软科学家Priyanka Kulkarni创办Casium,尝试用AI改造签证服务,把3–6个月的材料准备缩至10个工作日左右;部分案例不到1个月即可入职。
尽管员工每天大部分时间都在项目中进行沟通与协作,但这一努力常因关键人员的缺席而受阻。当掌握重要信息的同事不在岗时——无论是休假还是处于不同时区,团队其他成员往往只能等待对方回复才能推进工作。
创建具有高度真实感的三维数字人,在三维影视制作、游戏开发以及虚拟/增强现实(VR/AR)等多个领域均有着广泛且重要的应用。
生成式 AI 正在重写 3D 内容的生产流程:从“DCC 工具 + 外包”的线性供给,演进到“资产规模化生成 + 管线可用”的指数供给模式。过去五年,技术范式经历了从实时体积渲染,NeRF,到Score Distillation,3D扩散的快速迭代;需求侧则由游戏与影视,向3D 打印、电商样机、数字人、教育培训、以及AR/VR等长尾场景外溢。
刚刚,DeepSeek 推出了全新的视觉文本压缩模型 DeepSeek-OCR。 该模型最大的突破在于极高的压缩效率: 20 个节点每天可处理 3300 万页数据,硬件要求仅为 A100-40G。