AI资讯新闻榜单内容搜索-人工智

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 人工智
只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。

整个Hugging Face的趋势版里,前4有3个OCR,甚至Qwen3-VL-8B也能干OCR的活,说一句全员OCR真的不过分。然后在我上一篇讲DeepSeek-OCR文章的评论区里,有很多朋友都在把DeepSeek-OCR跟PaddleOCR-VL做对比,也有很多人都在问,能不能再解读一下百度那个OCR模型(也就是PaddleOCR-VL)。

来自主题: AI资讯
9411 点击    2025-10-23 10:58
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了

太卷了,DeepSeek-OCR刚发布不到一天,智谱就开源了自家的视觉Token方案——Glyph。既然是同台对垒,那自然得请这两天疯狂点赞DeepSeek的卡帕西来鉴赏一下:

来自主题: AI技术研报
7800 点击    2025-10-22 23:58
速递|OpenAI 日本竞争对手 Sakana 正洽谈以 25 亿美元估值融资

速递|OpenAI 日本竞争对手 Sakana 正洽谈以 25 亿美元估值融资

速递|OpenAI 日本竞争对手 Sakana 正洽谈以 25 亿美元估值融资

总部位于东京的人工智能开发商Sakana AI 正与美国和日本投资者洽谈,拟以 25 亿美元的估值融资 1 亿美元,较一年前一轮融资的估值上涨 66%。参与商谈的两位知情人士透露了这一消息。

来自主题: AI资讯
5743 点击    2025-10-22 15:24
ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖

ICCV 2025最佳论文出炉!何恺明、孙剑等十年经典之作夺奖

ICCV最佳论文新鲜出炉了!今年,CMU团队满载而归,斩获最佳论文奖和最佳论文提名。同时,何恺明团队论文,RBG大神提出的Fast R-CNN,十年后斩获Helmholtz Prize,实至名归。

来自主题: AI技术研报
7443 点击    2025-10-22 15:22
刷屏的《海贼王》真人版片场花絮,居然是 AI 做的,4 步教你复刻同款

刷屏的《海贼王》真人版片场花絮,居然是 AI 做的,4 步教你复刻同款

刷屏的《海贼王》真人版片场花絮,居然是 AI 做的,4 步教你复刻同款

视频里,演员们穿着精致的戏服,在片场与工作人员互动、准备拍摄;摄影机、灯光、演员、助理,全都在忙。 就是这样一个 35 秒的「泄露」片段,在社交媒体上迅速疯传,YouTube 相关视频播放量破千万。

来自主题: AI资讯
6690 点击    2025-10-22 15:15
如果中国大模型不再开源

如果中国大模型不再开源

如果中国大模型不再开源

美国 AI 圈开始出现“担心中国开源断供”的苗头了吗?10 月 20 日,在专注于开源模型讨论、拥有 55 万成员的 Reddit 分论坛“r/LocalLLaMA”上,一位网友发布了一则“当中国公司停止提供开源模型时会发生什么?”的提问,并表达了假如中国模型逐渐闭源或开始收费该怎么办的担忧。

来自主题: AI资讯
7354 点击    2025-10-22 15:06
Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”

Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”

Embedding黑箱成为历史!这个新框架让模型“先解释,再学Embedding”

让模型先解释,再学Embedding! 来自UIUC、ANU、港科大、UW、TAMU等多所高校的研究人员,最新推出可解释的生成式Embedding框架——GRACE。过去几年,文本表征(Text Embedding)模型经历了从BERT到E5、GTE、LLM2Vec,Qwen-Embedding等不断演进的浪潮。这些模型将文本映射为向量空间,用于语义检索、聚类、问答匹配等任务。

来自主题: AI技术研报
6859 点击    2025-10-22 15:00
轻量高效,即插即用:Video-RAG为长视频理解带来新范式

轻量高效,即插即用:Video-RAG为长视频理解带来新范式

轻量高效,即插即用:Video-RAG为长视频理解带来新范式

尽管视觉语言模型(LVLMs)在图像与短视频理解中已取得显著进展,但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题,厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报
6480 点击    2025-10-22 14:57
长序列推理不再卡顿!北大华为KV缓存管理框架实现4.7倍推理加速

长序列推理不再卡顿!北大华为KV缓存管理框架实现4.7倍推理加速

长序列推理不再卡顿!北大华为KV缓存管理框架实现4.7倍推理加速

北大华为联手推出KV cache管理新方式,推理速度比前SOTA提升4.7倍! 大模型处理长序列时,KV cache的内存占用随序列长度线性增长,已成为制约模型部署的严峻瓶颈。

来自主题: AI技术研报
6197 点击    2025-10-22 14:52
被H-1B签证折磨10年,前微软科学家用AI「掀桌」

被H-1B签证折磨10年,前微软科学家用AI「掀桌」

被H-1B签证折磨10年,前微软科学家用AI「掀桌」

美国签证体系,尤其在科技人才领域,长期被诟病为成本高、周期长、透明度低。前微软科学家Priyanka Kulkarni创办Casium,尝试用AI改造签证服务,把3–6个月的材料准备缩至10个工作日左右;部分案例不到1个月即可入职。

来自主题: AI资讯
8594 点击    2025-10-22 13:10