AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型拿金牌却输给三岁宝宝!一套「纯视觉考卷」把顶尖VLM打回幼儿园

大模型能写代码、解奥数,却连幼儿园小班都考不过?简单的连线找垃圾桶、数积木,人类一眼即知,AI却因为无法用语言「描述」视觉信息而集体翻车。大模型到底「懂不懂」,这个评测基准给出答案。

来自主题: AI技术研报
8888 点击    2026-01-12 10:29
在谷歌深耕14年,华人研究员创立视觉AI公司Elorian,计划融资5000万美元

在谷歌深耕14年,华人研究员创立视觉AI公司Elorian,计划融资5000万美元

在谷歌深耕14年,华人研究员创立视觉AI公司Elorian,计划融资5000万美元

戴明博表示,这家名为 Elorian 的新公司目前正在与投资人洽谈,计划完成一轮约 5000 万美元的种子融资。知情人士透露,由前 CRV 普通合伙人 Max Gazor 于去年 10 月创立的风投机构 Striker Venture Partners 正在洽谈领投该轮融资。

来自主题: AI资讯
8290 点击    2026-01-11 10:38
DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案

近期,DeepSeek-OCR 凭借其创新的「视觉文本压缩」(Vision-Text Compression, VTC)范式引发了技术圈的高度关注。为了解答这一疑问,来自中科院自动化所、中国科学院香港创新研究院等机构的研究团队推出了首个专门针对视觉 - 文本压缩范式的基准测试 ——VTCBench。

来自主题: AI技术研报
7161 点击    2026-01-11 10:01
「liko.ai」完成首轮融资,打造以 AI Home Center 为核心的智能家居解决方案|光源孵化

「liko.ai」完成首轮融资,打造以 AI Home Center 为核心的智能家居解决方案|光源孵化

「liko.ai」完成首轮融资,打造以 AI Home Center 为核心的智能家居解决方案|光源孵化

近日,liko.ai 宣布完成首轮融资,由商汤国香资本、东方富海、讯飞创投、洪泰基金、正轩投资、面壁智能等多家产业及财务投资机构联合投资,光源资本担任孵化方及独家财务顾问。本轮融资将用于端侧视觉语言模型、AI 原生硬件以及家庭多模态通用终端研发。

来自主题: AI资讯
8041 点击    2026-01-10 11:06
「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

「听觉」引导「视觉」,OmniAgent开启全模态主动感知新范式

针对端到端全模态大模型(OmniLLMs)在跨模态对齐和细粒度理解上的痛点,浙江大学、西湖大学、蚂蚁集团联合提出 OmniAgent。这是一种基于「音频引导」的主动感知 Agent,通过「思考 - 行动 - 观察 - 反思」闭环,实现了从被动响应到主动探询的范式转变。

来自主题: AI技术研报
6420 点击    2026-01-09 10:54
多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。

来自主题: AI技术研报
6485 点击    2026-01-08 15:20
任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

BiCo是一种创新的AI视觉内容生成方法,能灵活组合图像和视频中的视觉概念,实现可控编辑。它通过分层绑定器、多样化与吸收机制、时间解耦策略等技术创新,解决了现有方法在概念提取和组合上的问题,让AI真正理解并融合视觉元素。

来自主题: AI技术研报
5862 点击    2026-01-06 16:16
DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案

DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案

DeepSeek-OCR是「长文本理解」未来方向吗?中科院新基准给出答案

DeepSeek-OCR的视觉文本压缩(VTC)技术通过将文本编码为视觉Token,实现高达10倍的压缩率,大幅降低大模型处理长文本的成本。但是,视觉语言模型能否理解压缩后的高密度信息?中科院自动化所等推出VTCBench基准测试,评估模型在视觉空间中的认知极限,包括信息检索、关联推理和长期记忆三大任务。

来自主题: AI技术研报
5360 点击    2026-01-06 09:30
Nano Banana不会应试!指标拉垮,视觉效果惊艳,实测14个任务

Nano Banana不会应试!指标拉垮,视觉效果惊艳,实测14个任务

Nano Banana不会应试!指标拉垮,视觉效果惊艳,实测14个任务

最新报告探讨了生成式模型Nano Banana Pro在低层视觉任务中的表现,如去雾、超分等,传统上依赖PSNR/SSIM等像素级指标。研究发现,Nano Banana Pro在视觉效果上更佳,但传统指标表现欠佳,因生成式模型更追求语义合理而非像素对齐。

来自主题: AI技术研报
9193 点击    2026-01-05 10:17