AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

细粒度对齐无需仔细标注了!淘天提出视觉锚定奖励,自我校准实现多模态对齐

近年来,视觉大模型(Large Vision Language Models, LVLMs)领域经历了迅猛的发展,这些模型在图像理解、视觉对话以及其他跨模态任务中展现出了卓越的能力。然而,随着 LVLMs 复杂性和能力的增长,「幻觉现象」的挑战也日益凸显。

来自主题: AI技术研报
5856 点击    2025-01-19 14:51
Fermata获得1000万美元A轮融资,推动人工智能驱动的农作物管理

Fermata获得1000万美元A轮融资,推动人工智能驱动的农作物管理

Fermata获得1000万美元A轮融资,推动人工智能驱动的农作物管理

Fermata是一家专门从事农业计算机视觉解决方案的数据科学公司,在Raw Ventures支持的A轮融资中获得了1000万美元。这项投资将支持该公司为农业行业开发集中式数字大脑的战略愿景,通过先进的数据分析实现作物的自主管理,创建一个不断发展的系统,不断从可用数据中学习。

来自主题: AI资讯
5906 点击    2025-01-19 10:18
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

模型安全和可靠性、系统整合和互操作性、用户交互和认证…… 当“多模态”“跨模态”成为不可阻挡的AI趋势时,多模态场景下的安全挑战尤其应当引发产学研各界的注意。

来自主题: AI技术研报
7623 点击    2025-01-18 10:48
MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o

MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o

MiniMax开源4M超长上下文新模型!性能比肩DeepSeek-v3、GPT-4o

开源模型上下文窗口卷到超长,达400万token! 刚刚,“大模型六小强”之一MiniMax开源最新模型—— MiniMax-01系列,包含两个模型:基础语言模型MiniMax-Text-01、视觉多模态模型MiniMax-VL-01。

来自主题: AI技术研报
7101 点击    2025-01-15 15:10
仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

仅缩小视觉Token位置编码间隔,轻松让多模态大模型理解百万Token!清华大学,香港大学,上海AI Lab新突破

随着语言大模型的成功,视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速,但在长上下文场景下表现却不尽如人意,这一问题严重制约了多模态模型在实际应用中的潜力。

来自主题: AI技术研报
7156 点击    2025-01-15 14:23
从计算机视觉走向医疗AI,对话上海交大谢伟迪:定义问题比解决问题更重要

从计算机视觉走向医疗AI,对话上海交大谢伟迪:定义问题比解决问题更重要

从计算机视觉走向医疗AI,对话上海交大谢伟迪:定义问题比解决问题更重要

HyperAI超神经与上海交大谢伟迪教授进行了一次深度访谈,从其个人经历出发,他向我们分享了从计算机视觉转型 AI for Healthcare 的经验心得,同时深入剖析了该行业的未来发展趋势。

来自主题: AI资讯
7262 点击    2025-01-10 09:53
纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

纯视觉方案,精准操控电脑和手机!港大Aria-UI登顶,超越Claude 3.5

Aria-UI通过纯视觉理解,实现了GUI指令的精准定位,无需依赖后台数据,简化了部署流程;在AndroidWorld和OSWorld等权威基准测试中表现出色,分别获得第一名和第三名,展示了强大的跨平台自动化能力。

来自主题: AI技术研报
9166 点击    2025-01-09 10:54
前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型

前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型

前微软亚研院视觉专家胡瀚加入腾讯,负责混元多模态大模型

1 月 18 日,北京,聊聊 2025 如何加入技术开发? AI 科技评论消息称,前微软亚洲研究院视觉计算组首席研究员胡瀚,不久前加入腾讯,接替已离职的前腾讯混元大模型技术负责人之一的刘威,负责多模态大模型的研发工作。

来自主题: AI资讯
7435 点击    2025-01-09 10:22
AAAI 2025 | IML领域首个稀疏化视觉Transformer,代码已开源

AAAI 2025 | IML领域首个稀疏化视觉Transformer,代码已开源

AAAI 2025 | IML领域首个稀疏化视觉Transformer,代码已开源

随着图像编辑工具和图像生成技术的快速发展,图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影(操作痕迹),这些伪影可分为语义和非语义特征。

来自主题: AI技术研报
7138 点击    2025-01-06 15:05