AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
生成式AI正在全新定义未来的消费者操作系统

生成式AI正在全新定义未来的消费者操作系统

生成式AI正在全新定义未来的消费者操作系统

计算机的历史标志着个人和企业生产力的飞跃。20世纪70年代的命令行界面(CLIs)演变至80年代的图形用户界面(GUIs),实现了复杂命令的图形化抽象,通过视觉图标和窗口简化操作。接着,计算机操作的易学性提升加快了个人电脑(PC)在1990年代的普及,进而催生了万维网以及基于其上的互联网应用的发展。

来自主题: AI资讯
3684 点击    2024-10-25 09:54
谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

谢赛宁新作:表征学习有多重要?一个操作刷新SOTA,DiT训练速度暴涨18倍

在NLP领域,研究者们已经充分认识并认可了表征学习的重要性,那么视觉领域的生成模型呢?最近,谢赛宁团队发表的一篇研究就拿出了非常有力的证据:Representation matters!

来自主题: AI技术研报
3387 点击    2024-10-23 13:37
单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024

全自动驾驶系统的纯视觉方案如特斯拉 “Tesla Vision”,仅依赖于摄像头收集的图像数据,旨在实现高效且成本效益高的自动驾驶技术。

来自主题: AI资讯
3355 点击    2024-10-04 12:39
“不发模型、不上新功能”的OpenAI DevDay,开发者们还能期待啥

“不发模型、不上新功能”的OpenAI DevDay,开发者们还能期待啥

“不发模型、不上新功能”的OpenAI DevDay,开发者们还能期待啥

去年,OpenAI在旧金山举办了一场引发业界轰动的开发者大会(DevDay 2023),推出了一系列新产品和工具,包括支持128K上下文的GPT-4 Turbo,API价格下调,新的Assistants API,具备视觉功能的GPT-4 Turbo,DALL·E 3 API,以及大幅改进的JSON模型,还有命运多舛的GPTs和类App Store平台GPT Store。

来自主题: AI资讯
5227 点击    2024-10-01 14:04
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx

视觉数据的种类极其多样,囊括像素级别的图标到数小时的视频。现有的多模态大语言模型(MLLM)通常将视觉输入进行分辨率的标准化或进行动态切分等操作,以便视觉编码器处理。然而,这些方法对多模态理解并不理想,在处理不同长度的视觉输入时效率较低。

来自主题: AI资讯
2996 点击    2024-09-29 14:44
从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制

从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制

从数据增强的隐藏作用出发,揭示视觉强化学习可塑性损失的独特机制

Sutton 等研究人员近期在《Nature》上发表的研究《Loss of Plasticity in Deep Continual Learning》揭示了一个重要发现:在持续学习环境中,标准深度学习方法的表现竟不及浅层网络。研究指出,这一现象的主要原因是 "可塑性损失"(Plasticity Loss):深度神经网络在面对非平稳的训练目标持续更新时,会逐渐丧失从新数据中学习的能力。

来自主题: AI资讯
3883 点击    2024-09-29 14:39