AI资讯新闻榜单内容搜索-视觉

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 视觉
微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

等了半年,微软视觉基础模型Florence-2终于开源了。它能够根据提示,完成字幕、对象检测、分割等各种计算机视觉和语言的任务。网友们实测后,堪称「游戏规则改变者」。

来自主题: AI技术研报
10043 点击    2024-06-24 15:41
零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成本和质量问题。Calibrated Self-Rewarding(CSR)框架通过自我增强学习,利用模型自身输出构造更可靠的偏好数据,结合视觉约束提高学习效率和准确性。

来自主题: AI技术研报
7683 点击    2024-06-21 14:05
商汤披露:50篇论文入选CVPR 2024

商汤披露:50篇论文入选CVPR 2024

商汤披露:50篇论文入选CVPR 2024

CVPR正在进行中,中国科研力量再次成为场内外焦点之一。

来自主题: AI技术研报
11642 点击    2024-06-20 09:58
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报
9566 点击    2024-06-17 19:35