AI资讯新闻榜单内容搜索-框架

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 框架
哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

哈工大提出创新迭代推理框架 DPE-MNER :充分发挥多模态表示潜力

多模态命名实体识别,作为构建多模态知识图谱的一项基础而关键任务,要求研究者整合多种模态信息以精准地从文本中提取命名实体。尽管以往的研究已经在不同层次上探索了多模态表示的整合方法,但在将这些多模态表示融合以提供丰富上下文信息、进而提升多模态命名实体识别的性能方面,它们仍显不足。

来自主题: AI技术研报
5678 点击    2024-07-02 17:35
300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文

本文提出了解决一般性编辑任务的统一框架!近期,复旦大学 FVL 实验室和南洋理工大学的研究人员对于多模态引导的基于文生图大模型的图像编辑算法进行了总结和回顾。综述涵盖 300 多篇相关研究,调研的最新模型截止至今年 6 月!

来自主题: AI技术研报
9004 点击    2024-06-29 00:35
ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

ICML 2024 | 揭示非线形Transformer在上下文学习中学习和泛化的机制

上下文学习 (in-context learning, 简写为 ICL) 已经在很多 LLM 有关的应用中展现了强大的能力,但是对其理论的分析仍然比较有限。人们依然试图理解为什么基于 Transformer 架构的 LLM 可以展现出 ICL 的能力。

来自主题: AI技术研报
5530 点击    2024-06-28 11:23
旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

旷视开源的AI人像视频生成太炸了!输入照片即可模仿任意表情包

日前,旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架,用户只需输入一张静态的肖像图片,以及一段视频(演讲、表情包、rap)文件,即可生成一段表情丰富、动作一致的 AI 人像视频。

来自主题: AI资讯
11645 点击    2024-06-26 17:00
零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成本和质量问题。Calibrated Self-Rewarding(CSR)框架通过自我增强学习,利用模型自身输出构造更可靠的偏好数据,结合视觉约束提高学习效率和准确性。

来自主题: AI技术研报
7666 点击    2024-06-21 14:05