
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐复旦团队进一步挖掘 RLHF 的潜力,重点关注奖励模型(Reward Model)在面对实际应用挑战时的表现和优化途径。
复旦团队进一步挖掘 RLHF 的潜力,重点关注奖励模型(Reward Model)在面对实际应用挑战时的表现和优化途径。
图像到视频生成(I2V)任务旨在将静态图像转化为动态视频,这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息,同时确保图像内容的真实性和视觉上的连贯性。大多数现有的 I2V 方法依赖于复杂的模型架构和大量的训练数据来实现这一目标。
随着科技的发展,许多盲人正在借助AI提供的感知、理解与交互功能,以另一种方式重新感知世界。日前,我校软件与物联网工程学院创客荟团队研发了一款模拟触感交互控制的助盲系统,该系统通过AI技术,为盲人朋友学习带来了福音。
这一年来,人工智能在多个领域大放异彩。从聊天机器人程序ChatGPT到AI绘画,从机器视觉到AI芯片,AI展现了革新各个行业的巨大潜力。
Canva已经从低门槛设计工具成长为整套视觉生产力工具。
LAMM (Language-Assisted Multi-Modal) 旨在建设面向开源学术社区的多模态指令微调及评测框架,其包括了高度优化的训练框架、全面的评测体系,支持多种视觉模态。
不久之前,《纽约时报》指控 OpenAI 涉嫌违规使用其内容用于人工智能开发的事件引起了社区极大的关注与讨论。
在 AI 领域,近年来各个子领域都逐渐向 transformer 架构靠拢,只有文生图和文生视频一直以 diffusion + u-net 结构作为主流方向。diffusion 有更公开可用的开源模型,消耗的计算资源也更少。
来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略这种可泛化策略使得机器人能更可靠地从人们手中接住几何形状多样、运动轨迹复杂的物体,为人机交互提供了新的可能性。
GPT-4V的开源替代方案来了!极低成本,性能却类似,清华、浙大等中国顶尖学府,为我们提供了性能优异的GPT-4V开源平替。