
国内多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了
国内多所高校共建开源社区LAMM,加入多模态语言模型大家庭的时候到了LAMM (Language-Assisted Multi-Modal) 旨在建设面向开源学术社区的多模态指令微调及评测框架,其包括了高度优化的训练框架、全面的评测体系,支持多种视觉模态。
LAMM (Language-Assisted Multi-Modal) 旨在建设面向开源学术社区的多模态指令微调及评测框架,其包括了高度优化的训练框架、全面的评测体系,支持多种视觉模态。
最近,DreamTalk开源了,这个框架有望为虚拟人注入“情绪”。
不知不觉,LangChain 已经问世一年了。作为一个开源框架,LangChain 提供了构建基于大模型的 AI 应用所需的模块和工具,大大降低了 AI 应用开发的门槛,使得任何人都可以基于 GPT-4 等大模型构建自己的创意应用。
Vista-LLaMA 在处理长视频内容方面的显著优势,为视频分析领域带来了新的解决框架。
解决扩散模型「不识字」的问题,Textdiffuser采用两阶段(布局+图像)生成框架,显著提升了相关性能的指标!
最近,来自NUS、斯坦福、谷歌DeepMind等机构的研究人员,尝试开发了一个评估人类和AI的创造力的框架。而当人类用尽所有手段来逼迫AI把创造力发挥到极限,发现GPT-4几乎对于所有事物认知的极限都是无尽的宇宙空间。
来自清华大学交叉信息研究院的研究者提出了「GenH2R」框架,让机器人学习通用的基于视觉的人机交接策略这种可泛化策略使得机器人能更可靠地从人们手中接住几何形状多样、运动轨迹复杂的物体,为人机交互提供了新的可能性。
本文探讨了大模型套壳的问题,解释了大模型的内核和预训练过程。同时,介绍了“原创派”和“模仿派”两种预训练框架的差异,并讨论了通过“偷”聊天模型数据进行微调的现象。最后,提出了把“壳”做厚才是竞争力的观点。
他们拥有记忆和思考能力,在这个以《我的世界》为背景的小镇中像人类一样生活。 驱动他们的,是一款全新的、针对开放世界设计的、基于语言的AI角色扮演框架LARP。
扩散模型在图像生成方面取得了显著的成功,但由于对输出保真度和时间一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,特别是其固有的随机性使这变得复杂。