用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用
最近,来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA,使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能,并在图片、视频的13个基准上达到先进的性能。这个结果表明,统一LLM的输入能让LLM的视觉理解能力提升。
奥特曼能否再次创造奇迹,全世界都在等着。北京时间11月20日,这场职场政变宫斗戏以奥特曼和他的“小伙伴”格雷格·布洛克曼(原Open AI联合创始人兼总裁)加入微软新AI研究团队而告终。
GPT-4的图形推理能力,竟然连人类的一半都不到? 美国圣塔菲研究所的一项研究显示,GPT-4做图形推理题的准确率仅有33%。而具有多模态能力的GPT-4v表现更糟糕,只能做对25%的题目。
科技巨头微软CEO萨提亚·纳德拉(Satya Nadella)宣布,刚被OpenAI公司解雇的两位人工智能领域的重磅人物,将率团队加入微软公司。
良好的人设还原度是AI角色扮演的关键,研究人员对大五人格的NEO-FFI问卷和MBTI的16Personalities进行了改写,利用LLM将其中的问题从陈述句改写为了引导开放式问答的提问句,对AI角色进行测试。
现代认知科学认为,人类会在头脑中构建关于周围真实世界的抽象模型——世界模型(world model)。获取“世界模型”的问题一直是人工智能研究的焦点。OpenAI 联合创始人兼首席科学家 Ilya Sutskever 认为, ChatGPT 已经学到了关于真实世界的复杂抽象模型。
11月18日,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告3.0》(以下简称报告)。报告显示,迭代风潮之下,大模型产品正在迅速适应并引领市场变革。其中,科大讯飞星火、商汤商量和智谱AI-ChatGLM等厂商表现总体优秀。
AI图像生成,已经进入了秒速级别,只要4步推理就能完成绘制,最快更是能在1秒之内完成。现在,清华大学联合HuggingFace的研究人员,推出了全新的绘图模型加速模块。
由中国科学技术大学领衔的研究团队开发了一个机器人 AI 化学家,其可以从火星陨石中制造出催化剂,再测试其制氧性能,并不断重复这个过程,直到找出最好的催化剂,且无需人类干预。