大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路
大模型会组合关系推理吗?打开黑盒,窥探Transformer脑回路本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱:ni@bupt.edu.cn, xiaoda99@bupt.edu.cn
本文作者为北京邮电大学网络空间安全学院硕士研究生倪睿康,指导老师为肖达副教授。主要研究方向包括自然语言处理、模型可解释性。该工作为倪睿康在彩云科技实习期间完成。联系邮箱:ni@bupt.edu.cn, xiaoda99@bupt.edu.cn
以 GPT-4o 为代表的实时交互多模态大模型(LMMs)引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens,并将其嵌入大语言模型(LLM)上下文来实现视觉信息理解。
本周四消息,去年刚刚加入知名 AI 创业公司 Anthropic 的 OpenAI 联合创始人约翰・舒尔曼 (John Schulman) 已辞去这家人工智能初创公司的职务。
本周三,该公司全面发布 Gemini 2.0 Flash、 Gemini 2.0 Flash-Lite 以及新一代旗舰大模型 Gemini 2.0 Pro 实验版本,并且还在 Gemini App 中推出了其推理模型 Gemini 2.0 Flash Thinking。
国内首个自研万卡集群,刚刚成功点亮!国产AI的高价门槛直接被打下来了。在百度智能云平台上,DeepSeek R1和V3的官方价格直接低至五折和三折,基本实现全网最低。
也该收收心开始写公号了,最近大家也看到我发的视频了,一直在摸索通义的文生导演模式,那么也有很多观众老爷问,通义有导演模式?我怎么没找到,在这里雪佬一并回复大家,通义其实是没有导演模式的,或者说暂时没有,看到这,友友们又会接着发问,那么你说到导演模式,究竟是个什么东西?
我躺平过了一个很悠闲的年,相信大家最近都被"Deepseek"和"哪吒"这两个关键词刷屏整烦了吧,哈哈。 已经有太多人从各个角度花式对Deepseek进行分析了,技术层面我也不擅长,就资本市场的角度再多说几句。
还记得半年前在 X 上引起热议的肖像音频驱动技术 Loopy 吗?升级版技术方案来了,字节跳动数字人团队推出了新的多模态数字人方案 OmniHuman, 其可以对任意尺寸和人物占比的单张图片结合一段输入的音频进行视频生成,生成的人物视频效果生动,具有非常高的自然度。
英伟达卡内基梅隆大学一起,给宇树机器人“一雪前耻”了(doge)。只通过一个训练框架,机器人就能成为“学人精”,完成各种高难度敏捷动作。
一个年过完,许多人的微信里都多了一个好友。与一些陪伴大家多年从不回复的沉默工具号不一样,这是一个事事有回应的AI助手。