
Mogao=Seedream 3.0?霸榜数天,神秘文生图模型曝光(附技术报告)
Mogao=Seedream 3.0?霸榜数天,神秘文生图模型曝光(附技术报告)霸榜数天的神秘文生图模型 Mogao,什么来头?
霸榜数天的神秘文生图模型 Mogao,什么来头?
就在刚刚,据外媒 The Verge 援引知情人士消息称,OpenAI 正在研发一个类似 X(前 Twitter)的社交网络。 项目还处于早期阶段,但据称内部已完成原型开发 2️⃣ 项目重点是 ChatGPT 的图像生成功能和社交信息流 3️⃣ CEO Sam Altman 已私下向圈外人征求反馈
两个月后就号称要淘汰GPT-4.5的GPT-4.1,实力究竟如何?在众多实测中,它的表现的确可圈可点,但却依然打不过Gemini 2.5 Pro和Claude 3.7 Sonnet。那么问题来了,OpenAI为何要发布一个远远落后于谷歌的模型?
要理解上半场,看看它的赢家。你认为到目前为止最有影响力的 AI 论文是哪些?我尝试了斯坦福大学 224N 课程的测验,答案并不令人惊讶:Transformer、AlexNet、GPT-3 等等。这些论文有什么共同点?它们提出了一些训练更好模型的基本突破。但同样,它们通过在一些基准测试上展示一些(显著的)改进来发表论文。
知名科技记者马克·古尔曼曾在3月爆料,苹果公司的Siri可能要到2027年才能真正实现现代化的对话式功能。这个爆料并非空穴来风。苹果向来是科技行业的风向标,其遵循押注未来科技发展趋势,而非仅追求当前利益。在2023年,库克就宣布计划每年花费10亿美元开发生成式AI产品,但事实却是——与其他科技巨头相比,苹果的AI步伐迟缓无比。
开源语音模型Orpheus让LLM涌现出人类情感!在A100 40GB显卡上,30亿参数模型的流式推理速度甚至超过了音频播放速度。甚至可以zero-shot克隆声音。
移动GUI自动化智能体V-Droid采用「验证器驱动」架构,通过离散化动作空间并利用LLM评估候选动作,实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。
智谱将开源 32B/9B 系列 GLM 模型,涵盖基座、推理、沉思模型,均遵循 MIT 许可协议。该系列模型现已通过全新平台 Z.ai 免费开放体验,并已同步上线智谱 MaaS 平台。
虽然扩散模型在视频生成领域展现出了卓越的性能,但是视频扩散模型通常需要大量的推理步骤对高斯噪声进行去噪才能生成一个视频。这个过程既耗时又耗计算资源。例如,HunyuanVideo [1] 需要 3234 秒才能在单张 A100 上生成 5 秒、720×1280、24fps 的视频。
单张图直接就能生成可编辑的CAD工程文件!