
「开源版GPT-4o」来了!17B国产模型iDream-I1生图效果比肩4o,还可商用
「开源版GPT-4o」来了!17B国产模型iDream-I1生图效果比肩4o,还可商用前段时间,GPT-4o 火出了圈,其断崖式提升的生图、改图能力让每个人都想尝试一下。虽然 OpenAI 后来宣布免费用户也可以用,但出图慢、次数受限仍然困扰着没有订阅 ChatGPT 的普通人。
前段时间,GPT-4o 火出了圈,其断崖式提升的生图、改图能力让每个人都想尝试一下。虽然 OpenAI 后来宣布免费用户也可以用,但出图慢、次数受限仍然困扰着没有订阅 ChatGPT 的普通人。
在 Sora 之前,就已经受到全世界用户的认可的生成式视频工具是什么?——可灵 AI。无需折腾剪辑软件,几分钟,就能拿到自然如实拍,画面质感如电影的动态视频。
前段时间我去 QCon 北京全球软件大会分享了一个专题:AI 时代的新范式:如何构建 AI 产品?观众反响特别好,想着要不把分享的内容公开出来,所以整理了这篇文章。本篇内容是对我过去两年时间,做了无数个 AI 产品 demo 的一个阶段性的总结,主要聚焦这三个方面的经验
智能语音交互领域,学术研究也能如此酷炫。全球首个纯学术界自研的支持多人实时口语对话的语音情感大模型 ——“交交”,正式推出!
开源语音模型Orpheus让LLM涌现出人类情感!在A100 40GB显卡上,30亿参数模型的流式推理速度甚至超过了音频播放速度。甚至可以zero-shot克隆声音。
字节Seed团队视频生成基础模型,来了。
密集模型的推理能力也能和DeepSeek-R1掰手腕了?
文生图新架构来了!
多模态大语言模型(MLLM)在具身智能和自动驾驶“端到端”方案中的应用日益增多,但它们真的准备好理解复杂的物理世界了吗?
移动GUI自动化智能体V-Droid采用「验证器驱动」架构,通过离散化动作空间并利用LLM评估候选动作,实现了高效决策。在AndroidWorld等多个基准测试中任务成功率分别达到59.5%、38.3%和49%,决策延迟仅0.7秒,接近实时响应。