刚刚,Vidu S1 重磅来袭,视频生成迈入实时交互时代!
刚刚,Vidu S1 重磅来袭,视频生成迈入实时交互时代!Vidu S1 面向的是一类全新的使用场景:让视频模型从离线成片,走向可对话、可响应、可持续在线的实时交互。它的核心能力包括语音实时控制视频生成内容、无限长实时生成、540P (960×540) + 25FPS (最高可支持 42FPS) 实时交互,以及自定义初始图像与音色。难得的是,这套实时交互能力在消费级显卡上就能跑起来。
搜索
Vidu S1 面向的是一类全新的使用场景:让视频模型从离线成片,走向可对话、可响应、可持续在线的实时交互。它的核心能力包括语音实时控制视频生成内容、无限长实时生成、540P (960×540) + 25FPS (最高可支持 42FPS) 实时交互,以及自定义初始图像与音色。难得的是,这套实时交互能力在消费级显卡上就能跑起来。
全球第一!中国AI语音ViiTorVoice首创「局部编辑」神技:配音错字告别重录,像改Word一样修语音。内附姆巴佩、哈兰德爆笑实测,快来见证!这个凭空出世的中国模型,将 Qwen3-TTS、CosyVoice3、Fish Audio 等一众主流巨头挑落马下,径直登顶综合排名第一!
「不如直接数字人」 私以为,世界模型这个概念的发展经过了三个非常幽默的阶段。 第一阶段:硅谷真懂行的老登如杨立昆、李飞飞,觉得大语言模型在讲故事上没啥空间了,所以从学术圈拽了个新概念过来尝试弯道超车。
中国人民大学的研究团队提出 CoDA-Bench,联合评估 Agent 的 Code Intelligence + Data Intelligence。该基准首次把 Code Agent 放进包含 1000 + 数据文件的复杂环境下,要求模型先自主探索文件系统、找到相关数据,再编写代码完成分析。实验显示,即使当前表现最好的系统,在 CoDA-Bench 上执行准确率也只有 61.1%;
LinStereo 对应地做了三件事:PALA 换掉 ConvGRU 解决传播问题,HSCV 保留多尺度特征,DPI 用单目深度给一个靠谱的起点。PALA 做的事情说起来很直观,就是把 ConvGRU 的局部更新换成全局注意力,让每个像素每次迭代都能看到整张图。难点在于 softmax attention 是 O (N²) 的,直接用在高分辨率视差图上跑不动。
三星大模型团队联合北京大学、香港城市大学、香港科技大学等科研机构,共同发布了面向 AI Agent 的基准测试 LiveClawBench。它关注的并不是「谁的 Agent 更强」,而是一个更基础、也更关键的问题:为什么同一个 AI Agent,在一些任务中已经接近可用,而在另一些任务中却会突然失稳?
埃森哲的 AI 策略负责人最近在一次内部会议上,吐槽了公司里消耗 AI 算力的情况:驱动 token 消耗的,不是工程师在做开发,是非技术人员在用 AI 把 PDF 转成 PPT。 这怎么是滥用呢?堂堂埃森哲一个咨询公司,做 PPT 才是正经事啊!
来自上海交大、马来亚大学、CMU、MBZUAI、KIT和KAUST的团队提出VisNec(Visual Necessity Score,视觉必要性分数),用一个分数衡量每条训练样本里“图像到底起了多大作用”,被ECCV 2026收录。
史上最严厉的一次清洗来了。就在昨天,外媒Financial Times突然曝出消息:Anthropic正在全面下狠手,疯狂清剿允许绕过限制访问Claude的所有地下通道!
DSpark刚开源一周,就被搬进了苹果电脑。移植版本叫mlx-dspark,跑的是Gemma-4 12B和Qwen3-4B这两个模型。装上之后,这两个模型在Mac上的生成速度分别提了1.6倍和1.4倍。