AI资讯新闻榜单内容搜索-Ava

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Ava
专治大模型不懂行:浙大团队CatCoder解决AI编程水土不服难题

专治大模型不懂行:浙大团队CatCoder解决AI编程水土不服难题

专治大模型不懂行:浙大团队CatCoder解决AI编程水土不服难题

近日,浙江大学副教授胡星和团队开发出一款名为 CatCoder 的 AI 框架,它能够读懂一个完整的软件项目,生成准确、可用的代码。在 Java 任务上,它在代码编译通过率和测试通过率上,比业内表现突出的代表之一 RepoCoder 最高提升了 14.44% 和 17.35%。

来自主题: AI资讯
8861 点击    2025-12-14 10:50
Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了

Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了

Runway深夜炸场:一口气发布5大更新,首个通用世界模型来了

主攻 AI 视频与多媒体生成技术的独角兽 Runway 也来了一波大的:一口气来了 5 个「激动人心的宣布」。这一波更新之猛,甚至让人觉得他们是不是把过去半年的大招一次性全放了出来。Runway 这一波发布,不仅刷新了视频生成的各项指标,更重要的是,他们正式对外展示了其在通用世界模型(General World Models/GWM)上的野心。

来自主题: AI资讯
10089 点击    2025-12-12 16:19
阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

阿里开源实时虚拟人项目 LiveAvatar:虚拟人直播进入无限时长时代!

2025 年 12 月,由 阿里巴巴 联合 中国科学技术大学、浙江大学等机构共同研发的实时虚拟人项目 LiveAvatar 正式对外开源。该项目聚焦长期困扰虚拟人行业的两大技术瓶颈——“实时响应能力”与“长时稳定生成能力”,首次在同一系统中实现了二者的工程级统一。

来自主题: AI技术研报
10214 点击    2025-12-11 15:07
全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

全图与切片并非等价?LLaVA-UHD-v3揭示差异推出高效全图建模方案

随着多模态大模型(MLLMs)在各类视觉语言任务中展现出强大的理解与交互能力,如何高效地处理原生高分辨率图像以捕捉精细的视觉信息,已成为提升模型性能的关键方向。

来自主题: AI技术研报
10371 点击    2025-12-09 14:38
NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则

NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则

NeurIPS 2025 Spotlight | 条件表征学习:一步对齐表征与准则

一张图片包含的信息是多维的。例如下面的图 1,我们至少可以得到三个层面的信息:主体是大象,数量有两头,环境是热带稀树草原(savanna)。然而,如果由传统的表征学习方法来处理这张图片,比方说就将其送入一个在 ImageNet 上训练好的 ResNet 或者 Vision Transformer,往往得到的表征只会体现其主体信息,也就是会简单地将该图片归为大象这一类别。这显然是不合理的。

来自主题: AI技术研报
7946 点击    2025-10-16 14:43
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及,明显缩小了与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报
10051 点击    2025-10-15 12:12
从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了

从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了

从「对口型」到「会表演」,刚进化的可灵AI数字人,技术公开了

让数字人的口型随着声音一开一合早已不是新鲜事。更令人期待的,是当明快的旋律响起,它会自然扬起嘴角,眼神含笑;当进入说唱段落,它会随着鼓点起伏,肩膀与手臂有节奏地带动气氛。

来自主题: AI技术研报
12771 点击    2025-09-16 11:14
你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!

你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!

你能永远陪我聊天吗?复旦&微软提出StableAvatar: 首个端到端无限时长音频驱动的人类视频生成新框架!

在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能,旨为将人类意识进行数字化备份并进行意识上传,以实现人类文明的完全数字化。

来自主题: AI技术研报
7738 点击    2025-08-31 12:31
30人团队年入2000万美元!AI外教Praktika如何用虚拟老师撬动千亿教育市场

30人团队年入2000万美元!AI外教Praktika如何用虚拟老师撬动千亿教育市场

30人团队年入2000万美元!AI外教Praktika如何用虚拟老师撬动千亿教育市场

当大多数 AI 教育公司还在为盈利发愁时,成立仅两年的 Praktika,交出的一组运营数据:30人团队支撑起近 2000 万美元年化收入,超500万用户,在2024 年 5 月拿下 Blossom Capital 领投的 3550 万美元 A 轮融资,加上早期种子轮,总融资已达 3800 万美元,这个靠 AI 虚拟外教(Avatar)走红的 App,正在重新定义语言学习的商业模式。

来自主题: AI资讯
9372 点击    2025-08-27 11:58
夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频

夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频

夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频

近期,夸克技术团队和浙江大学联合开源了OmniAvatar,这是一个创新的音频驱动全身视频生成模型,只需要输入一张图片和一段音频,OmniAvatar即可生成相应视频,且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外,还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。

来自主题: AI资讯
8757 点击    2025-07-25 17:07