AI资讯新闻榜单内容搜索-Oral

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Oral
AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

AAAI 2026 Oral | 悉尼科技大学联合港理工打破「一刀切」,联邦推荐如何实现「千人千面」的图文融合?

在推荐系统迈向多模态的今天,如何兼顾数据隐私与个性化图文理解?悉尼科技大学龙国栋教授团队联合香港理工大学杨强教授、张成奇教授团队,提出全新框架 FedVLR。该工作解决了联邦环境下多模态融合的异质性难题,已被人工智能顶级会议 AAAI 2026 接收为 Oral Presentation。

来自主题: AI技术研报
7721 点击    2025-11-25 15:30
AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

随着大型视觉语言模型在多个下游任务的广泛应用,其潜在的安全风险也开始快速显露。研究表明,即便是最先进的大型视觉语言模型,也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应,而现有的轻量级的安全对齐方案都具有一定的局限性。

来自主题: AI技术研报
7472 点击    2025-11-25 09:30
AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型

AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型

AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型

近日,AAAI 2026 公布了录用结果,该会议是是人工智能领域极具影响力的国际顶级学术会议之一。据悉本次会议共有 23680 篇投稿进入审稿阶段,最终 4167 篇论文被录用,录取率为 17.6%。

来自主题: AI技术研报
9503 点击    2025-11-21 09:42
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索更多可能的路径。

来自主题: AI技术研报
7843 点击    2025-11-14 14:25
ACM MM 2025 Oral | 新加坡国立大学提出FractalForensics,基于分形水印的主动深度伪造检测与定位

ACM MM 2025 Oral | 新加坡国立大学提出FractalForensics,基于分形水印的主动深度伪造检测与定位

ACM MM 2025 Oral | 新加坡国立大学提出FractalForensics,基于分形水印的主动深度伪造检测与定位

该论文提出 FractalForensics,一种基于分形水印的主动深度伪造检测与定位方法。不同于以往的水印向量,为达成伪造定位的功能,论文提出的水印以矩阵形式出现。

来自主题: AI技术研报
7698 点击    2025-11-04 14:44
谷歌开源全栈平台Coral NPU,能让大模型在手表上全天候运行

谷歌开源全栈平台Coral NPU,能让大模型在手表上全天候运行

谷歌开源全栈平台Coral NPU,能让大模型在手表上全天候运行

他们又推出了 Coral NPU,可用于构建在低功率设备上持续运行的 AI。具体来说,其可在可穿戴设备上运行小型 Transformer 模型和 LLM,并可通过 IREE 和 TFLM 编译器支持 TensorFlow、JAX 和 PyTorch。

来自主题: AI资讯
10445 点击    2025-10-17 08:38
多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入“MLLM-as-a-Judge”机制:利用MLLM对查询-候选对进行语义对齐评估,生成软语义匹配分数。

来自主题: AI技术研报
5354 点击    2025-10-06 21:53
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接 “以图思考”,用统一的未来图像帧作为中间推理步骤,联合未来场景与感知结果进行可视化推理。

来自主题: AI技术研报
7501 点击    2025-10-06 13:42
Temporal:Nvidia、OpenAI 都在用,为什么 Agent 还需要专门的长程任务工具?

Temporal:Nvidia、OpenAI 都在用,为什么 Agent 还需要专门的长程任务工具?

Temporal:Nvidia、OpenAI 都在用,为什么 Agent 还需要专门的长程任务工具?

虽然大家都期待未来的 Agent 能够真正端到端完成所有任务,并且在出错时也知道如何重新开始,但目前 AI 还没有达到这种能力。

来自主题: AI资讯
6999 点击    2025-09-05 11:57
AI让客服效率提升300%,这家公司6天完成种子轮到1年拿下B轮背后的秘密

AI让客服效率提升300%,这家公司6天完成种子轮到1年拿下B轮背后的秘密

AI让客服效率提升300%,这家公司6天完成种子轮到1年拿下B轮背后的秘密

当大多数人还在抱怨传统工单系统的笨重时,一家叫做 Pylon 的公司却在短短18个月内完成了从种子轮到B轮总计5100万美元的融资,估值飙升至8亿美元。更令人震惊的是,他们已经吸引了780多家快速增长的公司,包括 Together AI、Cognition 和 Temporal,其中超过150家公司主动从 Zendesk、Intercom 等老牌平台迁移过来。

来自主题: AI资讯
8043 点击    2025-08-31 13:12