AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

近年来,视觉语言基础模型(Vision Language Models, VLMs)大放异彩,在多模态理解和推理上展现出了超强能力。现在,更加酷炫的视觉语言动作模型(Vision-Language-Action Models, VLAs)来了!通过为 VLMs 加上动作预测模块,VLAs 不仅能 “看” 懂和 “说” 清,还能 “动” 起来,为机器人领域开启了新玩法!

来自主题: AI技术研报
7341 点击    2025-01-02 16:29
比扣子简单! Cline+MCP 快速打造Agent工作流: 实战案例解析

比扣子简单! Cline+MCP 快速打造Agent工作流: 实战案例解析

比扣子简单! Cline+MCP 快速打造Agent工作流: 实战案例解析

随着人工智能技术的不断进步,构建个性化智能体的需求日益增加。国内虽然已有一些智能体平台,如豆包扣子,但这些平台要求开发者将代码和数据上传到第三方服务器,对于一些商业信息敏感的客户来说,这种做法可能带来数据泄露的风险。

来自主题: AI技术研报
12666 点击    2025-01-02 15:11
比人类神经元快10亿倍!港中文、中科院「超级大脑」:1秒识图3479万张

比人类神经元快10亿倍!港中文、中科院「超级大脑」:1秒识图3479万张

比人类神经元快10亿倍!港中文、中科院「超级大脑」:1秒识图3479万张

想象一下,一个比人类大脑快10亿倍「超级大脑」是什么概念?来自港中文、中科院物理所等机构研究人员,提出了突破性激光人工神经元,完美复刻了人类神经细胞功能,更创造了惊人的处理速度记录。

来自主题: AI技术研报
8732 点击    2025-01-02 14:49
多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

多模态长文档新基准来了!20多项任务覆盖理解推理定位,GPT-4o也就刚及格

GPT-4o仅得分64.5,其余模型均未及格! 全面、细粒度评估模型多模态长文档理解能力的评测集来了~ 名为LongDocURL,集成了长文档理解、数值推理和跨元素定位三个主任务,并包含20个细分子任务。

来自主题: AI技术研报
6686 点击    2025-01-02 14:19
4o-mini只有8B,o1也才300B!微软论文意外曝光GPT核心机密

4o-mini只有8B,o1也才300B!微软论文意外曝光GPT核心机密

4o-mini只有8B,o1也才300B!微软论文意外曝光GPT核心机密

微软又把OpenAI的机密泄露了??在论文中明晃晃写着: o1-preview约300B参数,GPT-4o约200B,GPT-4o-mini约8B……

来自主题: AI技术研报
8777 点击    2025-01-02 14:03
OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

OpenAI o1「作弊」修改系统,强行击败专业象棋AI!全程无需提示

在与专用国际象棋引擎Stockfish测试中,只因提示词中包含能力「强大」等形容词,o1-preview入侵测试环境,直接修改比赛数据,靠「作弊」拿下胜利。这种现象,表明AI安全任重道远。

来自主题: AI技术研报
9135 点击    2025-01-01 17:28
上交大揭露大模型审稿风险:一句话就能让论文评分飞升

上交大揭露大模型审稿风险:一句话就能让论文评分飞升

上交大揭露大模型审稿风险:一句话就能让论文评分飞升

近年来,大语言模型在多个领域展现出了令人惊叹的潜力。同行评审作为一项既繁琐又至关重要的任务,正在引起越来越多学者的关注并尝试利用大语言模型来辅助甚至替代审稿,力图提高这一传统流程的效率。

来自主题: AI技术研报
9235 点击    2025-01-01 17:24
每月都有重磅研究,2024全年值得一读的论文都在这了

每月都有重磅研究,2024全年值得一读的论文都在这了

每月都有重磅研究,2024全年值得一读的论文都在这了

2024 年,是 AI 领域让人兴奋的一年。在这一年中,各大科技公司、机构发布了数不胜数的研究。

来自主题: AI技术研报
9140 点击    2025-01-01 17:18
理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

多模态理解与生成一体化模型,致力于将视觉理解与生成能力融入同一框架,不仅推动了任务协同与泛化能力的突破,更重要的是,它代表着对类人智能(AGI)的一种深层探索。

来自主题: AI技术研报
8512 点击    2024-12-31 14:19
设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

设计界的「GPT时刻」 | 像人一样利用“分层设计思维”颠覆传统设计生成,无需重训练!

平面设计是一门艺术学科,它们致力于创造一些吸引注意力和有效传达信息的视觉内容。为了减轻人类设计师的负担,各种各样的海报生成模型相继被提出。它们只关注某些子任务,远未实现设计构图任务;它们在生成过程中不考虑图形设计的层次信息。为了解决这些问题,作者将分层设计原理引入多模态模型(LMM),并提出LaDeCo算法。

来自主题: AI技术研报
6735 点击    2024-12-31 13:02
苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍

苹果布局人形机器人:“自我为中心”感知系统动态避障,比英伟达cuRobo计算效率提升26倍

苹果要搞人形机器人这事儿现在传得沸沸扬扬。 最近他们确实有新动作——开发了一套机器人感知系统! 系统名为ARMOR,软硬件协同增强机器人的“空间意识”,能动态防碰撞的那种。

来自主题: AI技术研报
8440 点击    2024-12-30 19:30
一张图生成高质量广视野3D场景,还可控制摄像轨迹

一张图生成高质量广视野3D场景,还可控制摄像轨迹

一张图生成高质量广视野3D场景,还可控制摄像轨迹

只需一张图,就能生成高质量、广范围的3D场景! 泰迪熊、花园、山谷都从平面图片变成了仿佛触手可及的立体物品。

来自主题: AI技术研报
8168 点击    2024-12-30 19:13
小身板大能量:树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

小身板大能量:树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

小身板大能量:树莓派玩转 Phi-2、Mistral 和 LLaVA 等AI大模型~

你是否想过在自己的设备上运行自己的大型语言模型(LLMs)或视觉语言模型(VLMs)?你可能有过这样的想法,但是一想到要从头开始设置、管理环境、下载正确的模型权重,以及你的设备是否能处理这些模型的不确定性,你可能就犹豫了。

来自主题: AI技术研报
9806 点击    2024-12-30 16:53
中国发表AI论文数量,全球第一!这些互联网大厂功不可没

中国发表AI论文数量,全球第一!这些互联网大厂功不可没

中国发表AI论文数量,全球第一!这些互联网大厂功不可没

事情是这样的,我今天刷信息流的时候注意到,蚂蚁集团今天发布了 2024 科技生态白皮书,展示了他们在论文、专利、开源、标准、产学研等几个方面的进展。

来自主题: AI技术研报
10138 点击    2024-12-30 14:53
9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

视觉价值模型(VisVM)通过「推理时搜索」来提升多模态视觉语言模型的图像描述质量,减少幻觉现象。实验表明,VisVM能显著提高模型的视觉理解能力,并可通过自我训练进一步提升性能。

来自主题: AI技术研报
8034 点击    2024-12-30 14:43
斯坦福、Deepmind、剑桥联合发文:推理 Scaling Up 的简单技巧

斯坦福、Deepmind、剑桥联合发文:推理 Scaling Up 的简单技巧

斯坦福、Deepmind、剑桥联合发文:推理 Scaling Up 的简单技巧

随着 o1、o1 Pro 和 o3 的成功发布,我们明显看到,推理所需的时间和计算资源逐步上升。可以说,o1 的最大贡献在于它揭示了提升模型效果的另一种途径:在推理过程中,通过优化计算资源的配置,可能比单纯扩展模型参数更为高效。

来自主题: AI技术研报
9345 点击    2024-12-30 14:32
港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。

来自主题: AI技术研报
6759 点击    2024-12-30 13:51
AAAI 2025 | 用于韦伯区位问题的去奇异性次梯度方法

AAAI 2025 | 用于韦伯区位问题的去奇异性次梯度方法

AAAI 2025 | 用于韦伯区位问题的去奇异性次梯度方法

韦伯区位问题源自一个经典的运筹优化问题,它首先由著名数学家皮耶・德・费马提出,后被著名经济学家阿尔弗雷德・韦伯(著名社会学家马克斯・韦伯的弟弟)扩展,在机器学习、人工智能、金融工程及计算机视觉等众多领域均有广泛应用。

来自主题: AI技术研报
6397 点击    2024-12-30 13:45
Deepmind 重磅开源:消除幻觉,让 LLMs 学会规则库和多步推理

Deepmind 重磅开源:消除幻觉,让 LLMs 学会规则库和多步推理

Deepmind 重磅开源:消除幻觉,让 LLMs 学会规则库和多步推理

大模型的的发布固然令人欣喜,但是各类测评也是忙坏了众多 AI 工作者。大模型推理的幻觉问题向来是 AI 测评的重灾区,诸如 9.9>9.11 的经典幻觉问题,各大厂家恨不得直接把问题用 if-else 写进来。

来自主题: AI技术研报
8964 点击    2024-12-30 10:39
机器人空间泛化也有Scaling Law!清华新国大新算法框架让机器人操作更加鲁棒

机器人空间泛化也有Scaling Law!清华新国大新算法框架让机器人操作更加鲁棒

机器人空间泛化也有Scaling Law!清华新国大新算法框架让机器人操作更加鲁棒

在机器人空间泛化领域,原来也有一套Scaling Law! 来自清华和新加坡国立大学的团队,发现了空间智能的泛化性规律。 在此基础上,他们提出了一套新颖的算法框架——ManiBox,让机器人能够在真实世界中应对多样化的物体位置和复杂的场景布置。

来自主题: AI技术研报
7711 点击    2024-12-29 17:33
向量模型的词序感知缺陷与优化策略

向量模型的词序感知缺陷与优化策略

向量模型的词序感知缺陷与优化策略

最近,LAION AI 的创始人 Christoph Schuhmann 分享了一个有趣的发现,他指出,文本向量模型似乎存在一个问题:即使句子词序被打乱,模型输出的向量与原句仍然高度相似。

来自主题: AI技术研报
9296 点击    2024-12-29 11:16
让AI理解费马大定理的证明,两个月过去了,进展如何?

让AI理解费马大定理的证明,两个月过去了,进展如何?

让AI理解费马大定理的证明,两个月过去了,进展如何?

1637 年,费马在阅读丢番图《算术》拉丁文译本时,曾在第 11 卷第 8 命题旁写道:「将一个立方数分成两个立方数之和,或一个四次幂分成两个四次幂之和,或者一般地将一个高于二次的幂分成两个同次幂之和,这是不可能的。关于此,我确信我发现一种美妙的证法,可惜这里的空白处太小,写不下。」

来自主题: AI技术研报
7805 点击    2024-12-29 11:02
可在手机终端部署,人大等提出全新人物图片保护模型RID

可在手机终端部署,人大等提出全新人物图片保护模型RID

可在手机终端部署,人大等提出全新人物图片保护模型RID

近年来许多论文研究了基于扩散模型的定制化生成,即通过给定一张或几张某个概念的图片,通过定制化学习让模型记住这个概念,并能够生成这个概念的新视角、新场景图片。

来自主题: AI技术研报
7748 点击    2024-12-28 14:04
视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

视觉语言模型易受攻击?西安交大等提出基于扩散模型的对抗样本生成新方法

对抗攻击,特别是基于迁移的有目标攻击,可以用于评估大型视觉语言模型(VLMs)的对抗鲁棒性,从而在部署前更全面地检查潜在的安全漏洞。然而,现有的基于迁移的对抗攻击由于需要大量迭代和复杂的方法结构,导致成本较高

来自主题: AI技术研报
9007 点击    2024-12-28 14:01
超越ControlNet++!腾讯优图提出动态条件选择新架构

超越ControlNet++!腾讯优图提出动态条件选择新架构

超越ControlNet++!腾讯优图提出动态条件选择新架构

超越ControlNet++,让文生图更可控的新框架来了!

来自主题: AI技术研报
8717 点击    2024-12-28 13:55