AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘

LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘

LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘

自从 Sora 横空出世,业界便掀起了一场「视频生成模型到底懂不懂物理规律」的争论。图灵奖得主 Yann LeCun 明确表示,基于文本提示生成的逼真视频并不代表模型真正理解了物理世界。之后更是直言,像 Sora 这样通过生成像素来建模世界的方式注定要失败。

来自主题: AI技术研报
3621 点击    2024-11-08 19:14
文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

文本图格式大一统!首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

最近,来自上海大学、山东大学和埃默里大学等机构的研究人员首次提出了文本边图的数据集与基准,包括9个覆盖4个领域的大规模文本边图数据集,以及一套标准化的文本边图研究范式。该研究的发表极大促进了文本边图图表示学习的研究,有利于自然语言处理与图数据挖掘领域的深度合作。

来自主题: AI技术研报
2918 点击    2024-11-08 14:20
谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形

谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形

谷歌DeepMind研究再登Nature封面,隐形水印让AI无所遁形

近日,谷歌DeepMind发表的一项研究登上了Nature期刊的封面,研究人员开发了一种名为SynthID-Text的水印方案,已经在自家的Gemini上投入使用,跟踪AI生成的文本内容,使其无所遁形。

来自主题: AI技术研报
2655 点击    2024-11-08 14:12
针对医学图像分割的基础模型应用探索

针对医学图像分割的基础模型应用探索

针对医学图像分割的基础模型应用探索

来自美国医学院的研究团队聚焦于医学图像分割领域中人工智能基础模型的开发与应用,提供了一个全面的基础模型开发框架。

来自主题: AI技术研报
3502 点击    2024-11-08 13:51
杨笛一团队:一个弹窗,就能把AI智能体操控电脑整懵了

杨笛一团队:一个弹窗,就能把AI智能体操控电脑整懵了

杨笛一团队:一个弹窗,就能把AI智能体操控电脑整懵了

前些天,Anthropic 为 Claude 带来一个极具变革意义的功能:Computer Use,也就是控制用户的计算机。

来自主题: AI技术研报
2962 点击    2024-11-08 10:23
玩转「智能体魔方」!清华推出AgentSquare模块化搜索框架,开启AI智能体高速进化时代

玩转「智能体魔方」!清华推出AgentSquare模块化搜索框架,开启AI智能体高速进化时代

玩转「智能体魔方」!清华推出AgentSquare模块化搜索框架,开启AI智能体高速进化时代

AI智能体能像有机生命一样自适应演化吗?最近清华大学团队提出了AgentSquare模块化智能体设计框架,通过标准化的模块接口抽象,让AI智能体可以通过模块演化和重组高速进化,实现针对不同任务场景的自适应演进,赋能超越人类设计的智能体系统在多种评测数据集上广泛自我涌现。

来自主题: AI技术研报
2820 点击    2024-11-07 21:03
微软华人领衔AI²BMD登Nature,AI生物分子模拟双突破!继AlphaFold后又一里程碑

微软华人领衔AI²BMD登Nature,AI生物分子模拟双突破!继AlphaFold后又一里程碑

微软华人领衔AI²BMD登Nature,AI生物分子模拟双突破!继AlphaFold后又一里程碑

最近,微软研究院开发的AI²BMD登上了Nature。这是生物分子动力学(MD)模拟中,继经典MD和量子力学之后,首个成功地兼顾了模拟效率和精度的开创性方法!AlphaFold之后,AI在生化科学领域带来的革新仍在继续。

来自主题: AI技术研报
4118 点击    2024-11-07 20:59
50s完成7B模型量化,4bit达到新SOTA,大模型低比特量化有新招了 | NeurIPS 2024 Oral

50s完成7B模型量化,4bit达到新SOTA,大模型低比特量化有新招了 | NeurIPS 2024 Oral

50s完成7B模型量化,4bit达到新SOTA,大模型低比特量化有新招了 | NeurIPS 2024 Oral

消除激活值(outliers),大语言模型低比特量化有新招了—— 自动化所、清华、港城大团队最近有一篇论文入选了NeurIPS 2024(Oral Presentation),他们针对LLM权重激活量化提出了两种正交变换,有效降低了outliers现象,达到了4-bit的新SOTA。

来自主题: AI技术研报
3544 点击    2024-11-07 20:51
免训练加速DiT!Meta提出自适应缓存新方法,视频生成快2.6倍

免训练加速DiT!Meta提出自适应缓存新方法,视频生成快2.6倍

免训练加速DiT!Meta提出自适应缓存新方法,视频生成快2.6倍

现在,视频生成模型无需训练即可加速了?! Meta提出了一种新方法AdaCache,能够加速DiT模型,而且是无需额外训练的那种(即插即用)。

来自主题: AI技术研报
3017 点击    2024-11-07 20:43
OpenAI o1强推理能提升安全性?长对话诱导干翻o1

OpenAI o1强推理能提升安全性?长对话诱导干翻o1

OpenAI o1强推理能提升安全性?长对话诱导干翻o1

最近,以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升,在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称,推理可以让模型更好的遵守安全政策,是提升模型安全的新路径。

来自主题: AI技术研报
3247 点击    2024-11-07 18:17
结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

现在正是多模态大模型的时代,图像、视频、音频、3D、甚至气象运动都在纷纷与大型语言模型的原生文本模态组合。而浙江大学及其计算机创新技术研究院的一个数十人团队也将结构化数据(包括数据库、数仓、表格、json 等)视为了一种独立模态。

来自主题: AI技术研报
3563 点击    2024-11-07 17:45
字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节豆包大模型团队突破残差连接局限!预训练收敛最快加速80%

字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。

来自主题: AI技术研报
4306 点击    2024-11-07 17:41
价值万亿的具身智能市场,大佬们如何从世界模型下刀?

价值万亿的具身智能市场,大佬们如何从世界模型下刀?

价值万亿的具身智能市场,大佬们如何从世界模型下刀?

具身智能,简单来说,就是赋予 AI 一个「身体」,让这颗聪明的大脑在物理世界中行动自如。 把这颗大脑升级成世界模型 —— 它拥有记忆、直觉和常识时,机器人可以不再机械地按训练行事,而是能够灵活变通,具体问题具体分析。

来自主题: AI技术研报
3658 点击    2024-11-07 17:33
Lodge++:基于两阶段策略的高质量超长舞蹈生成框架

Lodge++:基于两阶段策略的高质量超长舞蹈生成框架

Lodge++:基于两阶段策略的高质量超长舞蹈生成框架

Lodge++ 是一个创新的舞蹈编排框架,旨在根据给定的音乐和期望的舞蹈风格生成高质量、超长且生动的舞蹈序列。

来自主题: AI技术研报
7172 点击    2024-11-07 11:43
量化前沿|利用大型语言模型构建动态金融知识图谱——FinDKG

量化前沿|利用大型语言模型构建动态金融知识图谱——FinDKG

量化前沿|利用大型语言模型构建动态金融知识图谱——FinDKG

在金融市场中,动态知识图谱(Dynamic Knowledge Graphs,DKGs)是一种表达对象之间随时间变化的多种关系的流行结构。它们可以有效地表示从复杂的非结构化数据源(如文本或图像)中提取的信息。在金融应用中,基于从金融新闻文章中获取的信息,DKGs 可用于检测战略性主题投资的趋势。

来自主题: AI技术研报
7123 点击    2024-11-07 10:32
LLM的Prompt竟然是图灵完备的?LLM提示范式的第一个研究 | 重磅

LLM的Prompt竟然是图灵完备的?LLM提示范式的第一个研究 | 重磅

LLM的Prompt竟然是图灵完备的?LLM提示范式的第一个研究 | 重磅

近日,伊利诺伊大学香槟分校的研究团队发布了一篇开创性论文,首次从理论层面证明了大语言模型(LLM)中的prompt机制具有图灵完备性。这意味着,通过合适的prompt设计,一个固定大小的Transformer模型理论上可以计算任何可计算函数。这一突破性发现为prompt工程提供了坚实的理论基础。

来自主题: AI技术研报
4162 点击    2024-11-07 09:39
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA

不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA

网络智能体旨在让一切基于网络功能的任务自动发生。比如你告诉智能体你的预算,它可以帮你预订酒店。既拥有海量常识,又能做长期规划的大语言模型(LLM),自然成为了智能体常用的基础模块。

来自主题: AI技术研报
3515 点击    2024-11-06 15:34
调研180多篇论文,这篇综述终于把大模型做算法设计理清了

调研180多篇论文,这篇综述终于把大模型做算法设计理清了

调研180多篇论文,这篇综述终于把大模型做算法设计理清了

算法设计(AD)对于各个领域的问题求解至关重要。大语言模型(LLMs)的出现显著增强了算法设计的自动化和创新,提供了新的视角和有效的解决方案。

来自主题: AI技术研报
3598 点击    2024-11-06 15:29
下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。两个工具可以帮助研究人员自动评估AI模型的性能,还能通过选择最佳候选图像来实际改善生成的图像。

来自主题: AI技术研报
3986 点击    2024-11-06 15:07
OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全

OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全

OpenAI重拾规则系统,用「AI版机器人定律」守护大模型安全

在大算力和大数据让基于统计的 AI 模型真正变得强大且有用之前,基于规则的系统长期以来是语言模型的主导范式。

来自主题: AI技术研报
3779 点击    2024-11-06 14:57
AI将爆发哪些超级应用?

AI将爆发哪些超级应用?

AI将爆发哪些超级应用?

2023年ChatGPT横空出世,人工智能上半场开启近两年,海量企业加入AI赛道,却鲜有成功的、实现盈利的商业模式。

来自主题: AI技术研报
3944 点击    2024-11-06 09:58
使用 Swarm 构建多智能体新闻助理

使用 Swarm 构建多智能体新闻助理

使用 Swarm 构建多智能体新闻助理

本文将带你构建一个多智能体新闻助理,利用 OpenAI 的 Swarm 框架和 Llama 3.2 来自动化新闻处理工作流。在本地运行环境下,我们将实现一个多智能体系统,让不同的智能体各司其职,分步完成新闻搜索、信息综合与摘要生成等任务,而无需付费使用外部服务。

来自主题: AI技术研报
4187 点击    2024-11-06 09:44
多专家Prompt: 让LLM拥有群体决策的智慧 |最新

多专家Prompt: 让LLM拥有群体决策的智慧 |最新

多专家Prompt: 让LLM拥有群体决策的智慧 |最新

在当前的LLM应用开发中,工程师们通常通过使用单一角色或专家视角的方式来处理复杂问题。这种单一视角虽然能够提供一定的专业性,但也经常因为专家视角的局限性带来偏见,影响输出的全面性和可靠性。

来自主题: AI技术研报
7593 点击    2024-11-06 09:40
Agent也有快慢脑了!这次真的不一样

Agent也有快慢脑了!这次真的不一样

Agent也有快慢脑了!这次真的不一样

基于这一理念,DeepMind团队开发了一个双系统框架,称为Talker-Reasoner,旨在模仿人类的这两种思维模式。

来自主题: AI技术研报
4106 点击    2024-11-06 09:39
【新进展】知识图谱+大模型-->医疗诊断

【新进展】知识图谱+大模型-->医疗诊断

【新进展】知识图谱+大模型-->医疗诊断

近年来,生成式大型语言模型(LLMs)在各类语言任务中的表现令人瞩目,但在医疗领域的应用面临诸多挑战,尤其是在减少诊断错误和避免对患者造成伤害方面。

来自主题: AI技术研报
4450 点击    2024-11-06 09:34
比ChatGPT更牛!苹果新AI模型刷新交互体验!能看懂你的手机屏幕!平板和安卓机也都行

比ChatGPT更牛!苹果新AI模型刷新交互体验!能看懂你的手机屏幕!平板和安卓机也都行

比ChatGPT更牛!苹果新AI模型刷新交互体验!能看懂你的手机屏幕!平板和安卓机也都行

家人们,苹果一直在悄悄进步! 近期,据小鹿观察,各大科技巨头不仅在提升模型解决复杂问题的能力上竞争激烈,而且还在大语言模型应用于用户界面(UI)交互方面上暗暗发力!

来自主题: AI技术研报
3988 点击    2024-11-05 19:33
Bifröst:基于语言指令的3D感知图像合成技术

Bifröst:基于语言指令的3D感知图像合成技术

Bifröst:基于语言指令的3D感知图像合成技术

Bifröst 是一个创新的3D感知图像合成框架,它利用扩散模型来执行基于语言指令的图像合成任务。

来自主题: AI技术研报
4366 点击    2024-11-05 19:29
RAG 系统的分块难题:小型语言模型如何找到最佳断点?

RAG 系统的分块难题:小型语言模型如何找到最佳断点?

RAG 系统的分块难题:小型语言模型如何找到最佳断点?

之前我们聊过 RAG 里文档分块 (Chunking) 的挑战,也介绍了 迟分 (Late Chunking) 的概念,它可以在向量化的时候减少上下文信息的丢失。今天,我们来聊聊另一个难题:如何找到最佳的分块断点。

来自主题: AI技术研报
5224 点击    2024-11-05 16:36
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24

视觉语言模型(如 GPT-4o、DALL-E 3)通常拥有数十亿参数,且模型权重不公开,使得传统的白盒优化方法(如反向传播)难以实施。

来自主题: AI技术研报
2482 点击    2024-11-05 15:28