AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
重磅!IBM:PDL提示词声明语言,帮你拿回Prompt控制权

重磅!IBM:PDL提示词声明语言,帮你拿回Prompt控制权

重磅!IBM:PDL提示词声明语言,帮你拿回Prompt控制权

在当前大语言模型(LLM)蓬勃发展的环境下,Prompt工程师们面临着一个两难困境:要么使用像LangChain这样功能强大但学习曲线陡峭的框架,要么选择自动化程度更高DSPy但牺牲了对提示词精确控制的工具。IBM研究院和UC Davis大学最近推出的PDL(Prompt Declaration Language,提示词声明语言)或许打破了这个困境,让AI开发者能真正拿回Prompt的控制权。

来自主题: AI技术研报
4130 点击    2024-10-31 09:54
一键安装最新生产环境GraphRAG UI,kotaemon日增1.3KStar霸榜Github

一键安装最新生产环境GraphRAG UI,kotaemon日增1.3KStar霸榜Github

一键安装最新生产环境GraphRAG UI,kotaemon日增1.3KStar霸榜Github

这两天Github上有一个项目火了。可用于生产环境GraphRAG的开源UI项目kotaemon,更新不到两天后已经有6.6KStar,昨日新增1.3KStar已位居Github Trending榜首。周末抽空部署了一下,还挺简单,推荐给大家。

来自主题: AI技术研报
4429 点击    2024-10-30 14:50
AI「长脑子」了?LLM惊现「人类脑叶」结构并有数学代码分区,MIT大牛新作震惊学界!

AI「长脑子」了?LLM惊现「人类脑叶」结构并有数学代码分区,MIT大牛新作震惊学界!

AI「长脑子」了?LLM惊现「人类脑叶」结构并有数学代码分区,MIT大牛新作震惊学界!

Max Tegmark团队又出神作了!他们发现,LLM中居然存在人类大脑结构一样的脑叶分区,分为数学/代码、短文本、长篇科学论文等部分。这项重磅的研究揭示了:大脑构造并非人类独有,硅基生命也从属这一法则。

来自主题: AI技术研报
4453 点击    2024-10-30 14:14
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力

GPT-4o 四月发布会掀起了视频理解的热潮,而开源领军者Qwen2也对视频毫不手软,在各个视频评测基准上狠狠秀了一把肌肉。

来自主题: AI技术研报
2956 点击    2024-10-30 13:59
国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

国产最强语音大模型诞生,MaskGCT宣布开源,声音效果媲美人类

近期,港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。MaskGCT 已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统 Amphion 发布。

来自主题: AI技术研报
3248 点击    2024-10-30 13:57
导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

在游戏和机器人研究领域,让智能体在开放世界环境中实现有效的交互,一直是令人兴奋却困难重重的挑战。

来自主题: AI技术研报
3675 点击    2024-10-30 13:51
视频生成Open-Sora-Plan 升级至v1.3.0,引入五大新特性

视频生成Open-Sora-Plan 升级至v1.3.0,引入五大新特性

视频生成Open-Sora-Plan 升级至v1.3.0,引入五大新特性

Open-Sora-Plan迎来又一次升级。新的Open-Sora-Plan v1.3.0版本引入了五个新特性:性能更强、成本更低的WFVAE;Prompt refiner;高质量数据清洗策略;全新稀疏注意力的DiT,以及动态分辨率、动态时长的支持。

来自主题: AI技术研报
10470 点击    2024-10-30 10:55
超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先

超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先

超越Transformer,全面升级!MIT等华人团队发布通用时序TimeMixer++架构,8项任务全面领先

TimeMixer++是一个创新的时间序列分析模型,通过多尺度和多分辨率的方法在多个任务上超越了现有模型,展示了时间序列分析的新视角,在预测和分类等任务带来了更高的准确性和灵活性。

来自主题: AI技术研报
3914 点击    2024-10-29 14:51
Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus:DeepSeek 打造的多模态理解与生成的解耦视觉编码框架

Janus 是 DeepSeek AI 开发的一个先进的多模态理解和生成框架,它通过创新性地解耦视觉编码路径来应对多模态理解和生成任务之间的需求冲突。

来自主题: AI技术研报
7428 点击    2024-10-29 14:46
一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入「一键生成」时代

一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入「一键生成」时代

一个模型走天下!智源提出全新扩散架构OmniGen,AI生图进入「一键生成」时代

LLM统一了语言生成任务,图像生成可以吗?就在刚刚,智源推出了全新扩散模型架构OmniGen,单个模型就能生成图像,彻底告别繁琐工作流!

来自主题: AI技术研报
4175 点击    2024-10-29 14:38
PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA:商汤科技迈向多模态任务统一框架的多粒度视觉生成模型

PUMA(emPowering Unified MLLM with Multi-grAnular visual generation)是一项创新的多模态大型语言模型(MLLM),由商汤科技联合来自香港中文大学、港大和清华大学的研究人员共同开发。它通过统一的框架处理和生成多粒度的视觉表示,巧妙地平衡了视觉生成任务中的多样性与可控性。

来自主题: AI技术研报
3711 点击    2024-10-29 14:32
QuestMobile 2024年硬件终端智能发展洞察:AI时代应用端爆发大幕拉开,各家如何占据“生态位”?

QuestMobile 2024年硬件终端智能发展洞察:AI时代应用端爆发大幕拉开,各家如何占据“生态位”?

QuestMobile 2024年硬件终端智能发展洞察:AI时代应用端爆发大幕拉开,各家如何占据“生态位”?

随着2024年生成式AI大爆发,推理端成本呈指数级激增,推动了泛智能硬件端持续增长,“端云混合AI部署”模式正走向主流,端侧智能则加速了终端“换机热潮”:AI PC、AI手机、AIoT设备、智能座舱。

来自主题: AI技术研报
4498 点击    2024-10-29 14:06
新扩散模型OmniGen一统图像生成,架构还高度简化、易用

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

新扩散模型OmniGen一统图像生成,架构还高度简化、易用

大型语言模型(LLM)的出现统一了语言生成任务,并彻底改变了人机交互。然而,在图像生成领域,能够在单一框架内处理各种任务的统一模型在很大程度上仍未得到探索。近日,智源推出了新的扩散模型架构 OmniGen,一种新的用于统一图像生成的多模态模型。

来自主题: AI技术研报
10516 点击    2024-10-29 13:38
超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务

超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务

超越YOLOv10/11、RT-DETRv2/3!中科大D-FINE重新定义边界框回归任务

在当前内卷严重的实时目标检测 (Real-time Object Detection) 领域,性能与效率始终是难以平衡的核心问题。绝大多数现有的 SOTA 方法仅依赖于更先进的模块替换或训练策略,导致性能逐渐趋于饱和。

来自主题: AI技术研报
9484 点击    2024-10-29 13:30
2mm²芯片点亮盲人黑暗世界!马斯克前搭档出手,失明81%也能阅读了

2mm²芯片点亮盲人黑暗世界!马斯克前搭档出手,失明81%也能阅读了

2mm²芯片点亮盲人黑暗世界!马斯克前搭档出手,失明81%也能阅读了

前Neuralink总裁创立的脑机接口公司Science Corporation,正在开发一种名为「Prima」的芯片技术。初步试验结果表明,38名患者中,有81%的患者视力得到了大幅度的改善。几位知名眼科医生都直称:「这是第一个有可能成功恢复AMD患者视力的重大进展!」

来自主题: AI技术研报
8406 点击    2024-10-29 12:19
AutoBA:一个用于生信多组学分析的完全自动化AI代理

AutoBA:一个用于生信多组学分析的完全自动化AI代理

AutoBA:一个用于生信多组学分析的完全自动化AI代理

分享一篇近期由华为和阿卜杜拉国王科技大学合作完成的一项生信分析与大语言模型相结合的工作,相关成果发表在《Advanced Science》上。

来自主题: AI技术研报
3975 点击    2024-10-29 09:53
突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner

突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner

突破时间序列组合推理难题!南加大发布一站式多步推理框架TS-Reasoner

TS-Reasoner是一个创新的多步推理框架,结合了大型语言模型的上下文学习和推理能力,通过程序化多步推理、模块化设计、自定义模块生成和多领域数据集评估,有效提高了复杂时间序列任务的推理能力和准确性。实验结果表明,TS-Reasoner在金融决策、能源负载预测和因果关系挖掘等多个任务上,相较于现有方法具有显著的性能优势。

来自主题: AI技术研报
5104 点击    2024-10-28 18:30
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录

长视频理解迎来新纪元!智源联手国内多所顶尖高校,推出了超长视频理解大模型Video-XL。仅用一张80G显卡处理小时级视频,未来AI看懂电影再也不是难事。

来自主题: AI技术研报
6138 点击    2024-10-28 17:38
陶哲轩神预言!Transformer破解百年三体难题,凭数学直觉找到李雅普诺夫函数

陶哲轩神预言!Transformer破解百年三体难题,凭数学直觉找到李雅普诺夫函数

陶哲轩神预言!Transformer破解百年三体难题,凭数学直觉找到李雅普诺夫函数

Transformer解决了三体问题?Meta研究者发现,132年前的数学难题——发现全局李雅普诺夫函数,可以被Transformer解决了。「我们不认为Transformer是在推理,它可能是出于对数学问题的深刻理解,产生了超级直觉。」AI可以搞基础数学研究了,陶哲轩预言再成真。

来自主题: AI技术研报
9393 点击    2024-10-28 17:29
OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化,不限于推理任务

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化,不限于推理任务

OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化,不限于推理任务

OpenAI-o1替代品来了,大模型能根据任务复杂度进行不同时间的思考。 不限于推理性的逻辑或数学任务,一般问答也能思考的那种。 最近畅销书《Python机器学习》作者Sebastian Raschka推荐了一项新研究,被网友们齐刷刷码住了。

来自主题: AI技术研报
3464 点击    2024-10-28 17:02
一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源

仅需1块80G显卡,大模型理解小时级超长视频。 智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校带来最新成果超长视频理解大模型Video-XL。

来自主题: AI技术研报
3582 点击    2024-10-28 16:52
整合长期记忆,AI实现自我进化,探索大模型这一可能性

整合长期记忆,AI实现自我进化,探索大模型这一可能性

整合长期记忆,AI实现自我进化,探索大模型这一可能性

近日,天桥脑科学研究院和普林斯顿大学等多所研究机构发布了一篇研究论文,详细阐述了长期记忆对 AI 自我进化的重要性,并且他们还提出了自己的实现框架 —— 基于多智能体的 Omne,其在 GAIA 基准上取得了第一名的成绩。

来自主题: AI技术研报
4174 点击    2024-10-28 15:03
世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果

世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果

世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果

近日,极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D,是首个利用世界模型增强 4D 驾驶场景重建效果的工作。

来自主题: AI技术研报
3374 点击    2024-10-28 15:00
NeurIPS 2024 | 消除多对多问题,清华提出大规模细粒度视频片段标注新范式VERIFIED

NeurIPS 2024 | 消除多对多问题,清华提出大规模细粒度视频片段标注新范式VERIFIED

NeurIPS 2024 | 消除多对多问题,清华提出大规模细粒度视频片段标注新范式VERIFIED

视频内容的快速增长给视频检索技术,特别是细粒度视频片段检索(VCMR),带来了巨大挑战。VCMR 要求系统根据文本查询从视频库中精准定位视频中的匹配片段,需具备跨模态理解和细粒度视频理解能力。

来自主题: AI技术研报
4040 点击    2024-10-28 14:46
AI Agent奇点临近

AI Agent奇点临近

AI Agent奇点临近

近日,智谱在公众号陆续放出电脑版本与手机版本的AI Agent实操视频:

来自主题: AI技术研报
7773 点击    2024-10-28 12:41
惊雷又来了,用含义类型化提示MTP:更高效地提示LLM结构化输出,支持图片视频

惊雷又来了,用含义类型化提示MTP:更高效地提示LLM结构化输出,支持图片视频

惊雷又来了,用含义类型化提示MTP:更高效地提示LLM结构化输出,支持图片视频

在人工智能技术快速发展的今天,大语言模型(LLM)已经展现出惊人的能力。然而,让这些模型生成规范的结构化输出仍然是一个难以攻克的技术难题。不论是在开发自动化工具、构建特定领域的解决方案,还是在进行开发工具集成时,都迫切需要LLM能够产生格式严格、内容可靠的输出。

来自主题: AI技术研报
7532 点击    2024-10-28 11:55
NeurIPS 2024 | 如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降

NeurIPS 2024 | 如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降

NeurIPS 2024 | 如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降

扩散模型(Diffusion Models, DMs)已经成为文本到图像生成领域的核心技术之一。凭借其卓越的性能,这些模型可以生成高质量的图像,广泛应用于各类创作场景,如艺术设计、广告生成等。

来自主题: AI技术研报
7372 点击    2024-10-27 16:39
斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

斯坦福开源学术研究神器STORM再进化,AI智能体像人一样进行圆桌讨论

今年 4 月,斯坦福大学推出了一款利用大语言模型(LLM)辅助编写类维基百科文章的神器。它就是开源的 STORM,可以在三分钟左右将你输入的主题转换为长篇文章或者研究论文,并能够以 PDF 格式直接下载。

来自主题: AI技术研报
4266 点击    2024-10-27 15:43