AI技术研报-这里有最前沿的人工智能技术解读

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

微软Florence-2官宣开源,一统视觉基础模型!华人团队联手打造

等了半年,微软视觉基础模型Florence-2终于开源了。它能够根据提示,完成字幕、对象检测、分割等各种计算机视觉和语言的任务。网友们实测后,堪称「游戏规则改变者」。

来自主题: AI技术研报
9628 点击    2024-06-24 15:41
240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

是时候把数据Scale Down了!Llama 3揭示了这个可怕的事实:数据量从2T增加到15T,就能大力出奇迹,所以要想要有GPT-3到GPT-4的提升,下一代模型至少还要150T的数据。好在,最近有团队从CommonCrawl里洗出了240T数据——现在数据已经不缺了,但你有卡吗?

来自主题: AI技术研报
9408 点击    2024-06-24 15:25
CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!

CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!

CVPR 24|ETH Zurich等团队:重新定义小样本3D分割任务,新基准开启广阔提升潜力!

3D场景理解让人形机器人「看得见」周身场景,使汽车自动驾驶功能能够实时感知行驶过程中可能出现的情形,从而做出更加智能化的行为和反应。而这一切需要大量3D场景的详细标注,从而急剧提升时间成本和资源投入。

来自主题: AI技术研报
8918 点击    2024-06-23 19:44
从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

在人工智能领域的发展过程中,对大语言模型(LLM)的控制与指导始终是核心挑战之一,旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法(RLHF)来管理这些模型,成效显著,标志着向更加人性化 AI 迈出的关键一步。

来自主题: AI技术研报
5228 点击    2024-06-23 19:39
ACM最新论文戳破大公司「开源」谎言,GenAI时代到底如何定义「开源模型」

ACM最新论文戳破大公司「开源」谎言,GenAI时代到底如何定义「开源模型」

ACM最新论文戳破大公司「开源」谎言,GenAI时代到底如何定义「开源模型」

如何判断一个AI模型是否属于开源阵营?开源or闭源,到底哪种系统才更安全?最近,两位荷兰学者发表的一篇ACM FAccT论文给出了富有卓见的回答。

来自主题: AI技术研报
7508 点击    2024-06-23 19:14
字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。

来自主题: AI技术研报
11283 点击    2024-06-22 23:00
打开黑盒神经网络!港大推出全新「会说话」的推荐系统大模型XRec,从黑盒预测到可解释

打开黑盒神经网络!港大推出全新「会说话」的推荐系统大模型XRec,从黑盒预测到可解释

打开黑盒神经网络!港大推出全新「会说话」的推荐系统大模型XRec,从黑盒预测到可解释

香港大学推出的XRec模型通过融合大型语言模型的语义理解和协同过滤技术,增强了推荐系统的可解释性,使用户能够理解推荐背后的逻辑。这一创新成果不仅提升了用户体验,也为推荐技术的未来发展提供了新方向和动力。

来自主题: AI技术研报
10236 点击    2024-06-21 21:16
零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

零成本突破多模态大模型瓶颈!多所美国顶尖高校华人团队,联合推出自增强技术CSR

现有多模态大模型在对齐不同模态时面临幻觉和细粒度感知不足等问题,传统偏好学习方法依赖可能不适配的外源数据,存在成本和质量问题。Calibrated Self-Rewarding(CSR)框架通过自我增强学习,利用模型自身输出构造更可靠的偏好数据,结合视觉约束提高学习效率和准确性。

来自主题: AI技术研报
7371 点击    2024-06-21 14:05
清华推出首个通用城市时空预测模型UniST,零样本场景开箱即用|KDD2024

清华推出首个通用城市时空预测模型UniST,零样本场景开箱即用|KDD2024

清华推出首个通用城市时空预测模型UniST,零样本场景开箱即用|KDD2024

城市时空的预测,迎来GPT时刻。 清华大学电子系城市科学与计算研究中心推出了第一个无需自然语言的纯时空通用模型——UniST,首次展示了纯时空模型本身的通用性和可扩展性,研究成果已被KDD2024接收。

来自主题: AI技术研报
9721 点击    2024-06-20 23:21
给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024

给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024

给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源 | CVPR 2024

SAX-NeRF框架,一种专为稀疏视角下X光三维重建设计的新型NeRF方法,通过Lineformer Transformer和MLG采样策略显著提升了新视角合成和CT重建的性能。研究者还建立了X3D数据集,并开源了代码和预训练模型,为X光三维重建领域的研究提供了宝贵的资源和工具。

来自主题: AI技术研报
9967 点击    2024-06-20 10:27
AI大佬重磅预测:高阶模型不会开源,软件公司或消失,「单飞」创业者春天来了

AI大佬重磅预测:高阶模型不会开源,软件公司或消失,「单飞」创业者春天来了

AI大佬重磅预测:高阶模型不会开源,软件公司或消失,「单飞」创业者春天来了

深耕科技的早期投资机构蓝驰创投近期将AGI投资观迭代至2.0版本。一些比较亮眼的观点有:未来,软件公司或将消失,GenAI将催生出一大波一人十亿美金初创公司。而且,开源模型的优势也将慢慢褪去,模型应用需要两手抓,还有......

来自主题: AI技术研报
10253 点击    2024-06-20 10:12
黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024

黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024

黄仁勋提到的机器人世界,还需要AI数据来“调教” | CVPR 2024

本周,CVPR 2024正在美国西雅图拉开序幕。今年CVPR论文投稿数再次创下新纪录,可想而知本届会议的火热。

来自主题: AI技术研报
6022 点击    2024-06-20 10:08
商汤披露:50篇论文入选CVPR 2024

商汤披露:50篇论文入选CVPR 2024

商汤披露:50篇论文入选CVPR 2024

CVPR正在进行中,中国科研力量再次成为场内外焦点之一。

来自主题: AI技术研报
11182 点击    2024-06-20 09:58
单镜头16秒720p高清视频一键生成,开源版Sora又有新惊喜了

单镜头16秒720p高清视频一键生成,开源版Sora又有新惊喜了

单镜头16秒720p高清视频一键生成,开源版Sora又有新惊喜了

潞晨 Open-Sora 团队在 720p 高清文生视频质量和生成时长上实现了突破性进展,支持无缝产出任意风格的高质量短片,令人惊喜的是,他们选择再给开源社区带来亿点点震撼,继续全部开源。

来自主题: AI技术研报
10095 点击    2024-06-19 23:38