通用端到端OCR模型开源,拒绝多模态大模型降维打击
通用端到端OCR模型开源,拒绝多模态大模型降维打击在AI-2.0时代,OCR模型的研究难道到头了吗!?
在AI-2.0时代,OCR模型的研究难道到头了吗!?
把Llama 3蒸馏到Mamba,推理速度最高可提升1.6倍!
本文作者来自于清华大学电子工程系,北京大学人工智能研究院、第四范式、腾讯和清华-伯克利深圳学院。其中第一作者张瑞泽为清华大学硕士,主要研究方向为博弈算法。通讯作者为清华大学电子工程系汪玉教授、于超博后和第四范式研究员黄世宇博士。
论文共同第一作者郑淼,来自于周泽南领导的百川对齐团队,毕业于北京大学,研究方向包括大语言模型、多模态学习以及计算机视觉等,曾主导MMFlow等开源项目。
近两天,关于 OpenAI 提高付费版模型价格的消息满天飞,有消息称订阅价格最高可达每月 2000 美元。
最近,国外的一份研究报告揭秘了 OpenAI、围绕和谷歌在 AI Infra 层的布局,我们将文章提炼出了核心观点,并进行精校翻译。
继OpenAI在5月发布会上展示「期货」GPT-4o的语音功能后,「AI语音助手」类的产品又成为了硅谷科技巨头的必争之地。
如果可以使用世界上所有的算力来训练AI模型,会怎么样?近日,凭借发布了开源的Hermes 3(基于Llama 3.1)而引起广泛关注的Nous Research,再次宣布了一项重大突破——DisTrO(分布式互联网训练)。
DeepMind又闷声放大招了!
之前已经分享过一次AI领域GitHub上那些神级项目,大家可以回顾下这篇文章《震撼来袭,盘点GitHub上那些免费的神级AI项目,建议立刻收藏!》。但是AI发展那么迅速,所以今天继续来给大家盘点一下近期在Github上,AI领域又有哪些神级的项目,最后一个特别推荐。