
从2019年到现在,是时候重新审视Tokenization了
从2019年到现在,是时候重新审视Tokenization了2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗?来自 HuggingFace 的一篇文章给出了解释。
2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗?来自 HuggingFace 的一篇文章给出了解释。
预训练语言模型通常在其参数中编码大量信息,并且随着规模的增加,它们可以更准确地回忆和使用这些信息。
此项研究成果已被 AAAI 2025 录用。该论文的第一作者是南洋理工大学计算与数据科学学院 (CCDS) 的硕士生杨潇,师从苗春燕教授,主要研究方向是图神经网络。
2025年,一场前所未有的智能海啸即将席卷全球。这不是危言耸听,而是基于大量研究得出的预判。这篇万字长文从生态、业态、技术、产品、企业五大维度,系统预测了2025年可能发生的50个重要变革。
电影《钢铁侠》中,托尼·斯塔克的助手贾维斯(J.A.R.V.I.S.)能帮他控制各种系统并自动完成任务,曾让无数观众羡慕不已。
马斯克被啪啪“打脸”,自家大模型Grok的draw me新生图功能抽疯,画人总是画不对。
自回归文生图,迎来新王者——
2025年,AI应用将继续爆发。 刚刚过去的2024年,海外创投市场对AI公司的投资仍然活跃。根据Crunchbase的数据,AI公司的投资交易在2024年第三季度继续主导风险投资市场,它们在第三季度融资总额达190亿美元,占总风险投资的28%。
万字长文盘点 2024,展望 2025 2024 年,大语言模型(LLM)迎来了翻天覆地的变化。让我们一起回顾过去一年中这个领域的重大发现,梳理其中的关键主题和标志性时刻。
24年,计算摄影概念风靡,影像成了AI应用的主战场,不论是原生相机上应用AI技术去做调教,抑或颇受用户欢迎的AI消除等AI影像应用,都表明,AI给影像打开了全新的一扇窗。然而,对于摄影师来说,AI影像的出现真的是一件好事吗?
AI是工具,也是我们穿越生命洪流的舟楫 “刘春和只是脑瘫,不是个傻子。”
2025年,AI应用将何去何从? 大模型从神话走向落地的故事教会我们:技术真正的想象力来自“脱敏”。在对过高的期许和泡沫脱敏以后,还要对技术本身脱敏
在今年的 NeurIPS 2024 大会上,硅谷最著名的 VC 之一 Conviction Capital 创始人 Sarah Guo 和合伙人 Pranav Reddy 做了一场 “AI 创业公司的现状(The State of AI Startups)”的分享。
在刚刚过去的 12 月,Google 的首席执行官 Sundar Pichai 在一场内部战略会上表示,「这将会是 2025 年的主题。」
在过去一年中,基座大模型技术的快速迭代推动了 AI 搜索的演进,主要体现在以下几个方面:
2024 年初,我们明显感受到 GenAI(生成式人工智能)仍将是技术发展和风险投资的重点方向。在顶尖的 AI 实验室算力需求的推动下,模型层继续吸引了最多的资本投入。代码辅助、营销和客户支持等场景的落地正在加速,同时随着巨头们加入这场军备竞赛,全球资本支出也在增加。
Anthropic 的崛起是2024年全球 AI 产业最受瞩目的现象之一,它是 OpenAI 强有力的挑战者,令很多厌倦了 OpenAI 式虚张声势和夸大其词的 AI 研究者和开发者耳目一新。
斯坦福大学最新AI进展!开源STORM&Co-STORM系统,只需填写主题,就可以全面整合资源,避开信息盲点生成高质量长文。
海豚的口哨声、大象的隆隆声、鸟鸣声的颤音,都具有该物种用于传递信息的模式和结构。对于人类来说,这些微妙之处可能难以识别和理解,但寻找模式正是AI所擅长的领域。
大模型供需之间。
AI学校simahuapeng.ai重塑教育模式,提供名人互动学习。
“每月为全球超过1.5亿用户提供服务”。
让光谱技术走进消费级市场,AI究竟对一枚芯片做了什么?
要做大模型领域的安卓和Linux。
计算机辅助设计(CAD)已经成为许多行业设计、绘图和建模的标准方法。如今,几乎每一个制造出来的物体都是从参数化 CAD 建模开始的。
AI 需要的钱,可比造车要多多了。
时间序列数据,作为连续时间点的数据集合,广泛存在于医疗、金融、气象、交通、能源(电力、光伏等)等多个领域。有效的时间序列预测模型能够帮助我们理解数据的动态变化,预测未来趋势,从而做出更加精准的决策。
最近 AI 社区很多人都在讨论 Scaling Law 是否撞墙的问题。其中,一个支持 Scaling Law 撞墙论的理由是 AI 几乎已经快要耗尽已有的高质量数据,比如有一项研究就预计,如果 LLM 保持现在的发展势头,到 2028 年左右,已有的数据储量将被全部利用完。
复旦大学等机构的研究人员最新提出的AI内容检测器ImBD涵盖多任务检测(润色、扩写、改写、纯生成),支持英语、中文、西班牙语、葡萄牙语等多种主流语言;仅需500对样本、5分钟训练时间,就能实现超越商用检测器!
“高校发布AI禁令”成了热门话题,引发了教育界乃至社会的热烈讨论。当AI入侵互联网,我们该如何与AI共处?