
大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024
大模型性能掺水严重?北大交出答卷:交互评估+动态出题,死记硬背也没用 | ACL 2024当前大语言模型(LLM)的评估方法受到数据污染问题的影响,导致评估结果被高估,无法准确反映模型的真实能力。北京大学等提出的KIEval框架,通过知识基础的交互式评估,克服了数据污染的影响,更全面地评估了模型在知识理解和应用方面的能力。
当前大语言模型(LLM)的评估方法受到数据污染问题的影响,导致评估结果被高估,无法准确反映模型的真实能力。北京大学等提出的KIEval框架,通过知识基础的交互式评估,克服了数据污染的影响,更全面地评估了模型在知识理解和应用方面的能力。
神经网络通常由三部分组成:线性层、非线性层(激活函数)和标准化层。线性层是网络参数的主要存在位置,非线性层提升神经网络的表达能力,而标准化层(Normalization)主要用于稳定和加速神经网络训练,很少有工作研究它们的表达能力,例如,以Batch Normalization为例
在盖茨眼里,AI对于计算机交互的革命还没来到,但是Scaling Law似乎已经看到尽头了。
Gen-3 Alpha终于开启测试了!第一时间拿到内测资格的网友们,纷纷放出各种炸裂的demo,看得出Gen-3在生成质量完全跃升。不过,模型有时无法理解物理世界的缺陷,依然存在。
本文根据极客公园创始人&总裁 张鹏在 Founder Park AGI Palyground 2024 上的演讲整理。
自从大模型爆火以来,语义检索也逐渐成为一项热门技术。尤其是在 RAG(retrieval augmented generation)应用中,检索结果的相关性直接决定了 AI 生成的最终效果。
字节跳动探索AI硬件业务,屡试不舍。
背后“包工头”,身价估值过百亿美元。
MSK领域AI结合数字医疗方案快速发展。
前Meta老将开发蛋白质生成式AI模型 ESM3。