大模型架构创新已死?
大模型架构创新已死?一场围绕大模型自研和创新的讨论,这两天在技术圈里炸了锅。起初,前阿里技术VP贾扬清,盆友圈爆料吐槽:有大厂新模型就是LLaMA架构,但为了表示不同,通过改变开源代码名字、替换几个变量名……
一场围绕大模型自研和创新的讨论,这两天在技术圈里炸了锅。起初,前阿里技术VP贾扬清,盆友圈爆料吐槽:有大厂新模型就是LLaMA架构,但为了表示不同,通过改变开源代码名字、替换几个变量名……
刚刚,英伟达发布了目前世界最强的AI芯片H200,性能较H100提升了60%到90%,还能和H100兼容。算力荒下,大科技公司们又要开始疯狂囤货了。
最近微软一项研究让Llama 2选择性失忆了,把哈利波特忘得一干二净。 现在问模型“哈利波特是谁?”,它的回答是这样婶儿的:
中国科学院物理研究所/北京凝聚态物理国家研究中心SF10组和中国科学院计算机网络信息中心共同合作,将AI大模型应用于材料科学领域,将数万个化学合成路径数据投喂给大语言模型LLAMA2-7b,从而获得了MatChat模型
「AI灭绝人类」的全球讨论继续升级,Sam Altman在剑桥活动现场被抗议者当面抵制!而LeCun、吴恩达的「开源派」和Bengio、马库斯的 「毁灭派」,也纷纷甩出言辞恳切的联名信,继续征集签名中。
近日,“机器翻译峰会MTS2023”在中国澳门圆满落幕。在会上举办的第一届古汉语机器翻译竞赛(EvaHan2023)中,华南理工大学电子与信息学院的金连文教授团队提出基于大语言模型(LLM)的方案在比赛中较大优势获得冠军。
伦敦皇家协会举办了一场由40名科学家参与的攻克AI模型安全系统的活动,目的是发现漏洞让世人知道目前AI的技术风险
继CodeLlama开源之后,北大等机构正式开源了性能更强的代码基座大模型CodeShell-7B和代码助手CodeShell-Chat。不仅如此,团队还把方便易用的IDE插件也开源了!
斯坦福大学的研究人员公布了一套 "基础模型透明度指数"评分系统,目的是让大家对AI模型有更深的了解
这两天,FlashAttention团队推出了新作: 一种给Transformer架构大模型推理加速的新方法,最高可提速8倍。 该方法尤其造福于长上下文LLM,在64k长度的CodeLlama-34B上通过了验证