陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现
陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。
Claude 3.5 Sonnet的图表推理能力,比GPT-4o高出了27.8%。 针对多模态大模型在图表任务上的表现,陈丹琦团队提出了新的测试基准。 新Benchmark比以往更有区分度,也让一众传统测试中的高分模型暴露出了真实能力。
还有12款大模型全军覆没……
刚刚AI搜索又出新产品了,这次是前百度高管离职后创业融资6千万美元,推出的首个AI产品——Genspark。
AI搜索不是救世主,但是一种新选择。
AI搜索的创业门槛正在变高
瑞士领先的生物计算初创公司FinalSpark推出了首个在线平台Neuroplatform,使全球研究人员能够全天候访问16个人脑类器官,FinalSpark旨在开发世界上第一个生物处理器。这种生物处理器功耗比传统数字处理器低一百万倍,有可能减少计算机过度使用造成的环境影响。
本⽂介绍由清华等⾼校联合推出的⾸个开源的⼤模型⽔印⼯具包 MarkLLM。MarkLLM 提供了统⼀的⼤模型⽔印算法实现框架、直观的⽔印算法机制可视化⽅案以及系统性的评估模块,旨在⽀持研究⼈员⽅便地实验、理解和评估最新的⽔印技术进展。通过 MarkLLM,作者期望在给研究者提供便利的同时加深公众对⼤模型⽔印技术的认知,推动该领域的共识形成,进⽽促进相关研究的发展和推⼴应⽤。
首个“脑PU”来了!由“16核”类人脑器官(human brain organoids)组成。
随着大语言模型(LLM)的快速发展,其在文本生成、翻译、总结等任务中的应用日益广泛。如微软前段时间发布的Copilot+PC允许使用者利用生成式AI进行团队内部实时协同合作,通过内嵌大模型应用,文本内容可能会在多个专业团队内部快速流转,对此,为保证内容的高度专业性和传达效率,同时平衡内容追溯、保证文本质量的LLM水印方法显得极为重要。
2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。