
Llama3比GPT-4o更爱说谎,首个大模型“诚实性”评估基准来了 | 上海交大
Llama3比GPT-4o更爱说谎,首个大模型“诚实性”评估基准来了 | 上海交大评估大模型是否诚实的基准来了!
评估大模型是否诚实的基准来了!
大模型权威测试,翻车了?! HuggingFace都在用的MMLU-PRO,被扒出评测方法更偏向闭源模型,被网友直接在GitHub Issue提出质疑。
四大 VLM,竟都在盲人摸象?
来自佐治亚理工学院和英伟达的两名华人学者带队提出了名为RankRAG的微调框架,简化了原本需要多个模型的复杂的RAG流水线,用微调的方法交给同一个LLM完成,结果同时实现了模型在RAG任务上的性能提升。
WHO 表示,1/3 的癌症可以通过早发现、早治疗得以治愈。
Anthropic首席执行官表示,当前AI模型训练成本是10亿美元,未来三年,这个数字可能会上升到100亿美元甚至1000亿美元。要知道,GPT-4o这个曾经最大的模型也只用了1亿美元。千亿美刀,究竟花在了哪里?
GPT-4o的“AI视频通话”一鸽再鸽,但网友却是急不可耐想要体验。
2024 年,为何期待已久的 AGI 应用大爆发迟迟没有来临?
基于 ChatGPT、LLAMA、Vicuna [1, 2, 3] 等大语言模型(Large Language Models,LLMs)的强大理解、生成和推理能力
OpenAI迟迟不上线GPT-4o语音助手,其它音频生成大模型成果倒是一波接着一波发布,关键还是开源的。