
GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划
GPT-4/Gemini大翻车,做旅行攻略成功率≈0%!复旦OSU等华人团队:Agent不会复杂任务规划最近,复旦、俄亥俄州立大学、Meta和宾夕法尼亚州立大学的研究者发现,GPT-4 Agent规划旅行只有0.6%成功率!离在人类复杂环境中做出规划,智能体还任重道远。
最近,复旦、俄亥俄州立大学、Meta和宾夕法尼亚州立大学的研究者发现,GPT-4 Agent规划旅行只有0.6%成功率!离在人类复杂环境中做出规划,智能体还任重道远。
GPT-4变懒的问题,又有新进展。就在今天凌晨,奥特曼发推称,GPT-4这个毛病在新的一年应该好多了!
ChatGPT 等通用大模型支持的功能成百上千,但是对于普通日常用户来说,智能写作一定是最常见的,也是大模型最能真正帮上忙的使用场景之一。
也许,谷歌此举是为了提前应对 OpenAI 可能于今年推出的 GPT-4.5 或 GPT-5。
一周前,OpenAI 给广大用户发放福利,在下场修复 GPT-4 变懒的问题后,还顺道上新了 5 个新模型,其中就包括更小且高效的 text-embedding-3-small 嵌入模型。
就在刚刚,全新升级4.0的日日新大模型发布!不仅如此,商汤还抢先OpenAI首发了支持不同模态工具调用的Assistants API!现在,超千万的中文开发者可以轻松玩转「文生图」和「图生文」了。
华中科技大学联合华南理工大学、北京科技大学等机构的研究人员对14个主流多模态大模型进行了全面测评,涵盖5个任务,27个数据集。
来自UCLA的华人团队提出一种全新的LLM自我对弈系统,能够让LLM自我合成数据,自我微调提升性能,甚至超过了用GPT-4作为专家模型指导的效果。
Mistral-Medium竟然意外泄露?此前仅能通过API获得,性能直逼GPT-4。
过去几个月中,随着 GPT-4V、DALL-E 3、Gemini 等重磅工作的相继推出,「AGI 的下一步」—— 多模态生成大模型迅速成为全球学者瞩目的焦点。