玩海龟汤、弹钢琴、怼亲戚,大语言模型不想干的我们都测了一遍
发布时间:2025-04-30 09:00:24 浏览量:129
比起各种大模型BenchMark,不如来比比生活中真正会遇到的离谱问题。最近测试了多个新发布的大语言模型,通过一些趣味活动如海龟汤推理游戏、钢琴演奏和回应亲戚的视频观点,来评测这些模型的推理和应用能力。
发布时间:2025-04-30 09:00:24 浏览量:129
比起各种大模型BenchMark,不如来比比生活中真正会遇到的离谱问题。最近测试了多个新发布的大语言模型,通过一些趣味活动如海龟汤推理游戏、钢琴演奏和回应亲戚的视频观点,来评测这些模型的推理和应用能力。
山西大剧院大剧场
人民大会堂
苏州文化艺术中心-大剧院
世纪剧院
汇源空间(位于乐视体育生态中心内)