测试显示谷歌AI摘要错误率约10% 新版Gemini准确率达91%
发布时间:2026-04-08 14:54:18 浏览量:2
【CNMO科技消息】近日,美国日报《纽约时报》与AI初创公司Oumi近期发布的一项分析称,谷歌搜索的新AI摘要功能“AI Overviews”在约90%的情况下能给出正确答案,但每十个回答中仍有一个出现错误。
Gemini
据介绍,该调查基于名为SimpleQA的标准化测试。SimpleQA包含超过4000个可验证问题,用于评估AI模型的事实准确性。测试结果显示,谷歌Gemini模型新版本的准确率约为91%,相比旧版本约85%的正确率有所提升,但错误回答比例仍然存在。
分析指出,在搜索规模达到每日数十亿次的背景下,约10%的错误率可能带来更广泛影响。报告列举了多个案例:在回答“Bob Marley故居何时成为博物馆”时,AI摘要引用了多个来源,但仅有一个来源包含相关信息,且最终仍选择了错误日期;另一个案例中,AI摘要虽正确识别大提琴家Yo-Yo Ma,但同时错误声称不存在“Classical Music Hall of Fame(古典音乐名人堂)”。
谷歌方面对部分批评作出回应。公司发言人表示,外部测试所用题目可能存在错误或提问方式不切实际;谷歌内部采用更严格的评估方法,并使用经过更好验证的数据集。发言人同时提到,系统会根据不同搜索查询调用不同模型变体,包括性能更强但速度较慢的版本,以及速度更快但精确度可能更低的系统。
该分析还提到,评估AI系统本身存在难度:同一问题多次提问可能得到不同结果,且部分测试流程依赖AI工具,也可能引入误差。谷歌在每份AI摘要末尾提示“AI可能会犯错”。分析指出,用户往往倾向直接信任AI生成答案,因此建议在必要时核对原始来源并保持审慎判断。
