测试显示谷歌AI摘要错误率约10% 新版Gemini准确率达91%

发布时间：2026-04-08 14:54:18 浏览量：2

【CNMO科技消息】近日，美国日报《纽约时报》与AI初创公司Oumi近期发布的一项分析称，谷歌搜索的新AI摘要功能“AI Overviews”在约90%的情况下能给出正确答案，但每十个回答中仍有一个出现错误。

Gemini

据介绍，该调查基于名为SimpleQA的标准化测试。SimpleQA包含超过4000个可验证问题，用于评估AI模型的事实准确性。测试结果显示，谷歌Gemini模型新版本的准确率约为91%，相比旧版本约85%的正确率有所提升，但错误回答比例仍然存在。

分析指出，在搜索规模达到每日数十亿次的背景下，约10%的错误率可能带来更广泛影响。报告列举了多个案例：在回答“Bob Marley故居何时成为博物馆”时，AI摘要引用了多个来源，但仅有一个来源包含相关信息，且最终仍选择了错误日期；另一个案例中，AI摘要虽正确识别大提琴家Yo-Yo Ma，但同时错误声称不存在“Classical Music Hall of Fame（古典音乐名人堂）”。

谷歌方面对部分批评作出回应。公司发言人表示，外部测试所用题目可能存在错误或提问方式不切实际；谷歌内部采用更严格的评估方法，并使用经过更好验证的数据集。发言人同时提到，系统会根据不同搜索查询调用不同模型变体，包括性能更强但速度较慢的版本，以及速度更快但精确度可能更低的系统。

该分析还提到，评估AI系统本身存在难度：同一问题多次提问可能得到不同结果，且部分测试流程依赖AI工具，也可能引入误差。谷歌在每份AI摘要末尾提示“AI可能会犯错”。分析指出，用户往往倾向直接信任AI生成答案，因此建议在必要时核对原始来源并保持审慎判断。