我们在复现论文中的Table1表格数据中发现,测试给定PopQA数据集和表格数据在三个不同指标上会有4%-10%左右差距,但是在NQ和TriviaQA数据集上复现的结果和表格上的数据差距在0.2%左右这一点可以理解,想问一下是不是PopQA数据集在之后有过更新?不然为什么相同的配置,其它数据集都能复现结果,但是PopQA数据集差距这么大?当前已经复现了三组实验,每一组都测试三个数据集,都显示在PopQA数据集上显现出各指标有4%-10%左右的差距。
我们在复现论文中的Table1表格数据中发现,测试给定PopQA数据集和表格数据在三个不同指标上会有4%-10%左右差距,但是在NQ和TriviaQA数据集上复现的结果和表格上的数据差距在0.2%左右这一点可以理解,想问一下是不是PopQA数据集在之后有过更新?不然为什么相同的配置,其它数据集都能复现结果,但是PopQA数据集差距这么大?当前已经复现了三组实验,每一组都测试三个数据集,都显示在PopQA数据集上显现出各指标有4%-10%左右的差距。