 在测试的大多数过程中模型并没有对问题进行重写,始终提问同一个问题,导致即使多轮检索,模型推理几乎毫无进展。测试hotpotqa数据集的时候发现效果比较差,很难正确回答问题。请问这种情况是什么原因呢?使用的模型是在hugging face上下的微调模型,也确实在过程中进行了信息分析和问题重写,但是效果比较差,是有其他地方设置有问题吗?
在测试的大多数过程中模型并没有对问题进行重写,始终提问同一个问题,导致即使多轮检索,模型推理几乎毫无进展。测试hotpotqa数据集的时候发现效果比较差,很难正确回答问题。请问这种情况是什么原因呢?使用的模型是在hugging face上下的微调模型,也确实在过程中进行了信息分析和问题重写,但是效果比较差,是有其他地方设置有问题吗?