如: https://github.com/Felixgithub2017/MMCU/blob/a506f23579e8a6efdcd2aadf16fb5b2aa09b379e/test_results/gpt3.5turbo_test_results_0512/zero_shot/%E5%AF%84%E7%94%9F%E8%99%AB%E5%AD%A6100%E9%A2%98#L97 所示,模型的预测可能选项正确但顺序不对,答案中也有选项顺序不对的情况。所以评测脚本是不是应该在判断选项正确之前sort一下预测和答案?