少找工具,多做创作

华盛顿州立大学最新研究:ChatGPT复杂科学判断常自相矛盾 可靠性不足

2026年3月,华盛顿州立大学副教授Mesut Cicek领衔的研究团队发布针对ChatGPT科学判断能力的测试报告。团队选取2021年以来商业期刊已验证的719条研究假设反复测试,发现ChatGPT表面正确率达80%,但剔除随机猜测因素后真实表现仅略高于抛硬币概率,假命题识别率仅16.4%,10次重复提问的回答一致性仅约73%。

近年来,以OpenAI旗下ChatGPT为代表的大语言模型已经渗透到科研工作的多个环节,从文献梳理、思路推导到结论验证,都有不少用户选择用AI提升效率。但不同于文字创作、信息检索类需求,科研领域的判断对准确性、一致性要求极高,而此前行业对于大模型在这类场景下的真实表现,一直没有系统的量化结论。

不少用户都有过类似体验:同一个专业问题问ChatGPT两次,得到的答案完全相反,但两次的回答都语气笃定、逻辑通顺,很难分辨哪次是对的。这次华盛顿州立大学的研究,恰好把这种用户感知量化成了具体数据。

Mesut Cicek团队的测试样本全部选取自2021年以来公开发表的商业期刊,719条研究假设均已经过学界验证,有明确的真伪结论。为了排除单次回答的偶然性,团队将每一条假设都向ChatGPT提交了10次,要求其判断真伪。

测试结果显示,ChatGPT的回答整体呈现出“高自信、低可靠”的特征:表面正确率约为80%,看起来表现尚可,但剔除随机猜测的概率因素后,其真实判断能力仅比50%的“掷硬币”概率高出约60%,研究者将其评价为仅能拿到D等的低分成绩。

更值得关注的是模型的错误识别能力和回答一致性:ChatGPT对假命题的正确识别率仅为16.4%,也就是说超过八成的错误科学论断,都会被它判定为正确;而10次重复提问中,模型仅在73%的案例中保持结论一致,剩下超过四分之一的场景下,都会出现前后矛盾的回答,且两次回答的语气都同样笃定,普通用户很难甄别对错。

这项研究也给当前火热的AI科研应用提了醒:现阶段大语言模型的生成逻辑仍然以概率匹配为核心,并没有建立起严谨的科学推理框架,在涉及前沿科学判断、真伪验证这类高严谨性需求时,还不能作为独立的判断工具使用。

业内人士指出,后续大模型的迭代可以针对科研场景做定向优化,比如引入事实校验模块、提升回答的一致性,同时普通用户也需要建立对AI能力的合理认知,在专业领域保留人工校验环节,避免被AI的矛盾、错误回答误导。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯
AI小创