华盛顿州立大学最新研究：ChatGPT复杂科学判断常自相矛盾可靠性不足

夜下繁华 4 小时前

AI快讯

2026年3月，华盛顿州立大学副教授Mesut Cicek领衔的研究团队发布针对ChatGPT科学判断能力的测试报告。团队选取2021年以来商业期刊已验证的719条研究假设反复测试，发现ChatGPT表面正确率达80%，但剔除随机猜测因素后真实表现仅略高于抛硬币概率，假命题识别率仅16.4%，10次重复提问的回答一致性仅约73%。

近年来，以OpenAI旗下ChatGPT为代表的大语言模型已经渗透到科研工作的多个环节，从文献梳理、思路推导到结论验证，都有不少用户选择用AI提升效率。但不同于文字创作、信息检索类需求，科研领域的判断对准确性、一致性要求极高，而此前行业对于大模型在这类场景下的真实表现，一直没有系统的量化结论。

不少用户都有过类似体验：同一个专业问题问ChatGPT两次，得到的答案完全相反，但两次的回答都语气笃定、逻辑通顺，很难分辨哪次是对的。这次华盛顿州立大学的研究，恰好把这种用户感知量化成了具体数据。

Mesut Cicek团队的测试样本全部选取自2021年以来公开发表的商业期刊，719条研究假设均已经过学界验证，有明确的真伪结论。为了排除单次回答的偶然性，团队将每一条假设都向ChatGPT提交了10次，要求其判断真伪。

测试结果显示，ChatGPT的回答整体呈现出“高自信、低可靠”的特征：表面正确率约为80%，看起来表现尚可，但剔除随机猜测的概率因素后，其真实判断能力仅比50%的“掷硬币”概率高出约60%，研究者将其评价为仅能拿到D等的低分成绩。

更值得关注的是模型的错误识别能力和回答一致性：ChatGPT对假命题的正确识别率仅为16.4%，也就是说超过八成的错误科学论断，都会被它判定为正确；而10次重复提问中，模型仅在73%的案例中保持结论一致，剩下超过四分之一的场景下，都会出现前后矛盾的回答，且两次回答的语气都同样笃定，普通用户很难甄别对错。

这项研究也给当前火热的AI科研应用提了醒：现阶段大语言模型的生成逻辑仍然以概率匹配为核心，并没有建立起严谨的科学推理框架，在涉及前沿科学判断、真伪验证这类高严谨性需求时，还不能作为独立的判断工具使用。

业内人士指出，后续大模型的迭代可以针对科研场景做定向优化，比如引入事实校验模块、提升回答的一致性，同时普通用户也需要建立对AI能力的合理认知，在专业领域保留人工校验环节，避免被AI的矛盾、错误回答误导。

ChatGPT 大语言模型人工智能 AI科研应用科学判断

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

所属分类

AI快讯

Prompt Advance

ChatGPT垂直资讯周报订阅

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

Adsturbo

AI快速生成高转化广告创意工具

Trainn

SaaS客户教育零代码工具

Rubii.ai

AI角色聊天与艺术创作平台

Nextbrowser

AI营销社媒自动化浏览器

Van Gogh Free AI Video Generator

免费AI图文转高清视频创作工具