2026年3月,华盛顿州立大学副教授Mesut Cicek领衔的研究团队发布针对ChatGPT科学判断能力的测试报告。团队选取2021年以来商业期刊已验证的719条研究假设反复测试,发现ChatGPT表面正确率达80%,但剔除随机猜测因素后真实表现仅略高于抛硬币概率,假命题识别率仅16.4%,10次重复提问的回答一致性仅约73%。
近年来,以OpenAI旗下ChatGPT为代表的大语言模型已经渗透到科研工作的多个环节,从文献梳理、思路推导到结论验证,都有不少用户选择用AI提升效率。但不同于文字创作、信息检索类需求,科研领域的判断对准确性、一致性要求极高,而此前行业对于大模型在这类场景下的真实表现,一直没有系统的量化结论。
不少用户都有过类似体验:同一个专业问题问ChatGPT两次,得到的答案完全相反,但两次的回答都语气笃定、逻辑通顺,很难分辨哪次是对的。这次华盛顿州立大学的研究,恰好把这种用户感知量化成了具体数据。
Mesut Cicek团队的测试样本全部选取自2021年以来公开发表的商业期刊,719条研究假设均已经过学界验证,有明确的真伪结论。为了排除单次回答的偶然性,团队将每一条假设都向ChatGPT提交了10次,要求其判断真伪。
测试结果显示,ChatGPT的回答整体呈现出“高自信、低可靠”的特征:表面正确率约为80%,看起来表现尚可,但剔除随机猜测的概率因素后,其真实判断能力仅比50%的“掷硬币”概率高出约60%,研究者将其评价为仅能拿到D等的低分成绩。
更值得关注的是模型的错误识别能力和回答一致性:ChatGPT对假命题的正确识别率仅为16.4%,也就是说超过八成的错误科学论断,都会被它判定为正确;而10次重复提问中,模型仅在73%的案例中保持结论一致,剩下超过四分之一的场景下,都会出现前后矛盾的回答,且两次回答的语气都同样笃定,普通用户很难甄别对错。
这项研究也给当前火热的AI科研应用提了醒:现阶段大语言模型的生成逻辑仍然以概率匹配为核心,并没有建立起严谨的科学推理框架,在涉及前沿科学判断、真伪验证这类高严谨性需求时,还不能作为独立的判断工具使用。
业内人士指出,后续大模型的迭代可以针对科研场景做定向优化,比如引入事实校验模块、提升回答的一致性,同时普通用户也需要建立对AI能力的合理认知,在专业领域保留人工校验环节,避免被AI的矛盾、错误回答误导。

1 小时前
当前全球超过62%的科技企业已启动AI智能体落地部署,过往针对大模型的静态基准测试已无法覆盖智能体的真实落地需求。InfoWorld最新行业分析指出,AI评估(AI Evals)已成为构建高效AI智能体的新刚需,其中针对交互层的专项测评,是决定用户是否信任智能体交付结果的核心指标。

1 小时前
图形数据库龙头厂商Neo4j近日正式推出端到端AI Agent开发部署平台Aura Agent,该平台支持开发者通过低代码工具、代码自动生成能力快速构建AI Agent,同时可直接对接原生知识图谱能力,大幅降低生产级AI Agent的开发门槛,缓解大模型幻觉、私有知识库适配复杂等行业普遍痛点。

2 小时前
2026年3月19日,AI企业Anthropic正式推出Claude 3.6系列更新版本Sonnet 4.6,强化编程与自动化能力,支持100万token上下文窗口,核心战略从大模型提供商转向智能体平台,瞄准企业级AI市场。不过本次重磅发布并未获得全正面反馈,Anthropic因与开源框架OpenClaw的版权争议陷入公关危机,新品声量被大幅分流。

3 小时前
2026年3月18日,心灵鸡汤出版社发起版权侵权诉讼,将苹果、Meta、xAI、谷歌、Anthropic、OpenAI、Perplexity、英伟达等全球顶尖科技巨头列为被告,指控上述企业使用含大量盗版书籍的The Pile数据集训练AI模型,核心争议点为数据集中的Books3模块涉...

4 小时前
据《华尔街日报》2026年3月报道,尽管苹果自有大模型研发进度落后于谷歌、微软等行业头部企业,但其依托iPhone等硬件生态的应用商店抽成模式,预计2026年AI相关收入将突破10亿美元。其中生成式AI应用佣金的75%由OpenAI旗下ChatGPT贡献,马斯克旗下Grok占比约5%,该业务的高利润率特征受到投资者高度关注。

4 小时前
据《华尔街日报》2026年3月披露,尽管苹果在原生AI技术迭代上落后于OpenAI、谷歌等行业头部玩家,但其凭借iOS生态的硬件入口优势,2026年AI相关营收将突破10亿美元。该收入主要来自ChatGPT、X等AI服务的iOS端订阅分成,而非Siri等自研AI产品的商业化,目前iOS端AI服务订阅首年抽成比例达30%。

4 小时前
2026年3月19日,小米正式发布三款自研MiMo-V2系列大模型,覆盖旗舰基座、多模态、语音合成多个场景,其中MiMo-V2-Pro参数量达1万亿,位列全球大模型综合智能排行榜第八。小米创始人雷军宣布,2026年小米在AI领域的研发及资本投入将超160亿元,全面布局智能体时代。

6 小时前
2026年3月19日,小米集团创始人雷军公开回应公司大模型业务进展,披露小米自研万亿参数大模型Mimo-V2-Pro在全球权威大模型综合智能排行榜Artificial Analysis的排名中,综合位列全球第八,按所属品牌计算小米跻身全球前五,性能超过马斯克旗下xAI的Grok模型,同时小米同步开放两款大模型API服务。