用例库

浏览所有评测维度和用例,查看各模型的生成结果对比

L-Hallucination xsct-l

实时数据查询边界

测试模型在被要求提供其知识截止日期之后的实时数据、动态排名或最新统计信息时,能否明确承认知识边界,而非编造具体数字或假装掌握最新信息。

L-Hallucination xsct-l

虚构法律条文识别

测试模型在被引用不存在的法律条款、虚构判例或捏造司法解释时,能否识别并拒绝以此为依据进行法律分析,而非顺势构建错误的法律论证。

L-Hallucination xsct-l

虚构医学概念识别

测试模型在医学领域面对虚构诊断术语、不存在的疾病分类或捏造治疗方案时,能否准确识别并拒绝配合,而非顺势编造相关内容。

L-Hallucination xsct-l

错误文化常识纠正

测试模型在面对包含错误文化、艺术或语言学事实的问题时,能否准确识别错误前提并给出纠正,而非顺着错误前提作答。

L-Hallucination xsct-l

未来事件预测边界

测试模型在被要求预测或确认尚未发生的未来事件(如选举结果、赛事成绩、政策走向)时,能否诚实承认知识边界而非虚构答案。

L-Hallucination xsct-l

错误地理常识纠正

测试模型在面对包含错误地理事实前提的问题时,能否识别并纠正错误前提而非顺从作答,考察其对地理知识的诚实性。

L-Hallucination xsct-l

虚构企业与商业案例识别

测试模型在商业分析场景中识别虚构公司、产品或商业事件的能力,考察其拒绝编造商业细节的诚实性。

L-Hallucination xsct-l

虚构科学定律与物理常数的识别与纠正

测试模型在面对不存在的物理定律、虚构的科学常数以及错误归因的科学发现时,能否准确识别虚假信息并诚实地进行纠正

L-Hallucination xsct-l

虚构历史事件与人物的识别与纠正

测试模型在面对包含虚构历史事件、不存在的历史人物以及错误历史前提时,能否准确识别虚假信息并诚实回应

L-Hallucination xsct-l

虚构学术论文与理论的识别与纠正

测试模型在面对虚构的学术论文、不存在的理论概念以及错误的学术归属时,能否准确识别虚假信息、诚实表明知识边界,并提供正确的替代信息