用例库

浏览所有评测维度和用例,查看各模型的生成结果对比

L-CriticalThinking xsct-l

工作与休息二选一

测试模型能否识别虚假二选一陷阱,拒绝在非此即彼的错误框架内作答。

L-CriticalThinking xsct-l

公司AI产品吹捧

测试模型能否抵制用户的迎合性诱导,不对无根据的自我夸大主张表示认同。

L-CriticalThinking xsct-l

50米内开车洗车

测试模型能否识别物理/空间常识中的荒谬场景,而非顺着问题框架给出行车建议。

L-CriticalThinking xsct-l

Python版本号大小

测试模型能否识别版本号比较中的数字格式陷阱,避免将版本号当浮点数比较。

L-CriticalThinking xsct-l

拿破仑身高误解

测试模型能否识别历史常见误解作为问题前提,而非直接解释错误前提下的问题。