XSCT Bench 大模型评测排行榜

基于真实场景的 AI 大模型能力评测与排名

了解更多

什么是 XSCT Bench?

XSCT Bench 是一个独立运营的场景化大模型评测平台。我们通过真实业务场景测试,帮助用户找到最适合自己需求的 AI 模型。评测覆盖文本生成、图像生成、网页生成、视觉理解等多个维度。

当前排行榜

以下是各 AI 模型在综合、基础、进阶、困难四个维度的评分排名:

前 20 名模型

  1. kimi-k2.6 - 综合:91.0 分 - 基础:91.3 分 - 进阶:90.9 分 - 困难:90.8 分
  2. Anthropic: Claude Sonnet 4.6 - 综合:90.2 分 - 基础:90.7 分 - 进阶:90.2 分 - 困难:89.8 分
  3. Claude Opus 4.6 - 综合:89.6 分 - 基础:91.2 分 - 进阶:89.6 分 - 困难:88.1 分
  4. qwen3.6-plus-preview - 综合:88.3 分 - 基础:89.8 分 - 进阶:88.1 分 - 困难:87.2 分
  5. GLM-5.1 - 综合:88.1 分 - 基础:89.1 分 - 进阶:88.0 分 - 困难:87.3 分
  6. kimi-k2.5 - 综合:88.0 分 - 基础:89.5 分 - 进阶:87.8 分 - 困难:86.8 分
  7. GLM-5v-turbo - 综合:87.7 分 - 基础:89.0 分 - 进阶:87.4 分 - 困难:86.5 分
  8. Google: Gemma 4 26B A4B - 综合:87.4 分 - 基础:88.6 分 - 进阶:87.4 分 - 困难:86.3 分
  9. OpenAI: GPT-5.4 - 综合:87.1 分 - 基础:87.5 分 - 进阶:87.2 分 - 困难:86.7 分
  10. Claude Opus 4 7 - 综合:87.0 分 - 基础:88.1 分 - 进阶:86.9 分 - 困难:86.1 分
  11. kimi-k2-thinking-turbo - 综合:86.7 分 - 基础:87.7 分 - 进阶:86.5 分 - 困难:86.1 分
  12. GPT-5.2 - 综合:86.3 分 - 基础:86.8 分 - 进阶:86.3 分 - 困难:85.7 分
  13. qwen3.5-plus-2026-02-15 - 综合:86.3 分 - 基础:88.3 分 - 进阶:86.1 分 - 困难:84.5 分
  14. Google: Gemini 3.1 Pro Preview - 综合:86.1 分 - 基础:87.7 分 - 进阶:85.9 分 - 困难:84.8 分
  15. glm-5-turbo - 综合:85.8 分 - 基础:87.2 分 - 进阶:85.6 分 - 困难:84.7 分
  16. Google: Gemma 4 31B - 综合:85.5 分 - 基础:87.3 分 - 进阶:85.3 分 - 困难:83.8 分
  17. Elephant - 综合:85.4 分 - 基础:87.4 分 - 进阶:85.1 分 - 困难:83.9 分
  18. qwen3.5-omni-plus - 综合:85.3 分 - 基础:87.0 分 - 进阶:85.0 分 - 困难:84.1 分
  19. mimo-v2-pro - 综合:84.7 分 - 基础:86.7 分 - 进阶:84.4 分 - 困难:83.1 分
  20. Qwen: Qwen3.5-9B - 综合:84.6 分 - 基础:86.7 分 - 进阶:84.4 分 - 困难:82.9 分
AI 选型顾问

帮我挑模型

告诉我你在做什么产品、要实现什么功能,
我帮你找最合适的模型。

写营销文案 生成产品图 写代码 看图理解 生成网页 知识库问答
场景化评测榜

性价比
选型榜。

基于真实产品用例,综合评估能力与成本,
帮你找到最适合自己场景的那一个。

查看完整榜单
综合排名 基于 164,040 次评测
🥇 kimi-k2.6
91.0
🥈 Anthropic: Claude Sonnet 4.6
90.2
🥉 Claude Opus 4.6
89.6
4 qwen3.6-plus-preview
88.3
5 GLM-5.1
88.1
还有 72 个模型
加载中…
爽看图 HOT

同一 Prompt,
差距一目了然。

横向对比各大模型在同一道题上的真实生成结果,眼见为实。

进入爽看图

XSCT BENCH 是什么

帮你找到业务场景下
最具性价比的模型

找到你场景的 Product Model Fit——而不仅仅是刷分。
综合榜单只能告诉你谁得分高,却无法告诉你哪个适合你的场景。
你可以直接搜索最接近你需求的用例,看不同模型的真实输出,再结合成本做判断

帮我挑模型 告诉 AI 你的需求,它帮你找最合适的 爽看图 同一 Prompt,横向对比各模型生成的图 看用例库 浏览真实测试题目和各模型的回答
模型榜单
排序:
综合能力评估(基础×30% + 进阶×40% + 困难×30%)

综合得分 vs 成本

平均得分 vs 平均成本 (USD) · 点击图例隐藏/显示

最具性价比象限
点击图表以启用滚轮缩放和拖拽

评分说明

榜单分数仅统计由系统发起的评测任务。社区用户自行发起的评测结果仅用于个人调试与对比,不计入总分与榜单。

基础进阶困难 基础、进阶、困难 分别代表三个难度层级任务的加权得分。综合 = 基础×30% + 进阶×40% + 困难×30%,满分 100 分,60 分为及格线。

我们采用 LLM-as-a-Judge 方法进行评分,每个测试用例按多个独立维度分别评分后加权汇总。通过证据锚定、难度分层、双轨评审等策略消除常见偏见,确保评分可解释、可追溯。

查看完整方法论

评测声明

本榜单所有评测结果均由自动化测试流程生成,采用 LLM-as-a-Judge 方法进行评分。评测结果仅供参考,不代表对任何模型的官方评价或商业背书。

评测数据基于特定用例和评分策略,可能无法全面反映模型在所有场景下的表现;模型能力会随版本更新而变化,历史评测结果不代表当前版本水平。

本平台与各模型提供商无任何商业关系,评测过程独立进行。

如对评测结果有异议,欢迎通过官方渠道反馈。

XSCT 开源数据集