博客
XSCT Bench 博客,涵盖系统更新、技术分享和重要公告。
文章分类
当前分类:model
-
模型覆盖说明
发布时间:2026-04-01
分类:模型资讯
作者:洛小山
模型覆盖说明 XSCT Arena 持续接入主流大模型,覆盖语言、代码、图像生成、多模态等多种类型,所有模型均经过统一评测标准打分,结果公开可查。 本文档记录各模型的上线时间,方便了解平台的模型覆盖进展。 --- 当前覆盖模型 语言模型 | 模型 | 厂商 | 上线日期 | |------|------|----------| | Qwen3.6-Plus-Preview | 阿里云 |...
阅读全文 -
GPT-Image-2 全量上线,中文顶到爆,50+ Case 生图实测
发布时间:2026-04-21
分类:模型资讯
作者:赛博禅心
太牛逼了 刚刚,GPT-Image-2 正式全量上线,有图为证 !图片 等等...我得说一下,发布信息是我用 GPT-Image-2 自己画出来的,提示词是这个 提示词画一张 X 推特截图,@OpenAI 蓝勾认证账号发推,深色模式。正文「ChatGPT Image 2...
阅读全文 -
Kimi K2.6深度测评报告
发布时间:2026-04-21
分类:模型资讯
作者:洛小山
Kimi K2.6 以「推理型特征 + 越难越稳」夺得文本理解榜首,在 Writing/ReasoningChain 展现同代最佳规则一致性;但 Agent 工具链路和严格格式指令遵循仍是其阻挡全面碾压第一梯队的两堵墙——国产旗舰的上限已逼近 Claude,但下限偶尔会滑到第二梯队。
阅读全文 -
Claude Opus 4.7 的正确姿势:把 Claude 当「工程师」,而不是「实习生」
发布时间:2026-04-19
分类:模型资讯
作者:洛小山
Claude Opus 4.7 的正确姿势:把 Claude 当「工程师」,而不是「实习生」 > 多数人用 Opus 4.7 时只发挥了它 30% 的实力——不是模型不行,而是交互范式还停留在「结对编程」时代。本文从委派模式、Effort 档位、自适应思考三个维度,讲清楚怎么让它真正干活。 --- 一、范式转变:把 Claude 当「工程师」,而不是「实习生」...
阅读全文 -
Qwen3.6 Plus 深度测评报告
发布时间:2026-04-03
分类:模型资讯
作者:洛小山
:润色(#1,94.4)、幻觉抑制(#1,96.9)、网页视觉生成(#1,82.6)三项全场第一;以 ¥12/M 的成本达到 Claude 级别质量,性价比指数 736,是 Claude 的 8.5 倍;批判性思维施压场景末位(59.2)和 Agentic 多轮协作短板(DocMultiTurn Hard 36.1)是两条明确的能力边界。
阅读全文 -
Mimo-v2-Pro & Mimo-v2-Omni 综合场景深度测评报告
发布时间:2026-03-19
分类:模型资讯
作者:洛小山
Mimo-v2-Pro 在 L 维度(84.4)与顶级竞品差距已收窄,但 W 维度(73.4)低于同系列 Flash,A 维度(56.7)与 Flash 几乎持平,版本升级的实质收益集中于 L 维度;Mimo-v2-Omni 是本系列隐藏的最均衡选手,A 综合(62.8)与 GPT-5.4 并列,PPT 生成超越 Gemini,成本仅为外部旗舰的 1/56。Flash 在多工具状态任务中存在灾难性失分(40.5 分);Claude Sonnet 4.6 在多项 L 维度用例拿下全场最高分(代码、翻译、写作、数学),是当前评测中小米模型差距最明显的短板方向。
阅读全文 -
小米 Mimo 系列 Agentic 场景工程化落地评测报告
发布时间:2026-03-19
分类:模型资讯
作者:洛小山
mimo-v2-omni 是 Agentic 全球前五中唯一的国产模型(xsct-a #4 / xsct-w #12),综合分与 GPT-5.4 持平,性价比领先同档竞品 4~8 倍;mimo-v2-pro 凭借多轮文档操作全场第一(97.1)形成差异化能力。两款模型在不同任务类型上各有优势,建议按场景组合使用。
阅读全文 -
PPT 创作场景 各模型工程化落地评测报告
发布时间:2026-03-19
分类:模型资讯
作者:洛小山
阅读全文 -
小米 mimo-v2 系列模型 内容创作场景工程化落地评测报告
发布时间:2026-03-19
分类:模型资讯
作者:洛小山
阅读全文 -
Minimax 2.7 深度评测报告
发布时间:2026-03-18
分类:模型资讯
作者:洛小山
MiniMax-M2.7 是 MiniMax 公司于近期发布并进入 XSCT Arena 文本理解(xsct-l)评测体系的最新旗舰模型。本报告基于平台真实评测数据,对其文字生成能力进行全面深度分析,并与 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 等全球旗舰模型,以及 kimi-k2.5、qwen3.5-plus 等国内头部模型横向对标。
阅读全文