Claude Opus 4 7 在「复杂指令组合」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：Claude Opus 4 7
用例名称：复杂指令组合
测试类型：文本生成
评测维度：指令遵循

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名生活技能指导专家，擅长将日常操作流程拆解为清晰、易懂的步骤说明。回答要求： 1. 严格按照用户指定的步骤数量进行输出，不多不少。 2. 每个步骤需有明确的编号（如「第1步」），并包含简洁的步骤标题和具体操作说明。 3. 步骤之间应具有合理的先后顺序，逻辑连贯，不可颠倒或跳跃。 4. 语言简洁明了，面向普通用户，避免使用过于专业的术语。 5. 输出格式整洁，层次分明，便于读者按步骤执行。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

请分3步说明如何泡一杯茶。要求： - 必须恰好包含3个步骤，不多不少。 - 每个步骤需有清晰的编号和步骤名称（如「第1步：XXX」）。 - 每个步骤需包含1-2句具体的操作说明，说明该步骤的做法和注意事项。 - 步骤之间逻辑顺序合理，符合实际泡茶流程。

任务要求

AI 模型需要满足以下要求：

输出恰好包含3个步骤，编号清晰（第1步、第2步、第3步），不得多于或少于3步。
每个步骤均有明确的步骤名称，且包含至少1句具体操作说明。
3个步骤的排列顺序符合实际泡茶的先后逻辑（如：准备→冲泡→完成），不存在顺序颠倒或逻辑跳跃。
操作说明内容准确、合理，无明显的事实性错误（如水温、茶叶用量等描述符合常识）。
语言表达简洁流畅，普通用户可直接按步骤操作执行。

评测结果

综合得分

该模型在此用例的得分为：93.5 分（满分 100 分），已通过

基础难度评测结果

得分：93.5 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

**第1步：准备茶具和烧水** 选择合适的茶杯或茶壶，将清水倒入烧水壶中加热至沸腾（约100℃）。如果是绿茶或白茶等嫩茶，可将沸水稍微放凉至80-85℃。 **第2步：投茶和冲泡** 将适量茶叶（约3-5克）放入茶杯或茶壶中，然后沿杯壁缓缓注入热水至七八分满。盖上杯盖或壶盖，静置浸泡2-5分钟，让茶叶充分舒展释放香味。 **第3步：品饮** 待茶汤颜色适中、香气溢出后，即可揭盖品饮。如使用茶壶，可先将茶汤倒入公道杯再分至品茗杯，确保每杯浓淡均匀。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出整体表现优秀，严格遵循了所有指令要求，步骤数量、编号格式、内容结构均符合规范。泡茶流程的逻辑顺序合理，操作说明具体实用，格式清晰易读。细节处理到位，如针对不同茶类给出水温建议、强调浸泡时间控制等，体现了专业性。唯第3步关于公道杯的描述对于单杯泡茶场景略显复杂，但不影响整体质量。该输出完全满足评测要求，是一份高质量的指令遵循示例。【GEMINI】这是一份教科书级别的指令遵循示例。模型不仅准确理解了复杂的格式要求（如特定的编号方式和句子数量限制），还在保证逻辑严密性的同时，提供了专业且易懂的指导建议。没有任何瑕疵。【KIMI】整体而言，该输出较好地遵循了用户指令，步骤数量、编号、名称和操作说明均符合要求，步骤顺序和结构格式也较为合理。但在步骤连贯性方面还有改进空间，部分细节描述略显多余。

进阶难度评测结果

得分：94.0 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

# 从零开始搭建个人博客完整指南 ## 步骤一：明确博客定位与技术选型 **1.1 确定内容方向与目标受众** - 具体操作：列出3-5个你擅长或感兴趣的主题领域（技术、摄影、旅行等），分析目标读者群体的阅读习惯和需求，确定博客的核心价值定位 - 推荐方法：使用思维导图工具（XMind、MindNode）梳理内容框架，参考同类博客的流量数据和评论互动情况 **1.2 选择技术路线** - 具体操作：根据技术能力选择方案——零基础选托管平台（WordPress.com、Medium、Wix），有编程基础选静态站点生成器（Hugo、Hexo、Jekyll），追求灵活性选自建服务器+CMS - 推荐工具：静态博客推荐Hugo（速度快）或Hexo（中文生态好），动态博客推荐WordPress（插件丰富）或Ghost（界面现代） **1.3 规划预算与资源投入** - 具体操作：计算首年成本——域名约$10-15/年，虚拟主机$50-100/年（或免费托管），主题模板$0-60一次性，CDN加速$0-20/月；同时预留每周3-5小时的内容创作时间 - 推荐方案：初期可选GitHub Pages（免费托管）+ Cloudflare（免费CDN）+ Namecheap（域名），总成本控制在$15/年以内 ## 步骤二：购买域名与配置托管环境 **2.1 注册专属域名** - 具体操作：在域名注册商搜索可用域名（优先.com/.net/.blog后缀），避免使用连字符和数字，长度控制在15个字符内；购买时同步开启隐私保护（WHOIS Privacy） - 推荐平台：Namecheap、Cloudflare Registrar（成本价）、GoDaddy、阿里云万网（国内备案需要） **2.2 选择托管服务并部署** - 具体操作：静态博客选GitHub Pages（免费无限流量）或Vercel/Netlify（自动化部署），动态博客选Bluehost/SiteGround（WordPress优化）或VPS（Vultr、DigitalOcean，需配置LAMP/LNMP环境） - 推荐配置：GitHub Pages + GitHub Actions实现自动构建部署，或使用Vercel的Git集成功能，每次推送代码自动更新站点 **2.3 配置DNS解析与HTTPS** - 具体操作：在域名注册商后台添加DNS记录（A记录指向服务器IP或CNAME指向托管平台域名），等待解析生效（通常2-48小时）；通过Let's Encrypt申请免费SSL证书或使用托管平台自动HTTPS - 推荐工具：Cloudflare DNS（解析速度快且提供免费CDN），Certbot（自动续期SSL证书） ## 步骤三：安装博客系统与主题配置 **3.1 部署博客框架** - 具体操作：静态博客通过命令行安装生成器（如`npm install -g hexo-cli`后`hexo init blog`），WordPress通过主机控制面板一键安装或手动上传程序包到服务器，配置数据库连接参数 - 推荐流程：使用包管理器（npm、yarn）安装依赖，通过Git版本控制管理源码，初始化后先在本地运行测试（`hexo server`或`localhost:8080`） **3.2 选择并定制主题** - 具体操作：浏览主题市场选择响应式设计主题（确保移动端适配），下载后放入themes目录并在配置文件中激活；修改配置文件调整颜色、字体、布局，替换logo和favicon - 推荐资源：Hexo主题推荐NexT/Fluid/Butterfly，Hugo推荐PaperMod/Stack，WordPress推荐Astra/GeneratePress（免费且轻量），主题森林ThemeForest（付费精品） **3.3 安装必备插件与功能模块** - 具体操作：添加评论系统（Disqus、Giscus基于GitHub讨论）、统计分析（Google Analytics、百度统计）、SEO优化插件、RSS订阅、代码高亮、图片懒加载等功能 - 推荐插件：WordPress用Yoast SEO + WP Super Cache + Akismet，静态博客配置hexo-generator-sitemap、hexo-generator-feed等生成器 ## 步骤四：创作发布首批内容 **4.1 撰写高质量文章** - 具体操作：使用Markdown编辑器（Typora、Obsidian、VS Code）撰写文章，遵循清晰的标题层级（H2-H4），每篇1500-3000字，配3-5张配图（压缩至200KB以下），添加内链和外链 -...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出是一份高质量的博客搭建指南，严格遵守了所有结构化指令要求（5个主步骤、每步2-3个子步骤、操作说明+工具推荐），逻辑顺序合理且内容深度充足，涵盖了从规划到运营的完整流程。格式层级清晰，编号规范，便于读者按图索骥执行。相比参考答案，候选输出在技术选型部分提供了更细致的成本分析和多种方案对比（如静态vs动态博客的适用场景），在推广运营部分增加了「读者留存机制」等长期运营策略，实操性更强。整体表现优秀，完全满足评测标准。【GEMINI】这是一份非常高质量的回答。模型不仅严格遵守了复杂的多步骤指令约束（如步骤数量、子步骤数量限制），而且在内容质量上表现卓越。它提供的技术建议（如静态站点生成器 vs CMS、GitHub Pages + Vercel、Cloudflare DNS等）非常符合当前的技术趋势，具有很强的实操指导意义。仅在主步骤的总结性说明上略有简化，但不影响整体的优秀表现。【KIMI】该模型在遵循指令的准确性、逻辑连贯性和结构格式化方面整体表现良好，基本满足了题目要求。在细节上还有优化空间，如统一子步骤编号格式、调整部分步骤顺序等，以进一步提升内容的可读性和实操性。

困难难度评测结果

得分：91.8 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

# 企业级软件产品研发项目管理流程 ## 阶段一：项目启动 ### 活动1.1：项目立项与商业论证 - **输入**：市场调研报告、业务需求概述、初步预算范围 - **输出**：项目章程、商业论证文档、初步ROI分析 - **责任人**：项目发起人、项目经理 - **交付物**：《项目章程》《商业论证报告》 ### 活动1.2：干系人识别与分析 - **输入**：项目章程、组织架构图 - **输出**：干系人登记册、干系人权力/利益矩阵、沟通策略 - **责任人**：项目经理 - **交付物**：《干系人管理计划》 ### 活动1.3：组建项目团队与资源初步分配 - **输入**：项目章程、人力资源池信息 - **输出**：项目组织架构、角色职责矩阵（RACI）、资源承诺确认 - **责任人**：项目经理、人力资源部 - **交付物**：《项目团队章程》《RACI矩阵》 **依赖关系**： - 活动1.2依赖活动1.1（需项目章程明确项目范围） - 活动1.3依赖活动1.1（需项目章程确定项目规模） **里程碑M1：项目正式启动** - 验收标准： - 项目章程获得管理层书面批准 - 核心团队成员到位率≥80% - 干系人登记册覆盖所有部门级以上干系人（≥15人） - 项目预算获得财务部门审批通过 --- ## 阶段二：项目规划 ### 活动2.1：需求收集与分析 - **输入**：商业论证文档、干系人登记册、市场竞品分析 - **输出**：业务需求文档（BRD）、功能需求清单、非功能需求规格 - **责任人**：产品经理、业务分析师 - **交付物**：《业务需求文档BRD》《需求规格说明书SRS》 ### 活动2.2：技术方案设计与架构评审 - **输入**：需求规格说明书、现有技术栈评估、安全合规要求 - **输出**：系统架构设计文档、技术选型报告、接口设计规范 - **责任人**：技术架构师、研发负责人 - **交付物**：《系统架构设计文档》《技术方案评审报告》 ### 活动2.3：项目进度与成本基准制定 - **输入**：需求清单、技术方案、团队产能数据 - **输出**：WBS工作分解结构、项目进度计划（甘特图）、成本预算明细 - **责任人**：项目经理、PMO - **交付物**：《项目管理计划》（含进度基准、成本基准） ### 活动2.4：风险识别与质量标准制定 - **输入**：项目管理计划、技术方案、历史项目经验库 - **输出**：风险登记册、风险应对策略、质量管理计划、测试策略 - **责任人**：项目经理、质量经理 - **交付物**：《风险管理计划》《质量管理计划》 **依赖关系**： - 活动2.2依赖活动2.1（需求明确后才能设计技术方案） - 活动2.3依赖活动2.1和2.2（需求和技术方案是进度估算基础） - 活动2.4依赖活动2.2和2.3（技术方案和进度计划是风险识别依据） **里程碑M2：规划基准锁定** - 验收标准： - 需求评审通过率≥95%（需求变更冻结） - 技术方案通过架构委员会评审（评分≥85分） - 项目管理计划获得所有核心干系人签字确认 - 识别高优先级风险≥10项，且每项均有应对措施 --- ## 阶段三：项目执行 ### 活动3.1：迭代开发与代码实现 - **输入**：需求规格说明书、系统架构设计、Sprint计划 - **输出**：可运行代码模块、单元测试报告、代码审查记录 - **责任人**：开发团队、技术负责人 - **交付物**：各迭代《功能模块代码》《单元测试报告》 ### 活动3.2：持续集成与自动化测试 - **输入**：代码模块、测试用例库、CI/CD流水线配置 - **输出**：集成测试报告、缺陷跟踪记录、构建版本包 - **责任人**：测试团队、DevOps工程师 - **交付物**：《集成测试报告》《缺陷统计分析表》 ### 活动3.3：用户验收测试（UAT）准备与执行 - **输入**：集成测试通过的版本、UAT测试用例、用户手册草稿 - **输出**：UAT测试结果、用户反馈清单、待修复问题列表 - **责任人**：产品经理、关键用户代表 - **交付物**：《UAT测试报告》《用户验收确认书》 ### 活动3.4：团队协作与沟通管理 - **输入**：项目管理计划、干系人沟通策略、每日站会记录 - **输出**：周报/月报、问题解决记录、变更请求处理结果 - **责任人**：项目经理、Scrum Master - **交付物**：《项目周报》《变更控制日志》 **依赖关系**： - 活动3.2依赖活动3.1（需要代码模块才能进行集成测试） - 活动3.3依赖活动3.2（集成测试通过后才能进入UAT） -...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该输出展现了优秀的指令遵循能力和专业的项目管理知识。模型精准执行了所有量化约束（5阶段、3-4活动/阶段、四要素全覆盖、5个可量化里程碑），逻辑闭环设计合理，依赖关系标注清晰，整体流程具备实际可操作性。结构组织清晰，格式统一，易于阅读和应用。主要改进空间在于：四要素展示可采用表格形式提升可读性，阶段四与阶段三的并行关系可更明确表达，部分输出与交付物的概念区分可更精细。总体而言，这是一份高质量的企业级项目管理流程设计方案，完全满足评测要求。【GEMINI】这是一份高质量的评测结果。模型不仅严格执行了所有复杂的量化指令（阶段数、活动数、要素数、量化里程碑等），而且在内容专业性上表现出色，完全符合PMP专家的人设定位。活动的输入输出流转顺畅，交付物定义明确，具备极强的实际操作参考价值。【KIMI】整体而言，该输出严格遵循了任务要求，结构完整，逻辑清晰，专业性和可操作性强，很好地满足了企业级软件产品研发项目管理流程设计的需求。在结构化呈现和关键信息突出方面还有小幅度的提升空间，但不影响整体的专业度和实用性。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题