Elephant 在「步骤指令」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：Elephant
用例名称：步骤指令
测试类型：文本生成
评测维度：指令遵循

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名生活技能指导专家，擅长将日常操作分解为清晰、易懂的步骤说明。回答要求： 1. 严格按照指定的步骤数量输出，不多不少。 2. 每个步骤使用编号（如「步骤1：」）开头，结构清晰。 3. 每个步骤描述一个独立且完整的动作，步骤之间具有自然的先后顺序。 4. 语言简洁明了，避免冗余信息，确保普通读者能够直接照做。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

请用**恰好3个步骤**说明如何泡一杯茶。要求： - 步骤总数必须为3步，不能多也不能少。 - 每个步骤用「步骤1 / 步骤2 / 步骤3」编号标注。 - 每个步骤只描述一个核心动作，并简要说明该动作的要点（如温度、时间等关键细节）。 - 步骤之间需体现合理的操作顺序。

任务要求

AI 模型需要满足以下要求：

步骤数量严格等于3，既不能合并为2步，也不能拆分为4步及以上。
每个步骤有明确的编号标识（步骤1、步骤2、步骤3）。
三个步骤覆盖泡茶的完整流程（准备/冲泡/完成），不遗漏关键环节。
步骤之间存在清晰的先后依赖关系，顺序合乎逻辑。
每个步骤包含至少一个具体的操作要点（如水温、浸泡时间等），而非仅有笼统描述。

评测结果

综合得分

该模型在此用例的得分为：93.3 分（满分 100 分），已通过

基础难度评测结果

得分：93.3 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

步骤1：将茶叶放入茶壶或杯中，投放量约占容器的1/5。步骤2：注入85–90°C热水，水量至容器约七分满。步骤3：加盖浸泡3–5分钟后即可饮用。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】该回答表现极其出色。它不仅严格遵循了所有的负向约束（步骤数量）和格式要求，而且在内容组织上比参考答案更精准地执行了“每个步骤只描述一个核心动作”的要求。提供的细节（如温度、比例、时间）非常具体且易于执行，是一份高质量的技能指导说明。【KIMI】整体而言，该答案很好地遵循了指令，提供了清晰、简洁且准确的泡茶步骤。步骤数量、编号和操作要点均符合要求，逻辑连贯性良好，内容质量高，是一个优秀的回答。

进阶难度评测结果

得分：92.6 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

1. **确定技术栈与平台**（核心目标：选择适合个人需求的博客技术架构与部署平台） 1. 评估静态生成器与动态系统的适用性，选择 Hugo 或 WordPress 作为基础框架。 2. 比较 GitHub Pages、Vercel 或独立服务器的成本与维护难度，确定托管平台。 3. 确认域名注册与 HTTPS 支持方案，保障后续部署的基础条件。 2. **配置本地开发环境**（核心目标：建立可测试的本地编辑与预览环境） 1. 安装 Node.js、Git 和文本编辑器，确保工具链完整可用。 2. 初始化项目仓库并配置基础主题模板，实现快速原型渲染。 3. 启动本地开发服务器，验证页面结构与响应式布局的兼容性。 3. **创建内容结构与分类体系**（核心目标：设计清晰的内容组织与导航逻辑） 1. 规划文章分类、标签体系与归档页面，优化信息检索路径。 2. 撰写并格式化首批样章，应用 Markdown 规范统一排版风格。 3. 配置侧边栏与菜单项，建立用户浏览的标准化入口。 4. **集成功能与第三方服务**（核心目标：增强交互性并扩展博客能力） 1. 添加评论系统（如 Disqus 或 Utterances），支持访客互动交流。 2. 集成 Google Analytics 或 Plausible，跟踪访问数据与用户行为。 3. 配置 SEO 元数据与站点地图，提升搜索引擎可见性。 5. **部署上线与维护监控**（核心目标：将稳定版本发布至公网并持续优化） 1. 构建生产环境文件并推送至托管平台，完成域名绑定与证书配置。 2. 设置自动部署流程，确保内容更新可高效同步上线。 3. 定期备份数据与监控运行状态，及时修复链接或性能问题。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】这是一份高质量的回答，模型展现了极强的指令遵循能力和逻辑组织能力。除了极个别词性的微小偏差外，完全满足了所有硬性约束，且内容深度和专业性表现优异，结构化呈现非常利于阅读。【KIMI】整体而言，候选人的输出质量较高，严格遵循了指令要求，结构清晰，内容实用。5个主要步骤基本覆盖了博客搭建的完整流程，步骤间逻辑递进合理。子步骤描述具体，以动词开头，具备操作指导价值。相比参考答案，部分步骤的内容深度和细节程度略有不足，但总体而言是一份优秀的博客搭建指南。

困难难度评测结果

得分：88.4 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

## 1. 启动阶段 ### 1.1 项目立项与章程签署 | 输入（Input） | 输出（Output） | 责任人角色（Owner） | 交付物（Deliverable） | |----------------|----------------|----------------------|------------------------| | 无 | 项目章程初稿 | 项目经理 | 项目章程 | | **前置依赖**：无**依赖逻辑**：无前置输出，作为项目启动的授权依据 | **里程碑名称**：项目启动完成 **验收标准**： - 项目章程已签署并获关键干系人批准。 - 明确项目目标、范围及主要成功标准（≥3条可量化指标）。 ### 1.2 初步需求收集与范围界定 | 输入（Input） | 输出（Output） | 责任人角色（Owner） | 交付物（Deliverable） | |----------------|----------------|----------------------|------------------------| | 1.1 项目章程 | 初步需求清单与范围草案 | 产品经理 | 需求规格说明书（初版） | | **前置依赖**：1.1 项目章程签署**依赖逻辑**：需依据章程中的目标与约束定义初步范围 | **里程碑名称**：初步需求确认 **验收标准**： - 需求清单覆盖核心业务流程≥80%。 - 获得业务方签字确认的需求草案。 ### 1.3 项目团队组建与角色分配 | 输入（Input） | 输出（Output） | 责任人角色（Owner） | 交付物（Deliverable） | |----------------|----------------|----------------------|------------------------| | 1.2 需求草案 | 团队组织结构图与角色说明书 | 人力资源/项目经理 | 项目团队章程 | | **前置依赖**：1.2 范围界定完成**依赖逻辑**：需明确交付成果以配置相应技能人员 | **里程碑名称**：项目团队成立 **验收标准**： - 核心团队成员（开发、测试、PM）全部到岗并签署角色确认书。 - 关键岗位配置率100%。 ### 1.4 初步项目计划制定 | 输入（Input） | 输出（Output） | 责任人角色（Owner） | 交付物（Deliverable） | |----------------|----------------|----------------------|------------------------| | 1.3 团队角色分配 | 项目主计划（含WBS与进度） | 项目经理 | 项目管理计划（初版） | | **前置依赖**：1.3 团队组建完成**依赖逻辑**：需明确资源可用性以制定合理进度 | **里程碑名称**：项目计划获批 **验收标准**： - 项目计划包含WBS、进度、成本估算，偏差容忍度≤10%。 - 获得关键干系人（PMO、业务方）批准。 --- ## 2. 规划阶段 ### 2.1 详细需求分析与规格确认 | 输入（Input） | 输出（Output） | 责任人角色（Owner） | 交付物（Deliverable） | |----------------|----------------|----------------------|------------------------| | 1.2 初步需求草案 | 详细需求规格说明书（SRS） | 产品经理 | 需求规格说明书（V1.0） | | **前置依赖**：1.2 初步范围界定**依赖逻辑**：需对初步需求进行细化与结构化，确保无遗漏 | **里程碑名称**：需求规格确认 **验收标准**： - SRS文档通过同行评审，缺陷率≤2%。 - 所有需求项可测试（覆盖率100%）。 ### 2.2 系统架构设计与技术选型 | 输入（Input） | 输出（Output） | 责任人角色（Owner） | 交付物（Deliverable） | |----------------|----------------|----------------------|------------------------| | 2.1 详细需求规格 | 架构设计文档与技术选型报告 | 架构师 | 系统架构设计说明书 | | **前置依赖**：2.1 需求确认**依赖逻辑**：需基于已确认的需求设计系统结构 | **里程碑名称**：技术架构定稿 **验收标准**： - 架构设计通过技术评审，关键路径无瓶颈。...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】这是一份高质量的项目管理流程设计。模型展现了极高的专业深度，准确把握了软件研发中的关键节点（如架构设计、集成测试、UAT等）。虽然在依赖关系的特定格式标注上稍有疏忽，但整体逻辑自洽，交付物定义明确，是一份极具实操价值的WBS文档。【KIMI】该输出整体质量很高，严格遵循了指令要求，逻辑严密，结构清晰，体现了专业的项目管理实操逻辑。在指令遵循、逻辑一致性和结构化呈现方面均表现优异，是一份优秀的软件产品研发项目管理流程设计。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题