Elephant 在「步骤指令」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:Elephant
- 用例名称:步骤指令
- 测试类型:文本生成
- 评测维度:指令遵循
系统提示词(System Prompt)
这是给 AI 模型的背景设定和角色指令:
你是一名生活技能指导专家,擅长将日常操作分解为清晰、易懂的步骤说明。 回答要求: 1. 严格按照指定的步骤数量输出,不多不少。 2. 每个步骤使用编号(如「步骤1:」)开头,结构清晰。 3. 每个步骤描述一个独立且完整的动作,步骤之间具有自然的先后顺序。 4. 语言简洁明了,避免冗余信息,确保普通读者能够直接照做。
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
请用**恰好3个步骤**说明如何泡一杯茶。 要求: - 步骤总数必须为3步,不能多也不能少。 - 每个步骤用「步骤1 / 步骤2 / 步骤3」编号标注。 - 每个步骤只描述一个核心动作,并简要说明该动作的要点(如温度、时间等关键细节)。 - 步骤之间需体现合理的操作顺序。
任务要求
AI 模型需要满足以下要求:
- 步骤数量严格等于3,既不能合并为2步,也不能拆分为4步及以上。
- 每个步骤有明确的编号标识(步骤1、步骤2、步骤3)。
- 三个步骤覆盖泡茶的完整流程(准备/冲泡/完成),不遗漏关键环节。
- 步骤之间存在清晰的先后依赖关系,顺序合乎逻辑。
- 每个步骤包含至少一个具体的操作要点(如水温、浸泡时间等),而非仅有笼统描述。
评测结果
综合得分
该模型在此用例的得分为:93.3 分(满分 100 分),已通过
基础难度评测结果
- 得分:93.3 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
步骤1:将茶叶放入茶壶或杯中,投放量约占容器的1/5。 步骤2:注入85–90°C热水,水量至容器约七分满。 步骤3:加盖浸泡3–5分钟后即可饮用。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【GEMINI】该回答表现极其出色。它不仅严格遵循了所有的负向约束(步骤数量)和格式要求,而且在内容组织上比参考答案更精准地执行了“每个步骤只描述一个核心动作”的要求。提供的细节(如温度、比例、时间)非常具体且易于执行,是一份高质量的技能指导说明。 【KIMI】整体而言,该答案很好地遵循了指令,提供了清晰、简洁且准确的泡茶步骤。步骤数量、编号和操作要点均符合要求,逻辑连贯性良好,内容质量高,是一个优秀的回答。
进阶难度评测结果
- 得分:92.6 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
1. **确定技术栈与平台**(核心目标:选择适合个人需求的博客技术架构与部署平台) 1. 评估静态生成器与动态系统的适用性,选择 Hugo 或 WordPress 作为基础框架。 2. 比较 GitHub Pages、Vercel 或独立服务器的成本与维护难度,确定托管平台。 3. 确认域名注册与 HTTPS 支持方案,保障后续部署的基础条件。 2. **配置本地开发环境**(核心目标:建立可测试的本地编辑与预览环境) 1. 安装 Node.js、Git 和文本编辑器,确保工具链完整可用。 2. 初始化项目仓库并配置基础主题模板,实现快速原型渲染。 3. 启动本地开发服务器,验证页面结构与响应式布局的兼容性。 3. **创建内容结构与分类体系**(核心目标:设计清晰的内容组织与导航逻辑) 1. 规划文章分类、标签体系与归档页面,优化信息检索路径。 2. 撰写并格式化首批样章,应用 Markdown 规范统一排版风格。 3. 配置侧边栏与菜单项,建立用户浏览的标准化入口。 4. **集成功能与第三方服务**(核心目标:增强交互性并扩展博客能力) 1. 添加评论系统(如 Disqus 或 Utterances),支持访客互动交流。 2. 集成 Google Analytics 或 Plausible,跟踪访问数据与用户行为。 3. 配置 SEO 元数据与站点地图,提升搜索引擎可见性。 5. **部署上线与维护监控**(核心目标:将稳定版本发布至公网并持续优化) 1. 构建生产环境文件并推送至托管平台,完成域名绑定与证书配置。 2. 设置自动部署流程,确保内容更新可高效同步上线。 3. 定期备份数据与监控运行状态,及时修复链接或性能问题。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【GEMINI】这是一份高质量的回答,模型展现了极强的指令遵循能力和逻辑组织能力。除了极个别词性的微小偏差外,完全满足了所有硬性约束,且内容深度和专业性表现优异,结构化呈现非常利于阅读。 【KIMI】整体而言,候选人的输出质量较高,严格遵循了指令要求,结构清晰,内容实用。5个主要步骤基本覆盖了博客搭建的完整流程,步骤间逻辑递进合理。子步骤描述具体,以动词开头,具备操作指导价值。相比参考答案,部分步骤的内容深度和细节程度略有不足,但总体而言是一份优秀的博客搭建指南。
困难难度评测结果
- 得分:88.4 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
## 1. 启动阶段 ### 1.1 项目立项与章程签署 | 输入(Input) | 输出(Output) | 责任人角色(Owner) | 交付物(Deliverable) | |----------------|----------------|----------------------|------------------------| | 无 | 项目章程初稿 | 项目经理 | 项目章程 | | **前置依赖**:无**依赖逻辑**:无前置输出,作为项目启动的授权依据 | **里程碑名称**:项目启动完成 **验收标准**: - 项目章程已签署并获关键干系人批准。 - 明确项目目标、范围及主要成功标准(≥3条可量化指标)。 ### 1.2 初步需求收集与范围界定 | 输入(Input) | 输出(Output) | 责任人角色(Owner) | 交付物(Deliverable) | |----------------|----------------|----------------------|------------------------| | 1.1 项目章程 | 初步需求清单与范围草案 | 产品经理 | 需求规格说明书(初版) | | **前置依赖**:1.1 项目章程签署**依赖逻辑**:需依据章程中的目标与约束定义初步范围 | **里程碑名称**:初步需求确认 **验收标准**: - 需求清单覆盖核心业务流程≥80%。 - 获得业务方签字确认的需求草案。 ### 1.3 项目团队组建与角色分配 | 输入(Input) | 输出(Output) | 责任人角色(Owner) | 交付物(Deliverable) | |----------------|----------------|----------------------|------------------------| | 1.2 需求草案 | 团队组织结构图与角色说明书 | 人力资源/项目经理 | 项目团队章程 | | **前置依赖**:1.2 范围界定完成**依赖逻辑**:需明确交付成果以配置相应技能人员 | **里程碑名称**:项目团队成立 **验收标准**: - 核心团队成员(开发、测试、PM)全部到岗并签署角色确认书。 - 关键岗位配置率100%。 ### 1.4 初步项目计划制定 | 输入(Input) | 输出(Output) | 责任人角色(Owner) | 交付物(Deliverable) | |----------------|----------------|----------------------|------------------------| | 1.3 团队角色分配 | 项目主计划(含WBS与进度) | 项目经理 | 项目管理计划(初版) | | **前置依赖**:1.3 团队组建完成**依赖逻辑**:需明确资源可用性以制定合理进度 | **里程碑名称**:项目计划获批 **验收标准**: - 项目计划包含WBS、进度、成本估算,偏差容忍度≤10%。 - 获得关键干系人(PMO、业务方)批准。 --- ## 2. 规划阶段 ### 2.1 详细需求分析与规格确认 | 输入(Input) | 输出(Output) | 责任人角色(Owner) | 交付物(Deliverable) | |----------------|----------------|----------------------|------------------------| | 1.2 初步需求草案 | 详细需求规格说明书(SRS) | 产品经理 | 需求规格说明书(V1.0) | | **前置依赖**:1.2 初步范围界定**依赖逻辑**:需对初步需求进行细化与结构化,确保无遗漏 | **里程碑名称**:需求规格确认 **验收标准**: - SRS文档通过同行评审,缺陷率≤2%。 - 所有需求项可测试(覆盖率100%)。 ### 2.2 系统架构设计与技术选型 | 输入(Input) | 输出(Output) | 责任人角色(Owner) | 交付物(Deliverable) | |----------------|----------------|----------------------|------------------------| | 2.1 详细需求规格 | 架构设计文档与技术选型报告 | 架构师 | 系统架构设计说明书 | | **前置依赖**:2.1 需求确认**依赖逻辑**:需基于已确认的需求设计系统结构 | **里程碑名称**:技术架构定稿 **验收标准**: - 架构设计通过技术评审,关键路径无瓶颈。...
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【GEMINI】这是一份高质量的项目管理流程设计。模型展现了极高的专业深度,准确把握了软件研发中的关键节点(如架构设计、集成测试、UAT等)。虽然在依赖关系的特定格式标注上稍有疏忽,但整体逻辑自洽,交付物定义明确,是一份极具实操价值的WBS文档。 【KIMI】该输出整体质量很高,严格遵循了指令要求,逻辑严密,结构清晰,体现了专业的项目管理实操逻辑。在指令遵循、逻辑一致性和结构化呈现方面均表现优异,是一份优秀的软件产品研发项目管理流程设计。
相关链接
您可以通过以下链接查看更多相关内容: