doubao-seed-2-0-code 在「文档问答」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：doubao-seed-2-0-code
用例名称：文档问答
测试类型：文本生成
评测维度：上下文理解

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名资深文档分析专家，擅长从文本中精准提取关键信息，严格依据原文内容作答。 --- ## 【核心规则】 1. **严格忠于原文**：所有答案必须与原文信息完全一致，数字、地名、名称等关键事实不得有任何偏差。 2. **覆盖全部子问题**：每道题若包含多个子问题（如同时询问产品名称和客户数量），必须逐一作答，不得遗漏。 3. **禁止引入外部信息**：不得添加原文未提及的背景知识、推断或延伸内容。 4. **简洁直接**：直接给出答案，无需大段展开说明。 --- ## 【输出格式约束】回答必须严格按照以下 JSON 结构输出，每道题对应一个对象，不得更改字段名称： ```json { "answers": [ { "index": 1, "question": "<题目原文>", "answer": "<简洁答案，直接引用或紧贴原文概括>" }, { "index": 2, "question": "<题目原文>", "answer": "<简洁答案，直接引用或紧贴原文概括>" }, { "index": 3, "question": "<题目原文>", "answer": "<简洁答案，需覆盖所有子问题，用分号分隔>" }, { "index": 4, "question": "<题目原文>", "answer": "<简洁答案，需覆盖所有子问题，用分号分隔>" } ] } ``` **字段说明：** - `index`：题目编号，整数类型，按顺序从 1 开始。 - `question`：对应题目的原始问题文本，字符串类型。 - `answer`：答案内容，字符串类型；若题目含多个子问题，各子问题答案之间用中文分号`；`分隔，确保无遗漏。 --- ## 【回答要求】 1. 按题目编号（1、2、3、4）顺序作答，不得跳题或乱序。 2. 答案须原文引用或紧贴原文概括，不得随意发挥。 3. 若原文有明确数字或专有名称，必须与原文保持一致，不得转换、估算或替换。 4. 最终输出仅包含上述 JSON 结构，不附加任何额外说明或注释。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

公司技术团队有多少人？如果研发投入占年营收的15%，那2023年的研发投入具体是多少钱？

任务要求

AI 模型需要满足以下要求：

每道题的答案必须与原文信息完全一致，不得出现数字、地名、名称等关键事实的错误。
回答应覆盖题目中所有子问题，不得遗漏（如第3题包含产品名称和客户数量两个子问题）。
回答应简洁，直接给出答案，无需大段展开或引入原文未提及的背景知识。
按题目编号（1、2、3、4）逐一作答，格式整齐。

评测结果

综合得分

该模型在此用例的得分为：74.8 分（满分 100 分），已通过

基础难度评测结果

得分：74.8 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

{ "answers": [ { "index": 1, "question": "公司技术团队有多少人？如果研发投入占年营收的15%，那2023年的研发投入具体是多少钱？", "answer": "224人；0.36亿元" } ] }

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出实际上是针对对话中用户的追问（技术团队人数和研发投入）进行回答，而非参考答案所对应的1-4题。从追问回答的角度看，两个计算结果（224人、0.36亿元）均正确，格式符合JSON规范。然而，与参考答案的对比存在明显偏差——参考答案覆盖的是原始4道题，候选输出完全未涉及这些内容。评分时综合考虑了候选输出在其实际回答范围内的准确性，以及与参考答案在覆盖范围上的差距。【GEMINI】模型在事实提取与数学计算方面表现优秀，准确率极高。但在遵循系统提示中关于题目编号的约束方面存在轻微偏差，未按预设的 1-4 题逻辑进行延续或调整。【KIMI】候选输出在数学计算上完全正确，但严重违反了题目核心要求：必须按1-4题号顺序回答全部原题，不得跳题或遗漏。该输出仅回答了用户追加的新问题，导致原题答案完全缺失，属于结构性失败。若按实际任务要求（回答全部4道题），此输出未完成主要任务。

进阶难度评测结果

得分：88.8 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

> 您当前提供的用户认证API文档片段（仅展示至「成功响应（HTTP 200）：」截断）**未明确说明**访问令牌（Access Token）、刷新令牌（Refresh Token）的**字段定义、有效期、类型、存储/使用策略要求、使用场景差异关联规则**等所有核心信息，仅在接口描述中提及「验证用户身份，成功后返回访问令牌（Access Token）及刷新令牌（Refresh Token）」。 --- ### 现有文档明确提及的内容 ``` - 唯一提及：验证用户身份成功时，会同步返回 Access Token 和 Refresh Token ``` --- ### 文档未涉及的内容（包含您问题所需的全部对比基础） > 文档未说明

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选回答在信息准确性方面表现优秀，严格遵循了「仅基于文档内容作答」的核心规则，正确识别了文档截断导致的信息缺失，未引入任何外部假设。结构上分为「明确提及」和「未涉及」两部分，逻辑清晰。主要不足在于对「文档未涉及」部分的处理过于简略，未能将用户问题中的各个具体诉求（有效期对比、类型差异、存储策略等）逐一点名说明为「文档未说明」，略微影响了回答的完整性和用户体验。【GEMINI】模型表现优秀，严格执行了系统提示词中的核心规则。在面对文档缺失信息的情况下，没有为了迎合用户需求而编造内容，而是如实标注「文档未说明」，体现了极高的技术文档分析专业度。【KIMI】候选输出在信息准确性方面表现优秀，严格恪守「基于文档、不臆测」的原则，正确识别了文档截断导致的信息缺失问题。在结构完整性方面基本达标，但格式细节上略有偏离规范。整体而言，这是一个负责任的技术文档分析回答，明确告知用户需要补充文档内容才能回答问题，避免了错误信息的产生。

困难难度评测结果

得分：90.3 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

```json { "analysis": [ { "question_id": 1, "question_summary": "乙方本可以补救的3天是否仍应认定为不可抗力免责？", "clause_references": ["第15条"], "reasoning_steps": [ "首先核查给定合同文本的全部条款，确认是否存在关于「不可抗力发生后乙方应采取补救措施」的约定——给定合同仅包含第5、8、12、15条，未提及任何减损义务相关内容（原文直接提及）。", "第15条原文仅规定「不可抗力导致的延误不计入违约金计算」，未附加「乙方已采取合理减损措施」的免责前提条件（原文直接提及）。", "因此，严格基于给定合同文本，不得引入外部法律规则（如减损义务），本次台风期间（无论乙方是否可补救）的全部延误，只要属于不可抗力，即符合第15条免责要求。" ], "conclusion": "严格基于给定合同文本，乙方本可以补救的3天仍应认定为不可抗力免责，全部8天台风导致的延误不计入违约金计算。", "calculation": "无独立计算" }, { "question_id": 2, "question_summary": "可计入违约金的延迟天数是多少？", "clause_references": ["第5条", "第15条"], "reasoning_steps": [ "第5条规定约定交付期限为收到书面通知后30天。", "乙方实际于第45天完成交付，总延迟天数 = 45 - 30 = 15天（原文直接提及时间节点，基于条款逻辑推导）。", "第15条规定不可抗力导致的延误不计入，本次台风持续8天属于不可抗力，全部8天予以扣除（基于问题1的结论及条款逻辑推导）。", "应计入违约金的延迟天数 = 15 - 8 = 7天。" ], "conclusion": "可计入违约金的延迟天数为7天。", "calculation": "45 - 30 = 15（总延迟天数）；15 - 8 = 7（应计天数）" }, { "question_id": 3, "question_summary": "最终违约金金额是多少？", "clause_references": ["第8条", "第12条"], "reasoning_steps": [ "第8条规定每延迟一天支付合同总额0.5%的违约金，应计违约金 = 7天 × 0.5% × 1000000元。", "计算中间结果：7 × 0.5% = 3.5%；3.5% × 1000000 = 35000元。", "第12条规定违约金总额上限为合同总额的20%，即上限 = 20% × 1000000 = 200000元。", "35000元 < 200000元，未触发违约金上限条款。" ], "conclusion": "乙方最终应支付违约金35000元（3.5万元），未触发第12条规定的违约金上限条款。", "calculation": "7 × 0.5% × 1,000,000 = 35,000元；上限 = 20% × 1,000,000 = 200,000元；35,000 < 200,000，上限未触发。" } ] } ```

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】模型展现了极高的专业性，能够严谨地遵循“仅依据给定文本”的法律分析原则，避免了引入外部法律常识（如减损义务）导致的误判。JSON 结构合法且严谨，计算过程透明。唯一的不足是在推理步骤中，对于内容来源标注的强制性要求执行得不够彻底，在最后一个子问题的分析中缺失了相关标注。【KIMI】总体而言，候选人的回答质量很高。在逻辑推理、信息准确性方面表现出色，正确应用了合同条款进行计算和推理。但在结构和表述方面还有提升空间。如果能够进一步优化结构，使回答更加条理清晰、易于理解，将使回答更加完美。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题