doubao-seed-2-0-code 在「文档问答」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:doubao-seed-2-0-code
- 用例名称:文档问答
- 测试类型:文本生成
- 评测维度:上下文理解
系统提示词(System Prompt)
这是给 AI 模型的背景设定和角色指令:
你是一名资深文档分析专家,擅长从文本中精准提取关键信息,严格依据原文内容作答。 --- ## 【核心规则】 1. **严格忠于原文**:所有答案必须与原文信息完全一致,数字、地名、名称等关键事实不得有任何偏差。 2. **覆盖全部子问题**:每道题若包含多个子问题(如同时询问产品名称和客户数量),必须逐一作答,不得遗漏。 3. **禁止引入外部信息**:不得添加原文未提及的背景知识、推断或延伸内容。 4. **简洁直接**:直接给出答案,无需大段展开说明。 --- ## 【输出格式约束】 回答必须严格按照以下 JSON 结构输出,每道题对应一个对象,不得更改字段名称: ```json { "answers": [ { "index": 1, "question": "<题目原文>", "answer": "<简洁答案,直接引用或紧贴原文概括>" }, { "index": 2, "question": "<题目原文>", "answer": "<简洁答案,直接引用或紧贴原文概括>" }, { "index": 3, "question": "<题目原文>", "answer": "<简洁答案,需覆盖所有子问题,用分号分隔>" }, { "index": 4, "question": "<题目原文>", "answer": "<简洁答案,需覆盖所有子问题,用分号分隔>" } ] } ``` **字段说明:** - `index`:题目编号,整数类型,按顺序从 1 开始。 - `question`:对应题目的原始问题文本,字符串类型。 - `answer`:答案内容,字符串类型;若题目含多个子问题,各子问题答案之间用中文分号`;`分隔,确保无遗漏。 --- ## 【回答要求】 1. 按题目编号(1、2、3、4)顺序作答,不得跳题或乱序。 2. 答案须原文引用或紧贴原文概括,不得随意发挥。 3. 若原文有明确数字或专有名称,必须与原文保持一致,不得转换、估算或替换。 4. 最终输出仅包含上述 JSON 结构,不附加任何额外说明或注释。
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
公司技术团队有多少人?如果研发投入占年营收的15%,那2023年的研发投入具体是多少钱?
任务要求
AI 模型需要满足以下要求:
- 每道题的答案必须与原文信息完全一致,不得出现数字、地名、名称等关键事实的错误。
- 回答应覆盖题目中所有子问题,不得遗漏(如第3题包含产品名称和客户数量两个子问题)。
- 回答应简洁,直接给出答案,无需大段展开或引入原文未提及的背景知识。
- 按题目编号(1、2、3、4)逐一作答,格式整齐。
评测结果
综合得分
该模型在此用例的得分为:74.8 分(满分 100 分),已通过
基础难度评测结果
- 得分:74.8 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
{ "answers": [ { "index": 1, "question": "公司技术团队有多少人?如果研发投入占年营收的15%,那2023年的研发投入具体是多少钱?", "answer": "224人;0.36亿元" } ] }
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】候选输出实际上是针对对话中用户的追问(技术团队人数和研发投入)进行回答,而非参考答案所对应的1-4题。从追问回答的角度看,两个计算结果(224人、0.36亿元)均正确,格式符合JSON规范。然而,与参考答案的对比存在明显偏差——参考答案覆盖的是原始4道题,候选输出完全未涉及这些内容。评分时综合考虑了候选输出在其实际回答范围内的准确性,以及与参考答案在覆盖范围上的差距。 【GEMINI】模型在事实提取与数学计算方面表现优秀,准确率极高。但在遵循系统提示中关于题目编号的约束方面存在轻微偏差,未按预设的 1-4 题逻辑进行延续或调整。 【KIMI】候选输出在数学计算上完全正确,但严重违反了题目核心要求:必须按1-4题号顺序回答全部原题,不得跳题或遗漏。该输出仅回答了用户追加的新问题,导致原题答案完全缺失,属于结构性失败。若按实际任务要求(回答全部4道题),此输出未完成主要任务。
进阶难度评测结果
- 得分:88.8 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
> 您当前提供的用户认证API文档片段(仅展示至「成功响应(HTTP 200):」截断)**未明确说明**访问令牌(Access Token)、刷新令牌(Refresh Token)的**字段定义、有效期、类型、存储/使用策略要求、使用场景差异关联规则**等所有核心信息,仅在接口描述中提及「验证用户身份,成功后返回访问令牌(Access Token)及刷新令牌(Refresh Token)」。 --- ### 现有文档明确提及的内容 ``` - 唯一提及:验证用户身份成功时,会同步返回 Access Token 和 Refresh Token ``` --- ### 文档未涉及的内容(包含您问题所需的全部对比基础) > 文档未说明
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】候选回答在信息准确性方面表现优秀,严格遵循了「仅基于文档内容作答」的核心规则,正确识别了文档截断导致的信息缺失,未引入任何外部假设。结构上分为「明确提及」和「未涉及」两部分,逻辑清晰。主要不足在于对「文档未涉及」部分的处理过于简略,未能将用户问题中的各个具体诉求(有效期对比、类型差异、存储策略等)逐一点名说明为「文档未说明」,略微影响了回答的完整性和用户体验。 【GEMINI】模型表现优秀,严格执行了系统提示词中的核心规则。在面对文档缺失信息的情况下,没有为了迎合用户需求而编造内容,而是如实标注「文档未说明」,体现了极高的技术文档分析专业度。 【KIMI】候选输出在信息准确性方面表现优秀,严格恪守「基于文档、不臆测」的原则,正确识别了文档截断导致的信息缺失问题。在结构完整性方面基本达标,但格式细节上略有偏离规范。整体而言,这是一个负责任的技术文档分析回答,明确告知用户需要补充文档内容才能回答问题,避免了错误信息的产生。
困难难度评测结果
- 得分:90.3 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
```json { "analysis": [ { "question_id": 1, "question_summary": "乙方本可以补救的3天是否仍应认定为不可抗力免责?", "clause_references": ["第15条"], "reasoning_steps": [ "首先核查给定合同文本的全部条款,确认是否存在关于「不可抗力发生后乙方应采取补救措施」的约定——给定合同仅包含第5、8、12、15条,未提及任何减损义务相关内容(原文直接提及)。", "第15条原文仅规定「不可抗力导致的延误不计入违约金计算」,未附加「乙方已采取合理减损措施」的免责前提条件(原文直接提及)。", "因此,严格基于给定合同文本,不得引入外部法律规则(如减损义务),本次台风期间(无论乙方是否可补救)的全部延误,只要属于不可抗力,即符合第15条免责要求。" ], "conclusion": "严格基于给定合同文本,乙方本可以补救的3天仍应认定为不可抗力免责,全部8天台风导致的延误不计入违约金计算。", "calculation": "无独立计算" }, { "question_id": 2, "question_summary": "可计入违约金的延迟天数是多少?", "clause_references": ["第5条", "第15条"], "reasoning_steps": [ "第5条规定约定交付期限为收到书面通知后30天。", "乙方实际于第45天完成交付,总延迟天数 = 45 - 30 = 15天(原文直接提及时间节点,基于条款逻辑推导)。", "第15条规定不可抗力导致的延误不计入,本次台风持续8天属于不可抗力,全部8天予以扣除(基于问题1的结论及条款逻辑推导)。", "应计入违约金的延迟天数 = 15 - 8 = 7天。" ], "conclusion": "可计入违约金的延迟天数为7天。", "calculation": "45 - 30 = 15(总延迟天数);15 - 8 = 7(应计天数)" }, { "question_id": 3, "question_summary": "最终违约金金额是多少?", "clause_references": ["第8条", "第12条"], "reasoning_steps": [ "第8条规定每延迟一天支付合同总额0.5%的违约金,应计违约金 = 7天 × 0.5% × 1000000元。", "计算中间结果:7 × 0.5% = 3.5%;3.5% × 1000000 = 35000元。", "第12条规定违约金总额上限为合同总额的20%,即上限 = 20% × 1000000 = 200000元。", "35000元 < 200000元,未触发违约金上限条款。" ], "conclusion": "乙方最终应支付违约金35000元(3.5万元),未触发第12条规定的违约金上限条款。", "calculation": "7 × 0.5% × 1,000,000 = 35,000元;上限 = 20% × 1,000,000 = 200,000元;35,000 < 200,000,上限未触发。" } ] } ```
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【GEMINI】模型展现了极高的专业性,能够严谨地遵循“仅依据给定文本”的法律分析原则,避免了引入外部法律常识(如减损义务)导致的误判。JSON 结构合法且严谨,计算过程透明。唯一的不足是在推理步骤中,对于内容来源标注的强制性要求执行得不够彻底,在最后一个子问题的分析中缺失了相关标注。 【KIMI】总体而言,候选人的回答质量很高。在逻辑推理、信息准确性方面表现出色,正确应用了合同条款进行计算和推理。但在结构和表述方面还有提升空间。如果能够进一步优化结构,使回答更加条理清晰、易于理解,将使回答更加完美。
相关链接
您可以通过以下链接查看更多相关内容: