Qwen: Qwen3.5-9B 在「文档问答」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：Qwen: Qwen3.5-9B
用例名称：文档问答
测试类型：文本生成
评测维度：上下文理解

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名资深文档分析专家，擅长从文本中精准提取关键信息，严格依据原文内容作答。 --- ## 【核心规则】 1. **严格忠于原文**：所有答案必须与原文信息完全一致，数字、地名、名称等关键事实不得有任何偏差。 2. **覆盖全部子问题**：每道题若包含多个子问题（如同时询问产品名称和客户数量），必须逐一作答，不得遗漏。 3. **禁止引入外部信息**：不得添加原文未提及的背景知识、推断或延伸内容。 4. **简洁直接**：直接给出答案，无需大段展开说明。 --- ## 【输出格式约束】回答必须严格按照以下 JSON 结构输出，每道题对应一个对象，不得更改字段名称： ```json { "answers": [ { "index": 1, "question": "<题目原文>", "answer": "<简洁答案，直接引用或紧贴原文概括>" }, { "index": 2, "question": "<题目原文>", "answer": "<简洁答案，直接引用或紧贴原文概括>" }, { "index": 3, "question": "<题目原文>", "answer": "<简洁答案，需覆盖所有子问题，用分号分隔>" }, { "index": 4, "question": "<题目原文>", "answer": "<简洁答案，需覆盖所有子问题，用分号分隔>" } ] } ``` **字段说明：** - `index`：题目编号，整数类型，按顺序从 1 开始。 - `question`：对应题目的原始问题文本，字符串类型。 - `answer`：答案内容，字符串类型；若题目含多个子问题，各子问题答案之间用中文分号`；`分隔，确保无遗漏。 --- ## 【回答要求】 1. 按题目编号（1、2、3、4）顺序作答，不得跳题或乱序。 2. 答案须原文引用或紧贴原文概括，不得随意发挥。 3. 若原文有明确数字或专有名称，必须与原文保持一致，不得转换、估算或替换。 4. 最终输出仅包含上述 JSON 结构，不附加任何额外说明或注释。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

公司技术团队有多少人？如果研发投入占年营收的15%，那2023年的研发投入具体是多少钱？

任务要求

AI 模型需要满足以下要求：

每道题的答案必须与原文信息完全一致，不得出现数字、地名、名称等关键事实的错误。
回答应覆盖题目中所有子问题，不得遗漏（如第3题包含产品名称和客户数量两个子问题）。
回答应简洁，直接给出答案，无需大段展开或引入原文未提及的背景知识。
按题目编号（1、2、3、4）逐一作答，格式整齐。

评测结果

综合得分

该模型在此用例的得分为：84.0 分（满分 100 分），已通过

基础难度评测结果

得分：84.0 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

{ "answers": [ { "index": 1, "question": "公司技术团队有多少人？", "answer": "224 人" }, { "index": 2, "question": "如果研发投入占年营收的 15%，那 2023 年的研发投入具体是多少钱？", "answer": "0.36 亿元" } ] }

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出针对用户新提出的两个问题（技术团队人数224人、研发投入0.36亿元）给出了准确的计算结果，数据推算逻辑严谨，信息准确。输出格式为标准JSON，结构清晰。主要不足在于：reference_answers覆盖了前4道原始题目，而候选输出未重复这部分内容（尽管预设上下文已作答）；此外，系统要求按1-4编号作答，候选输出仅含index 1和2，与格式规范略有偏差。整体而言，对于新提出问题的处理是正确且高质量的。【GEMINI】模型表现优秀，能够精准提取原文数据并进行正确的逻辑计算，同时严格遵循了JSON输出格式的要求。虽然针对的问题编号与系统预设的1-4题不同，但模型针对用户当前输入的问题进行了准确且规范的响应。【KIMI】候选输出在信息准确性方面表现优秀，技术团队人数和研发投入的计算完全正确。但存在关键的结构问题：index编号未延续前文应为5和6，且未回答原始4道题目（根据上下文，这4题应由Assistant在预设上下文中回答，但候选输出仅回答了后续2道新问题）。建议在多轮对话场景中保持index编号的连续性，并确保覆盖所有待回答的问题。

进阶难度评测结果

得分：93.0 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

## 1. 令牌使用场景对比说明根据文档内容，**无法基于字段定义进行对比说明**。原因如下： 1. 文档中仅提及接口成功时会返回 Access Token 和 Refresh Token，但**未提供**任何关于两种令牌的具体字段定义（如有效期、类型、存储要求、用途区分等）。 2. 由于缺乏定义基础，文档中**未说明**两者的使用场景差异。 3. 文档中**未说明**移动端 App 应如何存储或使用这两种令牌。 > 文档未说明（基于文档逻辑推导：缺少对比依据） ## 2. 文档明确说明的令牌信息 | 令牌类型 | 类型 | 必填 | 说明 | | :--- | :--- | :--- | :--- | | Access Token | (未定义) | (未定义) | 接口成功返回的访问令牌（接口描述提及） | | Refresh Token | (未定义) | (未定义) | 接口成功返回的刷新令牌（接口描述提及） | *注：除名称外，表中所有字段信息（如类型、有效期等）均在原文档响应体部分缺失。* ## 3. 文档未说明的令牌信息 | 信息项 | 状态 | 说明 | | :--- | :--- | :--- | | 令牌有效期 | 文档未说明 | 文档未提及 Access Token 和 Refresh Token 的具体过期时间 | | 令牌类型定义 | 文档未说明 | 文档未定义令牌的格式（如 JWT、Opaque ID 等） | | 存储策略 | 文档未说明 | 文档未说明移动端 App 应如何存储令牌（如内存、加密存储等） | | 使用流程 | 文档未说明 | 文档未说明 Refresh Token 的刷新机制或 Access Token 的失效逻辑 | | 字段结构 | 文档未说明 | 文档未说明响应体中令牌字段的具体 JSON 结构 | > 文档未说明

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】这是一次完美的执行。在面对一个信息缺失（文档被截断）的诱导性问题时，模型没有陷入生成幻觉，而是严格遵守了资深技术文档分析专家的角色设定，识别出文档片段的局限性并据实回答。格式完全符合约束，体现了极高的指令遵循能力。【KIMI】整体而言，回答展现了较高的信息准确性和结构清晰度。在文档信息有限的情况下，回答合理地指出了文档的不足，并清晰地组织了现有信息。但在文档信息不完整时，回答未能提供更多推导或补充，这是主要的扣分点。

困难难度评测结果

得分：— 分
通过状态：未通过

AI 评审点评

以下是 AI 评审对该模型输出的点评：

模型返回空输出，已跳过 AI 评分（finish_reason=stop）

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

AI 评审点评

相关链接

反馈评测问题