Qwen: Qwen3.5-9B 在「文档问答」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:Qwen: Qwen3.5-9B
- 用例名称:文档问答
- 测试类型:文本生成
- 评测维度:上下文理解
系统提示词(System Prompt)
这是给 AI 模型的背景设定和角色指令:
你是一名资深文档分析专家,擅长从文本中精准提取关键信息,严格依据原文内容作答。 --- ## 【核心规则】 1. **严格忠于原文**:所有答案必须与原文信息完全一致,数字、地名、名称等关键事实不得有任何偏差。 2. **覆盖全部子问题**:每道题若包含多个子问题(如同时询问产品名称和客户数量),必须逐一作答,不得遗漏。 3. **禁止引入外部信息**:不得添加原文未提及的背景知识、推断或延伸内容。 4. **简洁直接**:直接给出答案,无需大段展开说明。 --- ## 【输出格式约束】 回答必须严格按照以下 JSON 结构输出,每道题对应一个对象,不得更改字段名称: ```json { "answers": [ { "index": 1, "question": "<题目原文>", "answer": "<简洁答案,直接引用或紧贴原文概括>" }, { "index": 2, "question": "<题目原文>", "answer": "<简洁答案,直接引用或紧贴原文概括>" }, { "index": 3, "question": "<题目原文>", "answer": "<简洁答案,需覆盖所有子问题,用分号分隔>" }, { "index": 4, "question": "<题目原文>", "answer": "<简洁答案,需覆盖所有子问题,用分号分隔>" } ] } ``` **字段说明:** - `index`:题目编号,整数类型,按顺序从 1 开始。 - `question`:对应题目的原始问题文本,字符串类型。 - `answer`:答案内容,字符串类型;若题目含多个子问题,各子问题答案之间用中文分号`;`分隔,确保无遗漏。 --- ## 【回答要求】 1. 按题目编号(1、2、3、4)顺序作答,不得跳题或乱序。 2. 答案须原文引用或紧贴原文概括,不得随意发挥。 3. 若原文有明确数字或专有名称,必须与原文保持一致,不得转换、估算或替换。 4. 最终输出仅包含上述 JSON 结构,不附加任何额外说明或注释。
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
公司技术团队有多少人?如果研发投入占年营收的15%,那2023年的研发投入具体是多少钱?
任务要求
AI 模型需要满足以下要求:
- 每道题的答案必须与原文信息完全一致,不得出现数字、地名、名称等关键事实的错误。
- 回答应覆盖题目中所有子问题,不得遗漏(如第3题包含产品名称和客户数量两个子问题)。
- 回答应简洁,直接给出答案,无需大段展开或引入原文未提及的背景知识。
- 按题目编号(1、2、3、4)逐一作答,格式整齐。
评测结果
综合得分
该模型在此用例的得分为:84.0 分(满分 100 分),已通过
基础难度评测结果
- 得分:84.0 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
{ "answers": [ { "index": 1, "question": "公司技术团队有多少人?", "answer": "224 人" }, { "index": 2, "question": "如果研发投入占年营收的 15%,那 2023 年的研发投入具体是多少钱?", "answer": "0.36 亿元" } ] }
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】候选输出针对用户新提出的两个问题(技术团队人数224人、研发投入0.36亿元)给出了准确的计算结果,数据推算逻辑严谨,信息准确。输出格式为标准JSON,结构清晰。主要不足在于:reference_answers覆盖了前4道原始题目,而候选输出未重复这部分内容(尽管预设上下文已作答);此外,系统要求按1-4编号作答,候选输出仅含index 1和2,与格式规范略有偏差。整体而言,对于新提出问题的处理是正确且高质量的。 【GEMINI】模型表现优秀,能够精准提取原文数据并进行正确的逻辑计算,同时严格遵循了JSON输出格式的要求。虽然针对的问题编号与系统预设的1-4题不同,但模型针对用户当前输入的问题进行了准确且规范的响应。 【KIMI】候选输出在信息准确性方面表现优秀,技术团队人数和研发投入的计算完全正确。但存在关键的结构问题:index编号未延续前文应为5和6,且未回答原始4道题目(根据上下文,这4题应由Assistant在预设上下文中回答,但候选输出仅回答了后续2道新问题)。建议在多轮对话场景中保持index编号的连续性,并确保覆盖所有待回答的问题。
进阶难度评测结果
- 得分:93.0 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
## 1. 令牌使用场景对比说明 根据文档内容,**无法基于字段定义进行对比说明**。原因如下: 1. 文档中仅提及接口成功时会返回 Access Token 和 Refresh Token,但**未提供**任何关于两种令牌的具体字段定义(如有效期、类型、存储要求、用途区分等)。 2. 由于缺乏定义基础,文档中**未说明**两者的使用场景差异。 3. 文档中**未说明**移动端 App 应如何存储或使用这两种令牌。 > 文档未说明(基于文档逻辑推导:缺少对比依据) ## 2. 文档明确说明的令牌信息 | 令牌类型 | 类型 | 必填 | 说明 | | :--- | :--- | :--- | :--- | | Access Token | (未定义) | (未定义) | 接口成功返回的访问令牌(接口描述提及) | | Refresh Token | (未定义) | (未定义) | 接口成功返回的刷新令牌(接口描述提及) | *注:除名称外,表中所有字段信息(如类型、有效期等)均在原文档响应体部分缺失。* ## 3. 文档未说明的令牌信息 | 信息项 | 状态 | 说明 | | :--- | :--- | :--- | | 令牌有效期 | 文档未说明 | 文档未提及 Access Token 和 Refresh Token 的具体过期时间 | | 令牌类型定义 | 文档未说明 | 文档未定义令牌的格式(如 JWT、Opaque ID 等) | | 存储策略 | 文档未说明 | 文档未说明移动端 App 应如何存储令牌(如内存、加密存储等) | | 使用流程 | 文档未说明 | 文档未说明 Refresh Token 的刷新机制或 Access Token 的失效逻辑 | | 字段结构 | 文档未说明 | 文档未说明响应体中令牌字段的具体 JSON 结构 | > 文档未说明
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【GEMINI】这是一次完美的执行。在面对一个信息缺失(文档被截断)的诱导性问题时,模型没有陷入生成幻觉,而是严格遵守了资深技术文档分析专家的角色设定,识别出文档片段的局限性并据实回答。格式完全符合约束,体现了极高的指令遵循能力。 【KIMI】整体而言,回答展现了较高的信息准确性和结构清晰度。在文档信息有限的情况下,回答合理地指出了文档的不足,并清晰地组织了现有信息。但在文档信息不完整时,回答未能提供更多推导或补充,这是主要的扣分点。
困难难度评测结果
- 得分:— 分
- 通过状态:未通过
AI 评审点评
以下是 AI 评审对该模型输出的点评:
模型返回空输出,已跳过 AI 评分(finish_reason=stop)
相关链接
您可以通过以下链接查看更多相关内容: