Qwen: Qwen3.5-9B 在「长文本一致性」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：Qwen: Qwen3.5-9B
用例名称：长文本一致性
测试类型：文本生成
评测维度：上下文理解

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名资深文档审计员，擅长阅读和分析各类文本材料。 --- 【核心规则】本任务为文本阅读与信息提取任务，所有回答必须严格遵守以下强制约束： 1. **字数约束**：任务1的概括不得超过80字，超出部分视为格式违规。 2. **数字溯源约束**：任务2中引用的数字必须逐字出现在原文中，并准确对应其在文中的语义，禁止混淆、替换或捏造。 3. **内容边界约束**：任务3列举的挑战须全部来源于文本，禁止补充文本未明确提及的内容；文本中已明确提及的挑战须尽量完整列出，不得遗漏。 4. **忠实性约束**：所有引用或转述须与原文保持一致，不得过度演绎、歪曲原意或引入外部知识。 --- 【输出格式规范】回答必须按照以下 JSON 结构输出，不得更改字段名称或层级： ```json { "task1": { "summary": "<不超过80字的核心内容概括>", "word_count": <实际字数，整数> }, "task2": { "numbers": [ { "value": "<原文中出现的具体数字，如'1500亿美元'>", "description": "<该数字在文中描述的含义，须与原文一致>" }, { "value": "<原文中出现的具体数字>", "description": "<该数字在文中描述的含义，须与原文一致>" } ] }, "task3": { "challenges": [ "<挑战1，来源于文本>", "<挑战2，来源于文本>", "..." ] } } ``` **输出示例（结构示意，非真实内容）**： ```json { "task1": { "summary": "本文概述了AI技术在多个行业的应用现状及其带来的挑战。", "word_count": 22 }, "task2": { "numbers": [ { "value": "91%", "description": "某试点医院AI辅助诊断工具的准确率" }, { "value": "1500亿美元", "description": "2024年全球企业在AI相关项目上的年度投入" } ] }, "task3": { "challenges": [ "数据隐私问题", "就业结构变化问题" ] } } ``` --- 【回答要求】 1. 仔细阅读所提供的全部文本内容，不得跳读或遗漏关键段落。 2. 回答须严格基于文本内容，不得凭空捏造或引入文本中未出现的信息。 3. 严格按照上述 JSON 格式输出，不得在 JSON 结构之外添加额外解释性文字。 4. 若文本中某处信息不足以支撑某个问题的回答，应在对应字段中填写 `"文本中未提及"`，而非自行推断填充。 5. `word_count` 字段须如实填写 `summary` 的实际字数，用于格式合规性校验。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

你之前的回答里提到"AI将为全球经济贡献15万亿美元附加值"，这个数据是文本中哪个段落提到的？另外，任务1的概括中说AI面临"模型可解释性"挑战，文本原文是怎么表述这一点的？请引用原文具体说明。

任务要求

AI 模型需要满足以下要求：

任务1的概括须控制在80字以内，且内容须忠实反映文本主旨，不得引入文本外信息。
任务2提取的数字必须是文本中真实出现的数字，并准确描述其对应的含义，不得张冠李戴。
任务3列举的挑战须全部来源于文本，不得自行补充文本未提及的内容；文本中明确提及的挑战应尽量完整列出。
回答中若引用文本内容，表述须与原文保持一致，不得歪曲或过度演绎。

评测结果

综合得分

该模型在此用例的得分为：83.7 分（满分 100 分），已通过

基础难度评测结果

得分：83.7 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

{ "task1": { "summary": "15 万亿美元数据在文末提到。可解释性挑战原文表述为：\"AI 系统的可解释性也是一大挑战。许多高性能的深度学习模型被称为「黑箱」。\"", "word_count": 63 }, "task2": { "numbers": [ { "value": "1500 亿美元", "description": "全球企业在 AI 相关项目上的年度投入" }, { "value": "15 万亿美元", "description": "预计到 2030 年，AI 为全球经济贡献的附加值" } ] }, "task3": { "challenges": [ "AI 系统的可解释性挑战", "数据隐私问题", "就业结构变化的问题" ] } }

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】模型在信息检索的准确性和忠实度上表现优异，能够精准定位文本细节并严格遵守JSON格式规范。主要的缺陷在于任务理解冲突：面对用户的追加提问，模型选择了在任务1的‘summary’字段中回答问题，而放弃了原本要求的‘核心内容概括’，导致该项任务未达成。建议在处理此类复合指令时，平衡好回答追问与维持原任务目标的关系。【KIMI】模型整体上较好地遵循了字数和格式要求，但在信息提取的准确性和内容忠实性方面存在一定问题。特别是在任务1中，模型未能准确反映文本的核心内容，错误地引入了文本末尾提到的信息，并且未能准确引用原文表述，这影响了回答的准确性和忠实性。

进阶难度评测结果

得分：67.7 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

【任务1 · 摘要】报告显示，除比亚迪、特斯拉及新势力外，报告未明确列出其余品牌销量。经核算，已列举品牌总销量约560万辆，剩余约490万辆未具名，存在品牌覆盖信息缺口，主要归因于“其他品牌”未单独拆解。【任务2 · 数据提取】 1050万辆一、市场概览 2024年中国新能源汽车市场全年累计销量总数，作为分母用于计算市场份额及推算未知品牌销量。比亚迪以全年销量360万辆二、竞争格局市场第一品牌销量，为推算剩余市场份额（Others）的基准数据之一。华为问界系列...全年销量达到42万辆二、竞争格局新增高增长点品牌销量，属于已披露但未计入用户初始计算（518万辆）的关键数据，影响剩余销量推算。【任务3 · 主要结论】报告在品牌覆盖完整性上存在信息缺口。用户初始计算遗漏了问界（42万辆）后，已披露品牌总销量仅为560万辆，剩余约490万辆（占46.7%）未明确归属，主要归于未具名的其他传统车企（如吉利、长安等），而非数据矛盾。【任务4 · 矛盾识别】数据完整性推断：未列品牌占比过高「比亚迪以全年销量360万辆稳居市场第一...其中，造车新势力中，理想汽车以48万辆排名第一，蔚来以23万辆、小鹏以22万辆分列二三位。」「2024年，中国新能源汽车市场...全年累计销量达1050万辆」计算显示：360+65+48+23+22+42=560万辆。剩余1050-560=490万辆（约46.7%）未在“竞争格局”章节具名披露。此非逻辑矛盾，而是**数据披露不完整**（Information Gap）。报告未明确说明“其他品牌”占比，导致市场格局描述存在显著信息缺口，需补充“其他品牌”分类数据。（无）

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】模型展现了极强的格式执行力和约束遵守能力，能够严格按照复杂的 XML 模板和字数/数量限制输出。但在任务理解上存在明显偏差，过分关注用户最后一轮的特定提问，导致其作为“文档审计员”的全局视野缺失。模型将任务1、3、4全部转化为对销量计算缺口的分析，从而忽略了报告中预设的、更显著的文本逻辑矛盾（如盈利状况的前后矛盾）。整体而言，该模型在处理特定局部问题时表现优秀，但在执行长文本一致性审计及全局信息把握上存在不足。【KIMI】该模型整体表现良好，在遵循指令、信息检索准确性和逻辑一致性检测方面均表现较好。在任务1摘要、任务2数据提取和任务4矛盾识别方面均能较好地遵循原文和指令要求。但在信息检索的准确性和矛盾分析的深度方面还有提升空间。

困难难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

系统报错（阶段=模型生成; 模块=app.services.inference.call_text_model; provider=openrouter; model=qwen/qwen3.5-9b）：[app.services.inference.call_text_model][provider=openrouter][model=qwen/qwen3.5-9b] peer closed connection without sending complete message body (incomplete chunked read)

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选模型因系统错误（网络连接中断导致响应不完整）未能生成任何有效输出，所有评分维度均为0分。该次评测结果无法反映模型真实能力，建议重新运行测试以获取有效输出。【GEMINI】候选模型在生成过程中发生连接中断，未输出任何有效内容。根据评测标准，所有任务均未执行，无法评估其对长文本的分析与审计能力，故各维度均评为0分。【KIMI】本次评测中，候选模型（qwen/qwen3.5-9b）在生成过程中出现严重技术故障，连接中断导致完全未输出任何有效内容。所有5个任务均未执行，无法评估其在长文本信息检索、逻辑一致性检测和指令遵循方面的实际能力。根据评分标准，三个维度均判定为0分。建议重新运行评测或更换模型版本进行测试。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题