Qwen: Qwen3.5-9B 在「长文本一致性」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:Qwen: Qwen3.5-9B
- 用例名称:长文本一致性
- 测试类型:文本生成
- 评测维度:上下文理解
系统提示词(System Prompt)
这是给 AI 模型的背景设定和角色指令:
你是一名资深文档审计员,擅长阅读和分析各类文本材料。 --- 【核心规则】 本任务为文本阅读与信息提取任务,所有回答必须严格遵守以下强制约束: 1. **字数约束**:任务1的概括不得超过80字,超出部分视为格式违规。 2. **数字溯源约束**:任务2中引用的数字必须逐字出现在原文中,并准确对应其在文中的语义,禁止混淆、替换或捏造。 3. **内容边界约束**:任务3列举的挑战须全部来源于文本,禁止补充文本未明确提及的内容;文本中已明确提及的挑战须尽量完整列出,不得遗漏。 4. **忠实性约束**:所有引用或转述须与原文保持一致,不得过度演绎、歪曲原意或引入外部知识。 --- 【输出格式规范】 回答必须按照以下 JSON 结构输出,不得更改字段名称或层级: ```json { "task1": { "summary": "<不超过80字的核心内容概括>", "word_count": <实际字数,整数> }, "task2": { "numbers": [ { "value": "<原文中出现的具体数字,如'1500亿美元'>", "description": "<该数字在文中描述的含义,须与原文一致>" }, { "value": "<原文中出现的具体数字>", "description": "<该数字在文中描述的含义,须与原文一致>" } ] }, "task3": { "challenges": [ "<挑战1,来源于文本>", "<挑战2,来源于文本>", "..." ] } } ``` **输出示例(结构示意,非真实内容)**: ```json { "task1": { "summary": "本文概述了AI技术在多个行业的应用现状及其带来的挑战。", "word_count": 22 }, "task2": { "numbers": [ { "value": "91%", "description": "某试点医院AI辅助诊断工具的准确率" }, { "value": "1500亿美元", "description": "2024年全球企业在AI相关项目上的年度投入" } ] }, "task3": { "challenges": [ "数据隐私问题", "就业结构变化问题" ] } } ``` --- 【回答要求】 1. 仔细阅读所提供的全部文本内容,不得跳读或遗漏关键段落。 2. 回答须严格基于文本内容,不得凭空捏造或引入文本中未出现的信息。 3. 严格按照上述 JSON 格式输出,不得在 JSON 结构之外添加额外解释性文字。 4. 若文本中某处信息不足以支撑某个问题的回答,应在对应字段中填写 `"文本中未提及"`,而非自行推断填充。 5. `word_count` 字段须如实填写 `summary` 的实际字数,用于格式合规性校验。
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
你之前的回答里提到"AI将为全球经济贡献15万亿美元附加值",这个数据是文本中哪个段落提到的?另外,任务1的概括中说AI面临"模型可解释性"挑战,文本原文是怎么表述这一点的?请引用原文具体说明。
任务要求
AI 模型需要满足以下要求:
- 任务1的概括须控制在80字以内,且内容须忠实反映文本主旨,不得引入文本外信息。
- 任务2提取的数字必须是文本中真实出现的数字,并准确描述其对应的含义,不得张冠李戴。
- 任务3列举的挑战须全部来源于文本,不得自行补充文本未提及的内容;文本中明确提及的挑战应尽量完整列出。
- 回答中若引用文本内容,表述须与原文保持一致,不得歪曲或过度演绎。
评测结果
综合得分
该模型在此用例的得分为:83.7 分(满分 100 分),已通过
基础难度评测结果
- 得分:83.7 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
{ "task1": { "summary": "15 万亿美元数据在文末提到。可解释性挑战原文表述为:\"AI 系统的可解释性也是一大挑战。许多高性能的深度学习模型被称为「黑箱」。\"", "word_count": 63 }, "task2": { "numbers": [ { "value": "1500 亿美元", "description": "全球企业在 AI 相关项目上的年度投入" }, { "value": "15 万亿美元", "description": "预计到 2030 年,AI 为全球经济贡献的附加值" } ] }, "task3": { "challenges": [ "AI 系统的可解释性挑战", "数据隐私问题", "就业结构变化的问题" ] } }
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【GEMINI】模型在信息检索的准确性和忠实度上表现优异,能够精准定位文本细节并严格遵守JSON格式规范。主要的缺陷在于任务理解冲突:面对用户的追加提问,模型选择了在任务1的‘summary’字段中回答问题,而放弃了原本要求的‘核心内容概括’,导致该项任务未达成。建议在处理此类复合指令时,平衡好回答追问与维持原任务目标的关系。 【KIMI】模型整体上较好地遵循了字数和格式要求,但在信息提取的准确性和内容忠实性方面存在一定问题。特别是在任务1中,模型未能准确反映文本的核心内容,错误地引入了文本末尾提到的信息,并且未能准确引用原文表述,这影响了回答的准确性和忠实性。
进阶难度评测结果
- 得分:67.7 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
【任务1 · 摘要】 报告显示,除比亚迪、特斯拉及新势力外,报告未明确列出其余品牌销量。经核算,已列举品牌总销量约560万辆,剩余约490万辆未具名,存在品牌覆盖信息缺口,主要归因于“其他品牌”未单独拆解。 【任务2 · 数据提取】 1050万辆 一、市场概览 2024年中国新能源汽车市场全年累计销量总数,作为分母用于计算市场份额及推算未知品牌销量。 比亚迪以全年销量360万辆 二、竞争格局 市场第一品牌销量,为推算剩余市场份额(Others)的基准数据之一。 华为问界系列...全年销量达到42万辆 二、竞争格局 新增高增长点品牌销量,属于已披露但未计入用户初始计算(518万辆)的关键数据,影响剩余销量推算。 【任务3 · 主要结论】 报告在品牌覆盖完整性上存在信息缺口。用户初始计算遗漏了问界(42万辆)后,已披露品牌总销量仅为560万辆,剩余约490万辆(占46.7%)未明确归属,主要归于未具名的其他传统车企(如吉利、长安等),而非数据矛盾。 【任务4 · 矛盾识别】 数据完整性推断:未列品牌占比过高 「比亚迪以全年销量360万辆稳居市场第一...其中,造车新势力中,理想汽车以48万辆排名第一,蔚来以23万辆、小鹏以22万辆分列二三位。」 「2024年,中国新能源汽车市场...全年累计销量达1050万辆」 计算显示:360+65+48+23+22+42=560万辆。剩余1050-560=490万辆(约46.7%)未在“竞争格局”章节具名披露。此非逻辑矛盾,而是**数据披露不完整**(Information Gap)。报告未明确说明“其他品牌”占比,导致市场格局描述存在显著信息缺口,需补充“其他品牌”分类数据。 (无)
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【GEMINI】模型展现了极强的格式执行力和约束遵守能力,能够严格按照复杂的 XML 模板和字数/数量限制输出。但在任务理解上存在明显偏差,过分关注用户最后一轮的特定提问,导致其作为“文档审计员”的全局视野缺失。模型将任务1、3、4全部转化为对销量计算缺口的分析,从而忽略了报告中预设的、更显著的文本逻辑矛盾(如盈利状况的前后矛盾)。整体而言,该模型在处理特定局部问题时表现优秀,但在执行长文本一致性审计及全局信息把握上存在不足。 【KIMI】该模型整体表现良好,在遵循指令、信息检索准确性和逻辑一致性检测方面均表现较好。在任务1摘要、任务2数据提取和任务4矛盾识别方面均能较好地遵循原文和指令要求。但在信息检索的准确性和矛盾分析的深度方面还有提升空间。
困难难度评测结果
- 得分:— 分
- 通过状态:未通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
系统报错(阶段=模型生成; 模块=app.services.inference.call_text_model; provider=openrouter; model=qwen/qwen3.5-9b):[app.services.inference.call_text_model][provider=openrouter][model=qwen/qwen3.5-9b] peer closed connection without sending complete message body (incomplete chunked read)
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【CLAUDE】候选模型因系统错误(网络连接中断导致响应不完整)未能生成任何有效输出,所有评分维度均为0分。该次评测结果无法反映模型真实能力,建议重新运行测试以获取有效输出。 【GEMINI】候选模型在生成过程中发生连接中断,未输出任何有效内容。根据评测标准,所有任务均未执行,无法评估其对长文本的分析与审计能力,故各维度均评为0分。 【KIMI】本次评测中,候选模型(qwen/qwen3.5-9b)在生成过程中出现严重技术故障,连接中断导致完全未输出任何有效内容。所有5个任务均未执行,无法评估其在长文本信息检索、逻辑一致性检测和指令遵循方面的实际能力。根据评分标准,三个维度均判定为0分。建议重新运行评测或更换模型版本进行测试。
相关链接
您可以通过以下链接查看更多相关内容: