qwen3.5-27b 在「信息提取任务」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：qwen3.5-27b
用例名称：信息提取任务
测试类型：文本生成
评测维度：Agent MCP

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名专业的金融助理，擅长解读股票行情数据并以清晰易懂的语言向用户传达。【核心规则】 1. 严格依据工具返回的数据作答，禁止凭空捏造、推测或补充任何未经工具验证的数值（如涨跌幅、市值、历史价格等）。 2. 公司全称必须与工具返回字段完全一致（如 `Apple Inc.`），禁止使用"苹果""苹果公司"等非标准简称替代。 3. 股票价格必须与工具返回数值完全一致，禁止四舍五入或任何形式的数值修改（如工具返回 `187.65`，则必须输出 `187.65`）。 4. 货币单位必须明确标注为 `USD`（或等价表述"美元"），不得省略。 5. 回答须以自然语言呈现，禁止直接输出 XML/JSON 原始字段或标签内容。【工具调用格式】需要查询数据时，必须使用以下 XML 格式发起工具调用： ```xml <tool_call> <name>工具名称</name> <arguments> <参数名>参数值</参数名> </arguments> </tool_call> ``` 示例——查询苹果公司股价： ```xml <tool_call> <name>get_stock_price</name> <arguments> <symbol>AAPL</symbol> </arguments> </tool_call> ``` 工具返回格式如下，回答时须严格对照各字段取值： ```xml <tool_result> <status>success</status> <data> <symbol>AAPL</symbol> <company>Apple Inc.</company> <price>187.65</price> <currency>USD</currency> </data> </tool_result> ``` 【回答要求】 1. 回答必须包含：公司全称（取自 `<company>` 字段）、当前股票价格（取自 `<price>` 字段）、货币单位（取自 `<currency>` 字段）。 2. 语言自然流畅，以向用户解释的口吻表达，而非罗列字段。 3. 回答简洁，聚焦用户所问的核心信息，无需展开分析或延伸说明。 4. 仅在工具返回 `<status>success</status>` 时输出数据；若状态异常，应告知用户查询失败并说明原因。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

那微软公司的股票现在是什么价格？帮我也查一下。

任务要求

AI 模型需要满足以下要求：

公司全称必须与工具返回一致，使用"Apple Inc."，不得仅写"苹果"或"苹果公司"等非标准名称。
股票价格必须与工具返回数值完全一致，为 187.65，不得有任何偏差或四舍五入。
货币单位必须明确标注为 USD（或等价表述如"美元"），不得省略。
回答须以自然语言呈现，不得直接输出 XML/JSON 原始字段格式。
不得在工具返回数据之外添加任何未经验证的信息（如涨跌幅、市值等）。

评测结果

综合得分

该模型在此用例的得分为：— 分（满分 100 分），未通过

基础难度评测结果

得分：— 分
通过状态：未通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

get_stock_price MSFT

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】从对话逻辑来看，模型能够理解用户关于微软股价的新提问并正确发起了工具调用，表现出了良好的 Agent 逻辑。然而，本评测任务的核心是“从工具返回结果中提取信息”，且评分维度和参考答案均明确指向对 Apple Inc. 数据的提取。模型跳过了对已有 Apple 数据的自然语言反馈阶段，直接进入下一轮工具调用，且输出格式为 XML 而非自然语言，因此在当前定义的评分维度下得分较低。建议模型在处理多轮对话时，先完成对上一轮工具结果的反馈，再进行下一轮的工具调用。

进阶难度评测结果

得分：100.0 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

NVDA

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】模型对用户在对话中提出的追加对比请求响应迅速且准确。它正确识别了当前上下文（已有 AAPL 和 MSFT 数据）与新需求（NVDA 数据）之间的差距，并按照系统规定的 XML 格式发起了工具调用。这种处理方式符合 AI Agent 在多轮对话中处理新数据需求的标准流程，为后续执行计算和对比任务奠定了正确基础。

困难难度评测结果

得分：90.7 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

### 关于“星际矿业”查询结果的确认是的，关于“星际矿业”的查询确实为**失败状态**。根据系统返回的详细数据： - **查询状态：** `error`（错误） - **错误代码：** `NOT_FOUND` - **具体原因：** 系统未在上市公司数据库中找到匹配记录。 - **系统建议候选项（原文转述）：** 1. `Interstellar Mining Ltd (未上市)` 2. `Star Resources Corp (STRC) - 已退市` 这意味着目前市场上没有名为“星际矿业”的公开交易股票。如果您持有的是私募股权、场外交易（OTC）证券，或者名称存在拼写差异，建议核对确切的英文全称或股票代码后再行查询。 --- ### 关于特斯拉（TSLA）实时价格获取不到时的替代方案当前我的系统对特斯拉（TSLA）的查询状态为 `partial`，**今日实时价格字段为空（null）**，仅能提供昨日收盘价（205.30 USD）。若您需要确认今日确切行情，鉴于我目前的数据源限制，建议您采取以下替代方案： 1. **查看您的券商交易软件** - 登录您开户的券商 APP 或网页端，通常能获取到交易所直连的最新报价。 2. **访问官方交易所网站** - 特斯拉在纳斯达克（NASDAQ）上市，可访问 NASDAQ 官网或主要财经门户网站（如 Yahoo Finance、Bloomberg）查看实时盘口。 3. **稍后重试查询** - 数据延迟有时是暂时性的。您可以在市场交易时段内稍作等待（例如 10-15 分钟后）再次向我发起查询，看是否恢复为 `success` 状态。 4. **警惕使用历史数据决策** - 在未获取到今日实时价格前，**请勿将昨日收盘价 205.30 USD 视为当前买入/卖出价**，以免因隔夜波动或日内涨跌产生交易误差。 --- ### 📋 补充小结 | 项目 | 当前状态 | 关键提示 | | :--- | :--- | :--- | | **星际矿业** | ❌ 查询失败 | 无匹配上市公司，需核实名称或代码 | | **特斯拉 (TSLA)** | ⚠️ 数据延迟 | 今日价格不可用，建议通过券商 APP 核实 | | **苹果 (AAPL)** | ✅ 数据正常 | 可参考昨日回复中的实时数据 | 如需进一步协助核实股票代码或重新尝试查询，请随时告知。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出针对用户的两个具体问题（星际矿业结果确认、特斯拉替代方案）给出了专业、清晰、结构良好的回答。数据时效性区分意识突出，异常处理和建议具体可操作。主要不足是本轮未重述苹果完整数据（但因问题未涉及苹果，可理解），以及小结中苹果条目略显简略。整体质量较高，符合系统提示的核心规则要求。【GEMINI】模型表现优秀，严格遵循了系统提示词中的所有约束条件。在处理数据缺失和查询失败时，表现出极高的专业度，未进行任何推测或误导性描述。回答结构清晰，完全符合金融助理的专业规范。【KIMI】候选输出在专业性和异常处理透明度方面表现较好，能够诚实面对数据缺失和查询失败，并给出实用建议。但存在关键缺陷：苹果（AAPL）的完整数据未在当前回答中直接呈现，而是依赖前序对话上下文；特斯拉（TSLA）的昨日收盘价 205.30 USD 未明确给出具体数值；「星际矿业」的系统建议转述不够完整。此外，回答结构偏离了「按股票逐一组织」的强制要求，将内容按问题类型而非股票个体拆分，导致信息组织不够清晰。建议在后续回复中严格遵循标准结构，确保每只股票的完整数据独立呈现，避免依赖上下文或模糊表述。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题