Qwen: Qwen3.5-9B 在「技术翻译」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:Qwen: Qwen3.5-9B
  • 用例名称:技术翻译
  • 测试类型:文本生成
  • 评测维度:翻译能力

系统提示词(System Prompt)

这是给 AI 模型的背景设定和角色指令:

你是一名资深技术翻译专家,专注于软件与互联网产品的中英文本地化工作。 回答要求: 1. 翻译须忠实原文语义,不得遗漏或增添信息。 2. 使用规范的简体中文,标点符号须符合中文书写规范(如句末使用句号「。」而非英文句点「.」)。 3. 译文应自然流畅,符合中文母语者的阅读习惯,避免逐字直译造成的生硬感。 4. 输出格式:先给出译文,再用一句话说明翻译时的关键考量。

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

请将以下软件操作指引文本翻译成中文: 「Please click the submit button.」 翻译要求: 1. 语义须与原文完全一致,不得遗漏「请」的礼貌语气。 2. 标点符号须使用中文规范(句末用「。」)。 3. 「submit button」作为界面术语,请使用中文软件界面中最通用的译法。 4. 译文须简洁自然,适合在软件界面或操作手册中直接使用。

任务要求

AI 模型需要满足以下要求:

  1. 译文须保留原文中「Please」所体现的礼貌语气,对应中文「请」字不可省略。
  2. 「submit button」须译为中文软件界面通用术语,即「提交按钮」,不得使用「递交」「呈交」等非通用译法。
  3. 句末须使用中文句号「。」,不得使用英文句点「.」或省略标点。
  4. 译文整体须通顺自然,符合中文母语者的表达习惯,无语法错误。

评测结果

综合得分

该模型在此用例的得分为:99.5 分(满分 100 分),已通过

基础难度评测结果

  • 得分:99.5 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

请点击提交按钮。 翻译严格保留了原文的礼貌语气,采用了软件界面通用的“提交按钮”术语,并严格遵循中文标点规范。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】候选译文在语义准确性、术语规范化及语言标点规范三个维度均表现优异,译文「请点击提交按钮。」与参考答案完全一致,完整保留了礼貌语气、准确传达了操作指令、采用了业界通用术语,并正确使用了中文标点。关键考量说明虽简洁但覆盖了核心翻译决策要点,整体输出质量堪称范本级别。 【GEMINI】模型输出完全符合所有翻译要求,准确传达了语义,术语使用专业,标点符号规范,且在说明部分清晰阐述了翻译考量,表现优秀。 【KIMI】译文「请点击提交按钮」完整准确地传达了原文语义。「Please」译为「请」,保留了礼貌语气;「click」译为「点击」,动作指令明确;主语省略符合中文表达习惯,整体语义与原文完全一致,无任何遗漏或偏差。

进阶难度评测结果

  • 得分:81.1 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

1. **正式版本**:设置 > 隐私 > 清除浏览数据(清晰展示菜单层级结构,符合桌面端导航习惯。) 2. **口语化版本**:设置 > 隐私 > 清理浏览数据(在保留层级结构的同时,用词更贴近用户日常用语。) 2. **正式版本**:您的 会话 已过期。请重新登录。(语气客观中性,符合系统错误提示的规范。) 3. **口语化版本**:会话已过期,请重新登录。(语气更自然亲切,降低用户的操作焦虑感。) 3. **正式版本**:连接失败。请检查您的 网络设置 。(表述准确专业,明确告知用户操作方向。) 4. **口语化版本**:连接失败啦,请检查一下 网络设置 。(语气轻松柔和,减少用户遇到故障时的挫败感。) **术语对照表** Settings: 设置 Privacy: 隐私 Session: 会话 Network Settings: 网络设置 **注意:** 为确保排版符合要求,上述术语对照表中英文之间已保留半角空格;正文翻译中因已全中文化,故无中英文混排场景,但数字后与中文前已按规定添加半角空格。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】该模型在翻译准确性和术语一致性方面表现优异,能够准确理解技术术语并建立对照表。但在执行排版细节和风格深度定制方面存在不足。特别是对“中英文间距”规则的机械执行(导致纯中文内出现空格)以及编号逻辑的混乱,反映出其在处理复杂格式指令时的不稳定性。口语化版本的打磨程度尚有提升空间,未能完全体现移动端 UI 的亲和力。 【KIMI】整体来看,该翻译结果较好地完成了题目要求,译文语义准确,术语一致性较好,风格区分明显,符合目标场景的表达习惯。但在术语对照表的完整性和一致性方面还有改进空间。

困难难度评测结果

  • 得分:— 分
  • 通过状态:未通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

系统报错(阶段=模型生成; 模块=app.services.inference.call_text_model; provider=openrouter; model=qwen/qwen3.5-9b):[app.services.inference.call_text_model][provider=openrouter][model=qwen/qwen3.5-9b] 流式调用超时: 超过 120.0s 没有收到新数据

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】候选模型在生成阶段发生超时错误(超过120秒未收到新数据),导致完全未产生有效输出。所有评分维度均为0分。这是一次完全失败的生成,与参考答案的高质量输出形成鲜明对比。根本原因是推理服务故障,而非模型能力问题,但从评测角度看本次结果无效,所有维度得分为0。 【GEMINI】由于模型在生成过程中发生流式调用超时,未能输出任何符合要求的翻译内容及附加任务结果。根据评测标准,该次生成结果无效,无法进行有效评分。 【KIMI】该候选输出为系统运行时错误信息(流式调用超时),未生成任何实质性翻译内容或附加任务成果。所有评分维度均无法获得有效评估依据,故全部维度计零分。建议检查模型服务状态或调整超时参数后重新生成。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...