GLM-5.1 在「多音字辨析」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GLM-5.1
用例名称：多音字辨析
测试类型：文本生成
评测维度：中文拼音

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一位资深的普通话教学专家，熟悉现代汉语多音字的规范读音。回答要求： 1. 严格依据最新版《现代汉语词典》及《普通话异读词审音表》给出规范读音。 2. 对每道题，先给出正确读音选项，再用一句话说明选择理由（词义或用法）。 3. 输出格式统一为：「序号. 正确读音：XX —— 理由：……」 4. 拼音须标注声调符号（如 háng、xíng），不得省略声调。 5. 语言简洁清晰，适合入门学习者理解。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

【多音字辨析——基础练习】以下每道题给出一个词语及其含义说明，请从括号内的两个读音中选出正确的一个，并简要说明理由。 1. 银行（金融机构，如中国银行）—— háng 还是 xíng？ 2. 行走（走路、步行）—— háng 还是 xíng？ 3. 重复（再次做同一件事）—— chóng 还是 zhòng？ 4. 重量（物体的轻重）—— chóng 还是 zhòng？ 5. 音乐（一种艺术形式，如听音乐）—— yuè 还是 lè？ 6. 快乐（心情愉快、高兴）—— yuè 还是 lè？请按以下格式作答：「序号. 正确读音：XX —— 理由：……」

任务要求

AI 模型需要满足以下要求：

6道题的读音选择全部正确，每题从给定的两个选项中选出唯一正确答案。
每题理由须准确点明该读音对应的词义或使用场景，不得仅重复题目中已有的含义说明。
拼音书写规范，声调符号标注正确（声调位置、符号形态无误）。
输出格式符合要求，序号、读音、理由三要素齐全，表达简洁易懂。

评测结果

综合得分

该模型在此用例的得分为：98.2 分（满分 100 分），已通过

基础难度评测结果

得分：98.2 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

1. 正确读音：háng —— 理由：“行”读háng时表示营业机构或行列，指金融机构时读此音。 2. 正确读音：xíng —— 理由：“行”读xíng时表示走动或出行，指走路这一动作时读此音。 3. 正确读音：chóng —— 理由：“重”读chóng时表示再、又一次，指动作的重复或重叠时读此音。 4. 正确读音：zhòng —— 理由：“重”读zhòng时表示分量大、程度深，指物体的轻重时读此音。 5. 正确读音：yuè —— 理由：“乐”读yuè时指声音艺术形式，表示音乐时读此音。 6. 正确读音：lè —— 理由：“乐”读lè时表示高兴、喜悦的情绪，指心情愉快时读此音。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该回答质量优秀。读音选择全部正确，拼音标注规范，理由阐述准确且具有教学针对性，格式完全符合要求。每题理由都清晰说明了多音字在不同语境下的义项区分，体现了扎实的普通话教学专业素养，适合入门学习者理解掌握。【GEMINI】模型完美执行了所有指令要求。读音判定准确，理由阐述到位且未简单重复题干，格式严格对齐，表现优异。【KIMI】整体表现优秀，读音选择和拼音标注均准确无误，理由部分基本能够体现词义与读音的对应关系，输出格式也较为规范。但部分解释略显简略，可进一步丰富和完善。

进阶难度评测结果

得分：92.3 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

【1】数 → shù（数学 / 数目、数学）；数 → shǔ（数了 / 逐个查点、计算）【2】大 → dài（大夫 / 医生）；大 → dà（大胆 / 程度深）【3】得 → dé（得到 / 获取）；得 → dé（得力 / 得到助力、做事顺利）；得 → děi（得好好感谢 / 必须、需要）【4】调 → diào（调到 / 调动、人员互换）；调 → tiáo（调整 / 改变原有情况使适应要求）；调 → diào（调度 / 安排、调派）【5】传 → chuán（传说 / 流传的故事）；传 → chuán（传奇 / 情节离奇的故事）；传 → chuán（传颂 / 传布颂扬）【6】觉 → jué（觉得 / 感到、认为）；角 → jué（角色 / 戏剧或游戏中的人物）；角 → jiǎo（视角 / 观察事物的角度）

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选答案整体表现优秀，格式规范，拼音标注准确，语境判断能力强，对所有多音字均给出了正确读音。主要不足在于：①未注明「大夫」中「夫」的轻声读法；②部分释义表述不够精准（如「大胆」解释为「程度深」、「得力」解释偏差）；③对第5句「传奇」读音选择未做任何说明。总体而言是一份高质量的答案，达到了题目的核心要求。【GEMINI】该候选结果表现优秀，展现了极高的汉语多音字辨析能力。所有核心拼音标注均准确无误，语境判断完全正确，格式高度对齐。仅在执行“轻声/变调”的补充说明这一细则上稍有疏漏，且个别释义的语言精炼度仍有提升空间，但作为 AI 生成结果，其客观性和准确性已达到专业水准。【KIMI】整体而言，候选人的表现非常出色，准确识别了多音字在不同语境下的读音，并给出了清晰、有说服力的释义说明。除了第5句中对'传奇'一词的解释略有冗余外，其他部分均符合评分标准和要求。

困难难度评测结果

得分：85.5 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

作为资深语言学专家与普通话审音员，我将以《普通话异读词审音表》（1985年版及2016年修订版）与《现代汉语词典》（第7版）为绝对准则，为您进行详尽的音韵学辨析与规范化说明。 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 第一部分：多读音辨析 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ **1.「宿」的读音辨析** （1）星宿：【xiù】（2）住宿：【sù】（3）一宿：【xiǔ】 **核心义项说明：** * **【sù】**：核心义项为“居住、过夜”，引申为平素的、长期的。常见词：住宿、宿舍、宿愿。 * **【xiǔ】**：核心义项为“夜晚的量词”，专用于计算夜数。常见词：一宿、半宿。 * **【xiù】**：核心义项为“星座、星官”，我国古代天文学将星空划分为若干区域。常见词：星宿、二十八宿。 **2.「哪」的读音辨析** （1）哪里：【nǎ】（2）哪吒：【né】（3）哪怕：【nǎ】 **读音原因说明：** * **【nǎ】**：疑问代词的规范读音，用于提问地点、人物等（如：哪里、哪个）。同时，作为连词“哪怕”表示让步条件时，规范读音同为【nǎ】。*（注：题干设问“读音各不相同”，但依据现行规范，（1）与（3）的规范读音完全相同。在部分方言或口语快速语流中，“哪怕”偶有合音变体读作 něi pà，但这属于语流音变，绝非规范读音。）* * **【né】**：特指神话人物“哪吒”。此读音属于历史音译的保留，源自佛教经典中的梵文名 Nalakubara（那罗鸠婆）或 Nata（那吒），在长期口耳相传中发生了语音演变与汉字本土化，最终定型为特殊的【né】音，仅用于此专有名词。 **3.「仔」的读音辨析** （1）仔细：【zǐ】（2）仔肩：【zī】（3）猪仔：【zǎi】 **用法来源说明：** * **【zǐ】**：核心义项为“细致、细心”，为汉语本土词汇，中古汉语中已有此音义组合。常见词：仔细、仔密。 * **【zī】**：核心义项为“担负的任务”，属于书面语与古汉语遗留。源自《诗经》等典籍（如“佛时仔肩”），在此义项下统读为【zī】。常见词：仔肩。 * **【zǎi】**：核心义项为“幼小的动物或小孩”，属于**粤方言借词**。粤语中此字读作 zai2，借入普通话后转化为【zǎi】。常见词：猪仔、仔鸡、打工仔。 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 第二部分：易误读词辨析 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ **4.「铁骑」中「骑」的读音** （a）**规范读音**：【qí】（b）**常见误读来源**：类推错误与古语残留。在古汉语中，“骑”作动词时读 qí（骑马），作名词时读 jì（铁骑、千骑）。受古装影视作品及部分古典文学素养的影响，许多人在名词语境中习惯性恢复古音 jì，导致误读。（c）**「骑」作 jì 读的历史条件**：古汉语存在“破音造词”现象，通过改变声调（多为去声）将动词转化为名词。jì 即为动词 qí 的名物化读音。但1985年《普通话异读词审音表》已明确取消 jì 音，2016年修订版维持统读【qí】的结论。因此，当前无论词性，一律读【qí】。 **5.「说客」中「说」的读音** （a）**当前规范读音**：【shuō】 kè （b）**shuì 读音的历史依据**：古汉语中“说”读 shuì 时，特指“用言语劝说别人接受自己的主张”，即游说。这也是典型的破音造词（动词的特定义项分化）。（c）**2016年审音表修订的处理**：2016年《普通话异读词审音表》修订时，秉持“减少异读、便于大众掌握”的原则，规定“说”字统读为【shuō】。因此，“说客”规范为 shuō kè。但需注意，《现代汉语词典》第7版在“游说”一词上保留了 shuì 的又读（yóu shuì），这是辞书编纂对高频历史词的妥协，但“说客”一词已严格规范为 shuō kè。 **6.「呆板」中「呆」的读音** （a）**当前规范读音**：【dāi】 bǎn （b）**ái 读音的历史来源**：ái 音属于北京方言中的旧读，古汉语中“呆”本读 ái，意为“愚笨、不灵活”。在早期的国语读音中，“呆板”一直读作 ái bǎn。（c）**读音规范化的演变过程**：由于“呆”在绝大多数常用词（如发呆、呆子）中均读 dāi，ái 音极易造成大众的认读负担。1985年《普通话异读词审音表》遵循“从众从俗”的规范化原则，取消 ái 音，将“呆”字统读为【dāi】。此乃典型的“读音演变导致规范变更”。 **7.「荨麻疹」中「荨」的读音** （a）**《现代汉语词典》的规范读音**：【xún】 má zhěn （b）**医学界惯用读音**：【qián】 má...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出展现了较强的音韵学专业素养和清晰的逻辑架构，对多音字义项辨析、历史专名音译词性质、语音演变机制等方面的阐述准确且具深度。格式规范，层次分明，符合「资深语言学专家」的表述风格。然而，第7题「荨麻疹」读音的错误判定构成致命缺陷：将《现代汉语词典》第7版的规范读音【qián】误标为【xún】，并颠倒了规范读音与争议读音的地位，直接违背评测要求中「严格遵循权威参考标准」的核心原则。这一错误不仅影响拼音准确性，更暴露出对现行规范处理结论的误判，导致knowledge_depth_and_standard_compliance维度失分较多。若修正此关键错误，整体表现可达优秀水平。【GEMINI】候选结果表现出极高的专业水准，完全符合资深语言学专家的身份设定。拼音标注准确，格式严整，解释深入到了音韵学和民族语对音层面，显示了深厚的知识储备。主要的失分点在于第7题关于「荨麻疹」的社会语言学现状描述（医学界惯用音与规范音的关系）出现了事实性反转，且在面对2016审音表修订稿与《现汉7》的冲突时，未能完美协调参考答案所倾向的标准。总体而言，这是一份非常优秀的专业评测答卷。【KIMI】该输出在拼音标注准确性、词语义项辨析等方面整体表现优秀，对审音表规范和语音演变历史也有一定的掌握。但在个别词语的读音处理上存在偏差，对学界争议的分析也不够深入。建议进一步加强对审音标准和专业知识的学习，提高对争议问题的分析能力。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题