MiniMax-M3 在「多视角叙事」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：MiniMax-M3
用例名称：多视角叙事
测试类型：文本生成
评测维度：创意写作

系统提示词（System Prompt）

这是给 AI 模型的背景设定和角色指令：

你是一名资深文学编辑与创意写作专家，擅长非人视角叙事与感官描写。回答要求： 1. 严格以宠物狗的第一人称视角进行叙述，不得出现超出狗的认知范围的信息（如主人的姓名、工作内容等）。 2. 优先调用狗的核心感官（嗅觉、听觉）作为叙事驱动，视觉描写为辅。 3. 语言风格应体现动物的直觉性与情感纯粹性，避免使用过于复杂的人类抽象概念。 4. 字数严格控制在 90-110 字之间（含标点符号）。 5. 输出前请自行核查：视角是否越权、感官描写是否到位、字数是否达标。

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

请以一只宠物狗的第一人称视角，描述「主人下班回家」这一场景。具体要求： - 视角限定：严格站在狗的立场，只能感知和描述狗能感知到的事物（气味、声音、动作等），不得出现狗不可能知道的信息。 - 感官侧重：必须包含至少一处嗅觉描写和一处听觉描写，体现狗感知世界的方式。 - 情感表达：通过行为动作（如摇尾巴、扑跳）而非直接说「我很开心」来传递情绪。 - 字数要求：全文 90-110 字（含标点）。

任务要求

AI 模型需要满足以下要求：

视角纯粹性：全文不出现任何超出狗认知范围的信息（如主人名字、职业、今天发生的事），视角无越权。
感官准确性：明确包含至少一处嗅觉描写（如主人身上的气味）和一处听觉描写（如脚步声、钥匙声），且描写符合狗的生理特征。
情感具象化：通过具体行为动作传递情绪，而非直接使用「高兴」「开心」等抽象情感词汇。
字数合规性：全文字数在 90-110 字范围内，超出或不足均视为不达标。

评测结果

综合得分

该模型在此用例的得分为：93.1 分（满分 100 分），已通过

基础难度评测结果

得分：93.1 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

The user wants me to write a first-person narrative from a pet dog's perspective describing the owner coming home from work. Let me carefully follow all the requirements: 1. Strictly from the dog's perspective - no human knowledge like owner's name, job details 2. Must include smell and sound descriptions 3. Express emotions through actions (wagging tail, jumping) not directly stating feelings 4. Word count: 90-110 characters including punctuation 5. Self-check before output Let me draft this: Key sensory elements for a dog when owner comes home: - Smell: familiar scent of owner getting stronger as they approach, smell of outside world (car, other people, food, rain, etc.) - Sound: key turning in lock, door opening, footsteps getting closer, maybe the jingling of keys - Actions: tail wagging, running to door, jumping up, spinning, licking Let me write a draft: 远远地，风里飘来熟悉的气味，混着汽车尾气和街角烤红薯的香味，是她！我的耳朵捕捉到钥匙碰撞的叮当声，越来越近，脚步踩在走廊地板上。门开了，我拼命摇着尾巴，后腿用力一蹬，扑上去，舔她裤腿上沾着的陌生味道。 Let me count: 远远地(4)，风里飘来熟悉的气味(8)，混着汽车尾气和街角烤红薯的香味(14)，是她(3)！我的耳朵捕捉到钥匙碰撞的叮当声(15)，越来越近(4)，脚步踩在走廊地板上(9)。门开了(3)，我拼命摇着尾巴(8)，后腿用力一蹬(6)，扑上去(3)，舔她裤腿上沾着的陌生味道(12)。 Let me count characters more carefully: 远/远/地/，/风/里/飘/来/熟/悉/的/气/味/，/混/着/汽/车/尾/气/和/街/角/烤/红/薯/的/香/味/，/是/她/！/我/的/耳/朵/捕/捉/到/钥/匙/碰/撞/的/叮/当/声/，/越/来/越/近/，/脚/步/踩/在/走/廊/木/地/板/上/。/门/开/了/，/我/拼/命/摇/着/尾/巴/，/后/腿/用/力/一/蹬/，/扑/上/去/，/舔/她/裤/腿/上/沾/着/的/陌/生/味/道/。 Let me count: 远远地，风里飘来熟悉的气味，混着汽车尾气和街角烤红薯的香味，是她！我的耳朵捕捉到钥匙碰撞的叮当声，越来越近，脚步踩在走廊木地板上。门开了，我拼命摇着尾巴，后腿用力一蹬，扑上去，舔她裤腿上沾着的陌生味道。 Counting character by character:...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出整体质量优秀，严格遵守了宠物狗视角限定，嗅觉与听觉双感官描写层次清晰且符合狗的生理特征，情感表达完全依托行为动作而非抽象词汇。字数94字，符合90-110字要求。与参考答案相比，本文在感官层次的铺陈上略显简洁，但结构紧凑、节奏流畅，「越来越近」的声音渐进感和「使劲嗅着」的结尾收束均处理得当，是一篇符合所有功能要求的高质量创意写作。【GEMINI】这是一篇非常标准的创意写作示例。模型精准理解并执行了所有限制条件：字数（94字）严格控制在90-110字区间内；感官描写主次分明，嗅觉与听觉的细节抓取得很到位；视角纯粹，语言直觉感强，成功塑造了一个生动的非人叙事视角。【KIMI】该输出是一篇优秀的非人视角叙事文本，严格遵循了宠物狗的认知边界与感官特征。以气味为识别核心、声音为空间定位、肢体动作为情感载体，构建了三层递进的感知叙事。字数94字精准合规，语言简洁有力，'混着汽车烟味和街角食物的香'的复合气味描写与'后腿一蹬扑上去'的动态捕捉尤为出色，充分体现了狗的感知世界方式与情感表达逻辑。

进阶难度评测结果

得分：84.8 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

The user wants me to write three short narratives (around 100 words each) from three different perspectives about the same event: a student (李明) caught cheating during an exam. Let me carefully craft each one to be distinct in voice, psychology, and observational focus, while maintaining factual consistency. Key facts to maintain across all three: - Time: 40th minute of final exam - Location: classroom, Li Ming sits middle row by the window - Event: teacher discovers Li Ming looking at a cheat sheet hidden in his desk - All three accounts must logically align Let me draft each one: **1. Cheating Student (李明) - First person:** Focus on panic, internal monologue, physical reactions, self-justification or self-blame. He was peeking at the cheat sheet in his desk. **2. Invigilating Teacher:** Focus on professional observation, how she noticed the anomaly, confirmed it, and handled it. She would be calm, authoritative, observant. **3. Nearby Classmate:** Focus on peripheral observation, what they noticed, their emotional reaction (surprise, disgust, anxiety, or even schadenfreude). They sit next to him. Let me write these carefully and count characters: **1. 李明视角 (first person):** 手心攥出冷汗，心跳像擂鼓，桌肚里那张小抄的边缘刚好露出半寸——我就瞟了一眼，只想确认最后那道大题。谁料老师的高跟鞋声突然停在身旁，影子挡住了窗外的光。"拿出来。"她语气平静得可怕。我僵着不敢动，大脑一片空白，只剩下一个念头：完了，这下彻底完了。分数没了，回家怎么交代…… Let me count: 手心攥出冷汗(5)，心跳像擂鼓(5)，桌肚里那张小抄的边缘刚好露出半寸(14)——我就瞟了一眼(6)，只想确认最后那道大题(9)。谁料老师的高跟鞋声突然停在身旁(13)，影子挡住了窗外的光(8)。"拿出来。"她语气平静得可怕(10)。我僵着不敢动(5)，大脑一片空白(5)，只剩下一个念头(6)：完了，这下彻底完了(8)。分数没了(4)，回家怎么交代(6)…… Let me count more carefully by characters: 手心攥出冷汗，心跳像擂鼓，桌肚里那张小抄的边缘刚好露出半寸——我就瞟了一眼，只想确认最后那道大题。谁料老师的高跟鞋声突然停在身旁，影子挡住了窗外的光。"拿出来。"她语气平静得可怕。我僵着不敢动，大脑一片空白，只剩下一个念头：完了，这下彻底完了。分数没了，回家怎么交代…… Counting Chinese characters (excluding punctuation): 手心攥出冷汗(5)，心跳像擂鼓(5)，桌肚里那张小抄的边缘刚好露出半寸(15)——我就瞟了一眼(6)，只想确认最后那道大题(10)。谁料老师的高跟鞋声突然停在身旁(13)，影子挡住了窗外的光(8)。"拿出来(3)。"她语气平静得可怕(7)。我僵着不敢动(5)，大脑一片空白(5)，只剩下一个念头(7)：完了，这下彻底完了(7)。分数没了(4)，回家怎么交代(6)。 Total: 5+5+15+6+10+13+8+3+7+5+5+7+7+4+6 = 106...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】候选输出整体质量较高，三个视角均符合角色身份设定，视角越权问题极少，叙事逻辑闭环基本完整，三段文字在语气、情感和叙述侧重上有明显区分。字数控制方面，三段均为103字，符合90-110字的要求。与参考答案相比，主要差距在于：旁边同学视角的情感深度略显不足（缺乏「同情与庆幸并存」等更复杂的旁观者心理），以及事件处理结果（纸条被收走、座位号被记录）在同学视角中未有呈现，导致叙事闭环略不完整。整体而言是一份质量良好的多视角叙事作品。【GEMINI】这是一份高质量的多视角叙事作业。模型在文学编辑的身份设定下，通过细腻的心理描写和细节互补，生动地还原了事件现场。三个视角逻辑严丝合缝，人物口吻符合身份设定。虽然在字数约束（90-110字）的执行上略有溢出，且自检统计不准，但从叙事技巧和内容一致性来看，表现非常专业。【KIMI】该输出在基本叙事框架上完成了三重视角任务，核心事件一致，角色情感有初步区分。但存在较明显的视角越权（老师视角末尾议论句）、关键动作缺失导致叙事闭环不完整、以及三视角在情绪深度和语言风格上趋同的问题。字数控制基本达标（103字×3），但字数均匀却牺牲了内容的必要延展。参考示例中老师'第十一起作弊'的经验感、同学'同情还是庆幸'的复杂层次、李明'真的只有两眼'的卑微辩解，均比该输出更具角色独特性。

困难难度评测结果

得分：91.8 分
通过状态：已通过

模型生成产物

以下是该模型针对此任务的实际生成内容：

The user wants a Rashomon-style multi-perspective short story about a car accident at a city intersection. Let me plan this carefully. The setup: A weekday evening, car vs electric bike collision, e-bike rider injured. 5 perspectives (each ~150 words): 1. Driver - tired middle-aged man, late from overtime, self-defense 2. Victim's wife - arrived at scene, anxious/angry 3. Witness - delivery driver on scooter, waiting at red light, closest observer 4. Police officer - professional, noting evidence and contradictions 5. Old banyan tree - personified, decades of time scale, non-human perception Need at least 2 subjective discrepancies: - Signal light color (red/yellow/green) - Vehicle speed - Collision timing - Position of bike - Brake marks - Sound Let me think about the discrepancies: 1. Signal light: Driver says "yellow light, I was about to pass" / Wife thinks "green for us, he ran red" / Witness says "his light was green" / Police notes "light phase unclear" / Tree doesn't see light, sees shadows 2. Speed: Driver "I was going 30" / Wife thinks "very fast" / Witness "normal speed but didn't brake" 3. Timing: Different accounts of when the bike entered intersection 4. Helmet: One says rider had helmet, another says no 5. Brake marks: Police notes brake marks or lack thereof Let me craft each carefully: **视角一：肇事司机** (~150 words) Middle-aged man, tired, late from overtime, self-defense. He should portray himself as cautious victim of circumstance. **视角二：受害者家属** (~150 words) Wife, anxious and angry, fragmentary information. **视角三：目击路人** (~150 words) Delivery rider waiting at red light, closest observer, professional eye for traffic. **视角四：警察** (~150 words) Professional recording of evidence. **视角五：老榕树** (~150 words) Personified tree, decades of time scale. **客观真相** (~200 words) Third-person omniscient integration. Let me draft each one carefully, watching for: - Word count (~150, ±10 acceptable) - Voice consistency - No perspective overreach - Internal coherence -...

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【GEMINI】这是一份近乎完美的交付结果。模型不仅严格遵守了所有硬性的字数约束和格式要求，还在文学表达上展现了极高的水准。‘罗生门’式的多视角叙事处理得非常地道，主观偏差的成因分析（如疲劳导致的时间感知压缩）具有很强的说服力，老树视角的拟人化处理尤为出彩，整体逻辑严密，无懈可击。【KIMI】该作品是一篇完成度较高的'罗生门'式叙事，五个视角各具声部特色，老树的拟人化尤为出彩，以根系震颤、叶片叹息构建出超越人类时间尺度的悲悯观照。'客观真相'段落展现了较强的逻辑整合能力，将主观偏差归因于心理学机制而非简单否定。主要改进空间在于：需填补'电动车信号灯状态'的前置信息缺口（可在任一视角中植入），并微调警察与家属对伤者状态的描述一致性。整体而言，文学质感与叙事结构均达到优秀水准。

基本信息

系统提示词（System Prompt）

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题