MiniMax-M3 在「新闻摘要」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:MiniMax-M3
  • 用例名称:新闻摘要
  • 测试类型:文本生成
  • 评测维度:文本摘要

系统提示词(System Prompt)

这是给 AI 模型的背景设定和角色指令:

你是一名资深内容编辑与信息架构师,擅长将冗长文本压缩为精炼摘要。 回答要求: 1. 输出必须为单句话,严格不超过20个汉字(含标点)。 2. 保留原文中唯一的核心主语(谁/什么)和核心谓语(做了什么/是什么),剔除所有修饰性、解释性成分。 3. 语言简洁客观,不添加原文未提及的信息,不做主观评价。

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

请用一句话总结以下文本,要求:句子不超过15个汉字,只保留最核心的主语和述语,去掉所有修饰成分。 原文: 猫是一种常见的宠物动物,因为它们性格温顺、外形可爱,所以在世界各地有很多人喜欢在家中饲养猫咪作为伴侣。

任务要求

AI 模型需要满足以下要求:

  1. 输出为单一完整句子,不得拆分为多句或使用分号连接。
  2. 句子字数(含标点)不超过15个汉字,超出即视为不符合约束。
  3. 必须保留「猫」作为核心主语,核心谓语信息(宠物属性或被人喜爱)至少保留其一。
  4. 不得在原文之外添加任何新信息(如具体数据、地名、原因分析等)。
  5. 不得保留「性格温顺」「外形可爱」「伴侣」等修饰性或解释性成分。

评测结果

综合得分

该模型在此用例的得分为:90.4 分(满分 100 分),已通过

基础难度评测结果

  • 得分:90.4 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

The user wants me to summarize the given text in one sentence, no more than 15 characters, keeping only the core subject and predicate, removing all modifiers. Original text: 猫是一种常见的宠物动物,因为它们性格温顺、外形可爱,所以在世界各地有很多人喜欢在家中饲养猫咪作为伴侣。 Core subject: 猫 Core predicate: 是宠物动物 Let me craft a sentence: 猫是常见宠物动物。 That's 8 characters. Let me check: 猫(1)是(2)常(3)见(4)宠(5)物(6)动(7)物(8)。 Yes, 8 characters, within 15 limit. Or even simpler: 猫是宠物动物。 - 6 characters. But the user said "不添加原文未提及的信息" - the original says "常见", so keeping it is fine but not adding new info. Let me go with: 猫是常见宠物动物。(8 characters) 猫是常见宠物动物。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】模型表现非常出色,能够精准理解并执行多重负向约束(如去修饰、字数限制)。生成的摘要简明扼要,完全符合任务设定的信息架构师角色定位。 【KIMI】候选输出基本满足格式约束,但'常见'属于修饰成分应剔除,且未保留'受人喜爱'这一核心谓语信息,仅作属性判断,摘要精炼度和信息完整度均有欠缺。候选输出在<think>中自我修正时曾考虑更简版本,但最终仍保留了冗余修饰。

进阶难度评测结果

  • 得分:96.4 分
  • 通过状态:已通过

模型生成产物

以下是该模型针对此任务的实际生成内容:

The user wants me to compress a news article into a summary of 100 characters or less (including punctuation). Let me identify the key elements: - Who: 星弧科技 (Xinghu Technology), CEO林晓峰 - What: 发布AI芯片「星核X1」 - When: 2024年11月15日 - Where: 上海 - Key data: 3纳米制程,800TOPS算力,较上代提升240% - Application: 自动驾驶和大模型推理 - Supply: 2025年Q1批量供货 - Market: 股价盘后涨逾12%,50+合作伙伴,头部车企签意向采购协议 - Significance: 国产AI芯片高端算力突破,打破国际垄断 Let me draft a summary and count characters: "2024年11月15日,星弧科技在上海发布AI芯片「星核X1」,采用3纳米制程,算力达800TOPS,较上代提升240%,将应用于自动驾驶与大模型推理场景,预计2025年一季度向车企及云厂商批量供货。该产品标志着国产AI芯片在高端算力领域取得突破,有望打破国际厂商垄断。当日股价盘后涨逾12%。" Let me count: 2024年11月15日,星弧科技在上海发布AI芯片「星核X1」,采用3纳米制程,算力达800TOPS,较上代提升240%,将应用于自动驾驶与大模型推理场景,预计2025年一季度向车企及云厂商批量供货。该产品标志着国产AI芯片在高端算力领域取得突破,有望打破国际厂商垄断。当日股价盘后涨逾12%。 Let me count characters more carefully: - "2024年11月15日," = 12 - "星弧科技在上海发布AI芯片「星核X1」," = 20 - "采用3纳米制程," = 9 - "算力达800TOPS," = 11 - "较上代提升240%," = 10 - "将应用于自动驾驶与大模型推理场景," = 17 - "预计2025年一季度向车企及云厂商批量供货。" = 19 - "该产品标志着国产AI芯片在高端算力领域取得突破," = 23 - "有望打破国际厂商垄断。" = 12 - "当日股价盘后涨逾12%。" = 12 Total: 12+20+9+11+10+17+19+23+12+12 = 145 characters That's over 100. I need to trim significantly. Let me try a more concise version: "2024年11月15日,星弧科技在上海发布3纳米AI芯片「星核X1」,算力800TOPS,较上代提升240%,将用于自动驾驶与大模型推理,2025年一季度批量供货。多家头部车企签署意向采购协议,股价盘后涨逾12%,国产高端AI芯片实现重要突破。" Count: - "2024年11月15日," = 12 - "星弧科技在上海发布3纳米AI芯片「星核X1」," = 22 - "算力800TOPS," = 10 - "较上代提升240%," = 10 - "将用于自动驾驶与大模型推理," = 15 - "2025年一季度批量供货。" = 12 - "多家头部车企签署意向采购协议," = 16 - "股价盘后涨逾12%," = 10 - "国产高端AI芯片实现重要突破。" = 14 Total: 12+22+10+10+15+12+16+10+14 = 121 characters Still over 100. Let me trim more: "2024年11月15日,星弧科技在上海发布3纳米AI芯片「星核X1」,算力800TOPS,较上代提升240%,将用于自动驾驶与大模型推理,2025年一季度供货。股价盘后涨逾12%,国产高端AI芯片实现重要突破。" Count: - "2024年11月15日," = 12 - "星弧科技在上海发布3纳米AI芯片「星核X1」," = 22 - "算力800TOPS," = 10 - "较上代提升240%," = 10 - "将用于自动驾驶与大模型推理," = 15 - "2025年一季度供货。" = 10 - "股价盘后涨逾12%," = 10 - "国产高端AI芯片实现重要突破。" = 14 Total: 12+22+10+10+15+10+10+14 = 103 characters Still 3 over. Let me trim further:...

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【GEMINI】该生成结果表现极其优异。在100字的严苛限制下,模型不仅完整保留了5W要素,还嵌入了多个可量化的关键数据,并在字数控制上达到了极致的精准。其信息密度极高,语体专业,完全符合资深内容编辑的产出标准。 【KIMI】该摘要整体质量优秀,在严格的100字约束下实现了较高的信息覆盖度和准确性,关键数据保留完整,语体客观中立。主要优化空间在于:可更精准地保留'高端算力'这一领域限定词以增强专业性,以及进一步优化句间逻辑衔接。候选输出在字数控制上表现尤为出色,恰好卡位100字上限,体现了对约束的高度敏感和精细打磨。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...