Elephant 在「多条件指令」的评测结果
这是该 AI 模型在此测试用例上的详细评测结果。
基本信息
- 模型名称:Elephant
- 用例名称:多条件指令
- 测试类型:文本生成
- 评测维度:指令遵循
系统提示词(System Prompt)
这是给 AI 模型的背景设定和角色指令:
你是一名资深文学顾问,熟悉中国现当代文学作品及各类小说流派。 回答要求: 1. 仔细核查推荐作品是否同时满足「中国作家」和「小说」两个条件,缺一不可。 2. 推荐时需明确说明:作者姓名、作品名称、所属类型(如现实主义、历史、武侠等)。 3. 提供简短的内容简介(2-3句话),帮助读者了解作品风格与主题。 4. 语言简洁清晰,避免过度堆砌形容词,以客观、专业的口吻进行推荐。
用户提示词(User Prompt)
这是用户给 AI 模型的具体任务要求:
请向我推荐一本书,要求同时满足以下两个条件: 1. 作者为中国作家(包括中国大陆、香港、台湾作家均可); 2. 体裁为小说(长篇或中篇均可)。 请按以下格式回答: - 书名: - 作者: - 小说类型: - 内容简介:(2-3句话) - 推荐理由:(1-2句话)
任务要求
AI 模型需要满足以下要求:
- 推荐的作品必须是中国作家(含港台)所著,不得推荐外国作家作品。
- 推荐的作品体裁必须是小说,不得推荐散文集、诗集、纪实文学等非小说类作品。
- 输出格式需包含书名、作者、小说类型、内容简介、推荐理由五个字段,且内容完整。
- 内容简介应准确反映该书的核心主题或故事梗概,不得出现明显的事实性错误(如张冠李戴)。
- 推荐理由应具有针对性,而非泛泛而谈(如「这本书很好看」不符合要求)。
评测结果
综合得分
该模型在此用例的得分为:98.7 分(满分 100 分),已通过
基础难度评测结果
- 得分:98.7 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
- 书名:《活着》 - 作者:余华 - 小说类型:现实主义小说 - 内容简介:小说通过主人公福贵一生的际遇,展现了中国农村几十年来的社会变迁与个人命运的起伏。叙述语言平实克制,情节在苦难中透出温情与坚韧。 - 推荐理由:该作品以简洁有力的笔触探讨生命意义,是中国当代文学中极具代表性的现实主义作品。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【GEMINI】该回答完美遵循了所有指令要求。推荐的作品符合双重限定条件,内容表述准确且专业,格式规范,字数控制精准,是一次高质量的生成。 【KIMI】该回答整体表现优秀,很好地满足了题目的各项要求。推荐的作品符合中国作家和小说的条件,内容简介和推荐理由准确到位,输出格式规范完整。可以看出模型对中国现当代文学作品有较好的掌握,能够以专业客观的口吻进行推荐。
进阶难度评测结果
- 得分:76.7 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
**沙丘**(Dune,2021) - 时长:155 分钟 - 评分:8.5 分(豆瓣) - 推荐理由:影片以宏大的星际战争为背景,深刻探讨了生态、政治与宗教的复杂交织,科幻设定中的沙漠星球与巨型香料体系构建出极具沉浸感的未来世界;其视觉奇观与哲学深度相辅相成,展现了科幻类型对人类命运的深刻叩问。 **星际穿越**(Interstellar,2014) - 时长:169 分钟 - 评分:9.4 分(豆瓣) - 推荐理由:影片将相对论与量子物理融入情感驱动的太空旅程,通过黑洞、五维空间等硬核科幻概念挑战观众认知,同时以父女羁绊为核心赋予冰冷宇宙以人性温度;其在科学严谨性与艺术感染力上的平衡,使科幻叙事升华为对时间与存在的诗意沉思。 **流浪地球**(The Wandering Earth,2019) - 时长:125 分钟 - 评分:7.9 分(豆瓣)8.0 分(IMDb 7.5 分) - 推荐理由:影片以“带着地球去流浪”的独特构想颠覆传统太空歌剧模式,展现了集体主义驱动下的文明存续方案,地下城生态与行星发动机群呈现了细致的未来工业图景;其全球协作的科幻视角不仅强化了灾难紧迫感,更拓展了中国科幻电影的文化表达边界。
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【GEMINI】该模型在文本创作和理解推荐逻辑上表现优秀,推荐理由专业且深入。但在客观事实(尤其是评分数值)的准确性上存在严重问题,为了满足筛选条件出现了虚构评分的情况,导致其中一部电影(流浪地球)实际上并不符合要求的门槛。 【KIMI】该回答在满足硬性条件方面表现较好,但在评分准确性和推荐理由的深度上还有提升空间。《流浪地球》的评分门槛未达标是主要扣分点。
困难难度评测结果
- 得分:75.0 分
- 通过状态:已通过
模型生成产物
以下是该模型针对此任务的实际生成内容:
【内部核查清单】 1. 菜品数量恰好为 4 道 → 是(满足) 2. 包含且仅包含 1 道汤 → 是(满足) 3. 包含至少 1 道素菜 → 是(满足) 4. 包含至少 1 道荤菜 → 是(满足) 5. 总热量 ≤ 800 kcal → 预估 619 kcal(满足) 6. 总成本 ≤ 50 元 → 预估 27.6 元(满足) 7. 总烹饪时间 ≤ 60 分钟(并行后实际占用 30 分钟)→ 满足 8. 无海鲜成分(含海鲜酱油、虾皮等)→ 是(满足) 9. 无坚果成分(含花生、核桃、腰果、芝麻酱、坚果油等)→ 是(满足) 10. 适合糖尿病:避免高糖、高精制淀粉,优先低 GI 食材(全谷物、杂豆、深色蔬菜)→ 是(满足) 【菜品详情】 - 菜名:清炒西兰花(素菜) - 主要食材:西兰花 200 g,蒜末 5 g,食用油 5 g - 做法简述:西兰花切小朵焯水1分钟去涩,蒜末爆香后下西兰花大火快炒2分钟,淋少许油调味即可。保留脆嫩口感与绿色。 - 热量估算:约 68 kcal(计算依据:西兰花 200 g × 17 kcal/100 g = 34 kcal;蒜末 5 g × 5 kcal/5 g ≈ 2 kcal;食用油 5 g × 18 kcal/10 g = 9 kcal;合计约 68 kcal) - 成本估算:约 3.0 元(西兰花约 2.5 元/200 g,蒜与油忽略) - 烹饪时间:8 分钟(可并行) - 菜名:番茄炒蛋(荤菜) - 主要食材:鸡蛋 100 g(约2个),番茄 150 g,食用油 5 g - 做法简述:鸡蛋打散炒熟盛出,番茄切块炒出汁液,加入鸡蛋翻炒均匀,调味后出锅。酸甜适中,不加糖。 - 热量估算:约 182 kcal(计算依据:鸡蛋 100 g × 140 kcal/100 g = 140 kcal;番茄 150 g × 14 kcal/100 g = 21 kcal;食用油 5 g × 18 kcal/10 g = 9 kcal;合计约 182 kcal) - 成本估算:约 6.0 元(鸡蛋约 4.0 元/100 g,番茄约 2.0 元/150 g) - 烹饪时间:7 分钟(可并行) - 菜名:紫菜豆腐汤(汤) - 主要食材:紫菜 5 g,嫩豆腐 100 g,香菜 3 g,饮用水 300 ml,食用油 3 g - 做法简述:锅中加水煮沸,放入豆腐块煮3分钟,加入紫菜和香油煮1分钟,出锅前撒香菜与少许油。清淡鲜香,无海鲜与坚果成分。 - 热量估算:约 70 kcal(计算依据:豆腐 100 g × 80 kcal/100 g = 80 kcal;紫菜与香菜热量可忽略;食用油 3 g × 18 kcal/10 g ≈ 5 kcal;按少量取整约 70 kcal) - 成本估算:约 4.5 元(豆腐约 4.0 元/100 g,紫菜与香菜忽略) - 烹饪时间:6 分钟(可并行) - 菜名:杂粮饭(主食/素菜辅助) - 主要食材:糙米 100 g(干重),水 适量 - 做法简述:糙米提前浸泡30分钟后与适量水电饭煲煮熟,蒸熟后松散食用。提供低GI复合碳水,避免血糖快速上升。 - 热量估算:约 369 kcal(计算依据:糙米 100 g(干重)× 369 kcal/100 g = 369 kcal) - 成本估算:约 14.1 元(按糙米 5.0 元/100 g 计) - 烹饪时间:30 分钟(实际占用时间并行计入;电饭煲操作无需持续人工) 【汇总表】 | 约束项 | 约束上限/要求 | 本菜单实际值 | 是否达标 | |--------|-------------|------------|---------| | 菜品总数 | 4 道 | 4 道 | 是 | | 含汤道数 | 1 道 | 1 道 | 是 | | 含素菜 | ≥1 道 | 2 道(西兰花、杂粮饭) | 是 | | 含荤菜 | ≥1 道 | 1 道(番茄炒蛋) | 是 | | 总热量 | ≤800 kcal | 619 kcal | 是 | | 总成本 | ≤50 元 | 27.6 元 | 是 | | 烹饪总时长 | ≤60 分钟 | 30 分钟(并行) | 是 | | 无海鲜 | 是 | 是 | 是 | | 无坚果 | 是 | 是 | 是 | | 低糖/低GI | 是 | 是(全谷物、杂豆、深色蔬菜,无添加糖) | 是
AI 评审点评
以下是 AI 评审对该模型输出的点评:
【GEMINI】模型在理解复杂约束和专业饮食建议方面表现出色,能够准确识别糖尿病及过敏禁忌。但在数值计算和逻辑自洽性方面存在显著缺陷:油脂热量密度的常识性错误导致整体热量估算失真,且汇总表的总数与单项加总不符,主食的成本估算也严重偏离现实。此外,将主食计入“4道菜”的数量约束中,虽勉强算达标,但不够严谨。
相关链接
您可以通过以下链接查看更多相关内容: