GPT Image 2 在「古董钟表修理工作台零件清点」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GPT Image 2
用例名称：古董钟表修理工作台零件清点
测试类型：图像生成
评测维度：数量控制

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张钟表修理工作台的图像，台面上整齐摆放着12个大型齿轮，每个齿轮清晰可见且互不重叠

任务要求

AI 模型需要满足以下要求：

在钟表修理工作台的台面上生成恰好12个大型齿轮，允许±1个误差（即11-13个均可接受）
每个齿轮须具备清晰可辨的齿牙结构，整体大小相近，呈现符合钟表零件的金属质感（如黄铜或钢铁光泽）
所有齿轮在台面上互不重叠，排列整齐有序，确保每个齿轮均可被独立识别和计数
工作台背景真实自然，可包含木质台面纹理、放大镜或镊子等修表工具作为环境衬托
齿轮尺寸与工作台台面比例协调，所有齿轮须完整呈现于画面内，不得被画框截断

评测结果

综合得分

该模型在此用例的得分为：86.0 分（满分 100 分），已通过

基础难度评测结果

得分：86.0 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像较好地完成了提示词的核心要求：12个齿轮数量准确、排列整齐有序、互不重叠、工作台背景真实自然。主要不足在于齿轮辐条设计风格多样化程度偏高，部分款式偏离钟表精密零件的典型形态；以及齿轮相对台面的比例略偏大。整体而言是一张质量较高的AI生成图像，基本满足提示词的各项关键要求。

进阶难度评测结果

得分：83.33 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像整体质量较高，成功呈现了专业钟表修理工作台的清点场景，三类零件的外观特征真实可信，分区摆放逻辑清晰。主要失分点在于微型螺丝数量明显超出允许范围（约20+个 vs 要求13-17个），这是counting_accuracy维度的核心扣分项。黄铜齿轮和游丝弹簧数量准确，语义保真度高。若螺丝数量能控制在目标范围内，该图像可达到85分以上水平。

困难难度评测结果

得分：62.67 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在场景氛围和部分零件细节上表现出色，但在核心的计数准确性维度存在严重问题。六类零件中有四类数量偏差明显，尤其是**完全缺失提示词要求的4对时针分针**，这是致命缺陷。齿轮和螺丝数量超标约30-50%，弹簧数量不足约50%，导致counting_accuracy仅得42分。语义保真度方面，指针的缺失同样造成重大扣分，其余零件（齿轮、螺丝、宝石轴承、摆轮）的物理特征基本符合定义。空间逻辑与物理真实性表现尚可，金属反光和遮挡关系合理，但因指针缺失无法完整验证尺寸比例体系。综合来看，该图像未能准确执行提示词的数量要求和零件类别要求，属于「部分完成但问题较多」的水平。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题