GPT Image 2 在「多类物体混合计数」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GPT Image 2
用例名称：多类物体混合计数
测试类型：图像生成
评测维度：数量控制

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

一个木制书架上整齐摆放着不同颜色的书籍：5本蓝色的书、3本红色的书、2本绿色的书。书脊朝外，每本书都能清晰看到，背景是简单的白墙。

任务要求

AI 模型需要满足以下要求：

蓝色书籍数量为5本，允许±1本的误差范围（即4-6本视为基本达标）
红色书籍数量为3本，允许±1本的误差范围（即2-4本视为基本达标）
绿色书籍数量为2本，允许±1本的误差范围（即1-3本视为基本达标）
三种颜色（蓝、红、绿）均须出现，不得缺失任何一种颜色，且不得出现Prompt未提及的其他颜色书籍
所有书籍书脊朝外竖直摆放，每本书的颜色清晰可辨，无明显遮挡
书架须呈现木制材质特征，书籍在书架上整齐排列，符合真实书架的物理逻辑
背景为简单白墙，画面中不应出现与描述无关的额外物体或装饰元素

评测结果

综合得分

该模型在此用例的得分为：97.67 分（满分 100 分），已通过

基础难度评测结果

得分：97.67 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这是一张几乎完美完成提示词要求的AI生成图像。在核心任务「多类物体计数」上表现优异：蓝色5本、红色3本、绿色2本的数量要求精确达成，颜色属性绑定准确无误，书架的木制材质真实自然，书籍排列整齐且书脊朝外清晰可见，背景白墙简洁干净。图像不仅满足了所有关键要求，还在细节处理上展现了较高水准（如书脊上的装饰纹样和中文标题），整体画面符合物理逻辑且视觉效果清晰。唯一可以挑剔的是书籍略显统一化（高度、厚度、装帧风格高度一致），但这并不影响提示词要求的完成度。综合来看，这是一张高质量的测试样本，成功验证了模型在多类物体计数任务上的能力。

进阶难度评测结果

得分：71.67 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在属性绑定和空间清晰度方面表现良好，彩色桌布和整体派对氛围营造到位，大部分物品数量准确。但核心问题在于计数准确性：蓝色纸杯缺少1个（5个而非6个），且背景出现未要求的额外气球，影响了多物体计数任务的完成度。空间布局虽然清晰，但略显对称刻板，缺少自然随意感。综合来看，图像部分完成了Prompt要求，但在关键的计数维度上存在明显偏差，需要改进模型对多类别物体精确计数的能力。

困难难度评测结果

得分：77.33 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在视觉呈现质量和属性绑定方面表现优秀，鸟瞰视角标准、场景结构清晰、颜色与车型对应准确，但在核心任务「多类别物体精确计数」上存在严重失误：5个类别中4个数量错误，总车辆数超出要求19%（25辆 vs 21辆）。这表明模型在复杂计数任务中的数值控制能力不足，尤其是南北向车道出现系统性多生成问题（公交车+1、货车+2、摩托车+2）。尽管画面质量高，但未能完成Prompt的核心要求，整体评价为「部分完成，计数准确性严重不足」。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题