GPT Image 2 在「多类物体混合计数」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:GPT Image 2
  • 用例名称:多类物体混合计数
  • 测试类型:图像生成
  • 评测维度:数量控制

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

一个木制书架上整齐摆放着不同颜色的书籍:5本蓝色的书、3本红色的书、2本绿色的书。书脊朝外,每本书都能清晰看到,背景是简单的白墙。

任务要求

AI 模型需要满足以下要求:

  1. 蓝色书籍数量为5本,允许±1本的误差范围(即4-6本视为基本达标)
  2. 红色书籍数量为3本,允许±1本的误差范围(即2-4本视为基本达标)
  3. 绿色书籍数量为2本,允许±1本的误差范围(即1-3本视为基本达标)
  4. 三种颜色(蓝、红、绿)均须出现,不得缺失任何一种颜色,且不得出现Prompt未提及的其他颜色书籍
  5. 所有书籍书脊朝外竖直摆放,每本书的颜色清晰可辨,无明显遮挡
  6. 书架须呈现木制材质特征,书籍在书架上整齐排列,符合真实书架的物理逻辑
  7. 背景为简单白墙,画面中不应出现与描述无关的额外物体或装饰元素

评测结果

综合得分

该模型在此用例的得分为:97.67 分(满分 100 分),已通过

基础难度评测结果

  • 得分:97.67 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

AI 生成图片,模型:GPT Image 2
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张几乎完美完成提示词要求的AI生成图像。在核心任务「多类物体计数」上表现优异:蓝色5本、红色3本、绿色2本的数量要求精确达成,颜色属性绑定准确无误,书架的木制材质真实自然,书籍排列整齐且书脊朝外清晰可见,背景白墙简洁干净。图像不仅满足了所有关键要求,还在细节处理上展现了较高水准(如书脊上的装饰纹样和中文标题),整体画面符合物理逻辑且视觉效果清晰。唯一可以挑剔的是书籍略显统一化(高度、厚度、装帧风格高度一致),但这并不影响提示词要求的完成度。综合来看,这是一张高质量的测试样本,成功验证了模型在多类物体计数任务上的能力。

进阶难度评测结果

  • 得分:71.67 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

AI 生成图片,模型:GPT Image 2
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在属性绑定和空间清晰度方面表现良好,彩色桌布和整体派对氛围营造到位,大部分物品数量准确。但核心问题在于计数准确性:蓝色纸杯缺少1个(5个而非6个),且背景出现未要求的额外气球,影响了多物体计数任务的完成度。空间布局虽然清晰,但略显对称刻板,缺少自然随意感。综合来看,图像部分完成了Prompt要求,但在关键的计数维度上存在明显偏差,需要改进模型对多类别物体精确计数的能力。

困难难度评测结果

  • 得分:77.33 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

AI 生成图片,模型:GPT Image 2
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在视觉呈现质量和属性绑定方面表现优秀,鸟瞰视角标准、场景结构清晰、颜色与车型对应准确,但在核心任务「多类别物体精确计数」上存在严重失误:5个类别中4个数量错误,总车辆数超出要求19%(25辆 vs 21辆)。这表明模型在复杂计数任务中的数值控制能力不足,尤其是南北向车道出现系统性多生成问题(公交车+1、货车+2、摩托车+2)。尽管画面质量高,但未能完成Prompt的核心要求,整体评价为「部分完成,计数准确性严重不足」。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...