GPT Image 2 在「大小属性」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

模型名称：GPT Image 2
用例名称：大小属性
测试类型：图像生成
评测维度：属性绑定

用户提示词（User Prompt）

这是用户给 AI 模型的具体任务要求：

生成一张图片：一只大狗和一只小猫要求： - 狗明显比猫大 - 两者在同一画面中便于对比

任务要求

AI 模型需要满足以下要求：

图像中必须同时出现且完整呈现一只狗和一只猫，两者物种特征清晰可辨
狗的体型须明显大于猫，视觉上大小差异显著，能让观看者无需思考即可判断大小关系
狗和猫须处于同一画面的相近位置或同一视觉平面，构图须便于直接对比两者体型大小
两只动物的形态解剖结构基本正确，狗与猫的典型外观特征（耳型、口鼻、体型轮廓等）清晰可辨，不得混淆物种

评测结果

综合得分

该模型在此用例的得分为：93.33 分（满分 100 分），已通过

基础难度评测结果

得分：93.33 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像出色地完成了「一只大狗和一只小猫，狗明显比猫大，两者在同一画面中便于对比」的全部核心要求。金毛寻回犬与虎斑幼猫的体型差异极为显著，互动姿态自然，构图直接服务于大小属性绑定的测试目标。图像质量高，动物特征准确，是一张高质量的AI生成图像，几乎无可挑剔。

进阶难度评测结果

得分：94.25 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】这是一张高质量的 AI 生成图像，完美完成了提示词的所有核心要求。三个目标物体（木质椅子、玻璃杯子、金属勺子）全部清晰呈现且材质特征准确。木质纹理的细腻度、玻璃的透明折射效果、金属的镜面光泽均达到专业水准，三种材质在视觉上形成鲜明对比，属性绑定测试表现优异。物体比例符合现实逻辑，整体构图自然协调。唯一可挑剔之处是金属勺子的反射效果略显柔和，但这并不影响材质的可辨识度。综合来看，该图像在材质纹理表现和物体完整性方面几乎无可挑剔。

困难难度评测结果

得分：65.0 分
通过状态：已通过

模型生成产物

该模型生成了以下图片：

注：图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图，后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评：

【CLAUDE】该图像在动物种类、数量和解剖完整性方面表现优秀，黑猫和白狗的颜色与姿态属性绑定准确。然而，存在一个致命缺陷：灰兔的姿态完全不符合提示词要求。提示词明确要求「躺着的灰兔」，但图像呈现的是典型的趴卧/警戒姿态，兔子身体抬起、四肢收拢、耳朵竖立，这与放松的躺卧姿态有本质区别。这一核心属性绑定错误严重影响了整体评分，表明模型在理解和执行「躺着」这一姿态描述时出现了明显偏差。三分之一的关键要求未能完成，导致整体表现不及格。

基本信息

用户提示词（User Prompt）

任务要求

评测结果

综合得分

基础难度评测结果

模型生成产物

AI 评审点评

进阶难度评测结果

模型生成产物

AI 评审点评

困难难度评测结果

模型生成产物

AI 评审点评

相关链接

反馈评测问题