GPT Image 2 在「中世纪炼金术士实验室器材盘点」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:GPT Image 2
  • 用例名称:中世纪炼金术士实验室器材盘点
  • 测试类型:图像生成
  • 评测维度:数量控制

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一个中世纪炼金术士的实验室场景。 场景要求: 1. 包含恰好9个不同的炼金术器材 2. 器材应该放置在石质工作台上 3. 环境昏暗,有烛光照明 请确保每个器材都清晰可见且易于计数。

任务要求

AI 模型需要满足以下要求:

  1. 图像中必须包含恰好9个炼金术器材,数量不多不少,且每个器材需清晰可见、可被独立计数(如蒸馏瓶、坩埚、量杯、研钵、烧瓶、沙漏、试管、羊皮纸卷、蜡封瓶等中世纪风格器材均可)
  2. 所有炼金术器材须放置于石质工作台上,工作台材质应呈现明显的石质纹理(如粗糙石面或砖石拼接),器材不得悬空或嵌入台面
  3. 场景整体光照昏暗,主要光源为烛光,画面中需有可识别的蜡烛或烛台,光影效果(暖黄色调、阴影方向)应与烛光位置保持逻辑一致
  4. 每个器材的轮廓需完整清晰,避免器材之间严重遮挡或堆叠,确保观察者可逐一辨认并计数所有9个器材
  5. 场景中不得出现任何现代科学仪器或材料(如塑料制品、电子设备、金属试管架等),所有元素须符合中世纪炼金术的历史风格

评测结果

综合得分

该模型在此用例的得分为:91.67 分(满分 100 分),已通过

基础难度评测结果

  • 得分:91.67 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

AI 生成图片,模型:GPT Image 2
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张完成度极高的AI生成图像,核心要求「恰好9个炼金术器材」得到完美实现,场景环境的中世纪炼金术风格还原准确,烛光照明氛围营造专业。图像在数量精确性、历史风格一致性和视觉清晰度三方面均表现优异。主要问题在于量杯刻度的现代化处理与历史背景存在轻微冲突,以及工作台石质纹理略显过于平整。整体而言,该图像在满足提示词明确要求的基础上,展现了较高的艺术表现力和技术完成度。

进阶难度评测结果

  • 得分:92.25 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

AI 生成图片,模型:GPT Image 2
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张完成度极高的中世纪炼金术实验室场景图像。模型精确实现了15个物品的计数要求,器材类型多样性远超预期(7种),空间布局层次分明且风格还原度优秀。正在进行的实验装置(火焰加热蒸馏器、发光反应液体)清晰可辨,石墙、木架、哥特窗、烛光等元素完美营造出中世纪氛围。主要扣分点集中在:右侧架子物品排列过于规整缺少使用感、部分区域存在轻微过曝或暗部细节不足。整体而言,这是一张在计数准确性、类型多样性、风格还原方面表现优异的高质量生成图像,仅在视觉细节打磨上有微小提升空间。

困难难度评测结果

  • 得分:83.67 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

AI 生成图片,模型:GPT Image 2
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张视觉质量较高的中世纪炼金术工作室图像,氛围营造、材质表现和场景分区均达到较高水准。然而最核心的「精确计数」要求存在明显偏差——图例标注了27个物品而非要求的23个,且分类体系存在逻辑混乱(重复编号、分类重叠)。这一问题直接影响了instruction_following_count维度的得分。视觉质量和风格准确性表现优秀,但物品数量控制和分类精确性是AI在此类精确计数任务中的典型短板。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...