GPT Image 2 在「考古发掘现场文物标记系统」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:GPT Image 2
  • 用例名称:考古发掘现场文物标记系统
  • 测试类型:图像生成
  • 评测维度:数量控制

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

生成一个考古发掘现场的俯视图 场景要求: 1. 显示一个正在发掘的考古方格区域 2. 包含9个已发现的文物,用不同颜色的标记旗标注 3. 文物类型包括:陶片(红旗)、石器(蓝旗)、骨器(黄旗) 每种类型各3个,分布在不同位置

任务要求

AI 模型需要满足以下要求:

  1. 生成严格俯视角度的考古发掘现场图,视角垂直向下,不得出现明显透视倾斜
  2. 画面中须包含清晰划定边界的考古方格(探方)区域,边界可用绳线、木桩或网格线表示
  3. 在方格区域内共放置9个标记旗,分为三种颜色:红色旗3个(代表陶片)、蓝色旗3个(代表石器)、黄色旗3个(代表骨器)
  4. 三种颜色须色相明确区分,红/蓝/黄饱和度充足,避免颜色相互混淆或与土壤背景色接近
  5. 9个标记旗须分散分布于方格区域的不同位置,避免同色或不同色标记过度聚集于单一区域
  6. 建议通过图例、标注或旗帜颜色与文物实物的视觉关联,体现颜色与文物类型的对应关系
  7. 整体画面应具备考古现场的真实感,背景以土壤/泥土质感为主,标记旗与背景之间须保持足够的视觉对比度

评测结果

综合得分

该模型在此用例的得分为:91.67 分(满分 100 分),已通过

基础难度评测结果

  • 得分:91.67 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

AI 生成图片,模型:GPT Image 2
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张完成度极高的AI生成图像,几乎完美地实现了提示词的所有核心要求。9个标记旗的数量、颜色分类(红/蓝/黄)、文物类型对应(陶片/石器/骨器)以及每种类型各3个的精确配置均无偏差。3×3方格布局规范,俯视视角严格,空间分布均匀合理。画面还超出基本要求地呈现了专业考古现场的细节(信息牌、指北针、工具等),增强了真实感。唯一的轻微不足在于黄色旗帜在明亮土壤背景下的对比度略低,以及个别旗帜因光照条件导致的饱和度微弱波动,但这些瑕疵不影响整体的高完成度。综合来看,这是一张在指令遵循、逻辑构图和视觉清晰度上都表现优异的生成结果。

进阶难度评测结果

  • 得分:67.33 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

AI 生成图片,模型:GPT Image 2
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在场景专业性与空间布局方面表现较好,发掘方格数量、专业道具配置及土层质感均达到或超出提示词要求,展现了较高的考古现场还原度。然而,核心问题在于「指令遵循准确性」严重不足:旗帜颜色与文物类型的对应关系无法验证(旗帜仅标注数字而非文物类型),部分颜色识别困难(紫色与蓝色混淆),且遮挡效果未达到明确要求。这些问题直接影响了提示词的核心测试目标——「测试AI在考古场景中准确识别和计数不同类型文物标记的能力」。综合来看,图像在视觉呈现上具备专业水准,但在精确执行提示词的关键指标(颜色-文物对应、数量分配、遮挡效果)方面存在明显缺陷,导致整体评分偏低。

困难难度评测结果

  • 得分:74.0 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

AI 生成图片,模型:GPT Image 2
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】该图像在空间构建与场景专业性方面表现优秀,成功呈现了多层次考古发掘现场的立体感与工作逻辑,但在核心任务「23个文物标记的准确呈现」上存在严重不足。标记旗帜总数缺失约30%,且紫色、白色旗帜无法有效识别,直接导致7种颜色类型无法完整验证。这使得提示词的核心测试目标「AI在复杂场景中准确识别和计数不同类型文物标记的能力」无法被充分评估。尽管视觉逻辑与空间深度维度得分较高,但指令完成度的重大缺陷拉低了整体表现,最终得分受限于标记系统的不完整性。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...