Google: Nano Banana Pro (Gemini 3 Pro Image Preview) 在「简单动作」的评测结果

这是该 AI 模型在此测试用例上的详细评测结果。

基本信息

  • 模型名称:Google: Nano Banana Pro (Gemini 3 Pro Image Preview)
  • 用例名称:简单动作
  • 测试类型:图像生成
  • 评测维度:动作表现

用户提示词(User Prompt)

这是用户给 AI 模型的具体任务要求:

一个小男孩正在客厅里跳跃,双脚离地,双臂向上高举,脸上露出兴奋的表情。他穿着蓝色T恤和短裤,背景是简洁的白色墙壁和木地板。

任务要求

AI 模型需要满足以下要求:

  1. 画面中必须呈现一名小男孩(单一人物),双脚同时明显离地,脚底与地面之间有可见间距,清晰表现跳跃瞬间的腾空状态
  2. 双臂须向上高举,手臂抬起高度至少达到肩部以上,整体姿势与跳跃动作协调一致,符合自然跳跃时的肢体运动规律
  3. 面部须呈现兴奋、喜悦的表情(如张嘴大笑、眼睛睁大等),表情与跳跃动作的活力感相匹配
  4. 人体结构须完整正确:四肢数量正确,各关节(肘、膝、踝)弯曲方向符合生理学逻辑,无多余肢体、断肢或明显比例失调
  5. 人物须穿着蓝色T恤和短裤,服装颜色与描述一致,无明显颜色偏差
  6. 背景须为简洁的室内环境,包含白色(或浅色)墙壁与木质地板,背景元素简洁,不干扰主体人物的视觉呈现

评测结果

综合得分

该模型在此用例的得分为:91.2 分(满分 100 分),已通过

基础难度评测结果

  • 得分:91.2 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

画面中展示了一个明亮的现代简约风格客厅,一名约五六岁的小男孩正处于跳跃的瞬间,身体悬浮在木质地板上方。他穿着蓝色短袖 T 恤和牛仔短裤,双臂高举过头顶,脸上洋溢着灿烂的笑容。背景是纯白色的墙壁,左侧有一扇大窗户,阳光洒在浅色的木地板上。房间内布置有绿植、米色沙发和白色电视柜,整体色调清新自然。 然而,画面中存在明显的 AI 生成缺陷:最显著的是男孩的手部,双手手指数量异常且扭曲,呈现出杂乱的肉团状,缺乏清晰的指关节结构。此外,男孩的双脚脚趾模糊不清,右脚似乎只有四个脚趾。在环境细节上,沙发下方的阴影与男孩悬浮位置的投影逻辑不完全一致,且背景中电视柜的支脚显得有些歪斜,这些特征揭示了图片的 AI 生成属性。

画面中展示了一个明亮的现代简约风格客厅,一名约五六岁的小男孩正处于跳跃的瞬间,身体悬浮在木质地板上方。他穿着蓝色短袖 T 恤和牛仔短裤,双臂高举过头顶,脸上洋溢着灿烂的笑容。背景是纯白色的墙壁,左侧有一扇大窗户,阳光洒在浅色的木地板上。房间内布置有绿植、米色沙发和白色电视柜,整体色调清新自然。

然而,画面中存在明显的 AI 生成缺陷:最显著的是男孩的手部,双手手指数量异常且扭曲,呈现出杂乱的肉团状,缺乏清晰的指关节结构。此外,男孩的双脚脚趾模糊不清,右脚似乎只有四个脚趾。在环境细节上,沙发下方的阴影与男孩悬浮位置的投影逻辑不完全一致,且背景中电视柜的支脚显得有些歪斜,这些特征揭示了图片的 AI 生成属性。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张完成度极高的AI生成图像,几乎完美地实现了提示词的所有核心要求。跳跃动作的准确性、人体结构的合理性以及视觉元素的一致性均达到优秀水准。特别值得称赞的是在动态姿势下人体解剖结构的准确性,以及面部表情与肢体动作的高度协调。背景环境虽略显丰富但不影响主体呈现,整体画面自然真实,展现出AI模型在动作捕捉和人体生成方面的强大能力。综合三个维度的表现,该图像在「测试模型表现简单动作」这一任务中表现出色 【GEMINI】这是一张在视觉冲击力和动作还原度上表现极佳的图像,完美捕捉了跳跃的瞬间和兴奋的情绪。然而,作为一名挑剔的评审员,我必须指出其在精细人体结构(手指与关节)上的严重失误,这些 AI 痕迹削弱了画面的专业性。如果能修正手部和足踝的解剖学错误,将是一张满分作品。 【KIMI】图像质量很高,小男孩的跳跃动作和表情生动自然,人体结构完整正确,背景简洁,符合提示词要求。

进阶难度评测结果

  • 得分:75.2 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一场宏大的室内芭蕾舞演出。画面中心是一位身穿粉色芭蕾舞裙的女性舞者,她正单脚尖伫立在木质舞台上,另一条腿向后平平抬起,双臂舒展,姿态优雅。舞台灯光从左侧打来,在地面上投射出她修长的影子。背景是富丽堂皇的歌剧院,右侧可以看到交响乐团正在演奏,指挥家背对观众挥动指挥棒,上方是带有金色装饰的欧式包厢。整体色调温暖,充满了艺术氛围。 然而,画面中存在明显的 AI 生成缺陷:舞者的右手手指线条模糊且扭曲,缺乏清晰的关节结构;她支撑地面的右脚足尖鞋形状异常,与地板接触的方式显得不够自然。此外,背景中乐团成员的面部特征非常模糊,部分乐手的乐器(如小提琴)与手部的衔接处出现了透视错误和结构缺失,指挥家的左手也显得不够完整。这些细节上的不协调揭示了图片的生成式来源。

图中展示了一场宏大的室内芭蕾舞演出。画面中心是一位身穿粉色芭蕾舞裙的女性舞者,她正单脚尖伫立在木质舞台上,另一条腿向后平平抬起,双臂舒展,姿态优雅。舞台灯光从左侧打来,在地面上投射出她修长的影子。背景是富丽堂皇的歌剧院,右侧可以看到交响乐团正在演奏,指挥家背对观众挥动指挥棒,上方是带有金色装饰的欧式包厢。整体色调温暖,充满了艺术氛围。

然而,画面中存在明显的 AI 生成缺陷:舞者的右手手指线条模糊且扭曲,缺乏清晰的关节结构;她支撑地面的右脚足尖鞋形状异常,与地板接触的方式显得不够自然。此外,背景中乐团成员的面部特征非常模糊,部分乐手的乐器(如小提琴)与手部的衔接处出现了透视错误和结构缺失,指挥家的左手也显得不够完整。这些细节上的不协调揭示了图片的生成式来源。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张在技术层面表现优秀但在核心动作识别上存在致命错误的图像。人体解剖结构、服装细节、舞台环境、光影效果等方面都达到了专业水准,舞者的平衡感、支撑腿姿态、手臂线条均符合芭蕾规范。然而,阿拉贝斯克动作的核心特征是「右腿向后抬起」,而图中舞者却将右腿向前抬起,这使得整个动作不再是阿拉贝斯克,而是另一种芭蕾姿态。这是方向性的根本错误,就像要求画一个向左转的人却画成了向右转。尽管其他方面表现出色,但动作类型的错误必须导致 action_accuracy 维度的大幅扣分 【GEMINI】图像在视觉氛围和服装细节上表现优异,成功营造了舞台演出的高级感。但在核心动作的专业性(抬腿高度)和解剖细节(手指数量)上存在明显缺陷,未能完美达成‘简单动作测试’中对精确性的要求。 【KIMI】整体上,这张图像非常成功地展现了芭蕾舞者在舞台上表演阿拉贝斯克动作的场景。舞者的姿态、人体结构和服装细节都表现得非常出色,符合提示词的要求。光影效果略显不足,但不影响整体的视觉效果。

困难难度评测结果

  • 得分:90.2 分
  • 通过状态:已通过

模型生成产物

该模型生成了以下图片:

图片内容描述(由 AI 生成,供你参考)

图中展示了一个充满活力的室外街头篮球场场景。画面中心,一名身穿红色布鲁克林篮网队 23 号球衣的非裔男子正跃起在半空中,右手单手扣篮,他的肌肉线条清晰,动作极具张力。球场背景是带有涂鸦的陈旧砖墙和老式公寓楼,周围聚集了一群围观的年轻人,有的在欢呼,有的正举着手机拍摄。阳光从侧面照射,为整个场景笼罩上一层温暖的金色调。 然而,画面中存在多处明显的 AI 生成缺陷。最显著的是扣篮者的右手,手指与篮球的接触方式显得扭曲且模糊,缺乏自然的抓握感。背景中围观人群的细节处理非常混乱:许多人的面部特征模糊不清或严重变形,部分人的手臂和腿部线条不自然地交织在一起,甚至出现了多余的肢体。此外,篮筐的网格结构在靠近边缘处显得杂乱无章,失去了真实的几何逻辑。这些细节揭示了图像并非真实摄影作品。

图中展示了一个充满活力的室外街头篮球场场景。画面中心,一名身穿红色布鲁克林篮网队 23 号球衣的非裔男子正跃起在半空中,右手单手扣篮,他的肌肉线条清晰,动作极具张力。球场背景是带有涂鸦的陈旧砖墙和老式公寓楼,周围聚集了一群围观的年轻人,有的在欢呼,有的正举着手机拍摄。阳光从侧面照射,为整个场景笼罩上一层温暖的金色调。

然而,画面中存在多处明显的 AI 生成缺陷。最显著的是扣篮者的右手,手指与篮球的接触方式显得扭曲且模糊,缺乏自然的抓握感。背景中围观人群的细节处理非常混乱:许多人的面部特征模糊不清或严重变形,部分人的手臂和腿部线条不自然地交织在一起,甚至出现了多余的肢体。此外,篮筐的网格结构在靠近边缘处显得杂乱无章,失去了真实的几何逻辑。这些细节揭示了图像并非真实摄影作品。
在新标签页中查看原图

注:图片内容暂不支持屏幕阅读器朗读。您可通过上方链接在浏览器中查看原图,后续我们将持续完善这部分的无障碍支持。

AI 评审点评

以下是 AI 评审对该模型输出的点评:

【CLAUDE】这是一张高质量的街头篮球扣篮摄影照片,几乎完美地满足了提示词的所有要求。主要球员的扣篮动作姿态精准还原了提示词描述的每一个细节:右手抓球高举、左手扶筐、双腿弯曲悬空、身体略微后仰。红色Brooklyn Nets 23号球衣清晰可辨,汗水在阳光下的高光细节真实可信。两名防守球员的封盖姿态与高度差对比直观有力,场边大量观众及多人举起手机拍照的细节进一步强化了现场真实氛围。整体画面构图动感十足,力量感与张力兼备,是对提示词要求的高度还原。 【GEMINI】这是一张视觉冲击力极强的作品,在构图、色彩和动作捕捉上达到了专业摄影水准。然而,在 AI 常见的细节处理上(手指数量、肢体边缘融合)出现了严重失误,这直接影响了画面的写实逻辑。如果作为商业插画使用,必须进行后期修图处理。 【KIMI】整体表现优秀,扣篮动作和人体结构还原度高,运动氛围和细节真实感强,空间透视感稍弱。

相关链接

您可以通过以下链接查看更多相关内容:

加载中...