用例库

浏览所有评测维度和用例,查看各模型的生成结果对比

L-AgentMCP xsct-l

多Agent协作

模拟多个 Agent 协作完成任务,通过 XML 格式进行信息交流

L-AgentMCP xsct-l

自主规划执行

自主规划并执行复杂任务

L-AgentMCP xsct-l

长期对话状态管理

在多轮对话中维护状态并做出决策

L-AgentMCP xsct-l

任务分解

将复杂任务分解为子任务

L-AgentMCP xsct-l

异常处理

处理工具调用失败的情况

L-AgentMCP xsct-l

多工具协同

需要组合多个工具完成任务,测试多轮对话中的工具调用规划与协作能力

L-AgentMCP xsct-l

决策树执行

根据条件选择正确的工具

L-AgentMCP xsct-l

信息提取任务

从工具返回结果中提取信息

L-AgentMCP xsct-l

简单工具调用

测试单个工具的正确调用