博客

XSCT Bench 博客，涵盖系统更新、技术分享和重要公告。

文章分类

全部文章

模型覆盖说明

发布时间：2026-04-01

分类：模型资讯

作者：洛小山

模型覆盖说明 XSCT Arena 持续接入主流大模型，覆盖语言、代码、图像生成、多模态等多种类型，所有模型均经过统一评测标准打分，结果公开可查。本文档记录各模型的上线时间，方便了解平台的模型覆盖进展。 --- 当前覆盖模型语言模型 | 模型 | 厂商 | 上线日期 | |------|------|----------| | Qwen3.6-Plus-Preview | 阿里云 |...
阅读全文
更新日志

发布时间：2026-02-23

分类：系统信息

作者：洛小山

系统更新记录
阅读全文
Eevee：多任务 Agent 的 Prompt 路由进化框架

发布时间：2026-06-10

分类：技术文章

作者：洛小山

> 论文：Eevee: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents > 团队：上海交通大学 + Princeton University（Mengdi Wang 组） > 时间：2026 年 6 月一、问题是什么你有一个 AI...
阅读全文
COLLEAGUE.SKILL ：把一个人留下的‘痕迹’提取为一个agent技能包

发布时间：2026-06-04

分类：技术文章

作者：洛小山

> 上海人工智能实验室 · arXiv:2506.21431 > 本文在论文原文基础上，补充了部分行业背景数据，来源已标注链接。 --- 你的资深同事今天 last day。过去三年，他 review 过 800 次 PR，写过 47 份 incident 复盘，在 Slack 里拍板过无数次"这个方案不行"。明天起，这些东西全没了。不是没写文档。文档里不会写的是： >...
阅读全文
Gemini 3.5 Flash 深度测评报告

发布时间：2026-05-28

分类：模型资讯

作者：洛小山

一句话结论：Gemini 3.5 Flash 付费层定价 $1.50/$9.00（输入/输出每百万 token），阅读理解（97.1）和数学推理（95.9）基础功底扎实，但批判思维天花板仅 1 级（68.1）、难度退化幅度过大（中文拼音 -15.9）
阅读全文
把 Skill 当神经网络来训练：SkillOpt 如何让 Agent 技能自我进化

发布时间：2026-05-28

分类：技术文章

作者：洛小山

SkillOpt 的核心洞察可以用一句话概括：如果 Skill 是 Agent 的"可训练外部状态"，那它就应该用深度学习的训练纪律来优化。
阅读全文
《AI 的"食物":训练数据》

发布时间：2026-05-14

分类：技术文章

作者：洛小山

我们之所以要从训练数据讲起，是因为它是 AI 的第一性原理：你理解了它吃什么，就能解释它几乎所有的行为。
阅读全文
AI行业正在奖励"靠谱的人"

发布时间：2026-05-14

分类：技术文章

作者：洛小山

> 读完姚顺宇的访谈，我对"靠谱"这件事有了新理解。姚顺宇在访谈里抛了一句很刺耳的话：AI这行"不太需要脑子"，"本科生就能干"。他自己是清华物理出身，斯坦福高能物理博士，现在在 Google DeepMind 做研究科学家。按理说，他是那种最有资格强调"智商门槛"的人。但他偏不。他说这个行业最需要的特质是：靠谱，做事细，对自己做的事负责任。...
阅读全文
Agent Harness：从概念到工程实践

发布时间：2026-05-10

分类：技术文章

作者：洛小山

大模型原生能力存在一个根本性的短边：它无法持久执行代码，也无法自主配置环境。单次问答的交互模式下，模型只能记住权重和当前上下文，一旦任务复杂度超出窗口承载，就会陷入上下文腐烂，输出质量断崖式下降。 Harness 正是为了弥补这个缺口而提出的系统性方案。
阅读全文
Heuristic Learning：从"养不起的规则"到"值得养活的系统"

发布时间：2026-05-10

分类：技术文章

作者：洛小山

问题不在于规则强不强。规则系统从来不是输在"智能"，而是输在规模一上，维护成本指数级起飞。去修一个位置，可能牵一发而动全身；加了新逻辑，另一个不知道在哪里的 case 偷偷坏了。最后团队的态度是：能不动就别动，宁可写新的叠加层，也不敢碰旧的。在 ROI 算不过账的年代，这些规则只能当一次性补丁，写完就扔。
阅读全文

博客

系统更新、技术分享和重要公告

全部模型资讯系统信息技术文章公告

置顶模型资讯 2026-04-01

模型覆盖说明

模型覆盖说明 XSCT Arena 持续接入主流大模型，覆盖语言、代码、图像生成、多模态等多种类型，所有模型均经过统一评测标准打分，结果公开可查。本文档记录各模型的上线时间，方便了解平台的模型覆盖进展。 --- 当前覆盖模型语言模型 | 模型 | 厂商 | 上线日期 | |------|------|----------| | Qwen3.6-Plus-Preview | 阿里云 |...

洛小山阅读 359

置顶系统信息 2026-02-23

更新日志

系统更新记录

洛小山阅读 491

Eevee：多任务 Agent 的 Prompt 路由进化框架

技术文章 2026-06-10

Eevee：多任务 Agent 的 Prompt 路由进化框架

> 论文：Eevee: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents > 团队：上海交通大学 + Princeton University（Mengdi Wang 组） > 时间：2026 年 6 月一、问题是什么你有一个 AI...

洛小山阅读 89

COLLEAGUE.SKILL ：把一个人留下的‘痕迹’提取为一个agent技能包

技术文章 2026-06-04

COLLEAGUE.SKILL ：把一个人留下的‘痕迹’提取为一个agent技能包

> 上海人工智能实验室 · arXiv:2506.21431 > 本文在论文原文基础上，补充了部分行业背景数据，来源已标注链接。 --- 你的资深同事今天 last day。过去三年，他 review 过 800 次 PR，写过 47 份 incident 复盘，在 Slack 里拍板过无数次"这个方案不行"。明天起，这些东西全没了。不是没写文档。文档里不会写的是： >...

洛小山阅读 97

模型资讯 2026-05-28

Gemini 3.5 Flash 深度测评报告

一句话结论：Gemini 3.5 Flash 付费层定价 $1.50/$9.00（输入/输出每百万 token），阅读理解（97.1）和数学推理（95.9）基础功底扎实，但批判思维天花板仅 1 级（68.1）、难度退化幅度过大（中文拼音 -15.9）

洛小山阅读 92

把 Skill 当神经网络来训练：SkillOpt 如何让 Agent 技能自我进化

技术文章 2026-05-28

把 Skill 当神经网络来训练：SkillOpt 如何让 Agent 技能自我进化

SkillOpt 的核心洞察可以用一句话概括：如果 Skill 是 Agent 的"可训练外部状态"，那它就应该用深度学习的训练纪律来优化。

洛小山阅读 309

《AI 的"食物":训练数据》

技术文章 2026-05-14

《AI 的"食物":训练数据》

我们之所以要从训练数据讲起，是因为它是 AI 的第一性原理：你理解了它吃什么，就能解释它几乎所有的行为。

洛小山阅读 120

AI行业正在奖励"靠谱的人"

技术文章 2026-05-14

AI行业正在奖励"靠谱的人"

> 读完姚顺宇的访谈，我对"靠谱"这件事有了新理解。姚顺宇在访谈里抛了一句很刺耳的话：AI这行"不太需要脑子"，"本科生就能干"。他自己是清华物理出身，斯坦福高能物理博士，现在在 Google DeepMind 做研究科学家。按理说，他是那种最有资格强调"智商门槛"的人。但他偏不。他说这个行业最需要的特质是：靠谱，做事细，对自己做的事负责任。...

洛小山阅读 104

Agent Harness：从概念到工程实践

技术文章 2026-05-10

Agent Harness：从概念到工程实践

大模型原生能力存在一个根本性的短边：它无法持久执行代码，也无法自主配置环境。单次问答的交互模式下，模型只能记住权重和当前上下文，一旦任务复杂度超出窗口承载，就会陷入上下文腐烂，输出质量断崖式下降。 Harness 正是为了弥补这个缺口而提出的系统性方案。

洛小山阅读 442

Heuristic Learning：从"养不起的规则"到"值得养活的系统"

技术文章 2026-05-10

Heuristic Learning：从"养不起的规则"到"值得养活的系统"

问题不在于规则强不强。规则系统从来不是输在"智能"，而是输在规模一上，维护成本指数级起飞。去修一个位置，可能牵一发而动全身；加了新逻辑，另一个不知道在哪里的 case 偷偷坏了。最后团队的态度是：能不动就别动，宁可写新的叠加层，也不敢碰旧的。在 ROI 算不过账的年代，这些规则只能当一次性补丁，写完就扔。

洛小山阅读 374

文章分类

全部文章

相关链接

博客