博客
XSCT Bench 博客,涵盖系统更新、技术分享和重要公告。
文章分类
当前分类:tech
-
Eevee:多任务 Agent 的 Prompt 路由进化框架
发布时间:2026-06-10
分类:技术文章
作者:洛小山
> 论文:Eevee: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents > 团队:上海交通大学 + Princeton University(Mengdi Wang 组) > 时间:2026 年 6 月 一、问题是什么 你有一个 AI...
阅读全文 -
COLLEAGUE.SKILL :把一个人留下的‘痕迹’提取为一个agent技能包
发布时间:2026-06-04
分类:技术文章
作者:洛小山
> 上海人工智能实验室 · arXiv:2506.21431 > 本文在论文原文基础上,补充了部分行业背景数据,来源已标注链接。 --- 你的资深同事今天 last day。 过去三年,他 review 过 800 次 PR,写过 47 份 incident 复盘,在 Slack 里拍板过无数次"这个方案不行"。 明天起,这些东西全没了。 不是没写文档。文档里不会写的是: >...
阅读全文 -
把 Skill 当神经网络来训练:SkillOpt 如何让 Agent 技能自我进化
发布时间:2026-05-28
分类:技术文章
作者:洛小山
SkillOpt 的核心洞察可以用一句话概括:如果 Skill 是 Agent 的"可训练外部状态",那它就应该用深度学习的训练纪律来优化。
阅读全文 -
《AI 的"食物":训练数据》
发布时间:2026-05-14
分类:技术文章
作者:洛小山
我们之所以要从训练数据讲起,是因为它是 AI 的第一性原理:你理解了它吃什么,就能解释它几乎所有的行为。
阅读全文 -
AI行业正在奖励"靠谱的人"
发布时间:2026-05-14
分类:技术文章
作者:洛小山
> 读完姚顺宇的访谈,我对"靠谱"这件事有了新理解。 姚顺宇在访谈里抛了一句很刺耳的话:AI这行"不太需要脑子","本科生就能干"。 他自己是清华物理出身,斯坦福高能物理博士,现在在 Google DeepMind 做研究科学家。按理说,他是那种最有资格强调"智商门槛"的人。但他偏不。他说这个行业最需要的特质是:靠谱,做事细,对自己做的事负责任。...
阅读全文 -
Agent Harness:从概念到工程实践
发布时间:2026-05-10
分类:技术文章
作者:洛小山
大模型原生能力存在一个根本性的短边:它无法持久执行代码,也无法自主配置环境。单次问答的交互模式下,模型只能记住权重和当前上下文,一旦任务复杂度超出窗口承载,就会陷入上下文腐烂,输出质量断崖式下降。 Harness 正是为了弥补这个缺口而提出的系统性方案。
阅读全文 -
Heuristic Learning:从"养不起的规则"到"值得养活的系统"
发布时间:2026-05-10
分类:技术文章
作者:洛小山
问题不在于规则强不强。规则系统从来不是输在"智能",而是输在规模一上,维护成本指数级起飞。去修一个位置,可能牵一发而动全身;加了新逻辑,另一个不知道在哪里的 case 偷偷坏了。 最后团队的态度是:能不动就别动,宁可写新的叠加层,也不敢碰旧的。在 ROI 算不过账的年代,这些规则只能当一次性补丁,写完就扔。
阅读全文 -
当AI助手开始接广告,推荐的可能不是你的最优解
发布时间:2026-05-10
分类:技术文章
作者:洛小山
当AI真的面对这种冲突时,它站在哪一边?以及,这些偏向会带来什么实际影响?
阅读全文 -
让强模型写手册,弱模型照着做:自然语言技能如何打通模型间的能力迁移
发布时间:2026-05-06
分类:技术文章
作者:洛小山
企业今天面临的 AI 困局,不是"没有好模型",而是"好模型太贵,便宜模型不够聪明"。 旗舰模型(GPT-5.1 级别)能理解 6 万 token 的法规文档并精准推理,但每次调用的成本让业务线望而却步。业务模型(GPT-4.1 级别或行业微调模型)成本可控,却在长文本推理上捉襟见肘——CL-bench 测试中,GPT-4.1 的任务解决率仅 11.1%,而 GPT-5.1 达到 21.1%,两者之间是近乎一倍的能力断层。 本文的核心命题是:能不能让旗舰模型把"怎么理解和运用上下文"的方法写成一份自然语言手册,然后任何模型都能照着做?
阅读全文 -
提升 AI Agent 应用活人感的工程化思考。
发布时间:2026-05-06
分类:技术文章
作者:洛小山
假设你们公司 A 市分公司有个同事,你和他从来没见过面。 入职三年,你和他所有协作都在线上完成:企业微信群聊、共享文档、偶尔几次线上会议。 他能按时出活,消息响应也还行,偶尔在群里接两句话,周末发条朋友圈。 你觉得他挺好的,360 环评也不错。 三年后他离职了,于是你们失去了联系。 现在回过头想,他是真人还是 AI? 是不是也没那么重要?
阅读全文