博客

XSCT Bench 博客,涵盖系统更新、技术分享和重要公告。

文章分类

全部文章

  1. 模型覆盖说明

    发布时间:2026-04-01

    分类:模型资讯

    作者:洛小山

    模型覆盖说明 XSCT Arena 持续接入主流大模型,覆盖语言、代码、图像生成、多模态等多种类型,所有模型均经过统一评测标准打分,结果公开可查。 本文档记录各模型的上线时间,方便了解平台的模型覆盖进展。 --- 当前覆盖模型 语言模型 | 模型 | 厂商 | 上线日期 | |------|------|----------| | Qwen3.6-Plus-Preview | 阿里云 |...

    阅读全文
  2. 更新日志

    发布时间:2026-02-23

    分类:系统信息

    作者:洛小山

    系统更新记录

    阅读全文
  3. GPT-Image-2 全量上线,中文顶到爆,50+ Case 生图实测

    发布时间:2026-04-21

    分类:模型资讯

    作者:赛博禅心

    太牛逼了 刚刚,GPT-Image-2 正式全量上线,有图为证 !图片 等等...我得说一下,发布信息是我用 GPT-Image-2 自己画出来的,提示词是这个 提示词画一张 X 推特截图,@OpenAI 蓝勾认证账号发推,深色模式。正文「ChatGPT Image 2...

    阅读全文
  4. Kimi K2.6深度测评报告

    发布时间:2026-04-21

    分类:模型资讯

    作者:洛小山

    Kimi K2.6 以「推理型特征 + 越难越稳」夺得文本理解榜首,在 Writing/ReasoningChain 展现同代最佳规则一致性;但 Agent 工具链路和严格格式指令遵循仍是其阻挡全面碾压第一梯队的两堵墙——国产旗舰的上限已逼近 Claude,但下限偶尔会滑到第二梯队。

    阅读全文
  5. 解读BPE子词切分开山之作,理解「LLM如何读字」的必读文献。

    发布时间:2026-04-20

    分类:技术文章

    作者:洛小山

    这篇 2016 年 ACL 的论文是 Sennrich、Haddow、Birch 在爱丁堡大学发表的 BPE(Byte Pair Encoding)子词切分开山之作。虽然写作背景是神经机器翻译,但这套方法直接演化为今天 GPT、Claude、LLaMA 等几乎所有大模型的分词基石。这是一篇「理解 LLM 为什么这样读字」的必读文献。 一、论文要解决的核心问题 2015...

    阅读全文
  6. 当 AI 把开发速度干到 10 倍,但交付还是慢得不行。

    发布时间:2026-04-20

    分类:技术文章

    作者:洛小山

    Hi,我是洛小山,你学习 AI 的搭子。 今天我们聊聊 AI 组织提效。 过去半年推动团队全面拥抱 AI 提效的过程中,有不少收获,也有不少困惑。 这篇文章是我对这些困惑的一次系统梳理,试着把实践中的直觉拆解成可以讨论和验证的命题。 01|引言:从一个悖论说起 !图片 思考的起点,是我最近常常想到的一个悖论:当 AI 让做事变得极其容易的时候,「做事」本身还是组织效能的核心吗?...

    阅读全文
  7. Claude Opus 4.7 的正确姿势:把 Claude 当「工程师」,而不是「实习生」

    发布时间:2026-04-19

    分类:模型资讯

    作者:洛小山

    Claude Opus 4.7 的正确姿势:把 Claude 当「工程师」,而不是「实习生」 > 多数人用 Opus 4.7 时只发挥了它 30% 的实力——不是模型不行,而是交互范式还停留在「结对编程」时代。本文从委派模式、Effort 档位、自适应思考三个维度,讲清楚怎么让它真正干活。 --- 一、范式转变:把 Claude 当「工程师」,而不是「实习生」...

    阅读全文
  8. Anthropic 推出 Claude Opus 4.7

    发布时间:2026-04-18

    作者:洛小山

    我们的最新模型 Claude Opus 4.7 现已全面开放使用。 Opus 4.7 在高级软件工程方面较 Opus 4.6 有了显著改进,尤其是在处理最困难的任务时表现更佳。用户反馈称,他们可以放心地将以往需要密切监督的最棘手编码工作交给 Opus 4.7。Opus 4.7 能够严谨且一致地处理复杂、长周期的任务,精确遵循指令,并在汇报结果前设法验证其输出内容。...

    阅读全文
  9. Vibe do something,然后呢?

    发布时间:2026-04-11

    分类:技术文章

    作者:洛小山

    Hi,我是洛小山,你学习 AI 的搭子。 今天,想跟你聊聊我对 Vibe Coding 的思考。 昨天,一个叫 Pencil 的插件在 AI 小圈子里火了。 光 Cursor 里就 5600 次下载。 !图片 简单来说,它是一个 AI 通过 MCP 驱动的 Figma。 但它解决的问题,比 Figma 本身更有价值。 你可能不太知道 Figma 是干嘛的。...

    阅读全文
  10. 超硬核横测混元图像 3 和香蕉,一次诚意满满的开源

    发布时间:2026-04-11

    分类:技术文章

    作者:洛小山

    !图片 Hi,我是洛小山,你的AI学习搭子。 今天,我想和你深入聊聊下混元图像 3 这款开源模型的边界。 如果你是 AI 技术产品经理,强烈推荐你看到最后。 去年,我写了一篇《当友商开着飞机来的时候,你挖的护城河还有用吗》,分析腾讯为什么要腹泻式开源。 那篇文章达成了历史最高的完读率。 当友商开着飞机来的时候,你挖的护城河还有用吗? !图片...

    阅读全文

相关链接

博客

系统更新、技术分享和重要公告

模型覆盖说明
置顶 模型资讯 2026-04-01

模型覆盖说明

模型覆盖说明 XSCT Arena 持续接入主流大模型,覆盖语言、代码、图像生成、多模态等多种类型,所有模型均经过统一评测标准打分,结果公开可查。 本文档记录各模型的上线时间,方便了解平台的模型覆盖进展。 --- 当前覆盖模型 语言模型 | 模型 | 厂商 | 上线日期 | |------|------|----------| | Qwen3.6-Plus-Preview | 阿里云 |...

GPT-Image-2 全量上线,中文顶到爆,50+ Case 生图实测
模型资讯 2026-04-21

GPT-Image-2 全量上线,中文顶到爆,50+ Case 生图实测

太牛逼了 刚刚,GPT-Image-2 正式全量上线,有图为证 !图片 等等...我得说一下,发布信息是我用 GPT-Image-2 自己画出来的,提示词是这个 提示词画一张 X 推特截图,@OpenAI 蓝勾认证账号发推,深色模式。正文「ChatGPT Image 2...

Kimi K2.6深度测评报告
模型资讯 2026-04-21

Kimi K2.6深度测评报告

Kimi K2.6 以「推理型特征 + 越难越稳」夺得文本理解榜首,在 Writing/ReasoningChain 展现同代最佳规则一致性;但 Agent 工具链路和严格格式指令遵循仍是其阻挡全面碾压第一梯队的两堵墙——国产旗舰的上限已逼近 Claude,但下限偶尔会滑到第二梯队。

解读BPE子词切分开山之作,理解「LLM如何读字」的必读文献。
技术文章 2026-04-20

解读BPE子词切分开山之作,理解「LLM如何读字」的必读文献。

这篇 2016 年 ACL 的论文是 Sennrich、Haddow、Birch 在爱丁堡大学发表的 BPE(Byte Pair Encoding)子词切分开山之作。虽然写作背景是神经机器翻译,但这套方法直接演化为今天 GPT、Claude、LLaMA 等几乎所有大模型的分词基石。这是一篇「理解 LLM 为什么这样读字」的必读文献。 一、论文要解决的核心问题 2015...

当 AI 把开发速度干到 10 倍,但交付还是慢得不行。
技术文章 2026-04-20

当 AI 把开发速度干到 10 倍,但交付还是慢得不行。

Hi,我是洛小山,你学习 AI 的搭子。 今天我们聊聊 AI 组织提效。 过去半年推动团队全面拥抱 AI 提效的过程中,有不少收获,也有不少困惑。 这篇文章是我对这些困惑的一次系统梳理,试着把实践中的直觉拆解成可以讨论和验证的命题。 01|引言:从一个悖论说起 !图片 思考的起点,是我最近常常想到的一个悖论:当 AI 让做事变得极其容易的时候,「做事」本身还是组织效能的核心吗?...

Claude Opus 4.7 的正确姿势:把 Claude 当「工程师」,而不是「实习生」
模型资讯 2026-04-19

Claude Opus 4.7 的正确姿势:把 Claude 当「工程师」,而不是「实习生」

Claude Opus 4.7 的正确姿势:把 Claude 当「工程师」,而不是「实习生」 > 多数人用 Opus 4.7 时只发挥了它 30% 的实力——不是模型不行,而是交互范式还停留在「结对编程」时代。本文从委派模式、Effort 档位、自适应思考三个维度,讲清楚怎么让它真正干活。 --- 一、范式转变:把 Claude 当「工程师」,而不是「实习生」...

Anthropic 推出 Claude Opus 4.7
2026-04-18

Anthropic 推出 Claude Opus 4.7

我们的最新模型 Claude Opus 4.7 现已全面开放使用。 Opus 4.7 在高级软件工程方面较 Opus 4.6 有了显著改进,尤其是在处理最困难的任务时表现更佳。用户反馈称,他们可以放心地将以往需要密切监督的最棘手编码工作交给 Opus 4.7。Opus 4.7 能够严谨且一致地处理复杂、长周期的任务,精确遵循指令,并在汇报结果前设法验证其输出内容。...

Vibe do something,然后呢?
技术文章 2026-04-11

Vibe do something,然后呢?

Hi,我是洛小山,你学习 AI 的搭子。 今天,想跟你聊聊我对 Vibe Coding 的思考。 昨天,一个叫 Pencil 的插件在 AI 小圈子里火了。 光 Cursor 里就 5600 次下载。 !图片 简单来说,它是一个 AI 通过 MCP 驱动的 Figma。 但它解决的问题,比 Figma 本身更有价值。 你可能不太知道 Figma 是干嘛的。...

超硬核横测混元图像 3 和香蕉,一次诚意满满的开源
技术文章 2026-04-11

超硬核横测混元图像 3 和香蕉,一次诚意满满的开源

!图片 Hi,我是洛小山,你的AI学习搭子。 今天,我想和你深入聊聊下混元图像 3 这款开源模型的边界。 如果你是 AI 技术产品经理,强烈推荐你看到最后。 去年,我写了一篇《当友商开着飞机来的时候,你挖的护城河还有用吗》,分析腾讯为什么要腹泻式开源。 那篇文章达成了历史最高的完读率。 当友商开着飞机来的时候,你挖的护城河还有用吗? !图片...