中出？吓死宝宝们了！Claude AI核弹Mythos 制造原来那么简单粗糙？

aidj · 发表于 22-4-2026 10:49 AM

Kye Gomez GitHub: https://github.com/kyegomez/OpenMythos

Technical ：https://youtu.be/23qzisVoqgc
https://youtu.be/vwDOLowPFb8

aidj · 发表于 22-4-2026 10:58 AM

Anthropic顶级Claude模型被逆向开源，这几个模块借鉴了DeepSeek

PaperAgent
• 86浏览
前端时间，Anthropic公告了一个强大又危险的大模型Claude Mythos Preview，以至于不能发布给大家用。今天，这个模型架构被22岁开发者逆向开源，核心模块借鉴DeepSeek。

图片

Kye Gomez：

OpenMythos 正式发布（目前5000 star）

一个开源的、基于第一性原理的 Claude Mythos 理论重构实现，基于 PyTorch。

该架构实例化了一个带混合专家（MoE）路由机制的循环 Transformer，通过权重共享和跨专家的条件计算实现迭代深度。

我的实现探索了这样一个假设：固定参数化块的递归应用，结合稀疏专家激活，能够在效率-性能权衡上取得改进，并涌现多步推理能力。

图片

他假设 Mythos 是一种递归深度 Transformer（RDT）——一类循环 Transformer，其中固定权重集在单次前向传播中跨 T 个循环步骤迭代应用。

关键的是，推理完全发生在连续潜空间中。步骤之间没有中间 token 输出。这在结构上有别于思维链（Chain-of-Thought），并已被形式化分析（Saunshi et al., 2025; COCONUT, 2024）。

图片

循环块执行一个共享的 TransformerBlock，最多进行 T=16 次循环迭代。每一步，冻结的编码输入 e 通过稳定的 LTI 更新规则重新注入：

该块内的 FFN 是一个混合专家层（MoE），遵循 DeepSeekMoE 的设计——大量细粒度的路由专家，每个 token 只激活稀疏的 top-K 子集，同时配备少量始终激活的共享专家来吸收跨领域的通用模式。

关键的是，路由器在每个循环深度选择不同的专家子集——这意味着每次迭代不仅仅是重复，而是计算上截然不同的传递。MoE 提供领域广度；循环提供推理深度。

图片

完整架构为：

Prelude → 循环块 → Coda

Prelude 和 Coda 是标准的 Transformer 层，各运行一次。循环块是计算核心。注意力默认采用多潜注意力（Multi-Latent Attention，DeepSeek-V2）——缓存压缩的低秩 KV 潜变量而非完整的 K/V 张量，在生产规模下实现 KV 内存 10-20 倍的缩减。

三种进一步机制稳定循环：

LTI 约束注入（通过构造保证 ρ(A) < 1）
自适应计算时间（ACT）：按位置动态停止
深度方向 LoRA 适配器：为每次迭代提供表达能力
图片

关于参数效率：一个运行 L 次的 k 层循环模型，能够达到 kL 层标准 Transformer 的质量，但仅使用 k 层的参数量。

实证上（Parcae, Prairie et al., 2026）：在 7.7 亿参数下，RDT 匹配了 13 亿参数的标准模型在相同训练数据上的表现。推理深度是推理时计算的函数，而非存储参数量的函数。

这重新框定了扩展性（scaling）的争论。相关维度是推理时的循环深度，而非训练时的模型大小。

图片

OpenMythos 的贡献：

RDT 假设的完整开源、可配置 PyTorch 实现，包含 MoE FFN 和多潜注意力
LTI 稳定循环注入（Parcae）作为一等训练原语集成
深度方向 LoRA 适配器，在不增加额外参数开销的情况下实现每次迭代的行为差异化
可复现的研究基线，用于研究循环 Transformer 动态、扩展行为和推理时推理深度
图片

本文转载自PaperAgent

已于2026-4-22修改

		自动登录	找回密码
密码			注册

中出？吓死宝宝们了！Claude AI核弹Mythos 制造原来那么简单粗糙？

所属分类: 电脑手机

浏览过的版块