|
查看: 157|回复: 1
|
中出?吓死宝宝们了!Claude AI核弹Mythos 制造原来那么简单粗糙?
[复制链接]
|
|
|

楼主 |
发表于 22-4-2026 10:58 AM
来自手机
|
显示全部楼层
Anthropic顶级Claude模型被逆向开源,这几个模块借鉴了DeepSeek
PaperAgent
• 86浏览
前端时间,Anthropic公告了一个强大又危险的大模型Claude Mythos Preview,以至于不能发布给大家用。今天,这个模型架构被22岁开发者逆向开源,核心模块借鉴DeepSeek。
图片
Kye Gomez:
OpenMythos 正式发布(目前5000 star)
一个开源的、基于第一性原理的 Claude Mythos 理论重构实现,基于 PyTorch。
该架构实例化了一个带混合专家(MoE)路由机制的循环 Transformer,通过权重共享和跨专家的条件计算实现迭代深度。
我的实现探索了这样一个假设:固定参数化块的递归应用,结合稀疏专家激活,能够在效率-性能权衡上取得改进,并涌现多步推理能力。
图片
他假设 Mythos 是一种递归深度 Transformer(RDT)——一类循环 Transformer,其中固定权重集在单次前向传播中跨 T 个循环步骤迭代应用。
关键的是,推理完全发生在连续潜空间中。步骤之间没有中间 token 输出。这在结构上有别于思维链(Chain-of-Thought),并已被形式化分析(Saunshi et al., 2025; COCONUT, 2024)。
图片
循环块执行一个共享的 TransformerBlock,最多进行 T=16 次循环迭代。每一步,冻结的编码输入 e 通过稳定的 LTI 更新规则重新注入:
该块内的 FFN 是一个混合专家层(MoE),遵循 DeepSeekMoE 的设计——大量细粒度的路由专家,每个 token 只激活稀疏的 top-K 子集,同时配备少量始终激活的共享专家来吸收跨领域的通用模式。
关键的是,路由器在每个循环深度选择不同的专家子集——这意味着每次迭代不仅仅是重复,而是计算上截然不同的传递。MoE 提供领域广度;循环提供推理深度。
图片
完整架构为:
Prelude → 循环块 → Coda
Prelude 和 Coda 是标准的 Transformer 层,各运行一次。循环块是计算核心。注意力默认采用多潜注意力(Multi-Latent Attention,DeepSeek-V2)——缓存压缩的低秩 KV 潜变量而非完整的 K/V 张量,在生产规模下实现 KV 内存 10-20 倍的缩减。
三种进一步机制稳定循环:
LTI 约束注入(通过构造保证 ρ(A) < 1)
自适应计算时间(ACT):按位置动态停止
深度方向 LoRA 适配器:为每次迭代提供表达能力
图片
关于参数效率:一个运行 L 次的 k 层循环模型,能够达到 kL 层标准 Transformer 的质量,但仅使用 k 层的参数量。
实证上(Parcae, Prairie et al., 2026):在 7.7 亿参数下,RDT 匹配了 13 亿参数的标准模型在相同训练数据上的表现。推理深度是推理时计算的函数,而非存储参数量的函数。
这重新框定了扩展性(scaling)的争论。相关维度是推理时的循环深度,而非训练时的模型大小。
图片
OpenMythos 的贡献:
RDT 假设的完整开源、可配置 PyTorch 实现,包含 MoE FFN 和多潜注意力
LTI 稳定循环注入(Parcae)作为一等训练原语集成
深度方向 LoRA 适配器,在不增加额外参数开销的情况下实现每次迭代的行为差异化
可复现的研究基线,用于研究循环 Transformer 动态、扩展行为和推理时推理深度
图片
本文转载自PaperAgent
已于2026-4-22修改
|
|
|
|
|
|
|
|
|
| |
本周最热论坛帖子
|