佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

搜索
查看: 157|回复: 1

中出?吓死宝宝们了!Claude AI核弹Mythos 制造原来那么简单粗糙?

[复制链接]
发表于 22-4-2026 10:49 AM 来自手机 | 显示全部楼层 |阅读模式
回复

使用道具 举报


ADVERTISEMENT

 楼主| 发表于 22-4-2026 10:58 AM 来自手机 | 显示全部楼层
Anthropic顶级Claude模型被逆向开源,这几个模块借鉴了DeepSeek

PaperAgent
• 86浏览
前端时间,Anthropic公告了一个强大又危险的大模型Claude Mythos Preview,以至于不能发布给大家用。今天,这个模型架构被22岁开发者逆向开源,核心模块借鉴DeepSeek。

图片

Kye Gomez:

OpenMythos 正式发布(目前5000 star)

一个开源的、基于第一性原理的 Claude Mythos 理论重构实现,基于 PyTorch。

该架构实例化了一个带混合专家(MoE)路由机制的循环 Transformer,通过权重共享和跨专家的条件计算实现迭代深度。

我的实现探索了这样一个假设:固定参数化块的递归应用,结合稀疏专家激活,能够在效率-性能权衡上取得改进,并涌现多步推理能力。

图片

他假设 Mythos 是一种递归深度 Transformer(RDT)——一类循环 Transformer,其中固定权重集在单次前向传播中跨 T 个循环步骤迭代应用。

关键的是,推理完全发生在连续潜空间中。步骤之间没有中间 token 输出。这在结构上有别于思维链(Chain-of-Thought),并已被形式化分析(Saunshi et al., 2025; COCONUT, 2024)。

图片

循环块执行一个共享的 TransformerBlock,最多进行 T=16 次循环迭代。每一步,冻结的编码输入 e 通过稳定的 LTI 更新规则重新注入:



该块内的 FFN 是一个混合专家层(MoE),遵循 DeepSeekMoE 的设计——大量细粒度的路由专家,每个 token 只激活稀疏的 top-K 子集,同时配备少量始终激活的共享专家来吸收跨领域的通用模式。

关键的是,路由器在每个循环深度选择不同的专家子集——这意味着每次迭代不仅仅是重复,而是计算上截然不同的传递。MoE 提供领域广度;循环提供推理深度。

图片

完整架构为:

Prelude → 循环块 → Coda

Prelude 和 Coda 是标准的 Transformer 层,各运行一次。循环块是计算核心。注意力默认采用多潜注意力(Multi-Latent Attention,DeepSeek-V2)——缓存压缩的低秩 KV 潜变量而非完整的 K/V 张量,在生产规模下实现 KV 内存 10-20 倍的缩减。

三种进一步机制稳定循环:

LTI 约束注入(通过构造保证 ρ(A) < 1)
自适应计算时间(ACT):按位置动态停止
深度方向 LoRA 适配器:为每次迭代提供表达能力
图片

关于参数效率:一个运行 L 次的 k 层循环模型,能够达到 kL 层标准 Transformer 的质量,但仅使用 k 层的参数量。

实证上(Parcae, Prairie et al., 2026):在 7.7 亿参数下,RDT 匹配了 13 亿参数的标准模型在相同训练数据上的表现。推理深度是推理时计算的函数,而非存储参数量的函数。

这重新框定了扩展性(scaling)的争论。相关维度是推理时的循环深度,而非训练时的模型大小。

图片

OpenMythos 的贡献:

RDT 假设的完整开源、可配置 PyTorch 实现,包含 MoE FFN 和多潜注意力
LTI 稳定循环注入(Parcae)作为一等训练原语集成
深度方向 LoRA 适配器,在不增加额外参数开销的情况下实现每次迭代的行为差异化
可复现的研究基线,用于研究循环 Transformer 动态、扩展行为和推理时推理深度
图片

本文转载自​​PaperAgent​​

已于2026-4-22修改


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT


本周最热论坛帖子本周最热论坛帖子

ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 23-4-2026 06:57 PM , Processed in 0.077075 second(s), 27 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表