佳礼资讯网

 找回密码
 注册

ADVERTISEMENT

搜索
查看: 204|回复: 5

G A N, O(N^2)

[复制链接]
发表于 13-6-2026 06:36 PM 来自手机 | 显示全部楼层 |阅读模式
放心吧!结论是 GAN 离不开 辉达GPU,伤不了 台湾人荷包。

(1)跑去fengshui123.org 发过一个帖子。探讨了 AI,不班门弄斧。长话短说, 其实也没什么了不起,

跟 2004年 I,Robot 的 主角 运存2套系统,应该有人会听明白。

(2) Transformer 框架 注意力机制 没有人类要解决。

For an input with n tokens, this requires calculating n² pairwise relationships, creating an \(\mathcal{O}(n^2)\) computational and memory cost.

堆 记忆体 不是办法,只婊 不只本。

物理极限,哪来那么多空间。

(3)相传古印度宰相西萨(Sissa)发明了国际象棋,国王舍罕王非常高兴,决定重赏他。宰相只提出了一个看似微不足道的请求:

在棋盘的第1个格子放 1 粒米第2个格子放 2 粒米第3个格子放 4 粒米每一个格子放的米数都是前一个格子的 2 倍,以此类推,直到放满 64 个格子。惊人的数学结果国王最初爽快地答应了,但他很快发现自己根本付不起这笔赏赐。

因为这是一个等比数列的求和问题,随着格子的增加,数字呈现爆发式增长:

前 10 个格子:只需 1,023 粒米
第 30 个格子:超过 5.3 亿粒米

填满所有 64 个格子:总共需要 2⁶⁴ - 1 = 18,446,744,073,709,551,615 粒米

EH8h3.jpg



回复

使用道具 举报


ADVERTISEMENT

 楼主| 发表于 13-6-2026 07:05 PM 来自手机 | 显示全部楼层
O(N² )
1000 token = 10⁶
1000000 token = 10¹²

实际 FLOPs 通常是:O(N² d)
其中 d 是 hidden dimension。

例如:N=10^6, d=8192

则计算量接近:

10^12×8192≈8.2×10^15

约 8 quadrillion operations(千万亿级)。

这也是为什么传统 Transformer 很难直接处理 100 万 token 上下文!
回复

使用道具 举报

 楼主| 发表于 15-6-2026 09:09 AM 来自手机 | 显示全部楼层
记忆体缺料,解了吗?Diffusion Gemma https://youtu.be/gRFhacXrP1s
回复

使用道具 举报

 楼主| 发表于 15-6-2026 09:40 AM 来自手机 | 显示全部楼层
三階矩陣的特徵值(eigenvalue)問題,最容易讓計算變得冗長的地方,通常不是最後的二次方程式,而是前面的三次特徵多項式(characteristic polynomial)。

但如果已經確認其中一個特徵值 λ₁,就不一定需要從頭解完整三次式。利用特徵值與係數之間的關係,可以把剩餘問題直接降為二次方程式。

本篇固定使用:

P_A(λ) = det(A − λI)

對三階矩陣而言:

P_A(λ) = −λ³ + tr(A)λ² − s₂λ + det(A)

其中:

tr(A) 是跡(trace),等於三個特徵值依代數重數(algebraic multiplicity)計算後的總和。

det(A) 是行列式(determinant),等於三個特徵值的乘積。

s₂ 是兩兩乘積之和,也等於三個主二階子行列式(principal 2×2 minors)的總和:

s₂ = M₁₁ + M₂₂ + M₃₃

假設 λ₁ 已經確認為真正的特徵值,令其餘兩個特徵值為 λ₂、λ₃,並設定:

b = tr(A) − λ₁

則:

b = λ₂ + λ₃

接下來要分成兩種情況。

當 λ₁ ≠ 0 時:

c = det(A) ÷ λ₁

因此:

c = λ₂λ₃

其餘兩個特徵值就是下列二次方程式的兩根:

μ² − bμ + c = 0

這裡使用 μ 作為未知數,避免與常用來表示特徵向量(eigenvector)的 x 混淆。

當 λ₁ = 0 時,不能使用 det(A) ÷ λ₁,因為這會造成除以零。

此時改用:

b = tr(A)

c = s₂

剩餘二次式仍然是:

μ² − bμ + c = 0

因此,零特徵值並不是例外到無法處理,而是需要從「三根乘積」切換到「兩兩乘積之和」。

若二次式的係數 b、c 都是實數,還可以利用判別式(discriminant):

Δ = b² − 4c

Δ > 0 時,有兩個相異實根。

Δ = 0 時,有一個重根;計算代數重數時必須算兩次。

Δ < 0 時,有一對共軛複數根(complex-conjugate pair)。

這也提醒我們:即使 A 是實矩陣,特徵值也不一定全部都是實數。

快速方法真正的關鍵,不是猜出一個看似合理的數字,而是先確認:

P_A(λ₁) = 0

只有通過特徵方程式驗證的候選值,才能作為已知特徵值,進一步用跡、行列式與主子行列式求出其餘兩根。
回复

使用道具 举报

发表于 15-6-2026 10:39 AM | 显示全部楼层
2个字,复杂。
回复

使用道具 举报

发表于 15-6-2026 11:03 AM | 显示全部楼层
回复

使用道具 举报

Follow Us
您需要登录后才可以回帖 登录 | 注册

本版积分规则

 

ADVERTISEMENT



ADVERTISEMENT



ADVERTISEMENT

ADVERTISEMENT


版权所有 © 1996-2026 Cari Internet Sdn Bhd (483575-W)|IPSERVERONE 提供云主机|广告刊登|关于我们|私隐权|免控|投诉|联络|脸书|佳礼资讯网

GMT+8, 15-6-2026 01:44 PM , Processed in 0.066355 second(s), 14 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表