|
查看: 204|回复: 5
|
G A N, O(N^2)
[复制链接]
|
|
|
放心吧!结论是 GAN 离不开 辉达GPU,伤不了 台湾人荷包。
(1)跑去fengshui123.org 发过一个帖子。探讨了 AI,不班门弄斧。长话短说, 其实也没什么了不起,
跟 2004年 I,Robot 的 主角 运存2套系统,应该有人会听明白。
(2) Transformer 框架 注意力机制 没有人类要解决。
For an input with n tokens, this requires calculating n² pairwise relationships, creating an \(\mathcal{O}(n^2)\) computational and memory cost.
堆 记忆体 不是办法,只婊 不只本。
物理极限,哪来那么多空间。
(3)相传古印度宰相西萨(Sissa)发明了国际象棋,国王舍罕王非常高兴,决定重赏他。宰相只提出了一个看似微不足道的请求:
在棋盘的第1个格子放 1 粒米第2个格子放 2 粒米第3个格子放 4 粒米每一个格子放的米数都是前一个格子的 2 倍,以此类推,直到放满 64 个格子。惊人的数学结果国王最初爽快地答应了,但他很快发现自己根本付不起这笔赏赐。
因为这是一个等比数列的求和问题,随着格子的增加,数字呈现爆发式增长:
前 10 个格子:只需 1,023 粒米
第 30 个格子:超过 5.3 亿粒米
填满所有 64 个格子:总共需要 2⁶⁴ - 1 = 18,446,744,073,709,551,615 粒米
|
|
|
|
|
|
|
|
|
|
|

楼主 |
发表于 13-6-2026 07:05 PM
来自手机
|
显示全部楼层
O(N² )
1000 token = 10⁶
1000000 token = 10¹²
实际 FLOPs 通常是:O(N² d)
其中 d 是 hidden dimension。
例如:N=10^6, d=8192
则计算量接近:
10^12×8192≈8.2×10^15
约 8 quadrillion operations(千万亿级)。
这也是为什么传统 Transformer 很难直接处理 100 万 token 上下文! |
|
|
|
|
|
|
|
|
|
|

楼主 |
发表于 15-6-2026 09:09 AM
来自手机
|
显示全部楼层
|
记忆体缺料,解了吗?Diffusion Gemma https://youtu.be/gRFhacXrP1s |
|
|
|
|
|
|
|
|
|
|

楼主 |
发表于 15-6-2026 09:40 AM
来自手机
|
显示全部楼层
三階矩陣的特徵值(eigenvalue)問題,最容易讓計算變得冗長的地方,通常不是最後的二次方程式,而是前面的三次特徵多項式(characteristic polynomial)。
但如果已經確認其中一個特徵值 λ₁,就不一定需要從頭解完整三次式。利用特徵值與係數之間的關係,可以把剩餘問題直接降為二次方程式。
本篇固定使用:
P_A(λ) = det(A − λI)
對三階矩陣而言:
P_A(λ) = −λ³ + tr(A)λ² − s₂λ + det(A)
其中:
tr(A) 是跡(trace),等於三個特徵值依代數重數(algebraic multiplicity)計算後的總和。
det(A) 是行列式(determinant),等於三個特徵值的乘積。
s₂ 是兩兩乘積之和,也等於三個主二階子行列式(principal 2×2 minors)的總和:
s₂ = M₁₁ + M₂₂ + M₃₃
假設 λ₁ 已經確認為真正的特徵值,令其餘兩個特徵值為 λ₂、λ₃,並設定:
b = tr(A) − λ₁
則:
b = λ₂ + λ₃
接下來要分成兩種情況。
當 λ₁ ≠ 0 時:
c = det(A) ÷ λ₁
因此:
c = λ₂λ₃
其餘兩個特徵值就是下列二次方程式的兩根:
μ² − bμ + c = 0
這裡使用 μ 作為未知數,避免與常用來表示特徵向量(eigenvector)的 x 混淆。
當 λ₁ = 0 時,不能使用 det(A) ÷ λ₁,因為這會造成除以零。
此時改用:
b = tr(A)
c = s₂
剩餘二次式仍然是:
μ² − bμ + c = 0
因此,零特徵值並不是例外到無法處理,而是需要從「三根乘積」切換到「兩兩乘積之和」。
若二次式的係數 b、c 都是實數,還可以利用判別式(discriminant):
Δ = b² − 4c
Δ > 0 時,有兩個相異實根。
Δ = 0 時,有一個重根;計算代數重數時必須算兩次。
Δ < 0 時,有一對共軛複數根(complex-conjugate pair)。
這也提醒我們:即使 A 是實矩陣,特徵值也不一定全部都是實數。
快速方法真正的關鍵,不是猜出一個看似合理的數字,而是先確認:
P_A(λ₁) = 0
只有通過特徵方程式驗證的候選值,才能作為已知特徵值,進一步用跡、行列式與主子行列式求出其餘兩根。 |
|
|
|
|
|
|
|
|
|
|
发表于 15-6-2026 10:39 AM
|
显示全部楼层
|
|
|
|
|
|
|
|
|
|
发表于 15-6-2026 11:03 AM
|
显示全部楼层
|
|
|
|
|
|
|
|
| |
本周最热论坛帖子
|