GNN의 모든 연산은 결국 행렬 곱셈이다. GCN의 propagation D~−1/2A~D~−1/2HW, GraphSAGE의 mean aggregator, APPNP의 PageRank propagation — 전부 adjacency matrix A를 사전에 정의해야 가능하다. 그런데 이 A가 무엇을 인코딩하고, Laplacian L=D−A가 왜 PSD(양반정치)이며, 고유벡터가 왜 “그래프 주파수 기저”가 되는가? 이 질문들에 답하지 않으면 GNN의 설계 결정을 이해할 수 없다.
그래프의 행렬 표현
그래프 G=(V,E)는 두 관점으로 볼 수 있다. 조합론적 객체(노드와 엣지의 집합)이자, 선형대수적 객체(행렬과 그 위에서 정의되는 연산자). GNN은 이 두 관점을 잇는 다리다.
Ak의 (i,j) 성분은 i에서 j로 가는 길이 k의 walk 수와 같다. 귀납법으로 증명된다. (Ak)ij=∑l(Ak−1)ilAlj는 “길이 k−1의 walk i→l“과 “엣지 l→j“의 조합이기 때문이다. 이 사실이 message passing의 수학적 뿌리다 — GCN 한 layer가 1-hop neighbor 정보를 모으듯, Ak는 k-hop reachability를 인코딩한다.
그래프의 sparsity가 GNN 비용을 결정한다. AH의 비용은 dense matmul O(n2d)가 아니라 sparse matmul O(md)다. Cora(m=O(n))에서는 O(nd)로 선형이지만, 분자 그래프처럼 dense한 경우(m=O(n2))에는 MLP와 비슷한 비용이 든다.
Graph Laplacian과 Smoothness
Graph LaplacianL=D−A는 연속 Laplacian −Δ의 이산판이다.
(Lf)i=j∈N(i)∑(fi−fj)=difi−j∑Aijfj
Laplacian의 핵심 성질은 quadratic form이 smoothness를 측정한다는 것이다.
xTLx=21(i,j)∈E∑(xi−xj)2
정리 1
· Laplacian PSD
L⪰0. 즉, 모든 x∈Rn에 대해 xTLx≥0.
▷ 증명
xTLx=21∑(i,j)∈E(xi−xj)2는 제곱의 합이므로 항상 비음이다. □
∎
따라서 모든 고유값 λi(L)≥0이고, L1=0이므로 λ1=0은 항상 성립한다. 더 나아가 dimker(L)는 connected component 수와 정확히 같다. 각 component의 indicator vector가 kernel의 기저를 이루기 때문이다.
Unnormalized Laplacian의 실전 한계는 고유값 scale이 그래프마다 다르다는 것이다(λmax(L)≤2Δ, Δ = max degree). Symmetric normalized LaplacianLsym=D−1/2LD−1/2=I−D−1/2AD−1/2은 이를 [0,2]로 고정한다. Random walk LaplacianLrw=D−1L=I−P (P=D−1A)는 확률적 해석이 명확하다. 두 normalized Laplacian의 고유값은 일치하지만(Lrw=D−1/2LsymD1/2, similarity transform), 고유벡터는 D−1/2 만큼 다르다.
✎ 트레이드오프
Lsym은 symmetric이어서 spectral 분석이 쉽고 GCN·ChebNet에 사용된다. Lrw는 random walk 해석이 직접적이고 GraphSAGE mean aggregator와 APPNP에 대응된다. Inductive learning에서는 Lrw 기반의 mean aggregator가 새 노드에 더 자연스럽게 적용된다.
Graph conductance h(G)=minS:∣S∣≤n/2cut(S,Sˉ)/vol(S)와 λ2 사이에는 다음 Cheeger 부등식이 성립한다.
2h2(G)≤λ2(Lrw)≤2h(G)
이것이 spectral clustering의 이론적 근거다. λ2의 eigenvector인 Fiedler vectorv2의 부호로 노드를 두 그룹으로 분리하면, 그 분리가 conductance를 거의 최소화함이 보장된다. Zachary’s Karate Club에서 Fiedler vector 부호 분리가 실제 두 파벌과 거의 정확히 일치하는 것은 이 보장의 실증이다.
Spectral gap 1−μ2 (여기서 μ2는 P=D−1A의 두 번째 고유값)는 random walk mixing time을 결정한다. τmix=O(log(1/ϵ)/(1−μ∗)). GCN의 over-smoothing 속도도 이 spectral gap의 함수다 — gap이 작은 커뮤니티 구조가 강한 그래프일수록 over-smoothing이 천천히 일어난다.
Graph Fourier Transform — 주파수 기저로서의 고유벡터
고전 Fourier transform에서 e2πiξt는 −Δ의 eigenfunction이다. Graph Laplacian Lsym이 −Δ의 이산판이므로, 그 고유벡터 {uk}가 자연스럽게 “그래프 주파수 기저”가 된다.
Graph Fourier Transform (GFT): Lsym=UΛUT에 대해
x^=UTx(forward),x=Ux^(inverse)
작은 λk에 대응하는 uk는 인접 노드끼리 비슷한 값을 갖는 smooth basis vector이고, 큰 λk의 uk는 이웃 노드 부호가 반대인 oscillatory vector다. 이로부터 두 핵심 항등식이 따라온다.
두 번째 식은 graph energy가 GFT 계수의 λk-weighted L2 norm임을 뜻한다. Filter g(λ)가 polynomial ∑kαkλk이면 g(L)x=∑kαkLkx로 계산할 수 있어 — U 없이 L의 sparsity를 직접 활용한다. 이것이 ChebNet의 핵심이다. Cycle graph Cn에서 GFT는 고전 DFT와 정확히 일치하며, 이는 GFT가 DFT의 그래프 일반화임을 보여준다.
Random Walk와 PageRank
Random walk transition P=D−1A는 row-stochastic이다. Connected undirected graph에서 stationary distribution은 πi=di/(2∣E∣) — 고차수 노드일수록 자주 방문된다. 이는 detailed balance πiPij=πjPji로부터 즉시 따라온다.
PageRank는 teleport가 추가된 personalized random walk다.
π=(1−α)v+αPTπ⇒π=(1−α)(I−αPT)−1v
v=es로 두면 Personalized PageRank(PPR)가 된다. GNN 관점에서 초기 feature H(0)에 PPR을 적용하면 APPNP의 propagation이 된다.
Z=(1−α)(I−αA^)−1H(0)=(1−α)k=0∑∞αkA^kH(0)
α는 teleport probability다. 각 step에서 α 확률로 H(0)으로 reset하므로 초기 feature가 보존된다. 이것이 over-smoothing 회피의 메커니즘이다 — A^LH가 ker(Lsym)으로 collapse하는 것을 teleport가 차단한다.
정리
Ak의 (i,j) 성분 = 길이 k walk 수. Message passing의 수학적 뿌리이며, k-layer GNN이 k-hop 정보를 모으는 이유다.
L=D−A⪰0. Quadratic form xTLx=21∑E(xi−xj)2는 smoothness를 측정하고, dimker(L)은 connected component 수와 같다.
Cheeger 부등식 h2/2≤λ2≤2h는 spectral clustering의 이론적 보장이다. Fiedler vector 부호로 그래프를 bisection하면 conductance가 거의 최적이다.
GFT x^=UTx에서 L의 고유벡터가 그래프 주파수 기저가 된다. Polynomial filter