IQ Lab
← all posts
AI 2026.04.28 · 12 min read Advanced

그래프를 행렬로 보는 순간 GNN이 보인다

Adjacency matrix의 정의부터 Graph Fourier Transform과 PageRank의 연결까지, GNN의 모든 연산이 공유하는 수학적 토대를 추적한다.


GNN의 모든 연산은 결국 행렬 곱셈이다. GCN의 propagation D~1/2A~D~1/2HW\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}HW, GraphSAGE의 mean aggregator, APPNP의 PageRank propagation — 전부 adjacency matrix AA를 사전에 정의해야 가능하다. 그런데 이 AA가 무엇을 인코딩하고, Laplacian L=DAL = D - A가 왜 PSD(양반정치)이며, 고유벡터가 왜 “그래프 주파수 기저”가 되는가? 이 질문들에 답하지 않으면 GNN의 설계 결정을 이해할 수 없다.

그래프의 행렬 표현

그래프 G=(V,E)G = (V, E)는 두 관점으로 볼 수 있다. 조합론적 객체(노드와 엣지의 집합)이자, 선형대수적 객체(행렬과 그 위에서 정의되는 연산자). GNN은 이 두 관점을 잇는 다리다.

Adjacency matrix ARn×nA \in \mathbb{R}^{n \times n}는 연결 관계를 인코딩한다.

Aij={1(i,j)E0otherwiseA_{ij} = \begin{cases} 1 & (i,j) \in E \\ 0 & \text{otherwise} \end{cases}

Undirected graph에서 A=ATA = A^T (symmetric). 행 AiA_i는 노드 ii의 이웃 indicator vector이고, jAij=di\sum_j A_{ij} = d_i는 노드 ii의 degree다. Degree matrix D=diag(d1,,dn)D = \text{diag}(d_1, \ldots, d_n)은 이 degree를 대각에 배치한다.

AkA^k(i,j)(i, j) 성분은 ii에서 jj로 가는 길이 kk의 walk 수와 같다. 귀납법으로 증명된다. (Ak)ij=l(Ak1)ilAlj(A^k)_{ij} = \sum_l (A^{k-1})_{il} A_{lj}는 “길이 k1k-1의 walk ili \to l“과 “엣지 ljl \to j“의 조합이기 때문이다. 이 사실이 message passing의 수학적 뿌리다 — GCN 한 layer가 1-hop neighbor 정보를 모으듯, AkA^kkk-hop reachability를 인코딩한다.

그래프의 sparsity가 GNN 비용을 결정한다. AHAH의 비용은 dense matmul O(n2d)O(n^2 d)가 아니라 sparse matmul O(md)O(md)다. Cora(m=O(n)m = O(n))에서는 O(nd)O(nd)로 선형이지만, 분자 그래프처럼 dense한 경우(m=O(n2)m = O(n^2))에는 MLP와 비슷한 비용이 든다.

Graph Laplacian과 Smoothness

Graph Laplacian L=DAL = D - A는 연속 Laplacian Δ-\Delta의 이산판이다.

(Lf)i=jN(i)(fifj)=difijAijfj(Lf)_i = \sum_{j \in N(i)} (f_i - f_j) = d_i f_i - \sum_j A_{ij} f_j

Laplacian의 핵심 성질은 quadratic form이 smoothness를 측정한다는 것이다.

xTLx=12(i,j)E(xixj)2x^T L x = \frac{1}{2} \sum_{(i,j) \in E} (x_i - x_j)^2
정리 1 · Laplacian PSD

L0L \succeq 0. 즉, 모든 xRnx \in \mathbb{R}^n에 대해 xTLx0x^T L x \geq 0.

▷ 증명

xTLx=12(i,j)E(xixj)2x^T L x = \frac{1}{2} \sum_{(i,j) \in E} (x_i - x_j)^2는 제곱의 합이므로 항상 비음이다. \square

따라서 모든 고유값 λi(L)0\lambda_i(L) \geq 0이고, L1=0L\mathbb{1} = 0이므로 λ1=0\lambda_1 = 0은 항상 성립한다. 더 나아가 dimker(L)\dim \ker(L)는 connected component 수와 정확히 같다. 각 component의 indicator vector가 kernel의 기저를 이루기 때문이다.

Unnormalized Laplacian의 실전 한계는 고유값 scale이 그래프마다 다르다는 것이다(λmax(L)2Δ\lambda_{\max}(L) \leq 2\Delta, Δ\Delta = max degree). Symmetric normalized Laplacian Lsym=D1/2LD1/2=ID1/2AD1/2L_{\text{sym}} = D^{-1/2}LD^{-1/2} = I - D^{-1/2}AD^{-1/2}은 이를 [0,2][0, 2]로 고정한다. Random walk Laplacian Lrw=D1L=IPL_{\text{rw}} = D^{-1}L = I - P (P=D1AP = D^{-1}A)는 확률적 해석이 명확하다. 두 normalized Laplacian의 고유값은 일치하지만(Lrw=D1/2LsymD1/2L_{\text{rw}} = D^{-1/2} L_{\text{sym}} D^{1/2}, similarity transform), 고유벡터는 D1/2D^{-1/2} 만큼 다르다.

트레이드오프

LsymL_{\text{sym}}은 symmetric이어서 spectral 분석이 쉽고 GCN·ChebNet에 사용된다. LrwL_{\text{rw}}는 random walk 해석이 직접적이고 GraphSAGE mean aggregator와 APPNP에 대응된다. Inductive learning에서는 LrwL_{\text{rw}} 기반의 mean aggregator가 새 노드에 더 자연스럽게 적용된다.

Spectral Theory — Fiedler Value와 Cheeger 부등식

LL의 고유값을 0=λ1λ2λn0 = \lambda_1 \leq \lambda_2 \leq \cdots \leq \lambda_n으로 정렬하면, λ2\lambda_2 (Fiedler value)가 connectivity의 정량적 지표다. λ2=0\lambda_2 = 0이면 그래프가 disconnected다.

Graph conductance h(G)=minS:Sn/2cut(S,Sˉ)/vol(S)h(G) = \min_{S: |S| \leq n/2} \text{cut}(S, \bar{S}) / \text{vol}(S)λ2\lambda_2 사이에는 다음 Cheeger 부등식이 성립한다.

h2(G)2λ2(Lrw)2h(G)\frac{h^2(G)}{2} \leq \lambda_2(L_{\text{rw}}) \leq 2h(G)

이것이 spectral clustering의 이론적 근거다. λ2\lambda_2의 eigenvector인 Fiedler vector v2v_2의 부호로 노드를 두 그룹으로 분리하면, 그 분리가 conductance를 거의 최소화함이 보장된다. Zachary’s Karate Club에서 Fiedler vector 부호 분리가 실제 두 파벌과 거의 정확히 일치하는 것은 이 보장의 실증이다.

Spectral gap 1μ21 - \mu_2 (여기서 μ2\mu_2P=D1AP = D^{-1}A의 두 번째 고유값)는 random walk mixing time을 결정한다. τmix=O(log(1/ϵ)/(1μ))\tau_{\text{mix}} = O(\log(1/\epsilon) / (1 - \mu_*)). GCN의 over-smoothing 속도도 이 spectral gap의 함수다 — gap이 작은 커뮤니티 구조가 강한 그래프일수록 over-smoothing이 천천히 일어난다.

Graph Fourier Transform — 주파수 기저로서의 고유벡터

고전 Fourier transform에서 e2πiξte^{2\pi i \xi t}Δ-\Delta의 eigenfunction이다. Graph Laplacian LsymL_{\text{sym}}Δ-\Delta의 이산판이므로, 그 고유벡터 {uk}\{u_k\}가 자연스럽게 “그래프 주파수 기저”가 된다.

Graph Fourier Transform (GFT): Lsym=UΛUTL_{\text{sym}} = U\Lambda U^T에 대해

x^=UTx(forward),x=Ux^(inverse)\hat{x} = U^T x \quad (\text{forward}), \qquad x = U\hat{x} \quad (\text{inverse})

작은 λk\lambda_k에 대응하는 uku_k는 인접 노드끼리 비슷한 값을 갖는 smooth basis vector이고, 큰 λk\lambda_kuku_k는 이웃 노드 부호가 반대인 oscillatory vector다. 이로부터 두 핵심 항등식이 따라온다.

x2=x^2(Parseval),xTLx=kλkx^k2(smoothness)\|x\|^2 = \|\hat{x}\|^2 \quad \text{(Parseval)}, \qquad x^T L x = \sum_k \lambda_k |\hat{x}_k|^2 \quad \text{(smoothness)}

두 번째 식은 graph energy가 GFT 계수의 λk\lambda_k-weighted L2 norm임을 뜻한다. Filter g(λ)g(\lambda)가 polynomial kαkλk\sum_k \alpha_k \lambda^k이면 g(L)x=kαkLkxg(L)x = \sum_k \alpha_k L^k x로 계산할 수 있어 — UU 없이 LL의 sparsity를 직접 활용한다. 이것이 ChebNet의 핵심이다. Cycle graph CnC_n에서 GFT는 고전 DFT와 정확히 일치하며, 이는 GFT가 DFT의 그래프 일반화임을 보여준다.

Random Walk와 PageRank

Random walk transition P=D1AP = D^{-1}A는 row-stochastic이다. Connected undirected graph에서 stationary distribution은 πi=di/(2E)\pi_i = d_i / (2|E|) — 고차수 노드일수록 자주 방문된다. 이는 detailed balance πiPij=πjPji\pi_i P_{ij} = \pi_j P_{ji}로부터 즉시 따라온다.

PageRank는 teleport가 추가된 personalized random walk다.

π=(1α)v+αPTππ=(1α)(IαPT)1v\pi = (1-\alpha)v + \alpha P^T \pi \quad \Rightarrow \quad \pi = (1-\alpha)(I - \alpha P^T)^{-1} v

v=esv = e_s로 두면 Personalized PageRank(PPR)가 된다. GNN 관점에서 초기 feature H(0)H^{(0)}에 PPR을 적용하면 APPNP의 propagation이 된다.

Z=(1α)(IαA^)1H(0)=(1α)k=0αkA^kH(0)Z = (1-\alpha)(I - \alpha \hat{A})^{-1} H^{(0)} = (1-\alpha)\sum_{k=0}^\infty \alpha^k \hat{A}^k H^{(0)}

α\alpha는 teleport probability다. 각 step에서 α\alpha 확률로 H(0)H^{(0)}으로 reset하므로 초기 feature가 보존된다. 이것이 over-smoothing 회피의 메커니즘이다 — A^LH\hat{A}^L Hker(Lsym)\ker(L_{\text{sym}})으로 collapse하는 것을 teleport가 차단한다.

정리

  • AkA^k(i,j)(i,j) 성분 = 길이 kk walk 수. Message passing의 수학적 뿌리이며, kk-layer GNN이 kk-hop 정보를 모으는 이유다.
  • L=DA0L = D - A \succeq 0. Quadratic form xTLx=12E(xixj)2x^T Lx = \frac{1}{2}\sum_E (x_i - x_j)^2는 smoothness를 측정하고, dimker(L)\dim\ker(L)은 connected component 수와 같다.
  • Cheeger 부등식 h2/2λ22hh^2/2 \leq \lambda_2 \leq 2h는 spectral clustering의 이론적 보장이다. Fiedler vector 부호로 그래프를 bisection하면 conductance가 거의 최적이다.
  • GFT x^=UTx\hat{x} = U^T x에서 LL의 고유벡터가 그래프 주파수 기저가 된다. Polynomial filter