IQ Lab
← all posts
AI 2026.04.28 · 12 min read Advanced

Shannon 채널 코딩 정리 — 존재 증명이 60년을 이끌었다

채널 용량 C의 정의부터 Achievability·Converse 증명, Polar·LDPC가 그 한계에 도달하는 방식까지, Shannon 정리가 AI 이론의 기반이 되는 과정을 추적한다.


1948년 Shannon은 놀라운 주장을 했다. 잡음 있는 채널에서도 오류 확률을 임의로 작게 만들 수 있다 — 전송률이 채널 용량 CC를 넘지 않는 한. 더 놀라운 것은 증명 방식이었다. 구체적인 부호 구성 없이, 순수하게 “랜덤하게 뽑은 부호가 평균적으로 잘 된다”는 확률적 논증이었다. 이 존재 증명이 이후 60년의 공학을 이끌었는데, 왜 그것이 가능했는가?

채널 용량 — maxp(x)I(X;Y)\max_{p(x)} I(X;Y)

이산 메모리리스 채널(DMC)은 전이 확률 p(yx)p(y|x)로 완전히 정의된다. 채널의 “성능”은 공학적 세부사항이 아니라 단 하나의 수 CC로 결정된다는 것이 Shannon의 핵심 통찰이다.

C=maxp(x)I(X;Y)C = \max_{p(x)} I(X; Y)

최대화는 입력 분포 p(x)p(x) 위에서 이루어진다. 채널 p(yx)p(y|x)는 자연이 준 것이고, 우리가 선택할 수 있는 것은 어떤 심볼을 어떤 빈도로 보낼 것인가뿐이다. I(X;Y)I(X;Y)p(x)p(x)에 대해 concave이므로 최대값은 유일하게 존재한다.

세 채널의 용량을 닫힌 형태로 구할 수 있다.

  • BSC(p)(p): 비트를 확률 pp로 뒤집는 대칭 채널. H(YX)=H(p)H(Y|X) = H(p)는 입력 분포와 무관하므로, H(Y)H(Y)를 최대화하는 균등 입력이 최적이다.
CBSC=1H(p)C_\text{BSC} = 1 - H(p)
  • BEC(ε)(\varepsilon): 확률 ε\varepsilon로 소거(erasure) 발생. 소거된 심볼에서 정보 0, 수신된 심볼에서 완전 복원.
CBEC=1εC_\text{BEC} = 1 - \varepsilon
  • AWGN (Shannon–Hartley): Y=X+NY = X + N, NN(0,σ2)N \sim \mathcal{N}(0, \sigma^2), 입력 파워 제약 PP. 분산 조건 하에서 미분 엔트로피를 최대화하는 것은 가우시안 분포(MaxEnt 정리)이므로 XN(0,P)X \sim \mathcal{N}(0,P)가 최적이다.
CAWGN=12log2 ⁣(1+Pσ2)C_\text{AWGN} = \frac{1}{2}\log_2\!\left(1 + \frac{P}{\sigma^2}\right)

SNR = 10 dB일 때 C1.73C \approx 1.73 bits/use. 5G와 Wi-Fi의 이론 상한이 이 공식으로 결정된다.

Achievability — 랜덤 부호의 역설

Shannon 정리의 한 방향: R<CR < C이면 오류 확률을 0으로 만드는 부호가 존재한다.

정리 1 · Shannon Channel Coding Theorem (Achievability)

C=maxp(x)I(X;Y)C = \max_{p(x)} I(X;Y)일 때, 모든 R<CR < C에 대해 블록 길이 nn \to \infty에서 Pe(n)0P_e^{(n)} \to 0(2nR,n)(2^{nR}, n)-부호가 존재한다.

▷ 증명

Random codebook 구성: capacity-achieving 분포 pXp_X로 각 codeword Xn(w)X^n(w)를 iid로 독립 생성한다. Codebook 자체가 확률 변수 C\mathcal{C}다.

Jointly typical decoder: 수신된 yny^n에 대해 (Xn(w^),yn)Aε(n)(X^n(\hat w), y^n) \in A_\varepsilon^{(n)}인 유일한 w^\hat w를 출력한다.

오류 분석 (Union bound):

Pr(E)Pr(E1)0 (AEP)+w=2MPr(Ew)2n(I3ε) (Joint AEP).\Pr(E) \leq \underbrace{\Pr(E_1)}_{\to 0 \text{ (AEP)}} + \sum_{w=2}^M \underbrace{\Pr(E_w)}_{\leq 2^{-n(I-3\varepsilon)} \text{ (Joint AEP)}}.

가짜 codeword Xn(w)X^n(w)YnY^n과 독립이므로 우연히 jointly typical일 확률은 2n(I3ε)2^{-n(I-3\varepsilon)}로 지수적으로 작다. M=2nRM = 2^{nR}개 합산:

EC[Pe(n)]Pr(E1)+2n(IR3ε)0(R<I3ε).\mathbb{E}_\mathcal{C}[P_e^{(n)}] \leq \Pr(E_1) + 2^{-n(I-R-3\varepsilon)} \to 0 \quad (R < I-3\varepsilon).

기댓값이 0으로 수렴하므로, 이 기댓값을 달성하는 고정된 codebook C\mathcal{C}^*가 반드시 존재한다. \square

이 증명의 핵심은 “특수한 구조의 부호를 구성하지 않았다”는 것이다. 랜덤하게 뽑은 부호가 평균적으로 최적이라는 것 — 이것이 확률적 방법(probabilistic method)의 전형적 논증이며, 이후 ML 이론(PAC learning, Rademacher complexity)의 하한 증명에도 같은 구조가 반복된다.

Converse — 용량은 진짜 경계다

정리 2 · Weak Converse

(2nR,n)(2^{nR}, n)-부호가 Pe(n)0P_e^{(n)} \to 0을 달성하면 반드시 RCR \leq C이다.

▷ 증명

전송 구조 WXnYnW^W \to X^n \to Y^n \to \hat W는 Markov chain이다. 핵심 pipeline:

logM=entropyI(W;W^)+H(WW^)DPII(Xn;Yn)+1+PelogMFanomemorylessnC+1+PelogM.\log M \underset{\text{entropy}}{=} I(W;\hat W) + H(W|\hat W) \underset{\text{DPI}}{\leq} I(X^n;Y^n) + \underbrace{1 + P_e \log M}_{\text{Fano}} \underset{\text{memoryless}}{\leq} nC + 1 + P_e \log M.

logM=nR\log M = nR로 나누고 재배치하면:

RC+1/n1Pe.R \leq \frac{C + 1/n}{1 - P_e}.

Pe0P_e \to 0, nn \to \infty에서 RCR \leq C. \square

Wolfowitz(1957)의 Strong Converse는 더 강하게: R>CR > C이면 Pe(n)1P_e^{(n)} \to 1이다. 단순히 “오류가 줄지 않는다”가 아니라 “반드시 1로 발산한다”는 것이 실용적으로 중요하다 — R>CR > C에서의 시도는 완전히 의미 없다.

트레이드오프

Achievability와 Converse를 합쳐 Cop=sup{R:R achievable}=CC_\text{op} = \sup\{R : R \text{ achievable}\} = C가 확정된다. 이 경계는 decoder 구현 방식에 무관한 물리적 한계다. 또한 Achievability 증명은 존재성만 보장하고 구체적 구성을 주지 않는다 — 실용 부호를 만드는 40년간의 연구가 이 gap을 채웠다.

60년의 공학 — Hamming에서 Polar까지

Shannon의 존재 증명 이후 목표는 단순했다: RR에 가까우면서 복잡도가 낮은 부호를 실제로 구성하라.

Hamming(7,4) (1950): Generator matrix GG와 parity check matrix HH를 이용해 단일 비트 오류를 정정한다. d_\min = 3, Rate =4/7= 4/7. Syndrome s=Hys = Hy^\top으로 오류 위치를 직접 읽어낸다. 간단하지만 Shannon 한계와는 큰 gap이 있다.

LDPC (Gallager 1962, MacKay 1996): Parity check matrix HH가 sparse인 선형 부호. Tanner graph — variable node와 check node의 이분 그래프 — 위에서 Belief Propagation(BP)을 돌린다.

Variable → Check:  m_{v→c} = LLR_v + Σ_{c'≠c} m_{c'→v}
Check → Variable:  m_{c→v} = 2 arctanh( Π_{v'≠v} tanh(m_{v'→c}/2) )

Density evolution 분석으로 decoder threshold가 CC에 거의 근접함을 보인다. 5G 데이터 채널의 표준이다.

Polar Code (Arıkan 2008): 채널 두 개를 조합하면 하나는 더 좋은 채널 W+W^+, 하나는 더 나쁜 채널 WW^-로 “극단화”된다. N=2nN = 2^n회 재귀 적용하면 sub-channel들이 용량 1(“완벽”) 또는 0(“쓸모없음”)으로 수렴한다. 완벽한 채널 NCN \cdot C개에는 정보를, 나머지에는 frozen bit을 배정한다.

이것이 Shannon 정리 이후 처음으로 용량 달성을 수학적으로 증명한 부호다. 5G 제어 채널의 표준이 되었다.

정리

  • 채널 용량 C=maxp(x)I(X;Y)C = \max_{p(x)} I(X;Y)는 “채널 1회 사용당 신뢰 전송 가능한 최대 비트 수”다.
  • Achievability는 random codebook의 확률 논증으로만 증명된다 — 존재성이지 구성이 아니다.
  • Converse는 Fano 부등식 + DPI 조합으로 R>CR > C에서 Pe1P_e \to 1을 확정한다.
  • Hamming → Turbo → LDPC → Polar의 60년 여정은 이 존재 증명이 실제 구현 가능한 경계임을 공학적으로 확인해 온 과정이다.

존재 증명 하나가 수십 년의 방향을 결정할 수 있다 — Shannon 정리는 그 가장 강력한 사례다.

REF
C. E. Shannon · 1948 · A Mathematical Theory of Communication · Bell System Technical Journal