Shannon 채널 코딩 정리 — 존재 증명이 60년을 이끌었다
채널 용량 C의 정의부터 Achievability·Converse 증명, Polar·LDPC가 그 한계에 도달하는 방식까지, Shannon 정리가 AI 이론의 기반이 되는 과정을 추적한다.
- 01 왜 ML의 모든 손실 함수에는 로그가 있는가
- 02 KL에서 Wasserstein까지 — 분산(divergence)은 무엇을 측정하는가
- 03 상호정보량은 현대 표현학습의 언어다
- 04 압축은 이해다 — Shannon이 증명한 정보의 한계
- 05 Shannon 채널 코딩 정리 — 존재 증명이 60년을 이끌었다
- 06 정보이론은 어떻게 AI의 모든 손실함수를 하나로 설명하는가
1948년 Shannon은 놀라운 주장을 했다. 잡음 있는 채널에서도 오류 확률을 임의로 작게 만들 수 있다 — 전송률이 채널 용량 를 넘지 않는 한. 더 놀라운 것은 증명 방식이었다. 구체적인 부호 구성 없이, 순수하게 “랜덤하게 뽑은 부호가 평균적으로 잘 된다”는 확률적 논증이었다. 이 존재 증명이 이후 60년의 공학을 이끌었는데, 왜 그것이 가능했는가?
채널 용량 —
이산 메모리리스 채널(DMC)은 전이 확률 로 완전히 정의된다. 채널의 “성능”은 공학적 세부사항이 아니라 단 하나의 수 로 결정된다는 것이 Shannon의 핵심 통찰이다.
최대화는 입력 분포 위에서 이루어진다. 채널 는 자연이 준 것이고, 우리가 선택할 수 있는 것은 어떤 심볼을 어떤 빈도로 보낼 것인가뿐이다. 는 에 대해 concave이므로 최대값은 유일하게 존재한다.
세 채널의 용량을 닫힌 형태로 구할 수 있다.
- BSC: 비트를 확률 로 뒤집는 대칭 채널. 는 입력 분포와 무관하므로, 를 최대화하는 균등 입력이 최적이다.
- BEC: 확률 로 소거(erasure) 발생. 소거된 심볼에서 정보 0, 수신된 심볼에서 완전 복원.
- AWGN (Shannon–Hartley): , , 입력 파워 제약 . 분산 조건 하에서 미분 엔트로피를 최대화하는 것은 가우시안 분포(MaxEnt 정리)이므로 가 최적이다.
SNR = 10 dB일 때 bits/use. 5G와 Wi-Fi의 이론 상한이 이 공식으로 결정된다.
Achievability — 랜덤 부호의 역설
Shannon 정리의 한 방향: 이면 오류 확률을 0으로 만드는 부호가 존재한다.
일 때, 모든 에 대해 블록 길이 에서 인 -부호가 존재한다.
Random codebook 구성: capacity-achieving 분포 로 각 codeword 를 iid로 독립 생성한다. Codebook 자체가 확률 변수 다.
Jointly typical decoder: 수신된 에 대해 인 유일한 를 출력한다.
오류 분석 (Union bound):
가짜 codeword 는 과 독립이므로 우연히 jointly typical일 확률은 로 지수적으로 작다. 개 합산:
기댓값이 0으로 수렴하므로, 이 기댓값을 달성하는 고정된 codebook 가 반드시 존재한다.
이 증명의 핵심은 “특수한 구조의 부호를 구성하지 않았다”는 것이다. 랜덤하게 뽑은 부호가 평균적으로 최적이라는 것 — 이것이 확률적 방법(probabilistic method)의 전형적 논증이며, 이후 ML 이론(PAC learning, Rademacher complexity)의 하한 증명에도 같은 구조가 반복된다.
Converse — 용량은 진짜 경계다
-부호가 을 달성하면 반드시 이다.
전송 구조 는 Markov chain이다. 핵심 pipeline:
로 나누고 재배치하면:
, 에서 .
Wolfowitz(1957)의 Strong Converse는 더 강하게: 이면 이다. 단순히 “오류가 줄지 않는다”가 아니라 “반드시 1로 발산한다”는 것이 실용적으로 중요하다 — 에서의 시도는 완전히 의미 없다.
Achievability와 Converse를 합쳐 가 확정된다. 이 경계는 decoder 구현 방식에 무관한 물리적 한계다. 또한 Achievability 증명은 존재성만 보장하고 구체적 구성을 주지 않는다 — 실용 부호를 만드는 40년간의 연구가 이 gap을 채웠다.
60년의 공학 — Hamming에서 Polar까지
Shannon의 존재 증명 이후 목표는 단순했다: 에 가까우면서 복잡도가 낮은 부호를 실제로 구성하라.
Hamming(7,4) (1950): Generator matrix 와 parity check matrix 를 이용해 단일 비트 오류를 정정한다. d_\min = 3, Rate . Syndrome 으로 오류 위치를 직접 읽어낸다. 간단하지만 Shannon 한계와는 큰 gap이 있다.
LDPC (Gallager 1962, MacKay 1996): Parity check matrix 가 sparse인 선형 부호. Tanner graph — variable node와 check node의 이분 그래프 — 위에서 Belief Propagation(BP)을 돌린다.
Variable → Check: m_{v→c} = LLR_v + Σ_{c'≠c} m_{c'→v}
Check → Variable: m_{c→v} = 2 arctanh( Π_{v'≠v} tanh(m_{v'→c}/2) )
Density evolution 분석으로 decoder threshold가 에 거의 근접함을 보인다. 5G 데이터 채널의 표준이다.
Polar Code (Arıkan 2008): 채널 두 개를 조합하면 하나는 더 좋은 채널 , 하나는 더 나쁜 채널 로 “극단화”된다. 회 재귀 적용하면 sub-channel들이 용량 1(“완벽”) 또는 0(“쓸모없음”)으로 수렴한다. 완벽한 채널 개에는 정보를, 나머지에는 frozen bit을 배정한다.
이것이 Shannon 정리 이후 처음으로 용량 달성을 수학적으로 증명한 부호다. 5G 제어 채널의 표준이 되었다.
정리
- 채널 용량 는 “채널 1회 사용당 신뢰 전송 가능한 최대 비트 수”다.
- Achievability는 random codebook의 확률 논증으로만 증명된다 — 존재성이지 구성이 아니다.
- Converse는 Fano 부등식 + DPI 조합으로 에서 을 확정한다.
- Hamming → Turbo → LDPC → Polar의 60년 여정은 이 존재 증명이 실제 구현 가능한 경계임을 공학적으로 확인해 온 과정이다.
존재 증명 하나가 수십 년의 방향을 결정할 수 있다 — Shannon 정리는 그 가장 강력한 사례다.