신경망이 함수공간에서 조밀한 이유 — Universal Approximation부터 PINN까지
Stone-Weierstrass 정리의 조밀성 조건부터 NTK의 무한폭 극한, Neural Operator의 함수 매핑, PINN의 Sobolev 수렴까지, 함수해석학이 현대 AI의 이론적 토대를 어떻게 구성하는지 추적한다.
- 01 무한차원은 왜 다른가 — 함수해석학이 AI에 던지는 질문
- 02 Hilbert 공간은 왜 AI 수학의 기반인가
- 03 함수해석학은 왜 딥러닝의 언어인가
- 04 컴팩트 연산자와 스펙트럼 — 무한차원 대각화의 철학
- 05 RKHS는 왜 머신러닝의 이론적 토대인가
- 06 PINN은 왜 작동하는가 — 함수해석학이 만든 근거
- 07 신경망이 함수공간에서 조밀한 이유 — Universal Approximation부터 PINN까지
“신경망은 어떤 함수든 근사한다”는 말은 절반만 맞다. 정확히는 충분한 너비와 비다항식 활성화가 있으면, 컴팩트 도메인 위의 연속함수 공간에서 조밀한 집합을 형성한다는 존재 명제다. 이 네 챕터는 그 명제를 서로 다른 각도로 파고든다 — 왜 조밀한가, 학습 동역학은 어디서 선형이 되는가, 벡터 대신 함수를 입력으로 받으면 무슨 이론이 필요한가, 도함수까지 근사하려면 활성화함수에 무엇이 요구되는가.
조밀성의 출발점 — Stone-Weierstrass
신경망이 함수를 근사할 수 있다는 이유를 한 문장으로 압축하면 Stone-Weierstrass 정리다. 컴팩트 Hausdorff 공간 위의 연속함수 공간 에서, 어떤 함수 집합 가 (i) 곱에 닫혀 있고 (ii) 의 점들을 분리하며 (iii) 상수함수를 포함하면, 는 전체에서 조밀하다.
신경망 집합 가 이 조건을 채우는지 확인하는 것이 Universal Approximation 정리의 핵심 논증이다.
가 연속이고 비다항식(non-polynomial)이면, 단일 은닉층 신경망
의 집합은 에서 조밀하다. 즉 임의의 와 에 대해 을 만족하는 가 존재한다.
가 비다항식이고 연속 는 벡터공간이며 상수를 포함한다. Hornik의 논증에서, 이면 Fourier 변환이 비영이고 이를 이용해 곱 폐쇄성(multiplicative closure)을 보인다. 가 대수(algebra)이고 점 분리(point separation)를 만족하므로, Stone-Weierstrass에 의해 는 에서 조밀하다.
정리는 올바른 가중치가 존재함을 보장할 뿐이다. 경사하강법으로 그 가중치를 찾을 수 있는가는 별개의 문제다. 초기화, 최적화 알고리즘, 국소 최소점 — 이 모든 것은 이 정리의 사정권 밖에 있다.
무한폭 극한 — NTK와 선형 회귀의 동치
신경망의 학습 동역학을 분석하기 어려운 이유는 파라미터와 출력의 관계가 비선형이기 때문이다. NTK(Neural Tangent Kernel) 이론은 이 비선형성이 사라지는 극한을 특정한다.
초기 파라미터 에서 정의한 커널
은 은닉층 너비 일 때 결정론적 극한 에 수렴한다(Jacot et al. 2018). 수렴 속도는 .
무한폭 극한에서 연속 시간 경사 흐름(gradient flow)
의 해는 이고, 의 극한이 NTK-RKHS 내에서의 Kernel Ridge Regression 해
와 일치한다.
Kernel regime ( 크거나 학습 초기): NTK 고정, 선형 학습, 수렴 보장, 분석 가능. 단 특성이 정적이라 표현력 한계가 있다.
Feature learning regime ( 작거나 오래 학습): NTK가 훈련 중 변하고 은닉층 활성화가 진화한다. 더 강한 표현력을 얻지만 이론적 분석이 어렵다. NTK 변화량은 로 너비와 학습 스텝 수에 의존한다.
함수를 함수로 — Neural Operator의 무한차원 확장
대신 (함수공간 사이)를 학습하는 문제가 Neural Operator다. PDE의 계수 함수 를 받아 해 를 돌려주는 연산자 이 대표 사례다.
Chen & Chen(1995)의 Universal Operator Approximation은 정리 1의 무한차원 버전이다 — 연속이고 비다항식인 로 구성한 신경망 연산자 클래스는 모든 연속 연산자를 연산자 노름 의미에서 근사할 수 있다.
이를 구현하는 두 아키텍처의 핵심 아이디어는 다르다.
DeepONet (분해 전략): Mercer 정리에 따라 연산자를 유한 랭크로 분해한다.
Branch net이 입력 함수를 기저 계수 로 인코딩하고, Trunk net이 출력 좌표를 기저값 로 매핑한 후 내적으로 합산한다.
FNO (Fourier 기저): Parseval 정리를 이용해 연산자를 Fourier 공간에서 대각화한다. 저주파 모드 개만 학습 가능한 가중치로 처리하고 나머지는 0으로 두어 aliasing을 억제한다. 이 설계 덕분에 훈련 해상도와 다른 그리드에서도 추론이 가능하다 — 함수공간 기반 설계의 직접적 귀결이다.
PINN과 Sobolev 수렴 — 도함수까지 근사하기
PINN(Physics-Informed Neural Network)은 PDE 잔차를 손실 함수에 포함해 신경망이 물리 방정식을 만족하도록 유도한다.
이 손실을 최소화할 때 가 실제 해 에 수렴하는 이유는 Lax-Milgram 정리에 있다 — 연산자 이 위에서 coercive이면 유일한 약 해(weak solution)가 존재하고, 신경망 집합이 에서 조밀하므로 최적화 극한에서 가 성립한다.
여기서 활성화함수의 선택이 결정적이다. SIREN은 를 사용한다. 이므로 모든 도함수가 정의되고 유계이며, 자동미분으로 계산한 도 다시 신경망으로 표현된다. 이 성질이 Sobolev 수렴 조건을 채운다 —
ReLU는 에서 2차 미분이 -함수가 되어 고차 Sobolev 노름 계산이 무의미해진다. PINN에서 ReLU가 권장되지 않는 이유가 여기에 있다.
정리
네 챕터를 관통하는 하나의 구조가 있다: 함수공간에서의 조밀성이 신경망 이론의 핵심 언어다.
- Universal Approximation: 비다항식 단일 은닉층 신경망이 에서 조밀. 존재 명제이며 학습 가능성은 별개다.
- NTK: 폭 에서 학습 동역학이 RKHS 회귀로 수렴. Kernel regime에서 선형 분석이 가능하지만 feature learning은 포기한다.
- Neural Operator: 함수 함수 매핑을 학습. DeepONet은 Mercer 분해, FNO는 Fourier 기저를 사용해 해상도 불변성을 얻는다.
- PINN + SIREN: 활성화 Sobolev 수렴. 함수값뿐 아니라 도함수까지 근사할 수 있다.
조밀성이 보장되는 공간에서, 어떤 노름으로, 어떤 아키텍처로 — 이 세 질문에 대한 답이 신경망 설계의 이론적 출발점이다.