LLM은 왜 클수록 똑똑한가 — Scaling Laws의 세계

Kaplan 2020의 power-law 발견부터 Chinchilla의 compute-optimal 역전, In-Context Learning의 출현, CoT의 emergence, 그리고 Transformer의 이론적 한계까지, 현대 LLM 설계의 과학적 토대를 추적한다.

현대 LLM의 설계 결정 대부분은 직관이 아니라 실험 법칙에서 나온다. 모델을 얼마나 크게 만들지, 데이터를 얼마나 쓸지, 왜 프롬프트 몇 줄만으로 새 task를 학습하는지 — 이 질문들은 각각 별개처럼 보이지만 하나의 공통 주제로 묶인다. 그 주제는 “규모가 능력을 결정한다”는 명제다. 이 명제는 어디까지 사실이고, 어디서 무너지는가?

손실 함수는 규모의 멱함수다

Kaplan 2020은 next-token prediction loss가 모델 크기 $N$ , 데이터 토큰 수 $D$ , 학습 compute $C$ 각각에 대해 power-law를 따른다고 보고했다.

L(N) = \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad L(D) = \left(\frac{D_c}{D}\right)^{\alpha_D}

로그-로그 플롯에서 5자리 이상의 스케일 범위에 걸쳐 직선이 나타난다. 예측 가능한 손실 감소라는 것은 곧, 작은 실험에서 큰 모델의 성능을 미리 추산할 수 있다는 뜻이다. 이것이 “Predictable Scaling”의 시작이다.

그런데 Kaplan의 레시피에는 결함이 있었다. 고정된 compute 예산 $C \approx 6ND$ 아래서 $N$ 과 $D$ 를 어떻게 배분할지에 대해 Kaplan은 “모델을 크게 키우고 데이터는 상대적으로 덜 써라”는 방향을 권장했다. GPT-3(175B, 300B 토큰)이 그 레시피의 산물이다.

Hoffmann 2022 — Chinchilla 논문 — 는 이 결론을 뒤집었다.

L(N, D) = E + \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}}, \quad \alpha \approx 0.34,\ \beta \approx 0.28

라그랑주 최적화로 이 식을 constraint $C = 6ND$ 아래 최소화하면:

N^* \propto C^{0.5}, \quad D^* \propto C^{0.5}, \quad D^*/N^* \approx 20

GPT-3의 $D/N$ 은 1.7이다. Chinchilla optimal은 20. GPT-3는 같은 compute로 훨씬 더 많은 토큰을 학습했어야 했다. Chinchilla(70B, 1.4T 토큰)는 GPT-3와 거의 같은 compute를 쓰고도 모든 벤치마크에서 우위를 점했다.

✎ Over-training과 inference-aware scaling

Chinchilla 이후의 현장은 다시 한번 방향을 바꿨다. LLaMA-2 7B의 $D/N$ 은 286, LLaMA-3 8B는 1875다. compute-optimal보다 훨씬 더 많은 토큰을 쓴다. 이유는 단순하다. 학습 비용은 일회성이지만 추론 비용은 쿼리 수에 비례한다. 작은 모델을 충분히 학습시키면 추론 단계에서 훨씬 저렴해진다. 1조 번의 추론을 가정하면 추론 비용이 학습 비용의 수십 배를 초과한다.

프롬프트만으로 새 task를 학습하는 현상

Scaling Laws가 “얼마나 크게 만들 것인가”를 다룬다면, In-Context Learning(ICL)은 “크게 만들면 무엇이 나타나는가”를 다룬다.

ICL은 weight를 전혀 바꾸지 않고, 프롬프트 안의 예시만으로 task를 수행하는 능력이다.

p(y_{\text{test}} \mid x_{\text{test}},\ \{(x_i, y_i)\}_{i=1}^k)

GPT-3 이전에는 이런 능력이 없었다. 왜 나타나는가?

von Oswald 2023은 하나의 설명을 제시했다. 선형 회귀 task 설정에서, 특정 weight 구성의 단일 attention layer가 정확히 gradient descent 한 step을 구현함을 증명했다. $L$ 개의 layer는 $L$ 번의 GD step과 대응된다. Transformer의 forward pass가 암묵적인 최적화 알고리즘을 실행하는 셈이다.

Anthropic 2022는 더 구체적인 회로를 발견했다. “Induction Head”라 불리는 2-layer attention 패턴이다. 첫 번째 layer가 직전 토큰 정보를 저장하고, 두 번째 layer가 “지금 이 토큰이 앞에서도 나왔다면, 그 다음에 무엇이 왔는가”를 attend한다. 단순 패턴 복사의 회로 수준 구현이다.

명제 1 · ICL과 규모의 threshold

선형 회귀 수준의 ICL은 약 1B 이상, 번역 few-shot은 10B 이상, 복잡한 추론은 100B 이상에서 나타난다. 이 threshold 미만에서는 CoT를 포함한 ICL 기법이 성능을 오히려 낮출 수 있다.

▷ 증명

Wei 2022의 실험: GSM8K에서 GPT-3 small/medium은 CoT 없이 직접 생성할 때와 CoT 사용 시 성능 차이가 없거나 하락한다. 175B에서만 17%→57%의 극적 향상이 나타난다. 작은 모델은 coherent한 reasoning step 자체를 생성하지 못하기 때문이다.

∎

”단계별로 생각하자” 한 줄의 효과

ICL이 weight 변경 없이 프롬프트로 task를 수행한다면, Chain-of-Thought(CoT)는 ICL의 reasoning 버전이다. 프롬프트에 “Let’s think step by step”을 붙이거나, reasoning step이 포함된 예시를 제공하면 수학/논리 문제의 정확도가 극적으로 오른다.

왜 작동하는가? 첫째, 생성되는 token 수가 늘어난다 — 매 token마다 forward pass가 실행되므로 실질적인 test-time compute가 증가한다. 둘째, 복잡한 문제가 작은 subproblem으로 분해된다. 셋째, 각 step의 결과가 context에 남아 이후 step의 연산에 사용된다.

Self-Consistency(Wang 2023)는 이 아이디어를 확장한다. 다수의 reasoning path를 샘플링하고 다수결로 최종 답을 선택한다. GSM8K에서 단일 CoT 57% → self-consistency(N=40) 74%로 오른다. Tree of Thoughts(Yao 2023)는 더 나아가 BFS/DFS로 reasoning tree를 탐색하고 backtrack을 허용한다. 퍼즐 과제(Game of 24)에서 CoT 4% → ToT 74%다.

OpenAI o1은 이 방향의 극단이다. 수천 token에 이르는 내부 reasoning chain을 숨겨두고 사용자에게는 최종 답만 보여준다. test-time compute가 명시적으로 조절 가능한 새 축이 된다.

규모로도 풀리지 않는 것들

여기서 하나의 불편한 질문이 남는다. 규모가 능력을 결정한다면, 무한정 키우면 모든 문제가 풀리는가?

Pérez 2019은 무한 정밀도와 무한 depth를 가정하면 Transformer가 Turing-complete임을 증명했다. 그러나 Hahn 2020은 고정 depth와 유한 정밀도의 실제 모델이 매우 단순한 task에서 실패함을 보였다.

한계	원인
긴 수열에서의 counting	depth-bounded 모델의 cumulative aggregation 불가
parity (홀/짝 판단)	depth $O(\log T)$ 필요, 고정 depth 불가
compositional generalization	memorization > generalization 경향

SCAN 벤치마크는 이를 구체적으로 보여준다. “jump twice”, “walk twice”를 학습한 모델에게 “jump thrice”를 물으면 인간은 100%를 맞히지만 Transformer는 50-70%에 머문다. 학습된 composition을 새로운 방식으로 조합하는 inductive bias가 약하다.

Mamba(Gu & Dao 2023)는 이 한계의 일부를 우회한다. 입력 의존적인 selective state를 가진 SSM은 $O(T)$ 학습과 $O(d^2)$ per-step 추론을 제공한다. 긴 수열의 선택적 복사 같은 task에서 Transformer보다 낫다. 그러나 reasoning에서 Transformer와 동등한 quality는 아직 대규모에서 미입증이다.

트레이드오프

선택	장점	단점
compute-optimal (Chinchilla)	동일 compute 내 최고 loss	추론 비용 높음 (큰 모델)
over-training (LLaMA-3)	추론 비용 낮음	학습 compute 증가
ICL (few-shot)	학습 비용 없음, 범용적	긴 context, 품질 상한 있음
fine-tuning	안정적, 높은 quality	학습 비용, 유연성 낮음
CoT	test-time compute 활용	토큰 수 증가, latency
Transformer	강력한 reasoning, ICL	이차 복잡도, depth 한계
Mamba/hybrid	긴 context 효율	reasoning quality 검증 중

정리

$L(N, D) = E + A/N^\alpha + B/D^\beta$ — Chinchilla form. compute-optimal은 $D/N \approx 20$ 이지만, 실제 배포 환경에서는 추론 비용을 고려한 over-training이 표준이 됐다.
ICL은 규모가 만들어낸 emergent capability다. attention이 implicit GD step을 구현하는 이론적 해석이 있지만, 실제 메커니즘은 induction head, Bayesian inference, meta-learning이 혼재한다.
CoT는 test-time compute를 reasoning에 재투자하는 방법이다. Self-Consistency와 Tree of Thoughts는 이를 검색 문제로 확장하고, o1은 이를 극단까지 밀었다.
Transformer에는 이론적으로 입증된 한계가 있다. counting, parity, compositional generalization. tool use, hybrid architecture, test-time search가 현재의 실용적 해법이다.

Scaling Laws는 “더 크면 더 낫다”는 단순한 명제가 아니다. 무엇을 얼마나, 어떤 방식으로 키울 것인가의 과학이다. 그리고 그 과학의 경계를 아는 것이 다음 설계 결정의 출발점이다.