๐Ÿ•ต๏ธ Weight-sparse transformers have interpretable circuits (OpenAI)

Understanding neural networks through sparse circuits

Weight-sparse transformers have interpretable circuits

๋ธ”๋ž™๋ฐ•์Šค AI ๋ชจ๋ธ์ด ๋‚ด๋ถ€์ ์œผ๋กœ ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด OpenAI๋Š” ์• ์ดˆ์— ํฌ์†Œํ•œ(Sparse) ๊ตฌ์กฐ๋กœ ํ›ˆ๋ จํ•˜๊ณ , ๊ทธ ์•ˆ์—์„œ ํฌ์†Œ ํšŒ๋กœ(Sparse Circuit)๋ฅผ ์ฐพ์•„๋‚ด ๋ชจ๋ธ์„ ์„ค๋ช…ํ•˜๋Š” ์ ‘๊ทผ๋ฒ•์„ ๊ณต์œ ํ–ˆ๋‹ค.

Mechanistic Interpretability and SAE

Mechanistic Interpretability (๊ธฐ๊ณ„๋ก  ์  ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ)๋Š” ๋ชจ๋ธ ๋‚ด๋ถ€์˜ ์—ฐ์‚ฐ์„ ๊ตฌ์กฐ์ ์œผ๋กœ ์ดํ•ดํ•˜๊ฒ ๋‹ค๋Š” ๋ถ„์•ผ๋‹ค. ์ตœ๊ทผ Mechanistic Interpretability ๋ถ„์•ผ์—์„œ์—์„œ SAE(Sparse Autoencoder)๊ฐ€ ํฐ ์ฃผ๋ชฉ์„ ๋ฐ›๊ณ  ์žˆ๋‹ค.

์ตœ๊ทผ ๋ฐœํ‘œ๋œ A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models์„œ๋ฒ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” SAE๊ฐ€ ์ค‘์ฒฉ(Superposition)๋œ feature๋ฅผ ๋” ํ•ด์„ ๊ฐ€๋Šฅํ•œ ์š”์†Œ๋กœ ๋ถ„๋ฆฌํ•˜๋Š” ์œ ์šฉํ•œ ๋„๊ตฌ๋กœ ์„ค๋ช…ํ•œ๋‹ค.

SAE Bench ๋ฒค์น˜๋งˆํฌ๋Š” ์ด๋Ÿฐ SAE๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ๋ฒค์น˜๋งˆํฌ์ด๋‹ค.

โ‘  ๊ธฐ์กด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์ €ํ•˜ํ•˜์ง€ ์•Š์œผ๋ฉด์„œ โ†’ Reconstruction(์žฌ๊ตฌ์„ฑ) ์„ฑ๋Šฅ, ์••์ถ• ํ›„ ๋ณต์›ํ–ˆ์„ ๋•Œ ๋ชจ๋ธ์˜ ์›๋ž˜ ์„ฑ๋Šฅ์ด ์–ผ๋งˆ๋‚˜ ๋–จ์–ด์ง€๋Š”์ง€ ์ธก์ •. (CE Loss)

โ‘ก ์ตœ์†Œํ•œ์˜ ๋‰ด๋Ÿฐ๋งŒ ์‚ฌ์šฉํ•˜๊ณ  โ†’ Sparsity(ํฌ์†Œ์„ฑ) ํ‰๊ฐ€. ( $L0$ Norm)

โ‘ข ๊ฐ ๋‰ด๋Ÿฐ์˜ ์˜๋ฏธ๊ฐ€ ๋ช…ํ™•ํ•œ์ง€๋ฅผ ํ‰๊ฐ€ โ†’ Interpretability(ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ) ํ‰๊ฐ€. (Automated Interpretability)

Anthropic์˜ โ€˜Golden Gateโ€™ ์‹คํ—˜์€ ์ด๋Ÿฌํ•œ LLM Interpretability ์—ฐ๊ตฌ์˜ ๋Œ€ํ‘œ ์˜ˆ๋‹ค. Claude 3 Sonnet ๋ชจ๋ธ ๋‚ด๋ถ€์—์„œ โ€œGolden Gate Bridgeโ€ ๊ฐœ๋…์„ ๋‹ด๋‹นํ•˜๋Š” ํŠน์ • feature ์กฐํ•ฉ์„ ์ฐพ์€ ๊ฒƒ์ด๋‹ค. Golden Gate ์‚ฌ์ง„ ๋˜๋Š” ์ด๋ฅผ ์–ธ๊ธ‰ํ•  ๋•Œ๋งˆ๋‹ค ํŠน์ • ๋‰ด๋Ÿฐ ์กฐํ•ฉ์ด activate(ํ™œ์„ฑํ™”)๋˜๋Š” ๊ฒƒ์ด๋‹ค. activation ๊ฐ•๋„๋ฅผ ๋†’์ด๋ฉด ์งˆ๋ฌธ๊ณผ ์ƒ๊ด€์—†์ด ๊ณ„์† Golden Gate๋ฅผ ์–ธ๊ธ‰ํ•˜๋Š” ๊ฒฝํ–ฅ์„ ๋ณด์˜€๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ ํ”„๋กฌํ”„ํŠธ ์กฐ์ž‘์„ ๋„˜์–ด ๋ชจ๋ธ ๋‚ด๋ถ€๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ง์ ‘ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฐ€๋Šฅ์„ฑ์„ ์—ด์–ด์คฌ๋‹ค.

Top-K SAE๋Š” activation ๊ฐ’์ด ํฐ Top-K๊ฐœ์˜ ๋‰ด๋Ÿฐ๋งŒ ๋‚จ๊ธฐ๊ณ  ๋‚˜๋จธ์ง€๋Š” ๋ชจ๋‘ ๊ฐ•์ œ๋กœ 0์œผ๋กœ ๋งŒ๋“  ๊ฒƒ์ด๋‹ค. Neuronpedia ์‚ฌ์ดํŠธ์—์„œ ์—ฌ๋Ÿฌ SAE๋ฅผ ์‹œ๊ฐ์ ์œผ๋กœ ํ™•์ธํ•˜๊ณ , ์–ด๋–ค input token์ด ์–ด๋–ค feature๋ฅผ ์ผœ๋Š”์ง€ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค.

The dog says "bow wow" , and the cat says๋ฅผ ์ž…๋ ฅํ–ˆ์„ ๋•Œ ๊ทธ ๋‹ค์Œ์— meow ๊ฐ€ ์–ด๋–ป๊ฒŒ ๋‚˜์˜ค๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

image image

Disentangle

Disentangle์€ ๋ง ๊ทธ๋Œ€๋กœ Dis + entangle๋กœ ์–ฝํžŒ ๊ฒƒ์„ ํ‘ธ๋Š” ๊ฒƒ์ด๋‹ค. LLM Intrepretability ๊ด€์ ์—์„œ Disentangle์€ ์˜ˆ๋ฅผ ๋“ค์–ด โ€˜์—ฌ๋Ÿฌ ์žฌ๋ฃŒ๊ฐ€ ๋“ค์–ด๊ฐ€ ๋ฌด์Šจ ๋ง›์ธ์ง€ ์•Œ ์ˆ˜ ์—†๋Š” ์Šค๋ฌด๋””์— ์–ด๋–ค ๊ณผ์ผ์ด ๋“ค์–ด๊ฐ”๋Š”์ง€โ€™ ํŒ๋‹จํ•˜๋Š” ๊ณผ์ •์ด๋‹ค.

Polysemanticity โ†’ Monosemanticity

๋” ์ „๋ฌธ์ ์œผ๋กœ ๋งํ•˜์ž๋ฉด, Polysemanticity์—์„œ Monosemanticity๋กœ ์–ฝํžŒ ๊ฒƒ์„ ํ’€์–ด ํ•˜๋‚˜์˜ ๋‰ด๋Ÿฐ์ด ํ•˜๋‚˜์˜ ์˜๋ฏธ๋งŒ ๊ฐ–๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. (Disentanglement)

LLM ๋‚ด๋ถ€์˜ ๋‰ด๋Ÿฐ๋“ค์€ ๋Œ€๋ถ€๋ถ„ Superposition(์ค‘์ฒฉ)๋˜์–ด ์žˆ๋‹ค. ๋ฐฉ๋Œ€ํ•œ ์ง€์‹์„ ํ•œ์ •๋œ ๋‰ด๋Ÿฐ; ๋ชจ๋ธ์— ์šฑ์—ฌ๋„ฃ์–ด์•ผ ํ•˜๊ธฐ์— ์••์ถ•ํ•ด ์ฃผ์ž…ํ•œ๋‹ค. ๊ทธ๋ž˜์„œ ์„œ๋กœ ๊ด€๋ จ ์—†๋Š” ๊ฐœ๋…์ธ๋ฐ๋„ ํ•˜๋‚˜์˜ ๋‰ด๋Ÿฐ์— ์ค‘์ฒฉ(Superposition)๋˜์–ด ์žˆ๋Š” ๊ฒƒ์ด๋‹ค. ์ด์ฒ˜๋Ÿผ ์–ฝํ˜€ ์žˆ์œผ๋ฏ€๋กœ, ํ•˜๋‚˜์˜ ๋‰ด๋Ÿฐ๋งŒ ๋ณด์•˜์„ ๋•Œ ๋ฌด์Šจ ๊ธฐ๋Šฅ์„ ํ•˜๋Š”์ง€, ์–ด๋–ค ์˜๋ฏธ๋ฅผ ํŒŒ์•…ํ•˜๋Š”์ง€ ๋ถ„๋ช…ํ•˜๊ฒŒ ์•Œ ์ˆ˜ ์—†๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ Polysemantic(๋‹ค์˜์ ์ธ) ๋‰ด๋Ÿฐ์„ Monesemantic(๋‹จ์ผ ์˜๋ฏธ)ํ•œ ์ƒํƒœ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ํ•„์š”ํ•˜๋‹ค.

SAE and Sparsity

Polysemanticity โ†’ Monosemanticity๋กœ disentangleํ•˜๊ธฐ ์œ„ํ•ด SAE(Sparse Autoencoder)๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์ €์ฐจ์›์• ์„œ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ๋งคํ•‘ํ•˜์—ฌ ์ค‘์ฒฉ๋œ ์˜๋ฏธ๋“ค์„ ๋ถ„๋ฆฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๋นฝ๋นฝํ•˜๊ฒŒ ๋ฐ€์ง‘(dense)๋˜์–ด ์žˆ๋Š” ๊ฒƒ์„ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์œผ๋กœ ๋„“ ํŽผ์ณ์„œ(sparse) ํŠน์ • ๊ฐœ๋…์„ ์ œ์ผ ์ž˜ ์„ค๋ช…ํ•˜๋Š” ํŠน์ • ๋‰ด๋Ÿฐ์ด ๋˜๋„๋ก ๋•๋Š”๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ธ”๋ž™๋ฐ•์Šค ๋‚ด๋ถ€๋ฅผ ์ดํ•ดํ•˜๊ณ  ์กฐ์ž‘ํ•˜๋Š” ๊ฒƒ์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด โ€œํญํƒ„โ€๊ณผ ๊ฐ™์ด ์œ„ํ—˜ํ•œ ๋‚ด์šฉ์„ ๋‹ด๋Š” ๋‰ด๋Ÿฐ์„ 0์œผ๋กœ ๋งŒ๋“ค์–ด ์•ˆ์ „ํ•œ AI ๋ชจ๋ธ์ด ๋˜๋„๋ก ๋ชจ๋ธ ํ–‰๋™์„ ์กฐ์ž‘ํ•  ์ˆ˜ ์žˆ๋‹ค.

1/ Chain of Thought Interpretability ํ•œ๊ณ„

CoT(Chain of Thought) ํ”„๋กฌํ”„ํŒ… ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์˜ ํ–‰๋™์„ ๋ชจ๋‹ˆํ„ฐ๋งํ•  ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰๊ฐ์ ์ธ ๋ชจ๋‹ˆํ„ฐ๋ง ๋„๊ตฌ๋กœ ์œ ์šฉํ•˜์ง€๋งŒ, ๋ชจ๋ธ์ด ๊ณ ๋„ํ™”๋ ์ˆ˜๋ก ์ธ๊ฐ„์„ ์†์ด๊ฑฐ๋‚˜ ๊ฒ‰์œผ๋กœ๋งŒ ๊ทธ๋Ÿด ๋“ฏํ•˜๊ฒŒ ๋Œ€์‘ํ•  ์ˆ˜ ์žˆ๊ธฐ์— ๊นจ์ง€๊ธฐ ์‰ฌ์šด ์ „๋žต (brittle strategy)์ด๋ผ๊ณ  ํ•œ๋‹ค.

๊ถ๊ทน์ ์œผ๋กœ ๋‚ด๋ถ€ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ง์ ‘ ์ดํ•ดํ•˜๋Š” Mechanistic Interpretability๊ฐ€ ํ•„์š”ํ•˜๋‹ค๋Š” ์ž…์žฅ์„ ๋ฐํ˜”๋‹ค.

2/ Dense Model vs. Sparse Model

๊ธฐ์กด์—๋Š” Pre-trained Dense Model์—์„œ Pruning์„ ์‚ฌ์šฉํ•ด ํŠน์ • ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์ตœ์†Œํ•œ์˜ ๊ฒฝ๋กœ์ธ Circuit(ํšŒ๋กœ)๋ฅผ ์ฐพ๊ณ ์ž ํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ OpenAI์˜ ์ด๋ฒˆ ์—ฐ๊ตฌ์—์„œ๋Š” โ€œ์• ์ดˆ์— ๋ชจ๋ธ์„ Sparseํ•˜๊ฒŒ ๋งŒ๋“ค๋ฉด ์–ด๋–จ๊นŒ?โ€๋ผ๋Š” ์˜๋ฌธ์„ ๋˜์กŒ๋‹ค.

โ€œ์‚ฌํ›„์— ํ•ด์„ํ•˜๋ ค๊ณ  ์• ์“ฐ์ง€ ๋ง๊ณ , ์• ์ดˆ์— ํ•ด์„ํ•˜๊ธฐ ์‰ฝ๋„๋ก Spare Model์„ ๋งŒ๋“ค๋ฉด ์•ˆ๋˜๋‚˜?โ€

Pruninng : โ€œ์‚ฌํ›„โ€ Sparsity ๊ฐ•์ œ

Pruning์€ ํ”ํžˆ Model Optimization(๋ชจ๋ธ ์ตœ์ ํ™”, ๊ฒฝ๋Ÿ‰ํ™”)์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ์‹์œผ๋กœ, ์‚ฌํ›„์— weight(๊ฐ€์ค‘์น˜)๋ฅผ 0์œผ๋กœ ๋งŒ๋“œ๋Š” ๋“ฑ ๊ฐ€์ง€์น˜๊ธฐํ•˜์—ฌ ๋ชจ๋ธ์„ ํšจ์œจํ™”ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋ฐ˜๋ฉด, OpenAI์˜ ํ•ด๋‹น ์—ฐ๊ตฌ์—์„œ๋Š” ํŠน์ • ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ์ •๋ง ํ•„์ˆ˜์ ์ธ ์ตœ์†Œํ•œ์˜ Subgraph; Circuit(ํšŒ๋กœ)๋ฅผ ์ฐพ๊ณ  ๋‚˜๋จธ์ง€ ์—ฐ๊ฒฐ์€ ๋ชจ๋‘ ๊ฐ€์ง€์น˜๊ธฐํ•œ๋‹ค.

Sparsity Constraint : โ€œ์‚ฌ์ „โ€ Sparsity ๊ฐ•์ œ

image

Sparse Constraint๋Š” Training(ํ•™์Šต) ๋‹จ๊ณ„์—์„œ๋ถ€ํ„ฐ weight(๊ฐ€์ค‘์น˜)๊ฐ€ 0์ด ๋˜๋„๋ก ๊ฐ•์ œํ•˜๋Š” ๊ฒƒ์ด๋‹ค. $L0$ Norm, ์ฆ‰ weight์˜ ๊ฐœ์ˆ˜ ์ž์ฒด๋ฅผ ์ œํ•œํ•˜์—ฌ ๊ฐ•์ œ๋กœ 0์œผ๋กœ ๋งŒ๋“ค์—ˆ๋‹ค. (๊ฐ€์ค‘์น˜ ์—…๋ฐ์ดํŠธ ํ›„ ์ƒ์œ„ K๊ฐœ๋ฅผ ์ œ์™ธํ•œ ๋‚˜๋จธ์ง€๋ฅผ 0์œผ๋กœ ๋งŒ๋“œ๋Š” Hard Thresholding) Pruning๊ณผ ๋‹ฌ๋ฆฌ, Sparsity Constraint๋Š” ์‚ฌํ›„์— ๊ฐ€์ง€์น˜๊ธฐํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ํƒœ์ƒ์ ์œผ๋กœ Sparseํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ–๋„๋ก ํ•œ๋‹ค. ํ•ด๋‹น ์—ฐ๊ตฌ์—์„œ๋Š” GPT-2์™€ ๋น„์Šทํ•œ architecture๋ฅผ ์‚ฌ์šฉํ•˜๋˜, ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ฌ ๋•Œ๋ถ€ํ„ฐ ๋Œ€๋ถ€๋ถ„์˜ weight๋ฅผ 0์œผ๋กœ ๋งŒ๋“ค์–ด Sparisty Constraint๋ฅผ ๊ฐ€ํ–ˆ๋‹ค.

image

Sparsity Constraint๋ฅผ ๊ฐ€ํ•˜์—ฌ ์ฒ˜์Œ๋ถ€ํ„ฐ Sparseํ•˜๊ฒŒ ํ•™์Šต๋œ ๋ชจ๋ธ์ด ์‚ฌํ›„์— Pruning๋œ ๋ชจ๋ธ๋ณด Disentangled circuits๋ฅผ ๋ฐœ๊ฒฌํ•˜ ๊ฒƒ์ด ํ›จ์”ฌ ์‰ฝ๋‹ค๊ณ  ํ•œ๋‹ค.

Dense model์„ ์‚ฌํ›„์— pruningํ•œ ๊ฒฝ์šฐ์—๋Š” ์ค‘์š”ํ•œ Circuit์„ ์ฐพ๊ณ ์ž ํ–ˆ์„ ๋•Œ, ๋‰ด๋Ÿฐ๋“ค์ด ๋ณต์žกํ•˜๊ฒŒ ์–ฝํ˜€ ์žˆ์–ด ๊น”๋”ํ•˜๊ฒŒ Circuit์„ ์ถ”์ถœํ•˜๊ธฐ ์–ด๋ ค์› ๋‹ค. ๋ฐ˜๋ฉด, Sparse Model์€ โ€˜ํ•ด๋‹น ๋‰ด๋Ÿฐ์ด ์—ฌ๊ธฐ์„œ ์‹ ํ˜ธ๋ฅผ ์ž…๋ ฅ ๋ฐ›์•„ ๋‹ค๋ฅธ ๋‰ด๋Ÿฐ์—๊ฒŒ ๋ณด๋‚ด๋Š”๊ตฌ๋‚˜โ€™์ฒ˜๋Ÿผ ์ž‘๋™ ์›๋ฆฌ๋ฅผ ์‰ฝ๊ฒŒ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ Sparse Model์ด ์‚ฌํ›„ Pruning Model๋ณด๋‹ค Interpretability์™€ ์„ฑ๋Šฅ ๋ชจ๋‘ ๋” ์ข‹๋‹ค๊ณ  ์ œ์‹œํ–ˆ๋‹ค.

3/ Python ์ฝ”๋”ฉ ์‹คํ—˜ : โ€œ , โ€˜ ์ง ๋งž์ถ”๊ธฐ

Sparse Model, ์ฆ‰ ์• ์ดˆ์— Sparseํ•œ ๊ตฌ์กฐ๋ฅผ ์ง€๋‹Œ ๋ชจ๋ธ์ด ๋‚ด๋ถ€ ๊ตฌ์กฐ๋ฅผ ํŒ๋‹จํ•˜๊ธฐ ํ›จ์”ฌ ์ข‹๋‹ค๋Š” ๊ฒƒ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•ด Python ์–ธ์–ด๋กœ ํ•™์Šต๋œ ๋ชจ๋ธ์ด โ€˜hello๋Š” ์ž‘์€ ๋”ฐ์˜ดํ‘œ โ€˜, โ€œhello๋Š” ํฐ ๋”ฐ์˜ดํ‘œ โ€œ๋กœ ๋‹ซ์•„ ์ง์„ ์™„์„ฑํ•˜๋Š” ์ž‘์—…์„ ์ง„ํ–‰ํ–ˆ๋‹ค.

image

Sparse Transformer๋ฅผ ํ›ˆ๋ จํ•œ ๋’ค, ํ•ด๋‹น ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์ตœ์†Œ Circuit๋ฅผ ์ฐพ์€ ๊ฒฐ๊ณผ ํ•ด๋‹น Circuit์€ ์—„์ฒญ๋‚˜๊ฒŒ ๋‹จ์ˆœํ–ˆ๋‹ค. (Residual Channel 5๊ฐœ, 0๋ฒˆ MLP Layer 2๊ฐœ, 10๋ฒˆ Attention์˜ Query-Key Channel 1๊ฐœ, Value Channel 1๊ฐœ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์—ˆ๋‹ค.)

  1. Residual Channel์—์„œ ๋”ฐ์˜ดํ‘œ ์ธ์ฝ”๋”ฉ ํ•œ Residual Channel์—์„œ๋Š” โ€˜ ์ธ์ฝ”๋”ฉ, ๋‹ค๋ฅธ Channel์—์„œ๋Š” โ€œ ์ธ์ฝ”๋”ฉ

  2. MLP(Multi-Layer Perceptron) Layer์—์„œ ๋”ฐ์˜ดํ‘œ ์ธ์ง€ & ๋”ฐ์˜ดํ‘œ์˜ ์ข…๋ฅ˜ ๊ตฌ๋ถ„

    • โ€˜, โ€œ ๋”ฐ์˜ดํ‘œ๋ฅผ ์ธ์ง€๋ฅผ ๊ฐ์ง€
    • ์ž‘์€ ๋”ฐ์˜ดํ‘œ์ธ์ง€ ํฐ ๋”ฐ์˜ดํ‘œ์ธ์ง€ ๋ถ„๋ฅ˜
  3. Attention์œผ๋กœ ์ด์ „ ๋”ฐ์˜ดํ‘œ ์กฐํšŒ 10๋ฒˆ ๋ ˆ์ด์–ด์˜ Attention์ด ์ค‘๊ฐ„ ํ† ํฐ์„ ๋ฌด์‹œํ•˜๊ณ , ํ˜„์žฌ ์œ„์น˜์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์—ฌ๋Š” ๋”ฐ์˜ดํ‘œ ํ† ํฐ์„ ์ฐพ์•„ ๊ฐ€์ ธ์˜ค๊ธฐ

  4. ์•Œ๋งž์€ ๋‹ซ์€ ๋”ฐ์˜ดํ‘œ ์ถœ๋ ฅ

    ๋งˆ์ง€๋ง‰ ํ† ํฐ์—์„œ ์ด์ „ ๋‹จ๊ณ„์—์„œ ๊ฐ€์ ธ์˜จ ์—ฌ๋Š” ๋”ฐ์˜ดํ‘œ ์ •๋ณด๋ฅผ ํ†ตํ•ด ์•Œ๋งž์€ ๋‹ซ์€ ๋”ฐ์˜ดํ‘œ ์˜ˆ์ธก

์ •๋ฆฌํ•˜์ž๋ฉด, Sparse Model์€ ํŠน์ • ์ž‘์—…์„ ๋‹ด๋‹นํ•˜๋Š” Circuits๋ฅผ ์ž˜๋ผ๋‚ด๊ธฐ ์‰ฌ์›Œ์ง€๊ณ  Circuits ์•ˆ ๋‰ด๋Ÿฐ ์ˆ˜๊ฐ€ ๋งŽ์ง€ ์•Š์•„ ์ถ”์ ํ•˜๊ธฐ ์‰ฌ์›Œ์ง„๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

4/ Takeaway

Trade-off: Sparsity vs. Model Scale

Sparse Model์ด Monosemanticity๋ฅผ ์œ ๋„ํ•˜์—ฌ(๊ฐ ๋‰ด๋Ÿฐ์ด ํ•˜๋‚˜์˜ ์˜๋ฏธ๋งŒ ๊ฐ–๋„๋ก) Interpretability(ํ•ด์„ ๊ฐ€๋Šฅ์„ฑ)์„ ๋†’์—ฌ์ค€๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ธฐ์กด Dense Model์ด ์ค‘์ฒฉํ•ด์„œ ์ •๋ณด๋ฅผ ๊พน๊พน ๋ˆŒ๋Ÿฌ ๋‹ด๋˜ ํšจ์œจ์„ฑ์€ ํฌ๊ธฐํ•˜๋Š” ๊ฒƒ๊ณผ๋„ ๊ฐ™๋‹ค๊ณ  ๋А๊ปด์ง„๋‹ค. ๊ฒฐ๊ตญ ๋ฐฉ๋Œ€ํ•œ ์ง€์‹์„ ์ฃผ์ž…ํ•˜๋ ค๋ฉด Dense Model์— ๋น„ํ•ด Sparse Model์ด ํ›จ์”ฌ ๋” ํฐ ๋ชจ๋ธ์„ ์š”๊ตฌํ•  ๊ฒƒ์ด๋‹ค. ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ํ‚ค์›Œ์•ผ ์„ฑ๋Šฅ์ด ๋ณด์žฅ๋ ํ…๋ฐ, Interpretability๋ฅผ ์œ„ํ•ด ๋ชจ๋ธ ํฌ๊ธฐ๋ฅผ ๋ฌด์ž‘์ • ํ‚ค์šฐ๋ฉด ๋น„์šฉ๊ณผ ์‹œ๊ฐ„ ๋ชจ๋‘ ํšจ์œจ์ด ์—„์ฒญ๋‚˜๊ฒŒ ์ €ํ•˜๋  ๊ฒƒ์ด๋‹ค. ์–ด๋–ป๊ฒŒ ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์„๊นŒ? Interpretability์™€ ์—ฐ์‚ฐ ํšจ์œจ์„ฑ ๋ชจ๋‘ ์–ด๋–ป๊ฒŒ ๋ณด์žฅํ•  ์ˆ˜ ์žˆ์„๊นŒ?

ํ˜„์žฌ๋กœ์„  ์ ์ ˆํ•œ ํ•ด๊ฒฐ์ฑ…์€ MoE(Mixture of Experts)์ผ ๊ฒƒ ๊ฐ™๋‹ค. ๋ชจ๋ธ์˜ ํฌ๊ธฐ, ์ฆ‰ total parameter ์ˆ˜๋Š” ํ‚ค์›Œ ์ง€์‹์˜ ์ด๋Ÿ‰์€ ๋Š˜๋ฆฌ๋˜, ์ž…๋ ฅ์— ๋Œ€ํ•˜์—ฌ ํ•„์š”ํ•œ ์—ฐ์‚ฐ๋งŒ ์ˆ˜ํ–‰ํ•˜์—ฌ ํšจ์œจ์„ฑ์„ ์ฑ™๊ธฐ๋Š” ๋ฐฉ์‹์ด๋‹ค.

MoE(Mixture of Experts)

MoE

Sparse MoE Layers๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ “Experts"๋ฅผ ํฌํ•จํ•œ๋‹ค. (์ฃผ๋กœ Experts๋Š” FFNs(Feed Forward Networks)๋กœ ๊ตฌ์„ฑ; Expert ์ˆ˜๋ฅผ ๋Š˜๋ฆฌ๋ฉด total parameter ์ˆ˜๋„ ์ฆ๊ฐ€) Gate Network; Router๋Š” token๋ณ„๋กœ ์ ์ ˆํ•œ Expert๋ฅผ ์„ ํƒํ•ด์ค€๋‹ค. ์ด๋•Œ ๊ตณ์ด Expert ํ•œ ๋ช…๋งŒ ์„ ํƒํ•˜์ง€ ์•Š๊ณ , ์—ฌ๋Ÿฌ ๋ช…์„ ์„ ํƒํ•  ์ˆ˜๋„ ์žˆ๋‹ค.

Weight-Sparse MoE

๊ฐ Expert๊ฐ€ ํŠน์ • ์ž‘์—…์„ ๋‹ด๋‹นํ•˜๋Š” ๋ช…ํ™•ํ•œ Sparse Circuit ๋‹จ์œ„๋กœ ์ •์˜ํ•˜์ž๋Š” ๊ฒƒ์ด๋‹ค. ์ฆ‰, Gating์ด “์–ด๋–ค Circuit์„ ํ™œ์„ฑํ™”ํ• ์ง€๋ฅผ ๊ฒฐ์ •"ํ•˜๋Š” ๊ตฌ์กฐ์ธ ๊ฒƒ์ด๋‹ค.

MoE ๊ฐ๊ฐ์ด ํ•ด์„ ๊ฐ€๋Šฅํ•œ ๊ตฌ์กฐ๊ฐ€ ๋˜์–ด Interpretability๊ฐ€ ๋” ์‰ฌ์›Œ์งˆ ๊ฒƒ์ด๋‹ค. ์‹ค์ œ๋กœ ํ•ด๋‹น ๋…ผ๋ฌธ์˜ ์ €์ž๋“ค๋„ weight-sparse mixture-of-experts models์— ๋Œ€ํ•˜์—ฌ ์–ธ๊ธ‰ํ–ˆ๋‹ค๋‹ค. ์•„๋งˆ ํ›„์† ์—ฐ๊ตฌ๋Š” Sparse Model์„ MoE๋กœ ํšจ์œจํ™”ํ•˜๊ณ , ๊ฐ๊ฐ์˜ Expert๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊น”๋”ํžˆ ์ž‘์—…๋ณ„๋กœ ๋ถ„๋ฆฌ๋ ์ง€ ํ™•์ธํ•˜๋Š” ์—ฐ๊ตฌ๊ฐ€ ๋˜๋ฆฌ๋ผ ์ถ”์ธกํ•ด๋ณธ๋‹ค.