๐Ÿ‘ถ BACK TO THE BASIC 0: LLM

2022๋…„ ๋ง์— ๊ณต๊ฐœ๋œ ChatGPT๋Š” ์ถœ์‹œ ๋‹จ 5์ผ๋งŒ์— 100๋งŒ ๋ช…์˜ ์ด์šฉ์ž ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ ์—„์ฒญ๋‚œ AI ์—ดํ’์ด ์ผ์œผ์ผฐ๋‹ค. ์ดํ›„ ํ˜„์žฌ๊นŒ์ง€ ๊พธ์ค€ํžˆ ๋ฒ„์ „์„ ๋†’์—ฌ GPT-5 ๋ชจ๋ธ์„ ๊ณต๊ฐœํ–ˆ์œผ๋ฉฐ, Claude, Gemini, DeepSeek ๋“ฑ ๋‹ค์–‘ํ•œ LLM(Large Language Model)์ด ๋‚˜์™”๊ณ , ์ผ์ƒ์ƒํ™œ ๊ณณ๊ณณ์— ๊นŠ์ด ์ž๋ฆฌ๋ฅผ ์žก๊ณ  ์žˆ๋‹ค.

[https://arxiv.org/abs/2503.23674](https://arxiv.org/abs/2503.23674)

https://arxiv.org/abs/2503.23674

์ตœ๊ทผ *ํŠœ๋ง ํ…Œ์ŠคํŠธ ์žฌํ˜„ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด, 5๋ถ„ ๊ฐ„์˜ ์ฑ„ํŒ…์—์„œ 73%์˜ ๊ฒฝ์šฐ GPT-4.5๋ฅผ ์ธ๊ฐ„์œผ๋กœ ์ƒ๊ฐํ–ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ์ •๋ง ์‚ฌ๋žŒ๊ณผ ๋Œ€ํ™”ํ•˜๋Š” ๋“ฏํ•œ LLM์€ ๋งˆ๋ฒ•์ฒ˜๋Ÿผ ๋ฌธ์žฅ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ผ๊นŒ? LLM์ด ์ž์˜์‹์„ ๊ฐ€์ง€๊ณ  ์ƒ๊ฐํ•œ๋‹ค๊ณ  ๋А๋ผ๊ธฐ ์‰ฝ์ง€๋งŒ, ๊ทธ ๊ทผ๋ณธ ์›๋ฆฌ๋Š” ๋‹จ์ˆœํ•˜๋‹ค. ๋ฐ”๋กœ ์ด์ „ ๋‹จ์–ด๋“ค์„ ๋ณด๊ณ  ๋‹ค์Œ์— ์˜ฌ ๋‹จ์–ด(์ •ํ™•ํžˆ ๋งํ•˜์ž๋ฉด โ€˜ํ† ํฐโ€™)๋ฅผ ํ•˜๋‚˜์”ฉ ์˜ˆ์ธกํ•˜์—ฌ ์ด์–ด ๋ถ™์ด๋Š” ๊ฒƒ์ด๋‹ค.


*ํŠœ๋ง ํ…Œ์ŠคํŠธ(Turing Test): ์˜† ๋ฐฉ์— ์žˆ๋Š” ๋Œ€์ƒ (ํ˜น์€ ๊ธฐ๊ณ„)์™€ ๋Œ€ํ™”ํ•˜๋Š”๋ฐ ์‚ฌ๋žŒ์ธ์ง€ ๊ธฐ๊ณ„์ธ์ง€ ๊ตฌ๋ถ„ํ•˜๊ธฐ ํž˜๋“ค๋ฉด ์ง€๋Šฅ์„ ๊ฐ–์ท„๋‹ค๊ณ  ํŒ๋‹จํ•˜๋Š” ์‹œํ—˜

1/ LLM ์—ฐ๋Œ€๊ธฐ (2017-2025)

[https://arxiv.org/pdf/2402.06196](https://arxiv.org/pdf/2402.06196)

https://arxiv.org/pdf/2402.06196

2017 Attention is All You Need ๋…ผ๋ฌธ์ด ๊ณต๊ฐœ๋˜๋ฉด์„œ ํ˜„์žฌ LLM์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” Transformer ๋ชจ๋ธ ๋“ฑ์žฅ

2018-2020 BERT, GPT-1/2/3

**Hands-On Large Language Models (2024)**

Hands-On Large Language Models (2024)

  • GPT-1 : 1์–ต 1700๋งŒ ๊ฐœ์˜ *ํŒŒ๋ผ๋ฏธํ„ฐ
  • GPT-2: 15์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ
  • GPT-3: 1750์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ

*ํŒŒ๋ผ๋ฏธํ„ฐ(parameter): ์—ฌ๊ธฐ์„œ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์‹ ๊ฒฝ๋ง ๋ชจ๋ธ ๋‚ด ๋‰ด๋Ÿฐ์˜ ์ถœ๋ ฅ๊ณผ ์ธ์ ‘ ๋‰ด๋Ÿฐ ๊ฐ„ ์—ฐ๊ฒฐ์—์„œ ์ƒ๋Œ€์  ๊ฐ€์ค‘์น˜๋ฅผ ์ œ์–ดํ•˜๋Š” ์ˆ˜์น˜.

Scaling Law

[https://arxiv.org/pdf/2501.04040](https://arxiv.org/pdf/2501.04040)

https://arxiv.org/pdf/2501.04040

2020 Scaling Law - ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ์ปค์ง€๋ฉด ์ปค์งˆ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ์ข‹์•„์ง„๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ–ˆ๋‹ค. ๋ชจ๋ธ์ด ์ผ์ • ํฌ๊ธฐ ์ด์ƒ ์ปค์ง€์ž, ๊ฐ‘์ž๊ธฐ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ์ž˜ ํ•ด๊ฒฐํ•˜๊ธฐ ์‹œ์ž‘ํ•œ ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ Emergent Ability(์ฐฝ๋ฐœ์  ๋Šฅ๋ ฅ)์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

์ด๋•Œ, GPT ๊ธฐ๋ฐ˜ ์ƒ์„ฑํ˜• ๋ชจ๋ธ์ด ์ฃผ๋ฅ˜๋กœ ๋ถ€์ƒํ–ˆ๋‹ค. GPT-1/2/3 ๋ฒ„์ „์ด ์—…๊ทธ๋ ˆ์ด๋“œ๋˜๋ฉด์„œ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฐœ์ˆ˜๋„ ๊ธ‰์ฆํ•œ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. Large Language Model์˜ Large๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๊ทœ๋ชจ์™€ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ํฌ๋‹ค๋Š” ์˜๋ฏธ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

(์ด๋Ÿฌํ•œ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์ด ๋ถ€์ƒํ•˜๋ฉด์„œ ๊ณ ์„ฑ๋Šฅ GPU์— ๋Œ€ํ•œ ์ˆ˜์š”๋„ ๊ธ‰์ฆํ•˜์—ฌ NVIDIA ๊ธฐ์—… ๊ฐ€์น˜๋„ ์ˆ˜์ง ์ƒ์Šนํ•ดํ–ˆ๋‹ค,,,)

2022 GPT-3์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ChatGPT (GPT 3.5) ๋ชจ๋ธ ๋“ฑ์žฅ.

2023-2025 Multimodal, Long Context(์žฅ๋ฌธ ์ž…๋ ฅ), Reasoning(์ถ”๋ก ) ๋ชจ๋ธ ๋“ฑ์žฅ.

๊ธด ๋ฌธ๋งฅ์„ ๊ธฐ์–ตํ•˜๋Š” Long Context, ์‹œ๊ฐ๊ณผ ํ…์ŠคํŠธ ๋ชจ๋‘ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” Multimodal, ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ๋‹จ๊ณ„๋ณ„๋กœ ์ชผ๊ฐœ ํ‘ธ๋Š” Reasoing ๋ชจ๋ธ์ด ๋“ฑ์žฅํ•˜๊ณ  ์žˆ๋‹ค.

LLM ์—ฐ๋Œ€๊ธฐ์˜ ๋ถ„๊ธฐ์ ์€ Transformer์ด๋ฉฐ, ์˜ค๋Š˜๋‚ ์˜ ์ƒ์„ฑํ˜• LLM์€ ์ด๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋ฐœ์ „ํ•ด ์™”๋‹ค.

2/ LLM ์ž‘๋™ ์›๋ฆฌ

2.1 โ€œํ•œ ๋ฒˆ์— ํ•œ ํ† ํฐ์”ฉ ์ถ”๊ฐ€ํ•˜๋ฉด์„œ ๊ณ„์† ์ด์–ด์“ฐ๊ธฐโ€

ChatGPT๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด์„œ ๋ชจ๋ธ์ด ํ•œ ๊ธ€์ž์”ฉ ์ž‘์„ฑ๋˜๋ฉด์„œ ์‘๋‹ตํ•œ๋‹ค๊ณ  ๋А๋‚„ ๋•Œ๊ฐ€ ๋งŽ์ง€ ์•Š๋‚˜์š”? ์‚ฌ์‹ค, LLM์€ ๋ฌธ์žฅ์„ ํ†ต์งธ๋กœ ํ•œ ๋ฒˆ์— ๋งŒ๋“œ๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ ํ™•๋ฅ ์ ์œผ๋กœ ๊ฐ€์žฅ ์ ์ ˆํ•œ ๋‹ค์Œ ํ† ํฐ์„ ์˜ˆ์ธกํ•ด ๋งค๋ฒˆ ํ•˜๋‚˜์”ฉ ์ด์–ด ๋ถ™์ธ๋‹ค.

Next Token Prediction(๋‹ค์Œ ํ† ํฐ ์˜ˆ์ธก)

image.png

LLM์€ ์ž…๋ ฅ (ํ”„๋กฌํ”„ํŠธ)์™€ ์ง€๊ธˆ๊นŒ์ง€ ์ƒ์„ฑ๋œ ํ† ํฐ์„ ๋ณด๊ณ  ๋งค๋ฒˆ ์ „์ฒด์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ํ•ด๋‹น ํ™•๋ฅ  ๋ถ„ํฌ์—์„œ ๋‹ค์Œ ํ† ํฐ์˜ ํ™•๋ฅ ์„ ๊ณ„์‚ฐํ•˜๊ณ , ๊ทธ ์ค‘ ํ•˜๋‚˜์˜ ํ† ํฐ์„ ์„ ํƒํ•ด ์ด์–ด ๋ถ™์ด๋Š” ๋ฐฉ์‹์œผ๋กœ ๋ฌธ์žฅ์„ ๋งŒ๋“ ๋‹ค.

์ฆ‰, ๋‹ค์Œ์— ์˜ฌ ์ˆ˜ ์žˆ๋Š” ๋‹จ์–ด๋“ค์˜ ๋ชฉ๋ก๊ณผ ํ™•๋ฅ ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

Autoregressive(์ž๊ธฐํšŒ๊ท€)

LLM (๋” ์ •ํ™•ํ•˜๊ฒŒ ๋งํ•˜์ž๋ฉด Decoder-only LLM)์€ ์ •๋ฐฉํ–ฅ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•œ ํ›„ ๋‹ค์Œ ํ† ํฐ์„ ์ƒ์„ฑํ•˜๋Š”๋ฐ, ์ถœ๋ ฅ๋œ ํ† ํฐ์„ ์ž…๋ ฅ์— ์ถ”๊ฐ€ํ•˜์—ฌ ๋‹ค์‹œ ์ „๋‹ฌํ•œ๋‹ค. ์ฆ‰, ์ด์ „ ์‹œ์ ์˜ ์ถœ๋ ฅ์„ ํ˜„์žฌ ์‹œ์ ์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•ด ๋‹ค์Œ ์ถœ๋ ฅ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.

2.2 ํ™•๋ฅ ์€ ์–ด๋–ป๊ฒŒ ๋งŒ๋“ค์–ด์ง€๋Š”๊ฑธ๊นŒ?

ํ™•๋ฅ  ๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ํ™•๋ฅ ์ด ๋งŒ๋“ค์–ด์ง„๋‹ค. ๊ทธ๋Ÿผ ํ™•๋ฅ  ๋ถ„ํฌ๋Š” ์–ด๋–ป๊ฒŒ ๋งŒ๋“ค์–ด์ง€๋Š”๊ฑธ๊นŒ? LLM์ด ํ•™์Šตํ•œ ๋ฐฉ๋Œ€ํ•œ ์›น, ์ฑ… ๋“ฑ์˜ ์ธ๊ฐ„ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ๋งŒ๋“ค์–ด์ง„๋‹ค. ๊ทธ๋ž˜์„œ LLM์˜ ์ถœ๋ ฅ์ด ์‚ฌ๋žŒ์ด ์ž‘์„ฑํ•œ ๊ฒƒ๊ณผ ์œ ์‚ฌํ•œ ์ด์œ ์ด๋‹ค. (์‚ฌ๋žŒ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๊ณ  ๋ฐฐ์› ์œผ๋‹ˆ ์ถœ๋ ฅ๋„ ๊ทธ๋Ÿฌํ•œ ๊ฒƒ์ด๋‹ค.)

ํ•ด๋‹น ๋ฐ์ดํ„ฐ๋“ค๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•˜์—ฌ โ€œํ•ด๋‹น ๋ฌธ๋งฅ์—์„œ๋Š” ์–ด๋–ค ๋‹จ์–ด๊ฐ€ ์ฃผ๋กœ ์™”๋Š”๊ฐ€โ€๋ผ๋Š” ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  $p(๋‹ค์Œ ํ† ํฐ | ์ด์ „ ํ† ํฐ๋“ค)$์„ ๋งžํžˆ๋„๋ก ํ•™์Šตํ•œ๋‹ค. ๊ณ„์† ๊ทธ๋Ÿด ๋“ฏํ•œ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋Š” ๊ฒŒ LLM์˜ ํ•ต์‹ฌ์ด๋‹ค. ํ™•๋ฅ ์„ ํ†ตํ•ด โ€œ๋‹ค์Œ์— ์–ด๋–ค ํ† ํฐ๋“ค์ด ์˜ฌ ์ˆ˜ ์žˆ๋Š”๊ฐ€์— ๋Œ€ํ•œ ๊ฐ€๋Šฅ์„ฑโ€์„ ๋ณด๋Š” ๊ฒƒ์ด๋‹ค.

Sampling(์ƒ˜ํ”Œ๋ง)

ํ™•๋ฅ ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์Œ ํ† ํฐ์„ ์„ ํƒํ•œ๋‹ค๊ณ  ํ–ˆ๋Š”๋ฐ, ๊ทธ๋Ÿผ ๋‹จ์ˆœํžˆ ํ•ญ์ƒ ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ ์˜ ํ† ํฐ์„ ์„ ํƒํ•˜๋ฉด ์ข‹์„๊นŒ? ๋Œ€๋ถ€๋ถ„์˜ ๊ฒฝ์šฐ ํ•ด๋‹น ๋ฐฉ์‹์€ ๋ณ„๋กœ ์ข‹์ง€ ์•Š๋‹ค. ์˜คํžˆ๋ ค ๋ฌด์ž‘์œ„๋กœ ๋น„๊ต์  ๋‚ฎ์€ ํ™•๋ฅ ์˜ ๋‹จ์–ด๋“ค์„ ์„ ํƒํ–ˆ์„ ๋•Œ ๋” ํ’๋ถ€ํ•œ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ํ…์ŠคํŠธ ์ƒ์„ฑ์˜ ๋ฌด์ž‘์œ„์„ฑ ๋˜๋Š” ์ฐฝ์˜์„ฑ์„ ์กฐ์ ˆํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ temperature(์˜จ๋„)๊ฐ€ ์žˆ๋‹ค. ์ฃผ๋กœ 0-2 ์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ temperature๊ฐ€ 0์ด๋ฉด ํƒ์š•์ ์œผ๋กœ ํ•ญ์ƒ ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์€ ๋‹จ์–ด๊ฐ€ ์„ ํƒ๋˜๋ฏ€๋กœ ์ผ๊ด€๋œ ์‘๋‹ต์ด ์ƒ์„ฑ๋œ๋‹ค.


*temperature(์˜จ๋„): ์ •ํ™•ํžˆ ๋งํ•˜์ž๋ฉด softmax ํ•จ์ˆ˜๋กœ ๋ชจ๋ธ ์ถœ๋ ฅ์„ ์ •๊ทœํ™”ํ•˜๊ธฐ ์ „์— (ํ™•๋ฅ  ํ˜•ํƒœ๋กœ ๋งŒ๋“ค๊ธฐ ์ „์—) ๋‚˜๋ˆ„์–ด์ฃผ๋Š” ๊ฐ’์œผ๋กœ, 0์œผ๋กœ ์„ค์ •ํ•˜๋ฉด ๊ฐ€์žฅ ํฐ ์ถœ๋ ฅ ๊ฐ’์˜ ํ† ํฐ ํ™•๋ฅ ์€ 1์ด ๋˜๊ณ , ๋‚˜๋จธ์ง€๋Š” ๋ชจ๋‘ 0์ด ๋œ๋‹ค.

3/ LLM ๋ชจ๋ธ

3.1 ๊ธฐํ˜ธ์ฃผ์˜(Symbolism) vs. ์‹ ๊ฒฝ์ฃผ์˜(Connectionism)

๊ธฐํ˜ธ์ฃผ์˜ ํ˜น์€ ๊ณ„์‚ฐ์ฃผ์˜๋Š” ์ธ๊ฐ„์ด ์ง์ ‘ ๋งŒ๋“  ๊ทœ์น™์„ ๋ฐ”ํƒ•์œผ๋กœ ๋…ผ๋ฆฌ๋ฅผ ์„ธ์šฐ๊ณ  ์ด๋ฅผ ์ฃผ์ž…ํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค.

๊ทœ์น™๊ณผ ๋…ผ๋ฆฌ๊ฐ€ ๋ช…ํ™•ํ•˜๋ฏ€๋กœ ํˆฌ๋ช…์„ฑ์ด ๋ณด์žฅ๋˜๋Š” ํŽธ์ด๋‹ค. ๋ฐ˜๋Œ€๋กœ, ์‹ ๊ฒฝ์ฃผ์˜๋Š” ์ผ์ผ์ด ๊ทœ์น™์„ ๋งŒ๋“ค์ง€ ์•Š๊ณ , ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์Šค์Šค๋กœ ํ•™์Šตํ•˜๋Š” ๊ด€์ ์ด๋‹ค.

ํ˜„์žฌ AI๋Š” ์‹ ๊ฒฝ์ฃผ์˜ ๊ด€์  ์œ„์— ์„œ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ทธ๋žฌ๋˜ ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์ดˆ๊ธฐ AI์˜ ์ฃผ๋ฅ˜๋Š” ๊ธฐํ˜ธ์ฃผ์˜์˜€๋‹ค.

ํ”ํžˆ AI Winter๊ฐ€ ์˜จ ์ด์œ ๊ฐ€ ์ดˆ๊ธฐ ๊ธฐํ˜ธ์ฃผ์˜ AI ๋•Œ๋ฌธ์ด๋‹ค. ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ด ์—„์ฒญ๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉด์„œ AI Winter๋ฅผ ๋๋‚ด๊ณ  ํ˜„์žฌ๊นŒ์ง€ ์ด๋ฅด๊ฒŒ ๋˜์—ˆ๋‹ค.

ํ•œ ํŽธ์œผ๋กœ๋Š” ๊ธฐํ˜ธ์ฃผ์˜ + ์‹ ๊ฒฝ์ฃผ์˜ ๊ด€์ , ์ด๋ฅธ๋ฐ” ๋‰ด๋กœ์‹ฌ๋ณผ๋ฆญ(Neuro-Symbolism)๋„ ์ƒ๊ฒจ๋‚˜๊ณ  ์žˆ๋‹ค. ์‹ ๊ฒฝ๋ง ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์— ๊ทœ์น™์„ ์ฃผ์ž…ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ์ด ๊ด€์ ์ด ์ ์  ์ค‘์š”ํ•ด์ง€๊ณ  ์žˆ๋Š” ๊ฒƒ ๊ฐ™๋‹ค.

3.2 ์‹ ๊ฒฝ๋ง(Neural Network)

[https://intuitivetutorial.com/2023/07/23/activation-functions-in-deep-learning/](https://intuitivetutorial.com/2023/07/23/activation-functions-in-deep-learning/)

https://intuitivetutorial.com/2023/07/23/activation-functions-in-deep-learning/

์‹ ๊ฒฝ๋ง์€ ์ธ๊ฐ„์˜ ๋‘๋‡Œ๊ฐ€ ์ž‘๋™ํ•˜๋Š” ๋ฐฉ์‹์„ ๋ชจ๋ธํ•œ ๋ชจ๋ธ์ด๋‹ค. ๋‰ด๋Ÿฐ(neuron;์‹ ๊ฒฝ ์„ธํฌ)์ด ์—ฐ๊ฒฐ๋˜์–ด ์žˆ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ์‹ ๊ฒฝ๋ง๋„ ์ธ๊ณต ๋‰ด๋Ÿฝ์˜ ์ง‘ํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ฒฐ์€ ๊ฐ€์ค‘์น˜๋ฅผ ์˜๋ฏธํ•˜๊ณ , ํ™œ์„ฑํ™” ํ•จ์ˆ˜(activation function)์„ ํ•œ๋‹ค.

์ธ๊ฐ„๊ณผ ์œ ์‚ฌํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ชจ๋ธ์€ ๋‹จ์ˆœํ•œ ์ˆ˜ํ•™์  ๋ฒ•์น™์ด ์•„๋‹Œ, ํ›ˆ๋ จ์„ ํ†ตํ•ด ์Šค์Šค๋กœ ํŠน์ง•์„ ๋ฐœ๊ฒฌํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•œ๋‹ค.

Universal Approximation Theorem(๋ณดํŽธ ๊ทผ์‚ฌ ์ •๋ฆฌ)

Universal Approximation Theorem์€ ์‹ ๊ฒฝ๋ง์ด ์™œ ์ค‘์š”ํ•œ์ง€ ์„ค๋ช…ํ•ด์ฃผ๋Š” ์ด๋ก ์ด๋‹ค.

์€๋‹‰์ธต(hidden state)๊ฐ€ ํ•˜๋‚˜๋ฐ–์— ์—…๋Š” ๋‹จ์ˆœํ•œ ๋ชจ๋ธ์ด๋ผ๋„, ๋‰ด๋Ÿฐ(neuron) ์ˆ˜๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋งŽ๊ณ , ํ™œ์„ฑํ™” ํ•จ์ˆ˜(activation function)์ด ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ผ๋ฉด ์‹ ๊ฒฝ๋ง์€ ์–ด๋– ํ•œ ์—ฐ์† ํ•จ์ˆ˜๋ผ๋„ ๊ทผ์ ‘ํ•˜๊ฒŒ ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

Blackbox(๋ธ”๋ž™๋ฐ•์Šค) ๋ชจ๋ธ

์ˆ˜๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๊ณ ์–‘์ด ์‚ฌ์ง„์„ ๋ณด๊ณ  ๊ณ ์–‘์ด์ธ์ง€, ๊ฐ•์•„์ง€์ธ์ง€ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ •ํ™•ํžˆ ์–ด๋–ป๊ฒŒ ๊ทธ๋ ‡๊ฒŒ ์ƒ๊ฐํ•˜๋Š”์ง€๋Š” ์•Œ ์ˆ˜๊ฐ€ ์—†๋‹ค.

๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๊ฒฐ๊ตญ ํ•œ์ •๋˜์–ด์žˆ๋Š”๋ฐ ๋ฐฉ๋Œ€ํ•œ ์ง€์‹์„ ์ฃผ์ž…ํ•˜๋‹ค ๋ณด๋‹ˆ ํ•œ ๋‰ด๋Ÿฐ์ด ์—ฌ๋Ÿฌ ๊ฐœ๋…์„ ์ค‘์ฒฉํ•ด ๊ฐ–๊ณ  ์žˆ๋‹ค. ์ฆ‰, ์ˆ˜๋งŽ์€ ๋‰ด๋Ÿฐ๊ณผ ๊ฐ€์ค‘์น˜๊ฐ€ ์•„์ฃผ ๋ณต์žกํ•˜๊ฒŒ ์–ฝํ˜€ ์žˆ์–ด ํ•ด์„ํ•˜๊ธฐ ์–ด๋ ค์šด ์ƒํ™ฉ์ด๋‹ค. ํŠน์ • ์ž…๋ ฅ์— ๋Œ€ํ•ด ์™œ ํ•ด๋‹น ์ถœ๋ ฅ์ด ๋„์ถœ๋˜์—ˆ๋Š”์ง€ ์„ค๋ช…์ด ๊ฑฐ์˜ ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค.

๋ธ”๋ž™๋ฐ•์Šค ๋ชจ๋ธ์˜ ๋‚ด๋ถ€๋ฅผ ๋“ค์—ฌ๋‹ค๋ณด๊ธฐ๊ฐ€ ๋ฌด์ฒ™ ์–ด๋ ต๊ธฐ์— ์‹ ๋ขฐ์„ฑ, ์•ˆ์ •์„ฑ์„ ๋‹ค๋ฃฐ ๋•Œ ๋” ๋ฌธ์ œ๊ฐ€ ๋˜๊ณ  ์žˆ๋‹ค.

3.3 Transformer - Attention Is All You Need

[https://arxiv.org/abs/1706.03762](https://arxiv.org/abs/1706.03762)

https://arxiv.org/abs/1706.03762

๋Œ€๋ถ€๋ถ„์˜ LLM์€ 2017๋…„์— ๊ณต๊ฐœ๋œ โ€œAttention Is All You Needโ€ ๋…ผ๋ฌธ์—์„œ ์†Œ๊ฐœ๋œ Transformer(ํŠธ๋žœ์Šคํฌ๋จธ) ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

Tokenization(ํ† ํฐํ™”)

[https://tiktokenizer.vercel.app/](https://tiktokenizer.vercel.app/)

https://tiktokenizer.vercel.app/

ํ† ํฐํ™”๋Š” ํ…์ŠคํŠธ๋ฅผ ๋‹จ์–ด, ๋˜๋Š” ๋ถ€๋ถ„ ๋‹จ์–ด ๋“ฑ๊ณผ ๊ฐ™์€ ๋” ์ž‘์€ ๋‹จ์œ„๋กœ ์ชผ๊ฐœ๋Š” ๊ณผ์ •์ด๋‹ค. ๋ชจ๋ธ์— ๋”ฐ๋ผ ํ† ํฐ๋‚˜์ด์ €(tokenizer)๊ฐ€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค. ์ฝ”๋“œ ์ƒ์„ฑ ๋ชจ๋ธ๊ฐ™์€ ๊ฒฝ์šฐ ์ฝ”๋“œ์— ํŠนํ™”๋œ ํŠน์ˆ˜ ํ† ํฌ๋‚˜์ด์ €๊ฐ€ ํ•„์š”ํ•˜๊ธฐ๋„ ํ•˜๋‹ค. ํ† ํฐ๋‚˜์ด์ €์˜ ์ข…๋ฅ˜์— ๋”ฐ๋ผ ํ† ํฐ์„ ์„œ๋กœ ๋‹ค๋ฅด๊ฒŒ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. (๊ณ„์‚ฐ ํšจ์œจ์„ฑ๊ณผ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ๋ฏธ์นœ๋‹ค.)

Embedding(์ž„๋ฒ ๋”ฉ)

**Hands-On Large Language Models (2024)**

Hands-On Large Language Models (2024)

๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ…์ŠคํŠธ๋ฅผ ์ˆซ์ž๋กœ ํ‘œํ˜„ํ•ด์•ผ ํ•œ๋‹ค. ์ž„๋ฒ ๋”ฉ์€ ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€ ๋“ฑ์˜ โ€œ๋ณธ์งˆโ€ (ํ…์ŠคํŠธ๋ผ๋ฉด ์˜๋ฏธ)์„ ์ˆซ์ž ๋ฐฐ์—ด๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์œผ๋กœ, ์˜๋ฏธ์ƒ ๊ฐ€๊นŒ์šด ๊ฒƒ์€ ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์—์„œ ๊ฐ€๊นŒ์šด ์ˆซ์ž๋กœ ํ‘œํ˜„๋œ๋‹ค.

Attention(์–ดํ…์…˜)

**Hands-On Large Language Models (2024)**

Hands-On Large Language Models (2024)

ํ† ํฐ ์‹œํ€€์Šค ๋‚ด์˜ ์–ด๋–ค ํ† ํฐ์— ๋” โ€œ์ง‘์ค‘โ€ํ•ด์•ผํ•˜๋Š”์ง€ ์•Œ๋ ค์ฃผ๋Š” ๋งค์ปค๋‹ˆ์ฆ˜์ด๋‹ค.

The cat chased the mouse because it ๋ฌธ์žฅ์—์„œ it ๋‹ค์Œ์— ์˜ฌ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋ ค๋ฉด it์ด ๋ฌด์—‡์„ ๊ฐ€๋ฆฌํ‚ค๋Š”์ง€ ์•Œ์•„์•ผ ํ•œ๋‹ค. attention ๋งค์ปค๋‹ˆ์ฆ˜์€ it ํ† ํฐ ํ‘œํ˜„์— ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ๋ฌด์—‡์— ๋” ์ฃผ๋ชฉํ•ด์•ผํ•˜๋Š”์ง€๋ฅผ ์•Œ๋ ค์ค€๋‹ค. *โ€œchasedโ€*๋Š” *โ€œmouseโ€*์— ๋” ์ฃผ๋ชฉํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ๋ ค์ค๋‹ˆ๋‹ค.

์ด์ฒ˜๋Ÿผ attention์€ ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๋Š”๋ฐ ํšจ๊ณผ์ ์ด๋‹ค. self-attention์€ ๋ฌธ์žฅ์˜ ๊ฐ ๋‹จ์–ด๊ฐ€ ๋‹ค๋ฅธ ๋ชจ๋“  ๋‹จ์–ด๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ ์ „์ฒด ๋ฌธ๋งฅ์„ ๋” ๊นŠ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋„์™€ ํ…์ŠคํŠธ ๋‚ด ๋‹จ์–ด๋“ค์˜ ์œ„์น˜์— ์ƒ๊ด€์—†์ด ์„œ๋กœ ๋ฉ€๋ฆฌ ๋–จ์–ด์ง„ ๋‹จ์–ด๋“ค๊นŒ์ง€ ์—ฐ๊ด€ ์ง€์„ ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“ค์–ด ์ „์ฒด ๋ฌธ๋งฅ์„ ๋” ๊นŠ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค.

4/ BERT vs. GPT

[https://heidloff.net/article/foundation-models-transformers-bert-and-gpt/](https://heidloff.net/article/foundation-models-transformers-bert-and-gpt/)

https://heidloff.net/article/foundation-models-transformers-bert-and-gpt/

Transformer๋Š” Encoder-Decoder ๋ชจ๋ธ๋กœ, encoder๋กœ ์ž…๋ ฅ์„ ์ธ์ฝ”๋”ฉํ•˜๊ณ  decoder๋กœ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•œ๋‹ค.

4.1 Encoder-Only

[https://jalammar.github.io/illustrated-bert/](https://jalammar.github.io/illustrated-bert/)

https://jalammar.github.io/illustrated-bert/

Encoder ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ์ฃผ๋กœ representation model(ํ‘œํ˜„ ๋ชจ๋ธ)์ด๋ผ๊ณ  ์ผ์ปซ๋Š”๋‹ค. ์ฃผ๋กœ ์–ธ์–ด๋ฅผ ํ‘œํ˜„ํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘”๋‹ค. ๋Œ€ํ‘œ์ ์ธ Encoder ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์ธ BERT์˜ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ดํŽด๋ณด๋ฉด, ์ž…๋ ฅ์—๋Š” [CLS] ํ† ํฐ ํ˜น์€ ๋ถ„๋ฅ˜ ํ† ํฐ์ด ํฌํ•จ๋˜์–ด ์žˆ์œผ๋ฉฐ, Masked Language Modeling ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•ด ๋‹จ์–ด๋ฅผ ๋ฌด์ž‘์œ„๋กœ ๋งˆ์Šคํ‚นํ•œ ํ›„, ๋งˆ์Šคํ‚น๋œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ํ›ˆ๋ จํ•œ๋‹ค.

4.2 Decoder-Only

[https://yjjo.tistory.com/35](https://yjjo.tistory.com/35)

https://yjjo.tistory.com/35

Decoder ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ generation model(์ƒ์„ฑ ๋ชจ๋ธ)์ด๋ผ๊ณ  ํ”ํžˆ ๋ถ€๋ฅธ๋‹ค. ์ฃผ๋กœ ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์ค‘์ ์„ ๋‘”๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ํ˜„์žฌ ์‚ฌ์šฉํ•˜๋Š” ๋Œ€๋ถ€๋ถ„์˜ LLM์€ Decoder ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋กœ, ๋Œ€ํ‘œ์ ์œผ๋กœ GPT ๊ณ„์—ด ๋ชจ๋ธ์ด ์žˆ๋‹ค. Encoder ๊ธฐ๋ฐ˜์€ ๋งˆ์Šคํ‚น ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•œ ๋ฐ˜๋ฉด, Decoder ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ํ…์ŠคํŠธ์˜ ๋ ๋ถ€๋ถ„์„ ๊ฐ€๋ฆฐ ํ›„ ๊ฐ€๋ ค์ง„ ๋ถ€๋ถ„์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ›ˆ๋ จํ•œ๋‹ค.

์•ž์„œ ์ด์•ผ๊ธฐํ•œ autoregressive ํŠน์„ฑ์ด Decoder ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์˜ ํŠน์ง•์ด๋‹ค. ์ƒˆ๋กœ์šด ํ† ํฐ์„ ์ƒ์„ฑํ•  ๋•Œ๋งˆ๋‹ค ์ด์ „์— ์ƒ์„ฑ๋œ ์ „์ฒด ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ๋‹ค์‹œ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ์ƒ์„ฑํ•˜๋Š” autoregressive ํŠน์„ฑ์„ ๋ˆ๋‹ค. ๊ทธ๋ž˜์„œ ๋ฌธ๋งฅ์— ๋งž๊ฒŒ ๊ธธ๊ณ  ์ผ๊ด€์„ฑ ์žˆ๋Š” ํ…์ŠคํŠธ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.

5/ LLM์˜ ํ•œ๊ณ„

LLM์€ ๋งŒ๋Šฅ์ด ์•„๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” LLM, AI๋ฅผ ํ™œ์šฉํ•  ๋•Œ ํ•ญ์ƒ ์กฐ์‹ฌํ•˜๋ฉด์„œ ์‹ ์ค‘ํžˆ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค.

5.1 ํ• ๋ฃจ์‹œ๋„ค์ด์…˜(Hallucination; ํ™˜๊ฐ)

์‚ฌ์‹ค์ด ์•„๋‹Œ ๋‚ด์šฉ์„ ์‚ฌ์‹ค์ฒ˜๋Ÿผ ๋งํ•˜๋Š” Hallucination ํ˜„์ƒ์€ LLM์˜ ๋Œ€ํ‘œ์ ์ธ ๋ฌธ์ œ๋‹ค.

์ด๋ฅผ ์ž˜ ๋ณด์—ฌ์ค€ ํ•œ ์‹คํ—˜(Herding AI Cats: Lessons from Designing a Chatbot by Prompting GPT-3)์ด ์žˆ๋‹ค.

image.png

GPT 5.1 ๋ชจ๋ธ์—๊ฒŒ ๋งฅ์•ค์น˜์ฆˆ ๋ ˆ์‹œํ”ผ๋ฅผ ๋ฌผ์–ด๋ณด๋ฉด์„œ, ์–ด๋–ป๊ฒŒ ๋ง›์žˆ์„ ์ค„ ์•„๋ƒ๊ณ  ๋ฌผ์–ด๋ณด์•˜์„ ๋•Œ ๋ฌผ๋ฆฌ์  ์„ธ๊ณ„์— ์žˆ์–ด ๋ณธ ์ ์ด ์—†๋Š” GPT 5.1์ด ๋‹น์—ฐํžˆ ์ž๊ธฐ๊ฐ€ ๋จน์–ด๋ดค๋‹ค๊ณ  ๊ฑฐ์ง“๋ง์„ ํ•œ ๊ฒƒ์ด๋‹ค.

์‹ค์ œ๋กœ ๊ฒฝํ—˜ํ•œ ๊ฒƒ์„ ๋งํ•œ ๊ฒŒ ์•„๋‹ˆ๋ผ ์ธ๊ฐ„๋“ค์ด ์ƒ์‚ฐํ•œ ์ˆ˜๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์˜€๊ธฐ์— โ€œ์™œ ๋ง›์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•ด?โ€๋ผ๋Š” ์งˆ๋ฌธ์— โ€œ๋จน์–ด๋ดค์œผ๋‹ˆ๊นŒโ€๊ฐ€ ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ ์„ ๊ฐ€์ง„ ๋‹ต๋ณ€์ด์—ˆ์œผ๋ฏ€๋กœ ์„ ํƒํ•œ ๊ฒƒ์ด๋‹ค.

5.2 ๊ณ„์‚ฐ์  ๋น„ํ™˜์›์„ฑ

LLM์€ ๋ณธ์งˆ์ ์œผ๋กœ ๊ณ„์‚ฐ์  ๋น„ํ™˜์›์„ฑ์„ ํฌํ•จํ•˜๋Š” ๋ณต์žกํ•œ ๊ณ„์‚ฐ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ์–ธ์–ด๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฐ์—๋Š” ๋Šฅ์ˆ™ํ•˜์ง€๋งŒ, ๋ฌผ๋ฆฌ ๋ฒ•์น™์ด๋‚˜ ์ˆ˜ํ•™์  ๊ณ„์‚ฐ๊ณผ ๊ฐ™์€ ์˜์—ญ์—์„œ๋Š” ๊ณ„์‚ฐ๊ธฐ๋ณด๋‹ค ๋ชปํ•  ์ˆ˜๋„ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค.

Can LLMs subtract numbers? (2025) ๋…ผ๋ฌธ์— ์˜ํ•˜๋ฉด, ์ตœ์‹  ๋ชจ๋ธ๋“ค์ด ๋ง์…ˆ์—์„œ๋Š” ๊ฑฐ์˜ ์™„๋ฒฝํ•œ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€์ง€๋งŒ, ๋‹ต์ด ์Œ์ˆ˜๋กœ ๋‚˜์˜ค๋Š” ๋บ„์…ˆ ๋ฌธ์ œ์—์„œ๋Š” 100์  ๋งŒ์  ์ค‘ 30-50์ ์˜ ์ •ํ™•๋„๋กœ ํ•˜๋ฝํ–ˆ๋‹ค. LLM ๋‚ด๋ถ€์˜ ๊ณ„์‚ฐ ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์žˆ์Œ์—๋„ ์ถœ๋ ฅํ•  ๋•Œ๋Š” ๋งˆ์ด๋„ˆ์Šค ๋ถ€ํ˜ธ๋ฅผ ๊นŒ๋จน๋Š” ๊ฒƒ์ด๋‹ค. ๊ณ„์‚ฐ ์ ˆ์ฐจ๋ฅผ ์ •ํ™•ํžˆ ๋”ฐ๋ฅด์ง€ ๋ชปํ•˜๋Š” ๊ฒƒ์ด๋‹ค.


*๊ณ„์‚ฐ์  ๋น„ํ™˜์›์„ฑ: ๋ณธ์งˆ์ ์œผ๋กœ ๊ฐ ๊ณ„์‚ฐ ๋‹จ๊ณ„๋ฅผ ์ถ”์ ํ•ด์•ผ๋งŒ ๊ฒฐ๊ณผ๋ฅผ ์•Œ ์ˆ˜ ์žˆ๋Š” ๊ณผ์ •์œผ๋กœ ๋ณต์žกํ•œ ์ˆ˜ํ•™ ๋ฌธ์ œ ํ’€์ด๋‚˜ ๋ฌผ๋ฆฌ ๋ฒ•์น™ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๋“ฑ์ด ์žˆ์Œ.

5.3 ๋ง‰๋Œ€ํ•œ ์ธํ”„๋ผ ํˆฌ์ž, ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ

๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๊ฐ€ ๋งŽ์•„์ง€๋ฉด ๋งŽ์•„์งˆ์ˆ˜๋ก ํ•™์Šต์— ํ•„์š”ํ•œ GPU์™€ ๋ฐ์ดํ„ฐ๋Ÿ‰์€ ๊ธ‰์ฆํ•œ๋‹ค. ์ด๋Š” ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋น„์šฉ๊ณผ ํ™˜๊ฒฝ ๋ฌธ์ œ๋กœ๋„ ์ด์–ด์ง„๋‹ค. ๋ชจ๋ธ์„ ๋” ํฌ๊ฒŒ, ๋” ๋งŽ์€ ๋น„์šฉ์„ ํˆฌ์žํ•ด์„œ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์— ์žˆ์–ด ์กฐ์‹ฌ์Šค๋Ÿฌ์›Œ์•ผ ํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

6/ Takeaways

โ€œLLM์€ ์ ˆ๋Œ€ ๋งŒ๋Šฅ์ด ์•„๋‹ˆ๋‹คโ€ ๋ผ๋Š” ์‚ฌ์‹ค์„ ์ „ํ•˜๊ณ  ์‹ถ์–ด ์ž‘์„ฑํ•œ ๊ธ€์ด๋‹ค.

ํ•„์ž ๋˜ํ•œ LLM๊ณผ ๋Œ€ํ™”๋ฅผ ๋‚˜๋ˆ„๋‹ค ๋ณด๋ฉด, ์ •๋ง ๊ทธ๋Ÿด ๋“ฏํ•ด์„œ ์ €๋„ ๋ชจ๋ฅด๊ฒŒ ๋‹ต๋ณ€์„ ๋ฏฟ๊ฒŒ ๋  ๋•Œ๊ฐ€ ์žˆ๋‹ค. ์ •๋ง โ€œํ™€๋ฆฐโ€™ ๊ธฐ๋ถ„์ด ๋“ค๊ณค ํ•˜๋‹ค. ํ™€๋ฆฌ์ง€ ์•Š์œผ๋ ค๋ฉด, ์šฐ๋ฆฌ๊ฐ€ LLM์„ ์ œ๋Œ€๋กœ ์ด์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” LLM์˜ ์ •์ฒด๋ฅผ ์•Œ ํ•„์š”๊ฐ€ ์žˆ๋‹ค.

๊ทธ์ € ์šฐ๋ฆฌ๊ฐ€ ๋งŒ๋“ค์–ด ๋†“์€ ๋ฐฉ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋กœ ์•„์ฃผ ์ž˜ ์ •์ œํ•˜์—ฌ ํ›ˆ๋ จ์‹œํ‚จ ๊ฑฐ๋Œ€ํ•œ ํ™•๋ฅ  ๊ณ„์‚ฐ ๋ชจ๋ธ์ด LLM์ด๋‹ค. LLM์˜ ๋ณธ์งˆ์„ ์ดํ•ดํ•˜์ž๋Š” ๊ฒƒ์€, LLM์„ ๋ฌด์ž‘์ • ๋ถˆ์‹ ํ•˜๊ณ  ์‚ฌ์šฉํ•˜์ง€ ๋ง์ž๋Š” ์˜๋ฏธ๊ฐ€ ์•„๋‹ˆ๋‹ค. ์˜คํžˆ๋ ค ํ•œ๊ณ„๋ฅผ ์ •ํ™•ํžˆ ์•Œ์•„ LLM์„ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉํ–ˆ์œผ๋ฉด ์ข‹๊ฒ ๋‹ค.

์ฐธ๊ณ  ์ž๋ฃŒ