๐ถ BACK TO THE BASIC 0: LLM
2022๋ ๋ง์ ๊ณต๊ฐ๋ ChatGPT๋ ์ถ์ ๋จ 5์ผ๋ง์ 100๋ง ๋ช ์ ์ด์ฉ์ ์๋ฅผ ๋ฌ์ฑํ๋ฉด์ ์์ฒญ๋ AI ์ดํ์ด ์ผ์ผ์ผฐ๋ค. ์ดํ ํ์ฌ๊น์ง ๊พธ์คํ ๋ฒ์ ์ ๋์ฌ GPT-5 ๋ชจ๋ธ์ ๊ณต๊ฐํ์ผ๋ฉฐ, Claude, Gemini, DeepSeek ๋ฑ ๋ค์ํ LLM(Large Language Model)์ด ๋์๊ณ , ์ผ์์ํ ๊ณณ๊ณณ์ ๊น์ด ์๋ฆฌ๋ฅผ ์ก๊ณ ์๋ค.
](image_1.png)
https://arxiv.org/abs/2503.23674
์ต๊ทผ *ํ๋ง ํ ์คํธ ์ฌํ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, 5๋ถ ๊ฐ์ ์ฑํ ์์ 73%์ ๊ฒฝ์ฐ GPT-4.5๋ฅผ ์ธ๊ฐ์ผ๋ก ์๊ฐํ๋ค. ์ด์ฒ๋ผ ์ ๋ง ์ฌ๋๊ณผ ๋ํํ๋ ๋ฏํ LLM์ ๋ง๋ฒ์ฒ๋ผ ๋ฌธ์ฅ์ ๋ง๋๋ ๊ฒ์ผ๊น? LLM์ด ์์์์ ๊ฐ์ง๊ณ ์๊ฐํ๋ค๊ณ ๋๋ผ๊ธฐ ์ฝ์ง๋ง, ๊ทธ ๊ทผ๋ณธ ์๋ฆฌ๋ ๋จ์ํ๋ค. ๋ฐ๋ก ์ด์ ๋จ์ด๋ค์ ๋ณด๊ณ ๋ค์์ ์ฌ ๋จ์ด(์ ํํ ๋งํ์๋ฉด โํ ํฐโ)๋ฅผ ํ๋์ฉ ์์ธกํ์ฌ ์ด์ด ๋ถ์ด๋ ๊ฒ์ด๋ค.
*ํ๋ง ํ ์คํธ(Turing Test): ์ ๋ฐฉ์ ์๋ ๋์ (ํน์ ๊ธฐ๊ณ)์ ๋ํํ๋๋ฐ ์ฌ๋์ธ์ง ๊ธฐ๊ณ์ธ์ง ๊ตฌ๋ถํ๊ธฐ ํ๋ค๋ฉด ์ง๋ฅ์ ๊ฐ์ท๋ค๊ณ ํ๋จํ๋ ์ํ
1/ LLM ์ฐ๋๊ธฐ (2017-2025)
](image_2.png)
https://arxiv.org/pdf/2402.06196
2017 Attention is All You Need ๋
ผ๋ฌธ์ด ๊ณต๊ฐ๋๋ฉด์ ํ์ฌ LLM์ ๊ธฐ๋ฐ์ด ๋๋ Transformer ๋ชจ๋ธ ๋ฑ์ฅ
2018-2020 BERT, GPT-1/2/3

Hands-On Large Language Models (2024)
- GPT-1 : 1์ต 1700๋ง ๊ฐ์ *ํ๋ผ๋ฏธํฐ
- GPT-2: 15์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ
- GPT-3: 1750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ
*ํ๋ผ๋ฏธํฐ(parameter): ์ฌ๊ธฐ์์ ํ๋ผ๋ฏธํฐ๋ ์ ๊ฒฝ๋ง ๋ชจ๋ธ ๋ด ๋ด๋ฐ์ ์ถ๋ ฅ๊ณผ ์ธ์ ๋ด๋ฐ ๊ฐ ์ฐ๊ฒฐ์์ ์๋์ ๊ฐ์ค์น๋ฅผ ์ ์ดํ๋ ์์น.
Scaling Law
](image_4.png)
https://arxiv.org/pdf/2501.04040
2020 Scaling Law - ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ปค์ง๋ฉด ์ปค์ง์๋ก ์ฑ๋ฅ์ด ์ข์์ง๋ค๋ ๊ฒ์ ์
์ฆํ๋ค. ๋ชจ๋ธ์ด ์ผ์ ํฌ๊ธฐ ์ด์ ์ปค์ง์, ๊ฐ์๊ธฐ ๋ณต์กํ ๋ฌธ์ ๋ฅผ ์ ํด๊ฒฐํ๊ธฐ ์์ํ ๊ฒ์ด๋ค. ์ด๋ฅผ Emergent Ability(์ฐฝ๋ฐ์ ๋ฅ๋ ฅ)์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
์ด๋, GPT ๊ธฐ๋ฐ ์์ฑํ ๋ชจ๋ธ์ด ์ฃผ๋ฅ๋ก ๋ถ์ํ๋ค. GPT-1/2/3 ๋ฒ์ ์ด ์ ๊ทธ๋ ์ด๋๋๋ฉด์ ํ๋ผ๋ฏธํฐ ๊ฐ์๋ ๊ธ์ฆํ ๊ฒ์ ํ์ธํ ์ ์๋ค. Large Language Model์ Large๋ ํ๋ จ ๋ฐ์ดํฐ ๊ท๋ชจ์ ํ๋ผ๋ฏธํฐ ์๊ฐ ํฌ๋ค๋ ์๋ฏธ๋ก ์ฌ์ฉ๋๋ค.
(์ด๋ฌํ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ด ๋ถ์ํ๋ฉด์ ๊ณ ์ฑ๋ฅ GPU์ ๋ํ ์์๋ ๊ธ์ฆํ์ฌ NVIDIA ๊ธฐ์ ๊ฐ์น๋ ์์ง ์์นํดํ๋ค,,,)
2022 GPT-3์ ๊ธฐ๋ฐ์ผ๋ก ํ ChatGPT (GPT 3.5) ๋ชจ๋ธ ๋ฑ์ฅ.
2023-2025 Multimodal, Long Context(์ฅ๋ฌธ ์
๋ ฅ), Reasoning(์ถ๋ก ) ๋ชจ๋ธ ๋ฑ์ฅ.
๊ธด ๋ฌธ๋งฅ์ ๊ธฐ์ตํ๋ Long Context, ์๊ฐ๊ณผ ํ ์คํธ ๋ชจ๋ ์ฒ๋ฆฌํ ์ ์๋ Multimodal, ๋ณต์กํ ๋ฌธ์ ๋ฅผ ๋จ๊ณ๋ณ๋ก ์ชผ๊ฐ ํธ๋ Reasoing ๋ชจ๋ธ์ด ๋ฑ์ฅํ๊ณ ์๋ค.
LLM ์ฐ๋๊ธฐ์ ๋ถ๊ธฐ์ ์ Transformer์ด๋ฉฐ, ์ค๋๋ ์ ์์ฑํ LLM์ ์ด๋ฅผ ๋ฐํ์ผ๋ก ๋ฐ์ ํด ์๋ค.
2/ LLM ์๋ ์๋ฆฌ
2.1 โํ ๋ฒ์ ํ ํ ํฐ์ฉ ์ถ๊ฐํ๋ฉด์ ๊ณ์ ์ด์ด์ฐ๊ธฐโ
ChatGPT๋ฅผ ์ฌ์ฉํ๋ฉด์ ๋ชจ๋ธ์ด ํ ๊ธ์์ฉ ์์ฑ๋๋ฉด์ ์๋ตํ๋ค๊ณ ๋๋ ๋๊ฐ ๋ง์ง ์๋์? ์ฌ์ค, LLM์ ๋ฌธ์ฅ์ ํต์งธ๋ก ํ ๋ฒ์ ๋ง๋๋ ๊ฒ ์๋๋ผ ํ๋ฅ ์ ์ผ๋ก ๊ฐ์ฅ ์ ์ ํ ๋ค์ ํ ํฐ์ ์์ธกํด ๋งค๋ฒ ํ๋์ฉ ์ด์ด ๋ถ์ธ๋ค.
Next Token Prediction(๋ค์ ํ ํฐ ์์ธก)

LLM์ ์ ๋ ฅ (ํ๋กฌํํธ)์ ์ง๊ธ๊น์ง ์์ฑ๋ ํ ํฐ์ ๋ณด๊ณ ๋งค๋ฒ ์ ์ฒด์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ์ฐํ๊ณ , ํด๋น ํ๋ฅ ๋ถํฌ์์ ๋ค์ ํ ํฐ์ ํ๋ฅ ์ ๊ณ์ฐํ๊ณ , ๊ทธ ์ค ํ๋์ ํ ํฐ์ ์ ํํด ์ด์ด ๋ถ์ด๋ ๋ฐฉ์์ผ๋ก ๋ฌธ์ฅ์ ๋ง๋ ๋ค.
์ฆ, ๋ค์์ ์ฌ ์ ์๋ ๋จ์ด๋ค์ ๋ชฉ๋ก๊ณผ ํ๋ฅ ์ ์์ฑํ๋ ๊ฒ์ด๋ค.
Autoregressive(์๊ธฐํ๊ท)
LLM (๋ ์ ํํ๊ฒ ๋งํ์๋ฉด Decoder-only LLM)์ ์ ๋ฐฉํฅ ๊ณ์ฐ์ ์ํํ ํ ๋ค์ ํ ํฐ์ ์์ฑํ๋๋ฐ, ์ถ๋ ฅ๋ ํ ํฐ์ ์ ๋ ฅ์ ์ถ๊ฐํ์ฌ ๋ค์ ์ ๋ฌํ๋ค. ์ฆ, ์ด์ ์์ ์ ์ถ๋ ฅ์ ํ์ฌ ์์ ์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํด ๋ค์ ์ถ๋ ฅ์ ์์ธกํ๋ ๊ฒ์ ์๋ฏธํ๋ค.
2.2 ํ๋ฅ ์ ์ด๋ป๊ฒ ๋ง๋ค์ด์ง๋๊ฑธ๊น?
ํ๋ฅ ๋ถํฌ๋ก๋ถํฐ ํ๋ฅ ์ด ๋ง๋ค์ด์ง๋ค. ๊ทธ๋ผ ํ๋ฅ ๋ถํฌ๋ ์ด๋ป๊ฒ ๋ง๋ค์ด์ง๋๊ฑธ๊น? LLM์ด ํ์ตํ ๋ฐฉ๋ํ ์น, ์ฑ ๋ฑ์ ์ธ๊ฐ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ง๋ค์ด์ง๋ค. ๊ทธ๋์ LLM์ ์ถ๋ ฅ์ด ์ฌ๋์ด ์์ฑํ ๊ฒ๊ณผ ์ ์ฌํ ์ด์ ์ด๋ค. (์ฌ๋ ๋ฐ์ดํฐ๋ฅผ ๋ณด๊ณ ๋ฐฐ์ ์ผ๋ ์ถ๋ ฅ๋ ๊ทธ๋ฌํ ๊ฒ์ด๋ค.)
ํด๋น ๋ฐ์ดํฐ๋ค๋ก๋ถํฐ ํ์ตํ์ฌ โํด๋น ๋ฌธ๋งฅ์์๋ ์ด๋ค ๋จ์ด๊ฐ ์ฃผ๋ก ์๋๊ฐโ๋ผ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ $p(๋ค์ ํ ํฐ | ์ด์ ํ ํฐ๋ค)$์ ๋งํ๋๋ก ํ์ตํ๋ค. ๊ณ์ ๊ทธ๋ด ๋ฏํ ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ฒ LLM์ ํต์ฌ์ด๋ค. ํ๋ฅ ์ ํตํด โ๋ค์์ ์ด๋ค ํ ํฐ๋ค์ด ์ฌ ์ ์๋๊ฐ์ ๋ํ ๊ฐ๋ฅ์ฑโ์ ๋ณด๋ ๊ฒ์ด๋ค.
Sampling(์ํ๋ง)
ํ๋ฅ ์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ํ ํฐ์ ์ ํํ๋ค๊ณ ํ๋๋ฐ, ๊ทธ๋ผ ๋จ์ํ ํญ์ ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ํ ํฐ์ ์ ํํ๋ฉด ์ข์๊น? ๋๋ถ๋ถ์ ๊ฒฝ์ฐ ํด๋น ๋ฐฉ์์ ๋ณ๋ก ์ข์ง ์๋ค. ์คํ๋ ค ๋ฌด์์๋ก ๋น๊ต์ ๋ฎ์ ํ๋ฅ ์ ๋จ์ด๋ค์ ์ ํํ์ ๋ ๋ ํ๋ถํ ํ ์คํธ๋ฅผ ์์ฑํ ์ ์๋ค. ์ด์ฒ๋ผ ํ ์คํธ ์์ฑ์ ๋ฌด์์์ฑ ๋๋ ์ฐฝ์์ฑ์ ์กฐ์ ํ๋ ๋งค๊ฐ๋ณ์ temperature(์จ๋)๊ฐ ์๋ค. ์ฃผ๋ก 0-2 ์ฌ์ด์ ๊ฐ์ผ๋ก temperature๊ฐ 0์ด๋ฉด ํ์์ ์ผ๋ก ํญ์ ํ๋ฅ ์ด ๊ฐ์ฅ ๋์ ๋จ์ด๊ฐ ์ ํ๋๋ฏ๋ก ์ผ๊ด๋ ์๋ต์ด ์์ฑ๋๋ค.
*temperature(์จ๋): ์ ํํ ๋งํ์๋ฉด softmax ํจ์๋ก ๋ชจ๋ธ ์ถ๋ ฅ์ ์ ๊ทํํ๊ธฐ ์ ์ (ํ๋ฅ ํํ๋ก ๋ง๋ค๊ธฐ ์ ์) ๋๋์ด์ฃผ๋ ๊ฐ์ผ๋ก, 0์ผ๋ก ์ค์ ํ๋ฉด ๊ฐ์ฅ ํฐ ์ถ๋ ฅ ๊ฐ์ ํ ํฐ ํ๋ฅ ์ 1์ด ๋๊ณ , ๋๋จธ์ง๋ ๋ชจ๋ 0์ด ๋๋ค.
3/ LLM ๋ชจ๋ธ
3.1 ๊ธฐํธ์ฃผ์(Symbolism) vs. ์ ๊ฒฝ์ฃผ์(Connectionism)
๊ธฐํธ์ฃผ์ ํน์ ๊ณ์ฐ์ฃผ์๋ ์ธ๊ฐ์ด ์ง์ ๋ง๋ ๊ท์น์ ๋ฐํ์ผ๋ก ๋ ผ๋ฆฌ๋ฅผ ์ธ์ฐ๊ณ ์ด๋ฅผ ์ฃผ์ ํ๋ ๋ฐฉ์์ด๋ค.
๊ท์น๊ณผ ๋ ผ๋ฆฌ๊ฐ ๋ช ํํ๋ฏ๋ก ํฌ๋ช ์ฑ์ด ๋ณด์ฅ๋๋ ํธ์ด๋ค. ๋ฐ๋๋ก, ์ ๊ฒฝ์ฃผ์๋ ์ผ์ผ์ด ๊ท์น์ ๋ง๋ค์ง ์๊ณ , ๋ฐ์ดํฐ๋ก๋ถํฐ ์ค์ค๋ก ํ์ตํ๋ ๊ด์ ์ด๋ค.
ํ์ฌ AI๋ ์ ๊ฒฝ์ฃผ์ ๊ด์ ์์ ์ ์๋ค. ํ์ง๋ง ์ฒ์๋ถํฐ ๊ทธ๋ฌ๋ ๊ฒ์ ์๋๋ค. ์ด๊ธฐ AI์ ์ฃผ๋ฅ๋ ๊ธฐํธ์ฃผ์์๋ค.
ํํ AI Winter๊ฐ ์จ ์ด์ ๊ฐ ์ด๊ธฐ ๊ธฐํธ์ฃผ์ AI ๋๋ฌธ์ด๋ค. ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ์์ฒญ๋ ์ฑ๋ฅ์ ๋ณด์ด๋ฉด์ AI Winter๋ฅผ ๋๋ด๊ณ ํ์ฌ๊น์ง ์ด๋ฅด๊ฒ ๋์๋ค.
ํ ํธ์ผ๋ก๋ ๊ธฐํธ์ฃผ์ + ์ ๊ฒฝ์ฃผ์ ๊ด์ , ์ด๋ฅธ๋ฐ ๋ด๋ก์ฌ๋ณผ๋ฆญ(Neuro-Symbolism)๋ ์๊ฒจ๋๊ณ ์๋ค. ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๊ท์น์ ์ฃผ์ ํ๋ ๊ฒ์ด๋ค. ์ด ๊ด์ ์ด ์ ์ ์ค์ํด์ง๊ณ ์๋ ๊ฒ ๊ฐ๋ค.
3.2 ์ ๊ฒฝ๋ง(Neural Network)
](image_6.png)
https://intuitivetutorial.com/2023/07/23/activation-functions-in-deep-learning/
์ ๊ฒฝ๋ง์ ์ธ๊ฐ์ ๋๋๊ฐ ์๋ํ๋ ๋ฐฉ์์ ๋ชจ๋ธํ ๋ชจ๋ธ์ด๋ค. ๋ด๋ฐ(neuron;์ ๊ฒฝ ์ธํฌ)์ด ์ฐ๊ฒฐ๋์ด ์๋ ๊ฒ์ฒ๋ผ ์ ๊ฒฝ๋ง๋ ์ธ๊ณต ๋ด๋ฝ์ ์งํฉ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ์ฐ๊ฒฐ์ ๊ฐ์ค์น๋ฅผ ์๋ฏธํ๊ณ , ํ์ฑํ ํจ์(activation function)์ ํ๋ค.
์ธ๊ฐ๊ณผ ์ ์ฌํ ์์ ์ ์ํํ๋ ๋ชจ๋ธ์ ๋จ์ํ ์ํ์ ๋ฒ์น์ด ์๋, ํ๋ จ์ ํตํด ์ค์ค๋ก ํน์ง์ ๋ฐ๊ฒฌํ๋ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค.
Universal Approximation Theorem(๋ณดํธ ๊ทผ์ฌ ์ ๋ฆฌ)
Universal Approximation Theorem์ ์ ๊ฒฝ๋ง์ด ์ ์ค์ํ์ง ์ค๋ช ํด์ฃผ๋ ์ด๋ก ์ด๋ค.
์๋์ธต(hidden state)๊ฐ ํ๋๋ฐ์ ์ ๋ ๋จ์ํ ๋ชจ๋ธ์ด๋ผ๋, ๋ด๋ฐ(neuron) ์๊ฐ ์ถฉ๋ถํ ๋ง๊ณ , ํ์ฑํ ํจ์(activation function)์ด ๋น์ ํ ํจ์๋ผ๋ฉด ์ ๊ฒฝ๋ง์ ์ด๋ ํ ์ฐ์ ํจ์๋ผ๋ ๊ทผ์ ํ๊ฒ ๊ทผ์ฌํ ์ ์๋ค๋ ๊ฒ์ด๋ค.
Blackbox(๋ธ๋๋ฐ์ค) ๋ชจ๋ธ
์๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ๊ณ ์์ด ์ฌ์ง์ ๋ณด๊ณ ๊ณ ์์ด์ธ์ง, ๊ฐ์์ง์ธ์ง ๋ถ๋ฅํ ์ ์์ง๋ง, ์ ํํ ์ด๋ป๊ฒ ๊ทธ๋ ๊ฒ ์๊ฐํ๋์ง๋ ์ ์๊ฐ ์๋ค.
๋ชจ๋ธ ํ๋ผ๋ฏธํฐ๋ ๊ฒฐ๊ตญ ํ์ ๋์ด์๋๋ฐ ๋ฐฉ๋ํ ์ง์์ ์ฃผ์ ํ๋ค ๋ณด๋ ํ ๋ด๋ฐ์ด ์ฌ๋ฌ ๊ฐ๋ ์ ์ค์ฒฉํด ๊ฐ๊ณ ์๋ค. ์ฆ, ์๋ง์ ๋ด๋ฐ๊ณผ ๊ฐ์ค์น๊ฐ ์์ฃผ ๋ณต์กํ๊ฒ ์ฝํ ์์ด ํด์ํ๊ธฐ ์ด๋ ค์ด ์ํฉ์ด๋ค. ํน์ ์ ๋ ฅ์ ๋ํด ์ ํด๋น ์ถ๋ ฅ์ด ๋์ถ๋์๋์ง ์ค๋ช ์ด ๊ฑฐ์ ๋ถ๊ฐ๋ฅํ๋ค.
๋ธ๋๋ฐ์ค ๋ชจ๋ธ์ ๋ด๋ถ๋ฅผ ๋ค์ฌ๋ค๋ณด๊ธฐ๊ฐ ๋ฌด์ฒ ์ด๋ ต๊ธฐ์ ์ ๋ขฐ์ฑ, ์์ ์ฑ์ ๋ค๋ฃฐ ๋ ๋ ๋ฌธ์ ๊ฐ ๋๊ณ ์๋ค.
3.3 Transformer - Attention Is All You Need
](image_7.png)
https://arxiv.org/abs/1706.03762
๋๋ถ๋ถ์ LLM์ 2017๋ ์ ๊ณต๊ฐ๋ โAttention Is All You Needโ ๋ ผ๋ฌธ์์ ์๊ฐ๋ Transformer(ํธ๋์คํฌ๋จธ) ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ค.
Tokenization(ํ ํฐํ)
](image_8.png)
https://tiktokenizer.vercel.app/
ํ ํฐํ๋ ํ ์คํธ๋ฅผ ๋จ์ด, ๋๋ ๋ถ๋ถ ๋จ์ด ๋ฑ๊ณผ ๊ฐ์ ๋ ์์ ๋จ์๋ก ์ชผ๊ฐ๋ ๊ณผ์ ์ด๋ค. ๋ชจ๋ธ์ ๋ฐ๋ผ ํ ํฐ๋์ด์ (tokenizer)๊ฐ ๋ค๋ฅผ ์ ์๋ค. ์ฝ๋ ์์ฑ ๋ชจ๋ธ๊ฐ์ ๊ฒฝ์ฐ ์ฝ๋์ ํนํ๋ ํน์ ํ ํฌ๋์ด์ ๊ฐ ํ์ํ๊ธฐ๋ ํ๋ค. ํ ํฐ๋์ด์ ์ ์ข ๋ฅ์ ๋ฐ๋ผ ํ ํฐ์ ์๋ก ๋ค๋ฅด๊ฒ ์ฒ๋ฆฌํ ์ ์๋ค. (๊ณ์ฐ ํจ์จ์ฑ๊ณผ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ํฅ์ ๋ฏธ์น๋ค.)
Embedding(์๋ฒ ๋ฉ)

Hands-On Large Language Models (2024)
๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด์๋ ํ ์คํธ๋ฅผ ์ซ์๋ก ํํํด์ผ ํ๋ค. ์๋ฒ ๋ฉ์ ํ ์คํธ, ์ด๋ฏธ์ง ๋ฑ์ โ๋ณธ์งโ (ํ ์คํธ๋ผ๋ฉด ์๋ฏธ)์ ์ซ์ ๋ฐฐ์ด๋ก ํํํ๋ ๊ฒ์ผ๋ก, ์๋ฏธ์ ๊ฐ๊น์ด ๊ฒ์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์์ ๊ฐ๊น์ด ์ซ์๋ก ํํ๋๋ค.
Attention(์ดํ ์ )

Hands-On Large Language Models (2024)
ํ ํฐ ์ํ์ค ๋ด์ ์ด๋ค ํ ํฐ์ ๋ โ์ง์คโํด์ผํ๋์ง ์๋ ค์ฃผ๋ ๋งค์ปค๋์ฆ์ด๋ค.
The cat chased the mouse because it ๋ฌธ์ฅ์์ it ๋ค์์ ์ฌ ํ ํฐ์ ์์ธกํ๋ ค๋ฉด it์ด ๋ฌด์์ ๊ฐ๋ฆฌํค๋์ง ์์์ผ ํ๋ค. attention ๋งค์ปค๋์ฆ์ it ํ ํฐ ํํ์ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ์ถ๊ฐํ์ฌ ๋ฌด์์ ๋ ์ฃผ๋ชฉํด์ผํ๋์ง๋ฅผ ์๋ ค์ค๋ค. *โchasedโ*๋ *โmouseโ*์ ๋ ์ฃผ๋ชฉํด์ผ ํ๋ค๋ ๊ฒ์ ์๋ ค์ค๋๋ค.
์ด์ฒ๋ผ attention์ ๋ฌธ๋งฅ์ ์ดํดํ๋๋ฐ ํจ๊ณผ์ ์ด๋ค. self-attention์ ๋ฌธ์ฅ์ ๊ฐ ๋จ์ด๊ฐ ๋ค๋ฅธ ๋ชจ๋ ๋จ์ด๋ฅผ ์ฐธ๊ณ ํ์ฌ ์ ์ฒด ๋ฌธ๋งฅ์ ๋ ๊น์ด ์ดํดํ ์ ์๋๋ก ๋์ ํ ์คํธ ๋ด ๋จ์ด๋ค์ ์์น์ ์๊ด์์ด ์๋ก ๋ฉ๋ฆฌ ๋จ์ด์ง ๋จ์ด๋ค๊น์ง ์ฐ๊ด ์ง์ ์ ์๋๋ก ๋ง๋ค์ด ์ ์ฒด ๋ฌธ๋งฅ์ ๋ ๊น์ด ์ดํดํ ์ ์๋ค.
4/ BERT vs. GPT
](image_11.png)
https://heidloff.net/article/foundation-models-transformers-bert-and-gpt/
Transformer๋ Encoder-Decoder ๋ชจ๋ธ๋ก, encoder๋ก ์ ๋ ฅ์ ์ธ์ฝ๋ฉํ๊ณ decoder๋ก ์ถ๋ ฅ์ ์์ฑํ๋ค.
4.1 Encoder-Only
](image_12.png)
https://jalammar.github.io/illustrated-bert/
Encoder ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฃผ๋ก representation model(ํํ ๋ชจ๋ธ)์ด๋ผ๊ณ ์ผ์ปซ๋๋ค. ์ฃผ๋ก ์ธ์ด๋ฅผ ํํํ๋ ๋ฐ ์ค์ ์ ๋๋ค. ๋ํ์ ์ธ Encoder ๊ธฐ๋ฐ ๋ชจ๋ธ์ธ BERT์ ์ํคํ ์ฒ๋ฅผ ์ดํด๋ณด๋ฉด, ์ ๋ ฅ์๋ [CLS] ํ ํฐ ํน์ ๋ถ๋ฅ ํ ํฐ์ด ํฌํจ๋์ด ์์ผ๋ฉฐ, Masked Language Modeling ๊ธฐ๋ฒ์ ์ฌ์ฉํด ๋จ์ด๋ฅผ ๋ฌด์์๋ก ๋ง์คํนํ ํ, ๋ง์คํน๋ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ํ๋ จํ๋ค.
4.2 Decoder-Only
](image_13.png)
Decoder ๊ธฐ๋ฐ ๋ชจ๋ธ์ generation model(์์ฑ ๋ชจ๋ธ)์ด๋ผ๊ณ ํํ ๋ถ๋ฅธ๋ค. ์ฃผ๋ก ํ ์คํธ๋ฅผ ์์ฑํ๋ ๋ฐ ์ค์ ์ ๋๋ค. ์ฐ๋ฆฌ๊ฐ ํ์ฌ ์ฌ์ฉํ๋ ๋๋ถ๋ถ์ LLM์ Decoder ๊ธฐ๋ฐ ๋ชจ๋ธ๋ก, ๋ํ์ ์ผ๋ก GPT ๊ณ์ด ๋ชจ๋ธ์ด ์๋ค. Encoder ๊ธฐ๋ฐ์ ๋ง์คํน ๊ธฐ๋ฒ์ ์ฌ์ฉํ ๋ฐ๋ฉด, Decoder ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํ ์คํธ์ ๋ ๋ถ๋ถ์ ๊ฐ๋ฆฐ ํ ๊ฐ๋ ค์ง ๋ถ๋ถ์ ์์ธกํ๋๋ก ํ๋ จํ๋ค.
์์ ์ด์ผ๊ธฐํ autoregressive ํน์ฑ์ด Decoder ๊ธฐ๋ฐ ๋ชจ๋ธ์ ํน์ง์ด๋ค. ์๋ก์ด ํ ํฐ์ ์์ฑํ ๋๋ง๋ค ์ด์ ์ ์์ฑ๋ ์ ์ฒด ํ ํฐ ์ํ์ค๋ฅผ ๋ค์ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ์์ฑํ๋ autoregressive ํน์ฑ์ ๋๋ค. ๊ทธ๋์ ๋ฌธ๋งฅ์ ๋ง๊ฒ ๊ธธ๊ณ ์ผ๊ด์ฑ ์๋ ํ ์คํธ๋ฅผ ์์ฑํ ์ ์๋ค.
5/ LLM์ ํ๊ณ
LLM์ ๋ง๋ฅ์ด ์๋๋ค. ์ฐ๋ฆฌ๋ LLM, AI๋ฅผ ํ์ฉํ ๋ ํญ์ ์กฐ์ฌํ๋ฉด์ ์ ์คํ ์ฌ์ฉํด์ผ ํ๋ค.
5.1 ํ ๋ฃจ์๋ค์ด์ (Hallucination; ํ๊ฐ)
์ฌ์ค์ด ์๋ ๋ด์ฉ์ ์ฌ์ค์ฒ๋ผ ๋งํ๋ Hallucination ํ์์ LLM์ ๋ํ์ ์ธ ๋ฌธ์ ๋ค.
์ด๋ฅผ ์ ๋ณด์ฌ์ค ํ ์คํ(Herding AI Cats: Lessons from Designing a Chatbot by Prompting GPT-3)์ด ์๋ค.

GPT 5.1 ๋ชจ๋ธ์๊ฒ ๋งฅ์ค์น์ฆ ๋ ์ํผ๋ฅผ ๋ฌผ์ด๋ณด๋ฉด์, ์ด๋ป๊ฒ ๋ง์์ ์ค ์๋๊ณ ๋ฌผ์ด๋ณด์์ ๋ ๋ฌผ๋ฆฌ์ ์ธ๊ณ์ ์์ด ๋ณธ ์ ์ด ์๋ GPT 5.1์ด ๋น์ฐํ ์๊ธฐ๊ฐ ๋จน์ด๋ดค๋ค๊ณ ๊ฑฐ์ง๋ง์ ํ ๊ฒ์ด๋ค.
์ค์ ๋ก ๊ฒฝํํ ๊ฒ์ ๋งํ ๊ฒ ์๋๋ผ ์ธ๊ฐ๋ค์ด ์์ฐํ ์๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์๊ธฐ์ โ์ ๋ง์๋ค๊ณ ์๊ฐํด?โ๋ผ๋ ์ง๋ฌธ์ โ๋จน์ด๋ดค์ผ๋๊นโ๊ฐ ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ๊ฐ์ง ๋ต๋ณ์ด์์ผ๋ฏ๋ก ์ ํํ ๊ฒ์ด๋ค.
5.2 ๊ณ์ฐ์ ๋นํ์์ฑ
LLM์ ๋ณธ์ง์ ์ผ๋ก ๊ณ์ฐ์ ๋นํ์์ฑ์ ํฌํจํ๋ ๋ณต์กํ ๊ณ์ฐ์๋ ํ๊ณ๊ฐ ์๋ค. ์ธ์ด๋ฅผ ๋ค๋ฃจ๋ ๋ฐ์๋ ๋ฅ์ํ์ง๋ง, ๋ฌผ๋ฆฌ ๋ฒ์น์ด๋ ์ํ์ ๊ณ์ฐ๊ณผ ๊ฐ์ ์์ญ์์๋ ๊ณ์ฐ๊ธฐ๋ณด๋ค ๋ชปํ ์๋ ์๋ ๊ฒ์ด๋ค.
Can LLMs subtract numbers? (2025) ๋ ผ๋ฌธ์ ์ํ๋ฉด, ์ต์ ๋ชจ๋ธ๋ค์ด ๋ง์ ์์๋ ๊ฑฐ์ ์๋ฒฝํ ์ ํ๋๋ฅผ ๋ณด์์ง๋ง, ๋ต์ด ์์๋ก ๋์ค๋ ๋บ์ ๋ฌธ์ ์์๋ 100์ ๋ง์ ์ค 30-50์ ์ ์ ํ๋๋ก ํ๋ฝํ๋ค. LLM ๋ด๋ถ์ ๊ณ์ฐ ๊ฒฐ๊ณผ์ ๋ํ ์ ๋ณด๊ฐ ์์์๋ ์ถ๋ ฅํ ๋๋ ๋ง์ด๋์ค ๋ถํธ๋ฅผ ๊น๋จน๋ ๊ฒ์ด๋ค. ๊ณ์ฐ ์ ์ฐจ๋ฅผ ์ ํํ ๋ฐ๋ฅด์ง ๋ชปํ๋ ๊ฒ์ด๋ค.
*๊ณ์ฐ์ ๋นํ์์ฑ: ๋ณธ์ง์ ์ผ๋ก ๊ฐ ๊ณ์ฐ ๋จ๊ณ๋ฅผ ์ถ์ ํด์ผ๋ง ๊ฒฐ๊ณผ๋ฅผ ์ ์ ์๋ ๊ณผ์ ์ผ๋ก ๋ณต์กํ ์ํ ๋ฌธ์ ํ์ด๋ ๋ฌผ๋ฆฌ ๋ฒ์น ์๋ฎฌ๋ ์ด์ ๋ฑ์ด ์์.
5.3 ๋ง๋ํ ์ธํ๋ผ ํฌ์, ๋์ ๊ณ์ฐ ๋น์ฉ
๋ชจ๋ธ ํ๋ผ๋ฏธํฐ ์๊ฐ ๋ง์์ง๋ฉด ๋ง์์ง์๋ก ํ์ต์ ํ์ํ GPU์ ๋ฐ์ดํฐ๋์ ๊ธ์ฆํ๋ค. ์ด๋ ์์ฐ์ค๋ฝ๊ฒ ๋น์ฉ๊ณผ ํ๊ฒฝ ๋ฌธ์ ๋ก๋ ์ด์ด์ง๋ค. ๋ชจ๋ธ์ ๋ ํฌ๊ฒ, ๋ ๋ง์ ๋น์ฉ์ ํฌ์ํด์ ๊ฐ๋ฐํ๋ ๊ฒ์ ์์ด ์กฐ์ฌ์ค๋ฌ์์ผ ํ ํ์๊ฐ ์๋ค.
6/ Takeaways
โLLM์ ์ ๋ ๋ง๋ฅ์ด ์๋๋คโ ๋ผ๋ ์ฌ์ค์ ์ ํ๊ณ ์ถ์ด ์์ฑํ ๊ธ์ด๋ค.
ํ์ ๋ํ LLM๊ณผ ๋ํ๋ฅผ ๋๋๋ค ๋ณด๋ฉด, ์ ๋ง ๊ทธ๋ด ๋ฏํด์ ์ ๋ ๋ชจ๋ฅด๊ฒ ๋ต๋ณ์ ๋ฏฟ๊ฒ ๋ ๋๊ฐ ์๋ค. ์ ๋ง โํ๋ฆฐโ ๊ธฐ๋ถ์ด ๋ค๊ณค ํ๋ค. ํ๋ฆฌ์ง ์์ผ๋ ค๋ฉด, ์ฐ๋ฆฌ๊ฐ LLM์ ์ ๋๋ก ์ด์ฉํ๊ธฐ ์ํด์๋ LLM์ ์ ์ฒด๋ฅผ ์ ํ์๊ฐ ์๋ค.
๊ทธ์ ์ฐ๋ฆฌ๊ฐ ๋ง๋ค์ด ๋์ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ก ์์ฃผ ์ ์ ์ ํ์ฌ ํ๋ จ์ํจ ๊ฑฐ๋ํ ํ๋ฅ ๊ณ์ฐ ๋ชจ๋ธ์ด LLM์ด๋ค. LLM์ ๋ณธ์ง์ ์ดํดํ์๋ ๊ฒ์, LLM์ ๋ฌด์์ ๋ถ์ ํ๊ณ ์ฌ์ฉํ์ง ๋ง์๋ ์๋ฏธ๊ฐ ์๋๋ค. ์คํ๋ ค ํ๊ณ๋ฅผ ์ ํํ ์์ LLM์ ์ ์ฉํ๊ฒ ์ฌ์ฉํ์ผ๋ฉด ์ข๊ฒ ๋ค.