๐บ Reward Hacking in GPT-5โs โGoblinโ Habit
On this page
OpenAI์์ ์ต๊ทผ ๊ณต๊ฐํ โWhere the goblins came fromโ ๊ธ์ ์ฝ๊ณ ํฅ๋ฏธ๋ก์์, ์ด ์ฌ๋ก๋ฅผ ๋์ ์๋ฏธ์ reward hacking ๊ด์ ์์ ์ ๋ฆฌํด๋ณด๊ณ ์ ํ๋ค.
0/ Reward Hacking

Reward Hacking์ ๋ชจ๋ธ์ด ์ธ๊ฐ์ด ์๋ํ ์ง์ง ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ๋์ , ํ์ต ๊ณผ์ ์ ์ฃผ์ด์ง proxy reward (๋๋ฆฌ ๋ณด์ โ true reward)๋ฅผ ์ต๋ํํ๋ฉด์ ์ค์ ์๋ํ task๋ ์ํํ์ง ๋ชปํ๊ฑฐ๋, ์ฑ๋ฅ์ด ์คํ๋ ค ์ ํ๋๋ ํ์์ด๋ค.
- True objective : ์ธ๊ฐ์ด ์ค์ ๋ก ์ํ๋ ์ง์ง ๋ชฉํ
- Proxy reward (๋๋ฆฌ ๋ณด์) : true objective๋ฅผ ์ง์ ํํํ๊ณ ์ธก์ ํ๊ธฐ ์ด๋ ค์์ ํ์ต ๊ณผ์ ์์ ๋์ ์ฌ์ฉ๋๋ ๋ณด์ ์ ํธ.
์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋ชฉํ๋ ๋ณต์กํ๊ณ , ์ถ์์ ์ด๋ผ ๋ชจ๋ธ ํ์ต ๊ณผ์ ์์ ๊ทธ๋๋ก ์ฌ์ฉํ๊ธฐ ์ด๋ ต๋ค.
๊ทธ๋์ RLHF(Reinforcement Learning from Human Feedback)์์์ ์ธ๊ฐ ์ ํธ๋ ์ ์, Reward Model ์ ์์ ๊ฐ์ proxy reward๋ฅผ ์ฌ์ฉํ๋ค.
์ด๋, proxy reward๊ฐ true objective๋ฅผ ์๋ฒฝํ๊ฒ ๋๋ณํ์ง ๋ชปํ๋ค๋ ์ ์์ reward hacking๊ณผ ๊ฐ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋ ๊ฒ์ด๋ค.
reward hacking์ ๋ชจ๋ธ์ด ๋ณด์ ํจ์์ ํ์ ์ ์ ์์ ์ผ๋ก ์ด์ฉํด ์์์๋ฅผ ์ฐ๋ ๊ฒ์ ๋์ด, ๋ ๊ทผ๋ณธ์ ์ผ๋ก๋ ๋ณต์กํ ์ค์ ์๋๋ฅผ ๋จ์ํ proxy reward๋ก ํํํ๊ธฐ ์ด๋ ต๊ณ , ๋ชจ๋ธ์ ๊ทธ proxy reward๋ฅผ ์ต์ ํํ๋ฉด์ ์๊ธฐ๋ ๋ฌธ์ ๋ก ์๊ฐํ ์ ์๋ค.
1/ GPT-5.1 ์ดํ ๋ํ๋ โgoblinโ, โgremlinโ ์ฌ์ฉ ์ต๊ด

๋ง์ ์ฌ์ฉ์์ ๋ฐ์๊ณผ ํจ๊ป OpenAI ๊ธ์ ๋ฐ๋ฅด๋ฉด GPT-5.1 ์ดํ ๋ชจ๋ธ ์๋ต์์ โgoblinโ ์ฌ์ฉ๋์ด 175% ์ฆ๊ฐํ๊ณ , โgremlinโ ์ฌ์ฉ๋์ 52% ์ฆ๊ฐํ๋ค.
Nerdy personality

์ด๋ฌํ Goblin Habit์ ํนํ Nerdy personality์์ ๋๋๋ฌ์ง๊ฒ ๋ํ๋ฌ๋ค.

ChatGPT๋ Professional, Candid, Cynical ๋ฑ ์ฌ๋ฌ Personality๋ก ์ปค์คํ ํ ์ ์๋ค. ํ์ฌ๋ Nerdy personality๊ฐ ์ ๊ณต๋์ง ์์์ง๋ง, ๋น์ Nerdy personality๋ nerdyํ๋ฉด์ playfulํ๊ณ , ์งํ๋กญ๊ณ ๋นํ์ ์ฌ๊ณ ๋ฅผ ๋ณด์ด๋ ์๋ต ์คํ์ผ์ ์ค์ ํ personality์๋ค.
๐งย ์ด๋ Nerdy personality์ ์ฌ์ฉ๋์ ์ ์ฒด ChatGPT์ ์๋ต์ 2.5%์ ๋ถ๊ณผํ๋ฐ, โgoblinโ ์ฌ์ฉ๋์ 66.7%๋ฅผ ์ฐจ์งํ๋ค.
์ฆ, Nerdy personality์์ ์ด๋ฌํ Goblin Habit์ด ํนํ ๊ฐํ๊ฒ ๋ํ๋ ๊ฒ์ด์๋ค.
์ Nerdy personality์์ ์ด๋ฌํ ํ์์ด ๋ง์ด ๋ณด์ธ๊ฑธ๊น?
2/ ์์ธ: RL ํ์ต์์์ ๋ณด์ ์ ํธ
์์ธ์ Nerdy personality์ ์ํด ์ค๊ณ๋ reward signal์ด goblinโ, โgremlinโ ๊ณผ ๊ฐ์ creature metaphor๋ฅผ ์ฌ์ฉํ ์๋ต์ ๋ ๋์ ๋ณด์์ ์ฃผ๋ ๊ฒฝํฅ์ด ์์๊ธฐ ๋๋ฌธ์ด๋ค.
OpenAI๊ฐ ๊ฒ์ฌํ ๋ฐ์ดํฐ์ ์์ โgoblinโ ๋๋ โgremlinโ์ด ๋ค์ด๊ฐ ์ถ๋ ฅ์ด ๊ทธ๋ ์ง ์์ ์ถ๋ ฅ๋ณด๋ค ๋ ๋์ ๋ณด์์ ๋ฐ์ ๊ฒฝ์ฐ๊ฐ 76.2%์๋ค.
๋ณธ๋ ์๋๋ Nerdy personality๊ฐ ์ ํธํ๋ nerdy, palyful, wiseํ ๋ต๋ณ ์คํ์ผ์ด์์ํ ๋ฐ, reward signal์ด ๊ทธ ๋ต๋ณ ์คํ์ผ์ ๋ณธ์ง์ด ์๋๋ผ, ์ฐ์ฐํ ๊ทธ ์คํ์ผ๊ณผ ์์ฃผ ๋ํ๋ creature metaphor๋ฅผ ๋๊ฒ ํ๊ฐํ ๊ฒ์ด๋ค.
Nerdy ์๋ ๊ณณ์์๋ ํผ์ง Goblin Habit
๋ ์ค์ํ ๊ฒ์ ์ด Goblin Habit์ด Nerdy personality์ ๋์ด ์ ๋ฐ์ ์ผ๋ก ํผ์ง ๊ฒ์ด๋ค.
Nerdy ์์ โgoblinโ, โgremlinโ ์์ฃผ ์ฌ์ฉํ๊ธฐ ์์ํ์, Nerdy ๊ฐ ์๋ ๊ฒฝ์ฐ์๋ ๊ฑฐ์ ๋น์ทํ๊ฒ ์ฌ์ฉ๋์ด ์ฆ๊ฐํ๊ธฐ ์์ํ๋ค.
ํน์ personality์์ ์ ํธ๋ ์คํ์ผ์ด ๋ค๋ฅธ personality์ ๋ชจ๋ธ ํ๋์ ์๋์ ๊ฐ์ ๋ฐ๋ณต ๊ณผ์ ์ ๊ฑฐ์ณ ์ ์ญ์ ์ผ๋ก ํผ์ง ๊ฒ์ด๋ค.
- Nerdy personality์์๋ playfulํ ๋ต๋ณ์ด ๋์ ๋ณด์์ ๋ฐ๋๋ค.
- ๊ทธ์ค ์ผ๋ถ ๋ต๋ณ์ โgoblinโ, โgremlinโ ๊ฐ์ ํํ์ด ๋ค์ด ์๋ค.
- RL ๊ณผ์ ์์ ์ด๋ฐ ํํ์ด ํฌํจ๋ ๋ต๋ณ์ด ๋ ๋์ ์ ์๋ฅผ ๋ฐ๋๋ค.
- ๋ชจ๋ธ์ ์ด ํํ์ ๋ ์์ฃผ ์์ฑํ๊ฒ ๋๋ค.
- ์ด๋ ๊ฒ ์์ฑ๋ rollout, ๋ต๋ณ ์ํ์ด ๋ค์ SFT ๋ฐ์ดํฐ๋ preference data์ ํฌํจํด ํ์ฉํ๋ค.
- ์ดํ ๋ชจ๋ธ์ด ์ด ํํ์ Nerdy personality ๋ฐ์์๋ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉํ๊ฒ ๋๋ค.
์ด ๋ถ๋ถ์ด ์ ๋ง ์ค์ํ๊ฒ ๋๊ปด์ก๋ค.
SFT๋ โ์ข์ ๋ต๋ณ ์์๋ฅผ ๋ชจ๋ธ์๊ฒ ๊ฐ๋ฅด์น๋ ํ์ตโ, RL์ โ๋์ ๋ณด์์ ๋ฐ์ ์ ์๋ ๋ต๋ณ์ ๋ ์์ฑํ๊ฒ ํ๋ ํ์ตโ์ด๋ผ๊ณ ๊ฐ๋จํ๊ฒ ์๊ฐํด๋ณด์.
๋ณดํต ๋๊ท๋ชจ ๋ชจ๋ธ ํ์ตํ๋ ๊ฒฝ์ฐ SFT โ RL ํ ๋ฒ์ ๊ณผ์ ์ผ๋ก ๋๋๊ธฐ๋ณด๋ค, ๋ชจ๋ธ ์ถ๋ ฅ์ ํ๊ฐํ๊ณ , ์ข์ ์ถ๋ ฅ์ ๋ค์ ํ์ต ๋ฐ์ดํฐ๋ก ํ์ฉํ๋ฉด์ ํ๋ จ์ ๋ฐ๋ณตํ๋ค.
์ด๋ RL ๊ณผ์ ์์ ์์ฑ๋ rollout์ด ์ดํ SFT ๋ฐ์ดํฐ๋ preference data์ ๋ค์ ํฌํจ๋ ์ ์์ผ๋ฉด์, ํน์ ์ํฉ์์๋ง ๋ณด์๋ ์ต๊ด์ด ๋ค๋ฅธ ์ํฉ์์๋ ํผ์ง ์ ์๋ ๊ฒ์ด๋ค.
๊ทธ๋์ Nerdy์์ ์์๋ ์์ ์ต๊ด์ด SFT๋ฅผ ๊ฑฐ์น๋ฉด์ Nery ๋ฐ์ผ๋ก ํผ์ง ๊ฒ์ด๋ค.
์์ ํธํฅ์ด๋๋ผ๋ RL, SFT, preference data๋ฅผ ํตํด ๋ชจ๋ธ ์ ์ฒด๋ก ํ์ฐ๋ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค.
3/ Goblin Habit๋ Reward Hacking์ธ๊ฐ?
๊ฐ์ธ์ ์ผ๋ก ์ด๋ฒ GPT-5์ Goblin ์ฌํ๋ ๋์ ์๋ฏธ์ reward hacking์ผ๋ก ๋ณผ ์ ์๋ค๊ณ ์๊ฐํ๋ค.
๋ชจ๋ธ์ด ๋ณด์ ์์คํ ์ ์์ด๊ฑฐ๋ ํ์ ์ ์ด์ฉํด ์ ์์ ์ผ๋ก ์กฐ์ํ ๊ฒ์ ์๋์ง๋ง, ์ค์ ๋ก Nerdy personality์์ ์ํ๋ ๋ต๋ณ ์คํ์ผ์ ๋ณธ์ง์ ํ์ตํ ๊ฒ์ด ์๋๋ผ ๋์ ๋ณด์์ ๋ฐ์ ์ ์๋ ์ฐ์ฐํ creature metaphor ํ๋ฉด์ ํน์ง์ ๋ฐฐ์ ๊ธฐ ๋๋ฌธ์ด๋ค.
์ฆ, ์ค์ ์๋๋ ๋ฐฉํฅ์ผ๋ก ์ต์ ํ๋ ๊ฒ์ด ์๋๋ผ ๋์ ๋ณด์์ ์ป๊ธฐ ์ฌ์ด ํ๋ฉด์ ํจํด์ ํ์ตํ๋ ๋ฐฉํฅ์ผ๋ก ์ต์ ํ๋ ๊ฒ ๊ฐ๊ธฐ ๋๋ฌธ์ด๋ค.

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges ๋ ผ๋ฌธ ๊ด์ ์ ์ฐธ๊ณ ํ์๋ฉด, GPT-5 ๋ชจ๋ธ์ โgoblin habitโ์ feature-level exploitation ์์ค์ reward hacking์ผ๋ก ์๊ฐํ ์ ์๋ค.
feature-level exploitation์ ๋ชจ๋ธ์ด ์ค์ task ์ํ์ด๋ ๋ชฉํ ๋ฌ์ฑ๊ณผ ๊ด๋ จ ์๋ ๋ณธ์ง์ ์ธ ํน์ง์ด ์๋๋ผ, reward์ ์ฐ์ฐํ ๊ด๋ จ ์๋ ํ๋ฉด์ ํน์ง์ ๊ณผ๋ํ๊ฒ ํ์ตํ ํ์์ด๋ค.
| True objective | Nerdy personality์์ ์ ํธํ๋ nerdyํ๊ณ playfulํ๋ฉด์ ์ ์ฉํ ๋ต๋ณ ์คํ์ผ |
|---|---|
| Proxy reward | Nerdy personality reward |
| ๋ชจ๋ธ์ด ํ์ตํ ํ๋ฉด์ ํน์ง | goblin, gremlin ๊ฐ์ creature metaphor |
| ๊ฒฐ๊ณผ | ์ค์ ๋ก ์ํ๋ ๋ต๋ณ ์คํ์ผ๋ณด๋ค ํน์ ํํ ์ต๊ด์ด ๋๋๋ฌ์ง |
5/ ์ ์ด ์ฌ๋ก๊ฐ ์ค์ํ๊ฐ?
์ด๋ฒ Goblin ์ฌํ๋ ์ฌ๊ฐํ ์์ ๋ฌธ์ ๋ ์๋๊ณ , ์๊ธฐ๊ฒ ๋์ด๊ฐ ์ ์๋ ๋ฌธ์ ์๋ค.
ํ์ง๋ง ์ด ์ฌ๋ก๊ฐ ๋จ์ํ ํดํ๋์ผ๋ก ์ฌ๊ธฐ๊ณ ๋๋ผ ๋ฌธ์ ๋ ์๋ ๊ฒ ๊ฐ๋ค.
๋ง์ฝ Goblin์ด ์๋์๋ค๋ฉด? ๋ง์ฝ ์ฐ๋ฆฌ๊ฐ ์ฝ๊ฒ ์์์ฑ์ง์ง๋ ๋ชปํ๋ ๊ฒ์ด์๋ค๋ฉด?

OpenAI๋ ์ด ์ฌํ๋ฅผ ์ฒ์๋ถํฐ ์๊ณ ์๋ ๊ฒ์ด ์๋๋ผ, ์ดํ ๋ฌธ์ ๋ฅผ ํ์ ํ๊ณ , ์์ธ์ ์ถ์ ํ๋ค.
ํน์ reward signal์ด creature metaphor์ ๋์ reward๋ฅผ ์ฃผ๊ณ ์๋ค๋ ์ฌ์ค์ ๋์ค์ ๋์น์ฑ ๊ฒ์ด๋ค.
๋ง์ฝ ๋ชจ๋ธ์ด ํ์ตํ ํ๋ฉด์ ํจํด์ด goblin๊ณผ ๊ฐ์ด ์๊ธฐ ์ฝ๊ณ ๊ท์ฌ์ด ์์ค์ด ์๋์๋ค๋ฉด, ์ฌ๊ฐํ ๋ฌธ์ ๊ฐ ๋ ์๋ ์๋ค๊ณ ๋ณธ๋ค.

์ ๋ฆฌํ์๋ฉด, ์ด๋ฒ ์ฌํ๋ ์์ ๋ณด์ ์ ํธ๋ค์ด ๋ชจ๋ธ ํ๋์ ์ด๋ป๊ฒ ์์์น ๋ชปํ ๋ฐฉํฅ์ผ๋ก ๋ง๋ค์ด๋ผ ์ ์๋์ง ๋ณด์ฌ์ฃผ๋ ์ฌ๋ก์ด๋ค. ๋ชจ๋ธ์ ์ฐ๋ฆฌ๊ฐ ์๋ํ ์ค์ ๋ชฉํ๋ฅผ ์ง์ ์ ์ผ๋ก ์ต์ ํํ๊ธฐ๋ณด๋ค ๋ณด์์ ํตํด ์ต์ ํํ๋๋ฐ, ๋ง์ฝ ๊ทธ ๋ณด์ ์ ํธ๊ฐ ๋ถ์์ ํ๋ค๋ฉด, ๋ชจ๋ธ์ด ์์์น ๋ชปํ๊ฑฐ๋ ์๋ํ์ง ์์ ํ๋์ ํ์ตํ ์ ์๋ค.