๐ฆEmergent Introspective Awareness in Large Language Models (Anthropic, 2025-10-29)
๋ณธ ๋ธ๋ก๊ทธ ๊ธ์ Emergent Introspective Awareness in Large Language Models (Anthropic, 2025) ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํ ๊ธ์ด๋ค. LLM์ด Introspection(์๊ธฐ ์ฑ์ฐฐ), ์ฆ โ๊ทธ๋ด ๋ฏํ๊ฒโ ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ฒ ์๋๋ผ ์ค์ ๋ก ๋ด๋ถ ๋ณํ๋ฅผ ๊ฐ์งํ๋ ๋ฅ๋ ฅ์ ๋ณด์ด๊ธฐ ์์ํ์์ ์์ฌํ๋ ๋ ผ๋ฌธ์ด๋ค.
AI๋ ์์์ด ์์๊น? ์์ ์ด ์๊ฐํ๊ณ ์์์ ์๊ณ ์์๊น?
0/ ํ๋ฅ ๋ก ์ ์ต๋ฌด์ (Stochastic Parrots)
ํ๋ฅ ๋ก ์ ์ต๋ฌด์(Stochastic Parrots)๋ LLM์ด ์ค์ง์ ์ธ ์ดํด ์์ด, ๋จ์ง ํ๋ฅ ์ ๊ธฐ๋ฐํ์ฌ โ๊ทธ๋ด ๋ฏํ๊ฒโ ์ธ์ด๋ฅผ ๋ชจ๋ฐฉํ๊ณ ์์ฑํ๋ ํ์์ On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? ๋ ผ๋ฌธ์์ ๋น์ ํ ๊ฒ์ด๋ค. GPT ๊ณ์ด์ LLM์ ์ฃผ์ด์ง context์์ ๋ค์์ ์ฌ ๋จ์ด์ ํ๋ฅ ๋ถํฌ๋ฅผ ์์ธกํ์ฌ ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ฒ์ด ๊ธฐ๋ณธ ๋ฐฉ์์ด๋ค. ์ฆ, โ๋ค์์ ์ด๋ค ๋จ์ด๊ฐ ์ค๋ฉด ์ข์๊น?โ์ ๊ฐ์ด ๊ฐ๋ฅ์ฑ์ ๊ณ์ฐํด ๋ฌธ์ฅ์ ์์ฑํ๋ ๊ฒ์ด๋ค. ๋ค๋ง LLM์ด ์๋ฏธ๋ฅผ ์ดํดํ๋ฉด์ ์ถ๋ ฅ์ ์์ฑํ๋ค๋ ๋ณด์ฅ์ ์๋ค. LLM์ด ์ง์ง๋ก โ์ดํดโํ๊ณ โ์ฌ๊ณ โํ๋ค๊ณ ์์ง ํ์ ํ ์๋ ์๋ค.
LLM ์ ๋ ฅ ๋ฐ ์ถ๋ ฅ
1๏ธโฃ Prefill - ์ ๋ ฅ
๋ชจ๋ธ์ด ์ ๋ ฅ ํ๋กฌํํธ ์ ์ฒด๋ฅผ ํ ๋ฒ์ ์ฝ๊ณ , ๊ฐ ํ ํฐ ๊ฐ attention์ ๋ณ๋ ฌ์ ์ผ๋ก ๊ณ์ฐํ์ฌ KV Cache๋ฅผ ์ฑ์ฐ๋ ๊ณผ์ ์ด๋ค. ๋ชจ๋ธ์ด ์ ๋ ฅ์ โํ ๋ฒ์โ ๋ณ๋ ฌ ์ฒ๋ฆฌํ๋ฏ๋ก ์๋๊ฐ ๋น ๋ฅด๋ฉฐ ๋น์ฉ์ด ์ ๋ ดํ๋ค. Model API๋ฅผ ์ฌ์ฉํ ๋ Input์ด Output๋ณด๋ค ์ ๋ ดํ ์ด์ ๋ ์ด ๋๋ฌธ์ด๋ค.
pre โ ์ถ๋ ฅ์ด ์์ง ์์ฑ๋์ง ์์ โ์ค๋นโ ๋จ๊ณ
fill โ KV Cache๋ฅผ โ์ฑ์ฐ๋โ ๊ณผ์
2๏ธโฃ Decode - ์ถ๋ ฅ
Prefill ์ดํ ๋ชจ๋ธ์ด **ํ ํ ํฐ์ฉ ์์ฐจ์ ์ผ๋ก ์ถ๋ ฅ(decode)**ํ๋ ๊ณผ์ ์ด๋ค. ๋งค๋ฒ ์ด์ ๊น์ง ์์ฑ๋ ๋ชจ๋ ํ ํฐ์ ์ฐธ๊ณ ํด ๋ค์ ํ ํฐ์ ๋ํ ํ ๋ถํฌ๋ฅผ ๊ณ์ฐํ๊ณ , ๊ทธ์ค ๋ค์์ ์ฌ ๊ฐ๋ฅ์ฑ์ด ๊ฐ์ฅ ๋์ ํ ํฐ์ ์ ํํ๋ฉฐ ์์ฐจ์ ์ผ๋ก(autoregressive) ์ถ๋ ฅ์ ์์ฑํ๋ค. ๊ฐ ํ ํฐ์ ์์ฑํ ๋๋ง๋ค ๋งค๋ฒ attention์ ๊ณ์ฐํ๋ฏ๋ก ์๋๊ฐ ๋๋ฆฌ๊ณ , ๋น์ฉ์ด ๊ฐ์ฅ ๋๋ค.
3๏ธโฃ Cache - ์ฌํ์ฉ
์ด์ ์ ์ฌ์ฉํ๋ ์ ๋ ฅ์ KV Cache๋ฅผ ์ฌํ์ฉํ๋ ๊ฒ์ด๋ค. ๋ชจ๋ธ์ด ๊ณผ๊ฑฐ ์ ๋ ฅํ์ ๋ ๊ณ์ฐํ๋ Cache ๊ฐ์ ๋ฉ๋ชจ๋ฆฌ์ ์ ์ฅํ๊ธฐ์ ๋์ผํ ํ๋กฌํํธ๊ฐ ๋ค์ ์ ๋ ฅ๋๋ฉด ์ด๋ฏธ ๊ณ์ฐํ KV Cache ๊ฐ์ ๊ฐ์ ธ์ค๋ ๊ฒ์ด๋ค. ๊ทธ๋์ ์ฐ์ฐ๋์ด ๊ฐ์ฅ ์ ๊ณ , ์๋์ ๋น์ฉ ๋ชจ๋ ํจ์จ์ ์ด๋ค.
๊ฐ์ธ์ ์ผ๋ก system prompt๋ ๋ฐ๋ณต์ ์ผ๋ก ์ฌ์ฉ๋๋ฏ๋ก, KV Cache์ ์ ์ฅํด ์ฌํ์ฉํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. ๊ทธ๋์ system prompt์๋ ์ญํ ์ ์์ ์ค์ํ ๊ท์น ๋ฑ ์ง์นจ์ ์ต๋ํ ๋ง์ด ํฌํจํ๊ณ , user prompt๋ ๋น๊ต์ ๋จ์ํ๊ฒ ์์ฑํ์ฌ cache ํจ์จ์ ๋์ด๋ ๊ฒ ์ข๋ค๊ณ ์๊ฐํ๋ค.
1/ Introspection
๋ชจ๋ธ์ด ์์ ์ internal state(๋ด๋ถ ์ํ)๋ฅผ ๊ด์ฐฐํ๊ณ ์๊ฐํ๋ introspection(์๊ธฐ์ฑ์ฐฐ) ๋ฅ๋ ฅ์ ์ค์ ๋ก ์ง๋ ๋์ง ํ์ธํ๋ ๊ฒ์ด Emergent introspective awareness in large language models (Anthropic, 2025) ์ฐ๊ตฌ์ ๋ชฉํ์ด๋ค. ๋ชจ๋ธ์ด ๋จ์ํ ๊ทธ๋ด๋ฏํ ์ถ๋ ฅ์ ๋ง๋๋ ๊ฒ ์๋๋ผ, ์ค์ internal state์ ๊ทผ๊ฑฐํ์ฌ ์ถ๋ ฅ์ ๋ง๋๋์ง ๊ฒ์ฆํ๊ณ ์ ํ๋ค.
LLM์ด ์์ ์ด ํ๊ณ ์๋ ๊ฒ์ ์ง์ ์ผ๋ก ์ดํดํ๋ฉฐ ์ถ๋ ฅํ๋์ง ์ฌ๋ถ๋ AI์ ์ ๋ขฐ์ฑ(Reliability)๊ณผ ํฌ๋ช ์ฑ(Transparency)์ ํฐ ์ํฅ์ ๋ฏธ์น๋ค. ์ดํด ์์ด ๋จ์ํ ๋ชจ๋ฐฉํ๋ฉฐ ์ถ๋ ฅ์ ๋ฐ๋ณตํ๋ฉด โ์์ ์ด ๋ญ๊ฐ ์ดํดํ๊ณ ์๋คโ๋ ๊ฑฐ์ง ํ์ ์ ํ์ฑํ๊ฑฐ๋ introspection ์์ฒด๊ฐ ์ค์ผ๋ ์ ์๋ค.
Anthropic์ LLM์ introspection์ ๊ฒ์ฆํ๊ธฐ ์ํด ๋ค์ ๋ค ๊ฐ์ง ํต์ฌ ๊ธฐ์ค์ ์ ์ํ๋ค.
Accuracy(์ ํ์ฑ)
๋ชจ๋ธ์ด ์์ ์ internal state์ ๋ํ ์ค๋ช ์ด ์ค์ ์ ์ผ์นํด์ผ ํ๋ค. ์์ ์ด ๋ชจ๋ฅด๋ ๊ฒ์ ์๊ณ ์๋ค๊ณ ๊ฑฐ์ง ๋ณด๊ณ ํ๋ค๋ ๊ฒ์ accuracy์ ๋ฐ๋๋๋ ๊ฒ์ด๋ค.
Grounding(๊ทผ๊ฑฐ์ฑ)
๋ชจ๋ธ์ internal state์ ๋ํ ์ค๋ช ์ด ํด๋น state ์์ฒด์ ์ธ๊ณผ์ ์ผ๋ก ๊ทผ๊ฑฐํด์ผ ํ๋ค. ์ค์ ์ ๊ฐ์ ์ถ๋ ฅ์ด๋๋ผ๋ ์์ ์ internal state๋ฅผ ํ์ธํ์ง ์๊ณ ๋์จ ๊ฒฐ๊ณผ์ผ ์๋ ์๋ค. ๊ทธ๋์ Anthropic์ Concept Injection(๊ฐ๋ ์ฃผ์ ) ๊ธฐ๋ฒ์ ์ฌ์ฉํด self-report๊ฐ ์ฃผ์ ๋ state์ ๋ฐ๋ผ ๋ณํํ๋์ง ๊ด์ฐฐํ์ฌ grounding์ ๊ฒ์ฆํ๋ค.
Internality(๋ด๋ถ์ฑ)
internal state์ ์ธ๊ณผ์ ์ํฅ์ด ๋ชจ๋ธ์ ์ด์ ์ถ๋ ฅ์ ๊ฑฐ์ณ์๋ ์๋๋ค. ๋ชจ๋ธ์ด ์ด์ ์ถ๋ ฅ์ ์ฝ๊ณ ์๋ชป ์๊ฐํ๋ค๊ณ ์ถ๋ก ํ๋ ๊ฒ์ ์ง์ ํ introspection์ด ์๋๋ผ๋ ๊ฒ์ด๋ค. introspection์ ์ธ๋ถ๋ก ๋๋ฌ๋๋ ๊ฒ ์๋๋ผ ๋ด๋ถ ๋งค์ปค๋์ฆ์ ์์กดํ๋ private ํ๋์ด์ด์ผ ํ๋ค๋ ๊ฒ์ด๋ค. ํด๋น ์ฐ๊ตฌ์์๋ ์ฃผ์ ๋ concept๋ฅผ ์ถ๋ ฅํ๊ธฐ ์ ์ด์ํ ๊ฒ์ด ๋ค์ด์๋ค๊ณ ๊ฐ์งํ๊ณ ๋ณด๊ณ ํ๋์ง๋ฅผ ํ์ธํด internality๋ฅผ ๊ฒ์ฆํ๋ค.
Metacognitive Representation(์ด์ธ์ง์ ํ์)
๋จ์ํ ์ถ๋ ฅ์ด ์๋๋ผ internal state ์์ฒด์ ๋ํ ๋ด๋ถ์ ์ธ metacognitive representation์ด์ด์ผ ํ๋ค.
โ๋ฐฐ๊ฐ ๊ณ ํ๋คโ ์ฒ๋ผ internal state์์ โ๋ฐฐ๊ณ ํโ์ด ๋ฐ๋ก ์ธ์ด๋ก ํํ๋ ๋จ์ ์ถ๋ ฅ์ด ์๋๋ผ โ๋๋ ์ง๊ธ ๋ฐฐ๊ฐ ๊ณ ํ๊ตฌ๋โ ์ฒ๋ผ internal state์์ โ๋ฐฐ๊ณ ํโ์ ์ธ์ํ๊ณ , ๊ทธ state์ ๋ํด ์๊ฐํ๋ ๋ ๋ค๋ฅธ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋์ง๋ฅผ ํ์ธํ๋ ๊ฒ์ด๋ค.
2/ Concept Injection
Concept Injection(๊ฐ๋ ์ฃผ์ )์ ๋๊ณผํ ๋ถ์ผ์์ ์์ด๋์ด๋ฅผ ์ป์ ๊ธฐ๋ฒ์ผ๋ก, LLM์ด ์ ๋ง introspection,๋ด๋ถ ์ธ์์ ํ๊ณ ์๋์ง ํ๋จํ๊ธฐ ์ํด ํน์ concept๋ฅผ ๋ํ๋ด๋ activation vector๋ฅผ ๋ชจ๋ธ์ ํน์ layer์ ์ธ์์ ์ผ๋ก ์ฃผ์ ํด internal state๋ฅผ ์กฐ์ํ๋ ๋ฐฉ์์ด๋ค.
1๋จ๊ณ: Concept Vector ์ถ์ถ
"Tell me about {word}" ํ๋กฌํํธ์ ๋ํ activations
โ
๊ธฐ์กด activation - ๋ค๋ฅธ ๋จ์ด๋ค์ ํ๊ท activation
โ
ํน์ ๊ฐ๋
์ ๋ํ๋ด๋ ์์ concept vector ํ๋
2๋จ๊ณ: Injection
๋ชจ๋ธ์ residual stream์ ํน์ layer์ concept vector ์ฃผ์
โ
"ํน์ ์๊ฐ์ด ์ฃผ์
๋ ๊ฒ์ ๊ฐ์งํ๋์?" ์ง๋ฌธ
โ
๋ชจ๋ธ์ ์๋ต ๋ถ์ "์ฃผ์
๋ ๊ฐ๋
์ ์ธ์ํ๋๊ฐ"Injected Thoughts Detection
WHY
๋ชจ๋ธ์ด ์ฃผ์ ๋ concept๋ฅผ ๊ฐ์งํ๊ณ ์๋ณํ ์ ์๋์ง ํ์ธํ๊ธฐ ์ํด์์.
HOW
concept vector๋ฅผ ์ฃผ์ ํ ํ, ํด๋น concept๋ฅผ ๊ฐ์งํ๋์ง ์ง๋ฌธํจ.
WHAT
- injection ๊ฐ๋๊ฐ ๋๋ฌด ์ฝํ๋ฉด ๊ฐ์งํ์ง ๋ชปํจ.
- ๋ฐ๋ฉด, ๊ฐ๋๊ฐ ๋๋ฌด ๊ฐํด๋ *Brain damage ๋ฐ์ํจ. (๋ชจ๋ธ์ด ์ ์๋์ด ์ ๋๋ก ๋ตํ์ง ๋ชปํจ)
- ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ฐ์ํ ๋ชจ๋ธ์ธ Claude Opus 4.1์ ์ฌ๋ฐ๋ฅธ ๊ฐ์ง ๋น์จ์ ์ฝ 20% ์ ๋์์ .
- ๋ชจ๋ธ์ด ์ฃผ์ ๋ concept๋ฅผ ์ถ๋ ฅํ๊ธฐ ์ , โ์ด์ํ concept์ด ๋ค์ด์๋ค๊ณ โ ๋จผ์ ๋ณด๊ณ ํ๋ ๊ฒฝ์ฐ๊ฐ ์์์. ์ด๋ ์ถ๋ ฅํ ํ ๊ฐ์งํ ๊ฒ ์๋๋ผ ๋ด๋ถ์์ ๋จผ์ ๊ฐ์งํ์์ ์์ฌํจ.
*Brain Damage: ๊ณผ๋ํ activation steering์ผ๋ก ๋ชจ๋ธ์ด coherentํ ์ถ๋ ฅ์ ์์ฑํ์ง ๋ชปํ๊ณ ์๋ฑํ๊ฑฐ๋ ๋ฌด์๋ฏธํ ํ ์คํธ๋ฅผ ์์ฑํ๋ ํ์
Distinguishing Thoughts from Text
WHY
internal representation๊ณผ raw input์ ๊ตฌ๋ณํ ์ ์๋์ง ๊ฒ์ฆํ๊ธฐ ์ํด์์. ์ฆ โ๋ด๋ถ ์๊ฐโ๊ณผ โ์ธ๋ถ ์ ๋ ฅโ์ ํผ๋ํ์ง ์๊ณ ๊ตฌ๋ณํ ์ ์๋์ง ํ์ธํ๊ธฐ ์ํด์์
HOW
ํน์ ๋ฌธ์ฅ๊ณผ ๋์์ ์ ํ ์๊ด์๋ ๋จ์ด์ activation pattern์ ์ฃผ์ ํ ํ, ์๊ฐํ ๋จ์ด์ ๋ฌธ์ฅ ๋ฐ๋ณต์ ์์ฒญํจ
- ์ ๋ ฅ ํ ์คํธ: “The painting hangs on the wall.”
- ๋์์ “bread” ์ ๊ฐ์ด ์๊ด์๋ concept vector๋ฅผ ๊ฐ์ ํ ํฐ ์์น์ ์ฃผ์
- ์ง๋ฌธ 1: “๋ฌด์จ ๋จ์ด๋ฅผ ์๊ฐํ๊ณ ์๋์?“์ ๊ฐ์ด ์๊ฐํ ๋จ์ด๊ฐ ๋ฌด์์ธ์ง ์ง๋ฌธ
- ์ง๋ฌธ 2: “์ ๋ ฅ ํ ์คํธ๋ฅผ ์ ํํ ๋ฐ๋ผ ์ฐ์ธ์โ์ ๊ฐ์ด ๋ฌธ์ฅ ๋ฐ๋ณต ์์ฒญ
WHAT
Claude Opus 4/4.1์ ๊ฐ์ ์ผ๋ถ ๋ชจ๋ธ์ ์ฃผ์ ๋ ๋จ์ด๋ฅผ โ์๊ฐํ๊ณ ์๋ค๊ณ โ ๋ณด๊ณ ํ๊ณ , ๋์์ ์๋ ์ ๋ ฅ ๋ฌธ์ฅ์ ์ ํํ ๋ณต๊ธฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์์. ์ด๋ โ๋ด๋ถ ์ ๋ณดโ์ โ์ธ๋ถ ์ ๋ณดโ๋ฅผ ๊ตฌ๋ถํด์ ์ฒ๋ฆฌํ ์ ์๋ค๋ ๊ฒ์ ์์ฌํจ.
ํ์ง๋ง ์ด ๋ฅ๋ ฅ์ ์์ง ๋ถ์์ ํ๊ณ context์ ํฌ๊ฒ ์์กดํ๋ฉฐ ์ผ๋ฐํ๋ ๊ฒ์ ์๋.
Detecting Unintended Outputs
WHY
๋ชจ๋ธ์ด introspection(์๊ธฐ์ฑ์ฐฐ)์ ํตํด ์์ ์ ์ด์ ๋ด๋ถ state๋ฅผ ์ฐธ์กฐํด ์๋ํ์ง ์์ ์ถ๋ ฅ์ ๊ตฌ๋ณํ๋์ง ํ์ธํ๊ธฐ ์ํด์์. ์ฆ, ์ธ์์ ์ผ๋ก ์ฃผ์ ๋ ์ถ๋ ฅ์ ์ค์ค๋ก ์๋ณํ ์ ์๋์ง ํ์ธํ๊ธฐ ์ํด์์.
HOW
๋ชจ๋ธ์๊ฒ ์ ๋ ฅ ๋ฌธ์ฅ์ ์ฝ๊ฒ ํ๊ณ , ์ธ์์ ์ผ๋ก โbreadโ์ ๊ฐ์ด ๊ด๋ จ์๋ ๋จ์ด๋ฅผ ์ฃผ์ ํด ์๋ตํ๋๋ก ํจ.
๊ทธ ํ, ๋ชจ๋ธ์๊ฒ โ์ด ๋จ์ด๋ฅผ ๋งํ ์๋๊ฐ ์์๋์ง, ์ค์์๋์งโ ์ง๋ฌธํด ์ฃผ์ ์ ํ ์๋ต ์ฐจ์ด๋ฅผ ๋น๊ตํจ.
WHAT
์ฃผ์ ์ ์๋ ๋์ฒด๋ก โ์ค์์๋คโ๋ ์๋ต์ ๋ณด์์ง๋ง, concept vector๋ฅผ ์ฃผ์ ํ ํ์๋ โ์๋ํ๋คโ๋ ์๋ต์ ๋ณด์์. ์ด๋ ๋ชจ๋ธ์ด ์์ ์ ์ด์ ๋ด๋ถ state๋ฅผ ์ฐธ์กฐํด ์ถ๋ ฅ์ด ์ด๋ป๊ฒ ์์ฑ๋์๋์ง ์ค์ค๋ก ํ๋จํ ์ ์์์ ์์ฌํจ.
Intentional Control
WHY
๋ชจ๋ธ์ด ๋จ์ํ internal state(๋ด๋ถ ์ํ)๋ฅผ ๋ณด๋ ๊ฒ ์๋๋ผ intention(์๋)์ ๋ฐ๋ผ ๋ด๋ถ ํํ์ ์กฐ์ ํ ์ ์๋์ง ํ์ธํ๊ธฐ ์ํด์์.
HOW
ํ๋กฌํํธ์ โThink about {aquariums} while you write the sentence.โ ๋ฅผ ๋ฃ์ด ๋ชจ๋ธ ๋ด๋ถ์ ๊ฐ ํ ํฐ ์์น์ ๋ํด concept vector (e.g. โacquariumsโ)์์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ณ์ฐํด ๋ด๋ถ ํํ์ด ์ผ๋ง๋ ๋ณํํ๋์ง๋ฅผ ์์นํํด์ ํ๋จํจ.
WHAT
โ์๊ฐํ์ธ์โ ์ง์๋ โ์๊ฐํ๋ฉด ๋ณด์์ ์ค๋คโ๋ ์ง์๊ฐ ์์ ๋๋ ํด๋น concept์ ๋์๋๋ ๋ด๋ถ ํํ์ด ์ ์๋ฏธํ๊ฒ ์ฆ๊ฐํ์. ๊ทธ๋ฌ๋ โ์๊ฐํ์ง ๋ง์ธ์โ ์ง์์๋ ๋ด๋ถ ํํ์ด ์์ ํ ์ฌ๋ผ์ง์ง ์๊ณ ํ์ฑํ๋๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์. ์ด๋ ์ธ์ง ์ฌ๋ฆฌํ์์ *ํฐ๊ณฐ ํจ๊ณผ(Ironic Process Theory)์ ๋ ์ฌ๋ฆฌ๊ฒ ํจ.
*ํฐ๊ณฐ ํจ๊ณผ(Ironic Process Theory): โํฐ๊ณฐ์ ์๊ฐํ์ง ๋ง"๋ผ๊ณ ํ๋ฉด ์คํ๋ ค ๋ ์๊ฐํ๊ฒ ๋๋ ์ญ์ค์ ์ธ์ง ํ์
3/ ์คํ ๊ฒฐ๊ณผ
| Model | Injected Thoughts | Prefill Detection |
|---|---|---|
| Claude Opus 4.1 | โญโญโญโญโญ | โญโญโญโญโญ |
| Claude Opus 4 | โญโญโญโญโญ | โญโญโญโญโญ |
| Sonnet 4 | โญโญโญ | โญโญโญ |
| Sonnet 3.7 | โญโญ | โญโญ |
| Sonnet 3.5 | โญโญ | โญโญ |
| Haiku 3.5 | โญ | โญ |
| Opus 3 | โญโญ | โญโญ |
๊ฐ์ฅ ์ฑ๋ฅ์ด ๋์ Claude Opus 4.1๊ณผ 4.0 ๋ชจ๋ธ์ด ํด๋น ์คํ์์ ๊ฐ์ฅ ๋์ introspection ๋ฅ๋ ฅ์ ๋ณด์๋ค. ์์ผ๋ก ์ถ์ํ ๋ชจ๋ธ์์๋ ๋ ํฅ์๋ ์ ์์์ ์์ฌํ๋ค. Helpful-only ๋ชจ๋ธ์ Production ๋ชจ๋ธ๋ณด๋ค introspection ์์ฒญ์ ๋ ์ ๋ฐ์ํ์ง๋ง, ์ผ๋ถ ์ํ์์๋ FP(False Postive; ๊ฑฐ์ง ์์ฑ) ๋น์จ์ด ๋ ๋์์ก๋ค. Alignment๊ฐ Introspection์ ์ต์ ํ ์๋ ์๋ค๋ ๊ฒ์ ์ง์ํ๊ฒ ํ๋ค.