August 22, 2025 6 minutes
์ธ๊ฐ์ ์ฐ๊ตฌ ๊ณผ์ ์์ ์๊ฐ์ ๋ฐ์ Diffusion ๋ฐฉ์์ผ๋ก ๋ฐ์ ํ AI Deep Research Agent
AI Research Agents
Large Language Models
Test-Time Scaling
Google Cloud AI Researchํ์ด ์ธ๊ฐ์ ์ฐ๊ตฌ ๊ณผ์ ์ ๋ชจ๋ฐฉํ ํ์ ์ ์ธ AI ์ฐ๊ตฌ ์์ด์ ํธ TT**D-DR(Test-Time Diffusion Deep Researcher)**๋ฅผ ๋ฐํํ๋ค. ๊ธฐ์กด Deep Research ์์ด์ ํธ๋ค์ด ๋ณต์กํ ์ฅ๋ฌธ ์ฐ๊ตฌ ๋ณด๊ณ ์ ์์ฑ์์ ๋ณด์ด๋ ์ฑ๋ฅ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ์ธ๊ฐ์ ๊ณํ-์ด์-์์ ๊ณผ์ ์ diffusion ํ๋ก์ธ์ค๋ก ๋ชจ๋ธ๋งํ ๊ฒ์ด ํต์ฌ์ด๋ค. ์ด๊ธฐ “๋ ธ์ด์ฆ๊ฐ ์๋” ์ด์์ ์ ์ง์ ์ผ๋ก ์ ์ ํ๋ denoising ๊ณผ์ ๊ณผ ๊ฐ ๊ตฌ์ฑ์์๋ฅผ ๊ฐ๋ณ์ ์ผ๋ก ์ต์ ํํ๋ self-evolution ์๊ณ ๋ฆฌ์ฆ์ ๊ฒฐํฉํ๋ค. ์คํ ๊ฒฐ๊ณผ OpenAI Deep Research ๋๋น 69.1%~74.5%๋ก ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ ๊ธฐ์กด ์ฐ๊ตฌ ์์ด์ ํธ๋ค์ ํฌ๊ฒ ๋ฐ์ด๋๋ ์ฑ๊ณผ๋ฅผ ๋ณด์๋ค.
์ต๊ทผ ChatGPT, Claude ๊ฐ์ ๋ํ ์ธ์ด ๋ชจ๋ธ๋ค์ด ๋จ์ํ ์ง๋ฌธ๋ต๋ณ์ ๋์ด ๋ณต์กํ ์ฐ๊ตฌ ์์ ๊น์ง ์ํํ๊ธฐ ์์ํ๋ค. ํ์ง๋ง ์ฌ์ ํ ํ๊ณ๊ฐ ๋ช ํํ๋ค. ํนํ Deep Research ์์ -์ฌ๋ฌ ๋จ๊ณ์ ์ ๋ณด ์์ง, ๋ถ์, ์ข ํฉ์ด ํ์ํ ๊ณ ์ฐจ์์ ์ฐ๊ตฌ-์์๋ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋ค.
๋ฌธ์ ์ ํต์ฌ์ ๊ธฐ์กด AI ์ฐ๊ตฌ ์์ด์ ํธ๋ค์ด ์ธ๊ฐ์ ์ค์ ์ฐ๊ตฌ ๊ณผ์ ๊ณผ๋ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์๋ํ๋ค๋ ์ ์ด๋ค. ์ธ๊ฐ ์ฐ๊ตฌ์๋ ์ ํ์ ์ผ๋ก ์ฒซ ๋ฌธ์ฅ๋ถํฐ ๋ง์ง๋ง ๋ฌธ์ฅ๊น์ง ์ฐจ๋ก๋๋ก ์ฐ์ง ์๋๋ค. ๋์ ์ ์ฒด์ ์ธ ๊ณํ์ ์ธ์ฐ๊ณ , ์ด์์ ์์ฑํ ๋ค, ์ถ๊ฐ ์๋ฃ๋ฅผ ์ฐพ์๊ฐ๋ฉฐ ๋ฐ๋ณต์ ์ผ๋ก ์์ ํด๋๊ฐ๋ค.
Google์ ์ฐ๊ตฌํ์ ๋ฐ๋ก ์ด ์ ์ ์ฃผ๋ชฉํ๋ค. ๊ณผ์ฐ AI๋ ์ธ๊ฐ์ฒ๋ผ “์๊ฐํ๊ณ , ์ด์์ ์ฐ๊ณ , ์์ ํ๋” ๋ฐฉ์์ผ๋ก ์ฐ๊ตฌํ ์ ์์๊น?
OpenAI Deep Research, Perplexity Deep Research, Grok DeepSearch ๋ฑ ๊ธฐ์กด์ Deep Research Agents์ ๋๋ถ๋ถ Chain-of-Thought, Monte Carlo Tree Search, self-refinement ๊ฐ์ test-time scaling ๊ธฐ๋ฒ๋ค์ ์กฐํฉํด์ ๋ง๋ค์ด์ก๋ค.
์ด๋ฌํ ์ ๊ทผ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ์ ๋ค์ ๊ฐ์ง๊ณ ์๋ค:
์ธ์ง๊ณผํ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด ์ธ๊ฐ์ด ๋ณต์กํ ์ฃผ์ ์ ๋ํด ๊ธ์ ์ธ ๋๋ ๋ค์๊ณผ ๊ฐ์ ํจํด์ ๋ณด์ธ๋ค:
์ด๋ diffusion model์ด noise๊ฐ ์๋ ์ด๋ฏธ์ง๋ฅผ ์ ์ง์ ์ผ๋ก ์ ์ ํด๋๊ฐ๋ ๊ณผ์ (denoising)๊ณผ ๋งค์ฐ ์ ์ฌํ๋ค.
Diffusion | ์ธ๊ฐ์ ์ฐ๊ตฌ ๊ณผ์ |
---|---|
noise๊ฐ ๋ง์ ์ด๊ธฐ ์ด๋ฏธ์ง | ๋ถ์์ ํ ์ด๊ธฐ ์ด์ |
Denoising ๊ณผ์ | ๋ฐ๋ณต์ ์์ /๊ฐ์ |
์ธ๋ถ ์กฐ๊ฑด๋ถ ์ ๋ณด | ์ฐธ๊ณ ์๋ฃ ๊ฒ์ |
๊ณ ํ์ง ์ต์ข ์ด๋ฏธ์ง | ์ต์ข ์ฐ๊ตฌ ๋ณด๊ณ ์ ์์ฑ |
TTD-DR์ ํต์ฌ ์์ด๋์ด๋ ์ฐ๊ตฌ ๋ณด๊ณ ์ ์์ฑ์ diffusion ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๋ ๊ฒ์ด๋ค.
“We conceptualize the generation of a complex research report as a diffusion process where an initial, noisy draft is progressively refined into a high-quality final output.”
“์ฐ๋ฆฌ๋ ๋ณต์กํ ์ฐ๊ตฌ ๋ณด๊ณ ์ ์์ฑ์ ์ด๊ธฐ์ ๋ ธ์ด์ฆ๊ฐ ์๋ ์ด์์ด ์ ์ง์ ์ผ๋ก ์ ์ ๋์ด ๊ณ ํ์ง์ ์ต์ข ๊ฒฐ๊ณผ๋ฌผ์ด ๋๋ diffusion ๊ณผ์ ์ผ๋ก ๊ฐ๋ ํํ๋ค.”
1. Denoising with Retrieval
2. Self-Evolution
: 3๋จ๊ณ Backbone Model + 2๊ฐ์ง Optimization ๊ธฐ๋ฒ
TTD-DR์ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ 3๋จ๊ณ๋ก ๊ตฌ์ฑ๋๋ค:
Stage 1: Research Plan Generation
Stage 2: Iterative Search and Synthesis
Stage 3: Final Report Generation
๊ฐ ๋จ๊ณ์ ์์ด์ ํธ ์ฑ๋ฅ์ ๊ฐ๋ณ์ ์ผ๋ก ํฅ์์ํค๋ ์๊ณ ๋ฆฌ์ฆ:
*LLM-as-a-judge: ๋ค๋ฅธ LLM์ด ์์ฑํ ํ ์คํธ์ ํ์ง์ ํ๊ฐํ๋ LLM
diffusion model์ sampling ๊ณผ์ ์์ ์๊ฐ์ ๋ฐ์ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ
๊ณ์ ๊ฐ์ ๋๋ ์ด์์ด ๊ฒ์์ ์๋ดํ๊ณ , ๊ฒ์์ด ์ด์์ ์ ์ ํ๋ ์ง์์ ์ธ ํผ๋๋ฐฑ ๋ฃจํ์ด๋ค. ****์ด๋ฅผ ํตํด ๋ณด๊ณ ์์ ์ผ๊ด์ฑ์ ์ ์งํ๋ฉด์ ์ฐ๊ตฌ๊ฐ ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ผ๋ก ์งํ๋๋๋ก ํ๋ค.
ํ๊ฐ ๋ฐ์ดํฐ์ :
ํ๊ฐ ๋ฐฉ๋ฒ:
์์คํ | LongForm Research | DeepConsult | HLE-Search | GAIA |
---|---|---|---|---|
TTD-DR (ours) | 69.1% | 74.5% | 33.9% | 69.1% |
OpenAI Deep Research | - | - | 29.1% | 67.4% |
Perplexity Deep Research | 21.8% | 32.0% | 14.5% | 54.5% |
Grok DeeperSearch | 16.1% | 16.0% | 19.3% | 47.9% |
GPT-Researcher | 18.3% | 9.4% | 2.0% | 37.7% |
TTD-DR์ ์ธ๊ฐ์ ์ธ์ง ๊ณผ์ ์ AI ์์คํ ์ค๊ณ์ ์ฒด๊ณ์ ์ผ๋ก ๋ฐ์ํ ์ฒซ ๋ฒ์งธ ์๋๋ก, ๋จ์ํ ๊ธฐ์กด ๊ธฐ๋ฒ๋ค์ ์กฐํฉํ ๊ฒ์ด ์๋๋ผ, ์ธ์ง๊ณผํ ์ฐ๊ตฌ์์ ๋ฐํ์ง ์ธ๊ฐ์ ๊ธ์ฐ๊ธฐ ํจํด์ diffusion ๊ณผ์ ์ผ๋ก ์ถ์ํํ ๊ฒ์ด ๊ธฐ์ฌํ ๋ถ๋ถ์ด๋ค.
๋ํ test-time scaling์ ์๋ก์ด ํจ๋ฌ๋ค์์ ์ ์ํ๋ค. ๊ธฐ์กด์ ๋จ์ํ ๋ฐ๋ณต์ด๋ ์ํ๋ง ๊ธฐ๋ฒ์ ๋์ด, ๊ตฌ์กฐํ๋ ํผ๋๋ฐฑ ๋ฃจํ์ component-wise ์ต์ ํ๋ฅผ ํตํด ํจ์จ์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ฌ์ฑํ๋ค.
ํ์ฌ OpenAI, Perplexity, Anthropic ๋ฑ์ด ๊ฒฝ์ํ๊ณ ์๋ AI Research Assistant ์์ฅ์ ์๋ก์ด ๊ธฐ์ค์ ์ ์ํ๋ค. ํนํ ๊ธฐ์ ํ๊ฒฝ์์ ์๊ตฌ๋๋ ๋ณต์กํ ์์ฅ ๋ถ์, ๊ธฐ์ ๋ํฅ ์กฐ์ฌ, ์ ๋ต ๊ธฐํ ๋ฑ์ ์์ ์์ ์ค์ง์ ๋์์ ์ค ์ ์๋ ์์ค์ ๋๋ฌํ๋ค.
Google Cloud AI Research์ ์ด๋ฒ ์ฐ๊ตฌ๋ ๊ฒ์ ๋๊ตฌ๋ง์ผ๋ก๋ ์ต๊ณ ์์ค์ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ๋ค๋ ์ ์์ ์ฃผ๋ชฉํ ๋งํ๋ค. ๋ง์ ๊ฒฝ์์ฌ๋ค์ด ๋ค์ํ proprietary tool๋ค์ ํตํฉํ๋ ๋ฐฉํฅ์ผ๋ก ๊ฐ๋ ๋ฐ๋ฉด, ๋ ํจ์จ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ด๋ธ ๊ฒ์ด๋ค.
๋ ผ๋ฌธ์์ ์ ์๋ค์ด ๋ช ์์ ์ผ๋ก ์ธ์ ํ ํ๊ณ์ ๋ค์ด ์๋ค:
ํฅํ ์ฐ๊ตฌ์์๋ multimodal ๋ฅ๋ ฅ ํตํฉ, ๋ ๋ค์ํ ๋๊ตฌ ํ์ฉ, ๊ทธ๋ฆฌ๊ณ ํ๋ จ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ๊ณผ์ ๊ฒฐํฉ์ด ์ฃผ์ ๊ณผ์ ๊ฐ ๋ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค.
TTD-DR์ ๋จ์ํ ์ฑ๋ฅ ์์น๋ฅผ ๊ฐ์ ํ ๊ฒ์ ๋์ด AI ์ฐ๊ตฌ ์์ด์ ํธ ์ค๊ณ์ ๊ทผ๋ณธ์ ํจ๋ฌ๋ค์ ์ ํ์ ์ ์ํ๋ค. ์ธ๊ฐ์ ์ฐ๊ตฌ ๊ณผ์ ์ diffusion ํ๋ก์ธ์ค๋ก ๋ชจ๋ธ๋งํ๊ณ , ์ด์ ์ค์ฌ์ ๋ฐ๋ณต์ ์ ์ (refining) ๋ฐฉ์์ ๋์ ํ ๊ฒ์ ํ์ ์ ์ด๋ค.
ํนํ ๋ณต์กํ ์ถ๊ฐ ๋๊ตฌ ์์ด๋ ์๊ณ ๋ฆฌ์ฆ์ ๊ฐ์ ๋ง์ผ๋ก ๊ธฐ์กด ์์คํ
๋ค์ ์๋ํ ์ ์ ์ธ์์ ์ด๋ค. ์ด๋ AI ์ฐ๊ตฌ์์ “๋ ๋ง์ ๋ฐ์ดํฐ, ๋ ํฐ ๋ชจ๋ธ, ๋ ๋ณต์กํ ๋๊ตฌ"๊ฐ ํญ์ ์ ๋ต์ ์๋ ๊ฒ ๊ฐ๋ค. (๊ทธ๋๋ ์ค์ผ์ผ๋ง ๋ฒ์น ๋ชป ์ฐธ์ง)
ํ์ง๋ง ์ค์ ์์ฉํ ๊ด์ ์์๋ ์ฌ์ ํ ํด๊ฒฐํด์ผ ํ ๊ณผ์ ๋ค์ด ์๋ค. ๋์ ๊ณ์ฐ ๋น์ฉ๊ณผ ์ ํ์ ์ธ ๋๊ตฌ ํ์ฉ์ ํ์ค์ ์ธ ์ ์ฝ์ด๋ค. ๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ TTD-DR์ด ์ ์ํ ๋ฐฉํฅ์ฑ-์ธ๊ฐ์ ์ธ์ง ๊ณผ์ ๋ชจ๋ฐฉ๊ณผ ์ฒด๊ณ์ ์ธ ํผ๋๋ฐฑ ๋ฃจํ-์ ํฅํ AI Research Agent ๋ฐ์ ์ ์ค์ํ ๋ฐํ์ด ๋ ๊ฒ์ด๋ค.
Google Cloud์ ํด๋น ์ฐ๊ตฌ๋ AI๊ฐ ๋จ์ํ ์ง๋ฌธ๋ต๋ณ ๋๊ตฌ๋ฅผ ๋์ด ์ง์ ํ ์ฐ๊ตฌ ํํธ๋๋ก ์งํํ ์ ์๋ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค ์๋ฏธ ์๋ ์ฑ๊ณผ๋ค.