AI May 22, 2026 7 min read

Weights, Prompts, Codes as Parameters

가중치·프롬프트·코드를 정책공간의 서로 다른 층위 파라미터로 보는 관점

#AI #Agent #LLM #POMDP #DSPy #Harness #Self-Improvement #RL

지금의 에이전트 시스템을 이해하는 출발점은 거의 모든 문제가 넓은 의미에서 POMDP의 형태를 띤다는 점이다. 에이전트는 세계의 실제 상태를 완전히 관측하지 못한다. 제한된 컨텍스트, 검색 결과, 실행 로그, 도구 호출 결과, 사용자 피드백, 외부 메모리, 코드 실행 결과 같은 부분적 신호로 현재 상태에 대한 믿음을 구성한다. POMDP의 고전적 정식화에서도 핵심은 완전한 상태가 주어지지 않는 조건에서 관측 이력과 믿음 상태를 바탕으로 행동을 선택하는 데 있다(Kaelbling, Littman, and Cassandra 1998). 강화학습의 표준 틀 역시 에이전트를 환경과 상호작용하면서 정책을 개선하는 시스템으로 다루며, 보상과 경험으로 행동 선택이 조정된다는 점을 강조한다(Sutton and Barto 2018). 이 관점에서 에이전트의 성능은 모델 내부 지식의 양만으로 설명되지 않는다. 불완전한 관측을 어떤 상태 표현으로 압축하고, 그 위에서 어떤 행동을 선택하며, 그 결과를 다음 판단에 어떻게 반영하는가에 따라 좌우된다.

이때 파라미터, 프롬프트, 코드는 서로 다른 층위의 산물이지만, 모두 학습 가능한 시스템의 정책공간 위에 놓인 넓은 의미의 파라미터다. 모델 파라미터는 대규모 학습으로 형성된 암묵적 정책이고, 프롬프트는 그 정책을 특정 상황과 과업에 맞게 조건화하는 자연어 파라미터이며, 코드는 추론 절차, 행동 절차, 상태 갱신, 검증 조건을 실행 가능한 형태로 외부화한 절차적 파라미터다. Code as Agent Harness는 코드가 LLM의 최종 산출물에 머물지 않고 에이전트의 추론, 행동, 환경 모델링, 실행 기반 검증을 조직하는 운영 기판이 된다고 설명한다(Ning et al. 2026). 같은 논문은 하니스를 도구, API, 샌드박스, 메모리, 검증기, 권한 경계, 실행 루프, 피드백 채널이 결합된 소프트웨어 층위로 규정하며, 코드가 이 하니스의 중심 매체라고 본다.

탐색의 공간이 파라미터 → 프롬프트 → 코드 순으로 열린 것은 각 층위의 조정 비용, 피드백 속도, 검증 가능성, 위험 범위가 달랐기 때문이다. 파라미터 공간은 손실 함수와 역전파로 가장 먼저 수학적으로 정식화됐고, 대규모 데이터와 GPU 학습 체계가 결합되면서 산업화됐다. DQN은 딥러닝과 강화학습의 결합이 복잡한 제어 문제에서 정책 학습의 강력한 경로가 될 수 있음을 보였고, PPO는 정책 최적화를 더 안정적으로 수행하기 위한 대표적 알고리즘으로 자리 잡았다(Mnih et al. 2015; Schulman et al. 2017). 이 단계에서 학습 가능한 것은 주로 모델 내부의 가중치였고, 시스템 바깥의 프롬프트나 실행 절차는 상대적으로 고정된 조건처럼 취급됐다.

프롬프트 공간은 거대 모델이 충분히 일반적인 능력을 갖춘 뒤, 가중치를 바꾸지 않고도 입력 조건만으로 행동 분포를 크게 바꿀 수 있다는 사실과 함께 열렸다. ReAct는 추론 trace와 환경 행동을 교차시켜 모델이 계획을 갱신하고 외부 지식원이나 환경과 상호작용하게 만들었고, Tree of Thoughts는 단일 좌향 생성 대신 여러 reasoning path를 탐색하고 self-evaluation으로 선택하는 구조를 제안했다(Yao et al. 2022; Yao et al. 2023). Reflexion은 가중치 업데이트 없이 언어적 피드백을 episodic memory에 저장해 다음 trial의 의사결정을 개선하는 방식을 제시했고, Self-Refine은 하나의 LLM이 생성, 피드백, 수정을 반복하는 테스트타임 개선 구조를 보였다(Shinn et al. 2023; Madaan et al. 2023). 이 흐름이 보여주는 것은 프롬프트와 언어적 메모리가 피드백에 의해 반복적으로 조정되는 정책 조건으로 기능할 수 있다는 점이다.

프롬프트가 학습 가능한 정책 변수라는 점은 DSPy에서 더 명확해진다. DSPy는 hard-coded prompt template에 의존하는 LM pipeline을 declarative module과 compiler 기반의 self-improving pipeline으로 바꾸며, 주어진 metric을 최대화하도록 pipeline을 최적화한다고 설명한다(Khattab et al. 2023). 이 접근에서 프롬프트는 손으로 다듬는 문장이 아닌, 모듈·데모·instruction·augmentation·reasoning technique이 결합된 프로그램의 한 부분이다. 중요한 전환은 프롬프트가 자연어로 된 표면이면서도 데이터와 메트릭에 의해 반복적으로 컴파일될 수 있다는 점이다. 프롬프트 공간은 모델 가중치를 건드리지 않고 작동하는 빠른 적응의 매니폴드다.

코드 공간이 본격적으로 열린 것은 모델의 코드 생성 능력, 안전한 실행 환경, 테스트, 로그, 롤백, 권한 경계가 함께 성숙했기 때문이다. 프롬프트가 텍스트 조건을 조정한다면, 코드는 환경과 직접 상호작용하는 실행 가능한 정책 표면을 조정한다. AutoHarness는 작은 수의 반복적 코드 refinement와 환경 피드백으로 LLM 주변의 code harness를 자동 합성할 수 있음을 보였고, Meta-Harness는 source code, score, execution trace에 접근하는 outer-loop가 harness code를 탐색하는 구조를 제안했다(Lou et al. 2026; Lee et al. 2026). Arize의 RAG recall 개선 사례는 코드 기반 파이프라인에서 청킹, 검색, 리랭킹, 인덱싱 전략이 모두 평가 루프에 의해 탐색되는 절차적 변수로 작동할 수 있음을 보여주는 엔지니어링 사례다(Arize AI 2026).

이 과정을 계층적 매니폴드로 보면 더 선명해진다. 가장 낮은 층위에는 모델 가중치가 만드는 고차원 파라미터 매니폴드가 있고, 그 위에는 프롬프트가 만드는 조건화 매니폴드가 있으며, 더 바깥에는 코드와 하니스가 만드는 실행 절차의 매니폴드가 있다. 각 층위는 에이전트의 행동 분포를 바꾸지만, 움직임의 비용과 속도와 검증 가능성이 다르다. 빠른 문제는 프롬프트 공간에서 처리되고, 반복되는 절차적 실패는 코드 공간에서 처리되며, 넓은 일반화 결함은 파라미터 공간의 장기 업데이트로 남는다. 자기개선의 본질은 단일 공간에서의 최적화보다, 실패 신호를 보고 어느 매니폴드에서 이동할지를 선택하는 문제에 가깝다.

파라미터와 하이퍼파라미터, 정책과 메타정책의 구분도 이 관점에서는 절대적이지 않다. 어떤 층위에서는 고정된 조건처럼 보이는 것이, 한 단계 위의 학습 루프에서는 조정 가능한 변수로 나타난다. 모델 학습 안에서는 학습률이나 라우팅 규칙이 하이퍼파라미터처럼 보이지만, 메타러닝이나 AutoML의 관점에서는 그것들도 다시 최적화 대상이 된다. 태스크 수행 정책 역시 한 층위에서는 주어진 규칙이지만, 자기개선 루프에서는 그 정책을 어떻게 바꿀지 결정하는 메타정책의 입력이 된다. 결국 구분은 현재 시스템을 어떤 추상화 경계에서 바라보는가에 따라 생기며, 경계 바깥에 있던 조건이 학습 루프 안으로 들어오는 순간 그것은 넓은 의미의 파라미터가 된다.

자기개선은 이 계층적 정책공간에서 일어나는 탐색과 적응의 과정이다. 에이전트는 현재의 파라미터, 프롬프트, 코드로 표현된 정책에 따라 행동하고, 그 결과로 얻은 불완전한 피드백을 받아 어떤 표현을 바꿔야 다음 실행이 나아질지 추정한다. 테스트 통과 여부, 검색 성능, 실행 실패율, 비용, 지연시간, 인간 선호, 회귀 여부 같은 신호는 완전한 보상 함수가 아니지만, 후보들 사이의 상대적 우열은 드러낼 수 있다. 이 비교 신호가 반복되면 에이전트는 단일 문제의 답을 고치는 수준을 넘어 문제를 푸는 방식 자체를 조정한다. 자기개선의 핵심은 더 많은 표현을 학습 가능한 변수로 포섭하고, 그 변수들을 피드백에 따라 재구성하는 데 있다.

하니스는 이 자기개선이 일어날 수 있는 실행 가능한 경계다. 하니스는 파라미터, 프롬프트, 코드가 결합되는 장소이고, 관측·행동·상태 저장·검증·재시도·롤백을 하나의 폐루프로 묶는다. 코드가 하니스로 작동한다는 말의 함의는 에이전트가 코드를 산출한다는 차원을 넘어선다. 자기 자신 또는 다른 에이전트가 무엇을 보고, 무엇을 실행하고, 어떤 실패를 감지하며, 어떤 조건에서 멈출지를 코드로 규정한다는 뜻이다. 그래서 에이전트가 코드를 수정하는 일은 기능 수정이면서 동시에 정책공간의 좌표를 바꾸는 일이다. Voyager가 Minecraft에서 자동 커리큘럼, 실행 가능한 코드 스킬 라이브러리, 환경 피드백과 execution error를 반영하는 iterative prompting을 결합했다는 점은 경험이 재사용 가능한 정책 조각으로 외부화되는 방식을 보여준다(Wang et al. 2023).

멀티모델 오케스트레이션은 이 구조를 모델 선택의 차원으로 확장한다. Sakana AI의 Fugu는 여러 기초모델을 조정하는 multi-agent orchestration system으로 소개되며, 중요한 점은 단일 모델이 모든 문제를 직접 푸는 구조보다 어떤 모델을 언제 호출하고 어떤 협업 구조를 구성할지를 학습하는 구조에 있다(Sakana AI 2026). MoE는 이러한 정책 선택을 모델 내부에서 강결합한 형태이고, 외부 모델 풀을 대상으로 한 라우팅은 같은 문제를 더 느슨한 시스템 수준에서 푼다. 진화 알고리즘과 메타러닝은 여기서 한 단계 더 나아가, 정책공간을 탐색하는 절차 자체를 학습 대상으로 삼는다. OpenAI의 Evolution Strategies 작업도 같은 맥락에 있다. 진화적 탐색이 강화학습의 대안적 최적화 경로가 될 수 있음을 보여주는 배경 문헌이다(Salimans et al. 2017).

적응과 제어는 이 구조 안에서 동시에 필요하다. 적응은 경계 바깥에 있던 조건들을 학습 가능한 변수로 끌어들이며, 프롬프트, 코드, 하니스, 평가 루프, 탐색 절차까지 조정 대상으로 확장한다. 제어는 그 이동이 발산하지 않도록 샌드박스, 테스트, 버전 관리, 롤백, 권한 경계, 인간 승인 같은 장치를 제공한다. 적응만 있으면 시스템은 약한 오라클에 과적합하거나 회귀를 만들 수 있고, 제어만 있으면 환경 변화에 맞춰 구조를 바꾸지 못한다. 좋은 에이전트 하니스는 통제된 적응을 가능하게 하는 구조다. 파라미터, 프롬프트, 코드가 결합된 정책공간 위에서 탐색과 적응이 반복되도록 만드는 실행 가능한 폐루프.

참고문헌

Arize AI. 2026. "How Arize Skills Improved RAG Recall from 39% to 75% in 8 Hours." Arize AI Blog.

Kaelbling, Leslie Pack, Michael L. Littman, and Anthony R. Cassandra. 1998. "Planning and Acting in Partially Observable Stochastic Domains." Artificial Intelligence 101 (1–2): 99–134.

Khattab, Omar, et al. 2023. "DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines." arXiv 2310.03714.

Lee, Yoonho, et al. 2026. "Meta-Harness: End-to-End Optimization of Model Harnesses." arXiv 2603.28052.

Lou, Xinghua, et al. 2026. "AutoHarness: Improving LLM Agents by Automatically Synthesizing a Code Harness." arXiv 2603.03329.

Madaan, Aman, et al. 2023. "Self-Refine: Iterative Refinement with Self-Feedback." arXiv 2303.17651.

Mnih, Volodymyr, et al. 2015. "Human-Level Control through Deep Reinforcement Learning." Nature 518: 529–533.

Ning, Xuying, et al. 2026. "Code as Agent Harness: Toward Executable, Verifiable, and Stateful Agent Systems." arXiv.

Sakana AI. 2026. "Sakana Fugu: A Multi-Agent Orchestration System as a Foundation Model."

Salimans, Tim, et al. 2017. "Evolution Strategies as a Scalable Alternative to Reinforcement Learning." OpenAI Research.

Schulman, John, et al. 2017. "Proximal Policy Optimization Algorithms." arXiv 1707.06347.

Shinn, Noah, et al. 2023. "Reflexion: Language Agents with Verbal Reinforcement Learning." arXiv 2303.11366.

Sutton, Richard S., and Andrew G. Barto. 2018. Reinforcement Learning: An Introduction. 2nd ed. Cambridge, MA: MIT Press.

Wang, Guanzhi, et al. 2023. "Voyager: An Open-Ended Embodied Agent with Large Language Models." arXiv 2305.16291.

Yao, Shunyu, et al. 2022. "ReAct: Synergizing Reasoning and Acting in Language Models." arXiv 2210.03629.

Yao, Shunyu, et al. 2023. "Tree of Thoughts: Deliberate Problem Solving with Large Language Models." arXiv 2305.10601.