
1. Kimi Agent Internals란?
2025년 7월, GitHub에 공개된 kimi-agent-internals 레포지토리(186 stars, 50 forks)는 중국 Moonshot AI의 Kimi K2.5 에이전트 시스템의 내부 아키텍처를 역공학 분석한 자료다. Claude Code의 도움으로 진행된 이 분석은 AI 에이전트 설계의 새로운 패러다임을 보여준다.
핵심 발견: Tool-Use에서 Environment로의 전환
전통적인 AI 에이전트는 Tool-Use Architecture를 따른다. 모델에게 discrete한 함수 API(web_search, code_execute 등)를 제공하고, 모델이 이를 호출하는 stateless 방식이다.
Kimi K2.5는 완전히 다른 접근을 취한다: Environment Architecture. 모델에게 discrete API 대신 범용 컴퓨팅 환경(persistent filesystem, browser automation, process execution)을 제공한다. 모델이 API consumer가 아닌 OS user로 작동하는 것이다.
| 구분 | Tool-Use Architecture | Environment Architecture (Kimi) |
|---|---|---|
| 패러다임 | API 호출 | 환경 탐색 |
| 상태 관리 | Stateless | Persistent |
| 전문화 방식 | 특화 도구 추가 | SKILL.md 문서 주입 |
| 제한 방식 | API 권한 제어 | 파일시스템/네트워크 격리 |
2. 에이전트 타입 분류 체계
Kimi 플랫폼은 6가지 에이전트 타입으로 구성되며, 크게 3계층으로 분류된다:
2.1 Base Chat Layer (kimi.com/chat)
- K2.5 Instant: 빠른 응답 최적화
- K2.5 Thinking: 추론 집약적 작업
- Kimi K2 (deprecated): 레거시 모델
특징: 턴당 최대 10 tool calls, 스킬 로딩 없음, read-only 파일시스템
2.2 Agentic Layer (kimi.com/agent)
- OK Computer: 범용 에이전트 (베이스라인)
- Docs: 문서 생성 특화 (DOCX/PDF)
- Sheets: 스프레드시트 특화 (XLSX)
- Websites: 웹앱 빌딩 특화
- Slides: 프레젠테이션 특화 (PPTX)
특징: 무제한 tool calls, 런타임 스킬 주입, persistent workspace
2.3 Research Layer
- K1-Researcher: 연구 에이전트
- Agent Swarm: ~100개 에이전트, 1,500 스텝, PARL 학습
3. 4계층 인프라스트럭처 스택
Kimi의 런타임은 4개 계층으로 구성된 정교한 아키텍처를 가진다:
Layer 1: Control Plane
- 구현: kernel_server.py (10KB, FastAPI)
- 포트: 8888
- 역할: 커널 생명주기 관리, 상태 확인, 오케스트레이션
Layer 2: Compute Engine
- 구현: jupyter_kernel.py (17KB)
- 통신: ZeroMQ IPC 소켓
- 제한: 30분 타임아웃, 500MB 메모리
- PID 범위: 300-400
Base Chat은 이 계층에서 10-step budget 제한을 적용받는다.
Layer 3: Web Tools
- 구현: browser_guard.py (41KB)
- 브라우저: Playwright + Chromium 120.x
- 포트: 9222/9223 (DevTools Protocol)
- 보안: Stealth mode, anti-detection 적용
Layer 4: User Workspace
두 가지 워크스페이스가 존재한다:
| 워크스페이스 | 경로 | 권한 | 용도 |
|---|---|---|---|
| Base Chat | /mnt/kimi/ | Read-only | 임시 작업 |
| OK Computer | /mnt/okcomputer/ | Read-write | 영구 저장 |
Chrome 프로필: chrome_data/ 디렉토리에 272개 파일, 15개 서브디렉토리로 stateful 브라우저 세션 유지
4. Skill vs Persona: 두 가지 전문화 패턴
Kimi는 에이전트를 전문화하는 두 가지 완전히 다른 패턴을 사용한다. 이것이 이 아키텍처의 가장 혁신적인 부분이다.
4.1 Skill Scaffolding (Docs, Sheets, Websites)
메커니즘: OK Computer 아이덴티티를 유지하면서 SKILL.md 문서를 런타임에 주입
경로: /app/.kimi/skills/{skill_name}/SKILL.md
예시: 스프레드시트 요청 시 /app/.kimi/skills/xlsx/SKILL.md (925줄) 자동 로딩
- Excel 365 vs 2019 호환성 규칙
- 수식 검증 (FILTER/XLOOKUP/LAMBDA → INDEX/MATCH 대안)
- 스타일링 컨벤션
- KimiXlsx 바이너리 사용법
특징:
- 성격/커뮤니케이션 스타일은 동일 (OK Computer)
- 도메인 지식만 다름
- 객관적 정확성 기준으로 검증 가능 (수식 작동/비작동)
4.2 Persona Replacement (Slides)
메커니즘: OK Computer 아이덴티티 자체를 완전히 교체
"You are a McKinsey consultant with 20 years of experience..."
특징:
- 베이스 프롬프트 전체 교체
- 성격, 워크플로우, 미학 모두 다름
- 주관적 품질 기준 (미학적 선택은 이진적이지 않음)
왜 이 구분이 중요한가?
| 작업 유형 | 품질 기준 | 적합한 패턴 | 이유 |
|---|---|---|---|
| 스프레드시트 | 객관적 | Skill | 수식이 작동하거나 안 하거나 |
| 문서 | 객관적 | Skill | 포맷이 올바르거나 깨지거나 |
| 프레젠테이션 | 주관적 | Persona | 미학적 선택에 정답 없음 |
Slides에 SKILL.md가 없는 이유: 창의적 판단을 절차로 인코딩할 수 없다. "McKinsey 미학"을 규칙으로 명세할 수 없다. 대신 전문가의 사고방식 자체를 주입한다.
5. Persona가 제공하는 4가지 차원
Slides 에이전트의 McKinsey 페르소나가 주입하는 것:
5.1 미학적 방향 (Aesthetic Direction)
- Clean, hierarchical, data-driven visual language
- 정보 밀도와 명확성 사이의 균형
- "Less is more" but "Every pixel earns its place"
5.2 워크플로우 권위 (Workflow Authority)
- 도구를 사용하는 기술자가 아닌 전문가로서 제시
- "이렇게 하세요" vs "이것이 최선입니다"
5.3 디자인 철학 (Design Philosophy)
- 밀도 / 명확성 / 임팩트 삼각형
- CEO의 5분을 위한 슬라이드 설계
5.4 커뮤니케이션 표준 (Communication Standard)
- 컨설턴트 기대에 맞는 톤/구조
- 권위 있으면서 접근 가능
6. Slides 에이전트의 3단계 워크플로우
Persona 기반 에이전트의 실제 작동 방식:
Step 1: Design Analysis
사용자 요청 → 컨설턴트 관점 분석 → Markdown 디자인 문서 생성
- "이 요청이 무엇을 달성하려 하는가?"
- "청중은 누구인가?"
- "핵심 메시지는 무엇인가?"
Step 2: Content Planning
generate_slides_outline 도구 → 대화형 개요 생성 → 사용자 승인
- "3슬라이드로 할까요, 5슬라이드로 할까요?"
- "차트를 포함할까요?"
Step 3: Rendering
HTML 생성 → CSS 스타일링 → slides_generator → PPTX 변환
실제 코드가 아닌 시각적 결과물에 집중
7. 시스템 프롬프트 진화의 역사
Kimi의 프롬프트 아키텍처는 3단계 진화를 거쳤다:
Phase 1 (2024): Static Prompts
- 고정된 시스템 프롬프트
- 파인튜닝에 의존
- "모델이 알아서 하게 하자"
Phase 2 (2025): Instruction-Heavy Prompts
- Constitutional AI 스타일
- 상세한 지시사항 나열
- "모든 규칙을 명시하자"
Phase 3 (2026): Modular Skill Injection
- SKILL.md 시스템
- 런타임 문서 주입
- "필요할 때 지식을 로드하자"
핵심 통찰: Connectivity(도구/파일시스템 접근)와 Cognition(스킬/컨텍스트/전문성)의 분리. 새 기능 = 문서 작성 → 에이전트 전문가화.
8. 보안 모델과 격리
네트워크 격리
- 직접 외부 HTTP 요청 불가
- 모든 웹 접근은 브라우저 도구 경유
리소스 제한
- 30분 타임아웃
- 500MB 메모리 상한
- 컨테이너 탈출 불가 (샌드박스 실행)
파일시스템 권한
- Base Chat: /mnt/kimi/ (read-only)
- OK Computer: /mnt/okcomputer/ (read-write, persistent)
Chrome 보안 정책
- SafeBrowsing 비활성화 (anti-detection)
- ImageMagick PDF/PS 처리 비활성화
- 특정 브라우저 플래그 설정
TL;DR
- Kimi K2.5는 Tool-Use 아키텍처를 넘어 Environment Architecture로 전환, 모델이 OS user로 작동
- 4계층 인프라: Control Plane(FastAPI) → Compute Engine(Jupyter) → Web Tools(Playwright) → User Workspace
- 6가지 에이전트 타입: Base Chat(3) + Agentic(5), 각각 다른 권한과 기능
- 두 가지 전문화 패턴: Skill Scaffolding(객관적 작업) vs Persona Replacement(주관적 작업)
- SKILL.md 시스템: 런타임에 도메인 지식 주입, 모델 재학습 없이 전문화
- 보안: 네트워크 격리, 리소스 제한, 파일시스템 권한 분리
참고 링크
'AI' 카테고리의 다른 글
| Mistral Vibe 2.0 완벽 가이드 — 터미널 네이티브 AI 코딩 에이전트 마스터하기 (0) | 2026.02.08 |
|---|---|
| Kimi K2.5 에이전트 아키텍처 완벽 해부 2편 - 도구 체계와 실행 흐름 (0) | 2026.02.08 |
| 2026년 로컬 OCR 벤치마크 - GLM, DeepSeek, LightOn, Paddle, Apple ML 완벽 비교 (0) | 2026.02.08 |
| OpenClaw Tools & Discord 연결 가이드 (0) | 2026.02.07 |
| OpenClaw 상세 설치 가이드 - 초보자용 (0) | 2026.02.06 |