본문 바로가기
AI

Kimi K2.5 에이전트 아키텍처 완벽 해부 1편 - 설계 철학과 인프라

by IsaacOth 2026. 2. 8.

1. Kimi Agent Internals란?

2025년 7월, GitHub에 공개된 kimi-agent-internals 레포지토리(186 stars, 50 forks)는 중국 Moonshot AI의 Kimi K2.5 에이전트 시스템의 내부 아키텍처를 역공학 분석한 자료다. Claude Code의 도움으로 진행된 이 분석은 AI 에이전트 설계의 새로운 패러다임을 보여준다.

핵심 발견: Tool-Use에서 Environment로의 전환

전통적인 AI 에이전트는 Tool-Use Architecture를 따른다. 모델에게 discrete한 함수 API(web_search, code_execute 등)를 제공하고, 모델이 이를 호출하는 stateless 방식이다.

Kimi K2.5는 완전히 다른 접근을 취한다: Environment Architecture. 모델에게 discrete API 대신 범용 컴퓨팅 환경(persistent filesystem, browser automation, process execution)을 제공한다. 모델이 API consumer가 아닌 OS user로 작동하는 것이다.

구분 Tool-Use Architecture Environment Architecture (Kimi)
패러다임 API 호출 환경 탐색
상태 관리 Stateless Persistent
전문화 방식 특화 도구 추가 SKILL.md 문서 주입
제한 방식 API 권한 제어 파일시스템/네트워크 격리

2. 에이전트 타입 분류 체계

Kimi 플랫폼은 6가지 에이전트 타입으로 구성되며, 크게 3계층으로 분류된다:

2.1 Base Chat Layer (kimi.com/chat)

  • K2.5 Instant: 빠른 응답 최적화
  • K2.5 Thinking: 추론 집약적 작업
  • Kimi K2 (deprecated): 레거시 모델

특징: 턴당 최대 10 tool calls, 스킬 로딩 없음, read-only 파일시스템

2.2 Agentic Layer (kimi.com/agent)

  • OK Computer: 범용 에이전트 (베이스라인)
  • Docs: 문서 생성 특화 (DOCX/PDF)
  • Sheets: 스프레드시트 특화 (XLSX)
  • Websites: 웹앱 빌딩 특화
  • Slides: 프레젠테이션 특화 (PPTX)

특징: 무제한 tool calls, 런타임 스킬 주입, persistent workspace

2.3 Research Layer

  • K1-Researcher: 연구 에이전트
  • Agent Swarm: ~100개 에이전트, 1,500 스텝, PARL 학습

3. 4계층 인프라스트럭처 스택

Kimi의 런타임은 4개 계층으로 구성된 정교한 아키텍처를 가진다:

Layer 1: Control Plane

  • 구현: kernel_server.py (10KB, FastAPI)
  • 포트: 8888
  • 역할: 커널 생명주기 관리, 상태 확인, 오케스트레이션

Layer 2: Compute Engine

  • 구현: jupyter_kernel.py (17KB)
  • 통신: ZeroMQ IPC 소켓
  • 제한: 30분 타임아웃, 500MB 메모리
  • PID 범위: 300-400

Base Chat은 이 계층에서 10-step budget 제한을 적용받는다.

Layer 3: Web Tools

  • 구현: browser_guard.py (41KB)
  • 브라우저: Playwright + Chromium 120.x
  • 포트: 9222/9223 (DevTools Protocol)
  • 보안: Stealth mode, anti-detection 적용

Layer 4: User Workspace

두 가지 워크스페이스가 존재한다:

워크스페이스 경로 권한 용도
Base Chat /mnt/kimi/ Read-only 임시 작업
OK Computer /mnt/okcomputer/ Read-write 영구 저장

Chrome 프로필: chrome_data/ 디렉토리에 272개 파일, 15개 서브디렉토리로 stateful 브라우저 세션 유지


4. Skill vs Persona: 두 가지 전문화 패턴

Kimi는 에이전트를 전문화하는 두 가지 완전히 다른 패턴을 사용한다. 이것이 이 아키텍처의 가장 혁신적인 부분이다.

4.1 Skill Scaffolding (Docs, Sheets, Websites)

메커니즘: OK Computer 아이덴티티를 유지하면서 SKILL.md 문서를 런타임에 주입

경로: /app/.kimi/skills/{skill_name}/SKILL.md

예시: 스프레드시트 요청 시 /app/.kimi/skills/xlsx/SKILL.md (925줄) 자동 로딩

  • Excel 365 vs 2019 호환성 규칙
  • 수식 검증 (FILTER/XLOOKUP/LAMBDA → INDEX/MATCH 대안)
  • 스타일링 컨벤션
  • KimiXlsx 바이너리 사용법

특징:

  • 성격/커뮤니케이션 스타일은 동일 (OK Computer)
  • 도메인 지식만 다름
  • 객관적 정확성 기준으로 검증 가능 (수식 작동/비작동)

4.2 Persona Replacement (Slides)

메커니즘: OK Computer 아이덴티티 자체를 완전히 교체

"You are a McKinsey consultant with 20 years of experience..."

특징:

  • 베이스 프롬프트 전체 교체
  • 성격, 워크플로우, 미학 모두 다름
  • 주관적 품질 기준 (미학적 선택은 이진적이지 않음)

왜 이 구분이 중요한가?

작업 유형 품질 기준 적합한 패턴 이유
스프레드시트 객관적 Skill 수식이 작동하거나 안 하거나
문서 객관적 Skill 포맷이 올바르거나 깨지거나
프레젠테이션 주관적 Persona 미학적 선택에 정답 없음

Slides에 SKILL.md가 없는 이유: 창의적 판단을 절차로 인코딩할 수 없다. "McKinsey 미학"을 규칙으로 명세할 수 없다. 대신 전문가의 사고방식 자체를 주입한다.


5. Persona가 제공하는 4가지 차원

Slides 에이전트의 McKinsey 페르소나가 주입하는 것:

5.1 미학적 방향 (Aesthetic Direction)

  • Clean, hierarchical, data-driven visual language
  • 정보 밀도와 명확성 사이의 균형
  • "Less is more" but "Every pixel earns its place"

5.2 워크플로우 권위 (Workflow Authority)

  • 도구를 사용하는 기술자가 아닌 전문가로서 제시
  • "이렇게 하세요" vs "이것이 최선입니다"

5.3 디자인 철학 (Design Philosophy)

  • 밀도 / 명확성 / 임팩트 삼각형
  • CEO의 5분을 위한 슬라이드 설계

5.4 커뮤니케이션 표준 (Communication Standard)

  • 컨설턴트 기대에 맞는 톤/구조
  • 권위 있으면서 접근 가능

6. Slides 에이전트의 3단계 워크플로우

Persona 기반 에이전트의 실제 작동 방식:

Step 1: Design Analysis

사용자 요청 → 컨설턴트 관점 분석 → Markdown 디자인 문서 생성

  • "이 요청이 무엇을 달성하려 하는가?"
  • "청중은 누구인가?"
  • "핵심 메시지는 무엇인가?"

Step 2: Content Planning

generate_slides_outline 도구 → 대화형 개요 생성 → 사용자 승인

  • "3슬라이드로 할까요, 5슬라이드로 할까요?"
  • "차트를 포함할까요?"

Step 3: Rendering

HTML 생성 → CSS 스타일링 → slides_generator → PPTX 변환
실제 코드가 아닌 시각적 결과물에 집중


7. 시스템 프롬프트 진화의 역사

Kimi의 프롬프트 아키텍처는 3단계 진화를 거쳤다:

Phase 1 (2024): Static Prompts

  • 고정된 시스템 프롬프트
  • 파인튜닝에 의존
  • "모델이 알아서 하게 하자"

Phase 2 (2025): Instruction-Heavy Prompts

  • Constitutional AI 스타일
  • 상세한 지시사항 나열
  • "모든 규칙을 명시하자"

Phase 3 (2026): Modular Skill Injection

  • SKILL.md 시스템
  • 런타임 문서 주입
  • "필요할 때 지식을 로드하자"

핵심 통찰: Connectivity(도구/파일시스템 접근)와 Cognition(스킬/컨텍스트/전문성)의 분리. 새 기능 = 문서 작성 → 에이전트 전문가화.


8. 보안 모델과 격리

네트워크 격리

  • 직접 외부 HTTP 요청 불가
  • 모든 웹 접근은 브라우저 도구 경유

리소스 제한

  • 30분 타임아웃
  • 500MB 메모리 상한
  • 컨테이너 탈출 불가 (샌드박스 실행)

파일시스템 권한

  • Base Chat: /mnt/kimi/ (read-only)
  • OK Computer: /mnt/okcomputer/ (read-write, persistent)

Chrome 보안 정책

  • SafeBrowsing 비활성화 (anti-detection)
  • ImageMagick PDF/PS 처리 비활성화
  • 특정 브라우저 플래그 설정

TL;DR

  • Kimi K2.5는 Tool-Use 아키텍처를 넘어 Environment Architecture로 전환, 모델이 OS user로 작동
  • 4계층 인프라: Control Plane(FastAPI) → Compute Engine(Jupyter) → Web Tools(Playwright) → User Workspace
  • 6가지 에이전트 타입: Base Chat(3) + Agentic(5), 각각 다른 권한과 기능
  • 두 가지 전문화 패턴: Skill Scaffolding(객관적 작업) vs Persona Replacement(주관적 작업)
  • SKILL.md 시스템: 런타임에 도메인 지식 주입, 모델 재학습 없이 전문화
  • 보안: 네트워크 격리, 리소스 제한, 파일시스템 권한 분리

참고 링크