
1. 도구 체계: Base Chat vs OK Computer
Kimi의 두 핵심 에이전트는 동일한 인프라를 공유하지만, 완전히 다른 도구 세트를 가진다.
1.1 Base Chat: 9개 도구
| 카테고리 | 도구명 | 용도 |
|---|---|---|
| Web | web_search | 웹 검색 |
| Web | web_open_url | URL 직접 열기 |
| Image | search_image_by_text | 텍스트로 이미지 검색 |
| Image | search_image_by_image | 이미지로 이미지 검색 |
| Code | ipython | Jupyter 커널 코드 실행 |
| Code | shell | 비영속 셸 명령어 |
| Data | get_data_source | 외부 데이터소스 조회 |
| Data | get_data_source_desc | 데이터소스 메타데이터 |
| Memory | memory_space_edits | 사용자 기억 관리 |
핵심 제한:
- 턴당 최대 10 tool calls (0~3 권장)
- 다운로드 가능한 파일 생성 불가 (ipython 차트 예외)
- 파일 생성 요청 시 kimi.com/agent로 리디렉션
1.2 OK Computer: 29개 도구
OK Computer는 Base Chat의 모든 도구에 20개 추가 도구를 더한다:
Browser Automation (8개)
- browser_visit: URL 방문
- browser_click: 요소 클릭
- browser_input: 입력 필드 채우기
- browser_find: 요소 검색
- browser_scroll_up/down: 스크롤
- browser_state: 현재 상태 확인
- browser_screenshot: 스크린샷 캡처
File Operations (3개)
- read_file: 파일 읽기
- write_file: 파일 쓰기
- edit_file: 파일 부분 수정
Image/Media (6개)
- generate_image: AI 이미지 생성
- find_asset_bbox: 이미지 내 영역 찾기
- crop_and_replicate: 영역 잘라내기 및 복제
- screenshot_web_full_page: 전체 페이지 스크린샷
- get_available_voices: 사용 가능 음성 목록
- generate_speech: 음성 합성 (TTS)
Todo Management (2개)
- todo_read: 할 일 목록 읽기
- todo_write: 할 일 목록 쓰기
Deployment (1개)
- deploy_website: 웹사이트 배포 및 URL 제공
2. Universal Shell Pattern: 핵심 설계 철학
Kimi의 가장 중요한 아키텍처 결정 중 하나: 모든 스킬이 동일한 generic 도구를 사용한다.
Tool Layer (동일): ipython, shell, read_file, write_file, browser_*
Skill Layer (다름): DOCX SKILL.md, XLSX SKILL.md, PDF SKILL.md...
의미: Excel 검증에 사용하는 shell과 LaTeX 컴파일에 사용하는 shell은 완전히 동일한 도구다. 차이는 SKILL.md가 제공하는 컨텍스트뿐이다.
장점:
- 새 도구 개발 불필요
- 스킬 추가 = 문서 작성
- 모델이 범용 도구 사용법만 학습하면 됨
3. 실행 흐름 Deep Dive
각 스킬별 실제 도구 호출 순서를 상세히 분석한다.
3.1 DOCX Tool Chain
- read_file(SKILL.md): 925줄 스킬 문서 로딩
- read_file(Example.cs): C# 템플릿 참조
- shell: ./docx init: 프로젝트 초기화
- ipython: Generate Program.cs: 메타프로그래밍 - Python이 C# 코드 생성
- shell: ./docx build:
- dotnet build/run
- fix_element_order.py
- Validator (OpenXML SDK)
- validate_docx.py
- pandoc (최종 변환)
- KIMI_REF 태그 포함하여 결과 반환
핵심 통찰: DOCX 생성은 메타프로그래밍이다. IPython이 C#을 생성하고, C#이 문서를 생성한다.
3.2 XLSX Tool Chain
- read_file(SKILL.md): xlsx 스킬 문서 로딩
- Per-Sheet Loop:
- ipython: openpyxl로 시트 생성/수정
- wb.save()
- KimiXlsx recheck (77MB 바이너리)
- reference-check
- Error? → fix & retry
- PivotTable: KimiXlsx pivot (⚠️ MUST be last - 다른 작업 후 깨짐 방지)
- KimiXlsx validate: 최종 검증
- KIMI_REF 태그 포함하여 결과 반환
핵심 통찰: XLSX는 시트별 검증 루프를 사용한다. DOCX와 달리 빌드 후 검증이 아닌 점진적 검증.
3.3 PDF Tool Chain (HTML Route)
- read_file(SKILL.md/routes/html.md): HTML PDF 라우트 스킬 로딩
- ipython: HTML + CSS 생성, matplotlib 차트, KaTeX 수식
- write_file(/tmp/input.html): 중간 결과물 저장
- shell: pdf.sh html input.html:
- Playwright + Paged.js
- Mermaid 다이어그램 렌더링
- scale 1.5 적용
- KIMI_REF 태그 포함하여 결과 반환
3.4 PDF Tool Chain (LaTeX Route)
- read_file(SKILL.md/routes/latex.md): LaTeX PDF 라우트 스킬 로딩
- ipython: .tex 소스 생성, 수학 표현식, .bib 참고문헌
- write_file(/tmp/main.tex): 중간 결과물 저장
- shell: compile_latex.py --runs 2: tectonic 2회 실행 (참조 해결)
- KIMI_REF 태그 포함하여 결과 반환
라우트 분기: PDF 생성 시 초기에 라우트 결정. HTML(시각적 자유도)과 LaTeX(학술적 정확도) 중 선택.
3.5 WebApp Tool Chain
- read_file(SKILL.md): webapp-building 스킬 로딩
- shell: init-webapp.sh: 73-file 템플릿 복사, npm install (26,082 files)
- ipython: 컴포넌트 아키텍처 계획
- write_file(src/components/*.tsx): React 컴포넌트 생성
- shell: npm run build: Vite 빌드
- deploy_website(dist): Public URL 반환
4. 도구 시너지 패턴
단일 도구가 아닌 도구 조합으로 복잡한 작업을 수행하는 패턴:
4.1 Data Pipeline Pattern
get_data_source → ipython(pandas 분석) → write_file(CSV) → KIMI_REF
용도: 외부 데이터 조회 → 가공 → 파일 출력
4.2 Web Research Pattern
web_search → browser_visit → browser_scroll → browser_screenshot
용도: 검색 → 방문 → 탐색 → 증거 캡처
4.3 Asset Extraction Pattern
screenshot_web_full_page → find_asset_bbox → crop_and_replicate
용도: 웹페이지 캡처 → 영역 식별 → 에셋 추출
4.4 Media Production Pattern
generate_image → ipython(Pillow 편집) → write_file
용도: AI 이미지 생성 → 후처리 → 저장
5. 검증 시스템과 바이너리
Kimi는 품질 보증을 위해 특수 바이너리를 사용한다:
5.1 KimiXlsx (77MB)
- XLSX 검증 전용 바이너리
- openpyxl 출력 검증
- 참조 체크 (깨진 수식 탐지)
- 피벗테이블 생성
5.2 Tectonic (57MB)
- LaTeX 컴파일러
- 온라인 패키지 자동 다운로드
- 2-pass 컴파일 (참조 해결)
5.3 OpenXML SDK Validator (.NET)
- DOCX 구조 검증
- fix_element_order.py와 연동
- validate_docx.py로 최종 확인
5.4 PDF.js (4MB)
- Mozilla PDF.js Chrome 확장
- CJK 문자맵 50+ 파일
- 표준 폰트 12개
6. Communication Guidelines: 모델 행동 규칙
OK Computer 시스템 프롬프트에 명시된 커뮤니케이션 원칙:
6.1 Match the User (사용자에게 맞춤)
- 언어: 사용자 언어로 응답
- 깊이: 전문가에게는 기술적으로, 초보자에게는 친절하게
- 형식성: 격식/비격식 매칭
6.2 Right-size (적절한 분량)
- 단순 작업: 최소 설명, 결과에 집중
- 복잡 작업: 진행상황 공유, 선택지 제시
6.3 Show the What, Not the How (결과 보여주기)
- ❌ "web_search 도구를 사용하여..."
- ❌ "SKILL.md를 읽어서..."
- ✅ "검색 결과를 찾았습니다..."
- ✅ "문서를 생성했습니다..."
7. 데이터소스 우선순위
외부 데이터 접근 시 엄격한 우선순위:
7.1 First: Datasource Tools
- yahoo_finance: 금융 데이터
- ifind: 중국 금융 정보
- world_bank_open_data: 세계은행 오픈데이터
- arxiv: 학술 논문
- google_scholar: 학술 검색
7.2 Second: Web Search
데이터소스가 불충분할 때만 웹 검색 사용
7.3 Datasource 워크플로우
- get_datasource_desc로 API 정보 확인
- get_data_source로 데이터 조회
- 데이터 완전 → 직접 사용
- 데이터 불완전 → ipython으로 분석/보완
8. 특수 정책과 규칙
8.1 이미지 포맷 규칙
- 불투명 이미지: .jpg (사진, 스크린샷)
- 투명 이미지: .png (로고, 아이콘)
8.2 슬라이드 필수 도구
- mshtools-slides_generator 필수 사용
- HTML → PPTX 변환 파이프라인
8.3 배포 정책
- HTML 생성 시 deploy 도구로 URL 제공
- 사용자가 결과를 즉시 확인 가능하도록
8.4 KIMI_REF 태그
- 문서 생성 완료 시 마지막에 KIMI_REF 태그 포함
- 파일 추적 및 참조용
8.5 Memory 민감 정보 금지
- ❌ 인종/민족
- ❌ 건강 정보
- ❌ 위치 데이터
- ❌ 정치적 성향
- ❌ 미성년자 정보
9. 산업적 시사점
9.1 에이전트 설계 패러다임 전환
- Before: "모델에게 더 많은 도구를 주자"
- After: "모델에게 환경과 지식을 주자"
9.2 전문화의 새로운 방식
- Before: 도메인별 파인튜닝, 특화 도구 개발
- After: SKILL.md 문서 작성, 범용 도구 재사용
9.3 품질 보증 접근
- 객관적 작업: 검증 바이너리 (KimiXlsx, OpenXML Validator)
- 주관적 작업: 페르소나 주입 (McKinsey 컨설턴트)
9.4 확장성 모델
- 새 기능 = 새 SKILL.md 문서
- 개발 비용: 도구 개발 → 문서 작성으로 대폭 감소
10. 향후 전망
10.1 Skill 생태계 확장
- 커뮤니티 SKILL.md 기여
- 도메인별 스킬 마켓플레이스
10.2 Persona 라이브러리
- 다양한 전문가 페르소나
- 산업별/역할별 프리셋
10.3 Multi-Agent 연동
- Agent Swarm 아키텍처 확장
- ~100 에이전트 협업
- PARL 강화학습
TL;DR
- Base Chat 9개 vs OK Computer 29개 도구, 동일 인프라에서 권한 차이
- Universal Shell Pattern: 모든 스킬이 동일 도구 사용, 차이는 SKILL.md 컨텍스트
- 실행 흐름: 항상 스킬 로딩 먼저, DOCX는 메타프로그래밍, XLSX는 점진적 검증
- 도구 시너지: Data Pipeline, Web Research, Asset Extraction, Media Production 패턴
- 검증 바이너리: KimiXlsx(77MB), Tectonic(57MB), OpenXML SDK
- 커뮤니케이션 원칙: Match User, Right-size, Show What Not How
- 산업적 시사점: 도구 추가 → 문서 작성, 파인튜닝 → 스킬 주입으로 패러다임 전환
참고 링크
'AI' 카테고리의 다른 글
| 오픈소스 LLM : Kimi-Linear-48B-A3B와 Step3.5-Flash 완벽 분석 (0) | 2026.02.08 |
|---|---|
| Mistral Vibe 2.0 완벽 가이드 — 터미널 네이티브 AI 코딩 에이전트 마스터하기 (0) | 2026.02.08 |
| Kimi K2.5 에이전트 아키텍처 완벽 해부 1편 - 설계 철학과 인프라 (0) | 2026.02.08 |
| 2026년 로컬 OCR 벤치마크 - GLM, DeepSeek, LightOn, Paddle, Apple ML 완벽 비교 (0) | 2026.02.08 |
| OpenClaw Tools & Discord 연결 가이드 (0) | 2026.02.07 |