Local AI

Ollama 완벽 가이드: 내 PC를 AI 서버로 만드는 법

ChatGPT 구독료가 아깝거나, 회사 기밀 유출이 걱정되시나요? 이제 로컬(Local)의 시대입니다.

By MUMULAB Dev Team • 2025년 11월 22일 • 20 min read

Server Room — 클라우드에 데이터를 보내지 마세요. 모든 연산은 당신의 GPU 안에서 일어납니다.

"Docker가 컨테이너 혁명을 이끌었듯, Ollama는 LLM 혁명을 이끌고 있습니다. 복잡한 설정 없이 명령어 한 줄이면 최신 AI 모델이 내 눈앞에 나타납니다."

서론: 왜 로컬 LLM인가?

OpenAI의 GPT-4는 훌륭하지만, 비싸고 느리며 내 데이터를 학습에 사용할 수 있다는 불안감이 있습니다. 반면 로컬 LLM은 1) 완전한 데이터 보안, 2) 비용 무료, 3) 오프라인 사용 가능이라는 강력한 장점이 있습니다.

Part 1. 설치 (Installation)

1. 다운로드

Ollama 공식 홈페이지(ollama.com)에서 OS에 맞는 설치 파일을 받습니다. 현재 macOS, Linux, Windows(프리뷰)를 모두 지원합니다.

2. 첫 실행

터미널(Terminal)을 열고 다음 명령어를 입력합니다.

ollama run llama3

이 한 줄이면 4GB 크기의 Llama 3 모델을 다운로드하고, 즉시 채팅 인터페이스가 실행됩니다. 마법 같습니다.

Part 2. 모델 활용하기

1. 다양한 모델 교체

Llama 3뿐만 아니라 Mistral, Gemma, Vicuna 등 수백 가지 오픈소스 모델을 지원합니다. ollama pull mistral 명령어로 모델을 쇼핑하듯 내려받으세요.

2. 멀티모달 (Vision)

llava 모델을 사용하면 이미지도 인식할 수 있습니다. "이 사진에 뭐가 있어?"라고 물어보면 척척 대답합니다.

Part 3. 개발자를 위한 API 연동

Ollama는 백그라운드에서 로컬 서버(localhost:11434)를 띄웁니다. Python에서 requests나 langchain 라이브러리를 통해 쉽게 제어할 수 있습니다.


import requests

response = requests.post('http://localhost:11434/api/generate', json={
  "model": "llama3",
  "prompt": "Why is the sky blue?"
})
print(response.json()['response'])

Part 4. 나만의 모델 만들기: Modelfile

도커의 Dockerfile처럼, Ollama에는 Modelfile이 있습니다. "너는 친절한 초등학교 선생님이야"라는 시스템 프롬프트를 미리 주입한 나만의 커스텀 모델을 만들 수 있습니다.

결론: AI의 민주화

Ollama는 거대 IT 기업의 전유물이었던 AI 기술을 개인의 손으로 가져왔습니다. 이제 누구나 자신만의 AI를 키우고 학습시킬 수 있는 시대입니다. 지금 당장 터미널을 여세요.

자주 묻는 질문 (FAQ)

Q1: 램(RAM)이 얼마나 필요한가요?

7B 모델(Llama 3 등)은 최소 8GB, 13B 모델은 16GB, 70B 모델은 64GB 이상의 RAM이 권장됩니다. VRAM(GPU)이 많을수록 속도가 훨씬 빨라집니다.