오라클라우드

GGUF란

2025. 3. 11. 09:48

**GGUF (GGML Unified Format)**는 AI 모델의 가벼운 실행을 위해 사용되는 파일 형식이야. 주로 **LLM (Large Language Model)**을 로컬 환경에서 최적화된 방식으로 실행하기 위해 사용되지.

1️⃣ GGUF란?

GGUF는 **GGML (GPT-J, LLaMA, Falcon 등의 모델을 CPU/GPU에서 실행하기 위한 라이브러리)**에서 사용하는 최신 모델 저장 포맷이야.

이전에는 GGML, GGJT 같은 포맷이 사용되었지만, GGUF가 통합 포맷으로 발전하면서 더 효율적인 모델 저장 및 실행이 가능해졌어.

🔹 GGUF의 주요 특징:

• 최신 GGML 기반 모델 형식 (기존 GGML, GGJT 대비 개선됨)

• CPU 및 GPU에서 실행 최적화 (특히 로컬 머신에서 사용)

• 효율적인 모델 저장 및 로딩

• Llama.cpp, Whisper.cpp, GPT-2.cpp 등에서 지원

2️⃣ GGUF를 사용하는 대표적인 AI 모델

GGUF 포맷은 로컬 및 저사양 환경에서 AI 모델을 실행할 때 많이 활용돼.

✅ LLaMA 2 & LLaMA 3 (Meta)

• Llama.cpp를 사용해 CPU/GPU 환경에서 최적화된 모델 실행 가능

• gguf 형식으로 변환하면 VRAM 사용량을 줄이면서도 성능 유지 가능

✅ Mistral & Mixtral (Mistral AI)

• OpenAI GPT 모델과 비슷한 성능을 가진 경량화된 모델

• GGUF 포맷으로 변환하여 로컬 실행 가능

✅ Whisper (OpenAI)

• OpenAI의 음성 인식 모델

• whisper.cpp를 이용해 GGUF 형식으로 변환 후 로컬 CPU/GPU에서 실행 가능

✅ GPT-2 / GPT-J / GPT-Neo

• GGUF로 변환 시 CPU에서도 원활하게 작동

• gpt2.cpp, gptj.cpp 등에서 사용 가능

3️⃣ GGUF 모델 실행 방법

GGUF 모델을 실행하려면 Llama.cpp 같은 경량화된 프레임워크를 사용하면 돼.

📌 Llama.cpp에서 GGUF 모델 실행하기

1️⃣ GGUF 모델 다운로드

• Hugging Face 같은 플랫폼에서 .gguf 모델 파일 다운로드

• 예: llama-2-7b.Q4_K_M.gguf

2️⃣ Llama.cpp 실행

./main -m models/llama-2-7b.Q4_K_M.gguf -p "Hello, how are you?"

4️⃣ GGUF vs 기존 포맷 비교

포맷특징실행 환경지원 모델

5️⃣ 결론

✅ GGUF는 LLM을 로컬 환경에서 실행할 때 가장 최적화된 모델 포맷이야.

✅ 기존 GGML보다 더 발전된 형태로, Llama.cpp, Whisper.cpp 같은 프로젝트에서 사용 가능해.

✅ GPU 없이도 CPU 병렬 연산을 활용하여 AI 모델을 실행할 수 있어! 🚀

➡️ 만약 특정 모델을 GGUF로 변환하는 방법이 필요하면 알려줘! 😊