**GGUF (GGML Unified Format)**는 AI 모델의 가벼운 실행을 위해 사용되는 파일 형식이야. 주로 **LLM (Large Language Model)**을 로컬 환경에서 최적화된 방식으로 실행하기 위해 사용되지.

 


1️⃣ GGUF란?

 

GGUF는 **GGML (GPT-J, LLaMA, Falcon 등의 모델을 CPU/GPU에서 실행하기 위한 라이브러리)**에서 사용하는 최신 모델 저장 포맷이야.

이전에는 GGML, GGJT 같은 포맷이 사용되었지만, GGUF가 통합 포맷으로 발전하면서 더 효율적인 모델 저장 및 실행이 가능해졌어.

 

🔹 GGUF의 주요 특징:

최신 GGML 기반 모델 형식 (기존 GGML, GGJT 대비 개선됨)

CPU 및 GPU에서 실행 최적화 (특히 로컬 머신에서 사용)

효율적인 모델 저장 및 로딩

Llama.cpp, Whisper.cpp, GPT-2.cpp 등에서 지원

 


2️⃣ GGUF를 사용하는 대표적인 AI 모델

 

GGUF 포맷은 로컬 및 저사양 환경에서 AI 모델을 실행할 때 많이 활용돼.

 

✅ LLaMA 2 & LLaMA 3 (Meta)

Llama.cpp를 사용해 CPU/GPU 환경에서 최적화된 모델 실행 가능

gguf 형식으로 변환하면 VRAM 사용량을 줄이면서도 성능 유지 가능

 

✅ Mistral & Mixtral (Mistral AI)

OpenAI GPT 모델과 비슷한 성능을 가진 경량화된 모델

GGUF 포맷으로 변환하여 로컬 실행 가능

 

✅ Whisper (OpenAI)

OpenAI의 음성 인식 모델

whisper.cpp를 이용해 GGUF 형식으로 변환 후 로컬 CPU/GPU에서 실행 가능

 

✅ GPT-2 / GPT-J / GPT-Neo

GGUF로 변환 시 CPU에서도 원활하게 작동

gpt2.cpp, gptj.cpp 등에서 사용 가능

 


3️⃣ GGUF 모델 실행 방법

 

GGUF 모델을 실행하려면 Llama.cpp 같은 경량화된 프레임워크를 사용하면 돼.

 

📌 Llama.cpp에서 GGUF 모델 실행하기

 

1️⃣ GGUF 모델 다운로드

Hugging Face 같은 플랫폼에서 .gguf 모델 파일 다운로드

예: llama-2-7b.Q4_K_M.gguf

 

2️⃣ Llama.cpp 실행

./main -m models/llama-2-7b.Q4_K_M.gguf -p "Hello, how are you?"

 

 


4️⃣ GGUF vs 기존 포맷 비교

포맷특징실행 환경지원 모델

GGUF 최신 경량 포맷, 최적화된 로딩 속도 CPU/GPU (Llama.cpp, Whisper.cpp) LLaMA 2, Mistral, Whisper
GGML 초기 GG 기반 포맷, 단점 존재 CPU 중심 LLaMA, GPT-J
ONNX 범용 AI 모델 포맷, CPU/GPU 최적화 ONNX Runtime GPT-2, BERT
PyTorch (PT) PyTorch 모델 저장 포맷 GPU 필수 대부분의 LLM
TensorFlow (TF) TensorFlow 모델 저장 포맷 GPU 필수 BERT, T5

 

 


5️⃣ 결론

 

GGUF는 LLM을 로컬 환경에서 실행할 때 가장 최적화된 모델 포맷이야.

✅ 기존 GGML보다 더 발전된 형태로, Llama.cpp, Whisper.cpp 같은 프로젝트에서 사용 가능해.

✅ GPU 없이도 CPU 병렬 연산을 활용하여 AI 모델을 실행할 수 있어! 🚀

 

➡️ 만약 특정 모델을 GGUF로 변환하는 방법이 필요하면 알려줘! 😊

반응형

'Analytics & AI' 카테고리의 다른 글

VLLM  (0) 2025.03.11
GGUF 모델  (0) 2025.03.11
모델 양자화란?  (0) 2025.03.11

+ Recent posts