**GGUF (GGML Unified Format)**는 AI 모델의 가벼운 실행을 위해 사용되는 파일 형식이야. 주로 **LLM (Large Language Model)**을 로컬 환경에서 최적화된 방식으로 실행하기 위해 사용되지.
1️⃣ GGUF란?
GGUF는 **GGML (GPT-J, LLaMA, Falcon 등의 모델을 CPU/GPU에서 실행하기 위한 라이브러리)**에서 사용하는 최신 모델 저장 포맷이야.
이전에는 GGML, GGJT 같은 포맷이 사용되었지만, GGUF가 통합 포맷으로 발전하면서 더 효율적인 모델 저장 및 실행이 가능해졌어.
🔹 GGUF의 주요 특징:
• 최신 GGML 기반 모델 형식 (기존 GGML, GGJT 대비 개선됨)
• CPU 및 GPU에서 실행 최적화 (특히 로컬 머신에서 사용)
• 효율적인 모델 저장 및 로딩
• Llama.cpp, Whisper.cpp, GPT-2.cpp 등에서 지원
2️⃣ GGUF를 사용하는 대표적인 AI 모델
GGUF 포맷은 로컬 및 저사양 환경에서 AI 모델을 실행할 때 많이 활용돼.
✅ LLaMA 2 & LLaMA 3 (Meta)
• Llama.cpp를 사용해 CPU/GPU 환경에서 최적화된 모델 실행 가능
• gguf 형식으로 변환하면 VRAM 사용량을 줄이면서도 성능 유지 가능
✅ Mistral & Mixtral (Mistral AI)
• OpenAI GPT 모델과 비슷한 성능을 가진 경량화된 모델
• GGUF 포맷으로 변환하여 로컬 실행 가능
✅ Whisper (OpenAI)
• OpenAI의 음성 인식 모델
• whisper.cpp를 이용해 GGUF 형식으로 변환 후 로컬 CPU/GPU에서 실행 가능
✅ GPT-2 / GPT-J / GPT-Neo
• GGUF로 변환 시 CPU에서도 원활하게 작동
• gpt2.cpp, gptj.cpp 등에서 사용 가능
3️⃣ GGUF 모델 실행 방법
GGUF 모델을 실행하려면 Llama.cpp 같은 경량화된 프레임워크를 사용하면 돼.
📌 Llama.cpp에서 GGUF 모델 실행하기
1️⃣ GGUF 모델 다운로드
• Hugging Face 같은 플랫폼에서 .gguf 모델 파일 다운로드
• 예: llama-2-7b.Q4_K_M.gguf
2️⃣ Llama.cpp 실행
./main -m models/llama-2-7b.Q4_K_M.gguf -p "Hello, how are you?"
4️⃣ GGUF vs 기존 포맷 비교
포맷특징실행 환경지원 모델
GGUF | 최신 경량 포맷, 최적화된 로딩 속도 | CPU/GPU (Llama.cpp, Whisper.cpp) | LLaMA 2, Mistral, Whisper |
GGML | 초기 GG 기반 포맷, 단점 존재 | CPU 중심 | LLaMA, GPT-J |
ONNX | 범용 AI 모델 포맷, CPU/GPU 최적화 | ONNX Runtime | GPT-2, BERT |
PyTorch (PT) | PyTorch 모델 저장 포맷 | GPU 필수 | 대부분의 LLM |
TensorFlow (TF) | TensorFlow 모델 저장 포맷 | GPU 필수 | BERT, T5 |
5️⃣ 결론
✅ GGUF는 LLM을 로컬 환경에서 실행할 때 가장 최적화된 모델 포맷이야.
✅ 기존 GGML보다 더 발전된 형태로, Llama.cpp, Whisper.cpp 같은 프로젝트에서 사용 가능해.
✅ GPU 없이도 CPU 병렬 연산을 활용하여 AI 모델을 실행할 수 있어! 🚀
➡️ 만약 특정 모델을 GGUF로 변환하는 방법이 필요하면 알려줘! 😊
'Analytics & AI' 카테고리의 다른 글
VLLM (0) | 2025.03.11 |
---|---|
GGUF 모델 (0) | 2025.03.11 |
모델 양자화란? (0) | 2025.03.11 |