허깅페이스(Hugging Face) 기능별 사용법 완벽 정리
허깅페이스(Hugging Face)는 이제 단순한 오픈소스 플랫폼을 넘어, 누구나 AI를 학습하고 응용할 수 있는 풀스택 생태계로 성장했습니다. 다양한 기능들이 지속적으로 업데이트되고 있지만, 각각의 기능을 제대로 활용하지 못하면 그저 ‘모델 저장소’ 수준에서 끝날 수 있습니다.
이 글에서는 허깅페이스의 핵심 기능 10가지를 중심으로, 실전에서 바로 사용할 수 있는 상세한 사용법을 소개합니다. 코드 예시부터, 실제 프로젝트에서 어떻게 응용할 수 있는지, 어떤 주의사항이 필요한지도 함께 다루므로, 초보자도 따라할 수 있고, 전문가도 참고할 수 있도록 구성했습니다.
특히 AutoTrain, Spaces, Hub, Inference API 등은 최근 들어 급격히 진화하면서, AI 모델을 학습하고 배포하는 프로세스를 획기적으로 간소화했습니다.
이제는 복잡한 코드 없이 클릭 몇 번만으로도 모델을 만들고 웹 서비스로 제공할 수 있습니다. 각 기능은 서로 유기적으로 연결되어 있어, 하나만 알아도 도움이 되지만 전체적인 흐름을 이해하면 AI 프로젝트 전체를 통합적으로 다룰 수 있게 됩니다.
자, 이제 허깅페이스의 기능별 사용법을 하나씩 살펴보겠습니다.
허깅페이스 모델 허브에서 모델 검색하고 다운로드하는 법

허깅페이스의 기본은 바로 모델 허브(Hub)입니다. BERT, GPT, T5 등 다양한 모델을 검색하고, 간단한 코드로 불러올 수 있습니다.
- 사이트 접속: https://huggingface.co/models
- 카테고리 선택: Language, Audio, Vision, Multimodal 등
- 필터 활용: 라이선스, 태스크(NLP, CV), 프레임워크(PyTorch, TensorFlow)
from transformers import pipeline
# 감정 분석 파이프라인 호출
classifier = pipeline("sentiment-analysis")
result = classifier("I love Hugging Face!")
print(result)
TIP: 모델 페이지에서 Use in Transformers
탭을 확인하면, 해당 모델을 바로 사용할 수 있는 예제 코드가 제공됩니다.
허깅페이스 Transformers 라이브러리로 모델 불러오기
허깅페이스의 대표적인 라이브러리는 transformers
입니다. 이 라이브러리를 통해 텍스트 분류, 질의응답, 번역 등 거의 모든 NLP 작업을 처리할 수 있습니다.
pip install transformers
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased-finetuned-sst-2-english")
classifier = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
classifier("The movie was awesome!")
TIP: 모델 이름은 허깅페이스 모델 허브에 나와 있는 대로 정확히 입력해야 불러올 수 있습니다.
허깅페이스 Datasets 라이브러리로 공개 데이터 활용하기

AI 모델 학습에는 양질의 데이터가 필수입니다. 허깅페이스는 datasets
라이브러리를 통해 수천 개의 데이터셋을 손쉽게 사용할 수 있도록 지원합니다.
pip install datasets
from datasets import load_dataset
# IMDb 영화 리뷰 데이터셋 불러오기
dataset = load_dataset("imdb")
print(dataset["train"][0])
TIP: 커스텀 데이터셋을 로컬 파일(csv, json 등)에서 직접 업로드하여 사용할 수도 있습니다.
Tokenizers 라이브러리로 텍스트 전처리하기
모델 입력에 앞서 텍스트를 토크나이징해야 합니다. tokenizers
는 빠르고 유연한 전처리를 도와줍니다.
pip install tokenizers
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
tokens = tokenizer("Hello Hugging Face!", return_tensors="pt")
print(tokens)
TIP: 대부분의 모델은 AutoTokenizer
로 자동 로딩이 가능하며, return_tensors="pt"
를 지정하면 PyTorch 형태로 반환됩니다.
허깅페이스 Trainer API로 커스텀 모델 파인튜닝하기
Trainer
는 허깅페이스에서 제공하는 고수준의 학습 인터페이스입니다. 복잡한 코드 없이 손쉽게 학습, 검증, 평가가 가능합니다.
from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
output_dir="./results",
evaluation_strategy="epoch",
per_device_train_batch_size=8,
num_train_epochs=3,
weight_decay=0.01,
)
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_dataset,
eval_dataset=eval_dataset,
)
trainer.train()
TIP: GPU 환경에서 실행하면 학습 속도가 비약적으로 향상됩니다. CUDA_VISIBLE_DEVICES
설정을 통해 사용 GPU를 지정할 수 있습니다.
허깅페이스 AutoTrain으로 코드 없이 모델 학습하기

AutoTrain은 허깅페이스의 GUI 기반 자동 학습 플랫폼입니다. 코딩 없이도 데이터 업로드만으로 AI 모델을 훈련할 수 있습니다.
- 접속: https://huggingface.co/autotrain
- 회원 가입 후 프로젝트 생성
- 데이터 업로드(csv 또는 JSON 형식)
- 텍스트 분류, 감정 분석 등 태스크 설정
- GPU 자원 선택 후 학습 시작
TIP: AutoTrain은 유료 및 무료 플랜이 있으며, GPU 학습은 제한이 있으므로 소규모 실험에 적합합니다.
허깅페이스 Spaces를 활용한 AI 데모 앱 만들기

Spaces는 AI 모델을 웹 앱 형태로 시각화할 수 있는 플랫폼입니다. Gradio 또는 Streamlit을 이용해 손쉽게 배포가 가능합니다.
pip install gradio
import gradio as gr
from transformers import pipeline
classifier = pipeline("sentiment-analysis")
def analyze(text):
return classifier(text)[0]['label']
demo = gr.Interface(fn=analyze, inputs="text", outputs="text")
demo.launch()
TIP: 만든 앱은 허깅페이스 Spaces에 바로 업로드할 수 있으며, 공유 링크도 자동 생성됩니다.
Inference API로 실시간 모델 호출하기
허깅페이스는 Inference API를 통해 서버 구축 없이 모델을 바로 호출할 수 있도록 API를 제공합니다.
import requests
API_URL = "https://api-inference.huggingface.co/models/distilbert-base-uncased-finetuned-sst-2-english"
headers = {"Authorization": "Bearer YOUR_API_KEY"}
def query(payload):
response = requests.post(API_URL, headers=headers, json=payload)
return response.json()
print(query({"inputs": "I love Hugging Face!"}))
TIP: 호출량이 많을 경우 요금이 부과되므로, 데모 용도 외에는 API 호출 수를 관리하는 것이 중요합니다.
모델 푸시(Push)로 나만의 모델 공유하기
학습한 모델을 허깅페이스 허브에 업로드하여 공개하거나 팀원과 공유할 수 있습니다.
from huggingface_hub import notebook_login, create_repo, upload_file
notebook_login() # 웹에서 토큰 로그인
# 저장소 생성
create_repo(name="my-finetuned-model")
# 모델 파일 업로드
upload_file(
path_or_fileobj="./pytorch_model.bin",
path_in_repo="pytorch_model.bin",
repo_id="username/my-finetuned-model",
)
TIP: transformers
와 Trainer
를 이용해 학습하면, trainer.push_to_hub()
메서드로 자동 푸시도 가능합니다.
Evaluate 라이브러리로 모델 성능 평가하기
학습한 모델은 정확도, 정밀도, 재현율 등 다양한 메트릭으로 평가할 수 있습니다.
pip install evaluate
import evaluate
accuracy = evaluate.load("accuracy")
predictions = [0, 1, 1, 0]
references = [0, 1, 0, 0]
result = accuracy.compute(predictions=predictions, references=references)
print(result)
TIP: evaluate
는 Trainer
와도 연동 가능하여, 학습 과정에서 자동으로 성능 지표를 기록할 수 있습니다.
FAQ 모음: 기능별 사용법 관련
Q1. 코드 없이 모델을 훈련하고 싶어요. 어떻게 해야 하나요?
A. AutoTrain을 이용하면 데이터를 업로드하고 몇 번의 클릭만으로 모델 훈련이 가능합니다.
Q2. Spaces에서 만든 앱은 외부에서 접속할 수 있나요?
A. 네, 앱을 배포하면 고유한 링크가 생성되어 누구나 접속할 수 있습니다.
Q3. Inference API의 호출 횟수 제한은 어떻게 되나요?
A. 무료 요금제는 초당 1회, 유료 요금제는 더 높은 속도를 지원합니다. 자세한 내용은 요금제 페이지 참고.
Q4. 모델을 훈련한 후 허브에 업로드하려면 어떻게 하나요?
A. huggingface_hub
라이브러리를 사용하거나, Trainer
의 push_to_hub()
메서드를 사용하세요.
Q5. 커스텀 데이터셋도 AutoTrain에서 사용 가능한가요?
A. 네, csv, json 형태로 업로드하면 자동으로 분석됩니다.
Q6. 파인튜닝 시 GPU는 필수인가요?
A. 대형 모델의 경우 필수이며, Colab이나 Kaggle GPU를 이용하는 방법도 있습니다.
Q7. 허깅페이스 허브에 업로드한 모델은 공개되나요?
A. 기본은 공개이며, 유료 플랜에서 비공개 저장소 설정이 가능합니다.
Q8. Gradio 앱도 업로드 가능한가요?
A. 가능합니다. Gradio 코드가 포함된 app.py
와 requirements.txt
파일을 함께 업로드하면 됩니다.