HuggingFace Hub에 모델 업로드

AI/기타

HuggingFace Hub에 모델 업로드

sangwonYoon 2023. 5. 18. 03:03

문장 내 개체간 관계 추출 모델을 만들면서 TAPT(Task Adaptive Pretraining)를 적용시킨 모델을 팀원들에게 공유하고자 Hugging Face Hub에 모델을 업로드했다.

이번에 얻은 경험을 통해 Git을 활용하여 Hugging Face Hub에 모델을 업로드하는 방법을 포스팅해보려고 한다.

사전 준비

1. 패키지 설치

pip install transformers

huggingface에서 제공하는 API를 활용할 수 있는 라이브러리인 transformers 패키지를 설치한다.

sudo apt-get install git-lfs # Linux OS인 경우

brew install git-lfs # Mac OS인 경우

모델의 크기가 상당히 크기 때문에 대용량 파일을 git repo에 올릴 때 사용하는 Git LFS(Large File Storage)를 설치한다.

2. 업로드 할 파일 준비

내가 이번에 업로드 한 파일은 위와 같다. 파일 하나씩 그 역할에 대해 살펴보자.

2-1. pytorch_model.bin

pytorch 모델의 checkpoint

2-2. config.json

모델이 저장된 상태를 나타내는 파일

// config.json
{
  "_name_or_path": "klue/roberta-large",
  "architectures": [
    "RobertaForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "eos_token_id": 2,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 1024,
  "initializer_range": 0.02,
  "intermediate_size": 4096,
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 514,
  "model_type": "roberta",
  "num_attention_heads": 16,
  "num_hidden_layers": 24,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "tokenizer_class": "BertTokenizer",
  "torch_dtype": "float32",
  "transformers_version": "4.28.1",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 32000
}

2-3. tokenizer 관련 파일들

vocab.txt : tokenizer의 vocab이 저장되어 있는 파일
tokenizer.json : tokenizer의 전체적인 정보가 담겨있는 파일
tokenizer_config.json : tokenizer의 상태를 나타내는 파일

// tokenizer_config.json
{
  "do_lower_case": false,
  "do_basic_tokenize": true,
  "never_split": null,
  "unk_token": "[UNK]",
  "sep_token": "[SEP]",
  "pad_token": "[PAD]",
  "cls_token": "[CLS]",
  "mask_token": "[MASK]",
  "bos_token": "[CLS]",
  "eos_token": "[SEP]",
  "tokenize_chinese_chars": true,
  "strip_accents": null,
  "model_max_length": 512,
  "tokenizer_class": "BertTokenizer"
}

special_tokens_map.json : special 토큰에 대한 정보를 담고 있는 파일

// special_tokens_map.json
{
  "unk_token": "[UNK]",
  "sep_token": "[SEP]",
  "pad_token": "[PAD]",
  "cls_token": "[CLS]",
  "mask_token": "[MASK]",
  "bos_token": "[CLS]",
  "eos_token": "[SEP]"
}

내가 이번에 업로드 한 모델에서 tokenizer의 경우, klue/roberta-large 모델의 tokenizer를 그대로 가져와서 사용했기 때문에 파일들도 마찬가지로 klue/roberta-large의 저장소에서 가져와서 업로드했다.

pytorch_model.bin과 config.json은 huggingface trainer를 통해 학습시킨 뒤 trainer.save_model()을 통해 저장된 모델에서 가져와 업로드했다.

huggingface 로그인

huggingface에 모델을 업로드 하기 전, 먼저 로그인을 해야 한다. 아직 회원가입이 안되어 있다면 홈페이지에서 회원가입을 진행하자.

Hugging Face – The AI community building the future.

The AI community building the future. Build, train and deploy state of the art models powered by the reference open source in machine learning.

huggingface.co

huggingface-cli login

CLI에 위 명령어를 입력하면 아래와 같은 화면이 등장할 것이다.

CLI에 나와있는 주소인 https://huggingface.co/settings/tokens로 이동하면 token을 발급받을 수 있다. 해당 토큰을 복사하여 CLI에 붙여 넣으면 로그인이 완료된다.

huggingface hub에 저장소 생성

huggingface-cli repo create (저장소 이름)

CLI에 위와 같이 입력하면 huggingface hub에 저장소가 생성된다.

huggingface hub 저장소 clone

git clone https://사용자이름:토큰@huggingface.co/사용자이름/저장소이름

CLI에 위와 같이 입력하여 저장소를 clone한다. 토큰은 로그인 단계에서 생성했던 토큰을 사용한다.

git config --global user.email (huggingface 이메일)
git config --global user.name (사용자 이름)

마찬가지로 CLI에 위와 같이 입력하여 git config에 huggingface 이메일과 사용자 이름을 등록한다.

파일 이동

mv (준비한 파일 경로) (clone 받은 디렉토리 경로)

사전 준비 단계에서 준비했던 파일들을 clone 받은 디렉토리로 이동시킨다.

모델 push

# working directory : clone 받은 디렉토리

git lfs install

git add --all

git commit -m "커밋 메세지"

git push

clone받은 디렉토리로 이동해서 위 명령어를 실행시킨다.

대용량 파일을 업로드 해야하므로 git lfs를 설치한 뒤, git으로 파일들을 push한다.

모델 업로드 성공!

저작자표시 (새창열림)

'AI > 기타' 카테고리의 다른 글

[Mojo] Mojo 설치 및 실행 (0)	2023.09.14
Huggingface Trainer compute_metrics 파헤치기 (0)	2023.06.21
argparse, omegaconf로 실험 환경 구성하기 (0)	2023.05.12
Huggingface의 Transformer 라이브러리에서 pre-trained된 모델 활용하기 (0)	2023.04.21
HuggingFace Trainer로 모델 학습 및 평가하기 (1)	2023.04.18

현재글HuggingFace Hub에 모델 업로드

선한 영향력을 나누는 지속 가능한 개발자가 되기 위해 공부중입니다.

넘파이, 논문 리뷰, pandas, github actions, 파이썬 테스트, airflow, 네이버 부스트캠프, 부스트캠프 AI Tech 5기, prompt engineering, github, LSTM, Andrew Ng, pytest, pytorch, 파이썬, mojo, 판다스, 부스트캠프 AI TECH, 부스트캠프, numpy,

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지식을 나누면 두배로