[PyTorch 에러 해결] Bert 모델 token embedding layer 차원 오류

AI/Trouble Shooting

[PyTorch 에러 해결] Bert 모델 token embedding layer 차원 오류

sangwonYoon 2023. 5. 11. 04:12

실행 환경

OS : Linux
PyTorch : 2.0.0 version

첫번째 에러

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.

에러 메시지에서 확인할 수 있듯이, stacktrace의 내용만으로는 어디에서 에러가 발생했는지 파악하기 어렵다.

이를 해결하기 위해서는 아래 코드를 기존 코드에 추가하여 더 구체적인 에러 메시지를 확인해야 한다.

import os

os.environ['CUDA_LAUNCH_BLOCKING'] = "1"

두번째 에러

RuntimeError: CUDA error: device-side assert triggered
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.

안타깝게도 위 코드 적용 이후에도 추가적인 정보를 얻을 수 없었다.

계속 조사해본 결과, 입출력 차원이 제대로 맞지 않는 경우에 자주 발생하는 에러라는 것을 알아냈다.

코드를 살펴보니, tokenizer에 special token을 추가해줬는데 모델의 token embedding layer의 차원을 수정하지 않았다는 것을 확인했다.

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, additional_special_tokens = ["[ENT]", "[/ENT]"])

model = AutoModelForSequenceClassification.from_pretrained(klue/bert-base)

즉, tokenizer의 vocab size는 32000개에서 32002개로 증가했지만, token embedding layer의 차원은 [32000, 768]이므로 32000번 이후의 vocab에 대한 처리를 할 수 없었던 것이었다.

따라서 모델의 token embedding layer의 입력 차원을 수정하여 에러를 해결했다.

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, additional_special_tokens = ["[ENT]", "[/ENT]"])

model = AutoModelForSequenceClassification.from_pretrained(klue/bert-base)
model.resize_token_embeddings(len(tokenizer)) # 모델의 token embedding layer 입력 차원 수정

* 위 코드에서 tokenizer.vocab_size 대신 len(tokenizer)를 사용한 이유는 tokenizer.vocab_size는 추가된 토큰을 제외한 vocab size를 보여준다. 따라서 추가된 토큰을 포함한 vocab size를 확인하기 위해서는 len(tokenizer)를 사용해야한다.

tokenizer.vocab_size : 추가된 토큰을 제외한 vocab size
len(tokenizer) : 추가된 토큰을 포함한 vocab size

저작자표시 (새창열림)

'AI > Trouble Shooting' 카테고리의 다른 글

[PyTorch 에러 해결] CUDA out of memory (feat. 주피터 노트북) (0)	2023.07.06
conda 가상환경에서 pip 분리하기 (0)	2023.05.22

현재글[PyTorch 에러 해결] Bert 모델 token embedding layer 차원 오류

선한 영향력을 나누는 지속 가능한 개발자가 되기 위해 공부중입니다.

LSTM, 파이썬, 넘파이, mojo, Andrew Ng, 판다스, 파이썬 테스트, 부스트캠프 AI Tech 5기, 논문 리뷰, github actions, numpy, prompt engineering, github, pytorch, pytest, 부스트캠프 AI TECH, airflow, pandas, 부스트캠프, 네이버 부스트캠프,

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지식을 나누면 두배로