[PyTorch 에러 해결] CUDA out of memory (feat. 주피터 노트북)

AI/Trouble Shooting

[PyTorch 에러 해결] CUDA out of memory (feat. 주피터 노트북)

sangwonYoon 2023. 7. 6. 22:39

실행 환경

OS: Ubuntu 18.04.5
PyTorch 버전: 2.0.1
CUDA 버전: 11.0

문제 상황

모델 크기가 23GB인 LLM을 GPU 메모리에 로드하던 중, CUDA out of memory 에러가 발생했다. GPU 메모리 크기가 32GB인데다, 주피터 노트북 파일에서 테스트 했을 때 문제 없이 실행되었기 때문에 코드 구현 상에 메모리 누수가 있는지 확인했으나, 별다른 문제를 찾지 못했다.

문제 해결

nvidia-smi 명령어로 GPU의 상태를 확인해 본 결과, 파이썬 스크립트를 동작시키지 않은 상황에서 GPU 메모리가 23GB가 할당되어 있는 것을 확인할 수 있었다. 알고보니 주피터 노트북 파일을 실행시켰을 때 GPU 메모리에 올라갔던 모델을 해제하지 않아서 메모리가 반환되지 않고 있었다.

따라서 주피터 커널을 재시작하여 메모리를 반환하여 문제를 해결했다.

저작자표시 비영리 동일조건 (새창열림)

'AI > Trouble Shooting' 카테고리의 다른 글

conda 가상환경에서 pip 분리하기 (0)	2023.05.22
[PyTorch 에러 해결] Bert 모델 token embedding layer 차원 오류 (1)	2023.05.11

현재글[PyTorch 에러 해결] CUDA out of memory (feat. 주피터 노트북)

선한 영향력을 나누는 지속 가능한 개발자가 되기 위해 공부중입니다.

pandas, Andrew Ng, prompt engineering, 부스트캠프, 논문 리뷰, mojo, LSTM, numpy, 파이썬 테스트, airflow, pytest, 넘파이, github actions, 부스트캠프 AI TECH, 네이버 부스트캠프, github, 파이썬, 부스트캠프 AI Tech 5기, pytorch, 판다스,

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지식을 나누면 두배로