[Airflow] RuntimeError: Cannot re-initialize CUDA in forked subprocess 에러 해결

Backend/Trouble Shooting

[Airflow] RuntimeError: Cannot re-initialize CUDA in forked subprocess 에러 해결

sangwonYoon 2023. 9. 13. 23:29

실행 환경

OS: MacOS
apache-airflow: 2.2.3 버전

문제 상황

Airflow로 개발중인 기능은 다음과 같았다.

HuggingFace에 업로드 된 크롤링 데이터를 서버로 가져와 학습시킬 수 있는 형태로 전처리한다.
전처리된 데이터를 Lora 활용하여 kullm(구름)의 fine-tuning을 진행한다.

2번 기능을 테스트하던 중 아래와 같은 에러가 발생했다.

RuntimeError: Cannot re-initialize CUDA in forked subprocess. To use CUDA with multiprocessing, you must use the 'spawn' start method

airflow 없이 독립적으로 실행할 때는 정상적으로 동작하던 코드였는데, Airflow로 스케줄링하니 위와 같은 문제가 발생한 것이다.

문제 분석

에러 메세지를 읽어보면, CUDA 환경에서 프로세스를 fork하여 발생한 에러임을 확인할 수 있다. 부모 프로세스를 fork하여 자식 프로세스를 생성할 때, 부모 프로세스의 메모리는 read-only로 자식에게 공유되는데, CUDA 환경에서는 이러한 방식으로 메모리를 공유할 수 없고, 메모리를 복사하여 넘겨주어야 한다.

Airflow 환경에서 Executor가 worker를 생성하여 DAG의 작업을 실행시킬때, 프로세스가 fork되면서 위 에러가 발생하는 것으로 추측된다.

이 문제를 해결하기 위한 가장 간단한 방법은 multiprocessing 방식을 fork에서 spawn으로 수정하는 것이다.

torch.multiprocessing.set_start_method('spawn')

그러나, 나는 위 코드를 추가해도 multiprocessing 방식이 수정되지 않았다. 그 이유는 Airflow가 내부적으로 worker를 생성할 때 os.fork를 호출하여 multiprocessing 방식을 수정하더라도 프로세스가 fork되는 것으로 추측하고 있다. (Gunicorn에서 동일한 이슈를 찾을 수 있다.)

문제 해결

여러 다른 해결 방법들을 시도한 끝에 내가 찾은 해결책은 PythonOperator 대신 PythonVirtualenvOperator를 사용하는 것이다.

PythonVirtualenvOperator를 사용하면 가상 환경을 생성하여 가상 환경 안에서 작업을 실행시키는데, 이로 인해 프로세스가 fork되지 않기 때문에 문제를 해결할 수 있었다.

저작자표시 비영리 동일조건

'Backend > Trouble Shooting' 카테고리의 다른 글

CLI 명령어가 잘못된 실행 파일을 참조하는 문제 (0)	2023.12.29
[문제 해결] GitHub Actions가 작동하지 않는 문제 해결 (0)	2023.07.30
[Python 에러 분석] 직접 구현한 모듈을 import할 때 ModuleNotFoundError가 발생하는 이유 (0)	2023.07.04
[FastAPI 에러 해결] ERR_EMPTY_RESPONSE in Docker Container (0)	2023.06.04

현재글[Airflow] RuntimeError: Cannot re-initialize CUDA in forked subprocess 에러 해결

지식을 나누면 두배로 선한 영향력을 나누는 지속 가능한 개발자가 되기 위해 공부중입니다.

선한 영향력을 나누는 지속 가능한 개발자가 되기 위해 공부중입니다.

numpy, LSTM, mojo, github, 파이썬 테스트, 파이썬, pytest, prompt engineering, 넘파이, pytorch, 네이버 부스트캠프, airflow, pandas, 판다스, 부스트캠프 AI TECH, 부스트캠프 AI Tech 5기, 논문 리뷰, github actions, 부스트캠프, Andrew Ng,

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지식을 나누면 두배로