kiteday 님의 블로그

ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 2) local_rank: 0 (pid: 783982) of binary: 본문

문제해결

ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: 2) local_rank: 0 (pid: 783982) of binary:

kiteday 2025. 7. 23. 16:56
반응형
SMALL

(본 포스트는 24년 3월의 벨로그의 글을 옮겨온 것입니다.)

 

inference를 하려고 하는데 제대로 돌아가지 않는 문제 !

GPU자원 부족일 가능성이 크다.
batch size, inference step, multi-gpu -> uni-gpu 등 하이퍼파라미터들을 바꿔보면 돌아간다.

LIST