파이토치 3

6. Pytorch - 대규모 분산학습에서 고려할 사항

대규모 분산 학습에서 고려할 사항조대협 (http://bcho.tistory.com) 그러면 실제로 분산 학습은 어떻게 이루어질까, 하나의 머신에서 여러 GPU를 사용하는 멀티 GPU의 경우에는 코드만 싱글 GPU 코드와 다르지 다른 설정은 다르지 않다. 그러나 멀티 머신 학습의 경우에는 각 머신에서 학습 코드를 실행해줘야 하고, 같은 데이터 소스로 부터 데이터를 각 머신에서 읽어와야 한다. 그렇다면 동시에 여러 머신에 학습 코드를 어떻게 실행할까?스케쥴러수동으로, 특정 서버에서 각각 학습 코드를 실행할 수 도 있지만, 보통 수십,수백개의 머신에서 하나의 학습만을 돌리는 일은 드물다. 중간 중간 실험을 위해서 작은 모델을 학습하기도 하고, 전체 머신들에서 하나의 거대 모델들을 돌리기도 한다.  만약 50..

파이토치 분산 학습 도구 비교

1. 개요torch.distributed.launch와 torchrun은 둘 다 PyTorch에서 분산 학습을 실행하기 위한 도구이다.torch.distributed.launch는 이전부터 사용되어 온 유틸리티이며, torchrun은 더 최근에 등장한 도구로 사용 편의성을 개선했다.2. 주요 차이점 torch.distributed.launchtorchrun사용 편의성--local_rank 인자를 수동으로 스크립트에 전달해야 함--local_rank 자동 처리기능 범위기본적인 분산 학습 실행 기능 제공torch.distributed.launch 기능 + 탄력성(elasticity), 오류 처리 등 추가 기능 제공오류 처리worker 실패 시 자동 재시작 기능 없음worker 실패 시 자동 재시작 기능 제공..

파이토치 3. 파이토치라이트닝

파이토치 라이트닝 파이토치 라이트닝은 파이토치를 한번 더 추상화하는 프레임웍으로, 파이토치 코딩의 복잡도를 낮춰주는 프레임이다. 텐서플로우의 복잡도를 케라스로 잡아주는 느낌이라고 할까? 한번더 추상화하는 만큼, 약간의 성능저하가 발생한다.  아래와 같은 간단한 선형 회귀 모델이 있다고 하자.import osimport torchfrom torch import nnimport torch.nn.functional as Ffrom torch.utils.data import DataLoaderimport lightning as Lfrom torch.utils.data import TensorDataset# 데이터x_train = torch.FloatTensor([[1], [2], [3]])y_train = t..