728x90
Big Data
-
[개념 정리] 딥러닝 클러스터 - 1. GPU Cluster, ParallelismBig Data/Distributed Deep Learning 2022. 5. 5. 13:45
개인적인 공부를 위해 초고성능 딥러닝 클러스터 구축하기를 정리한 것임을 미리 밝힙니다. 기업에서 진행한 딥러닝 클러스터 구축에 대한 경험을 자세히 공유해주신 글로 자세한 내용이 궁금하신 분들께는 위의 포스트 직접 읽어보시는 것을 추천드립니다. GPU Cluster 딥러닝 학습 인프라의 de facto standard(사실상의 표준)으로, 다수의 GPU가 장착된 딥러닝 서버들을 대역폭이 일반 1G 회선의 10배~200배인 고속 네트워크로 엮은 분산 처리(distributed processing) 시스템 멀티 노드 분산 학습 딥러닝 학습에 필요한 계산을 수십~수백 개의 GPU에 나누어 동시에 처리, 고속 네트워크 통해 결과를 합산하는 기법 모델 학습의 병렬성(parallelism)을 최대한 활용, 시간과 공..