Big Data/Distributed Deep Learning
-
[개념 정리] 클러스터 해부학 (FLOPS, GPU memory, 대역폭, Interconnect, PCIe, RDMA)Big Data/Distributed Deep Learning 2022. 6. 2. 01:03
Keyword : FLOPS, GPU memory, 메모리 용량, 메모리 대역폭, Interconnect, PCIe, RDMA 개인적인 공부를 위해 초고성능 딥러닝 클러스터 구축하기를 정리한 것임을 미리 밝힙니다. 기업에서 진행한 딥러닝 클러스터 구축에 대한 경험을 자세히 공유해주신 글로 자세한 내용이 궁금하신 분들께는 위의 포스트 직접 읽어보시는 것을 추천드립니다. 클러스터 해부학 딥러닝 클러스터의 목표 : 학습 과정을 빠르게 하는 것 → 시스템의 한 부분에서 병목 발생하지 않도록, 최상단 소프트웨어와 최하단 하드웨어까지 모든 단계 고려 GPU 서버 성능 지표 알아보기 1. FLOPS - GPU가 1초 동안 몇 개의 부동소수점(floating-point) 연산할 수 있는 지를 나타내는 성능 척도 - F..
-
[개념 정리] 딥러닝 클러스터 - 1. GPU Cluster, ParallelismBig Data/Distributed Deep Learning 2022. 5. 5. 13:45
개인적인 공부를 위해 초고성능 딥러닝 클러스터 구축하기를 정리한 것임을 미리 밝힙니다. 기업에서 진행한 딥러닝 클러스터 구축에 대한 경험을 자세히 공유해주신 글로 자세한 내용이 궁금하신 분들께는 위의 포스트 직접 읽어보시는 것을 추천드립니다. GPU Cluster 딥러닝 학습 인프라의 de facto standard(사실상의 표준)으로, 다수의 GPU가 장착된 딥러닝 서버들을 대역폭이 일반 1G 회선의 10배~200배인 고속 네트워크로 엮은 분산 처리(distributed processing) 시스템 멀티 노드 분산 학습 딥러닝 학습에 필요한 계산을 수십~수백 개의 GPU에 나누어 동시에 처리, 고속 네트워크 통해 결과를 합산하는 기법 모델 학습의 병렬성(parallelism)을 최대한 활용, 시간과 공..