Big Data
-
[개념 정리] 클러스터 해부학 (FLOPS, GPU memory, 대역폭, Interconnect, PCIe, RDMA)Big Data/Distributed Deep Learning 2022. 6. 2. 01:03
Keyword : FLOPS, GPU memory, 메모리 용량, 메모리 대역폭, Interconnect, PCIe, RDMA 개인적인 공부를 위해 초고성능 딥러닝 클러스터 구축하기를 정리한 것임을 미리 밝힙니다. 기업에서 진행한 딥러닝 클러스터 구축에 대한 경험을 자세히 공유해주신 글로 자세한 내용이 궁금하신 분들께는 위의 포스트 직접 읽어보시는 것을 추천드립니다. 클러스터 해부학 딥러닝 클러스터의 목표 : 학습 과정을 빠르게 하는 것 → 시스템의 한 부분에서 병목 발생하지 않도록, 최상단 소프트웨어와 최하단 하드웨어까지 모든 단계 고려 GPU 서버 성능 지표 알아보기 1. FLOPS - GPU가 1초 동안 몇 개의 부동소수점(floating-point) 연산할 수 있는 지를 나타내는 성능 척도 - F..
-
-
[개념 정리] 하둡 MapReduce 이해 (1)Big Data/Hadoop 2022. 5. 20. 01:49
Keyword : MapReduce, InputSplits, Mapper, Combiner, Partitioner, Shuffling&sorting, Reducer 개인적인 공부를 위해 강의를 정리한 내용입니다. 이번 글에 포함되어 있는 많은 이미지 또한 해당 강의에서 발췌했습니다. 하둡을 처음 공부하시는 분들은 강의 시청을 추천드립니다. MapReduce란 무엇인가? 2004년 구글에서 논문으로 발표했으며, Large Cluster에서 Data processing을 하기 위한 알고리즘입니다. Hadoop MapReduce는 이러한 구글 알고리즘을 소프트웨어 프레임워크로 구현한 구현체입니다. Key-Value 구조가 이 알고리즘의 핵심이며, 데이터의 분산 처리가 가능한 연산에 적합합니다. MapReduc..
-
[개념 정리] 3. 하둡 분산 파일 시스템(HDFS) 이해 (2)Big Data/Hadoop 2022. 5. 17. 23:19
Keyword : Rack Awareness, Safe mode, Block corruption, Hadoop 2.0 Cluster Architecture, High Availability 개인적인 공부를 위해 강의를 정리한 내용입니다. 이번 글에 포함되어 있는 많은 이미지 또한 해당 강의에서 발췌했습니다. 하둡을 처음 공부하시는 분들은 강의 시청을 추천드립니다. Rack Awareness 블록을 저장할 때, 2개의 블록은 같은 Rack에, 나머지 하나의 블록은 다른 Rack에 저장하도록 구성합니다. 이는 전원이나 스위치 고장 등 Rack 단위의 장애가 발생했을 때 전체 블록이 유실되는 것을 방지합니다. HDFS 세이프 모드 세이프 모드(safemode)는 데이터 노드를 수정할 수 없는 상태를 뜻합니다...
-
[개념 정리] 2. 하둡 분산 파일 시스템(HDFS) 이해(1)Big Data/Hadoop 2022. 5. 14. 01:20
Keyword : HDFS, 구글 플랫폼의 철학, 하둡 특성, 하둡 클러스터 네트워크 및 데몬 구성, 블록, 네임노드, 데이터노드 개인적인 공부를 위해 강의를 정리한 내용입니다. 이번 글에 포함되어 있는 많은 이미지 또한 해당 강의에서 발췌했습니다. 하둡을 처음 공부하시는 분들은 강의 시청을 추천드립니다. 하둡 분산 파일 시스템(HDFS) 이해 분산환경은 물리적으로 여러 대의 서버가 하나의 클러스터처럼 동작하는 환경을 뜻합니다. 그런 분산 플랫폼의 구조를 크게 두 개로 나누면 마스터-슬레이브 구조와 마스터가 없는 구조로 나눌 수 있습니다. 마스터-슬레이브 구조는 최종 마스터 역할을 하는 부분이 있고 그 마스터의 관리를 받는 슬레이브들이 있는 구조를 뜻합니다. 슬레이브 서버들은 n대의 서버로 확장할 수 있..
-
[개념 정리] 1. 하둡의 탄생과 생태계의 활용Big Data/Hadoop 2022. 5. 10. 14:39
Keyword : Hadoop의 역사, Hadoop 생태계의 진화 개인적인 공부를 위해 강의를 정리한 내용입니다. 이번 글에 포함되어 있는 많은 이미지 또한 해당 강의에서 발췌했습니다. 하둡을 처음 공부하시는 분들은 강의 시청을 추천드립니다. 하둡의 역사를 살펴보며 왜 하둡이 필요한지, 하둡의 생태계가 어떻게 이루어져 있는지 알아보겠습니다. Why Hadoop? 비정형 데이터를 포함한 빅데이터를 다루는 데 적합한 플랫폼이며, 하둡을 이용하는 기업들이 꾸준히 증가하고 있습니다. 이로 인해 하둡 엔지니어의 수요도 급증하고 있습니다. 하둡은 2007년 탄생 이후 3점대 버전이 나온 성숙한 기술이고, 하둡 에코시스템은 Governance, Finance, Banking, Insurance, Healthcare ..