Big Data/Hadoop
-
-
[개념 정리] 하둡 MapReduce 이해 (1)Big Data/Hadoop 2022. 5. 20. 01:49
Keyword : MapReduce, InputSplits, Mapper, Combiner, Partitioner, Shuffling&sorting, Reducer 개인적인 공부를 위해 강의를 정리한 내용입니다. 이번 글에 포함되어 있는 많은 이미지 또한 해당 강의에서 발췌했습니다. 하둡을 처음 공부하시는 분들은 강의 시청을 추천드립니다. MapReduce란 무엇인가? 2004년 구글에서 논문으로 발표했으며, Large Cluster에서 Data processing을 하기 위한 알고리즘입니다. Hadoop MapReduce는 이러한 구글 알고리즘을 소프트웨어 프레임워크로 구현한 구현체입니다. Key-Value 구조가 이 알고리즘의 핵심이며, 데이터의 분산 처리가 가능한 연산에 적합합니다. MapReduc..
-
[개념 정리] 3. 하둡 분산 파일 시스템(HDFS) 이해 (2)Big Data/Hadoop 2022. 5. 17. 23:19
Keyword : Rack Awareness, Safe mode, Block corruption, Hadoop 2.0 Cluster Architecture, High Availability 개인적인 공부를 위해 강의를 정리한 내용입니다. 이번 글에 포함되어 있는 많은 이미지 또한 해당 강의에서 발췌했습니다. 하둡을 처음 공부하시는 분들은 강의 시청을 추천드립니다. Rack Awareness 블록을 저장할 때, 2개의 블록은 같은 Rack에, 나머지 하나의 블록은 다른 Rack에 저장하도록 구성합니다. 이는 전원이나 스위치 고장 등 Rack 단위의 장애가 발생했을 때 전체 블록이 유실되는 것을 방지합니다. HDFS 세이프 모드 세이프 모드(safemode)는 데이터 노드를 수정할 수 없는 상태를 뜻합니다...
-
[개념 정리] 2. 하둡 분산 파일 시스템(HDFS) 이해(1)Big Data/Hadoop 2022. 5. 14. 01:20
Keyword : HDFS, 구글 플랫폼의 철학, 하둡 특성, 하둡 클러스터 네트워크 및 데몬 구성, 블록, 네임노드, 데이터노드 개인적인 공부를 위해 강의를 정리한 내용입니다. 이번 글에 포함되어 있는 많은 이미지 또한 해당 강의에서 발췌했습니다. 하둡을 처음 공부하시는 분들은 강의 시청을 추천드립니다. 하둡 분산 파일 시스템(HDFS) 이해 분산환경은 물리적으로 여러 대의 서버가 하나의 클러스터처럼 동작하는 환경을 뜻합니다. 그런 분산 플랫폼의 구조를 크게 두 개로 나누면 마스터-슬레이브 구조와 마스터가 없는 구조로 나눌 수 있습니다. 마스터-슬레이브 구조는 최종 마스터 역할을 하는 부분이 있고 그 마스터의 관리를 받는 슬레이브들이 있는 구조를 뜻합니다. 슬레이브 서버들은 n대의 서버로 확장할 수 있..
-
[개념 정리] 1. 하둡의 탄생과 생태계의 활용Big Data/Hadoop 2022. 5. 10. 14:39
Keyword : Hadoop의 역사, Hadoop 생태계의 진화 개인적인 공부를 위해 강의를 정리한 내용입니다. 이번 글에 포함되어 있는 많은 이미지 또한 해당 강의에서 발췌했습니다. 하둡을 처음 공부하시는 분들은 강의 시청을 추천드립니다. 하둡의 역사를 살펴보며 왜 하둡이 필요한지, 하둡의 생태계가 어떻게 이루어져 있는지 알아보겠습니다. Why Hadoop? 비정형 데이터를 포함한 빅데이터를 다루는 데 적합한 플랫폼이며, 하둡을 이용하는 기업들이 꾸준히 증가하고 있습니다. 이로 인해 하둡 엔지니어의 수요도 급증하고 있습니다. 하둡은 2007년 탄생 이후 3점대 버전이 나온 성숙한 기술이고, 하둡 에코시스템은 Governance, Finance, Banking, Insurance, Healthcare ..