Apache Hadoop MapReduce programming model์ ์ฌ์ฉํด bigdata dataset์ ๋ถ์ฐ ์ ์ฅ ๋ฐ ์ฒ๋ฆฌํ๋ ์คํ์์ค ์ํํธ์จ์ด ํ๋ ์์ํฌ์ฉ๋์ด ์ปค์ง๋ ์๋์ ๋นํด io ์๋๊ฐ ๋ฐ๋ผ๊ฐ์ง ๋ชปํจ โ ํ๋ก์ผ๋ก ํด๊ฒฐ
Core Filesystems and I/OAbstraction APIs. ์ถ์ํ๋ API์๊ฒฉ ํ๋ก์์ ํธ์ถ(RPC) / Persistence(์ง์์ฑ) Avro Cross-language serialization ์๊ฒฉ ํ๋ก์์ ํธ์ถ(RPC) ๋ฐ ๋ฐ์ดํฐ ์ง๋ ฌํ ํ๋ ์์ํฌ
Intoduction ์ฒ๋ฆฌํด์ผํ ๋ฐ์ดํฐ ์์ด ์ ์ ๋ง์์ง, ๊ธฐ์กด ์๋ฃจ์ ์ ์ง๋ ฌ์ ์ธ ์๋ฃจ์ ์ด ๋ง์์, MapReduce๋ ๋ณ๋ ฌ์ฒ๋ฆฌ ํ๋ก๊ทธ๋๋ฐ ๋ชจ๋ธ, Map๊ณผ Reduce ํจ์๋ฅผ ์ฌ์ฉ, ๋ณต์กํ ๋ํ ์ผ๋ค์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์จ๊ฒจ๋ (parallelization, fault-tole
single drive์์ ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฝ๋๋ค๋ฉด ๋งค์ฐ ๋ง์ ์๊ฐ์ด ์์๋จmultiple disks์์ ํ๋ฒ์ ์ฝ์ผ๋ฉด ์ด๋์ ๋ ๋ฌธ์ ํด๊ฒฐ ๊ฐ๋ฅ100๊ฐ์ ๋๋ผ์ด๋ธ๊ฐ ์๋ค๋ฉด, ๊ฐ๊ฐ 1/100์ ๋ฐ์ดํฐ๋ง ์ฝ๊ธฐ๋ฌธ์ ์ Hardware failure โ replication(๋ณต์ )
National Climatic Data Centerhttp://www.ncdc.noaa.gov/๊ธฐ์ ์ผ์๋ค์ด ์์งํ๋ ๋๋์ ๋ก๊ทธ๋ฐ์ดํฐ โ semi-structured, record-orientedํ ํ์ด ํ๋์ ๋ ์ฝ๋, ํ ๋จ์์ ์์คํค์ฝ๋ ํ์๊ธฐ์๊ด์ธก์๋ณ
MapReduce. Map side์ Reduce side๋ก ๋๋๋ค. Map์ HDFS์์ ๋ฐ์ดํฐ๋ฅผ ์ฝ์ด์จ๋ค. Mapper๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ ๋ ๊ฐ๊ฐ์ Mapper์ Filesystem disk์ intermediate data ์ ์ฅํ๊ฒ ๋๋ฉฐ Reducer์ ๋ฐ์ดํฐ