[Hadoop] HDFS

Engineer EdlinΒ·2022λ…„ 8μ›” 30일
0

Hadoop

λͺ©λ‘ 보기
2/3
post-thumbnail

πŸ”Š Udemy Hadoop 무료 κ°•μ˜λ₯Ό μ •λ¦¬ν•œ λ‚΄μš©μž…λ‹ˆλ‹€.
κ°•μ˜ λ‚΄μš©μ— 이해가 더 ν•„μš”ν•œ λ‚΄μš©μ„ 덧뢙여 μ •λ¦¬ν•˜μ˜€μŠ΅λ‹ˆλ‹€.
μ–Έμ œλ‚˜ ν”Όλ“œλ°±μ€ ν™˜μ˜μž…λ‹ˆλ‹€. μ œκ°€ 잘λͺ» μ•Œκ³  μžˆλŠ” λ‚΄μš©μ΄ μžˆλ‹€λ©΄ μ–Έμ œλ“  μ½”λ©˜νŠΈ λ‹¬μ•„μ£Όμ„Έμš”!


Hadoop Distributed File System

'μ™œ ν•˜λ‘‘μ€ Distributed File System을 μ±„νƒν•œ κ²ƒμΌκΉŒ?'에 λŒ€ν•œ 닡을 μœ„ν•΄ μ°¨κ·Όμ°¨κ·Ό λ‚˜μ•„κ°€λ³΄κ² μŠ΅λ‹ˆλ‹€.

1) 파일 μ‹œμŠ€ν…œμ΄λž€ 무엇이며 μ–΄λ–€ κΈ°λŠ₯을 κ°€μ§€λŠ”κ°€?

  • 데이터λ₯Ό μ–΄λ–»κ²Œ μ €μž₯ν•˜κ³ , μ ‘κ·Ό ν•  수 μžˆλŠ”μ§€μ— κ΄€ν•œ 방법
    • μ–΄λ–€ Data Structureλ₯Ό μ„ νƒν•˜λŠ”μ§€μ— 따라 데이터 μ €μž₯ μœ„μΉ˜μ™€ 방법이 달라진닀.
  • νŒŒμΌλ“€κ³Ό 폴더듀에 λŒ€ν•œ Metadata
  • λ³΄μ•ˆ (μ‚¬μš©μž κΆŒν•œ λ“±)
  • μ €μž₯ 곡간을 관리
    • 빈 곡간을 μ–΄λ–»κ²Œ 효율적으둜 μ‚¬μš©ν•  수 μžˆλŠ” 것인지 λ“±

2) 파일 μ‹œμŠ€ν…œμ€ μ™œ ν•„μš”ν•œ κ²ƒμΌκΉŒ?

  • 파일 μ‹œμŠ€ν…œμ΄ μ—†λ‹€λ©΄, disk에 μ €μž₯된 μ •λ³΄λŠ” ν•˜λ‚˜μ˜ 큰 데이터 덩어리에 μ§€λ‚˜μ§€ μ•ŠλŠ”λ‹€.
  • 데이터λ₯Ό μ €μž₯ν•˜κ³  μ–΄λ”” μœ„μΉ˜ν•˜λŠ”μ§€ μ•ŽμœΌλ‘œμ¨ λ‹€μŒ λ²ˆμ— μ‚¬μš©ν•  수 μžˆλŠ” 것이닀.

3) 파일 μ‹œμŠ€ν…œ μ’…λ₯˜

μžμ„Έν•œ κΈ°λŠ₯은 μ•Œμ§€ λͺ»ν•˜μ§€λ§Œ, μš©μ–΄μ— μΉœμˆ™ν•΄μ§€λŠ” 것이 쒋을 것 κ°™μŠ΅λ‹ˆλ‹€!
λ‹€μŒ λ‚΄μš©μ„ ν΄λ¦­ν•˜μ‹œλ©΄, 차이점에 λŒ€ν•΄ μ‰½κ²Œ κ³΅λΆ€ν•˜μ‹€ 수 μžˆμŠ΅λ‹ˆλ‹€.
FAT, NTFS, exFAT, HFS+ 비ꡐ 참고자료

  • Microsoft - FAT32, NTFS
  • Apple - HFS, HFS+
  • Linux - ext3, ext4, XFS
  • 이 외에도 μ‹œμŠ€ν…œμ— 따라 λ‹€μ–‘ν•œ νŒŒμΌμ‹œμŠ€ν…œμ„ μ±„νƒν•˜κ³  μžˆλ‹€.
  • ν•˜λ‘‘μ€ ext4λ₯Ό μ±„νƒν•˜μ—¬ λΆ„μ‚° μ‹œμŠ€ν…œμ„ κ΄€λ¦¬ν•œλ‹€.

4) ν•˜λ‘‘μ˜ μž₯점

* HDFSμ—μ„œ ext4λ₯Ό μ‚¬μš©ν•œλ‹€κ³  κ°€μ •ν•œλ‹€.

HDFS

  • λΆ„μ‚° ν™˜κ²½μ„ μ§€μ›ν•œλ‹€.
  • 전체 파일이 μ•„λ‹Œ μ €μž₯ 곡간을 λΈ”λŸ­λ‹¨μœ„λ‘œ κ΄€λ¦¬ν•œλ‹€.
  • 데이터λ₯Ό μ€‘λ³΅ν•˜μ—¬ μ €μž₯ν•˜κΈ° λ•Œλ¬Έμ— Fault Tolerance에 κ°•ν•˜λ‹€.
  • ν™•μž₯μ„±: μ„œλ²„λ₯Ό μΆ”κ°€ν•  λ•Œ λΉ λ₯΄κ²Œ μΆ”κ°€ν•  수 μžˆλ‹€.
  • λΉ„μš©: Scale-out λ°©μ‹μœΌλ‘œ κ°’μ‹Ό μ„œλ²„λ₯Ό μ΄μš©ν•˜μ—¬ μ‹œμ„€μ„ μ¦λŒ€ν•  수 μžˆλ‹€.
profile
λ‹΄λŒ€ν•˜κ²Œ λ„μ „ν•˜κ³  기꺼이 μ‹€νŒ¨λ₯Ό λ°›μ•„λ“€μ΄λŠ” 개발자

0개의 λŒ“κΈ€