ETL

Simba_bΒ·2022λ…„ 10μ›” 29일
0
post-thumbnail

πŸ“ ETL

ETL : μΆ”μΆœ(Extract) βž” λ³€ν™˜(Transform) βž” λ‘œλ“œ(Load) ν”„λ‘œμ„ΈμŠ€
μ—¬λŸ¬ μ‹œμŠ€ν…œμ˜ 데이터λ₯Ό 단일 λ°μ΄ν„°λ² μ΄μŠ€, 데이터 μ €μž₯μ†Œ, 데이터 μ›¨μ–΄ν•˜μš°μŠ€ λ˜λŠ” 데이터 λ ˆμ΄ν¬μ— κ²°ν•©ν•˜κΈ° μœ„ν•΄ 일반적으둜 μ‹œν–‰ν•˜λŠ” νŒŒμ΄ν”„λΌμΈ

μΆ”μΆœ(Extract)
원본 λ°μ΄ν„°λ² μ΄μŠ€ λ˜λŠ” 데이터 μ†ŒμŠ€μ—μ„œ μ†ŒμŠ€ 데이터λ₯Ό μΆ”μΆœν•˜λŠ” 것

  • λΆ€λΆ„ μΆ”μΆœ - λ³€κ²½λœ λ ˆμ½”λ“œ μΆ”μΆœ
  • 전체 μΆ”μΆœ - μ–΄λŠ 데이터가 λ³€κ²½λ˜μ—ˆλŠ”μ§€ μ „ν˜€ νŒŒμ•…ν•  수 μ—†λŠ” μ‹œμŠ€ν…œμΌ 경우 μ‚¬μš©, λ§ˆμ§€λ§‰ μΆ”μΆœμ˜ 사본을 같은 ν˜•μ‹μœΌλ‘œ μΆ”μΆœν•˜μ—¬ λ³€κ²½ 사항을 확인

λ³€ν™˜(Transform)
μ›μ‹œ 데이터λ₯Ό λ³€ν™˜ν•˜μ—¬ λ‹€μ–‘ν•˜κ²Œ μ‚¬μš©ν•  수 μžˆλŠ” ν˜•μ‹μœΌλ‘œ 지정

  • 필터링, μ •λ ¬, 집계, 데이터 쑰인, 데이터 정리, 쀑볡 제거 및 데이터 μœ νš¨μ„± 검사 λ“±μ˜ λ‹€μ–‘ν•œ μž‘μ—…μ΄ 포함
  • λ°μ΄ν„°μ˜ ν’ˆμ§ˆκ³Ό 무결성을 보μž₯
  • μ€€λΉ„(staging) λ°μ΄ν„°λ² μ΄μŠ€μ— μ—…λ‘œλ“œν•˜λŠ” 것이 보편적(λ‘€λ°±ν•  수 μžˆλ„λ‘)

λ‘œλ“œ(Load)
λ³€ν™˜λœ 데이터λ₯Ό μŠ€ν…Œμ΄μ§• μ˜μ—­μ—μ„œ λŒ€μƒ 데이터 μ›¨μ–΄ν•˜μš°μŠ€λ‘œ 이동




ETL μ²˜λ¦¬λ°©μ‹

배치 처리 : μž‘μ—…μ΄ ν•œ λ²ˆμ— μ‹€ν–‰λ˜κ³ , 일뢀 데이터λ₯Ό λΆˆλŸ¬μ™€ μ²˜λ¦¬ν•œ λ‹€μŒ μ’…λ£Œ
슀트림 처리 : ν”„λ‘œμ„ΈμŠ€κ°€ λŠκΉ€ 없이 μ‹€ν–‰λ˜μ–΄ μ†ŒμŠ€μ— ν‘œμ‹œλœ μ¦‰μ‹œ 데이터λ₯Ό μ–»λŠ” 것이 κ°€λŠ₯




ETL μž₯점

  • ETL ν”„λ‘œμ„ΈμŠ€λ₯Ό μ μš©ν•˜μ—¬ κ°œλ³„ μ›μ‹œ 데이터 μ„ΈνŠΈλ₯Ό λΆ„μ„μš©μœΌλ‘œ μ ν•©ν•˜λ„λ‘ 보닀 μ†ŒλΉ„ν•˜κΈ° μ‰¬μš΄ ν˜•μ‹κ³Ό ꡬ쑰둜 μ€€λΉ„ κ°€λŠ₯
  • μ •κ΅ν•œ λ³€ν™˜ μˆ˜ν–‰ κ°€λŠ₯
  • 민감 데이터 λ§ˆμŠ€ν‚Ή λ˜λŠ” μ•”ν˜Έν™” κ°€λŠ₯

ETL에 μˆ˜λ°˜λ˜λŠ” ν•„μš”μ‚¬ν•­

  • μ•ˆμ •μ μΈ 데이터 νŒŒμ΄ν”„λΌμΈμ„ ꡬ좕, μœ μ§€ ν•„μš”
  • 데이터 ν’ˆμ§ˆμ„ μœ μ§€

0개의 λŒ“κΈ€