πŸ“ Week 3: EDA와 μ•½κ°„μ˜ (Dataviz)

oceannΒ·2024λ…„ 8μ›” 23일
0
post-thumbnail

사싀 썸넀일은 μ•„λž˜ λ‚΄μš©κ³Ό λ³„λ‘œ κ΄€λ ¨ μ—†λ‹€.
λ§ˆμ§€λ§‰μ— λ‚˜μ˜€λŠ” ν”„λ‘œμ νŠΈ κ²½ν—˜λ‹΄μ—μ„œ μˆ˜ν–‰ν•œ ν”„λ‘œμ νŠΈμ˜ 둜고일 뿐 γ…Žγ……γ…Ž
μ•„λ¬΄νŠΌ 쒋은 κ²½ν—˜μ΄μ—ˆκΈ°μ—!!! 기둝!!!πŸ“βœοΈ

πŸ’‘
1 νŠΉκ°• μ‹œκ°„μ— λ“€μ—ˆλ˜ 'λ‚˜λ₯Ό μ•Œμž' 잘 μ‹€μ²œν•˜κΈ°
2 책이 읽고 μ‹Άλ‹€λ©΄ 폰을 두고 μΉ΄νŽ˜μ— 갈 것
3 λ°˜λ“œμ‹œ μ§‘μ€‘ν•΄μ„œ 써야 ν•  게 μžˆλ‹€λ©΄ μΆ©μ „κΈ°λ₯Ό 두고 μΉ΄νŽ˜μ— 갈 것
μ†Œκ° 데이터 뢄석에 λŒ€ν•΄μ„œ 잘 와닿지 μ•Šμ•˜μœΌλ©°, μ–΄λ–»κ²Œ ν•΄μ•Ό μž˜ν•˜λŠ” 것인지λ₯Ό ꡬ체적으둜 생각해본 적이 μ—†μ—ˆλŠ”λ° λ‚΄κ°€ ν”„λ‘œμ νŠΈμ— μ μš©ν•˜κΈ° μœ„ν•΄μ„œ κ³ λ―Όν•˜κ³  λ…Έλ ₯ν–ˆλ˜ 과정이 데이터 λΆ„μ„μ΄λΌλŠ” 것을 μ•Œκ³  λΏŒλ“―ν–ˆλ‹€.


데이터 뢄석 μ†Œκ°œ

μ‚°μ—… 혁λͺ…, μΈν„°λ„·μ˜ λ°œμ „ λ“±μœΌλ‘œ 정보화 μ‹œλŒ€λΌλŠ” 단어쑰차 λ“±μž₯ν•œ μ§€ μ˜€λž˜μ΄λ‹€.
ν”„λ‘œμ νŠΈλ₯Ό μˆ˜ν–‰ν•¨μ— μžˆμ–΄μ„œ 숨 쉬듯이 λ‹Ήμ—°ν•˜κ²Œ ν•˜λŠ” 데이터 μˆ˜μ§‘ 및 뢄석 말고, 이 일을 μ™œ ν•˜λŠ”μ§€μ— λŒ€ν•œ λͺ©μ  μ˜μ‹κ³Ό μ±…μž„κ°μ„ κ°–κ³  μ •ν™•νžˆ μ•Œκ³  μˆ˜ν–‰ν•˜λ„λ‘ ν•˜μž.
λ‚˜μ•„κ°€ λΆ„μ„ν•œ 결과에 섀득λ ₯을 μ‹€μ–΄μ£ΌκΈ° μœ„ν•œ μ‹œκ°ν™” λ˜ν•œ μ•Œμ•„λ³΄μž.

데이터 λΆ„μ„μ˜ μ€‘μš”μ„±
데이터 λΆ„μ„μ˜ 직접적인 κ²°κ³Όλ‘œλŠ”, λͺ¨μ§‘λ‹¨μ˜ ν‘œλ³Έμ„ κ°€μ •ν•˜κ³ , ν‘œλ³Έμ„ 톡해 λͺ¨μ§‘단을 μ˜ˆμΈ‘ν•˜λŠ” 것이 μžˆλ‹€. λ”°λΌμ„œ 데이터 뢄석을 μˆ˜ν–‰ν•˜λ©΄ μˆ˜λ§Žμ€ μ–‘μ˜ λͺ¨μ§‘단에 직접 μ ‘κ·Όν•˜μ§€ μ•Šμ•„λ„ 해석(Interpret), μ˜μ‚¬ κ²°μ •(Decision Making), 예츑(Predict) λ“±μ˜ μž‘μ—…μ„ μˆ˜ν–‰ν•  수 μžˆλŠ” 것이닀.

데이터 뢄석을 μˆ˜ν–‰ν•  λ•Œ μ€‘μš”ν•˜κ²Œ κ³ λ €ν•΄μ•Ό ν•  점

1. λ°μ΄ν„°λ‘œ ν•  수 μžˆλŠ” 일인가?
ν•˜κ³ μž ν•˜λŠ” taskκ°€ λ°μ΄ν„°λ‘œ ν•  수 μžˆλŠ” 일인지, 관련이 μ—†λŠ” μ—‰λš±ν•œ μž‘μ—…μΈμ§€λ₯Ό 잘 νŒŒμ•…ν•΄μ•Ό ν•œλ‹€.
Q. 주식과 μ½”μΈμ˜ 가격을 차트만으둜 μ˜ˆμΈ‘ν•  수 μžˆμ„κΉŒ?
A. No. 주식은 κ³Όκ±° κ°’ 뿐만 μ•„λ‹ˆλΌ λ‹Ήμ‹œ μƒν™©μ˜ μ‚¬λžŒλ“€μ— λ°˜μ‘, λΈŒλžœλ“œμ˜ 이미지 λ“± μ£Όλ³€ 상황에 영ν–₯을 λ°›λŠ”λ‹€. 이λ₯Ό λͺ¨λ‘ μ•Œκ³  μžˆλ”λΌλ„ λ‹€μ–‘ν•œ 변동 상황이 μ‘΄μž¬ν•˜κΈ° λ•Œλ¬Έμ— κ³Όκ±° 차트만으둜 μ˜ˆμΈ‘ν•˜κ² λ‹€λŠ” 가정은 잘λͺ»λ˜μ—ˆλ‹€.

2. ν˜„μž¬ λ¦¬μ†ŒμŠ€μ˜ 양이 μΆ©λΆ„ν•œκ°€?
LLM을 κ°œλ°œν•˜κ³ μž ν•  λ•Œ ν˜„μž¬ ν•„μš”ν•œ GPU의 μ–‘, RAM의 크기, λ°μ΄ν„°μ˜ 양은 μΆ©λΆ„ν•œμ§€ 확인해봐야 ν•œλ‹€.

3. λ°μ΄ν„°λ§Œ 있으면 무엇이든 ν•  수 μžˆλŠ”κ°€?
데이터가 '쑴재'ν•˜κΈ°λ§Œ ν•˜λ©΄ μ•ˆ λœλ‹€. λͺ©μ μ— μ ν•©ν•œ 데이터λ₯Ό 적절히 λΆ„μ„ν•΄μ„œ μ–‘μ§ˆμ˜ ν˜•νƒœλ‘œ 가곡해야 νŠΉμ • taskλ₯Ό μˆ˜ν–‰ν•  수 μžˆλŠ” 것이닀.


데이터 λ¬Έν•΄λ ₯

쒋은 데이터 뢄석을 μˆ˜ν–‰ν•˜λ €λ©΄ μ•„λž˜μ˜ μ—­λŸ‰μ„ ν¬ν•¨ν•œ 데이터 λ¬Έν•΄λ ₯(Data Literacy)을 ν•¨κ»˜ κΈΈλŸ¬μ•Ό ν•œλ‹€.

  1. 데이터 뢄석을 μ‹œμž‘ν•˜κΈ° μœ„ν•œ 쒋은 μ§ˆλ¬Έμ„ ν•  수 μžˆλŠ” μ—­λŸ‰
  2. ν•„μš”ν•œ 데이터λ₯Ό μ„ λ³„ν•˜κ³  검증할 수 μžˆλŠ” μ—­λŸ‰
  3. μœ μ˜λ―Έν•œ 결둠을 λ§Œλ“€μ–΄λ‚΄λŠ” μ—­λŸ‰
  4. κ°€μ„€ 기반 A/B testλ₯Ό μˆ˜ν–‰ν•˜μ—¬ κ²°κ³Όλ₯Ό νŒλ³„ν•  수 μžˆλŠ” μ—­λŸ‰
  5. μ΄ν•΄ν•˜κΈ° μ‰½κ²Œ μ μ ˆν•œ λ°©λ²•μœΌλ‘œ μ‹œκ°ν™”λ₯Ό ν•  수 μžˆλŠ” μ—­λŸ‰
  6. 데이터 μŠ€ν† λ¦¬ν…”λ§μ„ 톡해 데이터 뢄석 κ²°κ³Όλ₯Ό μ΄ν•΄ν•˜κ²Œ ν•˜κ³ , 그에 따라 μ‹€ν–‰ν•˜κ²Œ ν•˜λŠ” μ—­λŸ‰

탐색적 데이터 뢄석(EDA, Exploratory Data Analysis)

EDAλž€ 1970λ…„λŒ€ λ―Έκ΅­ μˆ˜ν•™μž John Tukeyκ°€ 처음 κ°œλ°œν•œ 기술둜, μ˜€λŠ˜λ‚ μ—λ„ 데이터 λ””μŠ€μ»€λ²„λ¦¬ ν”„λ‘œμ„ΈμŠ€μ—μ„œ 널리 μ‚¬μš©λ˜λŠ” 방법이닀. EDAλŠ” λͺ¨μˆ˜ μΆ”μ • 전에 ν‘œλ³Έμ˜ 데이터λ₯Ό νŒŒμ•…ν•˜κΈ° μœ„ν•œ 것이닀. λͺ…λ°±ν•œ 였λ₯˜ 식별, νŒ¨ν„΄ 이해, μ΄μƒμΉ˜ 감지, λ³€μˆ˜ κ°„ 관계 νŒŒμ•… λ“± μ μš©ν•˜κ³ μž ν•˜λŠ” taskλ₯Ό μœ„ν•΄ μ™„λ²½ν•œ μ€€λΉ„λ₯Ό μˆ˜ν–‰ν•œλ‹€.

EDA tool을 톡해 μˆ˜ν–‰ν•  수 μžˆλŠ” 기술
λ‹€λ³€λŸ‰μ„ ν¬ν•¨ν•˜λŠ” 고차원 데이터λ₯Ό 보닀 더 잘 μ΄ν•΄ν•˜κΈ° μœ„ν•΄ Clustering 및 차원 μΆ•μ†Œ(PCA)λ₯Ό μˆ˜ν–‰ν•  수 μžˆλ‹€.
원본 λ°μ΄ν„°μ˜ 각 fieldλ₯Ό μš”μ•½μ„ ν¬ν•¨ν•œ μΌλ³€λŸ‰ μ‹œκ°ν™”λ‘œ λ³€ν™˜ν•˜μ—¬ 보닀 직관적인 이해λ₯Ό λ•λŠ”λ‹€.
μš”μ•½μ„ ν¬ν•¨ν•œ μ΄λ³€λŸ‰ μ‹œκ°ν™”λ₯Ό 톡해 λ°μ΄ν„°μ…‹μ˜ 각 field와 νƒ€κ²Ÿ λ³€μˆ˜ κ°„μ˜ 관계λ₯Ό νŒŒμ•…ν•  수 μžˆλ‹€.
λ‹€λ³€λŸ‰ μ‹œκ°ν™”λ₯Ό 톡해 λ°μ΄ν„°μ˜ μ„œλ‘œ λ‹€λ₯Έ fieldκ°„μ˜ μƒν˜Έμž‘μš©μ„ νŒŒμ•…ν•œλ‹€.
K-means Clustering은 μ‹œμž₯ μ„ΈλΆ„ν™”, νŒ¨ν„΄ 인식, 이미지 μ••μΆ• λ“±μ—μ„œ μ‚¬μš©λ˜λŠ” 기법이닀.
Linear Regressionκ³Ό 같은 예츑 λͺ¨λΈμ€ 톡계학과 데이터λ₯Ό ν•¨κ»˜ μ‚¬μš©ν•˜μ—¬ κ²°κ³Όλ₯Ό λ„μΆœν•œλ‹€.

EDA의 λ„€ κ°€μ§€ κΈ°λ³Έ μœ ν˜•
μΌλ³€λŸ‰ non-graphical은 κ°€μž₯ λ‹¨μˆœν•œ μœ ν˜•μœΌλ‘œ, ν•˜λ‚˜μ˜ λ³€λŸ‰λ§Œ 있기 λ•Œλ¬Έμ— 원인과 μƒν˜Έ 관계λ₯Ό νŒŒμ•…ν•  ν•„μš”κ°€ μ—†λ‹€. κ°€μž₯ μ£Όμš”ν•œ taskλŠ” 데이터 λ‚΄ νŒ¨ν„΄μ„ ν¬μ°©ν•˜μ—¬ ν•΄λ‹Ή 데이터λ₯Ό 잘 ν‘œν˜„ν•˜λŠ” 방법을 μ°ΎλŠ” 것이닀.
non-graphicalν•œ 방식은 데이터 κ°„ 관계λ₯Ό μ „λΆ€ νŒŒμ•…ν•  수 μ—†κΈ° λ•Œλ¬Έμ— μΌλ³€λŸ‰ graphical 방식이 ν•„μš”ν•˜λ‹€.

  • Stem-and-leaf plot(쀄기 잎 κ·Έλ¦Ό)은 λͺ¨λ“  데이터와 각 λ³€λŸ‰μ„ ν‘œν˜„ν•œλ‹€.
  • Histogram(λ°” κ·Έλž˜ν”„)은 각 barκ°€ λΉˆλ„μˆ˜ λ˜λŠ” λΉ„μœ¨μ„ λ‚˜νƒ€λ‚Έλ‹€.
  • Box plot(μƒμž κ·Έλ¦Ό)은 μ΅œμ†Ÿκ°’, 3λΆ„μœ„, 쀑앙값, 1λΆ„μœ„, μ΅œλŒ“κ°’μ„ ν•˜λ‚˜μ˜ μ°¨νŠΈμ— ν‘œν˜„ν•  수 μžˆλ‹€.

λ‹€λ³€λŸ‰ non-graphical은 두 개 μ΄μƒμ˜ λ³€λŸ‰μ— λŒ€ν•΄ cross-tabulation(κ΅μ°¨ν‘œ) λ˜λŠ” 톡계적 λ°©μ‹μœΌλ‘œ ν‘œν˜„ν•œλ‹€.
λ‹€μ–‘ν•œ μ‹œκ°ν™” 기법을 ν‘œν˜„ν•œ λ‹€λ³€λŸ‰ graphical 방식도 μžˆλ‹€. κ°€μž₯ 많이 μ‚¬μš©ν•˜λŠ” 방식은 각 λ³€λŸ‰λ“€μ„ ν•˜λ‚˜μ˜ λ ˆλ²¨μ—μ„œ ν‘œν˜„ν•˜μ—¬ μ§κ΄€μ μœΌλ‘œ 비ꡐ가 κ°€λŠ₯ν•œ grouped bar plot이닀.
이 외에도 Scatter plot, Bubble chart, Heat map λ“± λ‹€μ–‘ν•œ μ‹œκ°ν™” 방법이 μžˆλŠ”λ°, HCI(Human Computer Interaction) κ΄€μ μ—μ„œ μ μ ˆν•œ 개수의 데이터λ₯Ό μ μ ˆν•œ 색과 λ°©μ‹μœΌλ‘œ ν‘œν˜„ν•˜λŠ” 것을 직접 μ—°μŠ΅ν•΄λ΄μ•Ό ν•œλ‹€.

좜처
IBM


SoDamTeo

μ†Œλ‹΄ν„°λŠ” μ–Όλ§ˆ μ „κΉŒμ§€ μ§„ν–‰ν–ˆλ˜ ν”„λ‘œμ νŠΈμΈλ°, μ΄λ•Œ μž‘λ¬Ό μ‹œκ°€ 예츑 λͺ¨λΈμ„ ν•™μŠ΅ν•  λ•Œ ν–ˆλ˜ 데이터 뢄석이 기얡에 남아 링크 남기고 κ°‘λ‹ˆλ‹€. γ…Žγ…Ž
클릭클릭

profile
πŸŒˆπŸŒΌπŸŒΈβ˜€οΈ

0개의 λŒ“κΈ€