πŸ“‘ Project2 'μ”¬νŒŒμΌλŸ¬λ₯Ό μœ„ν•œ μ‹ μš©ν‰κ°€ 예츑λͺ¨ν˜•' 회고

ν‚€ν‚€Β·2021λ…„ 11μ›” 12일
1

Project

λͺ©λ‘ 보기
2/2
post-thumbnail

1. 전달λ ₯

이번 ν”„λ‘œμ νŠΈλŠ” μ‹œκ°„μ— μ«“κ²¨μ„œ ν•΄μ•Ό ν•  말을 λͺ»ν•˜κ³  λΆ€λž΄λΆ€λž΄ 끝낸 것 κ°™μ•„ 아쉽닀.
κ·Έλž˜μ„œ λ°œν‘œ μ˜μƒμ„ 찍을 λ•Œ 'μ™œ μ΄λ ‡κ²Œ 뢄석을 μ§„ν–‰ν–ˆλŠ”μ§€', 'μ–΄λ–€ 방식이 μ“°μ˜€λŠ”μ§€' 이런 λ‚΄μš©μ΄ 빠진 것 κ°™λ‹€. λ‹€μŒμ—λŠ” λ°œν‘œν•  λ•Œ 체크리슀트λ₯Ό μž‘μ„±ν•΄μ„œ μ„€λͺ…을 μΆ”κ°€ν•˜μž.

2. λ°œν‘œ 주제

λͺ¨λΈ μ„±λŠ₯이 쒋지 μ•Šμ•„μ„œ 계속 κ°œμ„ ν•˜λ‹€κ°€ ν•œκ³„λ§Œ μ–ΈκΈ‰ν•˜κ³  κ²°κ΅­ 결둠을 μ œλŒ€λ‘œ 내리지 λͺ»ν–ˆλ‹€. λ˜ν•œ λͺ¨λΈλ§ κ²°κ³Όλ₯Ό μ œλŒ€λ‘œ 짚고 가지 λͺ»ν•œ 것 κ°™λ‹€.

3. λ°œν‘œ 자료

λ°œν‘œ μžλ£ŒλŠ” μ½”λž©μœΌλ‘œ ν–ˆλŠ”λ° ppt보닀 전달λ ₯은 λ–¨μ–΄μ§€μ§€λ§Œ μ‹œκ°„μ„ 쀄일 수 μžˆμ–΄μ„œ μ’‹μ•˜λ‹€.

4. 데이터

μ΄λ²ˆμ— λΆ„μ„ν•˜λ©΄μ„œ λŠλ‚€ 건 데이터가 μ–΄λ–€ 게 λ“€μ–΄κ°€λŠλƒμ— λ”°λΌμ„œ μ™„μ „νžˆ 과적합 될 μˆ˜λ„ 있고, 예츑이 μ „ν˜€ λ˜μ§€ μ•Šμ„ μˆ˜λ„ μžˆλ‹€λŠ” 것을 λŠκΌˆλ‹€. 의미 μžˆλŠ” 데이터 선택 방식에 λŒ€ν•΄ 더 곡뢀해야 ν•  것 κ°™λ‹€.

βœ” λ‹€μŒ λΆ„μ„μ‹œ ν™œμš©ν•  체크리슀트

  • μ²˜μŒμ— 뢄석 μ „λ°˜μ μΈ λͺ©μ°¨λ₯Ό 적어주고 μ„€λͺ…ν•˜μž(νšŒκ·€or λΆ„λ₯˜μΈμ§€, λͺ¨λΈ 뭐 쓸지
  • κ°€μ„€ λ˜λŠ” 문제 μ •μ˜
  • 데이터 μ„€λͺ…(μƒ˜ν”Œ λͺ‡κ°œ, 데이터 좜처)
  • ν”Όμ²˜ μ„€λͺ…(μˆ˜μΉ˜ν˜• λͺ‡κ°œ, λ²”μ£Όν˜• λͺ‡κ°œ)
  • μ „μ²˜λ¦¬
  • EDA (데이터 λΆ„ν¬λ‚˜ μ „μ²΄μ μœΌλ‘œ λ‚˜νƒ€λ‚Ό 수 μžˆλŠ” μ‹œκ°μžλ£Œ 포함)
  • ν•˜μ΄νΌ νŒŒλΌλ―Έν„° νŠœλ‹ 방식
  • λͺ¨λΈ μ„€λͺ…
  • 평가 μ§€ν‘œ μ„€λͺ…(μ™œ μΌλŠ”μ§€, μ–΄λ–€ 방식인지)
  • 결과해석(μ™œ μΌλŠ”μ§€, μ–΄λ–€κ²Œ κ°€μž₯ μ€‘μš”ν–ˆλŠ”μ§€, 어떀것이 μƒκ°μ™Έμ˜ 결과인지)
  • κ²°λ‘ (μ²˜μŒμ— μ„Έμš΄ κ°€μ„€μ΄λ‚˜ λ¬Έμ œμ™€ 연결지어 μ„€λͺ…)

5. 동기 ν”Όλ“œλ°±

  • μ’‹μ•˜λ˜ 점 :
    λ¨Όμ € μ£Όμ œμ— λŒ€ν•œ 이해λ₯Ό 잘 ν•˜μ…¨λ‹€κ³  μƒκ°ν–ˆμŠ΅λ‹ˆλ‹€. μ”¬νŒŒμΌλŸ¬μ— λŒ€ν•œ λ‚΄μš©κ³Ό, μ±„λ¬΄λΆˆμ΄ν–‰μ„ 예츑 ν•˜κ² λ‹€λŠ” ν”„λ‘œμ νŠΈμ˜ λͺ©ν‘œκ°€ λΆ„λͺ…ν•˜λ‹€κ³  λŠκΌˆμŠ΅λ‹ˆλ‹€. 그리고 λΆ„λ₯˜ 문제둜 잘 ν’€μ–΄λ‚΄μ…¨λ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€. μ „μ²˜λ¦¬ λΆ€λΆ„μ—μ„œ λΆˆκ· ν˜•λ°μ΄ν„°λ₯Ό νŒŒμ•…ν•˜μ‹œκ³  이λ₯Ό 잘 λ°ΈλŸ°μ‹± ν–ˆλ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€. 특히 κ²°λ‘  뢀뢄도 μ΄λŸ¬ν•œ 뢀뢄을 κ³ λ €ν•˜μ—¬ 두 λΆ€λΆ„μœΌλ‘œ λ‚˜λˆ μ„œ λ°œν‘œν•˜μ…¨λ˜ 것이 μΈμƒκΉŠμ—ˆμŠ΅λ‹ˆλ‹€. κ²°κ³Ό 해석 λΆ€λΆ„μ—μ„œ μ‹œκ°ν™”λ‘œ 잘 ν‘œν˜„ν•˜μ…¨κ³ , ν•œκ³„μ κΉŒμ§€ 잘 μ •λ¦¬λœ λ°œν‘œμ˜€μŠ΅λ‹ˆλ‹€!
  • μ•„μ‰¬μš΄ 점 :
    μ „λ°˜μ μœΌλ‘œ 쒋은 λ°œν‘œμ˜€κ³ , λ§μ”€ν•΄μ£Όμ‹ λŒ€λ‘œ 더 λ§Žμ€ 데이터가 ν™•λ³΄λœλ‹€λ©΄ 더 쒋은 결둠을 λ„μΆœν•  것 κ°™μŠ΅λ‹ˆλ‹€. 수고 λ§ŽμœΌμ…§μŠ΅λ‹ˆλ‹€.
  • μ’‹μ•˜λ˜ 점 :
    도메인 지식이 μ—†μ§€λ§Œ μ•žλΆ€λΆ„μ—μ„œ μš©μ–΄μ— λŒ€ν•΄ μƒμ„Έν•˜κ²Œ μ„€λͺ…ν•΄μ£Όμ…”μ„œ μ΄ν•΄ν•˜κΈ° μ‰¬μ› μŠ΅λ‹ˆλ‹€. νŠΉμ„±λ“€μ„ ν‘œλ‘œ λ‚˜νƒ€λ‚΄κ³ , 그룹을 λ¬Άμ–΄ ν‘œν˜„ν•˜μ‹  뢀뢄도 ν•œ λˆˆμ— λ“€μ–΄μ™€μ„œ μ’‹μ•˜μŠ΅λ‹ˆλ‹€.
    λΆ€μ‘±ν•œ 라벨을 Oversamplingν•œ 뢀뢄이 μ‹ κΈ°ν–ˆμŠ΅λ‹ˆλ‹€.
    μ„Έμ…˜μ— μ—†μ—ˆλ˜ λ‹€μ–‘ν•œ λͺ¨λΈμ„ μ‚¬μš©ν•˜μ‹  뢀뢄이 μΈμƒκΉŠμ—ˆμŠ΅λ‹ˆλ‹€. 항상 μ—΄μ‹¬νžˆ ν•˜λŠ” λͺ¨μŠ΅μ— μžκ·Ήλ°›κ³  μžˆμŠ΅λ‹ˆλ‹€πŸ”₯
    λŒ€μΆœμ„ μƒν™˜ν•œ 고객, μƒν™˜ν•˜μ§€ λͺ»ν•œ 고객을 λ‚˜λˆ  λͺ¨λΈμ„ ν•΄μ„ν•˜μ‹  뢀뢄도 μ’‹μ•˜μŠ΅λ‹ˆλ‹€. 저도 이 λΆ€λΆ„μ—μ„œ 고민이 μžˆμ—ˆλŠ”λ° μ„ν¬λ‹˜κ³Ό 같은 λ°©λ²•μœΌλ‘œ 해봐야겠닀고 μƒκ°ν–ˆμŠ΅λ‹ˆλ‹€.
    λΆ„μ„μ˜ ν•œκ³„λ₯Ό μƒμ„Έν•˜κ²Œ μ•Œλ €μ£Όμ‹  뢀뢄이 μ’‹μ•˜μŠ΅λ‹ˆλ‹€.
  • μ•„μ‰¬μš΄ 점 : μ•„μ‰¬μ› λ˜ 점은 λ”°λ‘œ μ—†μ—ˆμŠ΅λ‹ˆλ‹€.
  • μ’‹μ•˜λ˜ 점 :
  1. 문제λ₯Ό μ •μ˜ν•œ λ‹€μŒ 데이터λ₯Ό μ„ μ •ν•˜κ³  그것을 ν•΄κ²°ν•˜κΈ° μœ„ν•΄ λΆ„λ₯˜ 문제둜 ν‘Όλ‹€λŠ” λ‚΄μš©μ΄ κΉ”λ”ν•˜κ²Œ 잘 μ •λ¦¬λœκ²ƒ κ°™μ•„ μ’‹μ•˜μŠ΅λ‹ˆλ‹€.
    (ν”„λ‘œμ νŠΈμ˜ λͺ©μ μ„ μ •ν™•νžˆ μ΄ν•΄ν•˜κΈ° μ‰½κ²Œ 잘 μ„€λͺ…λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 저도 λ‹€μŒλ²ˆμ— μ°Έκ³ ν•΄μ•Όκ² λ„€μš”)
  • μ•„μ‰¬μš΄ 점 :
  1. 데이터 μ „μ²˜λ¦¬μ‹œ μ™œ κ·Έλ ‡κ²Œ λ¬Άμ–΄μ€¬λŠ”μ§€μ— λŒ€ν•œ μ‹œκ°ν™” μžλ£Œλ‚˜ μ„€λͺ…이 μžˆμ—ˆμœΌλ©΄ 더 μ’‹μ•˜μ„ 것 κ°™μŠ΅λ‹ˆλ‹€.
  2. λͺ¨λΈλ§ κ²°κ³Όλ₯Ό ν‘œλ„ μ’‹μ§€λ§Œ κ·Έλž˜ν”„λ‘œ ν‘œν˜„ν•΄μ„œ '(1)κΈ°λ³Έ'끼리 λ¬Άμ–΄μ„œ ν”„λž˜ν”„ 1개 '(2)클래슀 λΆˆκ· ν˜• μ‘°μ •'끼리 λ¬Άμ–΄μ„œ κ·Έλž˜ν”„ 1개둜 ν‘œν˜„ν–ˆμœΌλ©΄ 더 보기 μ’‹μ•˜μ„ 것 κ°™μŠ΅λ‹ˆλ‹€.
  3. λΆ„λ₯˜λœ(λŒ€μΆœ 상황/λ―Έμƒν™˜) 고객별 νŠΉμ„±μ„ λΆ„μ„ν• λ•Œ, SHAPλ₯Ό μ‚¬μš©ν•΄μ„œ μ„€λͺ…을 ν•  λ•Œ, row둜 ν•œ ν–‰λ§Œ μ§€μ •ν•˜μ‹œκ³  그것을 톡해 뢄석을 ν•˜μ‹œλŠ”λ° ν•΄λ‹Ή 행이 κ·Έ λΆ„λ₯˜λœ 그룹을 λŒ€ν‘œν• μˆ˜ μžˆμ„κΉŒ?λΌλŠ” 생각이 λ“€μ—ˆμŠ΅λ‹ˆλ‹€.
    μ’€ 더 λ²”μœ„λ₯Ό λ„£κ²Œ 지정(ν΄λŸ¬μŠ€ν„°λ§)ν•˜μ—¬ κ·Έλž˜ν”„λ₯Ό ν‘œν˜„ν•΄μ„œ λ³΄μ—¬μ£Όμ‹œκ±°λ‚˜, Summuy plot을 μ‚¬μš©ν•΄μ„œ λ³΄μ—¬μ€¬μœΌλ©΄ 더 쒋지 μ•Šμ•˜μ„κΉŒ μƒκ°λ©λ‹ˆλ‹€.

0개의 λŒ“κΈ€