πŸ“˜μ•„ν‹°ν΄ μŠ€ν„°λ”” 2 - 데이터 λΆ„μ„μ΄λž€ λ¬΄μ—‡μΌκΉŒ?

DonghyunΒ·2024λ…„ 6μ›” 28일
0
post-thumbnail

데이터 λΆ„μ„μ΄λž€ λ¬΄μ—‡μΌκΉŒ?

링크: https://yozm.wishket.com/magazine/detail/1567/

1. β€˜λ°μ΄ν„°β€™ λž€ 무엇인가?

  • λ°μ΄ν„°μ˜ μ •μ˜λŠ” β€˜νŠΉμ • μ‚¬μ‹€μ΄λ‚˜, μ •λ³΄μ˜ 집합’.
  • β€˜μ •μ„±μ  데이터’ 와 β€˜μ •λŸ‰μ  데이터’ 둜 λ‚˜λ‰œλ‹€.

2. β€˜λ°μ΄ν„° 뢄석’ 은 무엇이고, μ™œ μ€‘μš”ν•œ 것인가?

  • 데이터 λΆ„μ„μ΄λž€. 데이터λ₯Ό μ •λ¦¬ν•˜κ³ , λ³€ν™˜ν•˜κ³ , μ‘°μž‘ν•˜κ³ , κ²€μ‚¬ν•¨μœΌλ‘œμ¨ μ›μ‹œ λ°μ΄ν„°μ—μ„œ μœ μš©ν•œ μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•˜λŠ” μž‘μ—….
  • 데이터 뢄석이 μ€‘μš”ν•œ 이유 3가지
    1. 데이터 뢄석을 ν†΅ν•œ 고객 νƒ€κΉƒνŒ… κ°œμ„ 

      1. 데이터 뢄석을 ν†΅ν•˜μ—¬ κ²½μŸμ—…μ²΄λ₯Ό 이해 ν•˜κ³  고객의 λ‹ˆμ¦ˆλ₯Ό 이해할 수 μžˆλ‹€.
      2. 잠재 고객을 데이터 뢄석을 톡해 νŒŒμ•…ν•  수 μžˆλ‹€.
    2. 성곡과 μ„±κ³Όλ₯Ό μΈ‘μ •ν•  수 μžˆλ‹€.

      1. 과거에 μ„±κ³΅ν•˜κ³  μ›ν•˜λŠ” κ²°κ³Όλ₯Ό μ˜μ—­μ΄ 어디인지 νŒŒμ•… (λ‚˜μ˜ 강점 νŒŒμ•…)
      2. 어렀움에 λΆ€λ‹₯친 μ·¨μ•½ν•œ μ˜μ—­μ„ νŒŒμ•… (λ‚˜μ˜ 약점 νŒŒμ•…)

      β†’ μ•žμœΌλ‘œ 더 집쀑해야 ν•  μ˜μ—­κ³Ό 덜 집쀑해야 ν•  μ˜μ—­μ„ νŒŒμ•…ν•  수 μžˆλ‹€.

    3. 문제 해결에 도움이 λœλ‹€.

      1. 뢄석을 톡해 정보 (OR μΈμ‚¬μ΄νŠΈ) λ₯Ό μ–»κ²Œ λ˜μ–΄ μ˜¬λ°”λ₯Έ μ˜μ‚¬κ²°μ •μ΄ κ°€λŠ₯해진닀.

3. 데이터 뢄석 ν”„λ‘œμ„ΈμŠ€ κ°œμš”

  • 1단계 : 닡변이 ν•„μš”ν•œ 질문 인식 및 식별

    • λͺ…ν™•ν•œ λͺ©ν‘œ μ„€μ •
    • μš°λ¦¬κ°€ 데이터 뢄석을 μˆ˜ν–‰ν•˜λŠ” μ΄μœ κ°€ 무엇인지λ₯Ό μ•„λŠ” 것이 μ€‘μš”ν•˜λ‹€.
    • λΉ„μ¦ˆλ‹ˆμŠ€ λͺ©ν‘œμ— λŒ€ν•œ 이해도와 μΈμ‚¬μ΄νŠΈκ°€ μ€‘μš”. (도메인에 λŒ€ν•œ 이해)
    • μ–΄λ–€ 데이터가 ν•„μš”ν•œμ§€κ°€ 이 λ‹¨κ³„μ—μ„œ μ •μ˜λ¨.
  • 2단계 : μ›μ‹œ 데이터 μˆ˜μ§‘

    • μˆ˜μ§‘ν•˜λ €λŠ” 데이터 μœ ν˜•μ΄ 정성적 (λΉ„μˆ˜μΉ˜μ , μ„€λͺ…적) 인지 μ •λŸ‰μ  (숫자적) 인지 λΆ„λ₯˜ν•¨.
  • 3단계 : 데이터 μ •μ œ

    • 데이터λ₯Ό μˆ˜μ§‘ν•˜κ³  λ‚˜λ©΄ ν•΄λ‹Ή λ°μ΄ν„°μ˜ ꡬ쑰 νŒŒμ•…μ΄ ν•„μš”

    • 데이터 μ •μ œλŠ” μ•„λž˜μ˜ μž‘μ—…μ„ 포함함.
      1. 아웃라이어 (λΉ„μ •μƒμ μœΌλ‘œ ν¬κ±°λ‚˜ μž‘μ€ κ°’) μ°ΎκΈ°
      2. μ˜€νƒ€ μˆ˜μ •
      3. 데이터 였λ₯˜ 제거
      4. 쀑볡 데이터 제거
      5. ν˜•μ‹μ˜ 뢈일치 μˆ˜μ •
      6. λˆ„λ½λœ 값을 ν™•μΈν•˜κ±°λ‚˜ 잘λͺ»λœ 데이터 μˆ˜μ •
      7. 일관성이 λ–¨μ–΄μ§€λŠ” 데이터 μˆ˜μ •
      8. 관련성이 μ—†λŠ” 데이터와 뢄석에 μœ μš©ν•˜μ§€ μ•Šκ±°λ‚˜ ν•„μš”ν•˜μ§€ μ•Šμ€ 데이터 제거

      β†’ λ°μ΄ν„°μ˜ ν’ˆμ§ˆμ„ λ†’νžˆκ³ , μ •ν™•ν•˜κ³  μ ν•©ν•œ 데이터에 μ΄ˆμ μ„ 맞좰 뢄석 μˆ˜ν–‰ κ°€λŠ₯.

  • 4단계 : 데이터 뢄석

    1. 기술적 뢄석 (Descriptive Analysis) : μˆ˜μ§‘λœ 데이터λ₯Ό μš”μ•½ν•˜μ—¬ λ°μ΄ν„°μ˜ 핡심 포인트λ₯Ό μ‚΄ν”Όκ³ , 이미 λ²Œμ–΄μ§„ 일에 집쀑함.

      β†’ β€œλ¬΄μŠ¨ 일이 일어났지?” λΌλŠ” μ§ˆλ¬Έμ— λ‹΅ν•˜λŠ” 것이 λͺ©ν‘œ.

    2. 진단적 뢄석 (Diagnostic Analysis) : μˆ˜μ§‘λœ 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ λ‹Ήλ©΄ν•œ 문제의 원인을 μ΄ν•΄ν•˜κ³  νŒ¨ν„΄μ„ μ°Ύμ•„λ‚΄λŠ” 단계.

      β†’ β€œμ™œ 이런 일이 일어났지?” λΌλŠ” μ§ˆλ¬Έμ— λ‹΅ν•˜λŠ” 것이 λͺ©ν‘œ.

    3. 예츑 뢄석 (Predictive Analysis) : 미래 νŠΈλ Œλ“œλ₯Ό κ°μ§€ν•˜κ³  μ˜ˆμΈ‘ν•˜λŠ” 단계.

      β†’ β€œμ•žμœΌλ‘œ μ–΄λ–€ 일이 λ²Œμ–΄μ§ˆκΉŒ?” λΌλŠ” μ§ˆλ¬Έμ— λ‹΅ν•˜λŠ” 것이 λͺ©ν‘œ.

    4. 처방적 뢄석 (Prescriptive Analysis) : μœ„μ˜ μ„Έ λ‹¨κ³„μ—μ„œ 얻은 λͺ¨λ“  μΈμ‚¬μ΄νŠΈλ₯Ό ν•˜λ‚˜λ‘œ λͺ¨μ•„ μ•žμœΌλ‘œ λ‹€κ°€μ˜¬ 일에 λŒ€ν•œ λŒ€λΉ„μ±…μ„ μ„Έμš°κ³  μ‹€ν–‰ κ°€λŠ₯ν•œ κ³„νšμ„ μˆ˜λ¦½ν•˜λŠ” 단계.

      β†’ β€œλ¬΄μ—‡μ„ ν•΄μ•Ό ν• κΉŒ?” λΌλŠ” μ§ˆλ¬Έμ— λ‹΅ν•˜λŠ” 것이 λͺ©ν‘œ.

  • 5단계 : κ²°κ³Ό 곡유

    • κ²°κ³Όλ₯Ό ν•΄μ„ν•˜μ—¬ 쑰직 κ΅¬μ„±μ›μ—κ²Œ κ³΅μœ ν•  수 μžˆλ„λ‘ 데이터 μ‹œκ°ν™” 및 λ‚΄μš© 정리λ₯Ό μ§„ν–‰ν•˜μ—¬ κ²°κ³Όλ₯Ό 곡유
    • 데이터λ₯Ό μ·¨ν•©ν•˜κ³  λ‚΄λŸ¬ν‹°λΈŒλ₯Ό λ§Œλ“€μ–΄ λͺ…ν™•ν•˜κ³  직관적이며 κ°„κ²°ν•˜κ²Œ κ²°κ³Όλ₯Ό μ œμ‹œ

4. 데이터 뢄석에 ν•„μš”ν•œ 기술

  • μˆ˜ν•™κ³Ό 톡계에 λŒ€ν•œ 이해

  • SQL 및 κ΄€κ³„ν˜• 데이터 λ² μ΄μŠ€μ— λŒ€ν•œ 지식

  • ν”„λ‘œκ·Έλž˜λ° μ–Έμ–΄ 지식

  • 데이터 μ‹œκ°ν™” 도ꡬ에 λŒ€ν•œ 지식

  • μ—‘μ…€ 지식

  • μ£Όμš” 포인트 :

    β†’ 데이터 λΆ„μ„μ˜ 핡심은 νŠΈλ Œλ“œλ₯Ό μ‹λ³„ν•˜κ³  μ˜ˆμΈ‘ν•˜λ©°, μˆ˜μ§‘ κ°€λŠ₯ν•œ λͺ¨λ“  λ°μ΄ν„°λ‘œλΆ€ν„° νŒ¨ν„΄κ³Ό 상관관계λ₯Ό νŒŒμ•…ν•˜μ—¬ λ³΅μž‘ν•œ λ¬Έμ œμ— λŒ€ν•œ 해결책을 μ°ΎλŠ” 것.

  • 핡심 κ°œλ… : 정성적 / μ •λŸ‰μ  데이터

  • μš©μ–΄ 정리 :

    • 정성적 데이터 (Qualitative data) :
      • μˆ˜μΉ˜λ‚˜ 양적 μΈ‘μ •μΉ˜λ³΄λ‹€λŠ” 질적인 νŠΉμ„±κ³Ό 속성을 λ‚˜νƒ€λ‚΄λŠ” 데이터
      • μ‚¬λžŒλ“€μ΄ κ²½ν—˜ν•˜λŠ” 감정, 의견, 동기, 행동 νŒ¨ν„΄ 등을 μ΄ν•΄ν•˜κΈ° μœ„ν•΄ μˆ˜μ§‘
      • 정성적 λ°μ΄ν„°μ˜ νŠΉμ§•
        • μ„œμˆ μ : 정성적 λ°μ΄ν„°λŠ” μ„œμˆ μ μ΄λ©°, 숫자둜 ν‘œν˜„λ˜μ§€ μ•ŠμŒ
        • 주관적: 주둜 μ‚¬λžŒλ“€μ˜ 주관적 κ²½ν—˜κ³Ό μ˜κ²¬μ„ λ°˜μ˜ν•¨
        • λ§₯락 μ€‘μš”: 데이터가 μˆ˜μ§‘λœ λ§₯락과 ν™˜κ²½μ΄ μ€‘μš”ν•˜κ²Œ 고렀됨
        • μœ μ—°μ„±: 데이터 μˆ˜μ§‘κ³Ό 뢄석 과정이 μœ μ—°ν•˜λ©°, μ—°κ΅¬μžμ˜ 직관과 해석이 큰 역할을 함
    • μ •λŸ‰μ  데이터 (Quantitative data) :
      • μˆ˜μΉ˜λ‚˜ 양적 μΈ‘μ •μΉ˜λ₯Ό 기반으둜 ν•˜λŠ” 데이터
      • μ •λŸ‰μ  λ°μ΄ν„°λŠ” 객관적이고 μΌλ°˜ν™”ν•  수 μžˆλŠ” κ²°κ³Όλ₯Ό λ„μΆœν•˜λŠ” 데 μ€‘μš”ν•œ μ—­ν• 
      • μ •λŸ‰μ  λ°μ΄ν„°μ˜ νŠΉμ§•
        • 수치적: μ •λŸ‰μ  λ°μ΄ν„°λŠ” 숫자 ν˜•νƒœλ‘œ ν‘œν˜„
        • 객관적: 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” 방법과 κ²°κ³Όκ°€ 객관적이고 μž¬ν˜„ κ°€λŠ₯
        • μΈ‘μ • κ°€λŠ₯: ꡬ체적이고 λͺ…ν™•ν•˜κ²Œ μΈ‘μ •ν•  수 있음
        • 톡계적 뢄석 κ°€λŠ₯: λ‹€μ–‘ν•œ 톡계적 기법을 μ‚¬μš©ν•˜μ—¬ 뢄석가λŠ₯
  • 핡심 κ°œλ… : μ›μ‹œ 데이터, κ΅¬μ‘°ν™”λœ 데이터

  • μš©μ–΄ 정리 :

    • μ›μ‹œ 데이터 (Raw data):
      • νŠΉμ • 도메인, μž₯λ₯΄, 주제 등에 λŒ€ν•˜μ—¬ 쑰건에 맞좰 μˆ˜μ§‘μ€ ν–ˆμ§€λ§Œ 주석 λ‹¨κ³„λŠ” κ±°μΉ˜μ§€ μ•Šμ€ μƒνƒœμ˜ 데이터
      • λͺ©μ μ— λ§žλŠ” μ „μ²˜λ¦¬ 과정을 거쳐 가곡이 λ˜μ–΄μ•Ό ν™œμš© κ°€λŠ₯
    • κ΅¬μ‘°ν™”λœ 데이터(Structured data):
      • μ •ν˜• 데이터라고도 λΆ€λ₯΄λ©°, 이름 κ·ΈλŒ€λ‘œ 정해진 μΌμ •ν•œ ν˜•μ‹μœΌλ‘œ ꡬ쑰화가 λ˜μ–΄μžˆλŠ” 데이터
      • μ „μ²˜λ¦¬κ°€ ν•„μš”ν•˜λ©° μ’…λ₯˜λ‘œλŠ” λŒ€ν‘œμ μœΌλ‘œ RDBκ°€ 있고, κ·Έ 외에도 μ—‘μ…€, μŠ€ν”„λ ˆλ“œ μ‹œνŠΈ, csvκ°€ μžˆλ‹€
      • μž₯점
        • μ „μ²˜λ¦¬ λ˜μ–΄ 있기 λ•Œλ¬Έμ— μ‰½κ²Œ 쿼리λ₯Ό μ‚¬μš©ν•˜κ±°λ‚˜ 연산이 κ°€λŠ₯ν•˜λ‹€. κ·Έ λ•Œλ¬Έμ— λ¨Έμ‹  λŸ¬λ‹ μ•Œκ³ λ¦¬μ¦˜μ—λ„ μ‰½κ²Œ μ‚¬μš©ν•  수 μžˆλ‹€.
        • κ΅¬μ‘°ν™”λœ λ°μ΄ν„°λŠ” μ˜€λž˜μ „λΆ€ν„° μ‚¬μš©λœ 만큼 λ§Žμ€ μ‚¬λžŒλ“€μ΄ μ‚¬μš©ν•˜κ³  있으며, λ‹€μ–‘ν•œ νˆ΄μ—μ„œλ„ 지원이 λœλ‹€.
      • 단점
        • μ „μ²˜λ¦¬ λΉ„μš©μ΄ ν•„μš”ν•˜λ‹€.
        • μ €μž₯μ†Œκ°€ λ°”λ€Œλ©΄μ„œ λ‹€λ₯Έ ν˜•νƒœλ‘œ ꡬ쑰화해야할 κ²½μš°μ—λ„ λ§Žμ€ λΉ„μš©μ΄ ν•„μš”ν•˜λ‹€.
profile
데이터뢄석 곡뢀 일기~!

0개의 λŒ“κΈ€