chapter3 D-5 TIL

ν™μœ νƒΒ·2025λ…„ 1μ›” 22일

λ¨Έμ‹ λŸ¬λ‹ μ˜€ν”„λ‹ 1

01. λ¨Έμ‹ λŸ¬λ‹μ˜ μ •μ˜μ™€ ν•„μš”μ„±

1) λ¨Έμ‹ λŸ¬λ‹μ΄λž€ 무엇인가?

πŸ‘‰ λ¨Έμ‹ λŸ¬λ‹ μ΄λž€?

  • κΈ°κ³„ν•™μŠ΅ λ˜λŠ” λ¨Έμ‹ λŸ¬λ‹μ€ 기계(컴퓨터)κ°€ ν•™μŠ΅μ„ ν•  수 μžˆλ„λ‘ ν•˜λŠ” 연ꡬ뢄야
  • 인곡지λŠ₯을 μ†Œν”„νŠΈμ›¨μ–΄μ μœΌλ‘œ κ΅¬ν˜„ν•˜λŠ” λ¨Έμ‹ λŸ¬λ‹μ€ 컴퓨터가 데이터λ₯Ό ν•™μŠ΅ν•˜κ³  슀슀둜 νŒ¨ν„΄μ„ μ°Ύμ•„λ‚΄ μ μ ˆν•œ μž‘μ—…μ„ μˆ˜ν–‰ν•˜λ„λ‘ ν•™μŠ΅ν•˜λŠ” μ•Œκ³ λ¦¬μ¦˜
  • Tom Mitchell(CMU ꡐ수)의 μ •μ˜:
    "μ–΄λ–€ 컴퓨터 ν”„λ‘œκ·Έλž¨μ΄ νŠΉμ • μž‘μ—…(T)에 λŒ€ν•΄ μ„±λŠ₯ μ§€ν‘œ(P)둜 μΈ‘μ •ν–ˆμ„ λ•Œ, κ²½ν—˜(E)을
    톡해 μ„±λŠ₯이 ν–₯μƒλœλ‹€λ©΄, κ·Έ ν”„λ‘œκ·Έλž¨μ€ ν•™μŠ΅ν•œλ‹€κ³  말할 수 μžˆλ‹€."
    이λ₯Ό QA/QC κ΄€μ μ—μ„œ ν•΄μ„ν•˜λ©΄ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€:

λ¨Έμ‹  λŸ¬λ‹μ€ 3κ°€μ§€ 핡심 μš”μ†Œλ₯Ό μ–ΈκΈ‰ν•˜κ³  μžˆμŠ΅λ‹ˆλ‹€.

  • μž‘μ—…(T): μ œν’ˆ 결함 탐지, 생산 곡정 λͺ¨λ‹ˆν„°λ§, ν’ˆμ§ˆ 평가 λ“±
  • μ„±λŠ₯ μ§€ν‘œ(P): 정확도, 정밀도, μž¬ν˜„μœ¨ λ“±
  • κ²½ν—˜(E): μˆ˜μ§‘λœ 생산 데이터, 검사 기둝, 곡정 μ„Όμ„œ 데이터 λ“±
  • μ˜ˆμ‹œ 데이터셋
    μž₯λΉ„ 이상 탐지(μž‘μ—… T)λ₯Ό (정상/비정상) λΆ„λ₯˜ν•˜λŠ” λͺ¨λΈμ„ λ§Œλ“œλŠ” μž‘μ—…μ— λŒ€ν•΄ 생각해 λ΄…
    μ‹œλ‹€.
    [μž₯λΉ„ μ„Όμ„œ 데이터셋(κ²½ν—˜E) β†’ μž₯λΉ„ 이상 탐지 λΆ„λ₯˜ λͺ¨λΈ μ‹€ν–‰ β†’ 정확도(μ„±λŠ₯ μ§€ν‘œ P)
    확인 β†’ 정확도 ν–₯상을 μœ„ν•œ λͺ¨λΈ μ—…λ°μ΄νŠΈ] 의 반볡

2) λ¨Έμ‹ λŸ¬λ‹, AI, λ”₯λŸ¬λ‹

  • λ”₯ λŸ¬λ‹ β†’ λ¨Έμ‹  λŸ¬λ‹ β†’ AI 순으둜 κ·Έ κ°œλ…μ˜ λ²”μœ„κ°€ λ„“μ–΄μ§‘λ‹ˆλ‹€.
  • AI: 마치 μΈκ°„μ²˜λŸΌ ν•™μŠ΅ 및 좔둠을 ν•  수 μžˆλ„λ‘ λ§Œλ“€μ–΄μ§„ ν”„λ‘œκ·Έλž¨
  • λ¨Έμ‹  λŸ¬λ‹: 데이터λ₯Ό ν™œμš©ν•΄ λͺ…μ‹œμ μœΌλ‘œ ν”„λ‘œκ·Έλž˜λ°λ˜μ§€ μ•Šκ³ λ„ ν•™μŠ΅ν•  수 μžˆλŠ” μ•Œκ³ λ¦¬μ¦˜
  • λ”₯ λŸ¬λ‹: λ¨Έμ‹  λŸ¬λ‹μ˜ μ’…λ₯˜ 쀑 ν•˜λ‚˜λ‘œ 인곡 신경망을 μ΄μš©ν•΄ κ±°λŒ€ν•œ 데이터셋을 ν•™μŠ΅ν•˜λŠ” 방법

3) 빅데이터와 λ¨Έμ‹ λŸ¬λ‹

  • λΉ…λ°μ΄ν„°λž€?
    말 κ·ΈλŒ€λ‘œ κ³Όκ±°μ™€λŠ” 비ꡐ가 μ•ˆλ˜λŠ” μ—„μ²­λ‚œ 규λͺ¨μ˜ 데이터λ₯Ό μΉ­ν•˜λŠ” μš©μ–΄μž…λ‹ˆλ‹€.

- λΉ…λ°μ΄ν„°μ˜ 5κ°€μ§€ νŠΉμ§• (5V)

  • Volume (데이터 μ–‘):

λ°©λŒ€ν•œ μ–‘μ˜ 데이터.

ν˜„λŒ€ μ‚¬νšŒμ—μ„œλŠ” μ†Œμ…œ λ―Έλ””μ–΄, μ„Όμ„œ, 거래 기둝 λ“±μœΌλ‘œ 인해 맀일 μ—„μ²­λ‚œ 데이터가 μƒμ„±λ©λ‹ˆλ‹€.

λ¨Έμ‹ λŸ¬λ‹μ€ μ΄λ ‡κ²Œ λ§Žμ€ 데이터λ₯Ό ν™œμš©ν•΄ νŒ¨ν„΄μ„ ν•™μŠ΅ν•˜κ³  μ˜ˆμΈ‘ν•  수 있음.

  • Variety (데이터 λ‹€μ–‘μ„±):

λ‹€μ–‘ν•œ 데이터 ν˜•μ‹(ν…μŠ€νŠΈ, 이미지, μ˜€λ””μ˜€, λΉ„λ””μ˜€ λ“±).

μ—¬λŸ¬ μ†ŒμŠ€μ—μ„œ 데이터λ₯Ό μˆ˜μ§‘ν•˜λ©°, λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈμ€ 이 λ‹€μ–‘ν•œ 데이터λ₯Ό μ²˜λ¦¬ν•˜κ³  λΆ„μ„ν•˜λŠ” 데 도움을 쀌.

  • Velocity (데이터 속도):

데이터 생성 속도.

μ‹€μ‹œκ°„ 슀트리밍 λ°μ΄ν„°μ²˜λŸΌ λΉ λ₯΄κ²Œ μƒμ„±λ˜λŠ” 데이터λ₯Ό 뢄석할 ν•„μš”κ°€ 있음.

λ¨Έμ‹ λŸ¬λ‹μ€ λΉ λ₯Έ μ†λ„λ‘œ 데이터λ₯Ό μ²˜λ¦¬ν•˜κ³  μ‹€μ‹œκ°„μœΌλ‘œ μ˜μ‚¬κ²°μ •μ„ 내릴 수 있음.

  • Veracity (데이터 μ§„μ‹€μ„±):

λ°μ΄ν„°μ˜ λΆˆν™•μ‹€μ„±κ³Ό λΆ€μ •ν™•μ„±.

데이터가 λΆˆμ™„μ „ν•˜κ±°λ‚˜ 였λ₯˜λ₯Ό 포함할 수 있음.

λ¨Έμ‹ λŸ¬λ‹μ€ λ°μ΄ν„°μ˜ λ…Έμ΄μ¦ˆμ™€ 였λ₯˜λ₯Ό μ²˜λ¦¬ν•˜κ³ , μ‹ λ’°μ„± μžˆλŠ” κ²°κ³Όλ₯Ό λ„μΆœν•˜λ„λ‘ ν•™μŠ΅ν•  수 있음.

  • Value (데이터 κ°€μΉ˜):

데이터λ₯Ό 톡해 μœ μš©ν•œ 정보λ₯Ό μΆ”μΆœν•˜μ—¬ λΉ„μ¦ˆλ‹ˆμŠ€λ‚˜ 연ꡬ 문제λ₯Ό ν•΄κ²°.

λ¨Έμ‹ λŸ¬λ‹μ€ 데이터λ₯Ό 뢄석해 예츑, λΆ„λ₯˜, κ΅°μ§‘ν™” 등을 톡해 κ°€μΉ˜λ₯Ό μ°½μΆœν•¨.

4) 톡계학과 λ¨Έμ‹ λŸ¬λ‹

- 톡계학: ν‘œλ³Έμ—μ„œ λͺ¨μ§‘λ‹¨μ˜ νŠΉμ„±μ„ μΆ”λ‘ ν•˜λŠ” 것이 μ€‘μ μž…λ‹ˆλ‹€.

λ‚΄κ°€ μˆ˜μ§‘ν•œ 데이터가 λͺ¨μ§‘단을 μ–Όλ§ˆλ‚˜ 잘 λ°˜μ˜ν•˜κ³  μžˆλŠ”μ§€

데이터 셋이 μž‘μ•„λ„ 톡계적 μœ μ˜μ„±λ§Œ 확인할 수 있으면 Okay!

연역적 μΆ”λ‘ : κ°€μ„€ μ„€μ • β†’ μˆ˜ν•™μ  검증

- λ¨Έμ‹  λŸ¬λ‹: μˆ˜μ§‘λœ 데이터λ₯Ό ν™œμš©ν•΄ 예츑과 μΌλ°˜ν™” μ„±λŠ₯을 ν–₯μƒμ‹œν‚€λŠ” 것이 μ€‘μ μž…λ‹ˆλ‹€.

λ‹€λ₯Έ 데이터가 듀어왔을 λ•Œ κΈ°μ‘΄ λͺ¨λΈλ‘œ μ–Όλ§ˆλ‚˜ λΉ„μŠ·ν•˜κ²Œ 예츑/λΆ„λ₯˜ ν•  수 μžˆλŠ”μ§€

λ°μ΄ν„°λŠ” 많으면 λ§Žμ„ 수둝 Good!

귀납적 μΆ”λ‘ : 데이터λ₯Ό μ΄μš©ν•΄ λͺ¨λΈμ„ μš°μ„  돌렀보고 κ²°κ³Όλ₯Ό 해석

5) μ œμ‘°μ—…μ—μ„œ λ¨Έμ‹ λŸ¬λ‹μ˜ μ—­ν• 

    1. ν’ˆμ§ˆ λ°μ΄ν„°μ˜ μžλ™ 뢄석

λ¨Έμ‹  λŸ¬λ‹μ€ λŒ€κ·œλͺ¨ ν’ˆμ§ˆ 데이터λ₯Ό μžλ™μœΌλ‘œ μ²˜λ¦¬ν•˜κ³ , 데이터 νŒ¨ν„΄κ³Ό 상관관계λ₯Ό λΆ„μ„ν•˜μ—¬ κ³΅μ •μ˜ ν’ˆμ§ˆ 문제λ₯Ό μ‹€μ‹œκ°„μœΌλ‘œ μ‹λ³„ν•©λ‹ˆλ‹€.

    1. 곡정 이상 탐지 및 예츑

λ¨Έμ‹  λŸ¬λ‹ 기반 이상 탐지 λͺ¨λΈμ€ 곡정 λ°μ΄ν„°μ—μ„œ 비정상적인 νŒ¨ν„΄μ„ κ°μ§€ν•˜μ—¬, 결함 κ°€λŠ₯성을 사전에 μ˜ˆμΈ‘ν•˜κ³  문제λ₯Ό ν•΄κ²°ν•  μ‹œκ°„μ„ μ œκ³΅ν•©λ‹ˆλ‹€.

    1. 결함λ₯  κ°μ†Œμ™€ 생산성 ν–₯상

λ¨Έμ‹  λŸ¬λ‹μ€ 결함 예츑과 곡정 μ΅œμ ν™”λ₯Ό 톡해 μ œν’ˆμ˜ 결함λ₯ μ„ 쀄이고, 생산성을 λ†’μ΄λŠ” 데 κΈ°μ—¬ν•©λ‹ˆλ‹€.

02. λ¨Έμ‹ λŸ¬λ‹ ν•™μŠ΅μ˜ μ’…λ₯˜

1) 지도 ν•™μŠ΅ (Supervised Learning)

1. λΆ„λ₯˜ (Classification)

λΆ„λ₯˜λž€ 무엇인가?
β†’ 컴퓨터가 μ£Όμ–΄μ§„ 데이터λ₯Ό 보고, 미리 μ •ν•΄μ§„ κ·Έλ£Ή(μΉ΄ν…Œκ³ λ¦¬) 쀑 ν•˜λ‚˜λ‘œ λ‚˜λˆ„λŠ” μž‘μ—…

(c) λΆ„λ₯˜μ˜ μ˜ˆμ‹œ 사둀

    1. μ œμ‘°μ—… ν’ˆμ§ˆ 관리(QA/QC)

사둀: ν˜„λŒ€μžλ™μ°¨λŠ” 생산 κ³΅μ •μ—μ„œ λ¨Έμ‹ λŸ¬λ‹μ„ ν™œμš©ν•˜μ—¬ ν’ˆμ§ˆ 검사 μžλ™ν™”(ν˜„λŒ€λͺ¨λΉ„μŠ€, ν’ˆμ§ˆ λΆˆλŸ‰ κ²€μΆœ 인곡지λŠ₯ μ•Œκ³ λ¦¬μ¦˜ 자체 κ°œλ°œβ€¦ 생산·물λ₯˜ ν˜„μž₯ 적용)

데이터: μ°¨λŸ‰ λΆ€ν’ˆμ˜ 크기, ν‘œλ©΄ 결함, μ„Όμ„œ 데이터λ₯Ό μˆ˜μ§‘ν•˜μ—¬ 뢄석.

λͺ¨λΈ: SVMκ³Ό XGBoost 같은 λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈ.

적용: λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈλ‘œ λΆˆλŸ‰ν’ˆμ„ μ‹€μ‹œκ°„μœΌλ‘œ νƒμ§€ν•˜μ—¬ 생산 νš¨μœ¨μ„±μ„ 높이고 ν’ˆμ§ˆ λΉ„μš©μ„ 절감.

    1. 금육 λΆ€μ • 거래 탐지

사둀: KBꡭ민은행은 고객의 금육 거래 데이터λ₯Ό 뢄석해 λΆ€μ • 거래λ₯Ό νƒμ§€ν•˜λŠ” μ‹œμŠ€ν…œμ„ 운영.

데이터: 거래 λ‚΄μ—­, μ‹œκ°„, μœ„μΉ˜, κΈˆμ•‘ λ“± 고객의 거래 데이터λ₯Ό 뢄석.

λͺ¨λΈ: Decision Tree, Random Forest와 같은 λ¨Έμ‹ λŸ¬λ‹ μ•Œκ³ λ¦¬μ¦˜.

적용: 비정상적인 νŒ¨ν„΄(예: ν•΄μ™Έμ—μ„œ λΉˆλ²ˆν•œ 거래)을 νƒμ§€ν•˜μ—¬ λ³΄μ•ˆμ„ κ°•ν™”.

    1. λ¬Όλ₯˜ μ΅œμ ν™”

사둀: CJλŒ€ν•œν†΅μš΄μ€ λ¬Όλ₯˜ 경둜 μ΅œμ ν™”λ₯Ό μœ„ν•΄ λ¨Έμ‹ λŸ¬λ‹μ„ μ‚¬μš©.

데이터: μ°¨λŸ‰μ˜ 이동 경둜, κ΅ν†΅λŸ‰, 배솑 μ‹œκ°„ λ“±.

λͺ¨λΈ: KMeans ꡰ집화와 μ„ ν˜• νšŒκ·€.

적용: κ°€μž₯ 효율적인 배솑 경둜λ₯Ό κ³„μ‚°ν•˜μ—¬ 배솑 μ‹œκ°„μ„ λ‹¨μΆ•ν•˜κ³  λΉ„μš©μ„ 절감.

    1. μ†ŒλΉ„μž 행동 뢄석

사둀: μ΄λ§ˆνŠΈλŠ” 고객 ꡬ맀 데이터λ₯Ό 기반으둜 λ§žμΆ€ν˜• λ§ˆμΌ€νŒ…μ„ μ‹€ν–‰.

데이터: 고객의 ꡬ맀 이λ ₯, λ°©λ¬Έ λΉˆλ„, μ†ŒλΉ„ νŒ¨ν„΄ λ“±.

λͺ¨λΈ: KNNμ΅œκ·Όμ ‘ 이웃 μ•Œκ³ λ¦¬μ¦˜)κ³Ό μ˜μ‚¬κ²°μ • λ‚˜λ¬΄.

적용: 고객의 μ„ ν˜Έλ„λ₯Ό μ˜ˆμΈ‘ν•˜μ—¬ κ°œμΈν™”λœ 할인 쿠폰과 ν”„λ‘œλͺ¨μ…˜μ„ 제곡.

    1. ν—¬μŠ€μΌ€μ–΄μ—μ„œ 고객 λΆ„λ₯˜

사둀: ν—¬μŠ€μΌ€μ–΄ μŠ€νƒ€νŠΈμ—… λˆ”(Noom)은 λ¨Έμ‹ λŸ¬λ‹μœΌλ‘œ μ‚¬μš©μž 건강 데이터λ₯Ό 뢄석해 건강 관리 ν”„λ‘œκ·Έλž¨μ„ μ œμ•ˆ.

데이터: μ‚¬μš©μžμ˜ μ‹μŠ΅κ΄€, μš΄λ™λŸ‰, 체쀑 λ³€ν™” 기둝.

λͺ¨λΈ: λ‘œμ§€μŠ€ν‹± νšŒκ·€μ™€ μ˜μ‚¬κ²°μ • 트리.

적용: 데이터 기반으둜 μ‚¬μš©μžμ˜ 건강 μƒνƒœλ₯Ό λΆ„λ₯˜ν•˜κ³  λ§žμΆ€ν˜• μ½”μΉ­ ν”„λ‘œκ·Έλž¨ 제곡.

    1. 곡곡 데이터 뢄석

사둀: μ„œμšΈμ‹œλŠ” ꡐ톡 데이터λ₯Ό λ¨Έμ‹ λŸ¬λ‹μœΌλ‘œ λΆ„μ„ν•˜μ—¬ λ²„μŠ€ 및 μ§€ν•˜μ²  노선을 μ΅œμ ν™”.

데이터: κ΅ν†΅λŸ‰, μ‹œκ°„λŒ€λ³„ 승객 수, μ§€μ—° 정보 λ“±.

λͺ¨λΈ: μ„ ν˜• νšŒκ·€, κ΅°μ§‘ν™” λͺ¨λΈ.

적용: ν˜Όμž‘λ„λ₯Ό 쀄이고 효율적인 λŒ€μ€‘κ΅ν†΅ μ„œλΉ„μŠ€λ₯Ό 제곡.

    1. μ†Œμ…œλ―Έλ””μ–΄ κ΄‘κ³  νƒ€κ²ŸνŒ…

사둀: μΉ΄μΉ΄μ˜€λŠ” μ‚¬μš©μž 데이터λ₯Ό 뢄석해 λ§žμΆ€ν˜• κ΄‘κ³ λ₯Ό λ…ΈμΆœ.

데이터: μ‚¬μš©μžμ˜ 검색 기둝, μœ„μΉ˜ 데이터, 관심 ν‚€μ›Œλ“œ.

λͺ¨λΈ: Naive Bayes, Gradient Boosting.

적용: κ΄‘κ³  νš¨μœ¨μ„±μ„ κ·ΉλŒ€ν™”ν•˜μ—¬ 클릭λ₯ κ³Ό ꡬ맀 μ „ν™˜μœ¨μ„ λ†’μž„.

2. νšŒκ·€ (Regression)

νšŒκ·€λž€ 무엇인가?

β†’ 데이터λ₯Ό 기반으둜 연속적인 숫자 값을 μ˜ˆμΈ‘ν•˜λŠ” μž‘μ—…
μ˜ˆμ‹œ)

profile
μ•ˆλ…•ν•˜μ„Έμš”

0개의 λŒ“κΈ€