250408 TIL

수이·2025년 4월 8일

🟡 TIL

목록 보기
42/60

팀스터디

아티클스터디

선정 아티클

데이터 시각화는 왜 중요할까?

개인 요약

  • 일상의 데이터 시각화
    • 지도 : 노선정보, 총 소요시간, 경로별 소요시간, 위치정보 매핑
    • 태풍 예상경로, 코로나 확진자 현황, 선거 결과 등
  • 데이터 시각화의 효과
    • 많은 양의 데이터와 정보를 담을 수 있음 → 큰 그림을 그릴 수 있음
    • 특별한 과학이나 통계 등의 교육이 필요하지 않음 → 쉽게 이해하고, 데이터 안의 정보를 찾을 수 있음
    • 뇌는 시각화된 정보를 처리하는데 탁월 → 복잡한 데이터를 직관적으로 파악할 수 있음
    • 관심을 끌고, 집중을 유지할 수 있음 → 다소 생소하거나 관심이 적은 주제를 다룰 때 도움이 됨
  • 주요포인트 :
    그래픽을 활용하여 정보를 전달할 때 텍스트에 비해 정보가 훨씬 빨리 전달됨

인사이트

  • 지난 프로젝트를 할때 한 눈에 보기 어려웠던 시너지 구간별 승률과 픽률을 시각화했던 기억이 납니다. 시각화 자체가 재밌기도 했지만, 기본적으로 도메인에 큰 관심이 없었던 다른 팀원들도 제 표를 보고 이해하기 시작해서 더 뿌듯했던 기억이 납니다.
  • 데이터 시각화는 단순히 보기 좋은 자료를 만드는 게 아니라, 다양한 사용자에게 효과적으로 메시지를 전달하는 도구라는 점에서 공감이 되었습니다.

팀원 공통 인사이트

데이터 시각화는 복잡한 데이터를 다양한 사람들이 이해할 수 있도록 효과적으로 전달하는 필수적인 도구이며, 꼭 필요한 기술이다.

개인스터디

통계학 기초 4주차

단순선형회귀

하나의 변수(X)로 결과(Y) 예측

Y = β0 + β1X → 직선 하나로 X와 Y 관계 설명
X가 1만큼 증가할 때, Y는 평균적으로 β1 단위만큼 증가

특징

  • X와 Y의 관계가 직선일 때 사용
  • 모델이 간단하고 해석 쉬움
  • 선형 관계 아닐 경우엔 성능 ↓

다중선형회귀

2개 이상의 변수(X1, X2 ... Xn)로 결과(Y) 예측

Y = β0 + β1X1 + β2X2 + ... + βnXn

특징

  • 여러 변수가 종속 변수(Y)에 영향을 줄 때 사용
  • 변수 많아질수록 분석력 ↑, 해석 난이도 ↑
  • 변수끼리 너무 비슷하면 문제 발생 > 다중공선성

➡️ 다중공선성 해결 방법

  • 상관계수 확인
  • VIF(분산팽창계수) 계산
  • 유사한 변수 제거 or 주성분분석(PCA) 적용

범주형 변수

문자형 변수는 숫자로 변환해야 회귀에 사용 가능

  • 순서가 있는 범주형 변수 > 숫자 변환
    ex) 옷 사이즈(S, M, L, ...), 수능 등급(1등급, 2등급, ...)
    순서가 반영될 수 있게 숫자로 변환

  • 순서가 없는 범주형 변수 > 원-핫 인코딩
    ex) 지역(서울,부산,대구,대전, ...)

변환방법

pd.get_dummies(df, drop_first=True)
한 개 버리는 이유
ex) 남,여 가 있을때 남자가 아니면 여자기 때문에 남 True, False 하면 남, 여

비선형회귀

데이터가 곡선적인 경향을 보일때 사용

다항회귀

  • 직선이 아니라 곡선으로 모델링
  • 2차 이상 다항식을 사용 (X^2, X^3, …)
  • 너무 고차 → 과적합 주의
    (과도하게 복잡해지면 실제 데이터 적용 어려움)

스플라인 회귀

  • X축을 구간별로 나누고 각 구간마다 다른 회귀선
  • 국소적 패턴에 강함
  • 매듭점(knots) 위치가 중요!

☑️ 회귀 정리

구분사용 조건특징
단순선형회귀X가 1개, Y와 선형 관계간단, 직선 하나로 설명
다중선형회귀X가 여러 개, Y에 영향복잡한 관계 설명, 다중공선성 주의
범주형 처리문자형 변수 있을 때숫자 or 원-핫 인코딩으로 변환 필요
다항회귀비선형 곡선형 데이터곡선으로 예측, 고차 과적합 조심
스플라인회귀구간별로 관계 달라질 때유연한 곡선, 매듭점 위치 중요

결정계수 R²

  • 0 ~ 1 사이 값. 1에 가까울수록 예측이 정확함
  • 예측값이 실제값을 얼마나 잘 설명하는지를 나타냄
  • 예시) R² = 0.92 → "매출 변화의 92%를 이 모델이 설명하고 있음"

Standard 5,6회차

Feature Scaling

  • 서로 다른 범위를 가지는 변수들의 기준점을 맞추는 작업
  • 머신러닝 편향 방지
  • 결과 정확도 ↑

표준화 (Standardization)

  • 평균 0, 표준편차 1로 피쳐 변환 (Z-score 방식)

  • 피처 간 비교 기준을 맞추기 위해 사용 → ML 성능 향상

  • (값 - 평균) / 표준편차

  • ⚠️주의

    • 원본 분포가 정규분포여야 표준정규분포가 됨
    • 이상치 처리 전 표준화해도 무방
  • 라이브러리: StandardScaler (sklearn)

정규화 (Normalization)

  • 최소값 0, 최대값 1로 스케일링

  • 피처 범위를 [0,1]로 조정해 비교 가능하도록 함

  • (값 - 최소값) / (최대값 - 최소값)

  • ⚠️주의

    • 이상치에 매우 취약
    • 이상치 처리 후에 정규화 진행해야 함
  • 라이브러리: MinMaxScaler (sklearn)

☑️ 비교하기

항목표준화정규화
원리평균 0, 표준편차 1로 변환최소값 0, 최대값 1로 변환
이상치 영향비교적 강함매우 취약
분포 유지유지 (기준점 변경)유지 (비율로 압축)
사용 시점평균/표준편차 의미 있을 때분포 모를 때, 절대값 중요할 때
대표 알고리즘KNN, PCA, SVM, 회귀KNN, 신경망

☑️ Scaler 종류 요약

Scaler특징적용 상황
StandardScaler평균 0, 표준편차 1로 표준화대부분의 ML 알고리즘 기본값
MinMaxScaler최소값 0, 최대값 1로 정규화정규분포 아닌 데이터 / 신경망 모델
RobustScaler중앙값과 IQR 기반 → 이상치에 강함 표준화계열이상치 많은 데이터 전처리
MaxAbsScaler절대 최대값 기준 [-1, 1]로 조정 (0 중심) 정규화계열양수/음수 혼합된 희소 행렬 등

로그 변환

  • 밑을 기준으로 진수를 몇 번 곱해야 하는지 계산하는 함수
    ax=bx=logaba^x = b \Rightarrow x = \log_a b
    • aa = 밑
    • xx = 지수
    • bb = 진수
  • Skewed 데이터(Positive Skew)를 완화
  • 큰 값 → 작은 값으로 압축 (비율 유지)
  • 로그 함수는 x값이 커질수록 기울기 작아짐
  • 큰 값을 줄이고, 작은 값은 덜 줄임

이상치 처리 - KNN (K-Nearest Neighbor)

  • 가까운 데이터포인트 기준 분류하는 알고리즘

  • 거리를 기준으로 이상치 탐지 및 제거 가능

  • ⚠️주의

    • 거리 기반이므로 정규화/표준화 필수
  • 라이브러리 : KNeighborsClassifier (sklearn)

  • 모델 평가 지표:

    • Precision: 예측한 것 중 실제 정답의 비율
    • Recall: 실제 정답 중 예측이 맞은 비율
    • F1-score: Precision과 Recall의 조화 평균

거리계산방식

  • 유클리드 거리 : 절대 거리(최단거리)
  • 맨해튼 거리 : 수직+수평 거리의 합

코드카타

SQL - 그룹별 조건에 맞는 식당 목록 출력하기
SQL - 오프라인/온라인 판매 데이터 통합하기
Python - 이상한 문자 만들기
Python - 삼총사


일기

  • SQL 코드카타 70-71✅
  • Python 코드카타 41-42✅
  • 통계 세션 3회차 복습✅ 기초강의 4-5주차✅
  • 수준별학습스탠다드 5-6회차✅

오늘은 꽤나 뿌듯한 하루🫡
파이썬 코드카타도 오랜만에 해냈고 기초강의 두 개 주차 듣기 성공
통계기초 5주차는 내용정리까지는 못해서 내일 복습할 겸 정리할 예정

세션이든, 녹강이든 실습 코드들 보면 솔직히 이해가 안 되지만 이건 그냥 어쩔 수 없는 것 같다 하나하나 열심히 바꿔보고, 따라 적고 할 수밖에 . .

내일은 통계 끝내고 머신러닝 시작해야쥐
고생했따리따

💿오늘의 추천곡 Johnny Stimson - Empty Apartment

팀원분이 스크럼에 추천곡을 남겨 두셔서, 아티클 스터디 하고 남는 시간에 들어봤따 lo-fi한 느낌이라 좋았음

맨날 희린님이 오늘의 한마디 챙겨 적어주셨는데, 이제 돌아가면서 추천곡 하나씩 적기로 했다 조아조아요

주말에 오랜만에 친구 만났는데 요즘 노래는 뭐 좋아하냐 물어봐서 요즘 거의 안 듣고 취향도 없어진 것 같다니까 엄청 혼났음 (ㅋㅋ) 이 기회로 오랜만에 노래 들을수 있어서 좋았다 암튼 헤드셋이나 빨랑 고쳐야징

2개의 댓글

comment-user-thumbnail
2025년 4월 8일

고생했서욕~!~! 수2님의 정리덕분에 스탠다드 복습했돠 넘 고마워욧

1개의 답글