시리즈

데이터 분석(Data Analysis)

1.가설 검증(Hyphothesis Testing)

가설 검증 : 어떤 population ← 변형을 가했을 때 유의미하게 변형이 되었는지 안되었는지 20대에 남녀 데이터에다가 (population = 모든 20대 남녀,그러나 전국의 20대 남녀는 알 수 없음, Population 중에서 일부를 sampling 하여 데

2024년 7월 28일

2.R2 Score(R-squared) & RMSE

회귀 모델에서 독립변수가 종속변수를 얼마나 잘 나타내는지를 보여주는 지표결정 계수가 높을 수록 독립변수가 종속변수를 잘 설명하는데, 이때 독립변수의 개수가 증가하면 같이 증가함따라서 독립변수의 개수가 2개 이상이면 조정된 결정계수(Adjusted R-squared)를

2023년 7월 18일

3.Random Forest

‼️ Random Forest를 알아가기 전에<의사 결정 트리>어떤 정보(데이터)가 주어졌을 때, 그 정보에 대한 질문을 통해 논리적으로 분류할 수 있는 것훈련을 통해 구성해놓은 다수의 나무들로부터 분류 결과를 취합해서 결론을 얻는 지도 머신러닝 알고리즘(앙상블

2023년 7월 16일

4.ARIMA Model

자기 회귀 모델과거 시점의 자기 자신의 데이터가 현 시점의 자기 자신에게 영향을 미치는 모델

2023년 7월 16일

5.CNN

인공신경망 ANN은 간략히 신경망이라고도 하는데, 인간이 뉴런이 연결된 형태를 수학적으로 모방한 모델이다뇌에서 뉴런들이 어떤 신호, 자극 등을 받고, 그 자극이 어떠한 임계값을 넘어서면 결과 신호를 전달하는 과정에서 착안ANN뉴런은 어떤 입력값을 받아서 일정 수준이 넘

2023년 10월 11일

6.분류 성능 지표 - Confusion Matrix

분류 모델이 예측한 결과와 실제 정답을 비교하여 성능을 평가하는 표예측이 맞았는지/틀렸는지를 한눈에 볼 수 있다.TP: 실제 양성을 맞게 양성으로 예측(P)FP: 실제 음성인데 잘못 양성으로 예측(P)FN: 실제 양성인데 잘못 음성으로 예측(N)TN: 실제 음성을 맞게

2025년 9월 10일

7.채무 불이행 여부 예측을 통한 데이터 분석 흐름 파악하기

데이터 이해 데이터 전처리EDA데이터를 충분이 이해하고 정제하는 과정✅ 데이터의 기본 구조 파악데이터셋의 크기 (헹/열 개수) 확인각 컬럼의 데이터 타입 확인셈플 데이터 확인✅ 데이터의 분포 및 특징 탐색기초 통계량 확인 (describe())평균,중앙값,최솟값,최댓값

2025년 9월 2일

8.LDA 토픽 모델링(판단 기준)

텍스트 기반의 문서 데이터에서 핵심 주제를 찾는 데이터 분석 방법론이다.예를 들어, 내가 뉴스 기사 3편을 가지고 있다고 해보자.“손흥민 선수, 프리미어 리그에서 두 골 기록”“토트넘, 챔피언스 리그 진출 확정”“삼성, 반도체 투자 10조원 발표”LDA는 문서 → 주제

2025년 10월 14일

9.TF-IDF

정보 검색 및 텍스트 마이닝, 키워드 추출, 텍스트 분류에 가장 널리 쓰임단순 단어 빈도수(TF)만 쓰면 “경기”, “제품” 같은 흔한 단어가 항상 상위에 떠서 주제어를 가려버림IDF는 전체 말뭉치에서 흔한 단어의 가치를 깎아, 각 문서의 차별성을 가진 단어들을 앞으로

2025년 10월 14일

10.T-Test

T-Test(t검정)은 통계에서 정말 자주 쓰는 핵심 개념이다. 오늘은 T-test에 대해서 자세하지만 간단하게 배워볼 것이다. 두 그룹간 평균의 차이가 “우연인지”, “진짜인지” 를 검정하는 통계방법예를 들어 A반의 성적이 B반의 성적보다 높은지 알고 싶을 때, A반

2025년 11월 17일

11.카이제곱 검정(Chi-Squared Test)

두 범주형 변수에 대한 분석 방법. “기대되는 분포와 실제 관측된 분포가 유의미하게 다른가?” 를 판단하는 통계적 검정 방법쉽게 말하자면, 관측된 값들이 “우연”인지, 아니면 실제로 차이가 있는것인지를 확인하는 방법이다. T-test가 평균 비교용이라면, 카이제곱 검정

2025년 11월 20일

12.Z-Score

표준편차를 단위로 보았을 때 측정치가 평균에서 얼만큼 떨어져있는가를 표현평균과 표준편차를 이용어떤 시험의 평균 점수가 70점이고, 표준 편차가 10점이라고 해보자. 80점을 받은 사람은 평균보다 10점 높고, 60점을 받은 사람은 평균보다 10점 낮다. 이걸 10점

2025년 11월 20일