
가설 검증 : 어떤 population ← 변형을 가했을 때 유의미하게 변형이 되었는지 안되었는지 20대에 남녀 데이터에다가 (population = 모든 20대 남녀,그러나 전국의 20대 남녀는 알 수 없음, Population 중에서 일부를 sampling 하여 데

회귀 모델에서 독립변수가 종속변수를 얼마나 잘 나타내는지를 보여주는 지표결정 계수가 높을 수록 독립변수가 종속변수를 잘 설명하는데, 이때 독립변수의 개수가 증가하면 같이 증가함따라서 독립변수의 개수가 2개 이상이면 조정된 결정계수(Adjusted R-squared)를

‼️ Random Forest를 알아가기 전에<의사 결정 트리>어떤 정보(데이터)가 주어졌을 때, 그 정보에 대한 질문을 통해 논리적으로 분류할 수 있는 것훈련을 통해 구성해놓은 다수의 나무들로부터 분류 결과를 취합해서 결론을 얻는 지도 머신러닝 알고리즘(앙상블

자기 회귀 모델과거 시점의 자기 자신의 데이터가 현 시점의 자기 자신에게 영향을 미치는 모델

인공신경망 ANN은 간략히 신경망이라고도 하는데, 인간이 뉴런이 연결된 형태를 수학적으로 모방한 모델이다뇌에서 뉴런들이 어떤 신호, 자극 등을 받고, 그 자극이 어떠한 임계값을 넘어서면 결과 신호를 전달하는 과정에서 착안ANN뉴런은 어떤 입력값을 받아서 일정 수준이 넘

분류 모델이 예측한 결과와 실제 정답을 비교하여 성능을 평가하는 표예측이 맞았는지/틀렸는지를 한눈에 볼 수 있다.TP: 실제 양성을 맞게 양성으로 예측(P)FP: 실제 음성인데 잘못 양성으로 예측(P)FN: 실제 양성인데 잘못 음성으로 예측(N)TN: 실제 음성을 맞게

데이터 이해 데이터 전처리EDA데이터를 충분이 이해하고 정제하는 과정✅ 데이터의 기본 구조 파악데이터셋의 크기 (헹/열 개수) 확인각 컬럼의 데이터 타입 확인셈플 데이터 확인✅ 데이터의 분포 및 특징 탐색기초 통계량 확인 (describe())평균,중앙값,최솟값,최댓값

텍스트 기반의 문서 데이터에서 핵심 주제를 찾는 데이터 분석 방법론이다.예를 들어, 내가 뉴스 기사 3편을 가지고 있다고 해보자.“손흥민 선수, 프리미어 리그에서 두 골 기록”“토트넘, 챔피언스 리그 진출 확정”“삼성, 반도체 투자 10조원 발표”LDA는 문서 → 주제

정보 검색 및 텍스트 마이닝, 키워드 추출, 텍스트 분류에 가장 널리 쓰임단순 단어 빈도수(TF)만 쓰면 “경기”, “제품” 같은 흔한 단어가 항상 상위에 떠서 주제어를 가려버림IDF는 전체 말뭉치에서 흔한 단어의 가치를 깎아, 각 문서의 차별성을 가진 단어들을 앞으로

T-Test(t검정)은 통계에서 정말 자주 쓰는 핵심 개념이다. 오늘은 T-test에 대해서 자세하지만 간단하게 배워볼 것이다. 두 그룹간 평균의 차이가 “우연인지”, “진짜인지” 를 검정하는 통계방법예를 들어 A반의 성적이 B반의 성적보다 높은지 알고 싶을 때, A반

두 범주형 변수에 대한 분석 방법. “기대되는 분포와 실제 관측된 분포가 유의미하게 다른가?” 를 판단하는 통계적 검정 방법쉽게 말하자면, 관측된 값들이 “우연”인지, 아니면 실제로 차이가 있는것인지를 확인하는 방법이다. T-test가 평균 비교용이라면, 카이제곱 검정

표준편차를 단위로 보았을 때 측정치가 평균에서 얼만큼 떨어져있는가를 표현평균과 표준편차를 이용어떤 시험의 평균 점수가 70점이고, 표준 편차가 10점이라고 해보자. 80점을 받은 사람은 평균보다 10점 높고, 60점을 받은 사람은 평균보다 10점 낮다. 이걸 10점