260114 [ Day 12 ] - AI (1)

TaeHyun·2026년 1월 14일

AI study

TIL

목록 보기

135/184

시작하며

오늘부터 새로운 강사님과 AI에 대한 파트가 시작되었다. 처음으로는 AI에 필요한 기본적인 통계학 내용부터 기본적인 머신러닝 내용까지 배웠다.

통계학

Statistics(통계학)

데이터를 수집, 정리, 분석, 해석하여 불확실한 현상 속에서 객관적인 사실을 이해하고
합리적인 의사결정을 내릴 수 있도록 돕는 수학 기반의 학문

데이터 수집 및 분석
불확실성의 계량화 및 예측
합리적인 의사결정

Logic(논리학)

Induction(귀납추론)
- 구체적인 사례 → 일반적인 원리 / 결론
- 결론읜 개연적이지만 필연적이지 않음
  - 소크라테스도 죽고, 아리스토 텔레스도 죽었다 → 모든 사람은 죽는다
Deduction(연역추록)
- 일반적인 원리 → 구체적인 결론
- 전제가 참이면 결론도 참이 됨
  - 모든 사람은 죽는다 → 스크라테스는 사람이다 → 소크라테스는 죽는다(3단 논법)

통계학은 귀납추론을 수학적으로 하는 학문

통계학의 종류

Descriptive Statistics(기술통계)
- 데이터를 기술하는 통계 기법
- 주요 기법
  - 중심경향치(Central Tendency)
  - 산포도(Variation)
Inferential Statistics(추론통계)
- 데이터로 추론하는 통계 기법
- 주요 기법
  - 추정
  - 가설검정

Descriptive Statistics(기술통계)

Central Tendency(중심경향치)

데이터 전체를 대표하는 중심 위치를 나타내는 것
대표값(Representative Value)
- 평균(Mean) : 데이터의 총합 / 데이터개수
- 중앙값(Median) : 가운데 위치한 값
- 최빈값(Mode) : 가장 자주 나타나는 값

데이터의 종류

수치형 데이터(Numerical Data)
- 연속형 데이터
  - 무수히 많은 실수 값(온도, 시간, 몸무게 등)
- 이산형 데이터
  - 셀 수 있는 정수 값(방문객 수, 인구 수 등)
범주형 데이터(Categorical Data)
- 순서형 데이터
  - 순서가 있는 데이터(학점)
- 명목형 데이터
  - 순서가 없는 데이터(성별, 혈액형)

데이터의 변환

범주화(Binning)
- 수치형 데이터를 구간으로 나누어 범주형으로 변환
  - 나이를 10대, 20대로 변환
수치화(Encoding)
- 범주형 데이터를 0, 1, 2와 같은 숫자로 변환
  - 남자를 1/3, 여자를 2/4로 변환

최빈값

수치형 데이터 : 평균값, 중앙값, 최빈값
범주형 데이터 : 최빈값

최빈값이 여러개인 경우 = 최빈값이 없다

산포도(Variability)

데이터의 변동성, 퍼진 정도
데이터의 안정성, 리스크, 신뢰도 등을 표현

AI가 사용하는 기술통계 산포도 기법

범위(range) : 최대값 - 최소값
- 이상치(outlier)에 영향을 많이 받음
편차(Deviation) : 평균 또는 중앙값을 뺀 것
- 평균편차 : 데이터와 평균 사이의 거리
  - 데이터셋의 편차 총합이 0
  - 인공지능 학습 시 진동 발생
- 절대편차 : 편차에 절대값을 씌움
  - 미분이 어려움
- 분산(Variance) : 편차 제곱의 평균(손실 함수 계산 시 사용)
  - 분산을 사용하면 단위도 제곱이 됨
- 표준편차 : 분산에 루트를 씌움
  - 데이터 전처리 Normalization에서 사용
- 상대표준편차 : (표준편차 / 평균) x 100%

표준화의 필요성

Standardization(표준화) : (데이터 - 평균) / 표준편차
Z-Score(표준화 점수) : 데이터가 표준편차로부터 몇 배만큼 떨어져 있는지를 나타내는 표준화된 값

표준정규분포표

학습 데이터를 정규분포표로 바꾸는 것이 중요

인과관계 & 상관관계

인과관계(Causation) : 한 변수가 다른 변수의 변화를 직접적으로 일으키는 관계
상관관계(Correlation) : 한 변수가 변할 때 다른 변수도 함께 변하는 경향

상관계수(Correlation Coefficient)

피어슨 상관계수 공식
상관관계의 선형성 : -1 ~ 1 사이로 표현
- 0.8 이상 : 매우 강한 상관관계
- 0.6 이상 : 강한 상관관계
- 0.3 이상 : 약한 상관관계
상관계수가 0보다 작으면 음의 상관관계
상관계수가 0보다 크면 양의 상관관계

Inferential Statistics(추론통계)

추론 : 이미 알고 있는 사실이나 정보를 바탕으로 논리적인 과정을 거쳐 새로운 판단이나 결론을 이끌어내는 과정
추론통계 : 일부 표본 데이터를 분석하여, 모집단 전체의 특성을 추정
- Population(모집단) : 통계 조사의 전체 대상 집단
- Sample(표본) : 모집단에서 추출한 일부 집단
표본을 통한 추론
- Parameter(모수) : 모집단의 실제 평균이나 분산
- Statistic(통계량) : 표본에서 계산된 평균이나 분산

통계적 추정 : 표본 통계량을 이용하여 모집단의 모수(파라미터)를 추측

Function

1차 함수 그래프 : 선형(Linear) 그래프
2차 함수 : 특징(Feature)이 2개

Machine Learning

데이터를 통해 스스로 성능을 개선하는 인공지능 구현 방법

머신러닝의 3요소

데이터 기반 학습
패턴 인식
자율적 개선

머신러닝의 대표적인 학습 방법

Supervised Learning(지도학습)
Unsupervised Learning(비지도학습)
Semi-supervised Learning(준지도학습)
Reinforcement Learning(강화학습)

머신러닝 Workflow

Raw Data Set
- 가공되지않은 데이터(원시데이터)
Feature Extraction
- 특징 추출
- 복잡한 데이터에 대한 이해도가 떨어짐
- 표준정규분포표로 가공
Algorithm Study
- 알고리즘을 사용해서 학습
Output
- 결과 도출

머신러닝의 목적

모델의 일반화 능력을 향상시키는 것

Generalization Ability(일반화 능력)
- 학습된 모델이 데이터의 패턴을 파악하는 능력

Supervised Learning(지도학습)

반복 학습을 통해 에러를 줄이며 모델을 개선시키는 학습 방법
- 학습목적 : 모델의 에러 최소화
정답(Label)이 있는 데이터로 학습시키는 방법
에러 발생 시 더 많은 데이터로 학습 또는 재학습
- 에러(Loss) : 모델이 예측 값과 정답 데이터의 차이
대표 알고리즘
- Classification
- Regression
- Decision Tree
- SVM
- K-NN

Unsupervised Learning(비지도학습)

Label이 없는 데이터로 학습시키는 방법
패턴, 관계를 찾아내는 학습 방법(최근에는 거의 사용X)
- 뉴스 주제 분류, 이상거래 탐지
대표 알고리즘
- Clustering
- Dimensionality Reduction

Semi-supervised Learning(준지도학습)

Label이 있는 일부 데이터와 Label이 없는 대량의 데이터로 학습시키는 방법
- Label 데이터는 약 20% 정도
데이터 양은 많은데, Labeling 비용이 비싼 분야
- 의료 분야
대표 알고리즘
- Self-Training
- Co-Training

Reinforcement Learning(강화학습)

에이전트가 환경속에서 시행착오를 통해 보상을 최대화하는 최적의 행동을 학습하는 머신러닝 기법
- 에이전트(Agent) : 학습하고 행동하는 주체
- 환경(Environment) : 에이전트가 상호작용하는 세계
- 보상(Reward) : 특정 행동에 대한 긍정적 또는 부정적 피드백(점수)
- 행동(Action) : 에이전트가 특정 상태에서 취하는 선택
사용사례
- 자율주행, 게임 AI, 시뮬레이션 등
강화학습의 목적 : 에이전트의 보상 최대화
강화학습 모델의 성능 평가 : 에이전트의 행동 최적화

주의해야 할 점

Overfitting(과적합)
- 모델이 학습 데이터를 지나치게 외우는 현상
- 학습한 데이터에 대해서는 성능이 매우 좋지만, 새로운 데이터에서는 성능이 급격하게 떨어짐 → 일반화 능력이 떨어짐
Black Box 문제
- 결과는 맞는데 이유를 설명할 수 없음
Dependent on data quality(데이터 품질에 의존적)
- GIGO : Garbage In, Garbage Out
- 데이터 수집, 정제, Labeling이 모델 설계보다 중요한 경우가 많음

How to solve overfitting

Regularization(정규화)
- 모델의 복잡도에 패널티를 부여하여, weight(가중치)가 커지는 것을 방지
Feature Selection
- Feature 수 줄이기
- Feature 수가 많으면 가설 함수의 차수가 높아짐
- Underfitting 조심

마치며

통계학은 거의 모르기 때문에 추후에도 따로 공부를 해보고 싶다. 그리고 용어들을 해석본이 아닌 영어 자체로 익숙해지는 게 좋다고 하셔서 이번 과정은 용어들을 영어 자체로 진행할 것 같다. 나도 상당히 동의하는 내용이고 좋을 것 같아서 이번 기회에 용어들에 익숙해지면 좋을 것 같다.

TaeHyun

Hello I'm TaeHyunAn, Currently Studying Data Analysis

이전 포스트

260113 [ Day 11 ] - Data (5)

다음 포스트