[TIL#30 250402] 암기빵 구해요 (진짜 급함)

강민지·2025년 4월 2일

데이터분석_TIL

목록 보기

32/81

Daily plan

🌞오전

- 빅분기 공부
- 11시 통계 라이브세션

🔥 오후

- 빅분기 발등에 불떨어짐 (3과목 모델링 정리)
- 통계 강의 2주차+3주차

🌝 저녁
- 빅분기..........
- 스크럼 작성 + TIL 제출

빅분기

인공신경망

인공신경망 (Artificial Neural Network; ANN)
- 인간 두뇌의 신경세포인 뉴런을 모방하여 개발한 기계학습 모델
- 분류, 회귀 모두에 사용 가능
단층 퍼셉트론
- 초기 인공신경망 모델은 단층 퍼셉트론
- 입력층, 가중치, 순 입력함수, 활성화함수, 출력층으로 구성
  - 가중치: 노드 간 연결 강도를 의미하며, 해당 신호가 중요할수록 가중치를 조절 (인공신경망의 핵심 매개변수)
  - 활성화 함수: 입력신호의 총합을 출력 신호로 변환하는 함수
  - 손실함수: 가중치 학습을 위해 오차를 측정하는 함수
- 학습 절차
  - 각 입력 데이터와 가중치를 순 입력함수에서 곱한 후 값을 합함
  - 순 입력함수의 값을 활성화 함수의 임곗값과 비교하여 예측값 출력
  - 예측값과 실제값이 다르면 가중치를 업데이트하여 손실함수를 최소화하는 방향으로 학습 반복
- 단층 퍼셉트론은 AND, OR 연산은 선형 분리가 가능하지만 XOR은 선형 분리가 불가능하다는 한계점을 가짐
다층 퍼셉트론
- 입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해서도 학습이 가능한 퍼셉트론
- 두 개 이상의 은식층을 둔 구조의 모델을 심층신경망, 딥러닝이라고 함
- 활성화 함수로 시그모이드 함수를 사용
  - 기울기를 구하기 위해 편미분을 계산할수록 0으로 근접하여 기울기 소실 문제 발생
  - 시그모이드 함수 대신 ReLU 활성화 함수를 사용하여 이러한 문제를 해결
활성화 함수
- 순 입력함수로부터 전달받은 값을 임곗값과 비교하여 출력값으로 변환해주는 함수
- 계단함수, 부호함수, tanh 함수, 시그모이드 함수, ReLU 함수, Leaky ReLU 함수, 소프트맥스 함수 등
인공신경망 학습: 훈련 데이터 추출 > 기울기 산출 > 매개변수 최적화
- 순전파: 입력 데이터를 기반으로 신경망을 따라 입력층부터 출력층까지 차례대로 변수들을 계산하고 학습하는 과정
- 역전파: 순전파 과정을 통해 나온 오차를 활용해 각 계층의 가중치와 편향을 최적화
- 손실함수를 최소화하는 방향으로 가중치 매개변수 최적화
- 경사 하강법: 가장 기본적인 최적화 알고리즘, 경사를 따라 내려가며 가중치를 업데이트 하는 방식

서포트벡터머신(SVM)

서포트벡터머신: 최적의 분리 초평면을 찾아 데이터를 분류하는 모델
- 지도학습의 일종
- 데이터 마이닝 기법 및 기계학습에 쓰이는 대표적 알고리즘
- 훈련시간이 상대적으로 느리지만, 정확성이 뛰어나고 과대 적합 가능성이 낮은 모델
- 변수 속성 간 의존성을 고려하지 않음
용어
- 결정 경계: 데이터 분류의 기준이 되는 경계로, 초평면이라고도 함
- 초평면: n차원 공간의 (n-1)차원 평면
  - 2차원 공간의 초평면은 1차원 직선이고, 3차원 공간의 초평면은 2차원 평면임
- 마진
  - 결정 경계에서 서포트벡터까지의 거리
  - 최적의 결정 경계는 마진을 최대화
- 서포트벡터
  - 학습 데이터 중에서 결정 경계와 가장 가까이에 있는 데이터들의 집합
  - 서포트벡터는 여러개일 수 있고, 서포트벡터들만 이용하여 클래스의 결정 함수 구현 가능
- 슬랙 변수: 완벽한 분리가 불가능할 때 허용된 오차를 위한 변수
SVM 종류
- 하드마진 SVM: 오차를 허용하지 않음, 현실 데이터를 적용하기 어려움
- 소프트마진 SVM: 오차를 허용하며, 얼마나 허용할지 파라미터로 조정, 주로 소프트마진 SVM을 이용함
비선형 서포트벡터머신
- 선형으로 분류할 수 없는 비선형 데이터는 차원을 높이고 커널 함수를 사용해 분류 가능
- 커널트릭: 데이터를 고차원으로 매핑하려면 연산량이 복잡해지는데, 이를 해결하기 위해 실제로 데이터를 매핑하지는 않지만 비슷한 효과를 만들 수 있는 커널함수를 사용
- 커널함수 종류
  - 선형 커널: 가장 기본적인 유형, 1차원이며 다른 함수보다 속도가 빠름
  - 다항 커널: 선형 커널의 일반화된 커널, 자주 사용X
  - 가우시안 커널: 일반적으로 사용, 주로 데이터에 대한 사전 지식이 없을 때 사용
  - 가우시안 RBF 커널: 가장 많이 사용됨
  - 시그모이드 커널: 인공신경망에서 선호되며 다층 퍼셉트론과 유사
SVM의 장단점
- 장점: 데이터가 적을 때 효과적, 높은 정확성, 비선형 모델도 분류 가능, 과대 적합 가능성이 낮고 노이즈 영향이 적음
- 단점: 데이터 크기가 클수록 학습 및 모델링에 많은 시간 소요, 매개변수 조절을 위해 많은 테스트 필요

연관성분석

연관성 분석: 대량의 데이터에 숨겨진 데이터 간 연관규칙을 찾아내는 기법 (장바구니 분석, 서열 분석)
- 데이터 간 관계에서 조건과 반응을 발견하는 것으로, 결과의 이해가 직관적이고 종속변수가 없어도 적용이 가능함
연관성 분석 측정 지표: 지지도, 신뢰도, 향상도 지표를 측정
- 지지도(Support): 조건품목과 결과품목을 동시에 포함하는 거래의 비율
  - (A와 B 동시에 포함된 거래 수)/(전체 거래 수)
- 신뢰도(Confidence): 조건품목을 샀을 때 결과품목을 살 조건부 확률
  - (A와 B 동시에 포함된 거래 수)/(조건 품목이 포함된 모든 거래 수)
- 향상도(Lift): 연관규칙이 우연에 의해 발생한 것인지 측정하는 척도
  - P(B|A)/P(B) = {(A와 B 동시에 포함된 거래수)/(A를 포함하는 거래수)}/{(B를 포함하는 거래수)/(전체 거래 수)}
  - = (A와 B 동시에 포함된 거래수 X 전체 거래수) / (A포함 거래수 X B포함 거래수)
  - = 신뢰도/P(B)
  - = P(A∩B)/{P(A)XP(B)}
- 향상도가 1보다 크면 양의 관계, 1이면 독립, 1보다 작으면 음의 관계
연관석 분석 측정 알고리즘: 아프리오리(Apriori) 알고리즘, FP-Growth 알고리즘
- 아프리오리 알고리즘
  - 모든 경우의 수를 탐색하지 않고 데이터들의 발생 빈도가 높은 빈발 항목을 찾아 활용
  - 최소 지지도 설정 후 이보다 큰 지지도 값을 갖는 항목이 빈발 항목이며, 빈발 항목 집합에 대한 연관규칙만 계산
  - 규칙: 한 항목의 집합이 빈발이면 이 항목의 모든 부분집합도 빈발/ 한 항목의 집합이 빈발이 아니면 이 항목을 포함하는 모든 집합은 빈발 항목이 아님
- FP-Growth 알고리즘
  - 트리 구조를 사용하여 최소 지지도를 충족하는 빈발 항목 추출
  - 아프리오리보다 속도가 빠르고 스캔 횟수 적음
  - 트리구조 설계가 어렵고, 지지도 계산은 트리가 만들어진 후 가능

군집분석

군집분석: 관측된 데이터의 유사성을 측정하여 다수의 군집으로 나누고 군집 간 차이를 확인하는 분석기법
- 비지도학습
- 군집 내 유사성(응집도)이 높고, 군집 간 유사성(분리도)은 낮을수록 좋은 군집
- 고객 세분화, 문서 군집, 이상탐지 등 다양한 분야에서 활용
계층적 군집분석
- 미리 군집의 개수를 정하지 않고 데이터 특성에 따라 유사한 개체를 묶어 나가는 과정 반복
- 가까운 개체끼리 차례로 묶거나 멀리 떨어진 개체를 차례로 분리
- 한번 병합된 개체는 다시 분리되지 않음
- 세부 알고리즘: 병합적 방법(Buttom-Up), 분할적 방법(Top-Down)
  - 병합적 방법: 작은 군집에서 시작하여 점차적으로 묶어 나가는 방식
  - 분할적 방법: 큰 군집에서 시작하여 군집을 분리해나가는 방식
비계층적 군집분석
- 미리 군집의 개수를 정하고 그 개수에 맞게 군집 형성
- 한번 분리된 개체도 반복적으로 시행하는 과정에서 재분류 가능
- 세부 알고리즘: 분할 기반, 분포 기반, 밀도 기반, 그래프 기반
  - 중심 기반
    - K-평균 군집 알고리즘: k개의 군집을 사전에 지정하고 데이터와 중심점 간 거리를 최소화하는 방향으로 군집화
유사도 척도
- 데이터간 거리가 가까울수록 데이터의 유사성이 높음
- 데이터 속성에 따라 거리 측정 방법이 달라짐
  - 연속형 변수: 유클리드 거리, 맨해튼 거리, 민코프스키 거리, 마할라노비스 거리
  - 범주형 변수 (명목형 변수): 해밍 거리, 자카드 계수, 앤더버그 계수, 단순 일치 계수
  - 범주형 변수 (순서형 변수): 스피어만 순위상관계수
계층적 군집분석 절차
- 거리 측정 방법 결정 > 군집 형성 알고리즘 결정 > 군집 개수 결정 > 분석 타당성 검토
- 군집 형성 알고리즘: 최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법 등
- 알고리즘에 따라 군집이 달라질 수 있음
- 최종 군집 개수 결정: 시각화 도구 이용
  - 덴드로그램: 개체들이 결합되는 순서를 나타내는 트리형태의 구조를 시각화한 그래프
  - 덴드로그램 생성 후 적절한 수준에서 자르면 군집화 결과 생성 가능
비계층적 군집분석

빅분기 기출

정형 데이터 품질 진단 기법

메타데이터 수집 및 분석, 컬럼 속성 분석, 누락값 분석, 값의 허용 범위 분석, 허용 값 목록 분석, 문자열 패턴 분석, 날짜 유형 분석, 기타 특수 도메인 분석, 유일값 분석, 구조 분석 등

SEMMA 분석 방법론 분석 절차

추출(sample) > 탐색(explore) > 수정(modify) > 모델링(modeling) > 평가(assess)

빅데이터 특징 3V

volumne, velocity, variety (대용량성, 신속성, 다양성)

데이터 분석 절차

문제 인식 > 연구조사 > 모형화 > 데이터 수집 > 데이터 분석 > 분석 결과 제시

맵리듀스의 데이터 처리과정

split > map > shuffle > reduce

ETL (Extract, Transform, Load)

원천 데이터로부터 필요한 데이터를 추출하여, 적재하고자 하는 데이터 웨어하우스에 맞게 변환하여 적재하는 과정

비정형 데이터 품질 기준

기능성, 신뢰성, 사용성, 효율성, 이식성
정형 데이터 품질 기준: 완전성, 유일성, 유효성, 일관성, 정확성

데이터 산업 구조의 서비스 영역

서비스 영역에서는 데이터 자체나 데이터를 가공한 정보를 제공함
데이터 활용 교육, 데이터 처리 제공, 데이터 기반 컨설팅
새로운 아이디어는 서비스를 제공받는 사람이 생각해야 함

모수와 모수추정

모수는 모집단의 특성을 수치화하여 나타낸 것
모수의 추정량 선택기준에는 불편성, 효율성, 일치성, 충분성이 있음
충분성은 추정량이 모수에 대해 가장 많은 정보를 제공할 때 그 추정량은 충분추정량이 됨
일치성은 표본 크기가 증가할수록 좋은 추정값을 제시함

정준분석

두 변수집단 간 연관성을 변수집단에 속한 변수들의 선형결합의 상관계수를 이용하여 분석하는 방법
정준상관계수는 정준변수들 사이의 상관계수
두 집단 중 변수의 개수가 적은 집단의 변수 개수만큼 정준변수 상이 만들어질 수 있음
회귀분석에서는 하나의 반응변수를 여러 설명변수로 설명하고자 할 때 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면, 정준분석에서는 이러한 인과성이 없음

시공간 정의언어와 조작언어

시공간자료 정의언어에는 시공간테이블 인덱스 및 뷰의 정의문, 변경문 등이 포함됨
시공간자료 정의언어에는 공간적 속성과 시간적 속성을 동시에 포함하며 시공간 테이블의 정의문은 점, 선, 면 등의 공간 속성 타입이 추가되어 있음
시공간 조작언어는 객체의 삽입, 삭제, 변경 등의 검색문이 있음
시공간자료 조작언어는 시간지원 연산자와 공간연산자를 포함하며 이를 통해 객체에 대한 공간관리와 이력정보를 제공함