[TIL#30 250402] 암기빵 구해요 (진짜 급함)

강민지·2025년 4월 2일

데이터분석_TIL

목록 보기
32/81

Daily plan

🌞오전

- 빅분기 공부
- 11시 통계 라이브세션

🔥 오후

- 빅분기 발등에 불떨어짐 (3과목 모델링 정리)
- 통계 강의 2주차+3주차

🌝 저녁
- 빅분기..........
- 스크럼 작성 + TIL 제출


빅분기

인공신경망

  • 인공신경망 (Artificial Neural Network; ANN)
    • 인간 두뇌의 신경세포인 뉴런을 모방하여 개발한 기계학습 모델
    • 분류, 회귀 모두에 사용 가능
  • 단층 퍼셉트론
    • 초기 인공신경망 모델은 단층 퍼셉트론
    • 입력층, 가중치, 순 입력함수, 활성화함수, 출력층으로 구성
      • 가중치: 노드 간 연결 강도를 의미하며, 해당 신호가 중요할수록 가중치를 조절 (인공신경망의 핵심 매개변수)
      • 활성화 함수: 입력신호의 총합을 출력 신호로 변환하는 함수
      • 손실함수: 가중치 학습을 위해 오차를 측정하는 함수
    • 학습 절차
      • 각 입력 데이터와 가중치를 순 입력함수에서 곱한 후 값을 합함
      • 순 입력함수의 값을 활성화 함수의 임곗값과 비교하여 예측값 출력
      • 예측값과 실제값이 다르면 가중치를 업데이트하여 손실함수를 최소화하는 방향으로 학습 반복
    • 단층 퍼셉트론은 AND, OR 연산은 선형 분리가 가능하지만 XOR은 선형 분리가 불가능하다는 한계점을 가짐
  • 다층 퍼셉트론
    • 입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해서도 학습이 가능한 퍼셉트론
    • 두 개 이상의 은식층을 둔 구조의 모델을 심층신경망, 딥러닝이라고 함
    • 활성화 함수로 시그모이드 함수를 사용
      • 기울기를 구하기 위해 편미분을 계산할수록 0으로 근접하여 기울기 소실 문제 발생
      • 시그모이드 함수 대신 ReLU 활성화 함수를 사용하여 이러한 문제를 해결
  • 활성화 함수
    • 순 입력함수로부터 전달받은 값을 임곗값과 비교하여 출력값으로 변환해주는 함수
    • 계단함수, 부호함수, tanh 함수, 시그모이드 함수, ReLU 함수, Leaky ReLU 함수, 소프트맥스 함수 등
  • 인공신경망 학습: 훈련 데이터 추출 > 기울기 산출 > 매개변수 최적화
    • 순전파: 입력 데이터를 기반으로 신경망을 따라 입력층부터 출력층까지 차례대로 변수들을 계산하고 학습하는 과정
    • 역전파: 순전파 과정을 통해 나온 오차를 활용해 각 계층의 가중치와 편향을 최적화
    • 손실함수를 최소화하는 방향으로 가중치 매개변수 최적화
    • 경사 하강법: 가장 기본적인 최적화 알고리즘, 경사를 따라 내려가며 가중치를 업데이트 하는 방식

서포트벡터머신(SVM)

  • 서포트벡터머신: 최적의 분리 초평면을 찾아 데이터를 분류하는 모델
    • 지도학습의 일종
    • 데이터 마이닝 기법 및 기계학습에 쓰이는 대표적 알고리즘
    • 훈련시간이 상대적으로 느리지만, 정확성이 뛰어나고 과대 적합 가능성이 낮은 모델
    • 변수 속성 간 의존성을 고려하지 않음
  • 용어
    • 결정 경계: 데이터 분류의 기준이 되는 경계로, 초평면이라고도 함
    • 초평면: n차원 공간의 (n-1)차원 평면
      • 2차원 공간의 초평면은 1차원 직선이고, 3차원 공간의 초평면은 2차원 평면임
    • 마진
      • 결정 경계에서 서포트벡터까지의 거리
      • 최적의 결정 경계는 마진을 최대화
    • 서포트벡터
      • 학습 데이터 중에서 결정 경계와 가장 가까이에 있는 데이터들의 집합
      • 서포트벡터는 여러개일 수 있고, 서포트벡터들만 이용하여 클래스의 결정 함수 구현 가능
    • 슬랙 변수: 완벽한 분리가 불가능할 때 허용된 오차를 위한 변수
  • SVM 종류
    • 하드마진 SVM: 오차를 허용하지 않음, 현실 데이터를 적용하기 어려움
    • 소프트마진 SVM: 오차를 허용하며, 얼마나 허용할지 파라미터로 조정, 주로 소프트마진 SVM을 이용함
  • 비선형 서포트벡터머신
    • 선형으로 분류할 수 없는 비선형 데이터는 차원을 높이고 커널 함수를 사용해 분류 가능
    • 커널트릭: 데이터를 고차원으로 매핑하려면 연산량이 복잡해지는데, 이를 해결하기 위해 실제로 데이터를 매핑하지는 않지만 비슷한 효과를 만들 수 있는 커널함수를 사용
    • 커널함수 종류
      • 선형 커널: 가장 기본적인 유형, 1차원이며 다른 함수보다 속도가 빠름
      • 다항 커널: 선형 커널의 일반화된 커널, 자주 사용X
      • 가우시안 커널: 일반적으로 사용, 주로 데이터에 대한 사전 지식이 없을 때 사용
      • 가우시안 RBF 커널: 가장 많이 사용됨
      • 시그모이드 커널: 인공신경망에서 선호되며 다층 퍼셉트론과 유사
  • SVM의 장단점
    • 장점: 데이터가 적을 때 효과적, 높은 정확성, 비선형 모델도 분류 가능, 과대 적합 가능성이 낮고 노이즈 영향이 적음
    • 단점: 데이터 크기가 클수록 학습 및 모델링에 많은 시간 소요, 매개변수 조절을 위해 많은 테스트 필요

연관성분석

  • 연관성 분석: 대량의 데이터에 숨겨진 데이터 간 연관규칙을 찾아내는 기법 (장바구니 분석, 서열 분석)
    • 데이터 간 관계에서 조건과 반응을 발견하는 것으로, 결과의 이해가 직관적이고 종속변수가 없어도 적용이 가능함
  • 연관성 분석 측정 지표: 지지도, 신뢰도, 향상도 지표를 측정
    • 지지도(Support): 조건품목과 결과품목을 동시에 포함하는 거래의 비율
      • (A와 B 동시에 포함된 거래 수)/(전체 거래 수)
    • 신뢰도(Confidence): 조건품목을 샀을 때 결과품목을 살 조건부 확률
      • (A와 B 동시에 포함된 거래 수)/(조건 품목이 포함된 모든 거래 수)
    • 향상도(Lift): 연관규칙이 우연에 의해 발생한 것인지 측정하는 척도
      • P(B|A)/P(B) = {(A와 B 동시에 포함된 거래수)/(A를 포함하는 거래수)}/{(B를 포함하는 거래수)/(전체 거래 수)}
      • = (A와 B 동시에 포함된 거래수 X 전체 거래수) / (A포함 거래수 X B포함 거래수)
      • = 신뢰도/P(B)
      • = P(A∩B)/{P(A)XP(B)}
    • 향상도가 1보다 크면 양의 관계, 1이면 독립, 1보다 작으면 음의 관계
  • 연관석 분석 측정 알고리즘: 아프리오리(Apriori) 알고리즘, FP-Growth 알고리즘
    • 아프리오리 알고리즘
      • 모든 경우의 수를 탐색하지 않고 데이터들의 발생 빈도가 높은 빈발 항목을 찾아 활용
      • 최소 지지도 설정 후 이보다 큰 지지도 값을 갖는 항목이 빈발 항목이며, 빈발 항목 집합에 대한 연관규칙만 계산
      • 규칙: 한 항목의 집합이 빈발이면 이 항목의 모든 부분집합도 빈발/ 한 항목의 집합이 빈발이 아니면 이 항목을 포함하는 모든 집합은 빈발 항목이 아님
    • FP-Growth 알고리즘
      • 트리 구조를 사용하여 최소 지지도를 충족하는 빈발 항목 추출
      • 아프리오리보다 속도가 빠르고 스캔 횟수 적음
      • 트리구조 설계가 어렵고, 지지도 계산은 트리가 만들어진 후 가능

군집분석

  • 군집분석: 관측된 데이터의 유사성을 측정하여 다수의 군집으로 나누고 군집 간 차이를 확인하는 분석기법
    • 비지도학습
    • 군집 내 유사성(응집도)이 높고, 군집 간 유사성(분리도)은 낮을수록 좋은 군집
    • 고객 세분화, 문서 군집, 이상탐지 등 다양한 분야에서 활용
  • 계층적 군집분석
    • 미리 군집의 개수를 정하지 않고 데이터 특성에 따라 유사한 개체를 묶어 나가는 과정 반복
    • 가까운 개체끼리 차례로 묶거나 멀리 떨어진 개체를 차례로 분리
    • 한번 병합된 개체는 다시 분리되지 않음
    • 세부 알고리즘: 병합적 방법(Buttom-Up), 분할적 방법(Top-Down)
      • 병합적 방법: 작은 군집에서 시작하여 점차적으로 묶어 나가는 방식
      • 분할적 방법: 큰 군집에서 시작하여 군집을 분리해나가는 방식
  • 비계층적 군집분석
    • 미리 군집의 개수를 정하고 그 개수에 맞게 군집 형성
    • 한번 분리된 개체도 반복적으로 시행하는 과정에서 재분류 가능
    • 세부 알고리즘: 분할 기반, 분포 기반, 밀도 기반, 그래프 기반
      • 중심 기반
        • K-평균 군집 알고리즘: k개의 군집을 사전에 지정하고 데이터와 중심점 간 거리를 최소화하는 방향으로 군집화
  • 유사도 척도
    • 데이터간 거리가 가까울수록 데이터의 유사성이 높음
    • 데이터 속성에 따라 거리 측정 방법이 달라짐
      • 연속형 변수: 유클리드 거리, 맨해튼 거리, 민코프스키 거리, 마할라노비스 거리
      • 범주형 변수 (명목형 변수): 해밍 거리, 자카드 계수, 앤더버그 계수, 단순 일치 계수
      • 범주형 변수 (순서형 변수): 스피어만 순위상관계수
  • 계층적 군집분석 절차
    • 거리 측정 방법 결정 > 군집 형성 알고리즘 결정 > 군집 개수 결정 > 분석 타당성 검토
    • 군집 형성 알고리즘: 최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법 등
    • 알고리즘에 따라 군집이 달라질 수 있음
    • 최종 군집 개수 결정: 시각화 도구 이용
      • 덴드로그램: 개체들이 결합되는 순서를 나타내는 트리형태의 구조를 시각화한 그래프
      • 덴드로그램 생성 후 적절한 수준에서 자르면 군집화 결과 생성 가능
  • 비계층적 군집분석

빅분기 기출

정형 데이터 품질 진단 기법

  • 메타데이터 수집 및 분석, 컬럼 속성 분석, 누락값 분석, 값의 허용 범위 분석, 허용 값 목록 분석, 문자열 패턴 분석, 날짜 유형 분석, 기타 특수 도메인 분석, 유일값 분석, 구조 분석 등

SEMMA 분석 방법론 분석 절차

  • 추출(sample) > 탐색(explore) > 수정(modify) > 모델링(modeling) > 평가(assess)

빅데이터 특징 3V

  • volumne, velocity, variety (대용량성, 신속성, 다양성)

데이터 분석 절차

  • 문제 인식 > 연구조사 > 모형화 > 데이터 수집 > 데이터 분석 > 분석 결과 제시

맵리듀스의 데이터 처리과정

  • split > map > shuffle > reduce

ETL (Extract, Transform, Load)

  • 원천 데이터로부터 필요한 데이터를 추출하여, 적재하고자 하는 데이터 웨어하우스에 맞게 변환하여 적재하는 과정

비정형 데이터 품질 기준

  • 기능성, 신뢰성, 사용성, 효율성, 이식성
  • 정형 데이터 품질 기준: 완전성, 유일성, 유효성, 일관성, 정확성

데이터 산업 구조의 서비스 영역

  • 서비스 영역에서는 데이터 자체나 데이터를 가공한 정보를 제공함
  • 데이터 활용 교육, 데이터 처리 제공, 데이터 기반 컨설팅
  • 새로운 아이디어는 서비스를 제공받는 사람이 생각해야 함

모수와 모수추정

  • 모수는 모집단의 특성을 수치화하여 나타낸 것
  • 모수의 추정량 선택기준에는 불편성, 효율성, 일치성, 충분성이 있음
  • 충분성은 추정량이 모수에 대해 가장 많은 정보를 제공할 때 그 추정량은 충분추정량이 됨
  • 일치성은 표본 크기가 증가할수록 좋은 추정값을 제시함

정준분석

  • 두 변수집단 간 연관성을 변수집단에 속한 변수들의 선형결합의 상관계수를 이용하여 분석하는 방법
  • 정준상관계수는 정준변수들 사이의 상관계수
  • 두 집단 중 변수의 개수가 적은 집단의 변수 개수만큼 정준변수 상이 만들어질 수 있음
  • 회귀분석에서는 하나의 반응변수를 여러 설명변수로 설명하고자 할 때 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면, 정준분석에서는 이러한 인과성이 없음

시공간 정의언어와 조작언어

  • 시공간자료 정의언어에는 시공간테이블 인덱스 및 뷰의 정의문, 변경문 등이 포함됨
  • 시공간자료 정의언어에는 공간적 속성과 시간적 속성을 동시에 포함하며 시공간 테이블의 정의문은 점, 선, 면 등의 공간 속성 타입이 추가되어 있음
  • 시공간 조작언어는 객체의 삽입, 삭제, 변경 등의 검색문이 있음
  • 시공간자료 조작언어는 시간지원 연산자와 공간연산자를 포함하며 이를 통해 객체에 대한 공간관리와 이력정보를 제공함

데이터 마이닝

  • 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
  • OLAP, SOM, 신경망, 전문가 시스템 등의 기술적 방법론이 쓰임
  • 자료가 현실을 충분히 반영하지 못한 상태로 정보 추출 모형 개발 시 잘못된 모형 구축 가능

로지스틱 회귀분석

  • 종속변수: 범주형 / 분포: 이항분포

회귀분석의 기본 가정

  • 선형성: 독릷변수와 종속변수가 선형적이어야 함
  • 잔차 정규성: 잔차의 기댓값은 0이며 정규분포를 이루어야 함
  • 잔차 등분산성: 잔차들의 분산이 일정해야 함 (1이 될 필요는 X)
  • 다중공산성: 3개 이상의 독립변수간의 상관관계로 인한 문제가 없어야 함

회귀분석에서 잔차의 가정

  • 등분산성, 정규성, 독립성

준지도학습 방법론 - 셀프트레이닝

  • 레이블이 달린 데이터로 모델 학습 후, 레이블 되지 않은 데이터를 예측하여 이 중 가장 확률이 높은 데이터들만 레이블 데이터로 다시 가져감

분석모형 종류

  • 예측분석, 현황진단, 최적화분석 모형

나이브 베이즈 분류

  • 분류기를 만들 수 있는 간단한 기술로, 단일 알고리즘이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용해 훈련됨
  • 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값이 서로 배반사건임을 가정함
  • 나이브 베이즈 분류는 분류에 필요한 파라미터 추정을 위한 트레이닝 데이터의 양이 매우 적다는 장점이 있음
  • 나이브 베이즈 분류는 베이즈 정리를 적용한 확률 분류기를 지칭함

인공신경망

  • 기계학습과 인지과학에서, 생물학의 신경망으로부터 영감을 얻은 통계학적 학습 알고리즘
  • 시냅스 결합으로 네트워크를 형성한 인공 뉴런이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제 해결 능력을 가지는 모델 전반을 의미
  • 트레이닝 셋에만 최적화되어 실제 테스트와 예상 결과 간 괴리가 발생한다는 단점
  • 최초 시작점 선택에 따라 수렴, 발산, 진동 등 다양한 형태로 결과가 바뀌는 단점

군집분석

  • 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때 사용되는 기법
  • 각 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용
  • 판별분석과 달리 집단이 사전에 정의되어 있지 않음
  • 군집분석 수행 첫번째 단계는 몇개의 집단이 존재하는지 알아보기 위해 각 표본들 간 유사성 혹은 연관성을 조사하는 것

일반적인 신경망 알고리즘 학습 프로세스 순서

  • 미니배치 > 가중치 매개변수 기울기 산출 > 매개변수 갱신

불균형 데이터 처리 방법

  • 종속변수의 데이터에서 더 많은 수의 데이터는 삭제
  • 종속변수의 데이터에서 더 적은 수의 데이터는 추가
  • 종속변수에 가중치를 더함

라쏘 회귀 (Lasso Regression)

  • 가중치의 절대값의 합을 최소화 하는 것을 제약조건으로 하는 기법
  • 파라미터 크기에 관계없이 같은 수준의 regularization을 적용해 작은 값의 파라미터를 0으로 만들고, 해당 변수를 모델에서 삭제해 단순화하여 해석에 용이하게 함
  • L1 penalty를 사용

홀드아웃 방법

  • 모델의 성능을 증가시키는 선택을 반복하며 발생하는 모델의 과적합 문제 해결을 위해 데이터를 학습, 평가 데이터 셋으로 분리하는 데이터 분할 방법

일기


울면서 웃는 조장님 달래주기

아니 나 어쩌다가 조원들한테 낮잠의 대명사로 낙인찍혔지???? 진짜 황당...억울....

2개의 댓글

comment-user-thumbnail
2025년 4월 2일

빅분기 공부까지 함께하는 민지님... 진짜 대다내.... 🤓👍

답글 달기
comment-user-thumbnail
2025년 4월 4일

강민지 스럽다 ~

답글 달기