Daily plan
🌞오전
- 빅분기 공부
- 11시 통계 라이브세션
🔥 오후
- 빅분기 발등에 불떨어짐 (3과목 모델링 정리)
- 통계 강의 2주차+3주차
🌝 저녁
- 빅분기..........
- 스크럼 작성 + TIL 제출
빅분기
인공신경망
- 인공신경망 (Artificial Neural Network; ANN)
- 인간 두뇌의 신경세포인 뉴런을 모방하여 개발한 기계학습 모델
- 분류, 회귀 모두에 사용 가능
- 단층 퍼셉트론
- 초기 인공신경망 모델은 단층 퍼셉트론
- 입력층, 가중치, 순 입력함수, 활성화함수, 출력층으로 구성
- 가중치: 노드 간 연결 강도를 의미하며, 해당 신호가 중요할수록 가중치를 조절 (인공신경망의 핵심 매개변수)
- 활성화 함수: 입력신호의 총합을 출력 신호로 변환하는 함수
- 손실함수: 가중치 학습을 위해 오차를 측정하는 함수
- 학습 절차
- 각 입력 데이터와 가중치를 순 입력함수에서 곱한 후 값을 합함
- 순 입력함수의 값을 활성화 함수의 임곗값과 비교하여 예측값 출력
- 예측값과 실제값이 다르면 가중치를 업데이트하여 손실함수를 최소화하는 방향으로 학습 반복
- 단층 퍼셉트론은 AND, OR 연산은 선형 분리가 가능하지만 XOR은 선형 분리가 불가능하다는 한계점을 가짐
- 다층 퍼셉트론
- 입력층과 출력층 사이에 하나 이상의 은닉층을 두어 비선형적으로 분리되는 데이터에 대해서도 학습이 가능한 퍼셉트론
- 두 개 이상의 은식층을 둔 구조의 모델을 심층신경망, 딥러닝이라고 함
- 활성화 함수로 시그모이드 함수를 사용
- 기울기를 구하기 위해 편미분을 계산할수록 0으로 근접하여 기울기 소실 문제 발생
- 시그모이드 함수 대신 ReLU 활성화 함수를 사용하여 이러한 문제를 해결
- 활성화 함수
- 순 입력함수로부터 전달받은 값을 임곗값과 비교하여 출력값으로 변환해주는 함수
- 계단함수, 부호함수, tanh 함수, 시그모이드 함수, ReLU 함수, Leaky ReLU 함수, 소프트맥스 함수 등
- 인공신경망 학습: 훈련 데이터 추출 > 기울기 산출 > 매개변수 최적화
- 순전파: 입력 데이터를 기반으로 신경망을 따라 입력층부터 출력층까지 차례대로 변수들을 계산하고 학습하는 과정
- 역전파: 순전파 과정을 통해 나온 오차를 활용해 각 계층의 가중치와 편향을 최적화
- 손실함수를 최소화하는 방향으로 가중치 매개변수 최적화
- 경사 하강법: 가장 기본적인 최적화 알고리즘, 경사를 따라 내려가며 가중치를 업데이트 하는 방식
서포트벡터머신(SVM)
- 서포트벡터머신: 최적의 분리 초평면을 찾아 데이터를 분류하는 모델
- 지도학습의 일종
- 데이터 마이닝 기법 및 기계학습에 쓰이는 대표적 알고리즘
- 훈련시간이 상대적으로 느리지만, 정확성이 뛰어나고 과대 적합 가능성이 낮은 모델
- 변수 속성 간 의존성을 고려하지 않음
- 용어
- 결정 경계: 데이터 분류의 기준이 되는 경계로, 초평면이라고도 함
- 초평면: n차원 공간의 (n-1)차원 평면
- 2차원 공간의 초평면은 1차원 직선이고, 3차원 공간의 초평면은 2차원 평면임
- 마진
- 결정 경계에서 서포트벡터까지의 거리
- 최적의 결정 경계는 마진을 최대화
- 서포트벡터
- 학습 데이터 중에서 결정 경계와 가장 가까이에 있는 데이터들의 집합
- 서포트벡터는 여러개일 수 있고, 서포트벡터들만 이용하여 클래스의 결정 함수 구현 가능
- 슬랙 변수: 완벽한 분리가 불가능할 때 허용된 오차를 위한 변수
- SVM 종류
- 하드마진 SVM: 오차를 허용하지 않음, 현실 데이터를 적용하기 어려움
- 소프트마진 SVM: 오차를 허용하며, 얼마나 허용할지 파라미터로 조정, 주로 소프트마진 SVM을 이용함
- 비선형 서포트벡터머신
- 선형으로 분류할 수 없는 비선형 데이터는 차원을 높이고 커널 함수를 사용해 분류 가능
- 커널트릭: 데이터를 고차원으로 매핑하려면 연산량이 복잡해지는데, 이를 해결하기 위해 실제로 데이터를 매핑하지는 않지만 비슷한 효과를 만들 수 있는 커널함수를 사용
- 커널함수 종류
- 선형 커널: 가장 기본적인 유형, 1차원이며 다른 함수보다 속도가 빠름
- 다항 커널: 선형 커널의 일반화된 커널, 자주 사용X
- 가우시안 커널: 일반적으로 사용, 주로 데이터에 대한 사전 지식이 없을 때 사용
- 가우시안 RBF 커널: 가장 많이 사용됨
- 시그모이드 커널: 인공신경망에서 선호되며 다층 퍼셉트론과 유사
- SVM의 장단점
- 장점: 데이터가 적을 때 효과적, 높은 정확성, 비선형 모델도 분류 가능, 과대 적합 가능성이 낮고 노이즈 영향이 적음
- 단점: 데이터 크기가 클수록 학습 및 모델링에 많은 시간 소요, 매개변수 조절을 위해 많은 테스트 필요
연관성분석
- 연관성 분석: 대량의 데이터에 숨겨진 데이터 간 연관규칙을 찾아내는 기법 (장바구니 분석, 서열 분석)
- 데이터 간 관계에서 조건과 반응을 발견하는 것으로, 결과의 이해가 직관적이고 종속변수가 없어도 적용이 가능함
- 연관성 분석 측정 지표: 지지도, 신뢰도, 향상도 지표를 측정
- 지지도(Support): 조건품목과 결과품목을 동시에 포함하는 거래의 비율
- (A와 B 동시에 포함된 거래 수)/(전체 거래 수)
- 신뢰도(Confidence): 조건품목을 샀을 때 결과품목을 살 조건부 확률
- (A와 B 동시에 포함된 거래 수)/(조건 품목이 포함된 모든 거래 수)
- 향상도(Lift): 연관규칙이 우연에 의해 발생한 것인지 측정하는 척도
- P(B|A)/P(B) = {(A와 B 동시에 포함된 거래수)/(A를 포함하는 거래수)}/{(B를 포함하는 거래수)/(전체 거래 수)}
- = (A와 B 동시에 포함된 거래수 X 전체 거래수) / (A포함 거래수 X B포함 거래수)
- = 신뢰도/P(B)
- = P(A∩B)/{P(A)XP(B)}
- 향상도가 1보다 크면 양의 관계, 1이면 독립, 1보다 작으면 음의 관계
- 연관석 분석 측정 알고리즘: 아프리오리(Apriori) 알고리즘, FP-Growth 알고리즘
- 아프리오리 알고리즘
- 모든 경우의 수를 탐색하지 않고 데이터들의 발생 빈도가 높은 빈발 항목을 찾아 활용
- 최소 지지도 설정 후 이보다 큰 지지도 값을 갖는 항목이 빈발 항목이며, 빈발 항목 집합에 대한 연관규칙만 계산
- 규칙: 한 항목의 집합이 빈발이면 이 항목의 모든 부분집합도 빈발/ 한 항목의 집합이 빈발이 아니면 이 항목을 포함하는 모든 집합은 빈발 항목이 아님
- FP-Growth 알고리즘
- 트리 구조를 사용하여 최소 지지도를 충족하는 빈발 항목 추출
- 아프리오리보다 속도가 빠르고 스캔 횟수 적음
- 트리구조 설계가 어렵고, 지지도 계산은 트리가 만들어진 후 가능
군집분석
- 군집분석: 관측된 데이터의 유사성을 측정하여 다수의 군집으로 나누고 군집 간 차이를 확인하는 분석기법
- 비지도학습
- 군집 내 유사성(응집도)이 높고, 군집 간 유사성(분리도)은 낮을수록 좋은 군집
- 고객 세분화, 문서 군집, 이상탐지 등 다양한 분야에서 활용
- 계층적 군집분석
- 미리 군집의 개수를 정하지 않고 데이터 특성에 따라 유사한 개체를 묶어 나가는 과정 반복
- 가까운 개체끼리 차례로 묶거나 멀리 떨어진 개체를 차례로 분리
- 한번 병합된 개체는 다시 분리되지 않음
- 세부 알고리즘: 병합적 방법(Buttom-Up), 분할적 방법(Top-Down)
- 병합적 방법: 작은 군집에서 시작하여 점차적으로 묶어 나가는 방식
- 분할적 방법: 큰 군집에서 시작하여 군집을 분리해나가는 방식
- 비계층적 군집분석
- 미리 군집의 개수를 정하고 그 개수에 맞게 군집 형성
- 한번 분리된 개체도 반복적으로 시행하는 과정에서 재분류 가능
- 세부 알고리즘: 분할 기반, 분포 기반, 밀도 기반, 그래프 기반
- 중심 기반
- K-평균 군집 알고리즘: k개의 군집을 사전에 지정하고 데이터와 중심점 간 거리를 최소화하는 방향으로 군집화
- 유사도 척도
- 데이터간 거리가 가까울수록 데이터의 유사성이 높음
- 데이터 속성에 따라 거리 측정 방법이 달라짐
- 연속형 변수: 유클리드 거리, 맨해튼 거리, 민코프스키 거리, 마할라노비스 거리
- 범주형 변수 (명목형 변수): 해밍 거리, 자카드 계수, 앤더버그 계수, 단순 일치 계수
- 범주형 변수 (순서형 변수): 스피어만 순위상관계수
- 계층적 군집분석 절차
- 거리 측정 방법 결정 > 군집 형성 알고리즘 결정 > 군집 개수 결정 > 분석 타당성 검토
- 군집 형성 알고리즘: 최단연결법, 최장연결법, 평균연결법, 중심연결법, 와드연결법 등
- 알고리즘에 따라 군집이 달라질 수 있음
- 최종 군집 개수 결정: 시각화 도구 이용
- 덴드로그램: 개체들이 결합되는 순서를 나타내는 트리형태의 구조를 시각화한 그래프
- 덴드로그램 생성 후 적절한 수준에서 자르면 군집화 결과 생성 가능
- 비계층적 군집분석
빅분기 기출
정형 데이터 품질 진단 기법
- 메타데이터 수집 및 분석, 컬럼 속성 분석, 누락값 분석, 값의 허용 범위 분석, 허용 값 목록 분석, 문자열 패턴 분석, 날짜 유형 분석, 기타 특수 도메인 분석, 유일값 분석, 구조 분석 등
SEMMA 분석 방법론 분석 절차
- 추출(sample) > 탐색(explore) > 수정(modify) > 모델링(modeling) > 평가(assess)
빅데이터 특징 3V
- volumne, velocity, variety (대용량성, 신속성, 다양성)
데이터 분석 절차
- 문제 인식 > 연구조사 > 모형화 > 데이터 수집 > 데이터 분석 > 분석 결과 제시
맵리듀스의 데이터 처리과정
- split > map > shuffle > reduce
- 원천 데이터로부터 필요한 데이터를 추출하여, 적재하고자 하는 데이터 웨어하우스에 맞게 변환하여 적재하는 과정
비정형 데이터 품질 기준
- 기능성, 신뢰성, 사용성, 효율성, 이식성
- 정형 데이터 품질 기준: 완전성, 유일성, 유효성, 일관성, 정확성
데이터 산업 구조의 서비스 영역
- 서비스 영역에서는 데이터 자체나 데이터를 가공한 정보를 제공함
- 데이터 활용 교육, 데이터 처리 제공, 데이터 기반 컨설팅
- 새로운 아이디어는 서비스를 제공받는 사람이 생각해야 함
모수와 모수추정
- 모수는 모집단의 특성을 수치화하여 나타낸 것
- 모수의 추정량 선택기준에는 불편성, 효율성, 일치성, 충분성이 있음
- 충분성은 추정량이 모수에 대해 가장 많은 정보를 제공할 때 그 추정량은 충분추정량이 됨
- 일치성은 표본 크기가 증가할수록 좋은 추정값을 제시함
정준분석
- 두 변수집단 간 연관성을 변수집단에 속한 변수들의 선형결합의 상관계수를 이용하여 분석하는 방법
- 정준상관계수는 정준변수들 사이의 상관계수
- 두 집단 중 변수의 개수가 적은 집단의 변수 개수만큼 정준변수 상이 만들어질 수 있음
- 회귀분석에서는 하나의 반응변수를 여러 설명변수로 설명하고자 할 때 가장 설명력이 높은 변수들의 선형결합을 찾아 이들 사이의 인과관계를 생각하는 반면, 정준분석에서는 이러한 인과성이 없음
시공간 정의언어와 조작언어
- 시공간자료 정의언어에는 시공간테이블 인덱스 및 뷰의 정의문, 변경문 등이 포함됨
- 시공간자료 정의언어에는 공간적 속성과 시간적 속성을 동시에 포함하며 시공간 테이블의 정의문은 점, 선, 면 등의 공간 속성 타입이 추가되어 있음
- 시공간 조작언어는 객체의 삽입, 삭제, 변경 등의 검색문이 있음
- 시공간자료 조작언어는 시간지원 연산자와 공간연산자를 포함하며 이를 통해 객체에 대한 공간관리와 이력정보를 제공함
데이터 마이닝
- 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하는 과정
- OLAP, SOM, 신경망, 전문가 시스템 등의 기술적 방법론이 쓰임
- 자료가 현실을 충분히 반영하지 못한 상태로 정보 추출 모형 개발 시 잘못된 모형 구축 가능
로지스틱 회귀분석
회귀분석의 기본 가정
- 선형성: 독릷변수와 종속변수가 선형적이어야 함
- 잔차 정규성: 잔차의 기댓값은 0이며 정규분포를 이루어야 함
- 잔차 등분산성: 잔차들의 분산이 일정해야 함 (1이 될 필요는 X)
- 다중공산성: 3개 이상의 독립변수간의 상관관계로 인한 문제가 없어야 함
회귀분석에서 잔차의 가정
준지도학습 방법론 - 셀프트레이닝
- 레이블이 달린 데이터로 모델 학습 후, 레이블 되지 않은 데이터를 예측하여 이 중 가장 확률이 높은 데이터들만 레이블 데이터로 다시 가져감
분석모형 종류
나이브 베이즈 분류
- 분류기를 만들 수 있는 간단한 기술로, 단일 알고리즘이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용해 훈련됨
- 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값이 서로 배반사건임을 가정함
- 나이브 베이즈 분류는 분류에 필요한 파라미터 추정을 위한 트레이닝 데이터의 양이 매우 적다는 장점이 있음
- 나이브 베이즈 분류는 베이즈 정리를 적용한 확률 분류기를 지칭함
인공신경망
- 기계학습과 인지과학에서, 생물학의 신경망으로부터 영감을 얻은 통계학적 학습 알고리즘
- 시냅스 결합으로 네트워크를 형성한 인공 뉴런이 학습을 통해 시냅스의 결합 세기를 변화시켜 문제 해결 능력을 가지는 모델 전반을 의미
- 트레이닝 셋에만 최적화되어 실제 테스트와 예상 결과 간 괴리가 발생한다는 단점
- 최초 시작점 선택에 따라 수렴, 발산, 진동 등 다양한 형태로 결과가 바뀌는 단점
군집분석
- 집단에 관한 사전정보가 전혀 없는 각 표본에 대하여 그 분류체계를 찾을 때 사용되는 기법
- 각 표본들 간의 유사성에 기초해 한 집단에 분류시키고자 할 때 사용
- 판별분석과 달리 집단이 사전에 정의되어 있지 않음
- 군집분석 수행 첫번째 단계는 몇개의 집단이 존재하는지 알아보기 위해 각 표본들 간 유사성 혹은 연관성을 조사하는 것
일반적인 신경망 알고리즘 학습 프로세스 순서
- 미니배치 > 가중치 매개변수 기울기 산출 > 매개변수 갱신
불균형 데이터 처리 방법
- 종속변수의 데이터에서 더 많은 수의 데이터는 삭제
- 종속변수의 데이터에서 더 적은 수의 데이터는 추가
- 종속변수에 가중치를 더함
라쏘 회귀 (Lasso Regression)
- 가중치의 절대값의 합을 최소화 하는 것을 제약조건으로 하는 기법
- 파라미터 크기에 관계없이 같은 수준의 regularization을 적용해 작은 값의 파라미터를 0으로 만들고, 해당 변수를 모델에서 삭제해 단순화하여 해석에 용이하게 함
- L1 penalty를 사용
홀드아웃 방법
- 모델의 성능을 증가시키는 선택을 반복하며 발생하는 모델의 과적합 문제 해결을 위해 데이터를 학습, 평가 데이터 셋으로 분리하는 데이터 분할 방법
일기

울면서 웃는 조장님 달래주기

아니 나 어쩌다가 조원들한테 낮잠의 대명사로 낙인찍혔지???? 진짜 황당...억울....
빅분기 공부까지 함께하는 민지님... 진짜 대다내.... 🤓👍