TIL - 250516

AnalytiCode·2025년 5월 16일

ADSP

데이터 마이닝

기법	설명
📊 분류 (Classification)	새로운 데이터를 미리 정의된 그룹에 분류 (ex: 스팸메일인지 아닌지)
🧩 군집화 (Clustering)	비슷한 데이터끼리 그룹화 (ex: 고객 세그먼트 나누기)
🔄 연관 규칙 학습 (Association Rule)	“A → B” 같은 규칙 찾기 (ex: 장바구니 분석)
📈 회귀 (Regression)	수치 예측 (ex: 다음달 매출 예측)
📉 이상탐지 (Anomaly Detection)	정상과 다른 이상값 탐지 (ex: 카드 부정 결제 탐지)
🕒 시계열 분석 (Time Series)	시간 흐름에 따른 패턴 분석 (ex: 주식 가격 예측)

분류(범주형)

chaid(카이제곱 통계량), cart(지니지수), c4.5/5.0(엔트로피지수)

지니지수
불순(불순도: 섞여있는 정도)이 0이면 좋다: 순수도 최대

회귀(연속형) - chaid(anova, f통계), cart(분산감소), SVM(서포트 벡터 머신, 이진분류)

앙상블 - 보팅, 배깅, 부스팅, 스태킹, 랜덤포레스트

앙상블

배깅은 분류기를 병렬로 학습하는 형태
랜덤포레스트는 배깅보다 더 많은 부작위성을 줄임
앙상블 기법을 전체적으로 이상값에 민감하지 않음

군집분석 - K-means, dbscan, 퍼지군집화, EM알고리즘, SOM(자기조직화지도)

연관분석 - 장바구니분석(Apriori, 최소지지도)

연관분석

연관분석의 측도

연관분석의 지표

지지도: 동시에 포함된 거래비율ㅇ
신뢰도: 조건부확률.
향상도 : 두 품목의 상관성
1을 기준으로 1보다 크면 양의상관, 1보다 작으면 음의상관, 1이면 관계없음

결측값과 이상값 검색

결측값 처리

다중대치법 : 여러번 대치(대치 - 분석 - 결합)

통계분석

관계측면

공분산과 독립성의 관계
두 변수가 독립이면 공분산(상관계수) 0,
하지만 공분산이 0이라고 두 변수가 독립인것은 아니다.

상관계수는 두 변수의 공분산을 각각의 표준편차로 나눈 값이다.

다변량분석

다차원 척도법(MDS)

데이터간 거리정보의 근접성을 보존하는 방식, 차원축소하여 시각화
계량 - 양적척도,
비계량 - 순서척도

주성분분석(PCA)

상관성 높은 변수들의 선형결합으로 차원축소, 자료의 분산이 가장 큰 축이 첫번째 주성분

평균고윳값 방법: 주 성분이 갖는 고유값(설명력)의 평균을 구한 뒤, 그것보다 작은ㄱㄹ 제거함.

시계열예측

정상성
시계열 예측을 위해서는 모든시점에 일정한 평균과 분산을 가지는 정상성을 만족해야한다.

평균은 시점에 의존하지 않는다
분산은 시점에 의존하지 않는다
공분산은 시차에 의존하고, 시점에 의존하지않는다(공분산의 단위는 두 척도의 단위의 곱)

차분 - 이동평균법 - 지수평활법(최근 시간 데이터에 가중치를 부여)

분류모델 평가지표

f-b score
b>1 재현율에 큰 비중
b<1 정밀도에 큰 비중
b = 1 f1score와 같음

인공신경망

활성화 함수화 손실함수

은닉층 활성함수: 선형성을 극복

시그모이드 함수 (로지스틱 회귀)
하이퍼볼릭 탄젠트, -1~1 값
ReLU 기울기 소실문제 극복, (0~x)

출력층 활성함수

시그모이드
소프트맥스

손실함수
예측값과 실제값 차이 측정
MSE
크로스 엔트로피

기초 통계분석

회귀분석

독립변수들이 종속변수에 영향을 미치는지 파악하는 분석방법.

계수추정: 최소제곱법(SSE)RK CHLTH.
회귀모형 평가: R-Square, 회귀모형에 의해서 설명되는 변동이 차지하는 비율

회귀모형의 검정

모형이 통계적으로 유의미한가 : f통계량
귀무가설: 모든 회귀계수는 0이다
회귀 계수들이 유의미한가 : t통계량
회귀계수는 0이다

오답

알고리즈미스트

알고리즘으로부터 피해를 입은 사람을 구제하고 사전에 방지하는 역할을 포함

일차원적 분석 - 가치기반 분석

일차원적 분석은 해당 부서 및 내부문제에만 국한
작은 성공으로부터 분석 범위를 보다 넓게 전략적으로 변화를 줌
-> 가치기반 분석으로 나아감
가치기반분석: 전사적인 성공을 위함

인구통계학적 변화는 전사적 관점에서 고려해야하는 요소

전사적관점?

1단원

데이터 베이스 활용

기업활용 데이터베이스

OLTP(Online Transaction Processing) : 데이터 수시로 갱신, 실시간 데이터 갱신
OLAP(Online Analytical Processing) : 데이터 대화식 분석
CRM : 마케팅, 고객과 관련자료 분석
SCM : 공급망 연결 최적화
ERP : 기업 경영 자원 효율화, 자원에 대한 구매 및 생산이 진행되도록 도와 업무 효율성 높임
RTE : 최신정보로 빠른 의사결정 지원
BI : 리포트 중심 도구
BA : 통계기반 비즈니스 통찰력
BLOCK CHAIN : 네트워크에 참여한 모든 사용자가 정보를 분산, 저장
KMS(Knowledge Management System) : 기업의 모든 지식 포함

빅데이터 활용 테크닉

유형분석: 같은 패턴을 보이는 고객을 분류하여 다른 서비스를 제공
텍스트마이닝: 영화 리뷰를 통해 영화에 점수를 부여
회귀분석: 고객의 만족도와 재방문율을 계산

마이닝(mining): 채굴, 데이터 속에서 규칙이나 패턴을 찾음

데이터 모델링

데이터 포인트간의 연결 및 관계를 이해하기 위해 시각화로 표현하는 일련의 프로세스

2과목

빅데이터 분석 방법론

분석 방법론 모델

폭포수모델 : 이전단계 완료되어야 다음단계
프로토타입: 일부분(프로포타입)을 우선개발하고 보완, 사용자 개발 방법...

하향식 접근법 해결방안 탐색

시스템 고도화
교육 및 채용을 통한 인력확보

자기조직화지도(SOM)

신경망을 활용하여 차원숙소를 통해 지도로 형상화하여 군집.
순전파 방식 사용(은닉층 x)
최적의 초기 학습률 및 가중치의 결정 어려움

오차 / 잔차

모집단 - 오차
표본집단 - 잔차

AnalytiCode

이전 포스트

TIL - 250515

다음 포스트