Adsp 정리 (3)

Spirit Lab·2025년 5월 11일


-시급성
시급성을 판단 할 때는 비즈니스의 전략적 중요도가 가장 중요
전략적 시급성으로 분석과제의 우선순위를 정의

-난이도
분석과제 수행 시에 적용비용과 범위 측면에서 쉬운 것인지 어려운 것인지 판단


데이터 준비 단계 - 필요 데이터 정의




최적화 부분에서는 다 알고 있지만 이걸 더 잘하게 만들고 싶어 새로운 방법을 탐색하려고 아래로 내려감 그럼 방법을 모색하는 솔루션이 되는거임. 그게 바로 하향식 분석

상향식의 경우 문제도 모르고 방법도 모르는 상태에서 시작하기 때문에 데이터를 처음 살펴보게 됨. 그러다가 이미 데이터를 분석할 수 있는 도구 등 방법은 많다는걸 알게되는거까지가 상향식 분석

1. 당면 분석 주제 해결(과제 중심) : 빠르게, Speed Test, Quick&win, Problem Solving

  1. 지속적 분석 내재화(마스터) : 지속적, Accuracy&Deploy, Long Term View, Problem Definition


덴드로그램 -> 군집분석에서 사용


  • 신경망 모형은 연속적인 층으로 구성된 반면, SOM은 2차원의 그리드로 구성
  • 신경망 모형은 에러 수정을 학습하는 반면, SOM은 경쟁 학습을 시킴
  • 신경망 모형은 역전파 알고리즘이지만, SOM은 전방패스를 사용하여 속도가 매우 빠름
  • SOM은 비지도학습
  • SOM의 경우, 입력층의 뉴런과 경쟁층 뉴런들과는 완전연결


집락추출법이 맞음 이건 말장난

분석방식: 탐색적 (가설 없이 규칙 찾기)
결과표현: 조건반응 형태 (if A → then B)
주요지표: 지지도, 신뢰도, 향상도
단점: 품목 수 많아지면 계산 복잡도 ↑
활용분야: 장바구니 분석, 추천 시스템, 사기 탐지 등

✅ 정답: ① 비율척도 - 혈액형, 학력 등
📌 비율척도(Ratio Scale)의 정의:
절대 0이 존재하고, 사칙연산(덧셈, 뺄셈, 곱셈, 나눗셈)이 모두 가능한 척도

✅ 예: 키, 몸무게, 나이, 소득, 속도 등
→ “A가 B보다 두 배 크다”는 말이 가능해야 함

❌ 그런데 혈액형, 학력은 이런 수치 계산이 안 돼

혈액형은 A형, B형처럼 명목척도

학력은 "고졸 < 대졸 < 석사" 식의 순서만 있고, 차이 계산은 안 됨 → 서열척도

② 구간척도 – ✔️ 맞는 설명
덧셈, 뺄셈 가능하지만, 절대적인 0이 없음
예: 온도 (섭씨), 시간(연도) 등

📌 예: 20도와 40도의 차이는 20도지만,
"40도가 20도의 두 배로 덥다"는 말은 ❌ 불가능 (절대 0이 아니기 때문)
그니까 온도가 0이면 어는점인거지 진짜 온도가 없는 0이 아니라는 의미

③ 서열척도 – ✔️ 맞는 설명
순서는 있지만, 간격 비교는 안 됨
예: 메달(금·은·동), 학년, 만족도 점수(매우만족~불만족)

④ 명목척도 – ✔️ 맞는 설명
단순한 분류용 데이터
수학적 연산 불가
예: 성별, 혈액형, 지역, 직업, 전화번호 등


지니 지수는 0에 가까울수록 "한 클래스로 몰려 있다" (순수하다)

1에 가까울수록 "클래스가 섞여 있다" (불순하다)
각 클래스들의 제곱값을 더하고 그걸 1에서 빼면 됨.

지니지수 = 1 – ((1/5)^2 + (4/5)^2)

= 1-(1/25 + 16/25) = 8/25 = 0.32

시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법 ==>분해시계열

분해 요인 : 추세요인, 계절요인, 순환요인, 불규칙요인

  • 추운 계절엔 순환이 불규칙하다.

표본추출방법

단순랜덤 추출법: 랜덤하게 표본 뽑음
계통추출법: 번호를 랜덤하게 부여한 후 특정한 간격별로 추출
집락추출법: 군집을 나눈 후 군집별로 단순랜덤 추출
층화추출법: 계층을 고루 대표할 수 있도록 표본 추출



이 문제가 의미하는 것
X에 해당하는 수들을 던졌을 때 확률이 f(X)인데
여기서 확률변수 X의 기대값 즉, 1,2,3으로 된 주사위를 수천 수억번 던졌을 때 나온 수의 평균을 내면 몇이 나오겠냐 이말이다. 수천번 던졌을 때의 평균은?
그러면 각각의 요소들을 곱한 후 더하면 이를 구할 수 있다.
(1x0.5)+(2x0.3)+(3x0.2)= 1.7
주사위를 수천억번 던지면 1.7에 수렴할 것이다.

독립사건이면 저건 그냥 P(B)
A,B 순서 바뀌면 P(A)가 나올거고
교집합이면 두개 곱 0.12
합집합이면 두개 더한거에 교집합을 빼면 됨 0.7 - 0.12 = 0.58


원변수들의 선형 결합 중 가장 분산이 큰 것





그러면 각각 4-12, 12+12이 되므로
-8, 24가 정답~
그렇다면 왜 굳이 1.5를 곱하는걸까? 그건 이 분야의 권위자들이 올바른 결과를 얻기 위해 1.5를 곱하는게 제일 낫다라는 경험적 데이터를 토대로 정해진것임. 이상치를 잘 걸러내는 수치

profile
For the champagne

0개의 댓글