ADsP 정리 2024

마스터피스·2024년 2월 26일
0
post-thumbnail

1 과목
1. DIKW 피라미드
지혜 – A 마트의 다른 상품이 B보다 쌀 것이다 판단
지식 – 상대적으로 저렴한 A마트에서 연필 구매 결심
정보 – A마트의 연필이 더 싸다
데이터 – A는 100원 B는 200원에 연필을 판다

  1. 암묵지 형식지
    암묵지 – 학습, 경험을 통해 체화돼있지만 겉으로 드러나지 않는 지식
    ex) 김장김치 담그기, 자전거 타기
    특징 – 공유 어려움 => 공통화 / 내면화

형식지 – 문서나 매뉴얼처럼 형상화 된 지식
ex) 교과서, 비디오, DB
특징 – 전달과 공유 용이 => 표출화 / 연결화

  1. 빅데이터에 거는 기대를 표현한 것 => 렌즈

  2. 인문학 열풍 – 단순 세계화에서 복잡한 세계화로 바뀌었다.(반대로 적혀있는 보기 많음)

  3. 개인정보 비식별화 기술
    가명처리 – 개인정보의 주요 식별요소를 다른 값으로 대체해 개인 식별을 어렵게 만듬
    데이터 마스킹 – 속성은 유지한채, 익명으로 생성

  4. CRM -> 고객 관계관리 데이터베이스 (기업 내부)

  5. ERP -> 기업 전체를 통합적으로 관리하고 경영의 효율화 목적

  6. 빅데이터 가치측정 어려운 이유: 1) 데이터 재사용, 재조합, 다목적용 개발
    2) 새로운 가치 창출
    3) 분석 기술 발전

  7. DBMS에 관한 설명

  • 데이터 베이스에 있는 모든 데이터는 분석이 가능하다 (X)
  • 데이터베이스를 관리해주는 소프트웨어
  1. 빅데이터의 특징에 대한 설명
    빅데이터 분석은 일차적인 분석으로는 불충분하다 X
  1. 데이터 사이언스에 대한 설명
    주로 분석의 정확성에 초점을 두고 진행한다 X => 통찰력 있는 분석을 한다.

  2. 데이터 웨어하우스 VS 데이터 마트
    데이터 웨어하우스 : 시간의 흐름에 따라 변화하는 값 저장 / 통함된 데이터 저장 공간
    데이터 마트 : 해당 분야의 전문성을 갖춘 것. / 재무,생산,운영과 같이 특정 업무 분야에 초점을 맞춤.

  3. DB와의 통신을 위해 고안된 언어 – SQL

  4. 빅데이터가 발생시키는 문제를 중간자 입장에서 중재하고 해결하는 역할을 하는 직업

  • 알고리즈미스트
  1. 개인에게 내재된 경험을 문서나 매체에 저장, 가공, 분석하는 과정
  • 표출화
  1. 데이터의 크기 순서
    페타바이트 -> 엑사바이트 -> 제타바이트 -> 요타바이트

  2. 빅데이터 활용에 필요한 기본적인 3요소

  • 데이터 / 인력 / 기술
  1. 상용 데이터베이스
  • DB2 / SQL Server / Oracle
  • Tabeau X => 시각적 분석 프로세스
  1. 데이터베이스의 구성요소
    다른 데이터를 설명해주는 데이터 – 메타데이터
    데이터를 신속하게 정렬하고 탐색하게 해주는 구조 – 인덱스

  2. 빅데이터 시대에 가치 패러다임의 변화
    디지털화 -> 연결 -> 에이전시

2 과목

  1. 1-1) 분석의 대상 명확히 모름, 기존분석 방법으로 새로운 분석을 수행하는 방식 – 통찰
    1-2) 분석의 대상은 명확, 분석 방식이 명확하지 않음. - 솔루션
  1. 거시적 관점 메가트렌드 정치적 => 보기에 거시적 흐름 + 정책 나오면 맞음

  2. 분석 프로젝트 영역별 주요 관리 항목 -> 범위 / 시간 / 원가 / 품질 / 통합 / 조달 / 자원 / 리스트 / 의사소통 / 이해관계자

  1. 시장 니즈 탐색 관점에서 고객 니즈의 변화 -> 고객, 채널, 영향자

  2. 분석과제 중에 발생된 시사점과 분석 결과물 이 풀로 관리되고 공유됨. 확정된 분석과제는 풀로 관리하지 않는다.

  1. 분석 조직
    기능형 – 별도의 분석 조직이 X. 해당 업무 부서에서 분석을 수행. 국한된 분석수행 이슈
    분산형 – 분석조직의 인력을 현업 부서에 배치, 신속한 실무 적용 가능.
    집중형 – 별도의 분석 전담 조직 구성. 업무의 이원화 이슈

  2. 경쟁자 확대 관점 – 대체제 / 경쟁자 / 신규 진입자

  3. 분석 과제 발굴
    상향식 – What 관점
    순서 : 프로세스 분류 -> 프로세스 흐름 분석 -> 분석 요건 식별 -> 분석 요건 정의
    하향식 – Why 관점 / 타당성 검토 단계에서는 다양한 사람들의 의견 조합이 필요

  • 분석 모델의 정확도와 복잡도는 트레이드 오프 관계가 존재한다.
    8-1)분석 과제의 특징 중 정확도와 정밀도에 관한 설명
  • 분석의 안정성 측면에서는 정밀도 / 활용은 정확도
    8-2) 분석 과제 발굴에 대한 설명
  • 분석해야할 대상이 명확하다면 하향식 접근이 적절하다.
  1. 거버넌스 구성 요소
  • 원칙 (Principle)
  • 조직 (Organization)
  • 프로세스 (Process)
  1. 데이터 베이스의 특징
  • 통합된 데이터 : 동일한 내용 데이터 중복 X
  • 저장된 데이터 : 저장매체에 저장되는 것을 의미
  • 공용 데이터 : 여러 사용작 ㅏ다른 목적으로 데이터를 공동으로 이용
  • 변화되는 데이터 : DB저장 내용은 DB의 현 시점에서의 상태를 나타냄, 항상 정확한 데이터를 유지해야한다.
  1. 4V
    Volume / Variety / Velocity / Value

  2. 빅데이터 시대의 위기 요인 및 통제 방안

  • 사생활 침해 -> 익명화 기술 발전 => 동의에서 책임으로
  • 책임 원칙 훼손 => 결과기반 책임원칙고수
  • 데이터 오용 => 알고리즘 접근 허용
  1. 데이터 사이언티스트의 요구역량
    하드 스킬 : 빅데이터에 대한 이론적 지식/ 분석 기술에 대한 숙련
    소프트 스킬 : 통찰력 있는 분석 / 설득력 있는 전달 / 다분야간의 협력.
  1. KDD 분석 절차
    데이터 변환 – 분석 목적에 맞는 변수를 찾고 데이터 차원을 축소하는 것
    데이터 전처리 -
    데이터 선택 -

  2. CRISP-DM
    각 단계는 폭포수로 구성돼 있지 않다. - 피드백을 통해 단계별로 완성도를 높임

  3. 비즈니스 모델 캠퍼스를 활용한 과제 발굴 영역
    업무 – 내부 프로세스 및 주요 자원 관련 도축
    제품 – 제품,서비스를 개선하기 위한 관련 주제 도출
    고객 – 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출
    규제와 감사 – 규제와 보안의 관점에서 주제를 도출

  1. 분석 프로젝트 관리
    분석 프로젝트의 일정 계획 수립시 철저한 일정관리가 필요 (통제와 관리로 많이 나옴)

  2. 성공적인 분석을 위해 고려해야 하는 요소가 아닌 것 -> 관련 데이터 파악, 원점에서 솔루션 탐색, 이행 저해 요소 관리

  3. CRISP-DM 모델링 단계에서 수행하는 것 -> 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가 (모델 적용성 평가 X)

  • 4개의 레벨로 구성되며, 6단계의 프로세스를 가진다.
  • 데이터 준비 단계에서는 데이터 정제, 데이터 탐색, 데이터 셋 편성 등의 수행 업무가 있다 (X)
  1. 가치 -> 비즈니스 효과 / 크기, 다양성 ,속도 -> 투자비용요소
  1. 빅데이터 거버넌스 -> 회사내 모든 데이터 활용, 철저한 변경관리 필요, 요소별로 구분하여 작성, 수명주기관리 중요

  2. 분석 준비도에서 분석 업무 파악 영역으로 부적절 한 것

  • 업무별 적합한 분석 기법, 분석 데이터
    적절한 것 : 분석 업무 / 인력 및 조직 / 분석 기법 / 분석 데이터 / 분석 문화 / IT인프라
  1. 시스템 구현에 대한 설명으로 적절하지 않은 것
  • 상세 알고리즘
  1. 난이도와 시급성을 고려했을 때 우선적으로 추진할 분석 과제
    난이도 쉬움, 시급성 현재

  2. 모델링 목적에 따라 변수를 정의하고 필요한 데이터를 소프트웨어에 적용하기 위한 활동 – 데이터 가공 단계

  1. 데이터 분석 기획 단계에서 수행하는 주요 태스크
  • 프로젝트 범위 설정 / 프로젝트 정의 / 위험 식별
  • 필요 데이터의 정의 X => 데이터 준비단계
  1. 상향식 접근 방법 : 발견 -> 통찰
    디자인 사고 프로세스 상향식 접근 방법 단계 : 발산
    (하향식은 수렴)
  2. 사회 연결망 분석의 중심성을 측정하는 방법
  • 근접 / 매개 / 연결정도
  • 링크 X
  1. 분석 활용 시나리오에 대한 설명
  • 기존 프로세스와 개선 프로세스의 차이점을 상세하게 분석한다

3과목

  1. 과대적합 – 모형 개발 데이터로는 높은 적중률 / 테스트 데이터에서는 적중률 유지 못하는 것

  2. 측정 척도
    명목 – 어느 집단에 속하는지 (성별, 출생지 / 질적척도)
    순서 – 서열관계 (만족도, 선호도, 학년, 신용등급 / 질적척도)
    구간 – 절대적인 영점이 없음. 두 관측 값 사이의 비율이 의미없음.(온도, 지수 / 양적 척도)
    비율 – 절대 0기준 / 사칙연산 사용가능.(무게, 나이,시간,거리 / 양적 척도)

  3. c(2, 4 ,6 ,8) + c(1, 3, 5, 7, 9)
    => 경고 메시지와 함께 결과가 출력

  4. 모분산 추론
    표본의 분산은 카이제곱을 따름.

  5. 다중회귀분석은
    전진선택법 – 중요하다고 생각되는 설명 변수부터 차례로 선택하는 방법
    후진선택법 -
    단계적 선택법

  6. 이상치
    Q1-1.5IQR < x < Q3 + 1.5IQR이 이상치
    평균으로부터 3*표준편차 범위를 벗어나는 것을 비정상 이라 규정하지만 제거 불가

  1. 표본추출 방법
    단순 랜덤 추출 – 동등한 확률로 무작위 추출
    집단 추출 – 모집단을 군집으로 구분 / 선정된 군집의 원소를 모두 샘플로 추출
    층화 추출 - 몇 개의 집단으로 구분, 각 집단의 크기와 분산을 고려
    집락 추출 – 군집별로 랜덤 추출법 실행 후 샘플링이나 모든 자료 활용
    복원 추출 – 모집단의 크기가 비교적 작을 때 사용. 재추출 가능.
  1. 비모수 검정 = > 제약 X
    부호 / 윌콕슨 / 맨-휘트니 / 런 / 스피어만
  1. 상관분석
    R에서 상관계수 = cor() / rcorr() => rcorr() 함수를 사용하면 type 인자를 통해 피어슨과 스피어만 상관계수 선택가능

  2. R^2에 대한 설명
    종속변수에 미치는 영향이 적은 독립변수가 추가되면 결정계수도 변한다.

  3. 시계열의 정상성

  • 평균이 일정
  • 분산도 시점에 의존 X
  • 공분산은 단지 시차에만 의존 t,s에는 의존 X
  1. 시계열
  • 대부분의 시계열은 비정상 자료 -> 정상성 조건에 만족시켜 정상으로 만든다
  • 정상 비정상 시계열 판단을 위해 폭발적인 추세를 보이거나 시간에 따라 분산이 변화하는지 관찰 해야한다.
  • 비정상 시계열은 정상 시계열로 변경할 때 차분 변환 사용
  • 평균이 일정하지 않으면 차분 / 분산이 일정하지 않으면 변환
  • ARIMA 모형에서 p=0일 때, IMA(d,p) 모형이라 부르고, d번 차분하면 MA(q)모형을 따른다.
  • 지수평활법은 최근 시계열에 더 많은 가중치를 부여한다.
    => 동일한 가중치를 부여한다 X

12-1. 시계열 요소 분해 법
1) 추세 분석 : 장기적으로 커지거나 작아지는 변화를 나타내는 요소
2) 계절 변동 – 일정한 주기를 가지고 같은 패터는 보이는 요소
3) 순환 변동 – 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료
4) 불규칙 변동 – 환경변화, 천재지변 같은 것.

  1. 모형의 성능평가 할 때 민감도와 특이도를 산출해 도표에 도식화 하는 방식
    => ROC : x는 1-특이도 / y는 민감도

  2. K-means 군집 분석과 계층적 군집 분석의 차이
    K-means는 동일 거래 계산법 사용하면 다른결과 계층적 군집 분석은 동일한 결과.

15.데이터 마이닝 분석 방법론
장바구니 분석 - “샌드위치를 사는 고객의 30%가 탄산수를 함께 산다”

  1. 이상값 검색을 활용한 응용 시스템 => 부정사용 방지 시스템

  2. 다차원척도법
    유클리드 – 루트를 씌우고 각 값 뺀 후 제곱값을 더함 / 가장 짧은 직선거리
    맨하튼 – 절대값씌우고 각 값을 뺀후 더함 / 각 방향 직각의 이동 거리 합으로 계산.
    표준화 거리 – 표준편차로 변환 후 유클리드 거리를 계산한 거리
    마할라노비스 거리 – 통계적 개념이 포함된 거리, 사전 지식 없이 표본 공분산 계산 불가. (보통 오답으로 자주 출제)

  • 데이터 축소를 목적으로 사용한다 X => 주성분 분석이다.
  1. 비지도 학습
    OLAP / 연관성규칙 / 군집분석 / SOM

  2. 오분률에 대한 추정치

정확도 = TN + TP / TN + TP + FN + FP => 양성,음성이라 판단되는 값 / 실제 양성과 음성의 값
특이도 = TN / TN + FP => 음성이라 판단되는 값 / 실제 음성의 값
민감도 = TP / TP + FP => 양성이라 판단되는 값 / 실제 양성 값
재현율 = TP / TP + FN

  1. 앙상블
    배깅 – 여러개의 붓스트랩 자료 생성하고 예측 모형을 만든뒤 결합해 최종 예측 모형을 만드는 것.
    부스팅 – 예측력이 약한 것 결합해 강하게 만드는 것
    랜덤 포레스트 – 약한 학습기들을 생성 후 이를 선형 결합해 최종 학습기를 만드는 것.
  • 각 모형의 상호 연관성이 높을수록 정확도가 떨어진다.
  1. 인공 신경망
    시그모이드 – y = 1 / 1+ exp(-x) / 시그모이드 활용하면 로지스틱 회귀 모형의 작동원리와 유사해짐 / 결과값 : 0 <= y <= 1
    ReLU -
    Softmax(소프트맥스) - 출력값이 여러개고 목표치가 다범주인 경우에 사용
    활성화 함수 – 입력받은 데이터를 다음층으로 어떻게 출력할지를 결정하는 함수.

  2. K-mean(평균) 군집 분석 특징

  • 연속형 변수 활용 가능
  • 초기 중심값 임의 선택 가능
  • 초기 중심값의 선정에 따라 결과가 달라짐
  • 탐욕적 알고리즘
  • 비계층적 군집 분석
    수행 절차
    => k개의 객체를 임의로 선택 -> 각 자료를 가장 가까운 군집 중심에 할당 -> 각 자료들의 평균을 계산하여 군집의 중심 업데이트 -> 군집 중심의 변화가 거의 없을 때까지 반복.
  1. 군집분석
  • 군집 분석에서는 다변량 데이터로부터 거리 기준에 의한 자발적인 군집화를 유도한다. (유도하지 않는다로 지문이 많이 나옴)
  • 군집의 분리가 논리적인가를 살펴보기 보다는 군집의 안정성을 더 중요하게 여김 X => 논리가 더 중요
  • 밀도 기반 클러스터링 모델은 오목한 형태의 데이터 세트에서는 군집 특성을 잘 찾아내지 못한다.
  • 집단 간 이질성과 집단 내 동질성이 모두 낮아지는 방향으로 군집을 만든다 X
  • 군집 분석 기법 : PAM / Density based Clustering / Fussy Clustrering
  • Silhouette Coeffiecient X -> 파라미터 미세조정시 사용되는 실루엣 계수
  1. 주성분분석
  • 주성분의 개수는 고윳값, 누적 기여율, Scree Plot을 통해 확인 할 수 있다. 고유치 분해 가능 여부는 구할수 없다.
  • 고차원에서 저차원으로 차원축소
  • 비지도 학습
  • 이론적으로 상관관계가 없다.
  1. 은닉층
    25-1) 은닉층의 노드가 너무 적을 경우 나타나는 특징
  • 네트워크가 복잡한 의사결정 경계를 만들 수 없다.
    25-2) 은닉층의 뉴런 수와 개수는 신경망 모형에서 수동으로 설정해야한다
    자동 X
  1. 중앙 50% 데이터들이 흩어진 정도
    => 사분위수 범위

  2. 이산형 확률 분포
    기하 / 이항 / 초기하

  3. R에서 사용 가능한 데이터 오브젝트
    데이터 프레임은 테이블로 된 데이터 구조로써 리스트로 표현됨.

  4. 종족변수를 설명하는데 가장 중요한 독립변수

  • 표준화 자료로 추정한 계수가 가장 큰 변수
  1. 중심극한정리
    모집단의 분포가 N이 30이상으로 크면 정규분포로 근사한다 (정규분포에 가까워져야 한다고 나옴)
  • 모분산 X
  1. 두 개 이상의 독립변수를 사용해 다중 회귀 분석을 실시할 때
    -> 상관계수를 통해 모형의 설명력을 확인한다 (X)

  2. 데이터 마이닝을 위한 데이터 분할에 대한 설명으로 틀린 것
    통계학에 적용되는 교차확인은 데이터 마이닝에서 활용할 수 없다. (X)

  3. 비계층적 군집분석의 장점
    사전에 주어진 목적이 없으므로 결과 해석이 쉽다 (X) 어렵다(O)

  4. 모든 변수의 상관계수가 1이다 (분산이 1 X)

  5. 과대적합 관련 설명

  • 생성된 모델은 분석 데이터에 최적화 되었기 때문에 훈련 데이터의 작은 변화에 민감하게 반응하는 경우는 발생하지 않는다 X -> 발생한다
  1. 데이터의 분포를 유지하면서 정규화가 가능한 방법
    -> min-max 정규화
  1. 의사결정나무 모형
  • 가지치기 : 과대적합 되어 현실 문제에 적응 할 수 있는 적절한 규칙이 나오지 않는 현상을 방지하는 것
  • 대표적인 하향식 의사 결정.
  • 비정상적인 잡음 데이터에 대해 민감하게 분류 X
  1. 연관분석
    1) 장점
  • 조건 반응 (if-then)으로 표현되어 결과를 이해하기 쉽다.
  • 목적변수가 없어 분석 방향이나 목적이 없어도 적용 가능
  • 품목 세분화에 관계없이 의미 있는 규칙 발견이 가능하다 X => 세분화 되면 의미가 없어짐.
  • 분석을 위한 계산이 간단하다.
  • 사건들 사이에 원인/결과를 알아내는 것이 시차 연관분석.
  1. K-Nearest Neighbor 방법
  • K값이 작을수록 과대적합 문제가 발생 X -> 커질수록 발생
  1. 회귀 모형을 해석하는 방법
  • 모형이 통계적으로 유의한가
  • 모형이 데이터를 잘 적합하고 있는가?
  • 모형이 선형성, 정상성, 독립성을 만족하는가?
  • 모형의 종속,독립변수 간의 상관계수가 유의한가? X => 상관관계분석
  1. 회귀 분석에 대한 설명
  • 잔차와 독립변수는 상관관계가 있다면 분석이 잘된 모형이다 X => 없다면 잘된 모형이다.
  1. Apriori 알고리즘
    1) 분석 순서
    최소 지지도 설정 – 최소 지지도가 넘는 모든 품목 찾음 – 최소 지지도가 넘는 2가지 품목을 찾음 – 최소 지지도가 넘는 3가지 품목집합을 찾음 – 반복적으로 수행하여 최소 지지도가 넘는 빈발품목집합을 찾는다.
  2. 상관계수
    1) 스피어만 상관계수
  • 두 변수간 비선형적인 관계 측정
  • ‘ㅅ’들어가는 말이다 스피어만 상관계수임
  • 두 변수를 순위로 변환시킨 후 두 순위 사이의 피어스만 상관계수로 정의된다.

2) 피어슨 상관계수

  • 두 변수 간의 선형 관계의 크기를 측정
  • -1과 1사이의 값을 가짐
  1. 가설 검정 – 표본 관찰을 통해 그 가설의 채태여부 결정

  2. 예상되는 위험에 대한대비

  • 회피 / 전이 / 완화 / 수용
  • 보통 관리가 오답으로 자주나옴
  1. 혼합분포 군집
  • 군집의 크기가 작을수록 추정의 정도가 어렵다.
  1. 기댓값 구하기
    X 값 * f(x) 모든 값 더하기

  2. 목표변수가 연속형인 회귀나무에서 분류 기준 값의 선택 방법으로 가장 적절한 것은?

  • F-통계량 / 분산 감소량
  1. 자기조직화지도 (SOM)
  • 입력층의 뉴런은 경쟁층에 있는 뉴런들과 부분적으로 연결되어있다 X => 완전연결돼있다.
  • 저차원의 뉴런으로 정렬화 하여 지도의 형태로 형상화 하는 클러스터링 방법
  • 인공신경망의 전방패스 기반으로 수행속도가 빠르다. => 역전파 알고리즘 X
  1. 선형회귀모형이 통계적으로 유의미한지 평가하는 통계량
  • F-statistics
  1. 데이터 마이닝 추진 단계
    목적 정의 -> 데이터 준비 -> 데이터 가공 -> 데이터 마이닝 기법 적용 -> 검증
  1. 로지스틱 회귀모형
  • 범주형인 경우에 적용되는 모형
  1. 예측모형의 과적합을 방지하기 위해 활용되는 자료 추출 방법
  • 홀드아웃 / 교차검증 / 부스트랩
  • 의사결정나무 X
  1. 군집의 개수를 미리 정하지 않는 군집 모형 – 계층적군집 모형

  2. 모형평가 방법

  • k-fold 교차 검증 / 오분류표 / 홀드 아웃 방법
  • 엔트로피 X => 불확실성
  1. R데이터 구조에서 숫자, 문자, 논리 모두 합쳐 하나의 벡터를 구성했을 경우 합쳐진 벡터의 형식
    => 문자형 벡터

  2. 분류 모형 평가를 위해 사용되는 방법

  • ROC / 이익 도표 / 향상도 곡선
  • 덴드로그램 X 오답으로 자주출제
  1. 빅데이터 분석 프로세스에서 모델링 단계에 해당하는 과정
  • 모델링 마트 설계 및 구축 / 탐색 전 분석 및 유의변수 도출 / 모델링 성능 평가
  • 수행 방안 설계 => 모델링 전단계
  1. 변수가공
  • 구간화의 개수가 감소하면 구간개수가 많아지고 정확도는 떨어진다.
  1. 데이터 전처리 과정에 대한 설명
  • 데이터 특성을 파악하고 통찰을 얻기 위한 다각도 접근 방법을 데이터 EDA라고 한다.
  1. p-value가 작을수록 해당 검정통계량의 관측값은 귀무가설을 기각 하는 것으로 해석함.

  2. 구축된 모델의 과대 또는 과소 적합에 대한 미세조정 절차를 위해 사용되는 데이터 – 검증용 데이터

  3. 회귀분석

  • 모형의 설명력을 확인하기 위해 0에서 1사이의 값을 갖는 결정계수를 확인한다
  1. 텍스트 마이닝
  • 데이터 마이닝 절차를 거치기 전의 구조화된 단계를 코퍼스(corpus)라고 한다.
  1. 혼합분포모형에 대한 최대 가능도 추정량을 위해 사용되는 알고리즘 => EM 알고리즘

  2. 다중공선성

  • 높은 상관관계에 있는 설명변수에 대한 계수는 표본의 크기에 관계없이 항상 일정하다 X => 변할 수 있다.
  1. 데이터 프레임에서 평균이 중앙값보다 크면 왼쪽 꼬리가 길게 나오고 평균이 중앙값 보다 높으면 오른쪽으로 꼬리가 길다.

  2. 확실하게 증명하고 싶은 가설로 뚜렷한 증거가 있어야 채택할 수 있는 가설 = 대립가설.

  3. 백색잡음

  • 백색잡음에 대한 합은 0에 수렴한다.
  1. 데이터 분할
  • 훈련용 / 검정용 / 시험용
  • 훈련용 데이터는 추정용, 구축용이라고 불린다
  • 시험용 데이터는 모델의 성능평가에 사용된다. => 검정용 데이터 X
  • 데이터 양이 충분하지 않을때는 교차검증을 통해 모형을 평가한다.
  1. 표본조사
  • 표본편의는 확률화를 통해 최소화하거나 없앨 수 있다. => 정규화 X

주로 분석의 정확성에 초점을 두고 진행한다 X => 통찰력 있는 분석을 한다.
72. ARMA (p, d, q)에서 d의 숫자 만큼 차분 한 것.

  1. 이산형 확률변수 = E(x) = 시그마xf(x)

  2. 고객의 신용도, 나이, 직업 등의 변수를 사용해 카드 월간 사용액을 예측하기 위함 모형 = 능형 회귀모형.

  3. k-폴드 교차검증

  • K = N 인 경우, LOOCV라고 한다.
profile
코딩 일지

1개의 댓글

comment-user-thumbnail
2024년 7월 16일

좋은 자료 감사합니다

답글 달기

관련 채용 정보