https://www.dataq.or.kr/www/board/view.do
[패키지 리스트 확인 명령어]
응시환경에서 아래 명령어를 이용하여 설치된 패키지를 확인할 수 있습니다.
import pkg_resources
import pandas
OutputDataSet = pandas.DataFrame(sorted([(i.key, i.version) for i in pkg_resources.working_set]))
print(OutputDataSet)
[패키지 리스트]
0 asn1crypto 0.24.0
1 beautifulsoup4 4.9.3
2 certifi 2018.1.18
3 chardet 3.0.4
4 cryptography 2.1.4
5 cycler 0.10.0
6 cython 0.29.24
7 distlib 0.3.2
8 idna 2.6
9 joblib 1.0.1
10 keyring 10.6.0
11 keyrings.alt 3.0
12 kiwisolver 1.3.1
13 lightgbm 3.3.2
14 matplotlib 3.4.2
15 numpy 1.21.1
16 pandas 1.4.2
17 pillow 8.3.1
18 pip 21.1.3
19 pycrypto 2.6.1
20 pygobject 3.26.1
21 pyparsing 2.4.7
22 python-apt 1.6.5+ubuntu0.6
23 python-dateutil 2.8.2
24 pytz 2021.1
25 pyxdg 0.25
26 requests 2.18.4
27 scikit-learn 0.24.2
28 scipy 1.7.0
29 secretstorage 2.3.1
30 selenium 3.141.0
31 setuptools 57.4.0
32 six 1.11.0
33 soupsieve 2.2.1
34 ssh-import-id 5.7
35 threadpoolctl 2.2.0
36 unattended-upgrades 0.1
37 urllib3 1.22
38 wheel 0.30.0
39 xgboost 1.4.2
답. 차분(Difference)
답. 프레이밍 효과(Framing Effect): 기업의 합리적인 의사결정을 방해하는 요소인 고정 관념, 편향된 생각
답. 층화 추출법(Stratified Random Sampling)
** 표본조사에는 확률표본추출과 비확률표본추출로 나뉘는데, 확률표본추출로는 단순 무작위 표본 추출, 체계 표본 추출, 층화 표본 추출, 군집 표본 추출이 있다. 비확률표본추출은 편의표본추출, 판단표본추출, 할당표본추출이 있다. 시험에는 확률표본추출법이 나올 가능성이 크므로 볼드 처리한 추출법에 대해 익히자.
답. 실루엣(Silhoutte)
1에 가까울수록 군집화가 잘 되어있고 -1에 가까울수록 군집 결과가 타당하지 않을 것으로 해석한다. 일반적으로 실루엣 지표가 0.5 이상일 경우 군집결과가 타당한 것으로 해석한다.
** 1과 -1 사이의 값을 가지는 것 중 대표적인 것이 피어슨 상관계수(Correlation coefficient)인데, 상관계수는 '전체 편차 내에서 예측치와 평균치 간의 차이가 차지하는 비율'로 편차 = 평균과 예측값 간의 차이 + 예측값과 실제 값의 차이 로 계산할 때 (예측값과 실제 값의 차이) / (전체 편차)의 비율을 계산해 상관관계를 계산한다. 따라서 군집 내의 응집도와 상관계수는 관계가 없음!
답. 가지치기
정지규칙: 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록하는 여러가지 규칙. 정지규칙에 사용되는 지수로는 최대 나무의 깊이, 자식마디의 최소 관측치 수, 카이제곱 검정 통계량, 지니지수, 엔트로피지수 등이 언급됨을 알아두자.
** 종속변수의 형태에 따라 분류기준에 사용되는 지표가 다르다.
종속변수가 이산형일 경우: CHAID(카이제곱 통계량), CART(지니 지수), C4.5(엔트로피 지수)
종속변수가 연속형인 경우: CHAID(ANOVA-F 통계량), CART(분산감소량)
답. 오차역전파(Error Back Propagation)
** 경사하강법(Gradient Descent): 인공신경망에서 오차함수의 낮은 지점을 찾아가는 최적화 방법으로 낮은 쪽의 방향을 찾기 위해 오차함수를 현재 위치에서 미분한다. Step이 크면 최솟값을 지나칠 수 있고, 너무 작으면 최솟값까지 오랜 시간이 소요되므로 일반적으로 서로 다른 초기값을 주어 내려가게 한다.
답. SOM(Self-Organizing Maps), 또는 자기조직화지도, 코호넨 맵: 가까운 뉴런은 더 가깝게, 먼 뉴런은 더 멀게 가중치를 조정해가며 군집을 형성하는 방법으로 인공신경망이 역전파 알고리즘을 통해 여러 단계의 피드백을 거치며 가중치를 학습하는 것과는 달리, SOM은 하나의 전방패스를 사용해 속도가 빠르고, 그에 따라 잠재적으로 실시간 학습 처리가 가능한 모델
지지도: P(A 교집합 B) / P(전체 거래 수)
신뢰도: P(A 교집합 B) / P(A)
향상도: P(A 교집합 B) / P(A) * P(B)
답.
지지도 = 300 / 1200 = 0.25
신뢰도 = 0.25 / 0.33 = 0.75
향상도 = 0.25 / (0.33 * 0.66) = 1.125
답. OLAP(Online Analytical Processing)
** CRM(Customer Relationship Management): 기업의 내부 데이터로써 소비자들은 자신의 고객으로 만들고, 이를 장기간 유지하고자 내부 정보를 분석하고 저장하는데 사용하는 정보시스템
답. 최소제곱법(Least Square Mathod): 최소제곱법은 값을 정확하게 측정할 수 없는 경우에 근사적으로 값을 구하는 방법으로 회귀모형의 계수를 추정할 때 사용된다.
답. TP / (TP + FN) = 1 / (1 + 3)
정확도(Accuracy) = (TP + TN) / (TP + TN + FP + FN)
정밀도(Precision) = TP / (TP + FP): Positive로 분류한 것 중 실제 Positive의 비율
재현율(Recall) = TP / (TP + FN): 실제 Positive 중 Positive로 분류한 비율
재현율은 민감도(Sensitivity), 참긍정률(TPR)로 불리기도 한다.
특이도(Specificity, TNR) = TN / (TN + FP): 실제 Negative 중에서 실제 Negative인 비율
거짓긍정률(FPR) = 1- TNR = FP / (TN + FP): 1 - 특이도, 실제 Negative 중에서 실제로는 Positive인 비율
F1-score = 2 (Precision Recall) / (Precision + Recall)
인공신경망 학습에서 최적의 가중치 매개변수 값을 찾기 위한 지표로 이것을 사용한다.
인공신경망의 학습은 이것이 최소가 되도록 하기 위해 가중치와 편향을 찾는 것이다.
출력한 값과 실제 값과의 오차에 대한 함수이다.
이것으로 평균제곱오차 또는 교차엔트로피 오차를 활용한다.
답. 손실함수(Loss Function)
답. 스테밍(Stemming)
원 데이터 집합으로부터 크기가 같은 표본을 여러번 단순 임의 복원추출하여 각 표본에 대해 분류기(Classifier)를 생성한 후 그 결과를 앙상블하는 기법이다.
반복추출 방법을 사용하므로 같은 데이터가 한 표본에 여러 번 추출되거나 데이터가 추출되지 않을 수도 있다.
답. 배깅(bagging)
배깅: 크기가 같은 표본을 여러번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블하는 기법이다.
부스팅: 배깅의 과정과 유사하나 부트스트랩 표본을 구성하는 재표본 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라, 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출하는 기법니다.
답. inspect
답. 특이도(Specificity)
정밀도(Precision): 긍정으로 예측(TP + FP)한 것 중 TP의 비율
민감도(Sensitivity): 실제 긍정(TP + FN)인 것 중 TP의 비율
특이도(Specificity): 실제 부정(TN + FP)인 것 중 TN의 비율
거짓긍정률(FPR): 1 - Specificity, 실제 부정인 것 중 FP의 비율
독립변수들간에 높은 선형관계가 존재할 때 발생하는 문제이다.
회귀분석에서 결정계수값이 높아 회귀식의 설명력은 높지만, 각 독립변수의 p-value값이 커서 개별 인자들이 유의하지 않은 경우 이 문제가 발생할 수 있다.
분산팽창요인(VIF; Variance Inflation Factor)이 10을 넘는 경우 발생하는 문제이다.
상관관계가 높은 독립변수들 중 하나 혹은 일부를 제거하여 이 문제를 해결한다.
주성분분석(PCA) 방법을 이용하여 설명력이 높은 변수를 선택하여 이 문제를 해결한다.
답. 다중공선성
상관관계가 높은 독립변수를 제거한다.
변수를 변형시키거나 새로운 관측치를 이용한다.
주성분분석(PCA)을 이용해 설명력이 높은 변수를 선택한다.
답. 와드연결법(Ward Linkage Method)
단일연결법(Single Linkage): 최단연결법, 각 군집에 속하는 임의의 개체 사이의 거리 중에서 가장 작은 값을 거리로 정의해 가장 유사성이 큰 군집을 병합해나가는 과정. 고립된 군집을 찾는데 효과적이다.
완전연결법(Complete Linkage): 최장연결법, 각 군집에 속하는 임의의 개체 사이의 거리 중에서 가장 큰 값을 거리로 정의해 가장 유사성이 큰 군집을 병합해 나가는 과정, 내부 응집성에 중점을 둔 방법으로 둥근 형태의 군집이 형성된다.
평균연결법(Average Linkage): 모든 가능한 관측치 쌍 사이의 평균 거리를 거리로 정의해 가장 유사성이 큰 군집을 병합해 나가는 방법이다. 계산량이 불필요하게 많아질 수 있으며, 단일연결법, 완전연결법보다 이상치에 덜 민감하다.
중심연결법(Centroid Linkage): 각 군집의 중심점 사이의 거리를 거리로 정의한 방법, 평균연결법보다 계산량이 적고, 모든 관측치 사이의 거리를 측정할 필요 없이 중심 사이의 거리를 한 번만 계산한다.
와드연결법(Ward Linkage): 군집의 평균과 각 관측치 사이의 오차 제곱 합의 크기를 고려한 방법. 군집의 병합으로 인한 MSE 합의 증가량이 최소가 되는 방향으로 군집을 형성. 군집 내 분산을 최소로 하기 때문에 좀 더 조밀한 군집이 생성될 수 있다.
답. ESD(Extreme Studentized Deviation: 극단적 스튜던트화 편차)
답. 향상도(Lift)
지지도: 전체 거래 중 A, B를 동시에 포함하는 비율 ( A -> B 라고 하는 규칙이 전체 거래 중 차지하는 비율을 통해 연관규칙이 얼마나 의미가 있는 규칙인지를 확인하는 척도 )
신뢰도: A 상품을 거래했을 때, B상품을 살 조건부 확률에 대한 척도 ( 상품 A를 구매했을 때, 상품 B를 구매할 확률이 어느정도 되는지에 대한 척도 )
향상도: A가 주어지지 않았을 때 B 확률 대비 A가 주어졌을 때 B의 확률 증가 비율 ( 규칙이 우연히 일어날 경우 대비 얼마나 나은 효과를 보이는지에 대한 척도 )
답. 데이터 웨어하우스(DW: Data Warehouse)
답. 이동평균모형(MA; Moving Average)
답. 변동계수(CV; Coefficient of Variance) 또는 상대표준편차(RSD; Relative Standard Deviation)
답. EM알고리즘
답. 민감도(Sensitivity), 또는 Recall
답. 클라우드 컴퓨팅
답. 표준오차
답. 분석마스터 플랜
답. 플럼
답. 시차
답. NoSQL
답. 정밀도(Precision)
답. 하이퍼파라미터
답. 계절요인
답. Q-Q plot
답. 맵 리듀스
답. 스트리밍
답. 다차원척도법(MDS; Multi Dimensional Scaling)
주성분분석(PCA; Principle Component Anaysis): 고차원의 데이터를 직교변환을 사용해 저차원의 데이터로 환원하는 기법, 상관관계가 있는 변수들을 결합해 분산을 극대화하는 데이터를 만드는 방법
요인분석(FA; Factor Analysis): 고차원의 변수들 중 잠재된 몇 개의 변수를 찾아내는 것
답. FTP
답. 소프트맥스 함수
<인공신경망 활성함수 정리>
답. 의사결정나무
답. 연관분석
답. 분산팽창요인(VIF; Variance Inflation Factor)
답. 크롤링
답. 익명화
<개인정보 비식별화 기술 정리>
가명처리
총계처리
*데이터 삭제
데이터 범주화
데이터 마스킹
<프라이버시 보호모델>
K-익명성: 특정인임을 추론할 수 있는지를 검토, 일정 확률 수준 이상 비식별되게 함
L-다양성: 특정인 추론이 안된다고 해도 민감한 정보의 다양성을 높여 추론 가능성을 낮추는 기법
T-근접성: L-다양성뿐만 아니라 민감한 정보의 분포를 낮추어 추론 가능성을 더욱 낮추는 기법
답. 후진제거법
답. corpus
답. 제1종 오류(알파오류)
답. 특이값 분해(SVD; Singular Value Decomposition)
답. CART
답. 결정계수(R^2)
답. 센싱
답. DBMS
답. 스피어만 상관계수
<피어슨 상관계수 vs 스피어만 상관계수>
피어슨: 모수검정, 연속형 변수, 예) 경영학 점수(연속형)와 통계학 점수 사이에 연관성이 있는가?
스피어만: 비모수검정, 이산형/순서형 변수, 예) 경영학 과목 석차(순서형)와 통계학 과목 석차 사이에 연관성이 있는가?
답. SMOTE(Synthetic Minority OverSampling Technique)
답. 명목변수
답. 스쿱
답. 척와
답. 요타
답. 랜덤포레스트
답. SVM(Support Vector Machine)
답. 앙상블
답. 스크라이브(scribe)
답. 분해시계열
답. 이동평균모형
[출처] 빅데이터분석기사 실기 단답형 정리 2 (21.06.11)|작성자 yoon
manim.com/dataset/03_dataq/typetwo.html
https://www.kaggle.com/general/286991
https://m.blog.naver.com/da0097/222582321859https://www.data