해당 내용은 위 링크를 통한 강의 내용을 정리한 것입니다!
기계학습을 공부하며 필요한 자격증인 빅데이터분석기사를 공부하는 데에
많은 도움을 받고 제작하고 있습니다.
| 필기과목명 | 주요항목 | 세부항목 | 세세항목 |
|---|---|---|---|
| 빅데이터 분석 기획 | 빅데이터의 이해 | 빅데이터 개요 및 활용 | |
| 빅데이터의 특징 | |||
| 빅데이터의 가치 | |||
| 데이터 산업의 이해 | |||
| 빅데이터 조직 및 인력 | |||
| 빅데이터 기술 및 제도 | 빅데이터 플랫폼 | ||
| 빅데이터와 인공지능 | |||
| 개인정보 법·제도 | |||
| 개인정보 활용 | |||
| 데이터분석 계획 | 분석방안수립 | 분석 로드맵 설정 | |
| 분석 문제 정의 | |||
| 데이터 분석 방안 | |||
| 분석 작업 계획 | 데이터 확보 계획 | ||
| 분석 절차 및 작업 계획 | |||
| 데이터 수집 및 저장 | 데이터 수집 및 전환 | 데이터 수집 | |
| 데이터 유형 및 속성 파악 | |||
| 데이터 변환 | |||
| 데이터 비식별화 | |||
| 데이터 품질 검증 | |||
| 데이터 적재 및 저장 | 데이터 적재 | ||
| 데이터 저장 | |||
| 빅데이터 탐색 | 데이터 전처리 | 데이터 정제 | |
| 데이터 결측값 처리 | |||
| 데이터 이상값 처리 | |||
| 분석 변수 처리 | 변수 선택 | ||
| 차원축소 | |||
| 파생변수 생성 | |||
| 변수 변환 | |||
| 불균형 데이터 처리 | |||
| 데이터 탐색 | 데이터 탐색 기초 | ||
| 상관관계 분석 | |||
| 기초통계량 추출 및 이해 | |||
| 시각적 데이터 탐색 | |||
| 고급 데이터 탐색 | 시공간 데이터 탐색 | ||
| 다변량 데이터 탐색 | |||
| 비정형 데이터 탐색 | |||
| 통계기법 이해 | 기술통계 | 데이터요약 | |
| 표본추출 | |||
| 확률분포 | |||
| 표본분포 | |||
| 추론통계 | 점추정 | ||
| 구간추정 | |||
| 가설검정 | |||
| 빅데이터 모델링 | 분석모형 설계 | 분석 절차 수립 | 분석모형 선정 |
| 분석모형 정의 | |||
| 분석모형 구축 절차 | |||
| 분석 환경 구축 | 분석 도구 선정 | ||
| 데이터 분할 | |||
| 분석기법 적용 | 분석기법 | 회귀분석 | |
| 로지스틱 회귀분석 | |||
| 의사결정나무 | |||
| 인공신경망 | |||
| 서포트벡터머신 | |||
| 연관성분석 | |||
| 군집분석 | |||
| 고급 분석기법 | 범주형 자료 분석 | ||
| 다변량 분석 | |||
| 시계열 분석 | |||
| 베이지안 기법 | |||
| 딥러닝 분석 | |||
| 비정형 데이터 분석 | |||
| 앙상블 분석 | |||
| 비모수 통계 | |||
| 빅데이터 결과해석 | 분석모형 평가 및 개선 | 분석모형 평가 | 평가 지표 |
| 분석모형 진단 | |||
| 교차 검증 | |||
| 모수 유의성 검정 | |||
| 적합도 검정 | |||
| 분석모형 개선 | 과대적합 방지 | ||
| 매개변수 최적화 | |||
| 분석모형 융합 | |||
| 최종모형 선정 | |||
| 분석결과 해석 및 활용 | 분석결과 해석 | 분석모형 해석 | |
| 비즈니스 기여도 평가 | |||
| 분석결과 시각화 | 시공간 시각화 | ||
| 관계 시각화 | |||
| 비교 시각화 | |||
| 인포그래픽 | |||
| 분석결과 활용 | 분석모형 전개 | ||
| 분석결과 활용 시나리오 개발 | |||
| 분석모형 모니터링 | |||
| 분석모형 리모델링 |
80문제 120분
60점을 넘어야한다.

Train 데이터 (훈련 데이터): 이 데이터는 모델을 학습시키는 데 사용됩니다. 즉, 이 데이터를 통해 모델은 패턴을 인식하고 학습합니다. 훈련 데이터가 많고 다양할수록 모델은 더 많은 시나리오를 '경험'하게 되므로 일반적으로 더 잘 학습합니다.
Test 데이터 (테스트 데이터): 모델을 학습시킨 후, 그 성능을 평가하는 데 사용되는 데이터입니다. 이 데이터는 훈련 데이터와 분리되어 있으며, 모델이 실제로 얼마나 잘 작동하는지를 검증하는 데 사용됩니다.
과적합 (Overfitting): 모델이 훈련 데이터에 너무 잘 맞춰져서 새로운 데이터에 대해 일반화하는 능력이 떨어지는 현상입니다. 과적합이 발생하면 모델은 훈련 데이터에서는 높은 성능을 보이지만, 테스트 데이터나 실제 상황에서는 성능이 급격히 떨어질 수 있습니다.
데이터 수집: 기계학습 프로젝트는 데이터로 시작됩니다. 데이터는 다양한 출처에서 수집할 수 있으며, 문제를 해결하는 데 필요한 정보를 포함해야 합니다.
데이터 전처리: 수집한 데이터를 모델이 이해할 수 있는 형식으로 정리합니다. 이 과정에는 누락된 값 처리, 이상치 제거, 데이터 정규화 등이 포함될 수 있습니다.
모델 선택: 문제에 가장 적합한 기계학습 모델을 선택합니다. 이는 단순한 선형 회귀부터 복잡한 신경망까지 다양할 수 있습니다.
훈련: 선택한 모델을 훈련 데이터로 학습시킵니다. 모델은 데이터의 패턴을 인식하고, 이를 바탕으로 예측 또는 분류를 수행할 수 있습니다.
평가: 테스트 데이터를 사용하여 모델의 성능을 평가합니다. 이 단계에서 모델이 과적합되었는지 아닌지를 판단할 수 있습니다.
튜닝: 모델의 성능을 개선하기 위해 하이퍼파라미터를 조정하거나, 모델 구조를 변경합니다.
배포: 모델을 실제 시스템에 통합하여 실제 데이터에 대해 예측을 수행합니다.
기계학습은 이러한 과정을 통해 데이터로부터 지식을 추출하고, 이를 활용해 실제 문제를 해결하는 강력한 도구입니다. 데이터, 모델, 평가 방법의 선택이 중요하며, 과적합과 같은 문제에 주의하면서 모델을 개발해야 합니다.