빅데이터분석기사필기/실기 합격

장우솔·2022년 1월 5일
0
post-thumbnail

강남으로 빅데이터 분석기사 실기를 보고 왔던게 결과가 나왔습니다!

합격했어용 후하!

한국데이터진흥원에서 실시한거고 이 자격증이 생긴지 얼마 안돼 이번이 2번째 시험이라고 합니당 저번에 필기는 붙었고 실기 준비하려는데 기출이 없어서 어떻게 준비할지 잘 모르겠었지만 기본적으로 데이터 전처리하는 방법 익혀두고, 모델들 불러와서 최적화하는 방법들 외었어요~~ 자동완성 기능 없어서 무조건 다 암기 해서 가야합니다~!

저는 R과 파이썬 중 파이썬을 선택해서 응시했답니다! 데이터 전처리는 R이 더 쉽다고 느껴지지만 모델 돌리는 건 파이썬이 더 편하더라구용 그리고 이번학기 내내 파이썬으로 공부해서 파이썬이 더 편하기도 해씀ㅋㅎ 시험전날 빅분기실기본후기 블로그보고 많이 도움이 돼서 나도 생각나는거 좀 올려봤요~

점수 반영 비율

단답형 10개 총 30점

작업형 4개 총 70점

총 60점이상이면 합격!

단답형 문제

  1. 연관성분석에서 상관이있나없나 구분할 수 있는 지표는? -지지도라했지만 친구가 향상도라 하더라구여!

  2. 부턴 잘 기억안나고 써보자면,,,,

신경망에서 출력값 주어지고 은닉층과 편향값 주어지고 입력값 구해라

  1. 다른학교 애들이 영어점수 같은데 이를 비교할 때 뭐가 문제인지? -분산이 다르다고 했습니당

  2. 거리 계산할 때 가중치 뭐 더해서 ~한 방법 뭐냐고..

-최소자승법이라 했지만 중심연결법이었다!

  1. 폭에 따라서 결정되는 모델 이름뭔지

-svm라고 적었습니다

  1. ~를 계산해야하냐... 기억잘안나지만 답 거리라고 적었고...

나머진 기억안나!

작업형 문제

  1. 데이터에서 이상치 제거하고 상위 70%잘라서 1분위수 값 구하기

  2. 데이터에서 2000년(행이 년도로 되어있음)에 질병 걸린 평균 수보다 큰 국가(열) 개수 출력하기

  3. 공백이 있는 값을 결측치라 보고 이에 모든 변수들의 비율을 따져서 가장 큰 비율인 변수명 출력하기

  4. 분류 문제 나왔고 얼마나 맞추냐 이런 데이터였는데

랜덤포레스트 모델 사용할거라 수치형은 스케일링 안해줬고 범주형 변수들만 더미화 해줬습니당 평가 지표는 roc_auc_score이였고 train data로 랜덤포레스트 돌렸을 때 0.92나왔습니당

y_pred 값 제출해야해서 model.predict_proba(x_test_scaled) 이용해 확률 구한 후 저장해 csv로 만들고 보내면 끝!

특이점

모델핏팅할 때 y값이 안들어가져서 오류 확인하니까 ravel() 형태로 해야한다 이래서 model.fit(x,np.ravel(y))로 해줬습니다. 그래야 실행 가능함!

profile
공부한 것들을 정리하는 블로그

0개의 댓글