3일정도 공부했다. 원래 2주 정도 공부하려 했는데 코딩테스트, 면접이 몇 번 있어서.. 많이 공부하지 못했다.
예전에 데이콘을 진행하면서 scikit learn, pandas 등을 사용해본 경험이 공부시간을 단축시켜줬다. 준비하면서 주로 공부한것도 단답형을 맞추기 위한 공부.. :)
3일동안 단답형을 맞추기 위해 이론 공부를 주로 했고 scikit learn, pandas 감을 되찾기 위해 데이콘의 타이타닉, 와인품질분류 등 학습용 대회?의 데이터를 활용하여 공부했다.
빅분기 시험은 노트북환경이 아니라서 print로 찍어가며 공부했다.
dir()함수와 help() 함수를 사용할 수 있어서 라이브러리 이름을 열심히 외울 필요도 없다. 그냥 무슨 함수가 있다 정도만 알고 있으면 dir()로 이름 찾고 help()로 파라미터 찾아서 넣어주면 된다.
단답형 10문제 (문제당 3점 총 30점)
작업형1 3문제 (문제당 10점 총 30점)
작업형2 1문제 (문제당 40점 총 40점)
작업형2는 어마어마한 배점을 갖고 있었지만 난이도가 높은 편은 아니라고 생각했기에 크게 부담은 없었다. (1,2,3회차 시험을 보신분들이 그냥 xgboost, randomforest 돌리면 만점이라는 말을 많이봤기에..)
10문제 중 6문제를 맞췄는데 마지막 계산문제는 f1 score를 계산하는 문제였다. 종이도 없고 소수점 3자리까지 어떻게 계산하지 싶어서 계산기 써도 되냐고 여쭤봤고, 안된다는 대답이 돌아왔다. 근데 웃긴게 뒤에 작업형 풀면서 파이썬 코드로 출력해볼 수 있다 ㅋㅋ.. 그냥 라이브러리에 f1 score도 활용할 수 있었는데 나는 생각못하고 분수까지 계산해놨기에 그냥 분수만 소수로 바꿔서 출력하고 답을 옮겨적었다.
som이 문제로 나왔다.
대뇌피질의 시각피질을 모델화한 인공신경망의 일종
정확히 이런 설명은 아니었고 조금 더 자세하게 설명되어있었다. 무슨 지도라는 단어가 설명에 들어갔다. 거기에 대뇌피질 시각피질이라길래.. 일단 지도니깐 map일꺼고.. 뭐가 있지 하다가 떠오른게 grad cam이었다. cam이라고 적었고 ㅎㅎ 당연히 틀렸다.
CAM : Class Activation Map
SOM : Self-Organizing Map
이외에 드롭아웃 등 문제가 나왔고 어렵지 않게 풀 수 있었다.
오픈톡방에서 시험 전날 정리본을 올려주신 익명의 천사분 감사합니다 :)
오픈톡방에서는 말이 많았다.
일단 1번 문제를 설명할때
(1) ~~를 하고
(2) ~~를 하고
(3) ~~를 해라
이런식의 표현이었던거 같다. 그래서 많은 사람이 (1)에 대한 결과, (2)에 대한 결과, (3)에 대한 결과를 전부 출력했고 틀리면 문의할거라는 사람이 많았다. 나는 그냥 아무생각없이 (3)의 결과만 출력했고 결과적으로 (3)의 결과만 출력하는게 맞았다. 나도 조금 애매한 표현이라고 생각한다.
2번인지 3번인지 아무튼 정확히 기억은 안나는데
나라이름은 United Kingdom만 있고, 2018년도의 자료에, 뭐 조건들 여러개있고 조건을 만족하는 데이터가 몇 개 있냐는 문제였다. 그렇게 어렵지 않은 문제였고 맞았구나 하고 나왔는데 오픈톡방의 의견이 반반이었다.
파악해보니 United Kingdom 좌우로 공백이 섞여있는 데이터가 2개 있었고 공백을 포함하여 읽어서 카운트한 사람은 답이 6, 공백을 제외하여 읽고 카운트한 사람은 답이 4였다.
나는 답이 6이 나왔고, 결과적으로 6이 맞았다.
이게 쫌 힘들었다. 별에별짓을 다해도 f1 score가 0.57을 넘기지 못했다.
분명 후기에서는 그냥 데이터 전처리 조금하고 random forest돌리면 만점이랬는데.... 0.57이 만점일까 싶었다.
이상치도 제거해보고, lgbm, xgboost, randomforest 돌리고 얘네끼리 또 앙상블해보고, (심지어 마지막엔 Grid search 파라미터로 randomstate값까지 찾았다..)
아무리해도 늘질 않았고, 제출하기전에는 validation set을 나누지 않고 전부 학습시킨 모델로 예측하고 제출했다. :) 오버피팅도 안날거 같고 0.57보단 조금 더 높겠지 싶었다.
끝나고 나와서 오픈톡방을 살펴봤을때는 대부분 0.45 ~ 0.55 정도로 보였다.
나는 자격증보단 제대로 된 프로젝트 경험이 좋다고 생각한다.
하지만 제대로 된 프로젝트를 진행하기 애매한 상황이 있다. (취준하며 코딩테스트 준비, 면접 준비, cs 공부 등.. 전부 다 하는 사람도 분명 있다.) 그러한 상황은 대부분 결과를 남기기 힘들고 길어진다면 공백기로 보여질 확률이 크다.
난 눈에 보이는 결과를 원했고 서류에서 가산점을 얻을 수 있는 자격증에 도전했다.
그 중 가장 자신있는 분야인 빅데이터분석기사에 도전했고 생각보다 쉽게 취득할 수 있었다.
(난이도나 공부한 정도로 봤을때 개인적으로 정보처리기사가 더 취득하기 어려웠다.)