안녕하세요, 저는 금융기관 SI를 하고있는 10년차 개발자입니다.
업무에서 주로 관계형 데이터베이스를 다루기 때문에 "SQLP" 를 취득하고 (2021년 6월)
"DAP" 응시 준비를 하던 찰나에 진흥원에서 새로 주관하는 '빅데이터분석기사' 라는 시험을 알게 되었습니다.
그렇게 '빅데이터분석기사' (제3회 실기불합격, 제4회 실기합격) 를 거쳐서
'ADP' 까지 도전하게 되었네요..
도메인에서 아직까진 머신러닝에 대한 수요가 크지는 않으나, 점차 관심을 보이며 조금씩 바뀌어가는 환경에 미리 발이라도 담구고자 시작하게 되었습니다.
전공은 컴퓨터공학과 회계학을 복수전공하였으나, 확률, 통계를 일찌감찌 포기한....
통계과 거리가 멀었던지라 공부하는 과정이 길었습니다(만1년)...^^;
운이좋게도 3수만에 좋은 결과를 얻게 되었습니다.
함께 고생하신 스터디원 분들과 소니님께 감사드립니다.
본 후기는 30회 한정이 아닌 ADP라는 실기시험에 대한 개인적인 생각위주의 후기라서, 30회 실기문제에 대한 자세한 내용과 서적 추천 내용이 궁금하신 분들은
30 회 실기 스터디를 함께 했던 스터디 오픈톡방 닉네임 “평창” 님의 후기가 더 도움이 되실것 같습니다^^
https://velog.io/@syl_vana/adp-실기-31회-합격-후기-비전공자-3수
ADP 실기는 28, 29, 30 회에 응시하였습니다.
개발자이다보니, "빅데이터분석기사" 와 "ADP" 는 오직 python 으로만 응시하였습니다.
Sapientia a Dei 님 통계강의 (통알못을 위한 통계튜브)
https://www.youtube.com/watch?v=NG1ZNH1kOl0&list=PLalb9l0_6WAq-ZNVWOhRdax1nroxFovUb
이 강의가 비전공자의 시선으로 통계검정 개념, 수식 등의 설명이 매우 유용했습니다.
출퇴근 시간에 빠짐 없이 정주행을 했네요...^^
여러 정보를 얻을 수 있고, 간간히 스터디 모집글이 올라오기도 합니다.
소니님이 직접 스터디 진행하시길래 그때 참여해보게 되었어요
빅데이터분석기사 ADP 실기 정보공유방
https://open.kakao.com/o/gJl1ud2c
많이 부족하고 아는것이 없었기 때문에 수많은 책을 구입하고, 시험장에도 들고도 가봤습니다.
그러나, 어떤점이 부족한지, 어떤것이 중요한지 조차 알지 못했기 때문에 시험문제를 풀어야할때 책을보고 공부를 하고 있고..시간은 더 부족해지고, 가방은 점점 더 무거워지기만 했습니다.
어차피 가져가도 다 못 볼 책들이고, 가져가도 필요한 내용 찾다가 시간이 다 가기 일쑤였지요...
시간과 가방은 한정적이고 선택과 집중을 해야했기 때문에 시험장에는 고르고 고른 책4권과 기출문제풀이 (출력본) 만 들고 가서 응시하였습니다.
키워드만 봐도 내용을 연상시킬 수 있을 정도로 다독을 하고, 시험장에서는 최종적으로 잘 풀었는지, 혹은 syntax 재검토 확인 정도로만 가져간 자료를 활용했습니다.
(가서 볼 생각 하면 안될것 같아요...시간이...ㅠㅠ)
인덱싱
서적이 많아지고, 출력물이 많아질 수록 심리적인 안정감, 든든함은 생기지만,
우리는 한정된 시간내에 최고의 아웃풋을 내야하기 때문에 자료를 챙겨가는것 보다
가지고있는 자료에서 필요한 자료를 발췌하여 활용하는 능력이 더 중요하다고 생각합니다.
저는 그런 능력이 부족해서 인덱싱을 꼼꼼히 하였습니다...
출력물 인덱스 문서를 따로 만들어서...
시험볼때 필요한 자료는 인덱스 문서만 보고
상세한 내용이 필요한 경우 해당 회차부분만 손쉽게 찾아 살펴볼 수 있도록 했습니다.
서적
다 알고계신 책일것 같아 간단히 사진 한장으로 갈음합니다.
필요한 개념이나, 공식 내용은 키워드와 함께 표시를 해두었습니다.
책에 조잡하게 붙은 인덱스...... 하지만!
저만 알아볼 수 있으면 된것 아니겠습니까...?^^;;;
파이썬으로 배우는 통계학 교과서는 가설설정, 검정결과 작성 및 주의사항이 매우 유용하니..
그 부분만이라도 한번 보시길 추천드립니다.
출력물
- 소니님 스터디를 진행하면서 제가 풀고 제출한 문제를 다시 다듬은것을 출력 (머신러닝)
- 소니님이 풀어주신 머신러닝 솔루션 출력
- 통계기출만 다듬어서 출력
- 그외의 자료 (생존분석, 선형계획법) 정리본 출력
28, 29회 책을 많이 가져가도 보는책만 보고 (가방만 무겁게)...
시험중 책을 볼 시간이 없기 때문에 최대한 인덱싱해서 필요한 부분을 손쉽게 찾아볼 수 있도록 했습니다.
이번에 30회차 응시준비는 저에게는 여러가지 타이밍이 좋은 시기였습니다.
진행중이었던 프로젝트가 8월 중순에 종료되어 2주간의 휴가를 받아, 시험전까지 ADP 준비만 할 수 있었습니다. 그래서 소니님 스터디도 참여할 생각을 하게된것 같아요.
여유가 없엇으면 독학 했을듯...
스터디가 많이 도움이 되었습니다.
혼자서만 공부하면 제가 알게된 내용을 저만의 시선으로 해석하여 암묵지로 만들어집니다.
그러나, 스터디를 하면 다양한 시각으로 접근된 문제들을 만나볼 수 있습니다.
스터디 막바지에 공유받은 다른 분들의 제출 과제를 보면서
"아 이분은 이런 관점으로 접근하셨구나"
"아 저분 방법이 시각화가 더 깔끔하구나"
여러가지 인사이트를 얻을 수 있었습니다.
스터디를 참여하신다면 편협했던 시각이 넓어지는 계기가 될것입니다..^^
28, 29회 때는 혼자서 기출을 풀면서 눈으로만 풀었습니다.
시간이 부족하다는 핑계로 기출문제와 해설을 책읽듯 눈으로만 풀고,
"아 내가 이해가 되는구나, 준비가 다 됬다" 착각하고 시험장에 들어갔지요
30회 준비하면서 스터디를 하며, 직접 타이핑을 해보니 눈으로만 이해한것과 실제 손으로 치는것과의 갭이 상당히 컸습니다. 아는것과 해보는것의 차이일까요?ㅠ
기출 한회분 푸는데 12시간이상 소요.....
많이 쳐보고, 많이 다듬어보고 프로그래밍 속도를 올리는게 이 시험의 관건 이라고 생각합니다.
모두에게 주어진 4시간은 똑같이 짧습니다. 손이 알아서 움직이도록 많이 쳐보십시오^^
통계분석만 2시간 걸리던 제가, 이번에 통계분석 1시간, 두번째 데이터셋 2시간, 남은 1,2,3 번 문제를 잔여시간에 해결했습니다.
(이번에 떨어지면 머신러닝만 주구장창 타이핑 할 생각이었습니다.)
첫 제출과제 리뷰때 소니님의 첫마디는 "채점자의 입장에서 보니 가독성이 좋지않다." 였습니다.
그렇습니다... 마킹된 OMR 카드를 기계가 채점하는것이 아니라, 사람이 보고 평가를 하는 시험입니다.
"가독성을 곁들여서 작성한 보고서로 채점자를 내 논리로 설득하는 시험이구나"
답안 작성을 할때 딱 떨어지는 대답도...뭔가 설명 (부연설명) 을 한줄이라도 더 적으려 한게
조금이나마 유효했던것 같습니다. (그리고 보기 좋게....이쁘게....군더더기는 과감히 커트)
시험장에서 답안 작성을 할때 잘 모르는 내용도 다 아는것처럼 적어야 할 때가 있습니다..
틀린내용 일지라도 자신만의 논리를 세워서 조금이라도 더 적는다면...
작성된 답안과 논리를 채점자도 납득을 한다면....
부분점수 획득에 5g정도는 도움이 될거라 생각합니다^^
전통적으로 지도학습 모델의 특징, 장/단점을 물어보는 문제가 자주 출제되고 있으니...
한번 더 정리해서 가시면 도움이 되실것 같네요
그리고, 앞 소문제가 틀렸더라도, 못풀었더라도 최대한 다음 소문제도 풀이하려고 시도하십시오.
앞문제와 별개로 뒤 소문제에서 점수를 어느정도 획득할 수 있습니다. (포기하지마세요ㅠ)
테스트하면서 시험대상 데이터셋은 확인 할 수 있으니,
최대한 활용하시길 추천드려요!!
(이제는 너무 대놓고 하시면 안될거같아요ㅠㅠ눈치껏)
시험장과 감독관은 운빨입니다...
어느 감독관은 터치 안하는 사항이 있고.
어느 감독관은 사소한 것에도 제재를 하는 감독관이 있습니다.
28, 29회에는 준비시간(20~10분전)에 eda 도 해보고 했지만,
30회에는 코드 사전작성에 대한 제지를 하더군요..
메모장쓰지말라...등등..
감독관 컨디션에 따라 눈치를 어느정도 보시면서 하셔야할 것같고...
이왕이면 하지말라면 안하는게 정신건강에 좋을것 같습니다ㅠㅠ
(근데 제 옆자리분은 시험중간에 필기구 쓰시더라구요....역시 운빨...)
여러분들도 EDA 를 할때 저와 같은 느낌을 받으셨는지 모르겠습니다.
저는 EDA에 대해 항상 들었던 생각과 고민이...
"대체 어느 수준까지 EDA를 해야하는거야...."
고작 배점은 많아야 5점.....
스터디 시작 직후 소니님께 장문의 문의를 드린적이 있습니다.
"EDA 를 대체 어느정도까지 해야할지..."
배점이 낮은데 항상 시간이 제일 많이 소요되는 작업이 EDA다 보니...
EDA 에 대한 고민이 컸습니다.
데싸라면님의 기출해설이나 소니님 솔루션 코드를 보면
"아니 이사람은 데이터 성격을 어떻게 한번에 알고 이런 전처리까지 수행할까..."
싶을정도로 필요한 확인과 처리를 compact 하게 처리 합니다.
처음부터 알고 접근하셨을까요??
그 노하우는 무엇일까요??
고민하던 중 알게된 EDA 프로세스를 공유해봅니다.
1) 데이터의 이해 - 데이터 셋의 크기와 구성확인, 각열의 의미와 유형 확인, 결측치 이상치 확인
2) 기초통계분석 - 중심 경향성 (평균, 중앙값, 분포)
3) 시각화 - 기초통계분석결과를 가독성좋게 시각화
4) 상관관계파악 - 변수간의 관계 파악
5) 파생변수 아이디어 도출
6) 반복과 개선 (중요)
6 <<--- 반복과 개선..
우리는 모든 데이터를 알 수 없습니다. 그렇다고 데이터를 파악할 여유로운 시간도 없습니다.
그래서 제가 접근한 방법은 1)번 데이터셋 구성, 의미, 유형, 결측치만 간단히 확인하고..
다음 소문제를 풀면서 확인한 데이터의 전처리 필요성을 EDA 소문제에서 보완하고, 다음 문제 풀다가 발견하면 보완하고, 반복과 개선을 여러번 처리 하였습니다.
이런식으로 EDA 문제에 많은 시간을 할애하지 않았습니다...
(모든 과정에서 EDA가 진행중이니까요...)
한번에 EDA를 완벽하게 하려고 하지마십시오.
EDA 만을 위해서 많은 시간을 투자하지 마십시오.
다음문제를 풀다가 필요하면 보완하고..
다음문제를 풀다가 발견하면 보완하고..
이게 시간을 알뜰히 활용할 수 있는 전략이라고 생각합니다.
5점짜리고 모델링하면서 자연스럽게 처리되는 과정이니까요^^
4시간이라는 시간은 매우 짧습니다.
기출문제를 풀어봐도 12시간은 족히 걸립니다.
(마음에 드는 수준까지 풀려면..)
선택과 집중을 해야합니다.
통계분석 파트에서 틀리라고 낸 문제는 틀릴생각으로
보라통계책 + 통계기출 로 커버안되는 문제는 과감히 버릴 생각으로 임했습니다.
(이상한 문제는 가급적 선형계획법으로 풀 생각하고 프린트물을 따로 챙기긴 했습니다)
머신러닝 파트에서는 모델링해라, 빈도표를 만들어라, 시각화를 해라, 무슨 기법을 써라 라고
프로그래밍 적 요소를 강제하는 문제가 아니라면..
이번에 출제된 몇몇문제중 회귀분석에 적합한지에 확인하는것에 대한 문제와, 차원축소의 필요성 관련 문제는 프로그래밍 및 시각화 처리 없이 글로만 때웠습니다.
(우리가 시간이 없지..몰라서 못하는 것은 아니잖습니까?^^;; )
배점도 크지 않을뿐더러, 반드시 프로그래밍 처리까지 필요없을것 같다는 판단이 있어서,
뻔뻔함을 앞세워, 제가 작성한 내용이 맞든, 틀리든 저만의 논리를 제시하고 그 논리에서 벗어나지 않는 선에서....즉흥적으로 작성해서 제출했습니다.
(결과를 보고 생각보다 많이 점수를 받아서 놀랬습니다..부분점수 덕분이라고 생각합니다!)
이번 30회에서 각 변수별로 통계분석 결과를 요구하는 문제가 출제되었습니다.
놀랍게도 이번 스터디 매회 기출 솔루션에 소니님께서 EDA 결과로 각 독립변수와 종속변수간의 ttest, anova, 카이제곱검정 pvalue 를 처리해서 주신게 있었습니다.
처음 받았을때에는 "이거...과한데...이렇게까지 해야할까..." 하는 생각이었습니다.
시험장에서 문제를 받아본 순간 생각이 바뀌었습니다.
소니님 솔루션 챙기기를 정말 잘했다라고 생각한 순간이었어요...ㅠㅠㅠㅠ
통계분석 배점이 40점으로 낮아지면서, 머신러닝에서 통계분석을 녹여서 요구하는 경향으로 바뀌는 중이니 이부분도 챙기시길 바랍니다.
만일의 사태에 대비하여 PDF 파일 생성은 못해도 10분전에 한번 하시고,
남은 문제가 있다면 최대한 3분전까지만 잔여 작업 처리하십시오.
(저 같은 경우에도 3분전에 최종 전환작업 시작하고 제출하고 왔네요)
4시간 정말 짧습니다.
하지만 시험종료 마지막 1분까지 포기하지마시고, 한글자라도 더 쓰셔서 부분점수라도 획득하셔서 합격하시길 기원합니다.
"빨리가려면 혼자가고, 멀리가려면 함께가라" 라는 말이 있습니다.
ADP 는 코어근육이 필요한 장거리 종목인것 같아요,
스터디를 통해 ADP합격이라는 장거리코스를 스터디원들과 함께 달려가보시는것은 어떨까요.
저는 이번 스터디 하길 정말 잘 했다고 생각합니다.
떨어지면 31회 스터디도 참여 할 생각이었거든요..
(너무 스터디 무새인가요?^^;;)
기초지식은 스스로 공부하고, 부족한 부분을 직시하고 채울 수 있는 기회였거든요^^
소니님 그리고 함께 해주신 스터디원분들 모두 깊이 감사드립니다.