올 해는 글을 꼭 꾸준히 쓰겠다는 결심 10개월 차에 드디어 글또 활동을 시작하며 첫 글을 작성합니다. 늦었다고 생각할 때가 가장 빠르다는 마음으로 6개월간 꾸준히 작성을 해보려고 합니다.
제가 아는 것들을 글로 남기려는 이유는 두 가지 정도가 있습니다.
제가 예전에 알았던 것들 중 지금은 흐릿한 기억으로 남아있는 기억을 되살리고,
앞으로 공부하는 것들은 조금 더 천천히 잊히게 하기 위해 글을 쓰는 습관을 들이려고 합니다.
글을 처음 작성하려고 생각하니, 어디부터 시작해야 할 지 너무 쉽거나 어렵지는 않을 지 걱정이 됩니다. 그렇지만 제가 지금은 잘하는 일에도 언제나 처음은 있었고, 서툴었지만 작게 시작하다 보면 언젠가는 익숙해졌던 경험을 떠올리며 꾸준히 해보려고 합니다.
그래서 글또 제출 글들은 글을 쓰는 이유 중 첫번째인 예전에 알았던 것들 복습하기 위주로 작성할 예정입니다. 아무래도 새로 배우는 내용 보다는 예전에 공부했던 내용을 다시 보는 것이 조금 덜 부담이 되지 않을까 하는 마음입니다.
제가 느끼기에, 어떤 개념에 대한 이해의 정도는 다음과 같이 나눠집니다.
1. 방금 공부한 내용이 무슨 말인지 이해한 정도
2. 그 개념에 대해 다른 사람들이 설명한 다양한 수준의 글들을 읽고 이해할 수 있는 정도
3. 그 개념에 대해 제가 상대방의 수준을 고려하여 쉽게 설명할 수 있을 정도
1단계는 말 그대로 문자 그대로를 이해한 것입니다. 사실 머리로는 이해가 되었다고 해도 적용이 어려울 수 있습니다.
2단계는 어느 정도 그 개념과 다른 개념들을 연결 지어 이해할 수 있게 됩니다. 최근 검색이나 Chat GPT의 발전으로 2단계만큼만 알더라도 다 알고 있다는 착각을 하기 쉬워졌습니다.
3단계가 제가 생각하는 개념에 대한 진정한 이해가 완성되는 순간입니다. 이 단계까지 오면 장기기억으로 전환되는 것 같습니다.
이번에 작성하게 될 글들은 2단계의 이해에 있는 것들을 3단계로 끌어올리려는 노력입니다. 그래서 제가 보려고 작성하는 글이기는 하지만, 해당 개념을 처음 공부하는 학부생에게 설명한다는 마음으로 작성하려고 합니다. 혹시 아래 개념들을 처음 익히는 분들이 아래 글들을 읽게 되신다면 많은 도움이 되기를 바랍니다.
제가 앞으로 작성하려고 생각해 둔 글 주제를 아래에 적어보았습니다. 가능하면 내용을 글로 쉽게 설명하고, 캐글 데이터셋에 실제로 적용해보는 것까지 보여드리려고 합니다.
내용은 주로 "An Introduction To Statistical Learning : with Applications in R" 책을 주로 참고할 예정입니다.
머신러닝의 구분
통계적 가설 검정
회귀
분류
재표본추출방법
Feature Selection & Regularization
Moving beyond linearity
Tree-based models
Gradient boosting Models
SVM
Unsupervised learning
Recommendation System
위 주제로 작성하는 대로 링크 업데이트 해두겠습니다. 또한 한 주제를 두 번에 나눠서 작성할 수 있는 점도 함께 안내드립니다.