머신러닝 프로세스 전반

허준·2022년 8월 12일

참고: 퀀트 투자를 위한 머신러닝, 딥러닝 알고리즘 트레이딩

원래, 각 데이터에서 도출 될 수 있는 출력의 형태는 무한 가지 존재. 이때 학습하는 패턴의 형태를 가설 공간의 크기를 이용해 제한한다.
알고리즘마다 공간의 크기는 매우 다르며, 선택하는 알고리즘에 따라 천차만별의 결과를 낳는다.

따라서 핵심은, 머신러닝 알고리즘을 선택할 때 해답을 포함할 정도로 크지만 동시에 신뢰할 수 있는 수준의 학습과 일반화를 보장할 정도로 충분히 작은 가설공간을 가진 모델을 선택하는 것이 가장 중요하다. 즉, 모든 상황에서 적용할 수 있는 단일 모델은 존재하지 않으며, 여기서 사전지식을 활용하게 된다.

ML의 가장 큰 분류 두 가지는 지도학습과 비지도학습. 여기서 지도란, 작업에 대한 답을 수정해주는 변수가 존재한다는 것을 의미한다. 모델을 통해, y~f(x)라는 해를 하나 얻게 된다.
모델이 복잡할 수록, 숨겨진 관계를 찾을 가능성을 높인다는 장점이 있지만, 반대로 그 숨겨진 관계가 노이즈에 의한 것으로 데이터에 편향된 결과였을 가능성 또한 높아진다. 이것이 bias-variace trade-off이다.

반대로 비지도 학습은, 특성만을 관찰해 결과에 대한 측정을 하지 않는다. 따라서 미래 결과를 예측하거나 변수 간의 관계를 추론하는 대신, 데이터에 포함된 정보의 새로운 표현을 허용하는 구조를 발견하는 것을 목적으로 하게 된다. 가장 큰 과제는 지도 없이 목적을 달성해야 된다는 것이므로, 나온 결과가 정말로 도움이 되는지는 사람에 의존하게 된다. 사용 사례를 보면 확 와닿는데, 비슷한 자산을 그룹화 하는것, PCA를 통해 핵심 팩터를 찾는 것, 여러 문서에서 가장 중요한 잠재적 주제를 찾는 문제 등이 이에 해당된다.

머신러닝에서 가장 유용한 feature들을 먼저 선별해서 이를 사용하는 일이 많은데, 항상기억해야 되는 것이 있다. 상관관계가 있다고 해서 인과관계가 있지 않다는 것이다. 인과관계는 사실 주변을 완전히 통제해서 잘 분리된 환경에서의 실험을 요구하는데, 이것은 거의 불가능하므로 이것이 제거되지 않은 상태에서의 상관관계는 사용할 때 주의가 필요하다.

모델의 큰 분류 중, 회귀 문제는 연속 변수를 예측하는 것을 목표로 한다. 이를 위해 오차 척도를 사용하며, 여러 종류가 있다.

허준

퀀트 지망(Quant candidate)

이전 포스트

Pyfolio

다음 포스트

머신러닝 프로세스 전반

Pyfolio

클러스터링 알고리즘 1. k-평균 클러스터링

0개의 댓글