# cleansky

12개의 포스트

[인사이드 머신러닝] Bias-Variance Trade-Off

좋은 모델이란 무엇인가? 이 질문에 답하기란 생각보다 쉽지 않다. 그렇지만 좋은 모델들이 공통적으로 갖추어야할 공통적인 덕목(?)이 있는데 그것은 바로 다음과 같다.현재 주어진 데이터, 즉 훈련 데이터를 잘 설명할 수 있다.미래에 주어질 데이터, 즉 테스트 데이터도 잘

2021년 9월 27일
·
0개의 댓글

[인사이드 머신러닝] 차원축소: 선형판별분석 (Linear Discriminant Analysis, LDA)

LDA는 전통적인 선형 학습법이며, 이진 분류 문제에서 Ronald A. Fisher가 가장 먼저 사용하였기 때문에 Fisher's discriminant analysis (FDA)라고도 불린다. 아이디어는 간단하지만 강력하다. 훈련 데이터를 어떠한 직선 위에 투영시킨

2021년 8월 31일
·
0개의 댓글

[인사이드 머신러닝] 다항회귀모델 (Polynomial Regression Model)

우리는 앞에서 단순회귀모델과 다중회귀모델에 대하여 살펴보았다. 둘의 가장 큰 차이는 독립변수의 수가 하나이냐 혹은 둘 이상이냐는 것인데 다음과 같이 하나의 독립변수에 대하여 고차 다항식으로 표현되는 모델의 회귀선은 어떻게 구할 수 있을까?$$\\tag{1}y = \\b

2021년 8월 23일
·
0개의 댓글

[인사이드 머신러닝] 단순회귀모델: 회귀선의 적합도 평가

아래의 내용을 읽어보기 전에 이전 포스트(\[인사이드 머신러닝] 단순회귀모델: 회귀계수의 추정)를 먼저 보는 것이 전체적인 흐름을 이해하는데 도움이 됩니다.이전 포스트에서 살펴본 방식대로 단순회귀모델에서 회귀직선을 추정한 후에는 그 결과가 얼마나 타당한지 검토하여야 한

2021년 8월 13일
·
0개의 댓글

[인사이드 머신러닝] 단순회귀모델: 회귀계수의 추정

사전적으로 회귀(Regression)란 말은 '다시 원래 자리로 돌아간다'는 뜻으로 이를 통계 분석에 처음 사용한 사람은 영국의 우생학자 Galton으로 알려져있다. 그는 완두콩 실험을 통해 부모콩의 무게를 $$x$$축으로 하고 자식콩의 무게를 $$y$$축으로 산점도(

2021년 8월 12일
·
0개의 댓글

[인사이드 머신러닝] 불균형 데이터 샘플링

모델을 학습시킴에 있어 클래스 간 샘플 수의 차이가 너무 크게 되면 분류기는 더 많은 샘플이 존재하는 클래스로 편향된다. 이 경우 전체적인 정확도는 높게 나올지라도 샘플 수가 적은 클래스에 대한 재현율(recall)이 작아지게 된다. 이러한 문제를 데이터 불균형 문제

2021년 8월 10일
·
0개의 댓글

[인사이드 머신러닝] 데이터 스케일링

보통 학습에 사용될 데이터들은 각 특성마다 데이터가 가질 수 있는 값이 범위가 다르다. 그리고 대부분의 학습 알고리즘은 특성 간 데이터 범위가 다를 경우 잘 동작하지 않는다. 그 이유는 간단한다. 예를 들어, 나이와 재산이라는 특성이 있을 때, 재산의 값이 나이보다 훨

2021년 8월 6일
·
0개의 댓글