1장 - 한눈에 보는 머신러닝 머신러닝이란? 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야 훈련 세트 : 시스템이 학습하는 데 사용하는 샘플 훈련 사례 (샘플) : 각각의 훈련 데이터 모델 : 학습하고 예측을 만드는 부분 정확도 : 성능 측정 지표 중 하나, 분류 작업에 많이 사용됨 머신러닝을 사용하는 이유 기존의 프로그...

2장에서는 캘리포니아 주택 가격 데이터셋을 활용해 머신러닝 프로젝트를 처음부터 끝까지 직접 진행해보면서 배우는 것을 목표로 한다. 큰 그림 보기 문제 정의 풀고자 하는 문제가 무엇인지 먼저 정의하는 것이 필요함. 그렇게 하여 문제 상황을 정확히 파악하고, 해당 문제에 적합한 시스템을 설계하게 됨. 지금 문제는 레이블된 훈련 샘플이 있고, 여러 특성을 ...
describe 메서드는 숫자형 특성의 요약 정보를 보여준다. hist() 메서드는 모든 숫자형 형태에 대한 히스토그램을 출력할 수 있다. 이를 통해 알 수 있는 사실은 다음과 같다. 중간 소득이 US 달러로 표시되어 있지 않다. 따라서, 그 단위를 통일하는 것이 필요하다. 중간 주택 연도와 중간 주택 가격 그래프의 오른쪽 값이 심하게 높아지면서 그래프...
사이킷런의 sklearn.model_selection 패키지 안에는 여러 가지 분할기 클래스를 제공한다. 모든 분할기는 또한 훈련과 테스트 분할에 대한 반복자를 반환하는 split() 메소드를 가지고 있다. 이 코드에서는 StratifiedShuffleSplit을 사용해 10개의 다른 계층 분할을 생성한다. 첫 번째 분할을 다음과 같이 사용할 수 있다....
2장이 지나치게 길어지고 있다. 사실 분량이 많은 것도 맞기는 하다... 최대한 빨리 마무리하고 뒷내용으로 넘어가도록... 노력하겠다. 상관관계 조사하기 모든 특성 간의 표준 상관계수를 corr() 메서드를 사용해 쉽게 계산할 수 있다. 상관관계의 범위는 -1부터 1까지로, 1에 가까우면 강한 양의 상관관계, -1에 가까우면 강한 음의 상관관계를 가진...
데이터 정제 먼저, total_bedrooms 특성에 값이 없는 경우가 있는데, 이를 수정해보자. 방법에는 다음과 같이 세 가지가 있다. > 1. 해당 구역을 제거하기 > 2. 전체 특성을 삭제하기 > 3. 대체 : 누락된 값을 어떤 값으로 채우기 판다스의 dropana(), drop(), fillna() 메서드로 이런 작업을 간단하게 처리할 수 있다...