ndarray에 각각 값을 넣어서 생성하는 것이 아닌 보다 쉽게 생성하는 방법이 있는데, 바로 arange, zeros, ones이다.
array1는 1차원 array로 3개의 데이터를 갖고 있다.array2는 2차원 array로 2개의 로우와 3개의 칼럼으로 총 6개의 데이터를 갖고있다.array3은 2차원 array로 1개의 로우와 3개의 칼럼을 가지고 있다.
numpy ndarray의 인덱싱은 리스트와 유사하다.
Kaggle 코드를 공부하면서 dataframe에 대해 이해안되는 부분들이 있었는데 이번에 공부하면서 많이 알게된거 같다.
[]연산자를 이용해서 데이터 셀렉션을 할 수 있다.numpy에서 공부했던 불린 인덱싱도 사용 가능하다.
데이터가 NaN인지 아닌지 알려준다.DataFrame에서 isna()를 수행하면 모든 칼럼의 값이 NaN인지 아닌지를 True나 False로 알려준다.kaggle titanic 대회에서 많이 쓰는걸로 보였던 식은 아래와 같다.
iris 데이터 이용해서 머신러닝 공부하기
주요 파라미터 : by, ascending, inplaceby : 특정 칼럼을 입력하면 해당 칼럼으로 정렬을 수행함.ascending : True로 설정하면 오름차순, False면 내림차순, 기본은 True
사이킷런의 ML 알고리즘을 적용하기 전에 데이터에 대해 미리 처리해야 할 기본 사항이 있다.
매번 kaggle 노트북으로만 보던 타이타닉 생존자 예측을 책을 따라서 해보자
머신러닝은 데이터 가공/변환, 모델 학습/예측 그리고 평가의 프로세서로 구성된다.
이번에는 Kaggle의 피마 인디언 당뇨병(Pima Indian Diabetes) 데이터 세트를 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델을 수립하고, 저번에 작성한 평가 지표를 적용해 보자.
결정트리는 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리(Tree) 기반의 분류 규칙을 만든다. 일반적으로 쉽게 표현하는 방법은 if/else 로 스무고개 게임을 한다고 생각하면 된다.
앙상블은 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법이다. 앙상블 학습의 유형은 보팅(Voting), 배깅(Bagging), 부스팅(Boosting) 이 있고 이외에도 스태깅을 포함한 다양한 앙상블 방식이 있다.
캐글의 산탄데르 고객 만족 데이터 세트에 대해 고객 만족 여부를 XGBoost 와 LightGBM 으로 예측해보자.
이번에는 kaggle의 신용카드 데이터 세트를 이용해 신용카드 사기 검출 분류 실습을 수행해보자.
스태킹(Stacking)은 개별적인 여러 알고리즘을 결합해 예측 결과를 도출하는 것이 배깅(Bagging), 부스팅(Boosting)과 비슷하지만, 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 한다.