s
pandas는 numpy 기반으로 개발되었다. 데이터타입은 크게 2가지가 있다. Series DataFrame Series [코드] [결과] series는 values, index values는 배열로 표현된 실제 데이터의 값이고, index는 왼쪽의 순서를 나타
python의 데이터 시각화 라이브러리는 굉장히 여러개이다. 그 중에서 가장 많이 쓰는 대표적인 몇개를 소개할까 한다. seaborn matplotlib matplotlib package를 우선 import해준다. 그래프를 본격적으로 그리기 전에, 자리를 미리 깔아
이번 포스팅에선 Missing Data, 즉 결측치를 다루는 법에 대해 알아볼 것이다. 결측치를 처리할 때 데이터마다의 특성을 반영해야하며, 결측치를 처리하는 방법은 크게 2가지가 있다. 결측치가 있는 데이터를 제거 결측치를 어떤 값으로 대체 isnull, any
DataFrame.duplicated()는 중복된 데이터 여부를 불리언 값으로 반환해줍니다. DataFrame[DataFrame.duplicated()] pandas에서는 DataFrame.drop_duplicates를 통해 중복된 데이터를 손쉽게 삭제할 수 있습니
이상치란 대부분 값의 범위에서 벗어나 극단적으로 크거나 작은 값을 의미합니다. 이상치를 판단한 뒤 어떻게 해야 할까요? 가장 간단한 방법으로 이상치를 삭제할 수 있습니다. 이상치를 원래 데이터에서 삭제하고, 이상치끼리 따로 분석하는 방안도 있습니다. 이상치를 다른
데이터들을 보면 단위가 다른 경우가 종종 있다. 예를 들어, 지출금액, 수입금액, 수출금액 등등의 단위가 서로 다르면 비교하기가 힘들다. 이런 경우 컬럼마다 차이가 크게 나는 데이터들은 모델학습에 문제가 발생할 수도 있으므로, 일반적으로 전처리(Preprocessing
원-핫 인코딩이란 카테고리별 이진 특성을 만들어 해당하는 특성만 1, 나머지는 0으로 만드는 방법입니다. 주로 범주형 데이터에서 많이 이용된다. ex) 국가명, 시.도 참고로, vgsales는 비디오게임 매출 데이터이다. pandas에서 get_dummies 함수를
구간화에 대해 알아보자.
이번 포스팅은 pandas메소드들 중 isna와 isalpha를 알아보려 한다.참고사이트missing values(결측치)가 있는지 확인하는 메소드이다.DataFrame, Series 둘 다 사용가능하다.예제코드결과예제코드로 만든 DataFrame에 isna() 메소드
컴퓨터에서 이미지는 배열형태의 데이터로 표현된다. 가로 세로 32x 32 픽셀에 RGB 색상 채널이 있다면, Numpy로 [32, 32, 3]차원의 배열을 생성하면 된다. 또한 데이터 타입을 값이 부호가 없는(unsigned) 8비트 정수(integer)가 되어 0~2
이미지 데이터 처리의 전세계(?)에서 가장 널리 쓰이는 학습용 예제가 있다. 이름하여 CIFAR-100 예제이다.(발음이 정말 시파 같다!) 예제에서 사용할 데이터는 CIFAR-100 python version데이터이다. 여기선 train 데이터만 사용할 것이다.
Install OpenCVOpenCV는 오픈소스로 제공되는 컴퓨터 비전용 라이브러리이다. 다른 언어(C++,C,Java ...)에서도 사용가능하며, 영상 처리에 대한 고급 기능들이 구현되어 있어서 쉽게 불러 사용할 수 있다.OpenCV tutorial위 링크는 파이썬
이번 포스팅에선 OpenCV를 이용하여 비슷한 이미지 찾아내는 예제를 살펴보겠다.예제 데이터 출처는 CIFAR-100이다.코드들은 전부 jupyter notebook을 사용했으며, CIFAR-100도 전부 다운받아 로컬에 위치시켜 놓고 실습을 진행하였다.OpenCV의