NumPy는 Python에서 과학 연산을 위한 가장 기본적인 패키지 중 하나입니다. NumPy는 데이터 분석, 데이터 처리, 선형 대수, 머신 러닝 등 다양한 분야에서 널리 사용되고 있습니다.Numpy의 특징으론 다음과 같습니다.Numpy는 C언어로 구현되어 있어 연
Series는 엑셀의 한 열(column)이나 리스트에 해당하는 데이터구조입니다. 각각의 값은 인덱스와 연결되어 있으며, 하나의 데이터 속성을 표현합니다.위 코드의 결과는 다음과 같습니다.DataFrame은 엑셀의 전체 시트(sheet)처럼 행(row)과 열(colum
CSV 파일을 불러올 때는 파일의 경로를 지정하여 데이터를 로드해야 합니다. 이때 사용하는 경로 표현 방식은 다음과 같습니다:. : 현재 파일이 위치한 디렉토리(현재 작업 디렉토리)를 나타냅니다./ : 디렉토리 내에서 하위 폴더로 이동하거나 특정 파일로 접근할 때 사용
이 글은 다음과 같은 데이터를 사용합니다.행에서 데이터를 조회하는 방법은 슬라이스 기호를 통해 할 수 있습니다.위 코드의 결과는 다음과 같습니다.열에서 데이터를 가져오려면 데이터프레임에 칼럼 이름(column name)을 대괄호(\[]) 안에 넣으면 됩니다.위 코드의
이 글은 다음과 같은 데이터를 사용합니다. 행의 추가/삭제
결측값 확인 결측값이란 데이터가 비어 있거나 누락된 상태를 말합니다. 데이터프레임에서 info()를 통해 결측값을 확인할 수 있습니다. 위 텍스트를 보시면 Age속성에서는 NaN값이 891-714인 177개가 있다는 것을 알 수 있습니다. 아니면 isna()를 통해
이 글에서 쓰는 데이터는 다음과 같습니다. 위 결과는 다음과 같습니다. df.dtypes df.dtypes는 각 column의 데이터 타입을 확인할 수 있는 속성입니다. 위 코드의 결과는 다음과 같습니다. df.select_dtypes() df.select_d
이 글에서 다룰 데이터 정보는 다음과 같습니다. 날짜 데이터 날짜 데이터는 특정 시점을 표현하거나 저장하는 데 사용되는 데이터 타입입니다. 날짜 데이터를 출력하고 저장하는 방법에 대해 이 글에서 자세히 살펴보겠습니다. 문자형을 날짜형으로 변경 위 데이터를 보면 Da
apply apply() 는 판다스(Pandas)에서 데이터 프레임이나 시리즈의 데이터에 사용자 정의 함수를 적용할 때 사용되는 함수입니다. 레코드 단위로 함수가 실행되며 사용자 정의 함수는 반드시 리턴이 있어야 합니다. 인수로는 함수 이름과 axis가 들어갑니다.
pandas에는 데이터들의 문자열을 다룰 수 있는 메소드들이 있습니다. 이 메소드들은 다음과 같습니다. 예시는 다음과 같습니다.여기서 시리즈 내에 문자열에 하나하나 접근을 하기 위해 str을 사용합니다.위 코드의 결과는 다음과 같습니다.
concat()은 데이터프레임을 axis을 기준으로 붙이는 함수입니다. axis는 기본값으로 0으로 설정되어 있습니다. 데이터가 없는 값은 NaN값으로 설정됩니다.위 결과는 다음과 같습니다.아래는 axis가 1인 경우 입니다.위 코드의 결과는 다음과 같습니다.merge
집계를 하면 반드시 하나의 결과값이 나온다 이러한 과정을 공학적으로 Reduce 통계적으로 aggregation(집계)라고 한다. 1개의 값은 대표값, 통계량이라고 표현한다. 통계량에는 (평균, 표준편차, 분산, 중앙값, 최빈값, .. )것들이 있다. describe
데이터 분석에서 집계(Aggregation)는 다수의 데이터를 하나로 요약하는 과정입니다. 이를 통해 데이터의 전반적인 특징을 빠르게 파악하거나, 의사결정을 위한 핵심 지표를 확인할 수 있습니다. 이 글에서는 데이터 집계에 사용되는 다양한 함수와 그 의미를 정리합니다.
이번 글에서는 인구 데이터프레임과 CCTV 데이터프레임을 가지고 외국인과 고령자의 수가 많으면 구별 CCTV가 많은지 보는 실습을 해보겠습니다. 여기서 적절하다의 기준은 인구를 기준으로 하겠습니다.위 코드를 실행하여 CCTV 데이터프레임을 갖고 옵니다. 그 후 데이터의