natural language processing #2

be1le·2022년 3월 21일
4
post-thumbnail

판다스(Pandas) and 넘파이(Numpy) and 맷플롭립(Matplotlib)

데이터 분석을 위한 필수 패키지 삼대장이 있습니다. 바로 Pandas와 Numpy 그리고 Matplotlib입니다. 세 개의 패키지 모두 아나콘다를 설치했다면 추가 설치 없이 사용할 수 있습니다. 이번 시간에는 그중에서 판다스(Pandas)에 대해서 알아보겠습니다.

판다스(Pandas)

판다스(Pandas)는 파이썬 데이터 처리를 위한 라이브러리입니다. 파이썬을 이용한 데이터 분석과 같은 작업에서 필수 라이브러리로 알려져있습니다. 참고 할 수 있는 Pandas 링크는 다음과 같습니다.

링크 : http://pandas.pydata.org/pandas-docs/stable/


Pandas의 경우 pd라는 명칭으로 임포트하는 것이 관례입니다.

Pandas는 총 세 가지의 데이터 구조를 사용합니다.

  • 시리즈(Series)
  • 데이터프레임(DataFrame)
  • 패널(Panel)

오늘 실습은 시리즈와 데이터프레임에 대해서 다룬다.

시리즈(Series)

시리즈 클래스는 1차원 배열의 값(values)에 각 값에 대응되는 인덱스(index)를 부여할 수 있는 구조를 갖고 있습니다.

값(values)과 인덱스(index)를 출력합니다.

데이터프레임(DataFrame)

데이터프레임은 2차원 리스트를 매개변수로 전달합니다. 2차원이므로 행방향 인덱스(index)와 열방향 인덱스(column)가 존재합니다. 다시 말해 행과 열을 가지는 자료구조입니다. 시리즈가 인덱스(index)와 값(values)으로 구성된다면, 데이터프레임은 열(columns)까지 추가되어 열(columns), 인덱스(index), 값(values)으로 구성됩니다. 이 세 개의 구성 요소로부터 데이터프레임을 생성해보자.

생성된 데이터프레임으로부터 인덱스(index), 값(values), 열(columns)을 각각 출력해보겠습니다.

데이터프레임의 생성

데이터프레임은 리스트(List), 시리즈(Series), 딕셔너리(dict), Numpy의 ndarrays, 또 다른 데이터프레임으로부터 생성할 수 있습니다. 여기서는 리스트와 딕셔너리를 사용하여 데이터프레임을 생성해보겠습니다. 우선 이중 리스트로 생성하는 경우입니다.

생성된 데이터프레임에 열(columns)을 지정해줄 수 있습니다. 열이름을 지정하고 출력해봅시다.

파이썬 자료구조 중 하나인 딕셔너리(dictionary)를 통해 데이터프레임을 생성해보겠습니다.

데이터프레임 조회하기

아래의 명령어는 데이터프레임에서 원하는 구간만 확인하기 위한 명령어로서 유용하게 사용됩니다.

  • df.head(n) - 앞 부분을 n개만 보기
  • df.tail(n) - 뒷 부분을 n개만 보기
  • df['열이름'] - 해당되는 열을 확인

외부 데이터 읽기

  • Pandas는 CSV, 텍스트, Excel, SQL, HTML, JSON 등 다양한 데이터 파일을 읽고 데이터 프레임을 생성할 수 있습니다.

예를 들어 csv 파일을 읽을 때는 pandas.read_csv()를 통해 읽을 수 있습니다.
프로젝트때 직접 만들었던 wine csv 파일을 불러 보겠습니다.

profile
그저 그런 개발자가 되지 않겠습니다.

0개의 댓글