1. 판다스(Pandas)?

판다스는 데이터를 처리 하기에 매우 활용도가 좋은 라이브러리(?) 입니다.

응? 라이브러리(?)가 뭐야?? 🧐

다른 프로그램의 구성 요소로 사용하기 위해 미리 만들어 둔 프로그램의 조각이다.
즉, 자주 사용하는 기능을 모듈·패키지로 만들어 둔 것이다.
한 번 만들어 놓으면 여러 프로그램에서 재사용할 수 있고, 다른 사람과 공유할 수도 있다.

판다스는 표준 라이브러리가 아닌 외부 라이브러리에 속한다.

2. 판다스 설치

판다스를 설치하기 전에 라이브러리는 추후에 판다스만 사용할것이 아니기 때문에 아나콘다를 설치해주자!

아나콘다는 또 뭐야! 😤

아나콘다는 파이썬의 라이브러리들을 쉽게 설치하고 관리할 수 있게 해주는 도구

위 이미지와 같이 데이터분석에 많이 사용되는 numpy와 pandas도 들어있어서 아나콘다 설치를 진행해보자!

설치 URL : https://www.anaconda.com/products/individual#download-section

판다스 설치 방법!

3. 판다스 불러오기

위 명령어를 작성하면 판다스 라이브러리를 가져올 수 있습니다.

이후 제대로 가져왔는지 확인하고 싶다면 pd.__version__ 로 버전을 확인해보자!

4. 판다스는 어떤 형태가 있을까?

시리즈(series) vs 데이터프레임(dataframe)

1. 시리즈(series)

리스트와 비슷한 1차원 데이터 출력방법이나 큰 차이점이 있다.
바로! 인덱스 명을 지정할 수 있다라는 부분이다.

2. 데이터프레임(dataframe)

데이터 프레임은 판다스의 2차원 자료구조 입니다.
시리즈와 사용 방법은 유사하지만, 행과 열 이 있습니다.

Q. Index를 이모지로 지정하여 점수를 매겨볼 수 있는가?

판다스를 활용한다면 인덱스를 자유롭게 설정하여 보여주고 싶은 데이터를 원하는 워딩으로 보여질 수 있다.

별명 과 정수형을 표현하는 값

  1. loc: 레이블명 또는 별명으로 정의된 인덱스를 바탕으로 접근
  2. iloc: 정수형 인덱스(순서)를 바탕으로 접근

시리즈 데이터 삭제하는 방법

drop 함수를 사용하면 삭제가 가능하다.

But, drop값만 사용하면 영구삭제가 아닌 일시적 삭제만 진행된다.

그리하여! 영구삭제가 필요하다면! inplace를 붙여줘야한다.

5. 시리즈의 한계를 개선하기 위한 데이터프레임 출력

데이터 프레임은 행과 열이 있는 2차 형식의 표로 표현된다.
ex. 엑셀이나 스프레드 시트와 비슷한 구조

바이킹과 롤러코스터의 인덱스를 설정하여 데이터프레임으로 한눈에 보여주고 있다.

일부 데이터만 검색하는 방법

list에서 불러오고 싶은 열값을 가져올 수 있다.

데이터 프레임 열 추가방법

원래는 시리즈에 값을 추가한다음 데이터프레임에 넣는 귀찮은 방법이 있다.😂

But, insert 값을 활용한다면 한줄이면 열이 추가 된다.😍

데이터 행을 추가하는 방법

행은 .append값을 활용하여 추가가 가능하다.

귀신의 집이 시시하여 시시함의 행을 추가하면서 귀신의 집의 데이터는 0으로 넣은 형태이다.

6. 흠..🤨 NaN값이 보고 싶지 않을때는 어떻게 해야할까?

NaN은 결측값으로서 데이터가 누락된 부분을 말한다. 이런 데이터를 보이지 않도록 관리할때는 아래와 같이 해보자!

NaN이 하나라도 포함된 열이나 행일때 삭제될수도 있고 NaN이 전부 포함되야만 삭제되는 값을 출력할 수도 있다.

NaN가 하나라도 포함된 행 또는 열이면 삭제하는 코드

모두 NaN인 열이면 삭제하는 코드

profile
데이터와 IT정보를 재미있게 볼 수 있는 놀이동산 🎢

0개의 댓글