판다스 기초 3. broadcasting과 연산

도로롱·2022년 10월 12일
0

pandas

목록 보기
4/18

broadcasting의 개념

    1. numpy의 연산

(3X3) X (3X3) 의 연산이며 같은 자리에서 연산이 되는것을 볼 수 있다

(3X3) X (3X1) 의 연산도 위의 값과 같다. 왜일까?

  • 브로드 캐스팅은 똑같은 배열이 늘어나서 연산을 진행 시키는 역할을 한다

2. Pandas 연산

  • 판다스는 넘파이와 다르게 라벨링(인덱스 & 컬럼)이 붙어있다.

  • 판다스는 라벨링이 되어 있기 때문에 위치, 순서는 중요하지 않다

  • 두 데이터 프레임이 일치하는 열이 없기 때문에 NaN으로 반환된다

  • 판다스도 브로드 캐스팅 기능이 있고 엄밀히 말하면 데이터프레임 * 시리즈의 연산이라고 할수 있다

3. numpy와 pandas 연산의 차이점

  • 넘파이는 같은 자리에 있는거끼리 연산
  • 판다스는 같은 인덱스, 컬럼들을 대상(라벨이 같은것끼리)으로 연산

4. 오늘의 목표

  1. 판다스는 인덱스와 컬럼이 같은 값끼리 연산함을 이해하기
  2. 연산자가 아닌 함수로 연산하는 이유와 fill_value의 쓰임을 이해한다
  3. 브로드 캐스팅을 이해한다. axis에 유의하여 사용한다(디폴트는 1)

1. 죽으나 사나 판다스 불러오기 &데이터 살펴보기

2. 인덱스와 칼럼이 같으면 연산한다

3. 함수를 사용하는 이유와 fill value 사용하기

  • 판다스의 연산은 함수가 아니라 연산자를 통해 쉽게 계산이 된다. 그런데 함수를 써야 하는 경우도 있다. 바로 인자(=)를 사용할때 이다.

df1=어제 구매량, df3=오늘 구매량이며, NaN으로 표시된 부분은 값이 없는 것이 아니라 0이라고 표기 되어야 하는 상황이다.

4. 브로드 캐스팅과 axis 사용하기

+) 브로드 캐스팅의 default 값

  • 기본적으로 가로 방향으로 브로드 캐스팅이 되는데

  • 방향을 세워서 브로드 캐스팅 할수도 있다 =이때 함수를 써야한다

  • 기본 축 axis 값은 1이므로 굳이 안적어 줘도 된다. (가로방향)
  • 세로 방향으로 세우고 싶을떄는 axis 값에 0을 할당하는데 ABC라는 인덱스가 없기 때문에 값이 NaN에 할당 되는것을 볼 수 있다.
profile
질문 없는 성장은 없다. 3년차 데이터 분석가

0개의 댓글