Pandas 기본 4

Chanyang Im·2021년 7월 29일
0

Python

목록 보기
11/16
post-thumbnail

Pandas의 연산과 함수

데이터 프레임의 Null 여부 확인

# Pandas 불러오기 및 pd로 설정
import numpy as np
import pandas as pd

word_dict = {
    'Apple': '사과',
    'Banana': '바나나',
    'Carrot': '당근',
    'Durian': '두리안'
}

frequency_dict = {
    'Apple': 3,
    'Banana': 5,
    'Carrot': np.nan,
    'Durian': 2
}

importance_dict = {
    'Apple': 3,
    'Banana': 2,
    'Carrot': 1,
    'Durian': 1
}

word = pd.Series(word_dict)
frequency = pd.Series(frequency_dict)
importance = pd.Series(importance_dict)

summary = pd.DataFrame({
    'word': word,
    'frequency': frequency,
    'importance': importance
})

print(summary)

# 값이 null이 아니면 True null이면 False
print(summary.notnull())
# 값이 null이면 True null이 아니면 False
print(summary.isnull())

# fillna로 null값 채우기
summary['frequency'] = summary['frequency'].fillna('데이터 없음')
print(summary)

결과



Series 자료형의 연산

array1 = pd.Series([1, 2, 3], index=['A', 'B', 'C'])
array2 = pd.Series([4, 5, 6], index=['B', 'C', 'D'])
print(array1)
print(array2)

# add 함수를 이용해서 시리즈 더하기
array3 = array1.add(array2)
print(array3)

# fill_value로 null값에 0채워서 계산하기
array3 = array1.add(array2, fill_value=0)
print(array3)
print(array3.sum())

결과




데이터 프레임 자료형의 연산

array1 = pd.DataFrame([[1, 2], [3, 4]], index=['A', 'B'])
array2 = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], index=['B', 'C', 'D'])

print(array1)
print(array2)

# add 함수를 이용해서 데이터 프레임 더하기
array3 = array1.add(array2)
print(array3)

# fill_value를 이용해서 null값에 0을 채워서 계산하기
array3 = array1.add(array2, fill_value=0)
print(array3)

결과



데이터 프레임 집계/정렬 함수

print(array3)
print("컬럼 1의 합 :", array3[1].sum())

# 기본 적으로 NaN은 0으로 계산 : 집계함수 특성
print(array3.sum())

# 데이터 프레임 정렬 함수
print(array3)
# 컬럼 1을 기준으로 내림차순 오름차순 정렬
array3 = array3.sort_values(1, ascending=True)
print(array3)

결과




profile
안녕하세요!! 세상에 관심이 많은 공학자입니다!😆

0개의 댓글