import numpy
import numpy as np
from numpy import array
a = np.array()
a.ndim # 차원 출력
a.shape # -> (행, 열)
a.dtype # 데이터 타입 출력
a = np.array()
a = np.array([1, 2, 3, 4]) # list로 선언
np.zeros((2, 2)) # 0으로 채워진 배열
np.ones((1, 2)) # 1로 채워진 배열
np.full((2, 2), 7.) # 특정 값으로 채워진 배열
np.eye(2) # 단위 행렬(대각만 1)
np.random.random((2, 2))
np.reshape(li, (6, 1))
li.reshape(6, 1)
li.reshape(6, -1) # -1은 알아서 변환
a, b
a+b
np.add(a, b)
a-b
np.subtract(a, b)
a*b
np.multiply(a, b)
a/b
np.divide(a, b)
a**b
np.power(a, b)
# 제곱근
np.sqrt(a)
np.mean(), np.sum(), np.std()
# 전체 집계
print(np.sum(a))
# 열기준 집계
print(np.sum(a, axis = 0))
# 행기준 집계
print(np.sum(a, axis = 1))
# 가장 큰(작은) 값의 인덱스 반환
np.argmax(array, axis=0)
np.argmin(array, axis=0)
arr1[1, 3]
arr1[1][3]
arr1[1,:] # arr[1]
arr[[행1, 행2]]
arr[[행1, 행2],:]
arr1[시작:끝]
arr1[행, 시작:끝]
arr1[시작:끝, 시작:끝]
np.where(조건문, 참일 때 값, 거짓일 때 값)
np.where(a>2, 1, 0)
path = './data.csv'
data = pd.read_csv(path)
df.head(10) # 상위 10개
df.tail(10) # 하위위 10개
# 열 자료형
data.dtypes
# 모양 확인(행, 열)
df.shape
# 정보 확인
df.info()
# 기초 통계 정보 확인
df.describe()
# ascending: False(내림차순), True(오름차순-기본값)
# 인덱스 기준으로 정렬
data.sort_index(ascending=False)
# 정해서 정렬
data.sort_values(by='aaa')
data.sort_values(by=['aaa', 'bbbb'], ascending=[True, True])
temp.reset_index(drop = True)
data['MaritalStatus'].unique()
data['MaritalStatus'].value_counts()
data['MonthlyIncome'].sum()
data['MonthlyIncome'].max()
data[['Age', 'MonthlyIncome']].mean()
data[['Age', 'MonthlyIncome']].median()
# 1차원(시리즈)로 조회
data['col']
data.col
# 2차원(데이터프레임)으로 조회
data[['col']]
data[['col1', 'col2']]
# 기본 loc[행 조건, 열 이름]
data.loc[data['tip'] > 6.0]
# 여러 조건 and, or -> &, |
data.loc[(data['tip'] > 6.0) | (data['ar'] < 6.0)]]
# 열 이름 지정해서 가져오기
data.loc[:, ['tip', 'size']]
# isin([값1, 값2]): 값이 리스트안에 있어야 조회
tip.loc[tip['day'].isin(['Sat', 'Sun'])]
# between: 사이에 있는 값
# 'left', 'right', 'neither', 'both': 포함 여부
tip.loc[tip['size'].between(1, 3)]
tip.loc[tip['size'].between(1, 3, 'left')]
# MonthlyIncome 합계
data['MonthlyIncome'].sum()
# MonthlyIncome, TotalWorkingYears 각각의 평균
data[['MonthlyIncome', 'TotalWorkingYears']].mean()
max()
min()
count()
dataframe.groupby( ‘집계기준변수’, as_index = )[‘집계대상변수’].집계함수
# 집계 대상 열을 리스트로 지정
# day별 total_bill, tip 합계 조회
tip.groupby('day', as_index=False)[['total_bill', 'tip']].sum()
# 집계 기준 열을 여럿 설정 가능
# day + smoker별 total_bill, tip 합계 조회
tip.groupby(['day', 'smoker'], as_index=False)[['total_bill', 'tip']].sum()
# agg()
# day별 tip 합계, 평균, 최댓값, 최솟값
tip.groupby('day')['tip'].agg(['sum', 'mean', 'max', 'min'])
# day별 total_bill 평균, tip 합계
tip.groupby('day', as_index=False).agg({'total_bill':'mean', 'tip':'sum'})