ENV 환경 설정 : 미니콘다(미니포지) 설치
cd Downloads
# 설치파일 위치로 이동 bash Miniforge
# 설치파일 실행 home brew 설치
ENV 실행
conda env list
conda activate env_name
모듈 설치
condad install module
matplotlib 한글설정
import matplotlib.pyplot as plt
%matplotlib inline # jupyter notebook에서 필요
plt.rcParams['axes.unicode_minus'] = False # 마이너스 부호 깨짐 설정
from matplotlib import rc
rc('font', family='Arial Unicode MS')
vscode 설치
brew install visual-studio-code
code .
import pandas as pd
pd.read_csv('../path/file_name', encoding=)
pd.read_excel('../path/file_name', header=n, index_col = n, usecols='A, B,...',thousands=',')
data.rename(columns={'old_name' : 'new_name'}, inplace=True)
pd.Series([], dtype=)
: 시리즈 데이터 생성pd.date_range('date', periods=n)
: date부터 n일의 날짜 데이터 생성pd.DataFrame(data,index=[], columns=[])
: 테이블 데이터 생성pd.DataFrame({'column1' : [], 'column2' : [], ... })
pd.DataFrame([
{'column1':value1, 'column2':value2, ...},
{'column1':valueA, 'column2':valueB, ...}])
df.head()
: 첫 5행 조회df.head(n)
: 첫 n행 조회df.tail()
: 마지막 5행 조회 df.index
: 인덱스 조회df.columns
: 컬럼 조회df.values
: 데이터 조회 df.info()
: Dataframe의 기본 정보 확인 df.describe()
: Dataframe의 기술 통계 정보 확인df.sort_values(by='column', ascending=True, inplace=True)
:특정 컬럼을 기준으로 데이터 정렬df['column', ...]
: 특정 컬럼 선택df.column
: 특정 컬럼 선택 (컬렴명이 문자열일 때만)df[n:m]
: n부터 m-1행 까지 선택df['indexA':'indexB']
: indexA 부터 indexB 까지 선택df.loc[index]
: 특정 행 이름으로 선택df.loc[index,column]
: 특정 행, 열 이름으로 선택 df.iloc[n]
: 특정 행 index 값로 선택df.iloc[n, m]
: 특정 행, 열 index 값로 선택df[condition]
: 특정 조건 선택df[df['A'] > 0]
: A 컬럼의 값이 0 이상인 행만 조회df[df>0]
: 데이터 값이 0이상인 값만 조회, 나머지는 NaN 처리df['E'].isin(['a', 'b'])
: E열에서 a와 b가 데이터에 있는지 T/F df[df['E'].isin(['a','b'])]
:위 조건을 만족하는 행만 조회 df['column'] = []
del df['column']
: 특정 컬럼 제거df.drop(['column'], axis=1)
df.set_index('column', inplace=True)
: 특정 컬럼을 index값으로 사용pd.merge(df1, df2, on='key column')
pd.merge(df1, df2, how='left', on='key column')
: df1의 key column의 값을 기준으로 병합 (없는 값은 NaN처리)pd.merge(df1, df2, how ='outer', on='key column')
pd.concat(ls)
: 리스트 내 구조가 동일한 데이터프레임이 여려개 있을 때 병합df.apply(def)
: 각 컬럼에 함수 적용 df.corr()
: 컬럼간의 데이터의 상관계수를 반환 matplotlib? 파이썬의 대표 시각화 도구
pyplot ? matplotlib의 2차원 시각화 도구
불러오기 import matplotlib.pyplot as plt
(jupyter notebook) %matplotlib inline
그래프 그리기 기초
plt.figure(figsize=(m, n))
: 그림에 대한 속성 설정plt.plot(x, y)
: x, y 값 입력plt.scatter(x, y)
plt.show()
: 그리기 fig, ax = plt.subplots(figsize=(m, n))
plt.plot(x, y)
그래프 그리기 확장
plt.grid()
: 그리드 생성plt.legend()
: 범례 표현plt.legend(labels=[], loc='best')
plt.xlabel()
: x축 제목plt.ylabel()
: y축 제목 plt.xlim([n, m])
: x축 범위 지정plt.ylim([n, m])
: y축 범위 지정 plt.title()
: 그래프 제목 plt.colorbar()
: 컬러맵 표시 plt.text(x, y, t, fontsize=n)
: (x,y) 위치에 t 텍스트 표기plt.xticks(rotation='vertical')
: x축 값 각도 변경ax.bar_label(ax.containers[0], labels=[], fmt = '', label_type = 'center', padding = n, )
: 바그래프 상단에 레이블 입력plot 함수 확장
plt.plot(x, y, color = 'c', linestyle = 'dashed')
plt.plot(x, y, marker='o', markerfacecolor='c', markersize=n)
pandas로 matplotlib 그래프 그리기
df.plot(kind='', figsize=(, ))
from matplotlib.colors import ListedColormap
기타 matplotlib 기능
from matplotlib.colors import ListedColormap
color_step = []
my_cmap = ListedColormap(color_step)
plt.plot(x, y, c=color_standard, cmapy=my_cmap)
plt.colorbar()
np.random.randn(m, n)
: m x n 테이블 난수 데이터 생성np.arange(a, b, d)
: a부터 b까지의 숫자를 d간격으로 생성np.linspace(a, b, n)
: a부터 b까지 n개의 등간격 데이터 생성 np.polyfit(x, y, 1)
: 직선을 구성하기 위한 계수(기울기, y 절편) 계산variable = np.poly1d(polyfit)
: polyfit으로 찾은 계수로 python에서 사용할 함수로 만들어줌.df.to_csv('path/file.csv', sep=',', encoidng='utf-8')
df.groupby(column, column)