###(Exploratoroy Data Analysis)
non graphic
그래픽적인 요소를 사용하지 않는 방법
graphic
Histogram
Pie chart
QQ plot
.
.
data_url = "https://~"
df = pd. read_csv(data_url)
df.head()
data_url = "https://~"
df = pd. read_excel(data_url)
df.head()
-- 한글 파일 깨짐 현상 --
#한글 파일 다운로드
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
import matplotlib.pyplot as plt
import matplotlib as mpl
mpl.rc('font', family='NanumBarunGothic')
-- qqplot 연습 --
import statsmodels.api as sm
from scipy import stats
fig, ax = plt.subplots(figsize=(10,5))
sm.qqplot(pp_dropna.[칼럼명], line='q', dist = stats.uniform, ax=ax)
plt.show()
def column_cleaning(col):
temp_list = []
for i in col:
temp = int(i.replace(",", ""))
temp_list.append(temp)
return temp_list
df["컬럼1"] = column_cleaning(df["컬럼1"])
df["컬럼2"] = column_cleaning(df["컬럼2"])
df.dtypes
df = df.fillna(0)
import re
def cleanString(x):
x1 = ''
if type(x1) == type(x):
x1 = x.replace(" ","")
return int(x1)
else:
return x
df.apply(cleanString)
df.dtypes
#if, elif 적용
import numpy as np
def solve(df):
mean = df['매출액'].mean()
for i in df['분기'].values:
value = ((df.loc[df['분기']== i, '매출액'].values - mean) / mean ) * 100
if value >= 10:
value = "S"
elif 5<=value<10:
value = "A"
elif -5< value < 5:
value = "B"
elif -10 < value <= -5:
value = "C"
elif value <= -10:
value = "D"
df.loc[df['분기'] == i, 'Relative Perfomance'] = value
return df
아직은 컴퓨터 언어에 익숙하지 않은 것 같다.
특히 어떤 상황에서 적용되는 함수가 있어도 응용을 못하는 것이 한계이다.
Seaborn이나 matplotlib를 이용한 시각화 그래프를 적용하는 방식도 좀 더 연습해봐야겠다.