n111~n112

wldbs·2021년 5월 11일

<n111 내용정리>
데이터프레임 총정리 도움되는 링크 https://hun931018.tistory.com/19

EDA란
데이터를 분석하고 다루기전에 전체적으로 데이터를 이해하는 것.

이 과정에서 시각화를 통해 패턴을 파악/ 통계적 수치/특이성 확인과정을 수반한다.

Pre-processing이란
양질의 데이터를 분석하기 위해 데이터를 전처리하는 과정

데이터 결측지 제거/통합/형태변환/차원 줄이기와 같은 과정

<n111에서 중요하거나 애먹었던 코드 정리>

df = pd.read_csv(url, names = column_headers)
읽고 헤더 정하기

df[1:] 1행의 모든 열
df.iloc[행:열] 인덱스로 지정하기
df.loc[행이름:열이름] 이름으로 지정하기
df.rename(columns=header1,inplac=true) 헤더 다시 지정하기sns.barplot(x=df1.index,y='FCF',data=df1) 막대그래프 그리기
df_1num1=sum(i > 0 for i in df1.FCF ) sum안에 for이 들어갈 수 있다..

Feature engineering이란
각각의 주어진 Feature를 조합하여 새로운 유의미한 Feature를 만들어 내도록 조작하는 것

string으로 되어있는 숫자를 int로 바꾸는 법
def toInt(string):
return int(string.replace(',',''))

열별로 함수 적용하는 법(.apply())
df['자산2'] = df['자산'].apply(toInt)

<n112에서 중요하거나 애먹었던 코드 정리>

df=df.fillna(0) 결측치 0으로처리
try: except: pass 제외하고 아무행동 취하지 않고 지나가기는 pass
.replace(~,np.nan) na로 대체/파이썬에선 nan과 na 같음
df.fillna(df.mean()) 결측치 평균대체
sum()/leng() 평균구하기
df['']=df[].apply() 열추가하고 싶으면 그냥 df['']=하고 쓸것
def시 return값 잘 보기

wldbs

n111~n112

0개의 댓글