pd.set_option("display.max_rows", None) # 모든 행 보이기
pd.set_option("display.max_columns", None) # 모든 열 보이기
None
위치에 정수를 넣으면 정수 만큼의 행/열을 출력. default : 10
df = pd.read_csv("data.csv")
df = pd.read_csv("data.txt", sep="\t")
df = pd.read_csv("data.csv", header = None) # 헤더가 없을 경우
df = pd.read_csv("big_data.csv",
usecols = [0, 1, 2, 3], # column 명으로도 불러올 수 있음
index_col = "ID", # usecols 를 사용하는 경우 반드시 포함
nrows = 1000)
df.to_csv("index_false.csv", sep=",", index=False) # 인덱스 제외
df.to_csv("index_true.csv", sep=",", index=True)
pd.read_excel(filepath, sheet_name, header, index_col, usecols, nrows, skiprows=range(6)) # 1~6행 제외
df.to_excel(filepath, index, sheet_name, mode)
with pd.ExcelWriter("xlsx_file.xlsx") as writer:
df1.to_excel(writer, sheet_name="sheet1")
df2.to_excel(writer, sheet_name="sheet2")
명시적 인덱스 참조. 마지막 값 포함
딕셔너리처럼 key를 이용하여 value를 찾는 것과 같음
암묵적 인덱스 참조. 마지막 값 미포함
S.sort_values(ascending=True, key=None, na_position="first") # na_position={"first","last"}
S.value_counts() # 데이터의 빈도를 파악
S.unique() # 범주형 변수와 연속형 변수를 판단하는데 사용
str accessor로 string 관련 내장 함수를 자유롭게 이용 가능
df['시리얼번호'].str.split('-', expand = True).head() # 하이픈 기준 분할
S.astype(str)
df.sort_values(by = columns, ascending = True, key=None, na_position='first', inplace=False)
df.drop_duplicates(subset = columns, keep="first")