pandas는 데이터 조작 및 분석을 위해 Python 프로그래밍 언어로 작성된 소프트웨어 라이브러리입니다. 특히 숫자 테이블과 시계열을 조작하기위한 데이터 구조와 연산을 제공합니다. 3-Clause BSD License에 따라 출시 된 무료 소프트웨어입니다.위 코드
데이터 분석을 위하여 작업하기 좋기 위하여 전처리가 필요하다raw data를 가져오다보면 "5,562" 와 같은 문자열 형태로 저장된 데이터가 존재하다이를 자료형을 변환하려고 해도 쉼표","가 존재하여 곤란한 경우가 있다아래와 같은 솔루션으로 이를 해결해보자
data를 chart를 통해 시각화 할 때, 혹은 정규화를 할 때 등서로 다른 두 가지 범주형 변수의 관계를 분석할 때 교차분석을 이용하게 된다https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas
데이터를 다롤 때 비어있는 데이터시트가 있는 경우가 있다, 이 때 상황에 맞게 결측치를 대체하거나 혹은 삭제하여 분석을 진행한다
E / T / L 각각 의미하는 바
데이터 레이크는 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지토리 유형입니다.
만들게 된 계기 빌딩 구내식당 메뉴를 매일 받아보는 취지로 만들어보았다 해당 식당의 메뉴가 블로그 글을 매일 수정하는 방식으로 알려주기 때문에 전에 배웠던 웹크롤링을 어렵지 않게 사용할 수 있을 것 같은 느낌에 바로 도전 web crawling이란? >crawli
엑셀파일 작업 중 몇백개의 괄호 안 텍스트를 뽑아내야 할 일이 생겼다. 이 것을 일일히 작업하기에는 불합리적이었고, 뭔가 자동화를 하고 싶은 마음이 들었다. 파이썬을 통하여 원하는 텍스트들을 뽑아보자
json 형식으로 된 데이터 내 특정 부분을 발췌하여 table 형태로 저장할 필요가 있어 python을 활용하여 추출하는 방법을 정리하였다.
import pandas as pd import json import requests url = 'http://fx.kebhana.com/FER1101M.web' response = requests.get(url) text = response.text #특문 전
이전 포스트의 웹페이지가 서비스가 종료가 되었는지 파일을 불러올 수 없었다. 이번엔 웹페이지의 테이블을 가져오는 방식을 통하여 pandas로 테이블을 만들어 보자
Series 적용 가능DataFrame 적용 불가사용법: df"컬럼명".map(함수 or dict)Series 적용 불가DataFrame 적용 가능사용법: df.applymap(함수)Series 적용 가능DataFrame 적용 가능사용법: df.apply(함수)위 함수