1차원 배열의 형태인덱스(Index)와 값(Value)이 일대일 대응이다.이러한 점에서 딕셔너리(Dictionary) 와 비슷한 구조라고 볼 수 있다. sr2 = pd.Series(list) sr3 = pd.Series(tuple)
2차원 배열구조행(Index) 과 열(Columns) 구조로 이루어져있다.2차원 벡터행렬이다.행인덱스(row inedx)와 열 이름(col name) 두가지 주소를 사용한다.ex) 딕셔너리 객체 -> DataFrame 변환실행결과 : pd.DataFrame( 2차원
시리즈 + 숫자 시리즈객체에 숫자를 더하면 시리즈의 개별원소에 해당숫자를 더하여 시리즈 객체로 반환한다.시리즈 + 시리즈같은 인덱스를 가진 원소끼리 계산한다.데이터프레임 + 숫자시리즈와 동일하다.데이터프레임 + 데이터프레임같은 행, 같은열의 원소끼리 연산한다.한쪽 원소
쉼표로 열을 구분하고, 줄바꿈으로 행을 구분판다스 내장함수인 read_csv()함수에 확장자 .csv를 포함하여 경로를 입력하면 csv파일을 읽어와 데이터프레임으로 변환한다.외부파일 읽어오기 : pd.read_csv("경로",옵션)header -> 열 이름으로 사용될
1. 데이터 내용 미리보기 데이터프레임의 양이 방대한경우, 앞부분이나 뒷부분을 df.head(n)나 df.tail(n)을 통해 n줄을 미리 볼 수 있다. (Default = 5) 2. 데이터프레임의 데이터 요약 정보 확인하기 데이터프레임의 크기(행,열) df.sha
데이터 분석에서 다루는 데이터의 종류는 매우 다양하다. 그래프를 이용하면 데이터의 구조와 패턴을 파악하기 쉽다.Matplotlib은 파이썬 시각화 도구라고 부를 수 있을 정도로 2D평면 그래프에 관한 다양한 포맷과 기능을 제공한다.기본 사용법 \- matplotli
이전 포스트에서 선그래프와 그래프꾸미기(주석,범례,축라벨 등등), axe객체에 대해 알아 보았다. 그래프에는 선그래프 뿐만 아니라 여러가지 그래프들이 있는데 그 그래프에 대해 알아보자.각 열의 데이터를 선그래프로 구현하는데, 선 그래프와 x축 사이의 공간에 색이 입혀진
Seaborn 라이브러리는 matplotlib을 확장한 파이썬 시각화 도구의 고급 버전이다.seaborn 라이브러리를 임포트할때는 'sns'라는 약칭을 주로 사용한다.\*\*Seaborn 라이브러리에서 제공하는 'titanic' 데이터셋을 사용한다.Seaborn의 lo
Folium 라이브러리 Folium 라이브러리는 지도 위에 시각화할 때 유용한 도구이다. 세계 지도를 기본 지원하고 다양한 스타일의 지도 이미지를 제공하고 있다. 1. 지도 만들기 Folium 라이브러리의 Map()함수를 이용하면 간단하게 지도 객체를 만들 수 있다. 지도 객체를 생성하는 Map()함수의 location 옵션에 [위도,경도] 수치를 입력...
수집한 데이터를 분석에 적합하도록 사전처리(Preprocessing) 하는 방법을 살펴보자
데이터프레임 에서 각 행은 분석 대상이 갖고 있는 모든 속성에 대한 관측값을 뜻한다. 하나의 데이터셋에서 동일한 관측값이 2개 이상 중복되는 경우 동일한 대상이 중복으로 존재하는 것이므로 분석 결과를 왜곡하기 때문에 중복 데이터를 찾아서 삭제해야 한다. 동일한 관측값
외국 데이터를 가져오는 경우, 국내에서 잘 사용하지 않는 도량형 단위가 많다.ex) 마일, 야드, 온스 등등이를 미터,평 그램으로 변환하는 것이 좋다.
데이터 분석 알고리즘에 따라서는 연속 데이터를 그대로 사용하기 보다는 일정한 구간(bin)으로 나눠서 분석하는 것이 효율적인 경우가 있다.가격이나 비용, 효율 등 연속적인 값을 일정한 수준이나 정도를 나타내는 이산적인 값으로 나타내어 구간별 차이를 드러내는 것이다이처럼
각 변수에 들어있는 숫자 데이터의 상대적 크기 차이 때문에 머신러닝 분석결과가 달라질 수 있다.ex) A변수는 0~1000 범위를 갖고, B 변수는 0~1 범위를 갖는다고 할때, 이 경우 상대적으로 큰 숫자 값으 갖는 A변수의 영향이 더 커진다.따라서, 숫자데이터의 상
1-1. 문자열을 Timestamp로 변환1-2. Timestamp를 Peroid로 변환
헷갈려
데이터프레임의 열 순서 변경 : DataFrame 객체재구성한 열 이름의 리스트sorted() 함수에 columns 변수를 입력하면 열 이름이 알파벳 순으로 정렬된다.list.sort()은 list을 그 자리에서 정렬하고 목록 인덱스를 변경하고 None을 반환한다.
시리즈 or 데이터프레임의 데이터 중에서 특정 조건식을 만족하는 원소만 따로 추출하는 개념시리즈 객체에 어떤 조건식 적용\-> 각 원소에 대해 참/거짓 판별하여 불린값으로 구성된 시리즈를 반환데이터프레임의 불린 인덱싱 : DataFrame 객체불린 시리즈ex) 6.
대표적으로 concat(), merge(), join() 등 여러 메소드가 있다.concat() 함수에 데이터프레임을 원소로 갖는 리스트를 전달하면 여러 개의 데이터 프레임을 서로 연결한다.pd.concat() 에 ignore_index=True 옵션을 사용하면 기존의
복잡한 데이터를 어떤 기준에 따라 여러 그룹으로 나눠서 관찰하는 것도 좋은 방법이다.이처럼 특정 기준을 적용하여 몇 개의 그룹으로 분할하여 처리하는것을 그룹 연산이라고한다.
집계 기능을 내장하고 있는 판다스 기본 함수에는 import pandas as pdimport seaborn as snstitanic = sns.load_dataset('titanic')df = titanic.loc\[:,'age','sex','class','fare'
ex)데이터프레임 gdf의 멀티인덱스에서 두 개의 인덱스를 사용하는 방법: loc 인덱서를 사용하고 인자는 투플 형태로 작성한다.이번에는 loc 인덱서 대신 xs 인덱서를 사용한다. 'sex' 인덱스에서 'male'값을 갖는 행을 추출한다. 남성 승객에 한정하여 객실
피벗테이블을 구성하는 4가지 요소(행 인덱스, 열 인덱스, 데이터 값, 데이터 집계 함수)에 적용할 데이터프레임의 열을 각각 지정하여 함수의 인자로 전달한다.🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽🔽집계함수를 여러개 사용