[colab] datascience 라이브러리 사용하기

이상협·2022년 10월 19일
0

수업내용 정리

🎈Tables

from datascience import *

Table 함수를 사용하기 위해서 datascience 모듈 사용

  • CSV파일 불러오기
csv = Table.read_table('[파일이름].csv')
  • 테이블 보기
csv.show(2)
  • column drop
csv = csv.drop('[column 이름]')
  • Table 정렬
csv.sort('[column 이름]', descending=True)

지정한 열 기준으로 정렬을 해준다.

  • 행 개수
csv.num_rows
  • 열 개수
csv.num_columns
  • 열 이름 나열
csv.labels
  • 열 이름 재설정
csv.relabeled('[before column name]', '[after column name]')
  • take
csv.take(1)

행의 데이터를 가져옴 ( 범위를 지정하거나 1,2,3,4 와 같이 작성해서 가져올 수도 있음 )

  • exclude
csv.exclude(index)

행을 제거해준다.

Create Table

csv = Table().with_column('[column name]', array)

or

csv = Table().with_columns(
	'[column name]', array,
    '[column name]', array,
    ...
)


csv.with_row([ data, ..., data ]) # 행 추가

set_format

csv.set_format('[column name]', PercentFormatter)
# 퍼센트값으로 변함 ( %도 붙어서 출력됨 )

group

csv.group('[column name]')


bins

csv.bin('[column name]', bins=[bins(range array)])


🎈Where

csv = csv.where('[column 이름]', '[column data name]')

are (datascience)

csv.where('[column name]', are.above(value))
                           are.equal_to
                              .below
                              .not_equal_to
                              ...


🎈Arrays (numpy)

import numpy as np

arr = make_array(list or , , , or np.arange some~)
  • 평균
np.average(array)
np.sum(array)
  • 산술평균
np.mean([array])
  • 중앙값
np.median([array])
  • count_nonzero
np.count_nonzero(array == 'John')

Random

np.random.choice(array)

Ranges

np.arange(7)
# array([0, 1, 2, 3, 4, 5, 6])

np.arange(5, 11)
# array([ 5,  6,  7,  8,  9, 10])

np.arange(0, 20, 2)
# array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

np.arange(0, 1, 0.1)
# array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9])

🎈Column

csv.column('[column name]')

결과값으로 해당 열의 데이터들을 array로 가져온다.


🎈Row

csv.row(index)


🎈Select

csv.select('[column name]', ... , '[column name]')

column index로도 가져올 수 있다.


🎈Matplotlib

%matplotlib inline
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')
plots.rcParams["patch.force_edgecolor"] = True
  • plot
csv.plot('[column name] (x)', '[column name] (y)')


  • title
plots.title('[title]')

  • ylim
plots.ylim(min, max)

  • scatter
csv.scatter('[column name] (x)', '[column name] (y)')
![](https://velog.velcdn.com/images/723poil/post/682435cb-1787-4bc5-b624-d87dff46330e/image.png)


### Bar Charts
+ bar
```python
csv.bar('[column name]')

  • barh
csv.barh('[column name]')

  • hist
csv.hist('[column name]', bins=[bins], unit='[unit name]')



  • xticks

🎈Apply

csv.apply([method], [parameter], ...)


🎈Pivot Tables



🎈Joins

csv.join('[csv column]', '[other table]', '[other column]')

[csv column] = [other column] 로 테이블을 합친다.


🎈Maps



🎈Distributions

  • sample

  • sample_proportions

sample_proportions(횟수, 확률 array)

0개의 댓글