수업내용 정리
from datascience import *
Table 함수를 사용하기 위해서 datascience 모듈 사용
csv = Table.read_table('[파일이름].csv')
csv.show(2)
csv = csv.drop('[column 이름]')
csv.sort('[column 이름]', descending=True)
지정한 열 기준으로 정렬을 해준다.
csv.num_rows
csv.num_columns
csv.labels
csv.relabeled('[before column name]', '[after column name]')
csv.take(1)
행의 데이터를 가져옴 ( 범위를 지정하거나 1,2,3,4 와 같이 작성해서 가져올 수도 있음 )
csv.exclude(index)
행을 제거해준다.
csv = Table().with_column('[column name]', array)
or
csv = Table().with_columns(
'[column name]', array,
'[column name]', array,
...
)
csv.with_row([ data, ..., data ]) # 행 추가
csv.set_format('[column name]', PercentFormatter)
# 퍼센트값으로 변함 ( %도 붙어서 출력됨 )
csv.group('[column name]')
csv.bin('[column name]', bins=[bins(range array)])
csv = csv.where('[column 이름]', '[column data name]')
csv.where('[column name]', are.above(value))
are.equal_to
.below
.not_equal_to
...
import numpy as np
arr = make_array(list or , , , or np.arange some~)
np.average(array)
np.sum(array)
np.mean([array])
np.median([array])
np.count_nonzero(array == 'John')
np.random.choice(array)
np.arange(7)
# array([0, 1, 2, 3, 4, 5, 6])
np.arange(5, 11)
# array([ 5, 6, 7, 8, 9, 10])
np.arange(0, 20, 2)
# array([ 0, 2, 4, 6, 8, 10, 12, 14, 16, 18])
np.arange(0, 1, 0.1)
# array([ 0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])
csv.column('[column name]')
결과값으로 해당 열의 데이터들을 array로 가져온다.
csv.row(index)
csv.select('[column name]', ... , '[column name]')
column index로도 가져올 수 있다.
%matplotlib inline
import matplotlib.pyplot as plots
plots.style.use('fivethirtyeight')
plots.rcParams["patch.force_edgecolor"] = True
csv.plot('[column name] (x)', '[column name] (y)')
plots.title('[title]')
plots.ylim(min, max)
csv.scatter('[column name] (x)', '[column name] (y)')
![](https://velog.velcdn.com/images/723poil/post/682435cb-1787-4bc5-b624-d87dff46330e/image.png)
### Bar Charts
+ bar
```python
csv.bar('[column name]')
csv.barh('[column name]')
csv.hist('[column name]', bins=[bins], unit='[unit name]')
csv.apply([method], [parameter], ...)
csv.join('[csv column]', '[other table]', '[other column]')
[csv column] = [other column] 로 테이블을 합친다.
sample
sample_proportions
sample_proportions(횟수, 확률 array)