TIL 첫 작성이다. 이전에 공부한 내용들부터 적을까 했는데 그건 조금 더 생각해보기로 하고 오늘자 TIL부터 정리해보려고 한다.
한 번에 하나의 변수 확인 | 한 번에 여러 개의 변수 확인 | |
---|---|---|
그래픽화 X | 단변량 비그래픽 | 다변량 비그래픽 |
그래픽화 O | 단변량 그래픽 | 다변량 그래픽 |
1) 원본 데이터의 관찰 : 각 항목과 속성값 을 자세히 관찰할 수 있지만 큰 그림을 놓치기 쉬움
2) 요약 통계량 : 숲은 볼 수 있지만 나무는 보지 못할 수 있음
3) 적절한 시각화 사용 : 시각화를 통해 단점 보완
→ 탐색적 데이터 분석을 위해 원본 데이터, 요약 통계량, 시각화를 상호보완적, 순환적으로 사용하는 것이 중요!
1) 전체적인 데이터 분석
2) 데이터의 개별 속성값 관찰
3) 속성 간의 관계분석
이상치 : 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값
결측치 : 관측되어야 할 값을 얻지 못한 데이터(e.g. N/A, NAN)
이상치 기준 정하기
이상치 제거 방법
무작위 결측(MAR) : 특정 변수와 관련되어 누락됐지만, 변수들의 상관관계를 알 수 없는 경우
e.g.) 만약 다수의 여성이 체중을 설문조사에서 응답하지 않았다고 했을 때, 성별의 영향으로 체중에 대해 응답을 하지 않았지만 성별과 체중은 아무런 관련이 없기 때문에 → 무작위 결측에 해당
비무작위 결측(NMAR) : 누락된 변수의 값이 누락된 이유와 관련이 있는 경우
e.g.) 만약 체중이 무거운 사람들이 자신의 체중을 설문조사에 응답하지 않았다고 했을 때, 체중에 대한 응답이 누락된 것이 체중 자체에 영향을 받았기 때문에 → 비무작위 결측에 해당
for i in range(1, 21):
if int(str(i)[-1]) in [3,6,9]:
print("짝")
else:
print(i)
for i in range(2, 10):
print(f'{i}단 시작!')
for j in range(1, 10):
print(f'{i} X {j} = {i*j}')
type()
을 사용하면 자료형 쉽게 확인 가능
>>> type(100000000) # 정수
<class 'int'>
>>> type(2.8) # 부동소수점수
<type 'float'>
>>> type(3+4j) # 복소수
<type 'complex'>
>>> type("Love your Enemies, for they tell you your Faults.")
<class 'str'>
>>> type(['love', 'enemy', 'fault'])
<class 'list'>
>>> type(('love', 'enemy', 'fault'))
<class 'tuple'>
>>> type({'one': 1, 'two': 2, 'three': 3})
<class 'dict'>
>>> type(False)
<class 'bool'>
>>> type(3 >= 1)
<class 'bool'>
>>> type(True == 'True')
<class 'bool'>
>>> fruits = {'apple', 'banana', 'orange'}
이상 첫 TIL을 마친다.