2024-07-16

강대·2024년 7월 16일
post-thumbnail

안녕하세요
그래도 어제보단 안 피곤한 강대입니다 !!
학습주차 2일차 TIL 시작해볼게요





♾️ 통계학 - 도수분포표


29 30 49 21 39 38 15 39 48 41
21 33 26 18 19 29 24 47 47 20
.
.
.
<청소년들의 일주일 인터넷 사용 시간/ 아무튼 총 50개>

위는 청소년들이 일주일동안 인터넷을 사용하는 시간을 나열한 자료입니다 !
= 50개의 숫자 자료 = 변량
이를 계급이나 상대도수, 계급값 등으로 나타내면 도수분포표를 만들 수 있는데요



이거 사실 중학교 수학에 나온 내용이랍니다 하나도 안 믿겨.

계급 : 50개의 자료를 간격으로 나눠 나타낸 범주
계급 간격 : 계급에 해당되는 최솟값 ~ 최댓값

최소 계급간격은 범위를 계급의 수로 나눈 값으로 나누게 됩니다.
그 전에 범위란 
|
최대자룟값-최소자룟값
ex) 69 - 10 = 59
|
계급의 수는 Sturges 방법을 사용해서 자룟값이 50개 이하면 계급의 수를 7로 지정해줍니다.
ex) 59 / 7 = 8.4(반올림) = 편의상 9로 조정
기본단위가 1이므로 제 1계급의 하한을 10-0.5=9.5로 조정
|
0.5를 빼는 이유:
ex) 기본 단위가 1인 경우, 각 계급의 구간이 [10, 11), [11, 12), ... 이런 식으로 나눠야한다.
이때 10이라는 값은 정확히 10부터 11까지의 범위에 포함되어야 하기 때문에,
구간의 시작점을 9.5로 설정하면 9.5부터 10.5까지의 범위가 첫 번째 계급 구간이 된다.
이렇게 하면 각 구간의 경계가 명확해지고, 중복되거나 빠지는 데이터가 없이 모든 값을 포함할 수 있습니다.

계급값 : 각 계급의 중앙값
도수 : 해당 계급의 갯수

누적은 말그대로 누적이라 이렇게만 알아도 충분할 것 같네요 !



|

이해하는데 조금 걸렸네요 저는....
그러다 발견한 참고영상

도수분포표, 히스토그램 도수분포다각형
중학교 수학이라 그런지 이해가 쉽게 되더라구요 ^^
https://youtu.be/dwSZZ8jOuzs?si=r91-HEDGCnlElSt6

<줄기와 잎 그림>
https://youtu.be/7Klf0khPMnQ?si=adICkjpVw_oZdu3e
이어서 보시면 더 이해하기 쉬우실 거예요 !!





♾️ 데이터 수집 방법



이제 다음주면 최종프로젝트를 앞두고 있어서 튜터님께서
주제 선정 시 도움되도록 데이터를 수집하는 방법에 대해 특강을 진행했습니다 !



✓ API 통신이란?
Application Programming Interface

  • 프로그램과 프로그램 사이의 데이터를 연결해주는 매개채
    = 통신의 방식

|
크롤링의 경우, HTML 구조를 이해하고 법적이슈(합법인가?)를 조심해야하지만,
크롤링 대비 API는 KEY 값(통신키)을 기반으로 간단한 호출구문을 통해
데이터를 송신받을 수 있다 !
|
Public API : 누구나 사용가능한 공개 API = 일반인 대상
|
프로토콜(Protocal) : 규칙에 맞게 데이터를 통신, 수신하는 양식
= 마치라잌 세계적인 약속




HTTP API : HTTP를 이용해 프로그램끼리 소통하는 API
ex) 흔히 보는 OPEN API, facebook API, kakao API 등의 대부분 API는 HTTP라는 통신 규칙으로 소통하는 API
|
REST = HTTP를 잘 활용하기 위한 원칙
REST API = 이 원칙을 준수해 만든 API
HTTP 안에 REST가 있음

파이썬에서 requests 라이브러리 사용
주요 함수 4가지

- GET : 요청, 값 가져오기
- POST : 생성, 액션
- PUT : 수정, 덮어씌우기
- DELETE : 삭제(당연히 실현 안됨)
   
ex)
pip install requests

## 라이브러리 임포트
import requests
import pprint
import json
import pandas as pd

# 서울시 열린광장에서 복사해온 KEY 값과 URL 을 기입합니다.
# url 중 xml 부분을 json 으로 변경 
url = 'http://openapi.seoul.go.kr:8088/인증키입력/json/ServiceInternetShopInfo/1/300/'
   
>> 마지막 1/300은 크롤링 딕셔너리 갯수로 숫자를 늘리면 pandas row도 늘어남







오늘의 하루도 어찌저찌 끝났는데요 !!
내일 또또 열심히 해볼게요 !!
다들 오늘도 수고 많으셨습니다 😇🍀🍀

profile
걍 달려

0개의 댓글