⭐깨달은것⭐⭐
⭐잘못한것⭐
- 데이터 전처리와 시각화는 왜 필요한가?
: 데이터는 설득을 하기 위해서 필요
: 설득을 잘 하기 위해 데이터를 잘 전달해야함
: 시각화가 잘 전달하기 위한 방법 중 하나
-> 목적이 가장 중요! 데이터를 통해 무엇을 해야할지 고민해야함
=> 시각화를 해야 쉽게 정보를 볼 수 있음
목적성을 갖는게 가장 중요- 💛가장 중요! 어떤 목적을 가지고 데이터를 분석할 것인가를 먼저 정의해라.
- 데이터 전처리 = 내가 원하는 데이터를 보기 위해 하는 모든 활동
=> 데이터 전달의 목적성을 지녀야 효과가 증가함- pandas - excel과 비슷
대용량 데이터를 처리하는데 강함 ,
자동화와 프로그래밍 기능,
복잡한 데이터 처리 및 분석도 가능,
확장성과 유연성,
버전 관리- pandas 구조
=>> 하나의 컬럼 = 시리즈 , 컬럼 2개 이상 있는 형태 = 데이터 프레임으로 접근하면 쉬움
- pandas 기초
- 데이터 전처리 - 컬럼
- data= dataframe
- box plot: 중앙값은 평균값이 아니라 진짜 중간 값임.
구간 벗어나면 이상치
-> 데이터의 분포, 이상치를 한번에 알 수 있어 좋음
- 연속형 변수들은 숫자만 해당됨
- 상관관계라고 인과관계가 있는건 아님
3주차 필기
1강
2강
3강
4강
4주차 필기
1강

세션 필기
series = 열
ex)
ages = pd.Series([25, 30, 35, 28, 32]) ----> series : 매서드 pd가 클래스
print("Series 예제:")
print(ages)
df=pd.DataFrame(data) > 판다스 라이브러리의 dataframe 메소드를 가지고 data에 있는 값을 데이터프레임으로 만들어주고 df라는 변수에 할당한것.
dataframe에는 딕셔너리 형태가 가장 적합하나 다른 형태도 가능은함
메서드는 뒤에 무조건 괄호. ex)dmsk()
-> 괄호 없으면 속성
메서드 = 동사, 특성, 값 할당 불가
속성 = 명사 , 기능, 값 할당 가능, 값 읽어올 수 있음
ex) column , index--> 속성
-->매서드
가장 중요!! ⭐🔥 매우 중요한 식!
df = pd.read_csv('파일경로/파일명.csv')
결측치 처리에 따라 예측값이 달라짐
0이면 false 1이면 트루
loc만 끝에 포함
iloc는 끝에 안 포함
or기호 : |
isin으로 in을 표현 !