[2025 동계 모각코] 1주차 결과

성채원·2025년 1월 8일
0

개발환경 구축하기

데이터를 보다 편리하게 분석하기 위해선 분석환경을 구축하여야 한다.
해당 교재에서 사용할 프레임워크인 아나콘다를 설치하겠다.

https://www.anaconda.com/download
아나콘다 다운로드 페이지

  1. 이메일 주소 입력 창에 메일을 입력한 후 submit 한다.

  2. 메일함을 확인 후, 다운로드 버튼을 누른다.

  3. 각자의 OS에 맞게 다운로드를 실행한다. (필자는 Windows로 다운)

  4. 다운로드 파일을 열면 해당 창이뜨는데 Next 버튼을 계속 누르면 된다.

  5. 중간에 이 창이 뜨는데, 이 때 두 번째 항목은 체크를 해도 안 해도 좋다. cmd에서도 아나콘다를 실행한다는 것으로 필자는 편의성을 위해 체크하였다.

중간에 이런식으로 다운로드 현황이 뜰텐데 속도가 굉장히 느리니 그냥 열심히 기다리자. 필자는 컴퓨터가 이상한 줄 알고 껐다 켰다가 제대로 다운도 안 받아져서 애먹었다.

https://blog.naver.com/codeitofficial/223497697349

사진 출처

그러면 이렇게 anaconda 전용 powershell이 열린다!

주피터 노트북 설치하기

주피터 노트북은 UI로 파이썬 코드를 실행하게 해주는 도구다. 코드, 마크다운 형태의 문서, 이미지 등을 손쉽게 공유할 수 있다.


이렇게 'conda activate pybook' 명령어로 가상환경을 설정한 후, 'pip install jupyter' 명령어를 통해 주피터 노트북을 설치한다.
설치를 완료하면 'jupyter notebook' 명령어를 통해 주피터 노트북을 실행한다.
위의 명령어를 입력한 후 기다리면 해당 창이 뜬다. 이 창이 주피터 노트북을 실행한 것이다.

라이브러리 설치하기

데이터 분석에 필요한 파이썬 라이브러리를 설치해보겠다. 라이브러리를 선택하는 방법은 주피터 노트북 설치하는 방법과 비슷하게 'pip install' 옆에 설치하고 싶은 라이브러리 이름을 차례로 입력한다.
ex) 'pip install pandas numpy matplotlib'

판다스의 설치 및 활용

  • 파이썬에서 가장 널리 사용되는 데이터 분석 라이브러리
  • '데이터 프레임'이라는 자료구조 사용
  • 데이터 프레임은 엑셀의 스프레드시트와 유사한 형태로 파이썬으로 데이터를 쉽게 처리할 수 있도록 함

    여기서 코드를 입력하고 Shift + Enter 키를 누르면 실행된다.

    이런식으로 코드를 짜주면 된다! 여기서 파이썬 문법에 대해 설명하자면,
  • zip: 두 데이터를 Map 형태...?처럼 하나씩 짝을 지어주는 것이다. 이제 그걸 list 함수를 사용하여 형태를 변환했으니까 [(Bob, 968), (Jessica, 155), (Mary, 77), (John, 578), (Mel, 973)] 뭐 이런식으로..
  • DataFrame: 위에서 설명했듯이 엑셀의 스프레드시트와 유사한 형태로 표(?)를 만들어주는 것..? pd.DataFrame(data, index, columns, dtype, copy) 이런식으로 사용하면 된다.
  • head(): 데이터 프레임의 상단 부분을 출력
  • df.dtypes: 데이터 프레임의 열 타입 정보를 출력
  • df.index: 데이터 프레임의 인덱스 정보
  • df.columns: 데이터 프레임 열의 형태 정보
  • df['Names]: 데이터 프레임에서 하나의 열 선택
  • df[0:3]: 0~3번째 인덱스 선택
  • df[df['Births']>100]: Births 열이 100보다 큰 데이터 선택
  • df.mean(): 평균값 계산

넘파이의 설치 및 활용

  • 수치 계산을 위해 만들어진 파이썬 라이브러리
  • 배열 개념으로 변수를 사용하여 벡터, 행렬 등의 연산을 쉽고 빠르게 수행하도록 지원
  • 넘파이 배열은 한 데이터 타입으로 통일된다!!
a = np.array( [ 1, 2.3, 3, 4 ] )

출력결과

array([1. , 2.3, 3. , 4. ])


위의 코드는 0~14까지의 숫자를 (3,5)차원(3행 5열로 생각하면 쉽다)으로 생성한 것을 확인할 수 있다.

  • arange[start, stop): start부터 stop 이전의 수까지 array 형태로 반환
  • reshape(n, m): n행 m열 배열로 반환
  • dtype(): 배열이 어떤 타입인지 알려주는 함수

matplotlib의 설치 및 활용

  • 데이터를 시각화해주는 가장 기본적인 라이브러리
%matplotlib inline
import matplotlib.pyplot as plt

matplotlib를 사용하려면 위 코드를 미리 실행해두어야한다!!

  • plt.bar(x, y): 막대 그래프 객체 생성
  • label(): x, y축 이름 설정
  • title(): 그래프 전체 제목
  • show(): 그래프 출력

0개의 댓글