colab python 라이브러리

HJ Koo·2022년 2월 15일
0

먼저 기본적인
모듈, 패키지, 라이브러리 개념을 정리해보자.

개념

  • 모듈(module) 함수나 변수 또는 클래스를 모아 놓는 파일
  • 패키지(package) 파이썬 모듈을 계층적(디렉터리)으로 구성해 놓은 단위
  • 라이브러리(library) 이미 구현된 유용한 기능을 가진 모음(패키지)
    • 표준 라이브러리(standard library) 기본적으로 파이썬에 내장되어 있는 라이브러리
    • 외부 라이브러리(External library, Third party library) 추가해서 설치해 사용할 수 있는 라이브러리

라이브러리 불러오는 방법

  • import . . . : 라이브러리 불러오기
  • from . . . import . . . : 라이브러리 내에서 특정 모듈, 함수, 변수만 불러오기
  • import . . . as . . . : 라이브러리를 불러오되 다른 이름으로 부르기
  • from . . . import * : 라이브러리 내에 모든 모듈, 함수, 변수를 불러오기
    마지막 방법은 어떤 대상을 불러오는지 모호하기 때문에 권장하지 않는다.

라이브러리

많이 쓰이는 대표적인 [표준 라이브러리]에는 math, random, collections, pickle, sys, os 가 있다.

  • 표준 라이브러리(standard library)
    • math

      math.ceil() : 주어진 숫자보다 같거나 크면서 작은 정수를 반환한다
      math.floor() : 주어진 숫자보다 같거나 작으면서 가장 큰 정수를 반환한다.
      math.nan : nan은 “Not a number”의 약자. 숫자가 아닌 대상을 숫자 데이터 형식으로 변환할 때 생긴다. 데이터를 다룰 때 흔히 볼 수 있다.
      이 외로도 로그, 삼각 함수 등 수학과 관련된 다양한 기능을 갖고 있다.

    • random

      random.random() : 0부터 1사이의 숫자를 랜덤으로 반환한다.
      random.randint() : 주어진 범위에서 정수를 하나 뽑는다.
      random.choice() : 리스트 등을 입력으로 받아서 하나를 뽑는다.

    • collections

      collection.Counter : 카운터 클래스, 어떤 요소가 몇번 나왔는지 딕셔너리 형태로 반환한다.
      collections.defaultdict : 기본값이 있는 딕셔너리
      counter.most_common() : 가장 자주 나온 순서대로 튜를로 쌍을 이루 리스트로 묶어 나온다.

    • pickle

      파이썬 객체를 파일로 저장하는 간단한 방식이다. 파일은 바이너리 형식으로 저장된다.

    • sys, os

      컴퓨터 시스템에 접근할 수 있는 기능을 제공하는 라이브러리다.
      sys.path : 명령어를 찾는 경로의 목록과 순서를 지정하는 변수이다.
      os.environ : 시스템의 환경변수를 담고 있는 변수이다.
      os.getcwd() : 현재 파일의 경로를 반환한다.
      os.listdir() : 현재 경로의 파일 목록을 보여준다.

  • 외부 라이브러리(External library, Third party library)
    외부 라이브러리는 그 종류가 너무 많다. 그 중 기본이 되는 numpy!
    • numpy
!pip install numpy → colab에서는 기본적으로 제공하기에 이미 깔려있다는 문구가 나온다.

numpy는 행렬과 수치 해석 관련 데이터 타입과 함수들을 제공한다. 데이터 분석에서 행렬 및 수치 해석 기능은 필수적이다. numpy는 데이터 분석을 하며 직접 사용하기도 하지만 다른 많은 외부 라이브러리들이 의존하는 라이브러리이기도 하다. 즉, 다른 라이브러리들의 기본이 되는 라이브러리인 셈이다. pandas, scikit-learn, pytorch 등 데이터 분석에서 필수적인 라이브러리들이 모두 numpy에 기반하고 있다. 따라서 numpy를 직접 사용하지 않더라도 numpy의 개념에 대해 이해하는 것은 필수적이다.
numpy.array(): 다차원 행렬(ndarray)을 만든다.
numpy.arange(): range와 비슷한 방식으로 숫자를 나열하여 다차원 행렬(ndarray)을 만든다.
다차원 행렬(ndarray)은 numpy의 핵심 데이터 구조(data structure)이며 많은 라이브러리들이 numpy의 다차원 행렬을 사용한다.
ndarray.shape: 다차원 행렬의 차원수를 보여준다.
ndarray.dtype: 다차원 행렬이 들고 있는 값의 데이터 타입을 보여준다.


python package index(PyPI)

외부 라이브러리를 등록하고 다운받을 수 있는 공식 저장소

pip, poetry

외부 라이브러리를 설치하고 관리하는 파이썬의 패키지 매니저(package mamager)

profile
날마다 꾸준히 성장하는 Software Engineer

0개의 댓글

Powered by GraphCDN, the GraphQL CDN