빅데이터 및 인공지능

yun·2024년 7월 30일

💗빅데이터

데이터 종류

정형 데이터

  • 정량적이고 수치로 확인할 수 있거나 구조를 가지고 있는 데이터
    ex) 시간, 시계열 데이터, 금융 데이터, ID/PW, 온도, 카드번호, 수강생 기록 등

비정형 데이터

  • 수치적으로 확인할 수 없거나 구조를 띄지 않는 데이터
    ex) 그림, 소리, 영상 등

반정형 데이터

  • 정형과 반정형 데이터 성격을 모두 다 가지고 있는 데이터
    ex) DICOM 파일(의료용 디지털 영상 및 통신 표준) 그림과 환자 정보가 함께 있음
  • JSON(python에서 튜플 형식의 키와 값으로 데이터를 저장함)
  • XML(태그를 통해 데이터 요소를 저장함)
  • 스마트폰에서 위치 값을 함께 저장하는 사진

데이터 전처리

  • 데이터를 AI에게 학습시키기 전이나 분석하기 전에 적합한 형태로 가공하는 작업
  • 데이터 전처리를 하는 이유!
    - 데이터를 이용한 결과물에 대한 품질을 향상시키기 위해

더 깊게 깊게!

  • 데이터 전처리 종류

    • 데이터 정제
      필요한 데이터만 남도록 필터링 하는 과정
    • 데이터 통합
      일관된 데이터로 만드는 과정
    • 데이터 변화
      크기가 벗어났거나 인코딩이 맞지 않는 데이터를 옳바르게 바꿔준다.
    • 데이터 분할
      전체 데이터를 훈련 데이터 셋과 시험 데이터 셋으로 분할한다.

빅데이터

  • 빅데이터는 다순히 많은 양의 데이터를 의미하는 것이 아니다.
    규모, 속도, 다양성에 대한 특성을 가지고 있음,
    • 규모: 굉장히 방대한 양의 유의미한 데이터
    • 속도: 데이터의 생성 및 처리 속도가 매우 빠름
    • 다양성: 데이터의 종류 뿐만 아니라 형식이 다양하다.
  • 데이터 수집 계획
    • 빅데이터를 구성하기 위해서는 명확한 수집 계획이 필요
    • 데이터 식별 및 선택 -> 데이터 수집/저장 방법 결정 -> 데이터 수집 -> 데이터 저장 -> 데이터 정제 -> 데이터 구조화 -> 데이터 전처리 -> 빅데이터 구성
  • 빅데이터를 활용하기 위한 기술 및 도구
    • 데이터 저장: Hadoop, HDFS, Amazon S3
      - 데이터 처리: Apache Spark, Apache Flink, Apache Storm
    • 데이터 분석: R, Python (pandas, NumPy, SciPy), SAS, SPSS
    • 데이터 시각화: Tableau, Power BI, D3.js
    • 데이터베이스: NoSQL 데이터베이스 (MongoDB, Cassandra, HBase), NewSQL 데이터베이스 (Google Spanner, CockroachDB)

꼭 알아야 하는 개념!

  • 메타데이터
    다른 정보에 대한 정보를 의미. 보통 어떤 정보의 근원에 대한 정보를 담고 있다.
  • 회귀분석
    두 개 이상의 변수 간의 관계를 분석하는 방법을 의미한다.
  • 군집분석
    데이터를 유사한 특성을 가진 군집으로 나누기 위한 분석 방법
    -IoT(Internet of Things, 사물 인터넷)
    인터넷을 통해 다양한 물리적 장치들이 서로 연결되어 데이터를 주고받으며 상호작용하는 시스템을 의미한다.

💗인공지능

Deep learning(딥러닝, DL)

  • 인공지능을 학습시키거나 문제를 해결하기 위한 핵심 알고리즘

  • 문제 해결 핵심 사고방식

    꼭 알아야 하는 개념

    • Newron(뉴런)
      신경망의 기본 단위로 입력을 받아 가중치를 적용하고 활성화 함수를 통해 출력을 생성
    • Layer(층)
      뉴런들이 모여 층으로 보통 입력층(input layer), 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성됨.
    • Weight(가중치)
      뉴런에서 다음 뉴런으로 넘길 때 중요도(가중치)를 적용하기 위한 매개변수
    • Model(모델)
      어떤 AI나 신경망 등 대상체를 의미함
    • ANN(Artificial Neural Network 인공신경망)
      여러 뉴런으로 이루어진 인공 신경망
    • DNN(Deep Neural Network, 심층신경망)
      기존의 ANN의 단점을 해결하기 위한 은닉층을 통해 더 깊은 신경망 구조를 갖는 신경망
    • CNN(Convolution NEural Network 합성곱신경망)
      특징을 추출하고 패턴을 파악하는데 우수한 신경망
    • RNN(Recurrent Neural Network 순회신경망)
      시간적인 특성을 함께 학습하고 적용하기 위한 신경망

Machine Learning(기계학습, ML)

  • 딥러닝의 사고방식으로 기계가 스스로 반복하여 학습하는 것

꼭 알아야하는 개념!

  • 지도학습
    입력 데이터와 정답을 함께 주며 학습시키는 방식
    응용분야: 이미지 분류, 스팸 이메일 탐지, 주식 가격 예측 등
  • 비지도학습
    입력 데이터만 주어지고, 정답이 없는 상태에서 데이터의 패턴이나 구조를 찾는 방식
    응용분야: 구매 패턴에 따른 고객 세분화, 이상 탐지 등
  • 강화학습
    시행착오를 통해 보상을 최대화하기 위해 학습하는 방식
    응용분야: 게임 AI, 로봇 제어, 자율 주행 차량 등
  • 반지도 학습
    일부 데이터에 대해서는 분류와 정답이 있지만 나머지 일부는 없는 상태로 학습
    응용분야: 데이터 라벨링

Artificial Intelligence(인공지는, AI)

딥러닝 알고리즘을 통해 머신러닝이 된 프로그램

꼭 알아야하는 개념!

  • 약인공지능 (Narrow AI or Weak AI)
    특정 작업이나 문제를 해결하는 데 특화된 AI. 일반 지능이 아닌 특정 분야에서만 능력을 발휘하는 인공지능 모델
  • 강인공지능 (General AI or Strong AI)
    인간과 유사한 수준의 지능을 가지고 다양한 작업을 수행할 수 있는 인공지능 모델
  • 대형 언어 모델 (Large Language Model LLM)
    많은 양의 택스트 데이터를 학습하여 언어 이해와 생성 능력을 갖춘 인공지는 모델
    ChatGPT(GPT-3, GPT-4), T5, LLaMA
  • 초인공지능 (Superinatelligent AI)
    인간의 지능을 초월하는 AI. 상상 속의 개념으로 아직은 이론적인 단계에 있다.

AI, ML, DL 관련된 python 라이브러리는 다음 사이트를 참고하면 좋다.
https://www.unite.ai/ko/10-best-python-libraries-for-machine-learning-ai/

0개의 댓글