💗빅데이터
데이터 종류
정형 데이터
- 정량적이고 수치로 확인할 수 있거나 구조를 가지고 있는 데이터
ex) 시간, 시계열 데이터, 금융 데이터, ID/PW, 온도, 카드번호, 수강생 기록 등
비정형 데이터
- 수치적으로 확인할 수 없거나 구조를 띄지 않는 데이터
ex) 그림, 소리, 영상 등
반정형 데이터
- 정형과 반정형 데이터 성격을 모두 다 가지고 있는 데이터
ex) DICOM 파일(의료용 디지털 영상 및 통신 표준) 그림과 환자 정보가 함께 있음
- JSON(python에서 튜플 형식의 키와 값으로 데이터를 저장함)
- XML(태그를 통해 데이터 요소를 저장함)
- 스마트폰에서 위치 값을 함께 저장하는 사진
데이터 전처리
- 데이터를 AI에게 학습시키기 전이나 분석하기 전에 적합한 형태로 가공하는 작업
- 데이터 전처리를 하는 이유!
- 데이터를 이용한 결과물에 대한 품질을 향상시키기 위해
더 깊게 깊게!
-
데이터 전처리 종류
- 데이터 정제
필요한 데이터만 남도록 필터링 하는 과정
- 데이터 통합
일관된 데이터로 만드는 과정
- 데이터 변화
크기가 벗어났거나 인코딩이 맞지 않는 데이터를 옳바르게 바꿔준다.
- 데이터 분할
전체 데이터를 훈련 데이터 셋과 시험 데이터 셋으로 분할한다.
빅데이터
- 빅데이터는 다순히 많은 양의 데이터를 의미하는 것이 아니다.
규모, 속도, 다양성에 대한 특성을 가지고 있음,
- 규모: 굉장히 방대한 양의 유의미한 데이터
- 속도: 데이터의 생성 및 처리 속도가 매우 빠름
- 다양성: 데이터의 종류 뿐만 아니라 형식이 다양하다.
- 데이터 수집 계획
- 빅데이터를 구성하기 위해서는 명확한 수집 계획이 필요
- 데이터 식별 및 선택 -> 데이터 수집/저장 방법 결정 -> 데이터 수집 -> 데이터 저장 -> 데이터 정제 -> 데이터 구조화 -> 데이터 전처리 -> 빅데이터 구성
- 빅데이터를 활용하기 위한 기술 및 도구
- 데이터 저장: Hadoop, HDFS, Amazon S3
- 데이터 처리: Apache Spark, Apache Flink, Apache Storm
- 데이터 분석: R, Python (pandas, NumPy, SciPy), SAS, SPSS
- 데이터 시각화: Tableau, Power BI, D3.js
- 데이터베이스: NoSQL 데이터베이스 (MongoDB, Cassandra, HBase), NewSQL 데이터베이스 (Google Spanner, CockroachDB)
꼭 알아야 하는 개념!
- 메타데이터
다른 정보에 대한 정보를 의미. 보통 어떤 정보의 근원에 대한 정보를 담고 있다.
- 회귀분석
두 개 이상의 변수 간의 관계를 분석하는 방법을 의미한다.
- 군집분석
데이터를 유사한 특성을 가진 군집으로 나누기 위한 분석 방법
-IoT(Internet of Things, 사물 인터넷)
인터넷을 통해 다양한 물리적 장치들이 서로 연결되어 데이터를 주고받으며 상호작용하는 시스템을 의미한다.
💗인공지능
Deep learning(딥러닝, DL)
Machine Learning(기계학습, ML)
- 딥러닝의 사고방식으로 기계가 스스로 반복하여 학습하는 것
꼭 알아야하는 개념!
- 지도학습
입력 데이터와 정답을 함께 주며 학습시키는 방식
응용분야: 이미지 분류, 스팸 이메일 탐지, 주식 가격 예측 등
- 비지도학습
입력 데이터만 주어지고, 정답이 없는 상태에서 데이터의 패턴이나 구조를 찾는 방식
응용분야: 구매 패턴에 따른 고객 세분화, 이상 탐지 등
- 강화학습
시행착오를 통해 보상을 최대화하기 위해 학습하는 방식
응용분야: 게임 AI, 로봇 제어, 자율 주행 차량 등
- 반지도 학습
일부 데이터에 대해서는 분류와 정답이 있지만 나머지 일부는 없는 상태로 학습
응용분야: 데이터 라벨링
Artificial Intelligence(인공지는, AI)
딥러닝 알고리즘을 통해 머신러닝이 된 프로그램
꼭 알아야하는 개념!
- 약인공지능 (Narrow AI or Weak AI)
특정 작업이나 문제를 해결하는 데 특화된 AI. 일반 지능이 아닌 특정 분야에서만 능력을 발휘하는 인공지능 모델
- 강인공지능 (General AI or Strong AI)
인간과 유사한 수준의 지능을 가지고 다양한 작업을 수행할 수 있는 인공지능 모델
- 대형 언어 모델 (Large Language Model LLM)
많은 양의 택스트 데이터를 학습하여 언어 이해와 생성 능력을 갖춘 인공지는 모델
ChatGPT(GPT-3, GPT-4), T5, LLaMA
- 초인공지능 (Superinatelligent AI)
인간의 지능을 초월하는 AI. 상상 속의 개념으로 아직은 이론적인 단계에 있다.
AI, ML, DL 관련된 python 라이브러리는 다음 사이트를 참고하면 좋다.
https://www.unite.ai/ko/10-best-python-libraries-for-machine-learning-ai/