빅데이터와 AI

Ryu Honggyu·2024년 7월 30일
0

컴퓨터 사이언스

목록 보기
4/6
post-thumbnail

빅데이터

데이터의 종류

데이터 종류설명
정형 데이터표와 같이 정량적이고 수치를 확인할 수 있는 데이터
비정형 데이터이미지, 영상 같이 수치를 확인할 수 없거나 구조가 없는 데이터
반정형 데이터두 가지 요소가 합쳐져 있는 데이터
시계열 데이터일정 시간 동안 모은 데이터

데이터 가공

단계설명
빅데이터방대한 규모, 빠른 생성 & 처리 속도, 다양한 형식의 유의미한 데이터
데이터 수집 계획데이터를 체계적으로 수집하고 가공하기 위한 과정
데이터 식별 & 선택필요한 데이터를 식별하고 선택
데이터 수집 & 저장 방법 결정데이터를 수집하고 저장하는 방법을 결정
데이터 수집데이터를 실제로 수집
데이터 저장수집된 데이터를 저장
데이터 정제데이터를 깨끗하게 정리
데이터 구조화데이터를 구조화하여 체계적으로 정리
데이터 전처리데이터를 AI 학습에 적합한 형태로 가공

관련 용어

용어설명
메타 데이터다른 데이터와 연관되어 있는 데이터 (예: 사진이 찍힌 시간)
회귀 분석두 개 이상의 변수 간 관계를 분석하는 방법
군집 분석데이터를 특성에 따라 여러 집합으로 분류하는 분석 방법
IOT사물인터넷, 인터넷에 연결된 물리적 장치들의 네트워크
유비쿼터스언제 어디서나 존재하는 컴퓨팅 환경
로드밸런싱과부하 방지를 위해 여러 서버에 트래픽을 분산
데이터 레이크원본 데이터를 그대로 저장해 놓는 시스템
데이터 거버넌스데이터의 신뢰성, 사용성, 보안성을 보장하기 위한 모든 작업
데이터 웨어하우스데이터를 저장, 분석하는 시스템

딥 러닝 (Deep Learning)

용어설명
뉴런신경망의 기본 단위, 입력을 받아 가중치와 함께 처리하여 출력
레이어뉴런이 모여 있는 층
입력층외부에서 받은 데이터를 신경망의 첫 번째 층으로 전달
은닉층입력층에서 받은 데이터를 처리하고 변환
출력층은닉층에서 처리된 데이터를 최종 결과로 변환
웨이트뉴런에서 다음 뉴런으로 넘어갈 때의 가중치
모델학습된 파라미터와 구조를 포함하여 특정 작업을 수행할 수 있도록 훈련된 시스템
ANN인공 신경망, 입력 데이터와 가중치를 기반으로 출력을 계산
DNN심층 신경망, 여러 개의 은닉층을 가진 인공 신경망
CNN합성곱 신경망, 이미지나 영상 데이터의 특징을 추출하고 학습하는 데 사용
RNN순환 신경망, 시간적인 특성을 학습하는 신경망
다층 퍼셉트론층이 여러 개로 구성된 신경망
역전파 알고리즘신경망의 가중치를 업데이트해 오차를 최소화하는 알고리즘

머신 러닝 (Machine Learning)

용어설명
지도학습입력 데이터와 정답을 함께 제공해 학습
비지도학습정답이 없는 상태에서 입력 데이터만으로 학습
강화학습시행착오를 통해 보상을 최대화하는 학습 방식
반지도학습일부는 정답 없이, 일부는 정답을 제공한 상태로 학습
과적합과하게 학습한 상태로, 새로운 데이터에 대한 일반화 성능이 떨어짐

AI (Artificial Intelligence)

용어설명
약인공지능특정 작업에 맞추어 설계된 AI
강인공지능인간과 유사한 수준의 지능을 가진 AI
LLM대형 언어 모델
AI 관련 파이썬 라이브러리AI 관련 파이썬 라이브러리

데이터 가공의 단계 상세 설명

단계설명
데이터 수집다양한 소스에서 데이터를 수집
데이터 저장데이터를 적절한 형식으로 저장
데이터 정제중복, 오류, 결측 값을 제거하여 데이터를 정리
데이터 구조화데이터를 표, 그래프 등 구조화된 형식으로 변환
데이터 전처리데이터를 분석 및 학습에 적합한 형태로 가공

각 단계는 데이터의 품질과 분석 결과의 정확성에 중요한 역할을 합니다. 특히, 데이터 정제와 전처리는 모델의 성능에 큰 영향을 미칩니다.

profile
알고리즘 & 웹 & CS & AI

0개의 댓글