데이터 종류 | 설명 |
---|---|
정형 데이터 | 표와 같이 정량적이고 수치를 확인할 수 있는 데이터 |
비정형 데이터 | 이미지, 영상 같이 수치를 확인할 수 없거나 구조가 없는 데이터 |
반정형 데이터 | 두 가지 요소가 합쳐져 있는 데이터 |
시계열 데이터 | 일정 시간 동안 모은 데이터 |
단계 | 설명 |
---|---|
빅데이터 | 방대한 규모, 빠른 생성 & 처리 속도, 다양한 형식의 유의미한 데이터 |
데이터 수집 계획 | 데이터를 체계적으로 수집하고 가공하기 위한 과정 |
데이터 식별 & 선택 | 필요한 데이터를 식별하고 선택 |
데이터 수집 & 저장 방법 결정 | 데이터를 수집하고 저장하는 방법을 결정 |
데이터 수집 | 데이터를 실제로 수집 |
데이터 저장 | 수집된 데이터를 저장 |
데이터 정제 | 데이터를 깨끗하게 정리 |
데이터 구조화 | 데이터를 구조화하여 체계적으로 정리 |
데이터 전처리 | 데이터를 AI 학습에 적합한 형태로 가공 |
용어 | 설명 |
---|---|
메타 데이터 | 다른 데이터와 연관되어 있는 데이터 (예: 사진이 찍힌 시간) |
회귀 분석 | 두 개 이상의 변수 간 관계를 분석하는 방법 |
군집 분석 | 데이터를 특성에 따라 여러 집합으로 분류하는 분석 방법 |
IOT | 사물인터넷, 인터넷에 연결된 물리적 장치들의 네트워크 |
유비쿼터스 | 언제 어디서나 존재하는 컴퓨팅 환경 |
로드밸런싱 | 과부하 방지를 위해 여러 서버에 트래픽을 분산 |
데이터 레이크 | 원본 데이터를 그대로 저장해 놓는 시스템 |
데이터 거버넌스 | 데이터의 신뢰성, 사용성, 보안성을 보장하기 위한 모든 작업 |
데이터 웨어하우스 | 데이터를 저장, 분석하는 시스템 |
용어 | 설명 |
---|---|
뉴런 | 신경망의 기본 단위, 입력을 받아 가중치와 함께 처리하여 출력 |
레이어 | 뉴런이 모여 있는 층 |
입력층 | 외부에서 받은 데이터를 신경망의 첫 번째 층으로 전달 |
은닉층 | 입력층에서 받은 데이터를 처리하고 변환 |
출력층 | 은닉층에서 처리된 데이터를 최종 결과로 변환 |
웨이트 | 뉴런에서 다음 뉴런으로 넘어갈 때의 가중치 |
모델 | 학습된 파라미터와 구조를 포함하여 특정 작업을 수행할 수 있도록 훈련된 시스템 |
ANN | 인공 신경망, 입력 데이터와 가중치를 기반으로 출력을 계산 |
DNN | 심층 신경망, 여러 개의 은닉층을 가진 인공 신경망 |
CNN | 합성곱 신경망, 이미지나 영상 데이터의 특징을 추출하고 학습하는 데 사용 |
RNN | 순환 신경망, 시간적인 특성을 학습하는 신경망 |
다층 퍼셉트론 | 층이 여러 개로 구성된 신경망 |
역전파 알고리즘 | 신경망의 가중치를 업데이트해 오차를 최소화하는 알고리즘 |
용어 | 설명 |
---|---|
지도학습 | 입력 데이터와 정답을 함께 제공해 학습 |
비지도학습 | 정답이 없는 상태에서 입력 데이터만으로 학습 |
강화학습 | 시행착오를 통해 보상을 최대화하는 학습 방식 |
반지도학습 | 일부는 정답 없이, 일부는 정답을 제공한 상태로 학습 |
과적합 | 과하게 학습한 상태로, 새로운 데이터에 대한 일반화 성능이 떨어짐 |
용어 | 설명 |
---|---|
약인공지능 | 특정 작업에 맞추어 설계된 AI |
강인공지능 | 인간과 유사한 수준의 지능을 가진 AI |
LLM | 대형 언어 모델 |
AI 관련 파이썬 라이브러리 | AI 관련 파이썬 라이브러리 |
단계 | 설명 |
---|---|
데이터 수집 | 다양한 소스에서 데이터를 수집 |
데이터 저장 | 데이터를 적절한 형식으로 저장 |
데이터 정제 | 중복, 오류, 결측 값을 제거하여 데이터를 정리 |
데이터 구조화 | 데이터를 표, 그래프 등 구조화된 형식으로 변환 |
데이터 전처리 | 데이터를 분석 및 학습에 적합한 형태로 가공 |
각 단계는 데이터의 품질과 분석 결과의 정확성에 중요한 역할을 합니다. 특히, 데이터 정제와 전처리는 모델의 성능에 큰 영향을 미칩니다.