빅데이터와 생성형 AI

Sejin·2025년 5월 25일
0

Data, DB공부

목록 보기
21/26

빅데이터 개념

빅데이터의 역사와 정의

데이터
특정 대상에 대한 사실, 측정, 관찰 등의 정보를 체계적으로 수집한 자료

  • 사실을 표현한 숫자, 문자, 오디오, 이미지, 동영상 등

빅데이터 & 생성형 AI 개념

Big Data
다양한 형태(정형, 비정형)를 띠고 있는 대량의 데이터들을 분석하여 패턴, 인사이트, 예측 모델을 도출해내는 기술

  • Big = 양적으로 많음 + 질적으로 다양하고 복잡하다는 의미

생성형 AI
기존 데이터를 학습하여 새로운 콘텐츠(텍스트, 이미지, 영상, 음악 등)를 생성하는 인공지능

데이터의 증가와 변화

빅데이터의 핵짐가치 5V

  • Volume(크기)
    PB이상 규모로 확장
  • Variety(다양성)
    모든 유형의 데이터 포괄
  • Velocity(속도)
    데이터의 정확성과 품질 확보
  • Veracity(정확성)
    데이터 처리 속도
  • Value(가치 창출)

인공지능 발전사

1950~ 1990년

2007~ 2017년

2018~ 2022년~


인공지능, 머신러닝, 딥러닝

개념

Artificial Intelligence 인공지능
사고나 학습 등 인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 기술

Machine Learning 머신러닝
컴퓨터가 데이터를 통해 스스로 학습하여 예측이나 판단을 제공하는 기술

Deep Learning 딥러닝
인간의 뉴런과 비슷한 인공신경망 방식으로 정보를 처리

  1. 인공지능(AI)은 가장 큰 개념으로, 기계학습(ML)과 딥러닝(DL)을 포함함

  2. 기계학습은 AI의 하위 개념으로, 데이터 기반 학습을 통해 작업을 자동화함

  3. 딥러닝은 기계학습 중에서도 신경망을 기반으로 복잡한 문제를 처리하는 기술임

    이 세 가지는 서로 계층적으로 연결되어 있으며, 딥러닝의 발전이 기계학습과 인공지능의 전반적인 성능을 크게 끌어올리고 있음


인공지능(Artificial Intelligence, AI)

  • AI는 컴퓨터가 인간처럼 사고하고, 학습하고, 문제를 해결하는 능력을 갖추도록 만드는 기술(컴퓨터 사이언스 및 정보기술 한 분야)

  • 컴퓨터가 인간의 도움 없이 스스로 생각하고 학습하여 인간의 지능적 행동(판단, 학습, 추론, 계획 등)을 모방 · 재현하려는 것을 목표로 함

특징

  • AI는 넓은 개념으로, 기계학습과 딥러닝을 포함함
  • 초기 AI는 명시적으로 코딩된 규칙에 기반한 규칙 기반 시스템으로 시작되었으며, 최근에는 데이터를 기반으로 학습하는 방식으로 발전했음

활용 사례

  • 체스 게임의 AI, 자율주행차, 음성 인식 시스템
  • 예) Siri

AI 에이전트 'Alexa' 기반 Amazon의 스마트 안경

  • Amazon은 자사의 AI 에이전트 서비스인 'Alexa'가 탑재된 스마트 안경 'Echo Frames'의 시제품을 공개했음

  • 'Echo Frames'는 일반 안경의 형태에 안경을 착용한 이용자만 들을 수 있는 스피커와 이어폰이 착용된 제품으로, 스마트폰 등 loT 기기와 연동되어 이용자에게 AI 에이전트 서비스 제공 예정


기계학습(Mechine Learmning, ML)

인간이 다양한 경험과 시행착오를 겪으면서 지식을 배우 듯 기계(컴퓨터)에 빅데이터를 주고 학습을 통해 그 속에서 어떤 패턴을 찾아내게 하는 뛰어난 알고리즘(algorithm)과 기술을 개발하는 분야

특징

  • 알고리즘이 데이터에서 학습, 인간의 개입없이 점진적으로 성능 개선

지도학습(Supervised Learning)

  • 정답이 있는 데이터를 통해 정확한 예측을 배우는 것
  • 예) 이미지 분류, 이메일 스팸 필터링, 주가 예측

비지도학습(Unsupervised Learning)

  • 정답 없이 데이터를 그룹화하거나 패턴을 찾는 것
  • 예) 고객세분화(군집분석)

강화학습(Reinforcement Learning)

  • 보상을 극대화하기 위해 스스로 시행착오를 반복하며 최적 전략을 찾는 것
  • 예) 알파고, 로봇 제어

활용 사례

  • 컴퓨터 패턴 인지능력을 심어 주기 위해서는
    빅데이터(예: 고양이 사진)를 입력하여 컴퓨터 스스로 학습을 통해 원하는 패턴(예: 고양이 패턴)을 찾아내는 것
  • 스팸 이메일 분류, 신용카드 사기 탐지, 영화 추천 시스템, 고객 이탈 예측 및 마케팅 최적화

딥러닝 (Deep Learning)

기계학습의 하위 분야로, 인공신경망(Artificial Neural Networks)을 기반으로 사물이나 데이터를 군집하거나 분류하는 기술

딥러닝의 핵심
분류를 통한 예측 능력

신경망
뇌의 뉴런 구조를 모방한 알고리즘으로 층(layer)이 깊어질수록 복잡한 문제를 더 잘 해결할 수 있음

특징

  • 대규모 데이터와 고성능 컴퓨팅 자원을 필요로 함
  • 이미지, 음성, 텍스트 등의 비정형 데이터 처리에 강점
  • 대표 알고리즘: CNN(Convolutional Neural Network), RNN(Recurrent Neural Network),
    Transformer

활용 사례
■ 자율주행: 자율주행차 객체인식
■ 컴퓨터 비전: 얼굴인식, 영상 분석
■ 자연어 처리: 번역기, ChatGPT 등
■ 음성 인식: Siri, Alexa 등
■ 생성형 AI: 미미지, 텍스트, 음악 생성


ML 및 DL 응용 분야

  • 컴퓨터 비전
    (문자인식, 물체인식, 얼굴인식),

  • 음성 인식 및 필기 인식

  • 생물정보학
    (유전자 분석, 질병 진단)

  • 자연어 처리
    (자동번역, 대화분석)

  • 정보 검색 및 검색 엔진
    (텍스트 마이닝, 추천시스템, 추출 및 요약)

  • 컴퓨터 그래픽 및 게임
    (애니메이션)

  • 로보틱스
    (무인 자동차)

  • 등등


AI, ML, DL의 차이점

구분인공지능(AI)기계학습(ML)딥러닝(DL)
범위가장 포괄적인 개념AI의 하위 분야ML의 하위 분야
정의컴퓨터가 인간처럼 생각하고 학습하도록 하는 기술데이터를 기반으로 학습하여 작업 수행인공신경망을 기반으로 복잡한 데이터 패턴을 학습
학습 방식규칙 기반 + 학습 기반 모두 포함지도학습, 비지도학습, 강화학습신경망(Neural Networks) 활용한 학습
데이터 처리정형 + 비정형 데이터 모두 처리 가능주로 정형 데이터 처리비정형 데이터(이미지, 음성, 텍스트 등) 처리에 강점
대표 기술체스 AI, 자율주행차, 규칙 기반 챗봇추천 시스템, 스팸 필터이미지 인식, 음성 인식, 생성형 AI

생성형 AI(Generative AI)

기존 데이터를 학습하여 새로운 콘텐츠(텍스트, 이미지, 영상, 음악 등)를 생성하는 인공지능

생성형 AI의 특징

콘텐츠 창출
데이터 기반으로 창의적인 결과물 생성

자율 학습 및 강화 학습
대규모 언어 모델(LLM) 및 딥러닝 기술 활용

유연성 및 확장성
다양한 산업에 적용 가능

개념

기존 데이터를 학습하여 텍스트, 이미지, 영상, 음악 등 새로운 콘텐츠를 생성할 수 있는 인공지능 기술

주로 딥러닝(Deep learning) 기반으로 작동하며, 창의적인 결과물을 만들어내는 데 초점이 맞춰져 있음

주요 특징

  • 기존 데이터에서 학습한 패턴을 활용해 새로운 데이터 생성
  • 다양한 분야(텍스트, 이미지, 음악 등)에서 활용 가능
  • 대표적인 기술: 텍스트 생성(GPT), 이미지 생성(DALL · E), 음악 생성(Amper Music) 등

활용 사례

  • 텍스트 생성: 자연어 처리로 문서 작성, 시나리오 창작, 자동화된 보고서 작성
  • 이미지 생성: AI로 예술 작품, 광고용 이미지, 디자인 시안 생성
  • 음악 생성: AI로 작곡 및 배경음악 제작

GPT(Generative Pre-trained Transformer)

OpenAI가 개발한 자연어 처리(NLP) 모델로
텍스트 생성형 AI 중 하나

  • "Generative Pre-trained Transformer"라는 이름에서 알 수 있듯, Transformer 아키텍처를 기반으로 함

  • "사전 학습(Pre-training)"된 데이터에서 패턴을 학습하여 새로운 텍스트 생성을 수행함

주요 특징

  • 사전 학습(Pre-trained)
    방대한 양의 텍스트 데이터를 학습하여 언어의 구조와 맥락을 이해
  • Transformer(언어의 내비게이션) 기반
    병렬 처리가 가능해 속도가 빠르고, 언어 간의 복잡한 관계를 학습
  • 텍스트 생성 및 분석
    질문 답변, 번역, 요약, 창의적인 글쓰기 등 다양한 작업 수행 가능
    | 모델 | 파라미터 수 | 출시 연도 | 특징 및 활용 |
    | ----- | ------------- | ------------ | ------------------------------------ |
    | GPT-1 | 1억 1천만 개 | 2018년 | 초기 버전 |
    | GPT-2 | 15억 개 | 2019년 | 초기 대형 언어 모델 |
    | GPT-3 | 11750억 개 | 2020년 | ChatGPT, DALLE2, 고도화된 자연어 처리 |
    | GPT-4 | 1조 개 이상 | 2023년 3월 15일 | 멀티모달(텍스트+이미지) 작업 가능 |
    | GPT-5 | 10조 개 이상 (추정) | 2025년 출시 예정 | 인간 수준의 이해와 창작 목표 |

버전별 발전

모델파라미터 수출시 연도특징 및 활용
GPT-11억 1천만 개2018년초기 버전
GPT-215억 개2019년초기 대형 언어 모델
GPT-311750억 개2020년ChatGPT, DALLE2, 고도화된 자연어 처리
GPT-41조 개 이상2023년 3월 15일멀티모달(텍스트+이미지) 작업 가능
GPT-510조 개 이상 (추정)2025년 출시 예정인간 수준의 이해와 창작 목표

ChatGPT(인공지능 앱)

주요 특징

대화 최적화

  • 단순히 텍스트를 생성하는 것뿐만 아니라, 대화의 맥락을 이해하고 적절히 응답
  • 사용자의 질문에 맞는 정보를 제공하거나 대화를 이어가는 능력이 탁월

다양한 작업 자원
글쓰기, 질문 답변, 번역, 코딩, 학습 보조 등 다양한 활용 가능

사용자 친화적 인터페이스
일반 사용자가 쉽게 접근하고 활용할 수 있도록 설계됨

Fine-tuning
GPT 모델에 대화형 작업에 맞게 추가 학습(Fine-tuning)하여 대화의 품질과 응답 정확도 향상


생성형 AI, GPT, ChatGPT의 차이점

구분생성형 AIGPTChatGPT
범위텍스트, 이미지, 음악 등 모든 콘텐츠 생성텍스트 생성에 특화된 자연어 처리 모델GPT를 기반으로 한 대화형 AI
기술딥러닝 및 다양한 알고리즘Transformer 아키텍처 기반GPT 모델에 대화 최적화 작업 추가
활용창작, 콘텐츠 제작, 예술, 데이터 시뮬레이션번역, 요약, 글쓰기, 텍스트 생성대화형 응답, 질문 답변, 사용자 지원
특징모든 종류의 데이터 생성 및 변형텍스트 기반 언어 작업 최적화대화 맥락 이해 및 응답 최적화
사례DALL·E, Midjourney(이미지), Amper Music(음악)GPT-3, GPT-4ChatGPT, 고객 서비스 챗봇, 학습 보조 도구

시사점

생성형 AI, GPT, ChatGPT는 서로 연결되어 발전

생성형 AI
콘텐츠 생성에 초점이 맞춰진 포괄적인 기술

GPT
텍스트 생성에 특화된 생성형 AI의 한 종류로,
언어 처리와 관련된 다양한 작업을 수행

ChatGPT
GPT 모델을 기반으로 대화에 최적화된 AI로,
사용자와의 상호작용 및 대화형 작업에 강점을 가짐

생성형 AI와 GPT, ChatGPT는 서로 연결되어 발전하며, 특정 작업에 맞게 설계되고 활용 범위가 달라짐


인공지능의 기대효과 및 전망

4차 산업혁명은 인공지능 및 5G 기반 발전


인공지능의 중요성

  • 빠른 의사결정

  • 더 나은 예측

  • 자동화/스마트화/ 감정인식 등

  • 개인 맞춤형 서비스

  • 비즈니스 모델 개발

인공지능의 가장 큰 편익은 생산성 향상

의료, 보안, 환경 등 다양한 분야에서도 많은 편익을 제공

에너지,환경 부분에서도 에너지 효율 향상


인공지능의 편익


AI의 발전을 가능하게 한 주요 요인

01. 컴퓨팅 성능의 향상
반도체 기술, 병렬 computing GPU, 양자컴퓨터 도래 등으로 복잡한 AI 모델 훈련 가능

02. 빅데이터의 축적
인터넷과 loT 기술의 확산으로 방대한 데이터가 생성 · 활용 가능

03. 알고리즘의 발전
머신러닝과 딥러닝 알고리즘의 고도화로 데이터에서
더 나은 인사이트 도출 가능


AI 예상 활용 분야 및 전망

주요 활용 분야

  • 헬스케어
    질병 예측, 의료 영상 분석

  • 자율주행
    실시간 교통 데이터 분석 및 경로 최적화

  • 제조
    스마트 팩토리와 공정 최적화

  • 금융
    사기 탐지, 투자 전략 수립

  • 교육
    개인화 학습 경로 제공

AI의 미래 전망

  • 초지능형 AI
    인간 수준을 넘는 AI 기술 개발 가능성

  • 윤리와 규제
    AI의 공정성과 책임성을 강화하는 윤리적 접근 필요

  • AI 융합 기술
    loT, 클라우드, 블록체인 등과 결합한 새로운 기술 등장


생성형 AI 활용사례

데이터와 디지털 전환

지난 10년간 인류문명의 디지털 대전환 발생

우리들의 세계관도 대전환 필요

디지털 문명을 진화 시키는 게임 체인저

인공지능이란?
컴퓨터가 지능적 행동을 하는 기술

Open AI가 개발한 Deep Learning Program GPT: Generative Pre-trained Transformer

모델파라미터 수출시 연도특징 및 활용
GPT-11억 1천만 개2018년초기 버전
GPT-215억 개2019년초기 대형 언어 모델
GPT-311750억 개2020년ChatGPT, DALLE2, 고도화된 자연어 처리
GPT-41조 개 이상2023년 3월 15일멀티모달(텍스트+이미지) 작업 가능
GPT-510조 개 이상 (추정)2025년 출시 예정인간 수준의 이해와 창작 목표

기계가 사고할 수 있는지 고찰 : Computing Machinery and Intelligence(1950.10)

생성형 AI 활용 사례

Open AI에서 개발한 SORA(Text to Video)

  • 텍스트를 입력하면 동영상을 만들어 주는 '소라(SORA)'와 사람처럼 대화하는 'GPT-40' 등장
  • 소라는 여러 캐릭터와 특정 유형의 동작, 복잡한 장면 등 최대 1분 길이의 동영상을 빠르게 제작할 수 있음
  • 텍스트와 이미지를 입력 받아 새로운 시각적 결과물을 생성하는 인공지능 아트 제너레이터(영화 한장면을 만드는 Midjourney v6 )

구글 자율차 웨이모

  • 자율차는 위험하다는 느낌은 없고 승차감은 좋지만 운전자 수준의 융통성은 없어 답답함
  • 목적지까지 다소 시간이 오래 걸림
  • 사거리에서 신호의 남은 시간과 앞차와의 간격을 고려해 꼬리 물기를 하지 않음
  • 샌프란시스코 시내 가격은 20달러(약 2만 7천 원)

시내에서만 주행 가능
공항, 금문교 넘어 소살리토에서는 주행 불가

profile
Sejin's Journey for Developers

0개의 댓글