데이터 사이언스 관련 용어에 대하여

박미진·2022년 7월 3일
0

스터디 노트

목록 보기
2/4

1. 데이터 사이언스란?

(1) 데이터사이언스

1) 데이터사이언스, 인공지능, 머신러닝 중 가장 큰 범주는?

  • 일반적으로는 인공지능으로 생각하겠지만 현재 시점에서는 데이터사이언스가 인공지능이나 머신러닝보다 조금 더 큰 범위라고 정의할 수 있음
  • 모두가 축적된 정형 혹은 비정형의 빅데이터를 학습해 문제를 해결하는 방식을 사용하고 있기 때문에 충분한 데이터가 없다면 이 기술은 모두 제대로 작동하기 어려움
    → 가장 근간이 되는 넓은 범위의 기술은 바로 데이터사이언스라고 볼 수 있음

2) 이론적인 측면 vs 실용적인 측면

  • 이론적인 측면 : 기존 통계적 기법과 최근의 머신러닝 및 인공지능 기술을 학문적으로 연구하는 것으로 정의
  • 실용적인 측면 : 데이터를 획득하고, 여기에 전문지식을 접목해 처리하거나 모델링화 하거나 시각화하는 과정을 통해 우리 실생활에 유용한 솔루션을 만드는 것이라고 정의

(2) 데이터사이언스에 필요한 스킬 (Data Scientist Skill Set)

  • 데이터사이언스를 하기 위해서는 다양한 스킬들이 필요한데 주로 필요한 스킬은 다음과 같음

1) 통계 (Statistics)

  • 통계학은 오랜 전통을 가지고 있으며 통계학이 바로 데이터를 분석하기 위한 학문이라고 할 수 있음
  • 데이터사이언스라는 일에서 가장 중요한 것은 데이터를 분석하는 작업이며 분석에 필요한 많은 기법과 과거에 축적된 지혜를 통계학을 통해서 얻을 수 있음 → 통계학에 대한 지식이 많이 필요

2) ICT기술 (Information And Communication Technology)

  • 컴퓨터 자원 활용 능력을 말함
  • Linux, Windows server, 몇개의 스크립트 언어(Script language), 소프트웨어 개발이나 플랫폼에 관련된 개발 업무, 데이터 분석과 설명을 위한 Excel, Powerpoint와 같은 사무용 소프트웨어 등
  • 데이터사이언스에 있어서는 실행능력과 같은 것
    → 자신의 생각이나 아이디어, 가설등을 확인하기 위해서는 스스로 컴퓨팅 자원을 구성하고 활용해서 데이터를 입수하고 처리를 해서 목표를 달성해야 하는데 큰 무리가 없어야 함

3) 빅데이터와 분산컴퓨팅 기술 (Big Data Nd Distributed Computing Technology)

  • 대용량 데이터 처리를 위한 기술은 현대의 데이터 처리에서 필수적으로 필요
  • 분산컴퓨팅 (Hadoop, Hive, Spark, Storm, Kafka), 클라우드 컴퓨팅에서 제공하는 관리형 솔루션 (BigQuery, RedShift)
  • 모두 다 배우고 활용할 수는 없겠지만 상황에 맞게 적절한 것을 빨리 도입해서 사용하고 문제를 해결할 수 있는 능력이 필요하며, 그 중에 몇가지는 자신의 주력 플랫폼으로 사용할 수 있어야 함

4) 기계학습 및 데이터마이닝 기술 (Machine Learning And Data Mining)

  • 컴퓨터를 활용해 어떤 가치를 찾는 작업이 분표를 통해서 통찰(insight)을 찾는 것에서 추가로 뭔가를 해야 한다면 자동화(automation)가 필요
  • 자동화 기술은 구현된 이후에는 편하게 사용할 수 있지만 구현 작업 자체는 매우 어려움
  • 기계학습과 기계학습 기술이 포함된 데이터마이닝 기술은 빅데이터와 데이터사이언스에 있어서는 필수라고 할 수 있음

5) 데이터시각화 (Data Visualization)

  • 분석 결과의 적절한 표현이 필요
    → 시각화만큼 주목을 빨리 끌고 설명을 쉽게 할 수 있는 것은 없음
    → 데이터 분석 결과나 기계학습의 모형에 대한 성능 확인, 시뮬레이션 등을 하기 위해서는 데이터의 상태와 모형의 결과를 눈으로 확인하기 위한 시각화가 사람에게는 매우 유용

6) 수학 (Mathematics)

  • 데이터과학을 배우는 것은 수학에서 시작해서 기계학습과 분산컴퓨팅을 거치고 통계학을 관통해서 다시 수학으로 돌아가서 끝을 맺는다고 할 수 있음
  • 알고리즘이나 모형의 깊숙한 부분을 보거나 수리적 모형을 고민해야 할 때 항상 마지막에 부딪히는 것은 수학임
  • 모든 과학과 공학의 기본이라고 할 수 있음

7) 비즈니스 지식 (Domain Knowledge)

  • 관련된 비즈니스에 대한 상당한 수준의 전문 지식이 있어야 함
  • 도메인 지식은 그 사업 분야와 관련된 지식이 되기 마련
    → 각 도메인과 관련된 일을 실제로 하지 않는다면 학습을 해서 배우기는 매우 어려우므로 각자의 상황에 따라 달라질 것
    (즉 자신의 환경에서 얻을 수 있는 도메인 지식을 최대한 얻은 상태여야 데이터 사이언스도 잘 할 수 있음)

8) 여러 지식과 기술의 융합

  • 위에서 나열한 기술, 지식들을 한 사람이 익히는 것은 매우 힘든 일
  • 모든 것을 한꺼번에 다 익힐 수는 없겠지만 차근차근 익히고 연습하며 점차적으로 데이터사이언티스트가 될 수 있도록 노력하는 것이 바람직한 방향일 것

※ 데이터 리터러시 : 데이터를 이해하고 분석하고 활용할 수 있는 전반적인 능력,
데이터 마이닝 : 데이터 안에서 가치있고 유용한 정보를 찾아내는 행위이며, 다양한 관점에서 데이터를 분석하여 의미를 발견하는 것
(데이터 분석과 유사한 개념으로 사용되는 경우가 많음),
데이터 분석 : 데이터를 수집하고 정제하고 분석하여 의사결정을 내리는 일련의 과정

2. 인공지능 vs 머신러닝 vs 딥러닝

  • '인공지능 > 머신러닝 > 딥러닝 순서로 범위가 크다’ 라고 이해하면 편함
    → 인공지능이 가장 큰 개념으로 머신러닝과 딥러닝을 포함하는 개념이지만, 실제로 요새 '인공지능한다.'하면 '딥러닝한다.'와 거의 동일한 개념으로 사용될 정도로, 인공지능 연구에서 딥러닝이 차지하는 비중이 커짐
    딥러닝이 아닌 머신러닝 분야에는 수학/통계기반의 머신러닝 기법이 있으며, 여전히 많이 사용됨

(1) 인공지능

1) 인공지능이란?

  • 인공지능(Artificial intelligence): 인공지능은 사람처럼 학습하고 추론할 수 있는 지능을 가진 시스템을 만드는 기술 (인간의 학습능력, 추론능력, 지각능력이 필요한 작업을 할 수 있도록 컴퓨터 시스템을 구현하려는 컴퓨터과학의 세부분야 중 하나)
    → 컴퓨터가 인간의 사고를 모방하는 모든 것을 뜻한다고 보고 있음
  • A.I.(Artificial Intelligence)라고도 함
  • 인공지능은 지능형 기계를 만드는 과학과 공학
  • 가장 이해하고 쉽고 현실적인 인공지능의 정의는 영국의 수학자이자 컴퓨터 과학자인 튜링이 고안한 ‘튜링테스트’를 통한 것
    → 서로 상대방을 알 수 없는 상황에서 대화하거나 어떠한 행위를 했을 때 상대방이 인간이었다고 생각했다면 그 대상은 인공지능을 갖추었다고 볼 수 있음

2) 인공지능의 역사


<인공지능 태동기>
▶ 1950년 : 앨런 튜링 Alan Turing이 인공지능이 사람과 같은 지능을 가졌는지 테스트할 수 있는 유명한 튜링 테스트 Turing Test를 발표
▶ 많은 과학자가 참여한 1956년 다트머스 AI 콘퍼런스Dartmouth AI Conference에서는 인공지능에 대한 장밋빛 전망이 최고조에 도달
<인공지능 황금기>
▶ 1957년 : 프랑크 로젠블라트Frank Rosenblatt가 로지스틱 회귀의 초기 버전으로 볼 수 있는 퍼셉트론Perceptron을 발표
▶ 1959년 : 데이비드 허블David Hubel과 토르스텐 비셀Torsten Wiesel이 고양이를 사용해 시각 피질에 있는 뉴런 기능을 연구 → 나중에 두 사람은 그 공로를 인정받아 노벨상을 수상
▶ 1969년 : IJCAI학회 창립
<첫 번째 AI 겨울>
▶ 인공지능에 대한 연구와 투자가 크게 감소
<두 번째 AI 붐>
▶ 1975 ~ 1985년 : 지식기반 전문가 시스템의 산업화
▶ 1986년 : 신경망과 머신러닝 연구
▶ 1988년 : 베이지안넷과 확률적 추론 연구
<두 번째 AI 겨울>
▶ 이 시기를 극복한 후에 인공지능은 다시 각광을 받기 시작 / 연구자들은 물론 대중 매체도 어느 때 보다 큰 관심을 가지게 되었음
▶ 1995, 1997년 : 자능형 에이전트와 로보컵 대회
▶ 1990 ~ 2010년 : 과학적 방법론의 도입
▶ 2010 ~ 현재 : 제2차 AI산업화
▶ 인터넷/웹/소셜 데이터와 머신러닝의 산업화
▶ 자율주행차, 왓슨, 시리(2011년)
▶ 딥러닝 기술의 산업화(2012년 ~ 현재)
▶ 영화와 드라마, 소설 속에서 지능을 가진 컴퓨터 시스템이 등장하는 것이 흔하나 영화 속에 등장하는 인공지능을 실생활에서 체험하기는 아직 어려움 영화와 현실이 차이나는 것은 두 기술이 다르기 때문임
→ 영화 속의 인공지능은 인공일반지능 혹은 강 인공지능이라고 부르는 인공지능 / 반면 현실에서 우리가 마주하고 있는 인공지능은 약 인공지능
약 인공지능은 아직까지는 특정 분야에서 사람의 일을 도와주는 보조 역할만 가능
예) 음성 비서, 자율 주행 자동차, 음악 추천, 기계 번역, 이세돌과 바둑 시합을 한 알파고 등

3) 인공지능 성능에 따른 분류

  • 강 인공지능(Strong AI) : 사람과 구분이 안 될 정도로 강한 성능을 가진 인공지능 (영화 속 전지전능한 AI)
  • 약 인공지능(Weak AI) : 특정 분야에서만 활용이 가능하며 입력한 규칙을 벗어난 창조는 불가능 / 특정분야에서 사람을 돕는 보조 AI(음성비서나 자율주행도 여기 포함)                          

4) 인공지능의 특징

사람의 지능과 마찬가지로 문제해결능력, 학습, 범용성의 세가지 특징을 가지고 있음

  • 문제해결능력 : 수식계산, 사진속 대상 판단, 알파고의 바둑판을 이해하고 다음 수를 결정하는 것 등 문제를 해결하기 위한 지능적인 행동을 의미
  • 학습 : 과거에는 지능을 구현하기 위해 사람이 직접 모든 프로그램을 작성했으나 문제가 복잡할 경우 사람이 설계하는 것이 불가능 / 이를 해결하기 위해 입력과 출력의 데이터가 주어지면 규칙을 자동으로 파악하는 모델을 만들었는데 이것이 바로 머신러닝과 딥러닝
  • 범용성 : 딥러닝 모델을 수정하여 다양한 분야에서 응용이 가능한 인공지능의 특징

5) 인공지능 학습방법

  • 학습데이터의 정답(Label)이 있는지 여부에 따라 일부 데이터에만 정답이 있는 경우를 준지도학습으로 분류하기도 함 (예: GAN)
  • 지도학습의 학습 데이터의 Label을 설정하는 것에 리소스 투입이 많이 되고 있어, 이를 해결하려는 연구 진행
    <구성요소>
    Agent : 어떤 Environment에서 Action을 수행하는 주체
    Environment : Agent가 Action을 수행하는 환경상태 집합
    State : Environment의 상태 집합
    Reward : 보상 집합
    Action : 행동집합
    <절차>
    1) Agent와 환경과의 상호 작용을 통해서 행동을 결정
    2) 반복적인 결정의 반복으로 최적의 행동으로 개선
    3) 최적 행동을 통한 Action 결정
    → 대표적인 강화학습 알고리즘으로는 MTCS, DQN, A3C 등이 있으며 게임분야에서 많이 사용

6) 인공지능 활용

  • 자율 주행 자동차 : 테슬라, 구글, 현대자동차&네이버
  • 스마트 스피커(AI 비서) : 아마존, 구글, 바이두, 알리바바, 샤오미, KT, SK 텔레콤, 네이버, 카카오, 삼성전자 등
  • 챗봇 : 카카오 상담톡, 네이버 톡톡, 라인, 채널톡 등
  • 인공지능 로봇 : 청소 로봇, 교육용 로봇, 동반자 로봇, 운송 로봇
  • 이미지 인식 : 페이스북, 구글, 마이크로소프트, 네이버
  • 개인화 추천 : 넷플릭스,구글, 페이스북
  • 기계 번역 : 구글, 네이버 파파고
    → 모든 비즈니스 영역에서 인공지능을 도입해서 업무 효율을 높이려고 하고 있고 특히 사람의 자연어처리 부분과 이미지처리에 대한 연구가 많이 되고 있음
    => 사람이 자극을 수용할 수 있는 모든 감각과 행동 영역, 그리고 판단까지 기계가 수행하도록 연구 진행 (눈(시각), 입/귀(언어), 손/발(로봇, 제어) , 사고(판단))

(2) 머신러닝

1) 머신러닝이란?

  • 머신러닝(Machine Learning) : 규칙을 프로그래밍하지 않아도 자동으로 데이터에서 규칙을 학습하는 알고리즘을 연구하는 분야
  • 인공지능의 하위 분야 중에서 지능을 구현하기 위한 소프트웨어를 담당하는 핵심 분야
  • 기계 학습(機械學習)이라고도 함
  • 사이킷런이 대표적인 라이브러리
  • 사람이 할 수 있거나 또는 하기 어려운 작업을 대신 수행할 기계를 학습을 통해 만들어내는 일련의 작업을 의미
    → 사람이 직접 프로그래밍 할 필요 없이 대량의 데이터를 접했을 때 스스로 수정하여 원하는 결과를 얻기 위한 기술
  • 스팸메일 필터링, 이미지 분류, 기계번역 기술, 문자 인식 등 약한 AI를 구현하는데 쓰이는 게 머신러닝(기계학습)
    → 인공지능을 가능하게 하는 방법 가운데 하나
    <기계 학습의 핵심>
    ▶ 표현(representation)과 일반화(generalization)
    표현 : 데이터의 평가 / 일반화 : 아직 알 수 없는 데이터에 대한 처리
    → 이는 전산 학습 이론 분야이기도 함

2) 머신러닝의 특징

  • 머신러닝은 스스로 규칙을 수정
    주어지는 데이터를 인간이 우선적으로 처리 → 트레이닝 데이터를 알맞게 분류하여 컴퓨터가 인식할 수 있도록 함 → 컴퓨터가 데이터에 포함된 특징을 분석하고 데이터를 축적 → 컴퓨터가 축적된 데이터를 바탕으로 문제의 해답을 찾음 (데이터의 규칙을 컴퓨터 스스로 찾아내는 것, 사람이 만든 프로그램이지만 규칙을 스스로 찾아 수정함 여기서 규칙을 찾아 수정하는 과정을 학습 혹은 훈련이라고 함)
  • 머신러닝은 통계학과 깊은 관련이 있음
    통계학에서 유래된 머신러닝 알고리즘이 많으며 통계학과 컴퓨터 과학 분야가 상호 작용하면서 발전하고 있음 (대표적인 오픈소스 통계 소프트웨어인 R에는 다양한 머신러닝 알고리즘이 구현되어 있음)
  • 최근 머신러닝의 발전은 통계나 수학 이론보다 경험을 바탕으로 발전하는 경우도 많음 (컴퓨터 과학 분야가 이런 발전을 주도하고 있음)
  • 머신러닝은 학습 방식을 이해함

3) 전통적 프로그래밍 vs 머신러닝


예) 일상에서 많이 사용하는 이메일:

  • 머신러닝 이전의 이메일 스팸 필터링 시스템에서는 스팸메일을 걸러내기 위한 규칙을 설정해서 걸러냈음
    (먼저 '대출' '성인광고'와 같이 스팸메일이 포함할만한 단어를 정의 → 이런 단어가 포함된 메일은 스팸 메일함으로 분류)
    => 룰 기반(rule-based) 시스템
  • 하지만 누군가에게는 대출 광고가 유용한 정보일 수도 있어 모든 사용자에게 동일한 규칙을 적용하는 것은 불합리할 수 있음 (사용자의 행동 데이터를 학습해서 시스템에 반영함)
    → 만약 A라는 사용자는 ‘대출’이라는 단어가 포함된 메일을 계속해서 스팸으로 분리하고, B라는 사용자는 받은 편지함으로 분리한다면 머신러닝 시스템이 각각의 사용자 메일함에서 스팸을 분리하는 기준이 달라짐
    => 머신러닝 기반(machine learning) 시스템

4) 머신러닝의 3가지 유형


데이터를 어떻게 활용해 컴퓨터(기계)를 학습(훈련, training)시키는지에 따라 구분

① 지도학습( Supervised Learning) : 입력값과 결과값(정답 레이블)을 함께 주고 학습을 시키는 방법으로 분류, 회귀 등 여러 가지 방법에 활용됨
→ 입력이 주어짐에 따라 원하는 출력값이 활성화되도록 가중치를 조절
예) 과거 데이터를 기반으로 앞으로 있을 이벤트를 예측 (신용카드 거래의 사기성, 보험가입자의 보험금 청구 가능성 여부 등 예측에 효과적)

② 비지도학습(Unsupervised Learning) : 결과값 없이 입력값만 주고 학습시키는 방법으로 데이터를 탐색하여 내부구조와 유사한 속성을 파악 유사한 속성의 고객을 분류하고 유사성을 근거로 마케팅 캠페인에서 고객 세그먼트를 관리함 또는 고객 세그먼트 구분기준이 되는 주요 속성을 파악하는데 효과적
→ 스스로 연결 가중치들을 학습하므로 미리 결정된 해가 불필요함
예) 데이터들간의 유사도를 측정해 데이터셋을 K개의 그룹으로 구분해주는 k-meansn와 같은 알고리즘이 있음

③ 강화학습(Reinforcement Learning) : 데이터의 상태(State)을 인식하고 이에 반응한 행위(Action)에 대하여 환경으로부터 받는 포상(Reward)을 학습하여 행위에 대한 포상을 최적화하는 정책(Model)을 찾는 기계학습
예) 로봇, 게임 및 내비게이션 등에 이용되며, 일정한 시간 내에 예상되는 보상을 극대화할 수 있는 동작을 선택하도록 함

<머신러닝으로 해결할 수 있는 문제유형>

<대표적인 머신러닝 알고리즘>

5) 사이킷런 (머신러닝 대표적인 라이브러리)

  • 2007년 구글 썸머 코드에서 처음 구현되었으며, 가장 널리 사용되는 머신러닝 패키지 중 하나
  • 사이킷런 라이브러리는 파이썬 API를 사용하는데 파이썬 언어는 배우기 쉽고 컴파일하지 않아도 되기 때문에 사용하기 편리 (파이썬 코드를 다룰 수 있다면 누구나 머신러닝 알고리즘을 무료로 손쉽게 제품에 활용할 수 있음)
  • 사이킷런에 모든 머신러닝 알고리즘이 포함되어 있지는 않음
  • 프로그래머가 직접 알고리즘을 구현하느라 힘들게 프로그램을 짤 필요가 없음 (어떻게 머신러닝 알고리즘을 선택하고 활용할 수 있는지를 먼저 생각해보는 것도 방법이 될 수 있는 것)
  • 사이킷런이 있기 전까지 머신러닝 기술은 대부분 폐쇄적인 코드와 라이브러리로 통용 → 해당 분야에 대해 전문 교육을 이수하거나 비싼 비용을 지불하고 구매를 해야 했음
  • 사이킷런과 같은 오픈소스 라이브러리의 발전 덕분에 머신러닝 분야는 말 그대로 폭발적으로 성장

=> 이런 현상으로 인해 새로운 이론과 기술은 직접 코드로 구현되고 통용되어야 그 가치를 입증할 수 있게 되었음, 코드로 구현되어 성능을 입증하지 못하면 탁상공론에 지나지 않고 사람들의 주목을 끌기 어려우며 이런 기조는 딥러닝 분야에서 더욱 증폭되었음

(3) 딥러닝

1) 딥러닝이란?

  • 딥러닝(Deap learnging) : 고도화된 신경망 알고리즘을 적용하여 보다 빠르고 인간과 유사하게 행동하는 컴퓨터 프로그램을 구현한 학습방법
  • 심층 학습(深層學習) 또는 인공 신경망이라고도 하며, 텐서플로와 파이토치가 대표적인 라이브러리
  • 기계가 자동으로 대규모 데이터에서 중요한 패턴과 규칙을 학습하고
    이를 토대로 의사결정이나 예측 등을 수행하는 기술
  • 기계 학습 알고리즘의 집합으로 정의되며, 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야라고 이야기할 수 있음
  • 다양한 딥 러닝 기법들이 컴퓨터 비전, 음성인식, 자연어 처리, 음성/신호처리 등의 분야에 적용되어 최첨단의 결과들을 보여주고 있음
  • 2012년 스탠포드대학의 앤드류 응과 구글이 함께한 딥 러닝 프로젝트에서는 16,000개의 컴퓨터 프로세서와 10억 개 이상의 neural networks 그리고 DNN(deep neural networks)을 이용하여 유튜브에 업로드 되어 있는 천만 개 넘는 비디오 중 고양이 인식에 성공

2) 딥러닝(심층학습)의 특징

  • 인간이 데이터를 분류해서 전달해주는 작업이 생략되고 스스로 학습하는 컴퓨터 
  • 다양한 데이터를 분류해서 같은 집합들 끼리 묶은 뒤 층을 겹겹이 쌓아 신경망을 구축하고 층을 지날수록 필터링을 통해 유용한 정보만 걸러냄
  • 머신러닝의 한 분야지만 조금 더 나아간 것을 말함 

3) 딥러닝 성공비결

  • 종종 사람들은 인공 신경망과 딥러닝을 크게 구분하지 않고 사용
  • 인공 신경망이 이전과 다르게 놀라운 성능을 달성하게 된 원동력으로 크게 세 가지를 꼽을 수 있음
    ① 복잡한 알고리즘을 훈련할 수 있는 풍부한 데이터
    ② 컴퓨터 성능의 향상
    ③ 혁신적인 알고리즘 개발

4) 딥러닝 라이브러리

  • 텐서플로(TensorFlow) :
    ▶ 2015년 구글이 오픈소스로 공개함
    ▶ 공개와 동시에 큰 인기를 얻었으며, 아직까지 가장 널리 사용되는 딥러닝 라이브러리
    ▶ CPU와 GPU를 사용해 인공신경망 모델을 효율적으로 훈련하며 모델 구축과 서비스에 필요한 다양한 도구를 제공함
    ▶ 텐서플로 2.0부터는 신경망 모델을 빠르게 구성할 수 있는 케라스Keras를 핵심 API로 채택함 (케라스를 사용하면 간단한 모델에서 아주 복잡한 모델까지 비교적 손쉽게 만들 수 있음)
  • 케라스(Keras) :
    ▶ 다양한 인공지능 엔진에서 지원하며, 2015년에 공개된 파이썬 기반의 오픈소스 신경망 라이브러리
    ▶ 텐서플로, 파이토치와 함께 널리 사용되고 있음
  • 파이토치(Pytorch):
    ▶ Facebook에서 개발하여 2016년 공개한 파이썬 기반의 오픈소스 머신러닝 라이브러리

※ 라이브러리들의 공통점 : 인공 신경망 알고리즘을 전문으로 다루고 있다는 것과 모두 사용하기 쉬운 파이썬 API를 제공한다는 점

5) 머신러닝 vs 딥러닝

  • 딥러닝과 머신러닝의 대표적인 차이점은 처리하는 데이터
    ▶ 딥러닝 : 이미지/영상, 음성/소리, 텍스트/번역, 등의 비정형 데이터 (인지와 관련된 문제에 강함) 
    ▶ 머신러닝 : 데이터베이스, 레코드 파일, 엑셀/CSV 등에 담긴 정형 데이터
  • ‘머신러닝’ : 컴퓨터에게 인간이 먼저 다양한 정보를 가르치고 그것을 학습한 결과에 따라 컴퓨터가 새로운 것을 예측하는 것 /  ‘딥러닝’ : 인간이 가르치지 않아도 스스로 학습하고 미래 상황을 예측하는 것
  • 머신러닝 : 어느 정도 양의 고양이 사진을 컴퓨터에 입력하고 ‘이건 고양이다’라는 정보를 알려주면 컴퓨터가 완전히 새로운 고양이 사진을 봤을 때 기존의 데이터와 비교해 ‘고양이’라는 것을 인식하게 됨 / 딥러닝 : 컴퓨터 혼자 다양한 고양이 사진을 찾아보고 고양이에 대해 학습한 뒤, 새로운 고양이를 봤을 때 ‘고양이’ 라고 인식하게 되는 것
  • 머신러닝 : 학습에 필요한 데이터를 수동으로 제공해야 하지만 / 딥러닝 : 분류에 사용할 데이터를 스스로 학습할 수 있음 (머신러닝에 속하는 대표적인 방법론 중 하나로 앞서 언급된 머신러닝 방법론 모두에 이용될 수 있음)
    => 즉 딥러닝은 인간의 힘을 빌리지 않는 조금 더 똑똑한 인공지능이라고 생각하면 됨

<reference(참조)>
인공지능 개념 정리
[박정현의 데이터사이언스 시작하기] ⓛ데이터사이언스, 머신러닝 그리고 인공지능
데이터과학(Data Science)-인투더데이터
인공지능(AI) 기술의 이해 #1- 주요 역사와 개념정리 (feat.머신러닝, 딥러닝)
머신러닝 (Machine Learning) 과 딥러닝의 차이점
Do it! 딥러닝 입문 - Ch 1 & Ch 2 정리
[AI란 무엇인가] 인공지능 머신러닝 딥러닝 차이점 총정리
딥 러닝-위키백과
인공지능-나무위키
기계 학습-위키백과

0개의 댓글