Introduction to Big Data

๋ˆ„๋””ยท2022๋…„ 10์›” 24์ผ
0

Introduction to Big Data

๐Ÿ“Œ IT ๊ธฐ์ˆ ์˜ ๋ณ€ํ™”

  • IT ๊ธฐ์ˆ ์˜ ์ฃผ๋„๊ถŒ์ด Data๋กœ ์ด๋™(๋น…๋ฐ์ดํ„ฐ๋Š” ๋ฏธ๋ž˜ ๊ฒฝ์Ÿ๋ ฅ๊ณผ ๊ฐ€์น˜ ์ฐฝ์ถœ์˜ ์›์ฒœ)

๐Ÿ“Œ Definition of Big Data

  • collection of data sets so large and complex
  • ๊ธฐ์กด์˜ DBMS๋‚˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ์ฒ˜๋ฆฌํ•˜๊ธฐ ๊ณค๋ž€
    • ์ •ํ˜•, ๋น„์ •ํ˜•์˜ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ ํฌํ•จ
    • capture, storage, search, sharing, transfer, analysis, visualization ๊ธฐ์ˆ  ํฌํ•จ
  • ์ˆ˜์ง‘
    • ์›น, ๋ฐฑํ™”์ , ์€ํ–‰ ์‹ ์šฉ์นด๋“œ ๊ฑฐ๋ž˜, SNS, ์Šค๋งˆํŠธํฐ, IoT, ์„ผ์„œ ๋„คํŠธ์›Œํฌ(์ดˆ์—ฐ๊ฒฐ ์‹œ๋Œ€)
  • ํ™œ์šฉ ์‚ฌ๋ก€
    • ์ง‘๊ณ„ ๋ฐ ํ†ต๊ณ„
      • ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค : ๊ณผ๊ฑฐ๋ถ€ํ„ฐ ํ˜„์žฌ๊นŒ์ง€ ์ˆ˜์ง‘๋œ ์ค‘์•™์ง‘์ค‘์ , ์ „์‚ฌ์  ๋ฐ์ดํ„ฐ ์ €์žฅ์†Œ

      • OLAP(OnLine Analytical Processing)

        : ๋‹ค์–‘ํ•œ ๊ฐ๋„(๋‹ค์ฐจ์› ๋ถ„์„ ์งˆ์˜)์—์„œ 1. ์‚ฌ์šฉ์ž๊ฐ€ ์ง์ ‘, 2. ๋Œ€ํ™”์‹์œผ๋กœ, 3. ๋‹ค์–‘ํ•œ ๋„๊ตฌ์˜ ์ง€์›์œผ๋กœ ์ •๋ณด๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ณผ์ •

        โ†’ ์ €์žฅ๊ณผ ๊ด€๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค์—์„œ, ์ „๋ ฅ์  ์ •๋ณด ๋ณ€ํ™˜์ด OLAP

    • ๊ฒ€์ƒ‰: ์ƒ‰์ธ(Indexing), ์งˆ์˜(Querying)
      • ํ‚ค์›Œ๋“œ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰
      • ํŒจํ„ด ๋งค์นญ(XML / RDF)
    • ์ง€์‹ ์ถ”์ถœ
      • ๋ฐ์ดํ„ฐ ๋งˆ์ด๋‹ : ๋Œ€๊ทœ๋ชจ์˜ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ํŠน์ •ํ•œ ํŒจํ„ด์ด๋‚˜ ๊ฒฝํ–ฅ์„ ์ฐพ์•„๋‚ด๋Š” SW ๊ธฐ์ˆ 
      • ํ†ต๊ณ„์  ๋ชจ๋ธ๋ง
  • 3V ๋ชจ๋ธ
    • high-volume : scale
    • high-velocity : speed
      • ๋ฐ์ดํ„ฐ๊ฐ€ ๋น ๋ฅด๊ฒŒ ์ƒ์„ฑ๋˜๋ฏ€๋กœ, ๋น ๋ฅธ ๋ถ„์„์ด ํ•„์š” โ†’ ๋ฐ์ดํ„ฐ ์Œ“์ด๋Š” ์†๋„๋ณด๋‹ค ๋ถ„์„ ์†๋„ ๋Šฆ๋‹ค๋ฉด ๋ฐ์ดํ„ฐ ๋ˆ„์ , ์ง€์—ฐ, ์ฒ˜๋ฆฌ ๋ถˆ๊ฐ€
      • Online Data Analytics
      • ์‚ฌ๋ก€
        1. E-Promotions

          : ํ˜„์žฌ ์œ„์น˜, ๊ณผ๊ฑฐ ๊ตฌ๋งค ์ด๋ ฅ, ์ทจํ–ฅ ๋ฐ์ดํ„ฐ ๋ถ„์„ํ•˜์•ผ ์ ์ ˆํ•œ ์žฅ์†Œ์™€ ์‹œ๊ฐ„ ๋“ฑ์— ๋”ฐ๋ฅธ promotion

        2. Healthcare monitoring

          : Wearable ์žฅ๋น„, ํœด๋Œ€ํฐ ๋“ฑ์˜ ์„ผ์„œ๋ฅผ ํ†ตํ•œ ์ •๋ณด ์ˆ˜์ง‘ โ†’ ๋น„์ •์ƒ ์ƒํƒœ๋กœ ํŒ๋‹จ๋˜๋ฉด ์ฆ‰๊ฐ ์กฐ์น˜ ํ•„์š”

    • high-variety : complexity
      • relational cata
      • text data(web), Image, Video
      • Semi-structured data(XML, JSON)
      • Graph Data
      • Streaming Data
      • ํ•˜๋‚˜์˜ ์–ดํ”Œ๋ฆฌํฌ์—์„ ์ด ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์‚ฐ ๋˜๋Š” ์ˆ˜์ง‘
      • ๋Œ€๊ทœ๋ชจ ๊ณต๊ณต ๋ฐ์ดํ„ฐ(online, weather, finance, etc)
      • ์ด๋Ÿฌํ•œ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ๋ฐ์ดํ„ฐ๋“ค์ด ํ†ตํ•ฉํ•˜์—ฌ ๋ถ„์„ ๊ด€๋ฆฌ๋˜์–ด์•ผํ•จ
  • 4V ๋ชจ๋ธ
      • Veracity (์ •ํ™•์„ฑ)
      • Variability (๊ฐ€๋ณ€์„ฑ)
  • 5V ๋ชจ๋ธ
      • Value(๊ฐ€์น˜) : ์ •ํ™•์„ฑ, ์‹œ๊ฐ„๋“ฑ๊ณผ ์—ฐ๊ด€

๐Ÿ“Œ ๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ฐœ๋…

  • Data Set : ๊ด€๋ จ๋œ ๋ฐ์ดํ„ฐ์˜ ์ง‘ํ•ฉ
  • Data Analysis & Data Mining : ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•˜์—ฌ ๋‚ด์žฌ๋˜์–ด ์žˆ๋Š” ์˜๋ฏธ๋‚˜ ํŒจํ„ด์„ ์ฐพ์•„๋‚ด๋Š” ๊ณผ์ •
    • ๋ฒ”์œ„ : Descriptive(์„œ์ˆ ), Diagnostic(์ง„๋‹จ), Predictive(์˜ˆ์ธก), Prescriptive(์ฒ˜๋ฐฉ) Analysis
  • Data Analytics : ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์ง‘๊ณผ ์ •๋ˆ, ๊ตฌ์„ฑ, ์ €์žฅ, ๊ด€๋ฆฌ, ๋ถ„์„, ํ‘œํ˜„ ๋“ฑ ์ „๋ฐ˜์ ์ธ ํฌ๊ด„ ๊ฐœ๋…
    • Algorithms, SW Tools, Libraries, Techniques, System ๋“ค์„ ๋ชจ๋‘ ํฌํ•จ
  • ๋ฐ์ดํ„ฐ ์ƒ์„ฑ/ํ™œ์šฉ ๋ชจ๋ธ์˜ ๋ณ€ํ™”
    ๋ฐ์ดํ„ฐ ์ƒ์‚ฐ โ†’๋ฐ์ดํ„ฐ ์†Œ๋น„
    ๊ณผ๊ฑฐ์ผ๋ถ€ ๊ธฐ์—… ๋“ฑ๋ชจ๋“  ์‚ฌ๋žŒ
    ์ตœ๊ทผ๋ชจ๋“  ์‚ฌ๋žŒ๋ชจ๋“  ์‚ฌ๋žŒ

๐Ÿ“Œ ๋ฐ์ดํ„ฐ ์œ ํ˜•

  • ์ •ํ˜•๋ฐ์ดํ„ฐ
    • ๊ด€๊ณ„ํ˜• ๋ฐ์ดํ„ฐ์ฒ˜๋Ÿผ Schema์— ๋”ฐ๋ผ ์ €์žฅ๋œ ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ
    • ์ผ๋ฐ˜์ ์œผ๋กœ Table ํ˜•์‹์œผ๋กœ RDBMS์— ์ €์žฅ
    • ์˜ˆ) ์€ํ–‰ ๊ณ„์ขŒ ์ •๋ณด ๋“ฑ์˜ ๋ฐ์ดํ„ฐ
  • ๋น„์ •ํ˜•๋ฐ์ดํ„ฐ
    • Schema๋‚˜ ๋ฐ์ดํ„ฐ ๋ชจ๋ธ ์—†์ด ์ €์žฅ๋˜๋Š” ๋ฐ์ดํ„ฐ
    • ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ์ถ”์„ธ
    • ์˜ˆ) ์ผ๋ฐ˜ ํ…์ŠคํŠธ๋‚˜ ์‚ฌ์ง„, ๋™์˜์ƒ ๋“ฑ์˜ ๋ฐ์ดํ„ฐ
  • ๋ฐ˜์ •ํ˜•๋ฐ์ดํ„ฐ
    • ๊ณ ์ •๋œ ํ•„๋“œ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์ง€ ์•Š๊ณ  ๊ด€๊ณ„ํ˜• ๋ฐ์ดํ„ฐ ์•„๋‹˜
    • ๋ฐ์ดํ„ฐ์— ์Šค์นด๋งˆ๋‚˜ ๋ฉ”ํƒ€๋ฐ์ดํ„ฐ์™€ ๊ฐ™์€ ๊ตฌ์กฐ ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์–ด ์ผ๊ด€์„ฑ ์œ ์ง€
    • ๊ณ„์ธต์  ๋˜๋Š” ๊ทธ๋ž˜ํ”„ ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ
    • ์˜ˆ) XML, HTML ๋ฌธ์„œ๋‚˜ JSON, BSON ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ
  • ๋ฉ”ํƒ€ ๋ฐ์ดํ„ฐ
    • ๋ฐ์ดํ„ฐ ์…‹์˜ ํŠน์„ฑ ๋ฐ ๊ตฌ์กฐ์— ๋Œ€ํ•œ ์ •๋ณด(๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ)
    • ์ž๋™์œผ๋กœ ์ƒ์„ฑ๋˜์–ด ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ผ๋ฐ˜์ 
    • ๋น„์ •ํ˜•์ด๋‚˜ ๋ฐ˜์ •ํ˜•์˜ ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„์— ์ฃผ์š” ์ •๋ณด ์ œ๊ณต
    • ์˜ˆ) ์‚ฌ์ง„์˜ ํ•ด์ƒ๋„, ์ž‘์„ฑ์ผ, ํฌ๊ธฐ ์ •๋ณด, ๋ฌธ์„œ์˜ ์ž‘์„ฑ์ผ, ์ž‘์„ฑ์ž, ๋ฒ„์ „ ์ •๋ณด ๋“ฑ

๐Ÿ“Œ Big Data์˜ ์ด์šฉ

์Šคํฌ๋ฆฐ์ƒท 2022-10-21 ์˜คํ›„ 11.15.18.png

  • OLTP(OnLine Transaction Processing) โ†’ DBMS
    • Transaction ์ค‘์‹ฌ์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์‹œ์Šคํ…œ
    • Transaction
      • ํ•œ๋ฒˆ์— ์ฒ˜๋ฆฌ๋˜์–ด์•ผ ํ•˜๋Š” ๋‹ค๋ˆ„์ด ์ž‘์—…
      • ๋น„๊ต์  ์งง์€ ์ฒ˜๋ฆฌ ์‹œ๊ฐ„(๊ฐ„๋‹จํ•œ query)
      • ์˜ˆ) ๊ณ„์ขŒ์ด์ฒด(2๋ฒˆ์˜ ๋ฐ์ดํ„ฐ ๋ณ€๊ฒฝ)
    • RDBMS์™€ ๊ฐ™์€ ์ €์žฅ ์žฅ์น˜ ํ™œ์šฉ
      • ์—ฐ์‚ฐ : READ, WRITE, UPDATE, DELETE
  • OLAP(OnLine Analytical Processing) โ†’ Data Warehouse
    • ๋‹ค์–‘ํ•œ ๊ฐ๋„(๋‹ค์ฐจ์› ๋ถ„์„ ์งˆ์˜)์—์„œ 1. ์‚ฌ์šฉ์ž๊ฐ€ ์ง์ ‘, 2. ๋Œ€ํ™”์‹์œผ๋กœ, 3. ๋‹ค์–‘ํ•œ ๋„๊ตฌ์˜ ์ง€์›์œผ๋กœ ์ •๋ณด๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ณผ์ •
      • ์ €์žฅ, ๊ด€๋ฆฌ: ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค ์ด์šฉ
      • ์—ฐ์‚ฐ: READ ์ค‘์‹ฌ
      • ๋ถ„์„: Data Mining, Analytics, Decison Making ๋“ฑ (๋ณต์žกํ•œ query) โ†’ Drill down, Roll up, Pivot โ€ฆ
      • Reporting
  • RTAP(Real-Time Analytics Processing) โ†’ Big Data Architecture & technology
    • ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค
      • ๊ณผ๊ฑฐ๋ถ€ํ„ฐ ํ˜„์žฌ๊นŒ์ง€ ์ˆ˜์ง‘๋œ ์ค‘์•™์ง‘์ค‘์ , ์ „์‚ฌ์  ๋ฐ์ดํ„ฐ ์ €์žฅ์†Œ
      • ํ•œ๋ฒˆ ์ €์žฅ๋˜๋ฉด ๋ณ€๊ฒฝ์ด ๊ฑฐ์˜ ์—†์Œ
      • ์ €์žฅ ๋ชฉ์ ์€ ๋ถ„์„(OLAP์™€ ์ƒํ˜ธ์ž‘์šฉ)
      • Business Intelligence(BI)์—์„œ ์ฃผ๋กœ ์‚ฌ์šฉ
    • ๋ฐ์ดํ„ฐ ๋งˆํŠธ
      • ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค์— ์ €์žฅ๋œ ๋ฐ์ดํ„ฐ์˜ subset
      • ํŠน์ • ๋ถ€์„œ, ์‚ฌ์—…ํŒ€ ๋“ฑ (๊ณ ๊ฐ ๋ฐ์ดํ„ฐ ๋งˆํŠธ, ์ž์žฌ ๋ฐ์ดํ„ฐ ๋งˆํŠธ, ์žฌ๋ฌด ๋ฐ์ดํ„ฐ ๋งˆํŠธ ๋“ฑ)
    • ETL(Extract Transform Load; ์ถ”์ถœ ๋ณ€ํ™˜ ์ ์žฌ) Process
      • Extract : OLTP, CRM, SCM, ERP database ๋“ฑ์œผ๋กœ๋ถ€ํ„ฐ ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”์ถœ
      • Transform : ๊ทœ์น™ ๋“ฑ์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ •, ๋ณ€ํ˜•ํ•˜์—ฌ ์›ํ•˜๋Š” ํ˜•ํƒœ๋กœ ๋ณ€ํ™˜
      • Load L ๋Œ€์ƒ ์‹œ์Šคํ…œ์— ๋–ผ์ดํ„ฐ ์ ์žฌ
      • ๋ฐ์ดํ„ฐ ์†Œ์Šค๋กœ๋ถ€ํ„ฐ ์›ํ•˜๋Š” Object๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ์˜ฎ๊ธฐ๋Š” ์ฒ˜๋ฆฌ ๊ณผ์ •
      • ์ผ๋ฐ˜์ ์œผ๋กœ ๋น…๋ฐ์ดํ„ฐ SW๋“ค์€ ETL Process์— ํ•ด๋‹นํ•˜๋Š” ๊ธฐ๋Šฅ ํฌํ•จ
  • Business Intelligence
    • ๊ธฐ์—…์ด๋‚˜ ์กฐ์ง์—์„œ ์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„
      • ๋ฐ์ดํ„ฐ ์›จ์–ดํ•˜์šฐ์Šค ํ™œ์šฉ
    • ๊ธฐ์—…์—์„œ ํ•„์š”๋กœ ํ•˜๋Š” ๋ฐ์ดํ„ฐ์˜ ์˜๋ฏธ(Insights)๋ฅผ ํš๋“
      • ๊ด€๋ฆฌ์ž๋‚˜ ๊ฒฝ์˜์ง„์ด ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก, ๋ถ„์„๊ณผ ํ‘œํ˜„(์‹œ๊ฐํ™”)
      • Dashboard๋‚˜ Reporting tool ๋“ฑ ํ™œ์šฉ

๐Ÿ“Œ ๋น…๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ๊ณผ์ •

๊ณผ์ •์˜์—ญ๊ฐœ์š”
์ƒ์„ฑ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค, ํŒŒ์ผ ๊ด€๋ฆฌ ์‹œ์Šคํ…œ
์™ธ๋ถ€ ๋ฐ์ดํ„ฐ์ธํ„ฐ๋„ท์œผ๋กœ ์—ฐ๊ฒฐ๋œ ํŒŒ์ผ, ๋ฉ€ํ‹ฐ๋ฏธ๋””์–ด, ์ŠคํŠธ๋ฆผ
์ˆ˜์ง‘ํฌ๋กค๋ง๊ฒ€์ƒ‰ ์—”์ง„์˜ ๋กœ๋ด‡์„ ์‚ฌ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘
ETL(Extraction, Transformation, Loading)์†Œ์Šค ๋ฐ์ดํ„ฐ์˜ ์ถ”์ถœ, ์ „์†ก, ๋ณ€ํ™˜, ์ ์žฌ
์ €์žฅNoSQL ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ
์Šคํ† ๋ฆฌ์ง€๋น…๋ฐ์ดํ„ฐ ์ €์žฅ
์„œ๋ฒ„์ดˆ๊ฒฝ๋Ÿ‰ ์„œ๋ฒ„
์ฒ˜๋ฆฌ๋งต๋ฆฌ๋“€์Šค(MapReduce)๋ฐ์ดํ„ฐ ์ถ”์ถœ
ํ”„๋กœ์„ธ์‹ฑ(Processing)๋‹ค์ค‘ ์—…๋ฌด ์ฒ˜๋ฆฌ
๋ถ„์„NLP(Neuro Linguistic Programming)์ž์—ฐ์–ด ์ฒ˜๋ฆฌ
๊ธฐ๊ณ„ ํ•™์Šต(Machine Learning)๊ธฐ๊ณ„ ํ•™์Šต์œผ๋กœ ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด ๋ฐœ๊ฒฌ
์ง๋ ฌํ™”(Serialization)๋ฐ์ดํ„ฐ ๊ฐ„์˜ ์ˆœ์„œํ™”
ํ‘œํ˜„๊ฐ€์‹œํ™”(Visualization)๋ฐ์ดํ„ฐ๋ฅผ ๋„ํ‘œ๋‚˜ ๊ทธ๋ž˜ํ”ฝ์ ์œผ๋กœ ํ‘œํ˜„
ํš๋“(Acquisition)๋ฐ์ดํ„ฐ์˜ ํš๋“ ๋ฐ ์žฌํ•ด์„
  • Google Cloud Platform(GCP)์˜ 4 Stage
    • Insgest(์ˆ˜์ง‘) ; ์›์‹œ ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์ง‘
    • Store(์ €์žฅ)
    • Process and Analyze(์ฒ˜๋ฆฌ์™€ ๋ถ„์„)
    • Explore and Visualize(ํ‘œํ˜„)
  • 5๋‹จ๊ณ„ ์ฒ˜๋ฆฌ ๊ณผ์ •
    • ์ˆ˜์ง‘ : Acquisition(ingest) โœ”๏ธย Collecting, aggregating, moving the bid data
    • ์ €์žฅ : Storage & Database
    • ์ฒ˜๋ฆฌ : Processing โœ”๏ธย batch, streaming, distributed processing
    • ๋ถ„์„ : Analysis โœ”๏ธย algorithm, library & system
    • ํ‘œํ˜„ : Visualization

0๊ฐœ์˜ ๋Œ“๊ธ€