02 Innovating with Data and Google Cloud

Bean·2023년 9월 13일
post-thumbnail

The Value of Data

The role of data in digital transformation

Data: 조직에 유익한 모든 정보_mail, 스프레드시트, audio, video, idea

digital 상호작용(방문기록, 로그 등)까지 data가 될 수 있다. → 이는 새로운 가치를 창출가능케 한다.

기업들이 data를 모으고 새로운 가치를 창출하는게 digital transformation의 핵심

Google cloud는 경제적인 확장, 축소성, 빠른 탄력성, 자동화, 데이터 엑세스를 제공한다.

Ex) Lcc digital transformation을 통해 식사 탑재량 문제해결, 옷가게 retail업체 → 비즈니스 통찰력, data cloud solution → smart factory

Leveraging data in your organization

→ data를 활용해서 기업들은 새로운 가치를 창출할 수 있다.

data를 식별하고 mapping하는게 시작이다 → 각각의 bucket을 통해 data의 통찰력을 얻음 // Bucket: Data의 카테고리

어떻게 통찰력을 찾을 것인가? → Bucket 들의 교차점 찾기

→ 다양한 data set을 결합해서 좋은 통찰력을 고려하는 훈련이 필요하다.

Understanding data types

비정형 데이터: 첨부파일, multimedia file, 조직_구조X, 질적 데이터, called as Blob data

정형 데이터: 관리수월(DB느낌)

API(application program interface)를 통해 비정형 데이터로부터 통신할 수 있다.

ex) Bloomberg: google transltor api이용 여러개국 언어로 번역 송출(가치 창출)

→ 정형, 비정형데이터에 관한 이해와, 어떤 API를 사용해 data를 분석해 통찰력을 얻을 수 있는지 알면, 비즈니스 모델에 적용해 비즈니스적 통찰력을 얻을 수 있다.

Important data considerations

→ 데이터 수집의 고려사항(윤리적 + 보안)

데이터를 어떻게 수집하고, 출처가 어디고, 어디에 저장할지는 데이터 보안과 개인정보보호 측면에서 중요한 고려사항이다.

비정형 데이터를 손댈때는 윤리적 고려사항 측면에서 분석이 복잡하다.

→ 데이터를 활용할 때는 무의식적인 편견을 제거할 수 있는 전략들이 필요하다.

Data Consolidation and Analytics

Migrating your data to the cloud

→ 클라우드로 데이터를 옮겼을때 장점

  • 마치 돈을 은행에 예치한 것과 같은 효과 // 안정성 + 보관된 데이터로 가치 창출
  • Data storage, computer perfomace flexibility
  • data 처리속도 // cloud computing을 통해 빠르게 처리 가능
  • 컴퓨팅 상호작용 분석해서 바로적용

→ 클라우드로 데이터를 옮기지 않았을 때

  • 기회비용(새로운 비즈니스 가치창출에 집중불가)
  • 서비스 downtime 문제

적절한 cloud api를 사용해서 기업들은 다양한 가치 창출이 가능하다. 단지 하나만 이용하는 게 아니다.

Cloud databases

Data integrity_데이터 무결성(정확성, 일관성) // DB오류검사 계속, roll-back기능

Scale_ 확장성

Cloud SQL

  • RDBMS(관계형 데이터베이스 관리 시스템)
    설치되면서 자동 확장, 축소 가능
    Google에서 fetch, update, back-up 등등 대신해줌

Cloud Spanner

  • DB 전세계 자동 복사, 복제
    안정적
    각 나라에서 접속시 짧은 latency

Cloud data Warehouses

Database → Data Warehouse(database를 포함한 여러 소스로부터 수집)

Database: 다양한 소스, 대량의 정보 수집, 개별적 data축적

Data Warehouse: 대규모, 다차원 set, 신속하게 분석, 광범위한 data빠르게 분석

→ 데이터 변환, 통합, 분석에 최적 but 유연성 한계

→ 모든 비즈니스 데이터를 위한 중앙허브, 모든 비정형/정형 데이터 수집, 분석, 종합

BigQuery

  • Google cloud data warehouse
    peta byte 단위 데이터 처리 가능
    합리적 가격
    serverless // computing resource가 필요할 때만 사용
    Pub/Sub - bigquery data전송 서비스
    DataFlow

Cloud data lakes

  • Data lake // data 크기와 상관없이 종류와 상관없이 받아들이는 storage
    data warehouse의 유연성의 한계를 극복한 것
  • Structured data - Cloud SQL, Cloud Spanner, Big Query
  • Semi-structured - Cloud Datastore, Cloud Bigtable
  • Unstructured - Cloud storage(Cloud lake)

Cloud Storage

  • Cloud lake
    대용량 개체, low latency
  • Cloud storage class
    → Nearline storage: Multimeda, file, back-up, 한달에 한번 이상 엑세스 하는 파일
    → Coldline storage: 분기에 한 번 엑세스하기에 적합한 파일
    → Archive storage: back up data, 1년에 한 번 엑세스 할까 말까

Business intelligence solutions

Looker

  • 마케터들이 주로 사용
    data 분석 platform

→ 여러가지 솔루션들이 결합되었을때 새로운 비즈니스 가치 창출 가능

Innovation with Machine Learning

What is machine learning?

기계학습 ← data에 대한 이해 기반(과거의 data)

AI - 일반적인 인간의 지능이 필요한 모든종류의 광범위한 의사결정

ML - AI의 특정 한 분야, data를 통해 학습하고 학습된 data를 통해 예측가능한 컴퓨팅, 알고리즘 기반.

정답의 예를 컴퓨터에 계속 학습

비즈니스분야에서 머신러닝을 이용하려면 충분한 데이터 셋이 필요하고 이를 처리할 수 있는 컴퓨팅 처리 능력이 필요하고 무엇보다 데이터 퀄리티가 중요하다.

Data Quality

많은 양의 data도 중요하지만 << data의 품질이 더 중요.

프로그램에서 버그도 많이 발생하지만 데이터에서 버그가 훨씬 빈번함.

  • Qualities of good data
    • It has coverage // 적용범위
    • It’s clean // 무결성, 일관성
    • It’s complete // 완전성
    1. Data Coverage
      Refers to the domain scope and all possible scenarios the data can account for.
    2. Data Cleanliness ← data가 일관성이 있어야 한다.
      data consistency, inconsistency in data refers to anything that can prevent the model from making accurate predictions or understanding data behavior.
    3. Data Completeness
      Refers to the availabilty of sufficient data about the world to replace human knowledge.
      인간의 지식을 대체할 수 있는 충분한 data의 가용성 - 많이 - 좁게 아닌 전체

Data의 품질은 양이 많으면 어느정도 해결, So 우리는 data를 수집하는데 그 목적, data를 모으는 솔루션에 집중 → Cloud

AI and ML with Google Cloud

Cloud & ML
데이터 분석, 전체 기계학습 워크 플로우 제공 (꾸며진 data set, 다양한 model) → 인공지능의 민주화추구

  1. Pre-trained APIs
    학습을 시켜놓은 data-set // 트레이닝 데이터가 없을때
    커스터마이징 불가
    ML 전문지식 무관
    4 Category - site, language, conversation, structured data
  2. Vertex AI - AutoML
    Data-set : 존재
    Coding : 불가
    커스터마이징 가능
  3. Vertex AI - Custom model tooling
    AI hub, AI plug-in
    완벽히 커스터마이징된 모델에는 전문적인 data scientist, develpoer needed

AI solution ← 모든 타겟들 위해 구축
머신러닝은 구글 클라우드 인프라 위에서 구축됨

ML의 위치
1. IT infrastructure > 2, Data analytics > 3. Machine Learning
전체적인 수준에서 도구를 제공하는 솔루션이다.

Real-world use cases for ML

  1. Replacing rule-based systems
  2. Automating processes → 생산성 향상
  3. Understaning unstructured data → 비정형 데이터 분류가능(ex 이메일 내용에 따라 분류)
  4. Personalizing applications → 개인맞춤형 유튜브 알고리즘 or 쇼핑 추천
profile
콩야쿵야

0개의 댓글