
Data: 조직에 유익한 모든 정보_mail, 스프레드시트, audio, video, idea
digital 상호작용(방문기록, 로그 등)까지 data가 될 수 있다. → 이는 새로운 가치를 창출가능케 한다.
기업들이 data를 모으고 새로운 가치를 창출하는게 digital transformation의 핵심
Google cloud는 경제적인 확장, 축소성, 빠른 탄력성, 자동화, 데이터 엑세스를 제공한다.
Ex) Lcc digital transformation을 통해 식사 탑재량 문제해결, 옷가게 retail업체 → 비즈니스 통찰력, data cloud solution → smart factory
→ data를 활용해서 기업들은 새로운 가치를 창출할 수 있다.
data를 식별하고 mapping하는게 시작이다 → 각각의 bucket을 통해 data의 통찰력을 얻음 // Bucket: Data의 카테고리
어떻게 통찰력을 찾을 것인가? → Bucket 들의 교차점 찾기
→ 다양한 data set을 결합해서 좋은 통찰력을 고려하는 훈련이 필요하다.
비정형 데이터: 첨부파일, multimedia file, 조직_구조X, 질적 데이터, called as Blob data
정형 데이터: 관리수월(DB느낌)
API(application program interface)를 통해 비정형 데이터로부터 통신할 수 있다.
ex) Bloomberg: google transltor api이용 여러개국 언어로 번역 송출(가치 창출)
→ 정형, 비정형데이터에 관한 이해와, 어떤 API를 사용해 data를 분석해 통찰력을 얻을 수 있는지 알면, 비즈니스 모델에 적용해 비즈니스적 통찰력을 얻을 수 있다.
→ 데이터 수집의 고려사항(윤리적 + 보안)
데이터를 어떻게 수집하고, 출처가 어디고, 어디에 저장할지는 데이터 보안과 개인정보보호 측면에서 중요한 고려사항이다.
비정형 데이터를 손댈때는 윤리적 고려사항 측면에서 분석이 복잡하다.
→ 데이터를 활용할 때는 무의식적인 편견을 제거할 수 있는 전략들이 필요하다.
→ 클라우드로 데이터를 옮겼을때 장점
→ 클라우드로 데이터를 옮기지 않았을 때
적절한 cloud api를 사용해서 기업들은 다양한 가치 창출이 가능하다. 단지 하나만 이용하는 게 아니다.
Data integrity_데이터 무결성(정확성, 일관성) // DB오류검사 계속, roll-back기능
Scale_ 확장성
Cloud SQL
- RDBMS(관계형 데이터베이스 관리 시스템)
설치되면서 자동 확장, 축소 가능
Google에서 fetch, update, back-up 등등 대신해줌
Cloud Spanner
- DB 전세계 자동 복사, 복제
안정적
각 나라에서 접속시 짧은 latency
Database → Data Warehouse(database를 포함한 여러 소스로부터 수집)
Database: 다양한 소스, 대량의 정보 수집, 개별적 data축적
Data Warehouse: 대규모, 다차원 set, 신속하게 분석, 광범위한 data빠르게 분석
→ 데이터 변환, 통합, 분석에 최적 but 유연성 한계
→ 모든 비즈니스 데이터를 위한 중앙허브, 모든 비정형/정형 데이터 수집, 분석, 종합
BigQuery
- Google cloud data warehouse
peta byte 단위 데이터 처리 가능
합리적 가격
serverless // computing resource가 필요할 때만 사용
Pub/Sub - bigquery data전송 서비스
DataFlow
Cloud Storage
- Cloud lake
대용량 개체, low latency- Cloud storage class
→ Nearline storage: Multimeda, file, back-up, 한달에 한번 이상 엑세스 하는 파일
→ Coldline storage: 분기에 한 번 엑세스하기에 적합한 파일
→ Archive storage: back up data, 1년에 한 번 엑세스 할까 말까
Looker
- 마케터들이 주로 사용
data 분석 platform
→ 여러가지 솔루션들이 결합되었을때 새로운 비즈니스 가치 창출 가능
기계학습 ← data에 대한 이해 기반(과거의 data)
AI - 일반적인 인간의 지능이 필요한 모든종류의 광범위한 의사결정
ML - AI의 특정 한 분야, data를 통해 학습하고 학습된 data를 통해 예측가능한 컴퓨팅, 알고리즘 기반.
정답의 예를 컴퓨터에 계속 학습
비즈니스분야에서 머신러닝을 이용하려면 충분한 데이터 셋이 필요하고 이를 처리할 수 있는 컴퓨팅 처리 능력이 필요하고 무엇보다 데이터 퀄리티가 중요하다.
많은 양의 data도 중요하지만 << data의 품질이 더 중요.
프로그램에서 버그도 많이 발생하지만 데이터에서 버그가 훨씬 빈번함.
Data의 품질은 양이 많으면 어느정도 해결, So 우리는 data를 수집하는데 그 목적, data를 모으는 솔루션에 집중 → Cloud
Cloud & ML
데이터 분석, 전체 기계학습 워크 플로우 제공 (꾸며진 data set, 다양한 model) → 인공지능의 민주화추구
AI solution ← 모든 타겟들 위해 구축
머신러닝은 구글 클라우드 인프라 위에서 구축됨
ML의 위치
1. IT infrastructure > 2, Data analytics > 3. Machine Learning
전체적인 수준에서 도구를 제공하는 솔루션이다.