데이터 확보 전략

김지예·2023년 3월 22일

AI이노베이션 AI혁신 data scale api 데이터 관리 시스템 데이터확보전략

Data

목록 보기

1/2

데이터 관리에 대한 선순환 체계

데이터 선순환 체계가 잘 잡혀 있을수록 데이터의 품질과 비즈니스 성과는 지속적으로 향상한다.

견고한 데이터 관리 체계는
자신이 쓰는 데이터에 대한 신뢰와 연결되고
이는 제품과 서비스에 대한 자신감에도 고스란히 영향을 준다.

신경써야 할 것

데이터 확보, 데이터 품질 관리, 데이터 활용 등 시스템으로 갖추어야 함
충분한 데이터를 확보하고 필요한 핵심 데이터를 꾸준히 생성
확인되지 않은 데이터나 왜곡된 데이터는 사용하지 않아야 함
의사결정 단계에서 데이터의 왜곡을 탐지할 수 있는 관리체계 필요
잘못사용 할 경우: 복구 비용, 신뢰 손실 비용, 잘못된 의사결정 손실 비용 발생

데이터 확보 단계에서 중요하게 고려해야 할 사항

학습에 최적화된 형태로 가공해서 활용도를 높이는 것이다.

starbucks siren order
인공지능 학습 데이터: 활동 데이터, 결제방식, 커피 주문, 추이, 취소 경향 등

Google
일상 데이터

데이터의 정확성과 일관성: 수집한 데이터가 정확하고 일관성 있는지 확인해야 합니다. 데이터의 오류와 중복 등의 문제가 발생하면, 이후 데이터 분석 및 활용 과정에서 문제가 발생할 수 있습니다.
데이터의 다양성: 데이터의 다양성은 분석 결과의 질을 결정하는 중요한 요소 중 하나입니다. 따라서 다양한 종류의 데이터를 수집하여 다양한 각도에서 데이터를 분석하고 활용할 수 있도록 해야 합니다.
데이터 보안: 데이터를 수집할 때, 데이터 보안에 대한 고려도 필요합니다. 데이터가 보호되지 않으면, 해킹과 같은 사이버 공격의 위험에 노출될 수 있습니다. 이에 따라, 데이터 보안을 강화하는 방법과 데이터 접근 권한을 제어하는 방법을 구체적으로 검토해야 합니다.
데이터의 미래 가치: 데이터는 시간이 지날수록 가치가 증가할 수 있습니다. 따라서 수집한 데이터가 나중에 어떤 용도로 사용될 수 있는지, 미래에 어떤 가치가 될 수 있는지 미리 고려하여 데이터를 수집하면 더욱 효율적인 데이터 활용이 가능합니다.
데이터의 활용 가능성: 수집한 데이터를 활용할 수 있는 방안을 고려해야 합니다. 데이터가 어떻게 활용될 수 있는지 사전에 계획하고 수집한 데이터를 그에 맞게 가공하여 저장하면, 데이터를 효과적으로 활용할 수 있습니다.
데이터 접근성: 수집한 데이터가 필요한 사람들이 쉽게 접근할 수 있도록 데이터를 구조화하고 관리해야 합니다. 데이터를 저장할 때 일관된 형식과 구조를 사용하여 데이터 접근성을 높일 수 있습니다.
how?
데이터 확보 전략 수집
소싱 채널 구축
고객으로부터 깊이 있는 데이터와 이를 통해 인사이트를 얻음

데이터 부재의 상황에서는?

도입기의 기업에 경우, 고객의 데이터가 없다면?

전략적 극복 가능
고객 기반이 없는데도 데이터를 생성 할 수 있도록 지원하는 툴이 있다!

Apptest.ai
- 출시를 준비하고 있는 어플리케이션 데이터 요구상황을 제시하면 인공지능 소프트웨어 로봇이 어플리케이션의 각 기능과 사용 흐름 확인 후 사람처럼 직접 실행 함
- 어플을 실행하면서 얻게되는 사용 프로세스 사용자 경험 퍼포먼스 데이터를 생성 
- 인간과 유사한 로봇 설정이 가능하기 때문에 고품질의 학습 데이터를 단기간에 확보 가능

바로 이용할 수는 없지만 잘 다듬으면 아주 중요한 데이터가 될만한것들이 있다.
로우 데이터: 미가공된 원시적인 정보

로우 데이터를 인공적인 학습에 이용할 수 있는 학습 데이터로 자동 변환해주는 플랫폼이 만들어짐

scale api: 인공지능 개발용 학습 데이터를 생성해주는 플랫폼
api를 통해서 로우 데이터를 보내면 다양한 도구로 데이터를 검토하고 머신러닝 학습에 활용할 수 있는 학습데이터로 변환. 요구되는 기준 사양에 95% 정확도로 정제된 데이터 확보 가능

infrrd: 문자 인식 기술을 이용해서 종이 문서에 있는 데이터를 AI 학습에 사용될 수 있는 데이터로 변환
회사 문서

동영상, 이미지, 태깅 자동 태깅 플랫폼
cooch AI

데이터 소싱의 분산이 낳는 문제

데이터 소싱의 분산은 알고리즘을 학습하는 과정에 방해가 될 수 있다.

여러 시스템에서 소스 데이터에 엑세스 할 떄 기술 통합, 변경 제어 - 실제 데이터를 사용해서 학습에서 스무스하게 연결되도록 하는데 장애

데이터는 인공지능 솔루션에 대한 커다란 방향에 맞춰 일관된 데이터 확보전략을 취해야 한다.
전반적인 전략을 세야함
단순히 원하는 데이터를 손에 쥐었다고 해서 데이터 확보가 끝났다고 봐서는 안된다.
데이터 확보: 퀄리티 높은 데이터를 준비하는 것을 완료하는 것

데이터의 퀄리티를 결정하는 요인

AI 경쟁력은 데이터 퀄리티의 경쟁력

데이터 크기
: AI 학습을 충분히 시킬 수 있을 정도로 방대한 양의 데이터 확보
데이터 시의성 및 생성의 지속성
: 데이터의 신선도
데이터 다양성
데이터 편향성
적절한 속성의 정의 (레이블링: 데이터의 속성 지정, 데이터 학습과 분류의 기초)
: 레이블링이 잘 지정된 데이터는 양이 적다 하더라도 양 많은 지저분한 데이터보다 우수한 정확도를 제공
데이터 관리 시스템

출처: 정두희 교수의 [AI 이노베이션] - 임팩티브 AI

김지예

배낭여행자 도로시, 주변을 살피며 걷는 중입니다. (소개글을 참고해 주세요 찡긋)

다음 포스트