[IBM data analyst]-The Data Ecosystem and Languages for Data Professionals

sir.YOO_HWAN·2022년 7월 17일
0
post-custom-banner
  • 데이터의 구조가 얼마나 잘 정의되었는지에 따라 데이터는 구조화, 반구조화 또는 비구조화로 분류
  • 반정형 데이터는 일관된 특성을 가진 데이터와 경직된 구조를 따르지 않는 데이터가 혼합됨
  • 비정형 = 행과 열로 축소할 수 없는 복잡하고 대부분 질적 정보인 데이터입니다. 예를 들어, 사진, 비디오, 텍스트 파일, PDF 및 소셜 미디어 콘텐츠.

Types of Data

  • 일반적으로 데이터는 의미를 도출하기 위해 해석될 수 있는 사실, 관찰, 인식, 숫자, 문자, 기호 및 이미지로 구성
  • 구조화된 데이터 소스에는 다음이 포함될 수 있습니다. 비즈니스 트랜잭션에 중점을 둔 SQL 데이터베이스 및 온라인 트랜잭션 처리(또는 OLTP) 시스템, Excel 및 Google 스프레드시트와 같은 스프레드시트, 온라인 양식, GPS(Global Positioning Systems) 및 라디오와 같은 센서 주파수 식별(또는 RFID) 태그 및 네트워크 및 웹 서버 로그
  • 반구조화된 데이터 소스에는 이메일, XML 및 기타 마크업 언어, 바이너리 실행 파일, TCP/IP 패킷, 압축 파일, 다양한 소스의 데이터 통합이 포함될 수 있습니다
  • 비정형 데이터 소스에는 다음이 포함될 수 있습니다. 웹 페이지, 소셜 미디어 피드, 다양한 파일 형식(예: JPEG, GIF 및 PNG)의 이미지, 비디오 및 오디오 파일, 문서 및 PDF 파일, PowerPoint 프레젠테이션, 미디어 로그; 및 설문 조사

Summary and Highlights
In this lesson, you have learned the following information:

A data analyst ecosystem includes the infrastructure, software, tools, frameworks, and processes used to gather, clean, analyze, mine, and visualize data.

Based on how well-defined the structure of the data is, data can be categorized as:

Structured Data, that is data which is well organized in formats that can be stored in databases.

Semi-Structured Data, that is data which is partially organized and partially free form.

Unstructured Data, that is data which can not be organized conventionally into rows and columns.

Data comes in a wide-ranging variety of file formats, such as delimited text files, spreadsheets, XML, PDF, and JSON, each with its own list of benefits and limitations of use.

Data is extracted from multiple data sources, ranging from relational and non-relational databases to APIs, web services, data streams, social platforms, and sensor devices.

Once the data is identified and gathered from different sources, it needs to be staged in a data repository so that it can be prepared for analysis. The type, format, and sources of data influence the type of data repository that can be used.

Data professionals need a host of languages that can help them extract, prepare, and analyze data. These can be classified as:

Querying languages, such as SQL, used for accessing and manipulating data from databases.

Programming languages such as Python, R, and Java, for developing applications and controlling application behavior.

Shell and Scripting languages, such as Unix/Linux Shell, and PowerShell, for automating repetitive operational tasks.

profile
data analyst
post-custom-banner

0개의 댓글