I. 빅데이터 분석 기획 ─ 단원 종합 문제

‍박예서·2022년 5월 27일
0
  1. ( ___ )은 / 는 사용자의 의사 결정에 도움을 주기 위하여 기간 시스템의 DB에 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터 베이스이다.

    정답
    Data Warehouse
  2. ( ___ )은/는 서버*클라이언트 방식으로 로컬 혹은 원격의 수집 대상 시스템과 1:1로 파일과 디렉토리를 동기화하는 응용 프로그램 활용 기술이다.

    정답
    Rsync
  3. 다음은 데이터 수집 기술에 대한 설명이다. 괄호( )안에 공통적으로ㅗ 들어갈 가장 올바른 용어를 쓰시오

    • ()은/는 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 대응되는 액션을 수행하는 처리 기술이다.
    • ()을/를 통해 실시간 상황에서 의미 있는 이벤트를 파악하고 가능한 빨리 대응할 수 있다.
    정답
    CEP = Complex Event Processing
  4. 커넥터 Connector 를 사용하여 관계형 데이터베이스 RDB와 하둡 Hadoop 간 데이터를 수집하고 전송하는 기술은 무엇인가?

    정답
    스쿱 Sqoop
  5. 대량의 자료를 처리할 수 있는 대형 컴퓨터 클러스터에서 동작하고 분산 응용 프로그램을 지원하는 오픈소스 자바 소프트웨어 프레임워크는 무엇인가?

    정답
    하둡 Hadoop
  6. 웹 사이트를 크롤링하여 구조화된 데이터를 수집하는 파이썬 python 기반의 애플리케이션 프레임워크로서 데이터 마이닝, 정보 처리, 이력 기록 같은 다양한 애플리케이션에 사용되는 비정형 데이터 수집 기술은 무엇인가.

    정답
    스크래파이 Scrapy
  7. 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계 규칙이나 패턴을 찾아내는 방법은?

    정답
    데이터 마이닝
  8. (___)은/는 대용량 실시간 로그 처리를 위해 기존 메시징 시스템과 유사하게 레코드 스트림을 발행 Publish, 구독 Subscribe 하는 방식의 분산 스트리밍 플랫폼 기술

    정답
    아파치 카프카
  9. 아래는 데이터 수집 기술에 대한 설명이다. 괄호 안에 들어갈 가장 올바른 용어를 쓰시오.

    (___)은/는 다수의 수집 대상 서버로부터 실시간 데이터를 수집하여 분산 시스템에 데이터를 저장하는 대용량 실시간 로그 수집 기술

    정답
    스크라이브
  10. 대규모 분산 시스템 모니터링을 위해 에이전트와 컬렉터 구성을 통해 데이터를 수집하고 수집된 데이터를 하둡 파일 시스템 HDFS에 저장하는 기능을 제공하는 데이터 수집 기술은?

    정답
    척와 Chukwa
  11. 빅데이터 수집 시스템에서 수집 대상이 되는 데이터를 저장 형태 관점에서 분류했을 때 센서 데이터, HTTP 트랜잭션, 알람 등과 같이 네트워크를 통해 실시간으로 전송되는 데이터 유형은?

    정답
    스트림 데이터
  12. 데이터 비식별화 처리 기법 중 아래에서 설명하는 기법은?

    수집된 정보에 민감한 개인 정보가 있을 경우 데이터 집합 혹은 부분으로 집계 처리를 하여 민감성을 낮추는 방법

    정답
    총계 처리 Aggregation
  13. 아래에서 설명하는 것은 무엇인가?

    • 추가 정보의 사용 없이는 특정 개인을 알아볼 수 없게 조치한 정보
    • 다음 목적에 동의 없이 활용 가능 (EU GDPR 반영)
      1) 통계 작성(상업적 목적 포함)
      2) 연구(산업적 목적 포함)
      3) 공익적 기론 보존 목적 등
    정답
    가명 정보
  14. 아래에서 설명하는 DB 저장 기술은 무엇인가?

    하나의 데이터베이스를 여러 개의 서버 상에 분산하여 구축하는 저장기술로 데이터를 통합할 때 성능과 가용성의 향상을 위해 데이터베이스 파티셔닝 등을 이용

    정답
    데이터 클러스터
  15. NoSQL 제품 중 HDFS 기반으로 구현된 칼럼 기반의 분산 데이터베이스로 비관계형이며 SQL을 지원하지 않은 특성이 있고 관계형 데이터베이스 RDBMS 와 달리 수평적으로 확장성이 있으 큰 테이블에 적합한 제품은 무엇인가.

    정답
    Hbase
  16. 괄호(___)안에 올바른 용어를 쓰시오

    (___)은/는 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 것으로 도수분포표를 그래프로 표현한 형태이다.

    정답
    히스토그램
  17. 오픈 소스 소프트웨어로 제작된 칼럼 기반 스토리지로 아파치 하둡 환경의 데이터 처리 프레임 워크 대부분과 호환이 가능하고 특정 칼럼에 대한 데이터 읽기를 고속화 할 수 있는 특징이 있는 하둡 에코 시스템은 무엇인가

    정답
    쿠두
  18. 리소스 관리와 컴포넌트 처리를 분리한 하둡 2.0 에 도입된 분산 클러스터 리소스 관리 플랫폼은 무엇인가?

    정답
    Yarn
  19. 아래에서 설명하는 하둡 에코시스템은 무엇인가?

    • 대용량 데이터 집합으로 분석하기 위한 플랫폼으로 하둡을 이용하여 맵 리듀스를 사용하기 위한 높은 수준의 스크립트 언어인 피그 라틴이라는 자체 언어를 제공한다.
    • 맵 리듀스 API를 매우 단순화 시키고 SQL과 유사한 형태로 설계
    정답
    피그
  20. 괄호 안에 공통적으로 들어갈 용어를 쓰시오

    • (___) 은/는 데이터 현황 분석을 위한 자료 수집을 통해 잠재적 오류 징후를 발견하는 방법이다.
    • (___) 은/는 데이터의 저장, 연계, 가공, 활용 등 데이터 변경이 발생하는 모든 영역에서 수행하여 오류를 사전에 파악할 수 있다.
    정답
    데이터 프로파일링
  21. 인 메모리 In Memory 기반으로 빅데이터 워크로드에 주로 사용되는 오픈 소스 분산 처리 시스템으로 빠른 성능을 위해 인 메모리 캐싱을 사용하고 스트리밍 데이터 처리, 온라인 러닝머신, SQL 질의 처리, 그래프 라이브러리 처리 등 실시간 데이터 처리가 가능한 하둡 에코시스템은 무엇인가?

    정답
    아파치 스파크
  22. 아래는 하둡 에코시스템에 대한 설명이다. 괄호 안에 들어갈 가장 올바른 시스템을 쓰시오

    (___)은/는 하둡 기반의 데이터 웨어하우스 솔루션으로 사용자가 SQL 로 쿼리를 작성하면 내부적으로 맵리듀스로 변환되어 실행

    정답
    하이브 Hive
  23. 하둡 기반 대용량 데이터를 SQL 형태 명령을 통해 분산 분석 작업을 지원하는 대용량 데이터 웨어하우스로 하둡의 HDFS을 메인 저장소로 활용하고 다양한 파일 형태와 압축을 지원하며 ANSI-SQL 표준 준수 및 자동 최적화를 지원하는 하둡 에코시스템은 무엇인가?

정답
타조
  1. (___) 은/는 하둡 작업을 관리하는 워크플로우 및 코디네이터 시스템으로 자바 서블릿 컨테이너에서 실행되는 자바 웹 애플리케이션 서버로 맵 리듀스나 피그와 같은 특화된 액션 들로 구성된 워크 플로우를 제어한다. 괄호 안에 들어갈 가장 정확한 하둡 에코시스템은 무엇인가?
정답
우지
  1. 다음은 데이터 수집 기술에 대한 설명이다. 괄호 안에 들어갈 기술은 무엇인가.

    (___)은/는 데이터 백업이나 통합 작업을 할 경우, 최근 변경된 데이터들을 대상으로 다른 시스템으로 이동하는 기술로 실시간 백업과 데이터 통합이 가능하여 24시간 운영해야 하는 업무 시스템에 활용

    정답
    CDC = Change Data Capture
  2. 웹상에 존재하는 데이터를 개별 URI(Uniform Resource Identifier)로 식별하고 각 URI에 링크 정보를 부여함으로써 상호 연결된 웹을 지향하는 오픈 데이터는 무엇인가?

    정답
    LOD = Linked Open Data

0개의 댓글