정답
클라우드 컴퓨팅은 빅데이터 분석에 필요한 대규모의 컴퓨팅 리소스를 탄력적으로 확보할 수 있게 해주며, 기업들이 대규모 인프라를 직접 구축하고 유지할 필요 없이 분석 서비스를 이용할 수 있게 함으로써 경제성을 크게 향상시켰습니다.
2.다음 중 비즈니스에 분석을 적용할 때 효과적인 분석 적용 대상에 대한 검토와 관련된 설명으로 가장 부적절한 것은?
① 사업적 잠재력만이 아니라 데이터 및 필요한 자원이 이용 가능한지를 고려해 대상을 택한다.
② 조직이 분석을 배우는 동안에는 분석의 노력을 가능한 다양한 대상에 기울이도록 한다.
③ 업계 상황에 한정해서 바라보지 말고 더 넓은 시야에서 차별화를 고려한다.
④ 무엇이 가능한지 발견하기 위한 실험을 망설이지 말고 분석기회에 대한 직관을 무시하지 않는다.
정답
조직이 분석을 도입하는 시기에는 분석의 노력을 너무 많은 대상에 기울이지 말고, 한가지
주요한 대상이나 몇 가지 작은 대상에 몰두하는 것이 바람직하다
다음 중 기업내부 데이터베이스의 활용과 가장 관련이 없는 것은?
① CRM(Customer Engagement Management) - 고객 참여 관리를 통해 고객 데이터를 분석하고 관계를 강화한다.
② ERP(Enhanced Resource Planning) - 향상된 자원 계획을 통해 기업 자원의 효율성을 극대화한다.
③ ITS(Intelligent Transport Systems) - 교통 흐름과 관련된 정보를 제공한다.
④ KMS(Knowledge Management Solutions) - 지식 관리 솔루션을 통해 조직 내 지식의 축적 및 공유를 촉진한다.
정답
기업 내부 데이터베이스는 주로 조직의 내부 업무 효율성, 고객 관리, 자원 계획 및 지식 관리에 활용됩니다. CRM은 고객 데이터를 분석하여 관계를 강화하는 데 사용되고, ERP는 기업 자원의 효율성을 극대화하기 위해, KMS는 조직 내 지식의 축적과 공유를 촉진하는 데 사용됩니다. 반면, ITS는 주로 국가 교통 데이터베이스를 활용하여 교통 정보를 제공하는 시스템으로, 기업 내부 데이터베이스와는 직접적인 연관성이 덜합니다. 따라서 ITS가 기업 내부 데이터베이스의 활용과 가장 관련이 없는 선택지입니다.
데이터 사이언티스트가 갖춰야 할 역량은 빅데이터의 처리 및 분석에 필요한 이론적 지식과 기술적 숙련을 포함하는 하드 스킬(Hard Skill)과 데이터 속에 숨겨진 가치를 발견하고 새로운 발전 기회를 만들어 내기 위한 능력인 소프트 스킬(Soft Skill)로 나누어진다. 다음 중 소프트 스킬에 가장 가까운 것은?
① 알고리즘 설계
② 수리 통계학
③ 데이터 시각화
④ 병렬 처리
정답
데이터 사이언티스트에게 요구되는 소프트 스킬은 기술적인 능력을 넘어서는 것들을 포함합니다. 이는 창의적 사고, 호기심, 비판적 사고, 스토리텔링, 데이터 시각화, 그리고 효과적인 커뮤니케이션 등을 포함할 수 있습니다. 이 중 데이터 시각화는 복잡한 데이터 분석 결과를 이해하기 쉬운 형태로 전달하고, 데이터로부터 스토리를 만들어내는 데 중요한 역할을 하므로, 소프트 스킬에 가장 가깝습니다. 반면, 알고리즘 설계, 수리 통계학, 병렬 처리는 보다 기술적인 하드 스킬에 속합니다.
다음 중 빅데이터의 출현 배경과 가장 거리가 먼 것은?
① 클라우드 컴퓨팅과 같은 온라인 데이터 저장 기술의 발전
② 스마트폰과 같은 모바일 디바이스의 보급
③ 공공 데이터의 개방 가속화
④ 지능형 트래픽 시스템과 같은 도시 인프라의 디지털화
정답
빅데이터의 출현 배경에는 여러 기술적 발전이 기여했는데, 그 중에서도 분산처리 기술, 통신 기술, 그리고 소셜 미디어의 확산이 핵심적인 역할을 했습니다. 공공데이터의 개방은 빅데이터가 출현한 이후에 데이터의 활용도를 높이기 위한 목적으로 강화된 정책 중 하나입니다. 이는 빅데이터의 출현 배경 자체보다는 빅데이터가 널리 활용될 수 있도록 하는 후속 조치에 가깝습니다. 따라서, 의료정보 등 공공데이터의 개방 가속화는 빅데이터 출현 배경과 거리가 멀다고 할 수 있습니다.
다음 중 정량적 데이터(Quantitative data)의 예로서 부적절한 것은?
① 직업
② 강수량
③ 순이익
④ 인플레이션 비율
정답
정량적 데이터는 수치적으로 표현되는 데이터를 말합니다. 강수량, 순이익, 인플레이션 비율은 모두 수치로 표현되어 정량적 분석이 가능한 데이터입니다. '직업'은 정성적 데이터로 수치, 기호, 도형으로 표시되는 정량 데이터로 보기엔 어렵다.
다음 중 빅데이터 분석의 특성에 대한 설명으로 가장 부적절한 것은?
① 더 많은 정보가 더 많은 가치를 창출할 수 있는 것은 아니다.
② 비즈니스의 핵심에 대해 보다 객관적이고 종합적인 통찰력을 줄 수 있는 데이터를 찾는 것이
중요하다.
③ 빅데이터 과제와 관련된 주된 걸림돌은 비용이 아니다.
④ 데이터의 크기가 커질수록 분석을 많이 사용하는 것이 경쟁우위를 가져다주는 원천이 된다.
정답
데이터의 양이 많다고 해서 무조건적으로 경쟁 우위를 확보할 수 있는 것은 아니다. 중요한 것은 데이터의 양보다는 데이터의 질과 분석의 질이다. 적절한 데이터를 활용하여 의미 있는 통찰력을 얻고, 그것을 기반으로 전략적 결정을 내릴 때 경쟁 우위를 확보할 수 있다. 따라서 단순히 데이터의 양을 늘리는 것보다는, 그 데이터를 어떻게 활용하고 분석하는지가 더 중요하다.
다음 SQL 문장을 사용할 때, 출력되는 결과로 옳은 것은 무엇인가?
SELECT CUSTOMER_NAME 고객명, E_CUSTOMER_NAME 고객영문명
FROM CUSTOMER
WHERE E_CUSTOMER_NAME LIKE '_A%';
① 영문명의 첫 번째 문자가 A인 고객들의 이름
② 영문명의 두 번째 문자가 A인 고객들의 이름
③ 영문명에 A라는 문자가 포함된 고객들의 이름
④ 영문명에서 A 문자로 끝나는 고객들의 이름
정답
이 SQL 쿼리에서 LIKE 'A%' 조건은 E_CUSTOMER_NAME이 'A'로 시작하는 것이 아니라, 두 번째 문자가 'A'인 이름을 찾습니다. 여기서 ''는 하나의 임의의 문자를 대신함.
다음 중 구글의 Ngram Viewer는 빅데이터의 어떤 기능을 보여주는 사례라고 할 수 있는가?
① 현미경
② 21세기의 오일(oil)
③ 차세대 산업혁명의 에너지원
④ 플랫폼
정답
Ngram Viewer는 구글이 모든 책을 디지털화하여 검색 가능하게 한 프로젝트의 일환으로 제공되는 서비스입니다. 이 서비스를 이용하면, 특정 단어 또는 문구가 시간에 따라 얼마나 자주 사용되었는지의 빈도를 그래프로 보여줍니다. 이를 통해 특정 시점에서의 언어 사용 패턴을 세밀하게 조사할 수 있으므로, 마치 현미경로 확대해보는 것과 유사한 기능을 수행한다고
데이터(data)와 정보(information)를 구분하는 것은 매우 중요하다. 다음 중 정보로 간주하기에 가장 부적합한 예는 무엇인가?
① 평균 매출액
② 발주 물량
③ 인기 도서 목록
④ 우수 고객 리스트
정답
데이터는 단순히 사건이나 상황의 특징을 나타내는 사실들을 의미하며, 정보는 이러한 데이터가 분석되어 상황에 적합하고 유용한 형태로 전환된 것을 말한다. 발주 물량은 정보가 아닌 원시 데이터의 형태로, 그 자체로는 특정한 상황이나 의사결정에 대한 유의미한 맥락을 제공하지 않는다.
다음 중 데이터웨어하우스에 대한 설명으로 가장 부적절한 것은 무엇인가?(틀)
① 데이터웨어하우스는 기업 내의 의사결정 지원 애플리케이션에 정보 기반을 제공하는 통합된 데이터 저장소이다.
② ETL 프로세스는 데이터를 주기적으로 추출, 변환 후 데이터웨어하우스로 적재한다.
③ 데이터웨어하우스에서 관리하는 데이터는 시간에 따라 변하는 값을 포함한다.
④ 데이터웨어하우스는 전사적 차원에서 접근하는 것이 아니라 특정 부서의 특정 업무에 초점을 맞추어 구축된다.
정답
데이터웨어하우스는 기업 전체의 의사결정을 지원하기 위해 전사적인 정보를 통합하여 제공하는 저장소이다. 재무, 생산, 운영 등 특정 부서나 업무 기능에 초점을 맞추어 구축하는 것은 데이터웨어하우스의 특징인 전사적 차원의 접근과 대조적이며, 이는 오히려 데이터마트의 특성에 가깝다.
최근 사회경제적 환경의 변화에 따라 인문학적 사고의 필요성이 강조되고 있다. 다음 중 이러한 변화와 가장 무관한 것은 무엇인가?
① 세계화의 양상이 단일한 흐름에서 다양한 형태로 진화하고 있다.
② 기업 활동의 초점이 물리적 제품의 제조에서 종합적인 서비스 제공으로 옮겨가고 있다.
③ 산업과 경제의 주된 동력이 단순한 생산에서 혁신적인 시장 창출로 전환되고 있다.
④ 데이터 분석에 의존한 결정이 직관적 판단보다 우선시되고 있다.
정답
해설:
데이터에 기반한 의사결정의 중요성이 커지고 있지만, 이는 인문학적 사고의 필요성과는 직접적인 관련이 없다. 인문학적 사고는 복잡해진 세계에서 다양한 관점을 이해하고, 창의적인 문제 해결과 혁신적인 시장 창출을 가능하게 하는 데 중요하
아래는 데이터의 이용과 분석에 대한 시대별 용어와 그것의 의미를 서로 연결한 것이다.㉠에 들어갈 적절한 용어는?
① 데이터 마이닝(Data Mining)
② 데이터 웨어하우징(Data Warehousing)
③ 비즈니스 인텔리전스(Business Intelligence, BI)
④ 데이터 시각화(Data Visualization)
정답
비즈니스 인텔리전스(BI)는 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구로, 기업의 다양한 데이터를 수집, 분석, 시각화하여 의미 있는 정보로 변환하고 이를 바탕으로 전략적 비즈니스 의사결정을 내릴 수 있게 도와줍니다. 이는 OLAP(Online Analytical Processing)의 다차원 데이터 분석 기능과 Analytics의 통계적 및 수학적 분석 기법과 함께 데이터를 이용하고 분석하는 데 중요한 역할을 하는 기술입니다.
14. 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없도록 변환하는 과정을 무엇이라고 하는가? (틀)
① 데이터 암호화(Data Encryption)
② 데이터 익명화(Data Anonymization)
③ 데이터 통합(Data Integration)
④ 데이터 마스킹(Data Masking)
정답
데이터 익명화(Data Anonymization)는 개인 식별 정보를 포함하는 데이터에서 해당 정보를 삭제하거나 인식할 수 없도록 변환하는 과정을 말합니다. 이는 가명화(pseudonymization), 일반화(generalization), 치환(permutation), 섭동(perturbation) 등의 다양한 기술적 방법을 사용하여 수행됩니다
정답
CLD는 선택(Choice)-이론(Theory)-결과(Consequencence)의 형태로 비즈니스 운영 시나리오를 상세화하여 정의할 수 있다. 선택은 조직이 운영되어야 하는 방식에 대한 의사결정사항으로 정책, 자산, 거버넌스의 유형이 있고 결과는 민감한 결과와 견고한 결과의 유형이 있다. 좋은 CLD는 목표 일치성, 상호 강화, 선순환 구조, 모델의 강건성을 가져야 한다. 비즈니스 모방 이 어려울수록 강건한 비즈니스 모델이다. 견고한 결과는 그 결과를 도출하는 선택에 따라 급속히 변화되지 않으므로 모방이 어렵다. 견고한 결과가 선순환으로 일부로 구성되어 있을 경우 특히 모방이 어렵다. 상호 보완적인 강화 요소가 많은 경우 모방이 어렵다.
16. 다음 중 분석(Analytics)의 업무 프로세스 내재화에 관한 설명으로 가장 부적절한 것은 무엇인가요? (틀)
① 분석을 정보계에서 분리하여 배치 작업처럼 선택적으로 참조하던 것에서 프로세스 실행 시점에 내재화하여 분석 및 의사결정이 자동적으로 이루어지도록 하는 방식
② 집계된 데이터나 주기적으로 수집되는 과거 데이터 중심의 분석에서 벗어나 실시간으로 발생하는 데이터 중심으로 분석을 수행
③ 데이터웨어하우스에서 관리하는 구조화된 데이터를 바탕으로 한 분석 접근법
④ 이벤트가 발생하고 난 후, 프로세스 내에서 의사결정이 이루어지는 시간을 최소화하고, 변화하는 신규 비즈니스 요구에 빠르게 대응할 수 있는 유연성 확보
정답
(3) 해설: 분석 업무 프로세스 내재화는 데이터베이스(Database), 데이터웨어하우스(Data Warehouse)와 같은 구조화된 데이터(Structured Data)에만 국한되지 않고, 업무 수행 시 필요한 비구조화된 데이터(Unstructured Data), 반구조화된 데이터(Semistructured Data)를 포함하여 다양한 유형의 데이터를 활용한 분석이 이루어져야 합니다.
온라인 또는 SNS 상에서 생성되고 저장, 유통되는 개인의 사진이나 거래 정보, 개인의 성향과 관련된 정보에 대해 소유권을 강화하고, 이에 대한 유통 기한을 정하거나 삭제, 수정, 영구적인 파기를 요청할 수 있는 권리의 개념은 무엇인가?
① 정보 자기결정권
② 프라이버시 보호권
③ 잊힐 권리
④ 개인정보 보호권
정답
잊힐 권리(Right to be forgotten)는 디지털 환경에서 개인이 과거의 데이터, 특히 더 이상 현재의 자신을 대표하지 않거나 더 이상 공개되기를 원치 않는 정보에 대해 삭제를 요청할 수 있는 권리를 말합니다. 이 개념은 옥스퍼드대학교 인터넷연구소의 빅토어 마이어 쇤베르거에 의해 처음 언급되었으며, '디지털 환경에서의 지워지지 않는 기록'과 관련된 문제를 해결하고자 하는 것입니다. 이 권리는 인터넷상의 개인정보 관리와 관련하여 중요한 논의 대상이 되고 있습니다.
빅데이터 보안에 대한 접근 방법으로 가장 부적절한 것은 무엇인가?
① 개인정보 및 민감한 데이터는 엄격한 용도 기반 접근 제어를 통해 관리되어야 한다.
② 빅데이터의 특성을 고려하여 보호해야 할 데이터와 보안 수준에 대한 기준을 정의해야 한다.
③ 일시적으로 사용되는 데이터에 대해서는, 해당 데이터의 중요성과 활용 목적에 따라 보안 검사의 강도를 조절할 수 있다.
④ 기관 간 연계를 통해 공유되는 데이터에 대해서는 일률적인 보안 검사를 생략할 수 있다.
정답
특히 기관 간에 공유되는 데이터나 분산된 데이터의 경우, 보안 문제가 더욱 복잡해지기 때문에 일률적인 보안 검사의 생략은 적절하지 않습니다. 오히려 이러한 데이터에 대해서는 더욱 철저한 보안 점검과 관리가 필요합니다
19. 활동 체계 지도(Activity System Map)를 통해 도출된 기업의 전략 테마와 실행 활동을 바탕으로 선택(Choice)-이론(Theory)-결과(Consequence) 형태로 비즈니스 운영 시나리오를 상세화할 수 있다. 이 중 조직이 운영되어야 하는 방식에 대한 경영진의 의사결정 유형이 아닌 것은 무엇인가? (틀)
① 정책(Policy)
② 자산(Asset)
③ 거버넌스(Governance)
④ 전략(Strategy)
정답
활동 체계 지도를 활용한 비즈니스 운영 시나리오 상세화 과정에서 선택은 조직이 어떻게 운영되어야 하는지에 대한 경영진의 의사결정을 의미합니다. 이러한 선택에는 정책(Policy), 자산(Asset), 거버넌스(Governance)의 세 가지 주요 유형이 포함됩니다.
20. 기업의 데이터 분석 도입 수준을 명확하게 파악하기 위해 분석 준비도(Readiness)를 진단하는 것은 중요합니다. 분석 준비도를 측정하기 위한 요소들 중 가장 부적절한 것은?(틀)
① 분석 목표 및 전략
② 분석 기술 및 도구
③ 분석 관련 데이터 거버넌스
④ 분석 인력 및 조직
정답
준비도(Readiness)는 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단방법으로 분석 업무 파악, 분석 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, IT 인프라 영역별로 나누어 일정 수준 이상을 충족하는지 파악하기 위한 진단 방법입니다. 보기 중에서 (3) 분석 관련 데이터 거버넌스는 분명 중요한 요소이기는 하나 더 넓은 범위의 데이터 관리에 대한 전반적인 틀에 해당하는 것으로 분석 준비도를 직접적으로 측정하는 다른 요소에 비해 부적절한 보기라고 할 수 있습니다.
21. 비즈니스 프로세스에 분석을 내재화하는 것을 구현하기 전에 고려해야 할 요소가 아닌 것은?(틀)
① 전체 업무 프로세스에 내재화를 일괄 적용할 준비가 되어 있는지
② 분석 알고리즘(논리)을 어떻게 설계할 것인지
③ 독립적인 정보 시스템과 달리, 비즈니스 운영 시스템에 내장될 수 있는 융합성이 있는지
④ 적절한 시간과 적절한 속도로 대량의 데이터를 분석할 수 있는지
정답
분석을 내재화하고 적용하기 위해 고려해야 할 요소는 다음과 같습니다.
1. 어떤 분석 요소를 어떤 과정에 내재화할 것인가?
2. 분석 알고리즘(논리)을 어떻게 설계할 것인가?
3. 분석 결과를 시각적으로 인식하고 즉시 행동할 수 있도록 어떻게 구성할 것인가?
4. 개인화된 분석 결과를 제공하고 동료들과 쉽게 소통할 수 있냐?
5. 독립적인 정보 시스템과 달리, 비즈니스 운영 시스템에 내장될 수 있는 융합성이 있냐?
6. 회사 외부에서의 접근을 위한 보안 및 다양한 플랫폼이 제공되냐?
7. 적절한 시간과 적절한 속도로 대량의 데이터를 분석할 수 있냐?
8. 회사 내외부의 구조화되고 비구조화된 데이터 소스에 접근할 수 있냐?
22. 데이터 분석을 위한 조직구조의 특성 중 별도의 독립된 분석 전담인력을 현업 부서로 배치하여 전사 차원의 분석업무를 수행하고, 전략적인 중요도에 따라 우선순위를 선정하여 추진이 가능한 반면 비즈니스 부서의 분석업무와 이중화/이원화 될 수 있는 기능성이 있는 조직의 형태는? (틀)
① 분산형 조직구조
② 가상형 조직구조
③ 집중형 조직구조
④ 기능형 조직구조
정답
분석 조직의 인력을 현업 부서에 직접 배치하는 분산형 조직구조 방식
1. 전사적 차원의 분석 업무: 분석 인력이 현업 부서에 직접 통합되면, 그들은 해당 부서의 요구사항과 과제에 대한 깊은 이해를 바탕으로 맞춤형 데이터 분석을 수행할 수 있습니다. 이는 전사적 차원의 목표와 전략에 부합하는 데이터 기반의 의사결정을 촉진할 수 있습니다.
2. 직접적인 커뮤니케이션 및 협업: 분석 인력이 현업 부서에 배치됨으로써, 부서 내 다른 구성원들과의 직접적인 커뮤니케이션이 가능해집니다. 이는 데이터 분석의 방향성과 결과물이 현업의 필요와 긴밀하게 연결되도록 돕습니다.
3. 업무 과다 이원화의 가능성: 그러나 이러한 접근 방식은 업무의 과다한 이원화를 초래할 위험이 있습니다. 분석 인력이 각 현업 부서에 분산되어 배치되면, 각자 다른 프로젝트에 참여하게 되어 조직 전체의 분석 업무에 일관성과 통합성이 결여될 수 있습니다. 이는 중복 작업이나 조정의 어려움으로 이어질 수 있습니다.
정답
빅데이터 분석은 객관적이고 신뢰할 수 있는 데이터에 기반한 의사결정 과정을 가능하게 하여 기업의 경쟁력을 강화하는 데 중요한 역할을 합니다. 이러한 분석은 추측이나 주관적 경험에 의존하는 대신, 실제 데이터를 통해 보다 정확하고 신뢰할 수 있는 인사이트를 제공합니다.
보기 ③에서 언급된 "경험에 따른 추측에 기반한 인사이트를 통해 의사결정하는 방식"은 빅데이터 분석의 핵심 원칙과 상반됩니다. 빅데이터 분석의 주요 목적은 감에 의존하는 대신 데이터와 팩트에 근거하여 보다 명확하고 객관적인 의사결정을 지원하는 것입니다. 따라서, 경험적 추측에 의존하는 방식은 빅데이터 분석을 강조하는 이유로 부적절하다고 볼 수 있습니다.
다른 보기들은 빅데이터 분석을 통해 빠른 행동과 예측(①), 프로세스의 효율화와 성공 DNA의 내재화(②), 그리고 타 기업이 쉽게 모방할 수 없는 독자적인 분석 방식과 노하우의 축적(④)을 강조하고 있어 빅데이터 분석의 중요성을 잘 반영하고 있습니다.
24. 다음 중 Analytics(분석) 업무 프로세스 내재화에 대한 설명으로 적절한 것?(틀)
① 과거에는 독립적으로 운영되었던 분석 프로세스가 이제는 실시간으로 업무 프로세스에 분리되어, 데이터 기반의 의사결정이 보다 신속하게 이루어질 수 있도록 하는 방법
② 집계성 데이터, 주기적으로 수집되는 데이터 중심의 분석 수행
③ 데이터 웨어하우스의 구조적 데이터에 기반을 둔 분석 접근
④ 이벤트 발생으로부터 실행까지의 프로세스 상 의사결정 지연 최소화 및 변화하는 신규 비즈니스 요건 대응의 민첩성을 확보할 수 있음
정답
Analytics 업무 프로세스 내재화의 가장 중요한 측면 중 하나는 실시간 또는 거의 실시간으로 의사결정 지연을 최소화하고, 신속한 비즈니스 요건 대응을 가능하게 하는 것입니다. 이를 통해 조직은 발생한 이벤트에 대응하여 신속한 결정을 내리고, 변화하는 시장 환경에 민첩하게 대처할 수 있습니다. 따라서, ④번 보기가 Analytics 업무 프로세스 내재화에 대한 가장 적절한 설명입니다.
25. 비즈니스 모델 정의를 위한 기업의 핵심 구동력을 파악하기 위해서 가장 먼저 기업의 비즈니스 컨텍스트 분석을 수행한다. 기업들은 기업의 비즈니스 컨텍스트 분석을 통해 시장 트랜드와 규제요소를 고려한 기업의 핵심 구동력을 도출하게 되는데, 다음 중 비즈니스 컨텍스트의 구성요소로 가장 부적절한 것은? (틀)
① 산업 요인 분석
② 시장 요인 분석
③ 주요 트렌드 분석
④ 미시 경제 요인 분석
정답
해설: 비지니스 모델 정의를 위한 기업의 핵심 구동력을 파악하기 위해서는 시장요인, 산업요인, 주요 트렌드, 거시경제 요인에 대한 분석을 통해 기업을 둘러싸고 있는 환경변화에 대한 비즈니스 컨텍스트를 파악한다.
탐색적 데이터 분석의 목적은 데이터를 이해하는 것이다. 다음 중 이에 대한 설명으로 가장 부적절한 것은?
① 데이터에 대한 전반적인 이해를 통해 분석 가능한 데이터인지 확인하는 단계이다.
② 탐색적 데이터 분석 과정은 데이터에 포함된 변수의 유형이 어떻게 되는지를 찾아가는 과정이다.
③ 데이터를 시각화하는 것만으로는 이상점(Outlier) 식별이 잘 되지 않는다.
④ 알고리즘이 학습을 얼마나 잘 하느냐 하는 것은 전적으로 데이터의 품질과 데이터에 담긴 정보량에 달려 있다.
정답
상자그림(Box Plot)등을 그리면 이상치를 식별하기 쉽다.
다음 중 R의 데이터 구조 중 벡터에 대한 설명으로 적절한 것은?
① 벡터는 여러 행과 열을 갖는 m x n 형태의 다차원 직사각형에 데이터를 나열한 데이터 구조이다.(틀)
② 벡터는 하나 또는 여러 개의 스칼라 원소들을 순서대로 나열한 단순한 형태의 집합이다.
③ 벡터(vector)는 모든 원소가 같은 데이터 타입을 갖는 1차원 데이터 구조이다.
④ 벡터는 숫자뿐만 아니라 문자열과 논리값도 포함할 수 있다.
정답
벡터는 데이터를 하나의 열 또는 행으로 나열한 단순한 형태의 집합이다. 이는 하나의 변수에 여러 값을 저장하는 데이터 구조로 이해할 수 있습니다. 예를 들어, 숫자 1, 2, 3, 4를 저장하는 벡터는 c(1, 2, 3, 4)로 표현할 수 있습니다. 따라서 벡터는 스칼라 값들을 순서대로 나열한 형태이며, 이를 통해 데이터를 쉽게 저장하고 조작할 수 있습니다
다음중 연속형 변수의 경우 4분위수, 최소값, 최대값, 중앙값, 평균 등을 출력하고 범주형 변수의 경우 각 범주에 대한 빈도수를 출력하여 데이터의 분포를 파악할 수 있게 하는 함수로 적절한 것은?
① summary 함수
② apply 함수
③ lapply 함수
④ aggregate 함수
정답
R의 summary 함수는 연속형 변수에 대해 최소값, 최대값, 평균, 중앙값, 사분위수 등의 통계 요약 정보를 제공하고, 범주형 변수에 대해서는 각 범주의 빈도수를 출력합니다
29. 아래의 R 프로그래밍을 통해 객체 a에 할당되는 모드가 다른 것을 고르시오.(틀)
① a(-c(”Choi”, “Kim”, “Choi”)
② a(-c(pi, “pi”, 3.14)
③ a(-c(3.14, pi, TRUE)
④ a(-c(”A”, “B”, “A”, “A”, “B”)
정답
③번에서 a에 할당되는 값들은 숫자와 논리값이 혼합되어 있으므로 R에서는 이를 모두 숫자로 취급합니다. 나머지 선택지들은 모두 문자열로 변환되므로, ③번이 다른 모드를 갖게 됩니다.
정답
휴면고객은 일정 기간 동안 거래가 없거나 평균 거래 주기를 현저히 초과한 고객을 말합니다. 이러한 고객들은 특별한 관리가 필요할 수 있으며, 다양한 마케팅 전략을 통해 다시 활성화시킬 수 있습니다
32. 결측치에 대한 설명 중 부적절한 것은?(틀)
① 해당 칸이 비어 있는 경우, 결측치 여부를 쉽게 알 수 있다.
② 관측치가 있지만 실제로는 기본값이 기록된 경우에도 결측치로 처리하는 것이 바람직하다.
③ 결측치가 있는 경우 다양한 대체(Imputation) 방법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있다.
④ 결측치를 모두 제외하고 분석하는 경우 통계적 편향이 생길 수 있다.
정답
관측치가 기록된 값을 결측치로 처리하여 분석에 활용하는 것은 옳지 않다. Default 값이 기록된 경우라도 그 값의 의미를 가지고 있기 때문에 결측치로 처리하면 분석에 큰 오류로 적용할 수도 있다.
정답
확률변수 X가 연속적인 숫자 값을 갖는 경우, 해당 확률분포함수는 연속형 확률 밀도 함수라고 합니다. 이산형 확률변수의 경우는 확률 질량 함수를 가집니다.
34. 표본조사에 대한 설명 중 가장 부적절한 것은?(틀)
① 표본오차(sampling error)는 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출되지 못함으로서 발생하는 오차를 말한다.
② 표본편향은 표본추출 방법에서 기인하는 오차를 의미하며, 모수 추정 시 오차를 발생시킬 수 있다.
③ 표본편향은 확률화에 의해 최소화하거나 제거할 수 있다. 확률화는 모집단에서 편향되지 않은 표본을 추출하는 절차를 말하며, 이렇게 추출된 표본을 확률표본이라 한다.
④ 비표본오차(non-sampling error)는 표본오차를 제외한 모든 오차로 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사대상이 증가한다고 해서 오차가 커지지는 않는다.
정답
비표본오차는 표본오차를 제외한 모든 오차로서 조사 과정에서 발생하는 모든 부주의나 실수, 알 수 없는 원인 등 모든 오차를 의미하며 조사대상이 증가하면 오차가 커진다.
35. 다음 중 모분산의 추론에 대한 설명으로 가장 부적절한 것은?(틀)
① 모집단의 변동성 또는 퍼짐의 정도에 관심이 있는 경우, 모분산이 추론의 대상이 된다.
② 정규모집단으로부터 n 개를 단순임의 추출한 표본의 분산은 자유도가 n-1인 t 분포를 따른다.
③ 모집단이 정규분포를 따르지 않더라도 중심극한정리를 통해 모분산에 대한 추론을 유사하게 시행할 수 있다
④ 두 표본의 분산 차이를 검정하는 분산비 검정의 검정통계량은 F분포를 따른다.
정답
해설:정규 모집단에서 추출된 표본의 분산은 자유도가 n-1인 카이제곱 분포를 따릅니다. t 분포는 주로 평균에 대한 추론에 사용됩니다.
정답
히스토그램은 표본의 크기가 클수록 데이터 분포를 더 정확하게 나타낼 수 있습니다. 작은 표본 크기는 데이터의 실제 분포를 왜곡할 수 있습니다.
37. 스피어만 상관계수에 대한 설명 중 적절한 것은?(틀)
① 비선형적인 상관관계도 나타낼 수 있다.
② 5점 척도로 측정된 변수간 관계를 측정한다.
③ 1과 0사이의 값을 가진다.
④ 1은 상관관계가 없음을 의미한다.
정답
스피어만 상관계수는 서열 척도를 사용하여 비모수적 상관관계를 나타내며, 선형적이지 않은 관계도 잘 포착할 수 있다.
38. 상관 계수에 대한 설명 중 적절한 것은?(틀)
① 피어슨 상관 계수는 두 변수 간의 비선형 관계의 크기를 측정한다.
② 스피어만 상관계수는 두 변수 간의 선형적인 관계도 측정이 가능하다.
③ 피어슨 상관계수와 스피어만 상관계수는 0과 1 사이의 값을 가진다.
④ 피어슨 상관계수는 두 변수를 순위로 변환하여 그 순위 간의 스피어만 상관계수를 계산한다.
정답
피어슨 상관계수는 연속형 변수의 선형 관계를 측정하는 데 사용되며, 스피어만 상관계수는 순서형 변수의 순위 관계를 평가한다. 피어슨 상관계수를 순위로 변환하는 것은 스피어만 상관계수의 개념에 해당한다.
39. 다음 중 데이터의 정규성을 확인하기 위한 방법으로 부적절한 것은?(틀)
① Anderson-Darling test
② Q-Q plot
③ Shapiro-Wiks test
④ Durbin-Watson
답
Durbin-Watson 검정은 회귀 모형의 오차항에서 자기상관의 유무를 검정하는 것이지만, 데이터의 정규성을 직접적으로 확인하는 데에는 사용되지 않는다. 히스토그램, Q-Q plot, Shapiro-Wilk 검정은 데이터의 정규성을 확인하는 데 사용된다.
샤피로 큐큐 앤더슨, 히스토그램
시계열 데이터의 정상성에 대한 설명으로 적절한 것은?
① 평균이 시점에 의존한다.
② 분산이 시점에 의존한다.
③ 데이터에 의존하지 않는다.
④ 분산이 시점에 의존하지 않는다.
답
시계열 데이터에서 정상성을 만족한다는 것은 시간의 흐름에 따라 평균, 분산, 공분산이 일정하게 유지된다는 것을 의미한다. 이는 시간의 변화에 따른 데이터의 변동성이 일정함을 나타낸다.
변수가 범주형인 경우 예측모형의 주된 목적으로 적절한 것은?
① 연관 분석
② 분류
③ 추론
④ 최적화
답
범주형 반응 변수를 갖는 경우, 예측 모형의 주된 목적은 데이터의 범주를 정확하게 분류하는 것입니다. 이는 예측된 범주에 따라 데이터를 구분하고, 분석하는 데 중점을 둡니다.
42. 다음 중 분석기법의 활용 분야가 나머지와 다른 하나를 고르시오.(틀)
① 로지스틱 회귀 분석
② 인공신경망
③ 의사결정나무
④ 클러스터링
답
클러스터링은 비지도 학습의 한 형태로, 데이터의 내재된 구조나 패턴을 찾는 데 사용됩니다. 나머지 기법들은 지도학습에 해당하며, 특정한 목표 또는 결과에 대한 예측에 중점을 둡니다.
답
의사결정나무에서 과대적합을 방지하기 위한 주요 기법 중 하나는 가지치기(Pruning)입니다. 이는 복잡한 나무 구조를 단순화하여 모델의 일반화 능력을 향상시키는 데 도움을 줍니다.
44. 의사결정나무 모형의 학습 방법에 대한 설명 중 부족한 것은 무엇인가?(틀)
① 이익도표 또는 검정용 자료에 의한 교차타당성을 활용해 의사결정나무의 성능을 평가한다.
② 분리 변수의 P차원 공간에 대한 현재 분할은 이전 분할에 영향을 받지 않으며, 각 분할은 최대한 순수하게 되도록 설계된다.
③ 각 노드에서의 최적 분리규칙은 분리변수의 선택과 분리기준에 따라 결정된다.
④ 가지치기는 모델 복잡도를 줄이고 일반화 능력을 향상시키기 위해 사용된다.
답
의사결정나무에서 각 분할은 이전 분할에 영향을 받으며, 전체 트리 구조를 고려하여 최적의 분할을 결정한다.
46. 오분류표(Confusion Matrix)를 활용한 평가 지표 중 모형의 완전성(Completeness)을 나타내는 지표는?(틀)
① F1 지표
② 정확도
③ 특이도
④ 재현율
답
재현율은 실제로 양성인 사례 중 모델이 양성으로 올바르게 예측한 비율을 나타내며, 모델의 완전성을 평가하는 데 사용된다.
47. 계층정 군집분석을 위해 거리 계산을 수행할 때 사용하는 dist 함수에서 지원하는 거리 측도로 부적절한 것은?(틀)
① 유클리디안 거리
② 코사인 유사도
③ 바이너리 거리
④ 캔버라 거리
답
해설:계층적 군집분석에서 일반적으로 사용되는 거리 측도에는 유클리디안 거리, 바이너리 거리, 캔버라 거리가 포함된다. 코사인 유사도는 주로 문서 군집화나 추천 시스템에서 사용된다.
거리를 이용하여 데이터 간 유사도를 측정할 수 있는 척도는 데이터의 속성과 구조에 따라 적합한 것을 사용해야 한다. 다음 중 유사도 측도에 대한 설명으로 부적절한 것은?
① 유클리드 거리는 두 점 사이의 직선 거리를 측정한다.
② 맨하튼 거리는 각 축을 따라 이동한 거리의 합으로 계산된다.
③ 표준화 거리는 변수의 표준편차를 고려하여 계산된다.
④ 마할라노비스 거리는 변수 간 상관관계를 고려하지 않고 계산된다.
답
마할라노비스 거리는 변수 간 상관관계를 고려하여 거리를 측정하는 방법으로, 변수들 사이의 관계를 반영하여 더 정확한 유사도 측정을 가능하게 한다.
임의적인 모양의 군집 탐색에 가장 효과적인 군집화 방법은?
① 밀도기반 군집
② 계층적 군집
③ 격자기반 군집
④ 커널기반 군집
답
밀도 기반 군집화 방법은 주변 지역의 밀도를 기반으로 군집을 형성하며, DBSCAN, OPTICS, DENCLUE와 같은 알고리즘을 포함한다. 이 방법은 다양한 모양과 크기의 군집을 효과적으로 탐색할 수 있다.
k-평균 군집에서 이상값에 대한 민감도를 줄이기 위해 사용되는 대체 방법은?
① 중앙값 기반 군집
② 최대값 기반 군집
③ 조화 평균 기반 군집
④ 가중 평균 기반 군집
답
k-평균 군집은 이상값에 민감할 수 있으므로, 이를 완화하기 위해 중앙값을 사용하는 k-medoids 군집화 방법이 적용될 수 있다. 이 방법은 이상값의 영향을 덜 받으며, 군집의 대표점을 보다 강인하게 결정한다.