Chapter1 D-2 TIL

홍유택·2024년 12월 31일

[데이터 리터러시] 제조 데이터 분석의 이해

데이터 분석의 5단계

  1. 문제정의
  2. 가설설정
  3. 데이터 수집
  4. 검증
  5. 결론

1. 문제 정의 (Problem Definition)

  • 프로젝트에서 해결하려는 문제나 목표를 명확히 정의하는 단계
    예) 제조에서 발생하는 품질 문제를 명확히 정의
    문제가 무엇인지, 어떤 영향을 미치는지 파악하여 해결하고자 하는 목표를 수립
  • 예시:
    • 불량률 증가 문제: 특정 공정에서 발생하는 불량률이 기준치(예: 1%)를 초과함
    • 생산성 저하: 특정 기계의 오작동으로 생산 시간이 지연됨
    • 문제 발생 원인을 파악하기 위해 과거 데이터와 공정 상태를 분석
    • 문제 정의를 명확히 기록하여 후속 프로세스에서 혼란을 방지

2. 가설 설정 (Hypothesis Setting)

  • 문제의 원인이나 해결 방안에 대한 가설을 설정하는 단계
    문제가 발생한 이유와 관련 변수를 정의하고 가설을 검증할 수 있는 방법을 계획
  • 예시:
    • 불량률 증가 원인:
      • 가설 1: 기계의 온도가 일정하지 않다.
      • 가설 2: 사용되는 원자재의 품질 변동이 크다.
    • 생산성 저하 원인:
      • 가설 1: 특정 작업자가 작업 속도를 맞추지 못한다.
      • 가설 2: 설비 유지보수가 충분히 이루어지지 않았다.

3. 데이터 수집 (Data Collection)

  • 설명:
    가설 검증을 위해 필요한 데이터를 수집하는 단계
    이때 데이터의 신뢰성과 정확성을 보장
  • 예시:
    • 생산 라인의 온도 및 습도 데이터
    • 기계 작동 시간 및 오류 발생 로그
    • 원자재의 품질 데이터 (예: 혼합비율, 불순물 함량 등
    • 데이터 수집 프로토콜 수립: 측정 도구의 정확도 및 데이터 샘플링 간격을 정함
    • 데이터 무결성 검토: 결측값, 이상값 등을 파악하여 데이터 품질을 보장

4. 검증 (Validation)

  • 수집한 데이터를 바탕으로 가설을 검증하고 문제의 원인을 명확히 파악하는 단계
    • 결과가 수치적으로 제시
      데이터 분석과 실험을 통해 가설이 맞는지 확인
      → 시각정 방법 / 통계적 방법 / 머신러닝, 딥러닝
  • 예시:
    • 온도와 불량률 관계: 온도 변화량과 불량률 간의 상관관계 분석
    • 원자재 품질 테스트: 다른 공급업체의 원자재를 사용한 생산 테스트
    • 통계적 분석 및 시각화 도구를 활용하여 검증 결과를 명확히 표현
    • 검증 단계에서 발견된 추가 문제는 새로운 가설로 이어질 수 있음

5. 결론 (Conclusion)

  • 검증 결과를 바탕으로 주요 인사이트를 도출하고,
    실질적인 의사결정 또는 권장 사항을 제시하는 단계
    검증 결과를 바탕으로 문제를 해결하기 위한 최적의 방안을 도출하고 실행 계획을 수립
  • 예시:
    • 특정 기계에서의 온도 변동을 줄이기 위해 온도 센서를 추가 설치
    • 불량률을 낮추기 위해 원자재 공급업체 변경 및 품질 기준 강화
    • 개선 조치의 효과를 모니터링하여 지속적인 품질 관리를 실시
    • 문서화된 프로세스를 통해 동일 문제가 재발하지 않도록 예방

데이터 리터러시의 중요성

  • 의사결정의 질 향상: 데이터에 기반한 의사결정은 직관이나 경험에 의존하는 것보다 더 정확하고 신뢰할 수 있습니다.
  • 문제 해결 능력 강화: 데이터를 분석함으로써 문제의 원인을 정확히 파악하고 효과적인 해결책을 모색할 수 있습니다.
  • 경쟁력 확보: 데이터 활용 능력은 개인의 경력 발전뿐만 아니라 조직의 경쟁력을 높이는 중요한 요소입니다.
  • 정보 과잉 시대의 필수 역량: 방대한 정보 속에서 유의미한 데이터를 선별하고 활용하는 능력은 현대 사회에서 필수적입니다.

인덱스(Index)

  • 인덱스 : 데이터프레임(DataFrame) 또는 시리즈(Series)의 각 행 또는 각 요소에 대한 식별자입니다.
    • DataFrame 자료구조에도 인덱스를 설정할 수 있음
    • 0부터 시작하는 숫자 뿐아니라 임의로 문자로 적용할 수 있음
    • 아예 처음부터 파일 불러올때 , 인덱스를 지정하는 것도 가능
  • 인덱스의 특징
    1. 고유성(Uniqueness): 각 행은 유일한 인덱스 값을 가져야함. 중복된 인덱스 값을 가질 수 없음.
    2. 불변성(Immutability): 불변성을 가진다. 즉, 한 번 생성된 인덱스는 변경(수정)할 수 없습니다. 3. 조작 및 탐색(Manipulation and Retrieval): 인덱스를 사용하여 데이터프레임 또는 시리즈의 특정 행을 선택하거나 탐색할 수 있습니다.
    3. 정렬(Sorting): 인덱스를 기준으로 데이터프레임 또는 시리즈의 행을 정렬할 수 있습니다.

컬럼(Column)

  • 컬럼
    • 데이터프레임(DataFrame)의 열(또는 변수)을 나타냅니다.
    • 데이터프레임은 행과 열로 구성되며, 각 열은 서로 다른 종류의 데이터를 담고 있습니다.
    • 데이터프레임의 세로 방향에 있는 데이터들을 컬럼이라고 부릅니다.
  • 컬럼의 특징
    1. 고유한 이름(라벨)을 가지고 있으며, 해당 컬럼의 데이터를 식별하는 데 사용
    2. 특정한 종류의 데이터를 담고 있고 숫자, 문자열, 날짜 등 다양한 유형의 데이터를 포함할 수 있음
    3. 시리즈(Series) 객체로 구성되어 있으며, 시리즈는 동일한 데이터 유형을 가진 1차원 배열과 유사함
    4. 데이터프레임의 일부로 간주되며, 해당 열의 데이터를 조작하고 접근할 수 있는 인터페이스를 제공함
profile
안녕하세요

0개의 댓글