Chapter1 D-2 TIL

홍유택·2024년 12월 31일

[데이터 리터러시] 제조 데이터 분석의 이해

데이터 분석의 5단계

문제정의
가설설정
데이터 수집
검증
결론

1. 문제 정의 (Problem Definition)

프로젝트에서 해결하려는 문제나 목표를 명확히 정의하는 단계
예) 제조에서 발생하는 품질 문제를 명확히 정의
문제가 무엇인지, 어떤 영향을 미치는지 파악하여 해결하고자 하는 목표를 수립

예시:

불량률 증가 문제: 특정 공정에서 발생하는 불량률이 기준치(예: 1%)를 초과함

생산성 저하: 특정 기계의 오작동으로 생산 시간이 지연됨

문제 발생 원인을 파악하기 위해 과거 데이터와 공정 상태를 분석

문제 정의를 명확히 기록하여 후속 프로세스에서 혼란을 방지

2. 가설 설정 (Hypothesis Setting)

문제의 원인이나 해결 방안에 대한 가설을 설정하는 단계
문제가 발생한 이유와 관련 변수를 정의하고 가설을 검증할 수 있는 방법을 계획

예시:

불량률 증가 원인:

가설 1: 기계의 온도가 일정하지 않다.

가설 2: 사용되는 원자재의 품질 변동이 크다.

생산성 저하 원인:

가설 1: 특정 작업자가 작업 속도를 맞추지 못한다.

가설 2: 설비 유지보수가 충분히 이루어지지 않았다.

3. 데이터 수집 (Data Collection)

설명:
가설 검증을 위해 필요한 데이터를 수집하는 단계
이때 데이터의 신뢰성과 정확성을 보장

예시:

생산 라인의 온도 및 습도 데이터

기계 작동 시간 및 오류 발생 로그

원자재의 품질 데이터 (예: 혼합비율, 불순물 함량 등

데이터 수집 프로토콜 수립: 측정 도구의 정확도 및 데이터 샘플링 간격을 정함

데이터 무결성 검토: 결측값, 이상값 등을 파악하여 데이터 품질을 보장

4. 검증 (Validation)

수집한 데이터를 바탕으로 가설을 검증하고 문제의 원인을 명확히 파악하는 단계

결과가 수치적으로 제시
데이터 분석과 실험을 통해 가설이 맞는지 확인
→ 시각정 방법 / 통계적 방법 / 머신러닝, 딥러닝

예시:

온도와 불량률 관계: 온도 변화량과 불량률 간의 상관관계 분석

원자재 품질 테스트: 다른 공급업체의 원자재를 사용한 생산 테스트

통계적 분석 및 시각화 도구를 활용하여 검증 결과를 명확히 표현

검증 단계에서 발견된 추가 문제는 새로운 가설로 이어질 수 있음

5. 결론 (Conclusion)

검증 결과를 바탕으로 주요 인사이트를 도출하고,
실질적인 의사결정 또는 권장 사항을 제시하는 단계
검증 결과를 바탕으로 문제를 해결하기 위한 최적의 방안을 도출하고 실행 계획을 수립

예시:

특정 기계에서의 온도 변동을 줄이기 위해 온도 센서를 추가 설치

불량률을 낮추기 위해 원자재 공급업체 변경 및 품질 기준 강화

개선 조치의 효과를 모니터링하여 지속적인 품질 관리를 실시

문서화된 프로세스를 통해 동일 문제가 재발하지 않도록 예방

데이터 리터러시의 중요성

의사결정의 질 향상: 데이터에 기반한 의사결정은 직관이나 경험에 의존하는 것보다 더 정확하고 신뢰할 수 있습니다.

문제 해결 능력 강화: 데이터를 분석함으로써 문제의 원인을 정확히 파악하고 효과적인 해결책을 모색할 수 있습니다.

경쟁력 확보: 데이터 활용 능력은 개인의 경력 발전뿐만 아니라 조직의 경쟁력을 높이는 중요한 요소입니다.

정보 과잉 시대의 필수 역량: 방대한 정보 속에서 유의미한 데이터를 선별하고 활용하는 능력은 현대 사회에서 필수적입니다.

인덱스(Index)

인덱스 : 데이터프레임(DataFrame) 또는 시리즈(Series)의 각 행 또는 각 요소에 대한 식별자입니다.

DataFrame 자료구조에도 인덱스를 설정할 수 있음

0부터 시작하는 숫자 뿐아니라 임의로 문자로 적용할 수 있음

아예 처음부터 파일 불러올때 , 인덱스를 지정하는 것도 가능

인덱스의 특징

고유성(Uniqueness): 각 행은 유일한 인덱스 값을 가져야함. 중복된 인덱스 값을 가질 수 없음.

불변성(Immutability): 불변성을 가진다. 즉, 한 번 생성된 인덱스는 변경(수정)할 수 없습니다. 3. 조작 및 탐색(Manipulation and Retrieval): 인덱스를 사용하여 데이터프레임 또는 시리즈의 특정 행을 선택하거나 탐색할 수 있습니다.

정렬(Sorting): 인덱스를 기준으로 데이터프레임 또는 시리즈의 행을 정렬할 수 있습니다.

컬럼(Column)

컬럼

데이터프레임(DataFrame)의 열(또는 변수)을 나타냅니다.

데이터프레임은 행과 열로 구성되며, 각 열은 서로 다른 종류의 데이터를 담고 있습니다.

데이터프레임의 세로 방향에 있는 데이터들을 컬럼이라고 부릅니다.

컬럼의 특징

고유한 이름(라벨)을 가지고 있으며, 해당 컬럼의 데이터를 식별하는 데 사용

특정한 종류의 데이터를 담고 있고 숫자, 문자열, 날짜 등 다양한 유형의 데이터를 포함할 수 있음

시리즈(Series) 객체로 구성되어 있으며, 시리즈는 동일한 데이터 유형을 가진 1차원 배열과 유사함

데이터프레임의 일부로 간주되며, 해당 열의 데이터를 조작하고 접근할 수 있는 인터페이스를 제공함