[Toy Project] 분석 대상 조사 (1) - 확장자

·2025년 2월 19일

Study

목록 보기
1/2
post-thumbnail

해보고 싶은 연구가 있어 토이 프로젝트로 진행하고자 한다.
시작 단계인 분석 대상 조사 진행 중에 있다.
먼저 타겟팅할 확장자 10개만 정하여 조사했다.

1. DOC / DOCX

  • 주요 특징
    • Microsoft Word 문서 형식
    • DOCX : Office Open XML(OOXML) 표준 기반으로 구성되며, 내부적으로 ZIP 압축된 폴더·XML 파일 집합 형태
    • 문서 내용, 스타일, 이미지, 개체 등이 XML 구조로 나뉘어 저장됨
  • 구조
    • 기존 DOC(바이너리 형식)는 BIFF(비공개 바이너리 포맷)에 가까웠지만 DOCX로 오면서 개방형으로 전환됨
  • 메타 데이터

2. XLS / XLSX

  • 주요 특징
    • Microsoft Excel 스프레드시트 형식
    • XLSX : OOXML 표준 기반 (XLS 는 과거 바이너리 형식)
  • 구조
    • 내부적으로 x1 폴더(시트 데이터, 차트, 스타일, 공유 정보 등), _rels 폴더, docProps 폴더로 구성
    • 시트(Worksheet)마다 XML 형식으로 테이블 셀·행·열 정보를 정의
  • 메타 데이터
    • 파이썬 라이브러리 : openpyxl 통해 메타데이터 추출 분석
    • creator , title , description , subject , identifier , language , created
      , modified , lastModifiedBy , category , contentStatus , version , revision , keywords , lastPrinted

3. PPTX

  • 주요 특징
    • Microsoft Powerpoint 프레젠테이션 형식
    • OOXML 표준 기반으로 ZIP+XML 구조 (PPT는 구버전 바이너리 포맷)
  • 구조
    • ppt 폴더에 슬라이드별 파일, 마스터 슬라이드, 테마, 이미지, 멀티미디어 리소스 등을 저장
    • _rels 폴더를 통해 슬라이드 간 연결과 각 개체의 관계 관리
  • 메타 데이터
    • 문서 속성(저자, 키워드), 슬라이드 노트, 트랜지션·애니메이션 정보, 포함된 멀티미디어 객체 정보

4. PDF

  • 주요 특징
    • 어도비(Adobe)가 개발, ISO 32000으로 표준화
    • 텍스트, 이미지, 폼, 하이퍼링크, 보안 기능(암호화, 서명) 등이 통합된 문서 형식
  • 구조
    • 객체(Object) 단위로 텍스트·이미지·폰트·주석 등을 정의, XREF 테이블로 객체 오프셋 관리
    • 버전 업에 따라 추가 기능(AcroForm, XFA 등)이 존재
  • 메타데이터

5. JPEG

6. PNG

  • 주요 특징
    • 무손실 압축 이미지 포맷, 투명도(알파 채널) 지원
    • W3C 표준, RFC 2083 등으로 규정
  • 구조
    • PNG 시그니처(8바이트) → 여러 청크(Chunk)로 구성 (IHDR, IDAT, IEND 등)
    • IHDR에서 이미지 폭·높이·비트 깊이 등을 명시, IDAT 블록에 실제 이미지 데이터 압축
  • 메타 데이터
    • tEXt, iTXt, zTXt 등 청크를 통해 텍스트나 키워드·값 쌍 형태로 저장 가능
    • EXIF 확장 청크도 일부 지원

7. MP3

  • 주요 특징
    • 손실 압축 오디오 포맷, MPEG-1/2 Audio Layer 3 표준
    • 가장 보편적인 음악 파일 형식
  • 구조
    • 프레임 단위로 오디오 데이터가 저장되며, 각 프레임은 헤더(비트레이트, 샘플링 레이트)와 사이드 정보, 메인 데이터로 구성
    • ID3 태그(메타데이터)로 제목, 앨범, 아티스트, 앨범 아트 등 저장
  • 메타 데이터
    • ID3v1, ID3v2 태그 : 곡 제목, 아티스트, 장르, 앨범, 커버 이미지 등

8. WAV

  • 주요 특징
    • 무손실 오디오 포맷, 리소스 인터체인지 파일 포맷(RIFF) 기반
    • 확장자가 .wav인 오디오 파일은 일반적으로 PCM(Purse-Code Modulation)방식
  • 구조
    • RIFF 헤더 → WAVE 포맷(’fmt ’ 청크) → 데이터 청크(’data’), 필요한 경우 추가 청크(’fact’, ‘list’ 등)
    • 샘플 레이트, 채널 수, 비트 깊이 등 오디오 파라미터가 청크에 저장
  • 메타 데이터
    • ‘list’ 청크를 통해 아티스트, 트랙 정보 등 태그를 삽입 가능

9. MP4

  • 주요 특징
    • ISO 기반 미디어 컨테이너 포맷(ISO/IEC 14496-12, 14), 동영상·오디오·자막·메타데이터 등 다중 트랙 저장 가능
    • 온라인 스트리밍에도 활용 (fragmented MP4 등)
  • 구조
    • ‘Box’(컨테이너) 구조(예: ftyp, moov, mdat, free 등), 트랙·샘플 정보와 실제 미디어 데이터를 분리
    • moov(메타데이터), mdat(실제 미디어 데이터)로 구성
  • 메타 데이터
    • 트랙 정보(오디오, 비디오, 자막), 코덱, 시간정보, moov 박스 내 메타 태그(저작권, 타이틀, 아티스트 등)

10. MOV

  • 주요 특징
    • 애플의 QuickTime 컨테이너 형식으로 시작, MP4와 유사한 구조를 공유(ISO Base Media File Format)
    • 동영상·오디오·자막·메타데이터 등 다양한 트랙 저장 가능
  • 구조
    • 'Atom' 구조(예: moov, mdat, ftyp 등), MP4의 ‘Box’와 유사
    • QuickTime Player에서 고급 기능(배경 투명도, 대화형 요소 등)을 지원
  • 메타데이터
    • moov Atom 안에 트랙·타임 스케일 정보, 코덱 파라미터, 태그(저작권, 제목) 등 저장
profile
Whatever I want | Interested in DFIR, Security, Infra, Cloud

0개의 댓글