[docx 문서 타이틀 및 섹션 추출에 대한 제안사항]

Yeseul Han·2024년 6월 4일
0

해당 문서가 목차 혹은 index 페이지가 있다고 가정하자.

목차 페이지에서 다음을 추출한다. (첨부 문서를 제외한다)

  • 타이틀의 레벨 (레벨1이 가장 큰 레벨이고 트리의 아래로 갈수록 레벨이 높아진다)
  • 번호매기기
  • 타이틀

타이틀이 없는 문서 내에서는 paragraph 별로 돌면서
1순위: 폰트 사이즈
2순위: 볼드 텍스트
3순위: justify-center면 타이틀로 간주
3순위: 볼드 텍스트가 텍스트의 맨 앞에 붙어있는 경우 title로 간주한다.

이의 문서를 기본적으로 분류해서 전처리하는 모듈로 판매할 수 있을것 같다.

궁금한점

profile
코딩 잘하고 싶다

0개의 댓글