
토이 프로젝트 작성법 written by 김민수 강사님
11월 29일 금요일
준비기간: 11월 27일 수요일 ~ 11월 29일 금요일
Roboflow - 웃긴 데이터가 많음, 약간 러시아 감성
Ai hub - 공공데이터, 데이터 품질이 좋음
Kaggle - 데이터 분석 콘테스트 사이트
한글은 고유의 문자 체계와 구조를 가지고 있기 때문에, 기존의 OCR 기술을 그대로 적용하기 어렵다. 이미지 파일에서 한글 문자를 정확하게 인식하고 분류하는 시스템의 개발이 필요하다.
한글 문서에서 텍스트를 자동으로 인식하고 추출하여 데이터 입력 및 처리의 효율성을 높인다. 이를 통해 문서 작업의 자동화 및 디지털화한다.
인쇄 데이터

라벨링 데이터 예시
{
"Annotation": {
"object_recognition": 1,
"text_language": 0
},
"Dataset": {
"category": 0,
"identifier": "OCR(public)",
"label_path": "OCR(public)/CST/1980/5350108/0002",
"name": "대규모 OCR 데이터(공공)",
"src_path": "OCR(public)/CST/1980/5350108/0002",
"type": 1
},
"Images": {
"acquisition_location": 1,
"data_captured": "2022.08.09 10:57:13",
"dpi": 300,
"group": 1,
"height": 3504,
"identifier": "CST_1980_5350108_0002_0001",
"type": "jpg",
"width": 2480,
"writing_style": 3,
"year": 2
},
"Bbox": [
{
"data": "다.",
"id": 1,
"type": 1,
"typeface": 1,
"x": [534, 534, 598, 598],
"y": [664, 709, 664, 709]
},
{
"data": "가공",
"id": 2,
"type": 1,
"typeface": 1,
"x": [613, 613, 747, 747],
"y": [663, 710, 663, 710]
},
{
"data": "금긋기",
"id": 3,
"type": 1,
"typeface": 1,
"x": [614, 614, 745, 745],
"y": [727, 778, 727, 778]
},
{
"data": "작업은",
"id": 4,
"type": 1,
"typeface": 1,
"x": [761, 761, 900, 900],
"y": [726, 779, 726, 779]
},
{
"data": "공작도,",
"id": 5,
"type": 1,
"typeface": 1,
"x": [911, 911, 1063, 1063],
"y": [724, 776, 724, 776]
},
{
"data": "현척도,",
"id": 6,
"type": 1,
"typeface": 1,
"x": [1080, 1080, 1229, 1229],
"y": [725, 776, 725, 776]
},
{
"data": "현판,",
"id": 7,
"type": 1,
"typeface": 1,
"x": [1248, 1248, 1356, 1356],
"y": [724, 774, 724, 774]
},
(이하 중략..)
]
}
각 단계에서 얻은 성능 평가 결과를 분석하고, 필요에 따라 모델 및 데이터 전처리 방법 조정
최종 보고서 작성: 각 단계의 결과와 분석을 포함한 최종 보고서를 작성하여 학습 과정을 정리