14주차

J. Hwang·2024년 11월 8일
0

Boostcamp AI Tech

목록 보기
14/25

Day 1. Monday

✏️ 복습

🙌🏻 Peer Session

  • 구분선만 검출하는 모델 만들기
    구분선에만 bbox를 쳐서 구분선만 학습시키면 나중에 앙상블할 때 구분선을 확실히 제거할 수 있게 될 것이다.
    그래서 transcription이 없는 bbox만을 남기는 코드를 이용한 다음 cvat으로 한 번 더 확인해서 구분선만을 확실히 남긴 파일로 모델을 학습시켜 결과를 보기로 했다.
    그러나 결과는 처참했다....

📋 Memo

이번 대회 정말 데이터 추가하기 아니면 데이터 리라벨링 밖에 없다보니 의욕을 잃은 것 같다. 리라벨링은 노가다가 들어가는 만큼 많이 하기 어렵기도 하고...


Day 2. Tuesday

✏️ 복습

🙌🏻 Peer Session

  • 띄어쓰기 모두 붙이는 리라벨링 진행
    이번 평가 대회 metric이 DetEval인 만큼, Ground Truth bbox가 하나일 때 예측한 bbox가 2개 이상으로 쪼개지면 페널티가 생긴다. 따라서 쪼개지는 것을 방지하기 위해서, tab 키 이상의 넓은 띄어쓰기는 제외하고 평범하게 단어와 단어 사이에 있는 띄어쓰기로 구분되어 bbox가 쳐져있는 것을 하나의 bbox로 붙여서 리라벨링하기로 했다.

📋 Memo

이번 대회가 사람을 이렇게 만든 것인지 폭풍같이 몰아치는 연속된 대회가 이렇게 만드는 것인지....힘이 빠진다.


Day 3. Wednesday

✏️ 복습

  • 강의 수강 완료

🙌🏻 Peer Session

  • Wrap-up report 작성을 위한 실험 내용 정리

Day 4. Thursday

✏️ 복습

  • 강의 수강 완료

🙌🏻 Peer Session

  • 구분선 학습 모델 성능 시험
  • Wrap-up report 작성을 위한 실험 내용 정리

👶 Mentoring

  • Data lake : raw 데이터가 모여 있는 공간
  • 정형데이터? 비정형데이터?
  • Data warehouse : 1차로 정제된 정형데이터가 모여있는 공간. Warehouse에 적재되어 있는 데이터를 분석을 통해 mart로 전달 가능
    ex) googleBigQuery, AmazonS3
  • Data lakehouse (= lake + warehouse)
    ex) iceberg, snowflake, data bricks, Hadoop HDFS
    머신 러닝에서는 비정형 데이터가 필요할 때도 있기 때문에.
    lake에 warehouse의 분석 기능을 제공
  • VectorDB : 벡터가 저장되어 있는 DB. DB에 데이터가 저장될 때 모델에서 뽑은 feature가 같이 저장. 고성능의 유사도 계산 기능을 탑재
    Ex) Milvus
  • ETL (Extract, Transform, Load)
  • Spark
    • 메모리 기반 처리
    • DAG 최적화 엔진을 통한 처리 최적화
    • 병렬 처리 및 분산 처리를 통한 대규모 처리 지원
    • 배치 처리
    • 스트림 처리 지원
    • SQL 지원
    • 로컬에서 체험 가능
  • Batch process : 데이터를 모아두다가 한번에 처리하는 방식, 미리 데이터를 모아두어서 처리하기에 많은 양을 동시 처리, 일정 기간 데이터를 모아두었다가 처리하기 때문에 시간 스케줄러를 사용
    cf) 배치 처리와 스트림 처리의 차이
    배치 처리에 사용할 수 있는 tool : apache의 airflow
    airflow는 워크플로우 관리 플랫폼으서, 파이프라인을 정의하고 스케줄링 기능이 있다.

📋 Memo

오늘 드디어 Level 2 두 번째 프로젝트가 끝났다. 너무 짧은 기간 동안 진행되서 정신이 없었고, 그 사이 라벨링만 여러 번 고쳐해서 그닥 배운 것이 없다는 느낌이 들어서 아쉽다. 다음 프로젝트 부터는 다시 초심을 다잡아서 임할 수 있도록 해야겠다.


Day 5. Friday

✏️ 복습

  • 강의 수강 완료

🙌🏻 Peer Session

  • 팀 회고록 작성
    • 잘한 점 : 체계적인 Github 관리, 가설 설정과 그를 검증하기 위한 실험 반복
    • 아쉬운 점 : 특정 방법론에 집착하여 시간을 허비하지 말자.
    • 도전할 점 : 새로운 팀원과 프로젝트를 맞이하는 새로운 마음가짐
    • 느낀 점 : 하나 하나 확인하고 학습하도록 하자.

📋 Memo

캠프의 시작과 함께한 동료들과 활동하는 마지막 날이다. 같이 열심히 달려온 것은 좋았지만, 마지막에 다들 너무 힘이 빠져서 약간 흐지부지 활동한 점이 아쉽다. 그래도 많이 배울 수 있고 같이 즐거운 시간을 보내서 참 고맙고, 다들 새로운 팀에서도 잘 지내면 좋겠다.

profile
Let it code

0개의 댓글