[AI 프로젝트] 한식 분류기(1/6)

otto_dev·2021년 12월 18일
1

학기가 끝난 지금. 학기 중에 했던 프로젝트를 까먹기 전에 기록하기 위해 글을 쓴다.

주제선정

자유롭게 데이터셋을 정하고 문제를 수립해 model를 개발하는 것이 프로젝트 목표였다. 주제를 정하기 위해서 AI Hub를 둘러보다가 음식 이미지 데이터셋이 여러 개 있는 것을 발견했다. 채식을 시작하고부터 음식, 식단, 영양 정보에 굉장한 관심을 두고 있던 나는 "이거다!!"하고 느낌이 딱 왔다. 이제 다른 주제는 out of 관심. 한 번 꽂히면 무조건 해야 하는 나. 팀원과 합의하고 주제로 정했다.

우리가 정한 주제는 한국 특화 음식 분류기이다.
기존에 많은 음식 분류기는 학습에 사용한 데이터에 한국 음식 데이터가 부족해 한식을 분류하는 데 어려움이 있다. 그래서 프로젝트 주제로 유의미하다고 판단하였다.

DataSet

AI Hub에서 찾은 데이터셋은 다음과 같다.

건강관리를 위한 음식 이미지

  1. 다양한 음식 데이터 확보(한식, 중식, 일식, 수산물, 분식, 정통양식, 패스트푸드, 제과제빵케익, 커피 등)
  2. 500여 종 각 60,000장
  3. 데이터셋 크기: 841GB, 300만
  4. 원본 이미지, JSON 파일
  5. JSON파일은 이미지 파일 이름, 음식 이름, 음식 바운딩 박스, 촬영 및 방위 각도, 그릇 종류 및 색상 등의 정보 포함

음식 이미지 및 영양정보 텍스트

  1. 한국인 다빈도 섭취 외식 메뉴와 한식메뉴 400종을 선정하여 양질의 이미지 데이터를 수집, 구축
  2. 400여 종 각 2,000장
  3. 데이터셋 크기 및 구축량: 1,587GB, 84.5만
  4. 음식 분류용 이미지와 음식 양 추정용 이미지로 분리됨.
  5. 이미지, txt, XML
  6. XML파일은 이미지 파일, 이미지 경로, item code, 음식 종류, 그릇 bndbox, 음식 bndbox 등의 정보 포함

한국 이미지(음식)

  1. 한식 이미지 데이터베이스는 한식재단의 음식 분류 및 한국인이 즐겨 먹는 음식 통계를 참조하여 선정된 150종의 음식으로 구성
  2. 150종 각 1,000장
  3. 데이터셋 크기 및 구축량: 16GB, 15만
  4. 한식메뉴외국어표기 길라잡이를 참고하여 음식의 종류를 대분류(밥, 면, 국 등) 및 소분류를 결졍하고 ID를 부여하고 구조화

우리 팀은 가장 데이터셋 크기가 가장 작은 '한국 이미지(음식)'을 빼고 나머지 두 개를 적절히 섞어서 활용하기로 했다. (그러면 안됐는데... s..ta..y...)

profile
공부 및 아카이브용 계정

0개의 댓글