유사 화장품 추천 프로젝트
00. 프로젝트 기획안 🖥🧾
0. 주제 및 목표
1. 기획의도 및 배경
2. 데이터 수집 및 특성
3. 모델
4. 참고 문헌
📌 [ 배경 ]
시장 안정성 및 사업 성장 가능성:
📌 [ 기획 의도 ]
https://kcia.or.kr/cid/main/
대한 화장품 협회 성분사전
https://incidecoder.com/
Incidecoder
해당 성분이 들어간 Products(str type)를 제공한다.
table 형식으로 str타입의 데이터들을 제공한다.
전성분 데이터는 제품 내 비율이 높은 순서대로 성분이 나열된다.
다만, 1% 미만으로 존재하는 부수적 성분에 대해서는 이 규칙이 적용되지 않음
📌 [ 선정 기준 ]
각 화장품은 제품 내 성분의 함량에 따라 순서를 지니고 있음.
성분이 나열된 순서를 통해 화장품 간의 유사도를 측정할 수 있을 것이라 판단.
나열된 성분은 토큰화된 문장과 같으며, 이에 착안하여 자연어 처리 모델을 활용하기로 결정.
📍GPT:
- GPT(Generative Pre-trained Transformer)는 트랜스포머의 디코더 아키텍쳐를 활용한 일방향 언어모델.
- 이전 단어들이 주어졌을 때 다음 단어가 무엇인지 맞추는 과정에서 프리트레인(pretrain).
- 문장 시작부터 순차적으로 계산한다는 점에서 일방향(unidirectional).
📍 BERT:
- BERT(Bidirectional Encoder Representations from Transformers)는 트랜스포머의 인코더 아키텍쳐를 활용한 양방향 마스크 언어모델(Masked Language Model).
- 문장 중간에 빈칸을 만들고 해당 빈칸에 어떤 단어가 적절할지 맞추는 과정에서 프리트레인.
- 빈칸 앞뒤 문맥을 모두 살필 수 있다는 점에서 양방향(bidirectional).
이 때문에 GPT는 문장 생성에, BERT는 문장의 의미를 추출하는 데 강점을 지닌 것으로 알려져 있음.
모델을 프로젝트에 어떻게 활용할 것인지에 대한 구체적인 사항은 추후 추가할 예정.