(6강) 데이터 구축 작업 설계

전상민·2021년 11월 9일
0

데이터제작(NLP)

목록 보기
6/9

1. 데이터 구축 프로세스

매우 클래식한 단계이다.

마마라는 작업.

예시

1차 구축, 2차 구축을 하지 않을 수도 있고 1차와 2차의 성질이 아예 다를 수도 있다.

구축 프로세스를 상세하게 도표화 했을 때는 입체적으로 순서를 익힐 수 있고 각 단계를 트랙킹 하기가 쉽다.

도표로는 설명에 한계가 있어서, 도표 이후에는 자세하게 글로 명시한다.

2. 데이터 주석

데이터는 트윗에서 가져왔음. 분류에는 작업의 복잡도가 낮고 굉장히 단순하기 때문에 설계 역시 단순하게 할 수 있음.

다만, 구축 난이도가 낮다고 해서 일반인들이 알고있는 "함의"와 라벨에서 정의하는 "함의"는 잘 구분해야 한다.

그치만 예상치 못한 오류가 발생할 확률이 낮다.

스팬까지 정해야 하므로 난이도가 조금 올라갔다고 볼 수 있다.

스팬을 정해 개체를 주석하고 이 개체들의 관계를 연결해야 하는 작업.

3. 데이터 검수

메타 정보에는, 발화자의 성별, 나이 등이 포함될 수 있다.

데이터 검수 유형

데이터 평가

4. 데이터 구축 프로세스 설계 시 유의 사항

미뤄지는 일이 비일비재하다.

검수를 하고 반영하는 계획에 대해 충분한 시간이 있어야 하며, 상세한 계획이 있어야 함.

또, 항상 일이 잘 안풀릴 것을 당연하게 생각하고 이에 대한 대응책을 잘 준비해놓을 것

profile
깊게 배우고 신박하게 개발할래

0개의 댓글