Data-Centric(10): 미래 Data-centric AI

SeongGyun Hong·2024년 10월 31일

NaverBoostCamp

목록 보기
23/64

1. Recap

AI system = code + data

  • 데이터 센트릭 AI는 모델링이 아닌 데이터를 통한 성능의 향상을 노린다.

    • 성능 향상을 위한 데이터 관점에서의 고민
  • Data-Flywheel

  • DMOps

  • Data Annotation Tool

  • Data Software Tool

  • 뭘 할 수 있을까?
    -Hate Speech Detection : 혐오 발언 탐지
    -Counter Speech Generation : 대응 발화 생성
    -Quality Estimation : 기계 번역 품질 예측
    -Automatic Post Editing : 기계 번역 결과 자동 수정
    -Persona-grounded Dialogue : 개인의 특성, 성격 등을 반영한 대화
    -Persuasive Dialogue : 사용자를 설득하기 위한 대화
    -Dialogue Summarization : 대화 요약
    -Question Generation : 질문과 답변에 따라 질문을 생성
    -Document-level Relation Extraction : 문서 전체에서 개체와 관계를 추출

  • 한국어 데이터셋 : 고전어, 케어콜, 혐오 발언 탐지, 문법 교정 등

  • Evaluation 또한 신경써야한다. 주요 메트릭 관념들을 생각 잘 해봐라

    • Cohen's Kappa: 두 명의 평가자 간의 일치도를 측정하는 통계적 지표로, 우연에 의한 일치를 고려하여 평가

    -Fleiss' Kappa: 여러 명의 평가자가 있을 때 일치도를 측정하는 지표로, Cohen's Kappa를 확장한 형태

    -Krippendorff's Alpha: 다양한 데이터 유형(이산형, 연속형 등)에 대해 평가자 간의 신뢰도를 측정하는 통계적 지표

  • Data Cascade

  • Prompt Learning

2. Future Data-Centric AI

  • LLM을 위하여 필요한 것 (More Compute, More Data, Larger Model)

  • Domain Specialized

  • Evaluation

  • Detect GPT

3. Prompt Engineering

  • 단순히 LLM의 능력치를 발굴하는 것은 Prompt Discovering이다.
  • 진짜 Prompt Engineering은
    • CoT
    • Prompt Emplate (Pattern -> Compress -> Generalization -> Value)
    • 개별 모달리티를 연결하기 위한 Prompt Manager 기술이 중요하다. 이게 third Party를 만드는 것이 핵심 !
    • Prompt Manager (Cross Function Modality)
  • 적당한 크기의 LLM와 Visual LLM을 하나의 객체로 두고 이걸 Prompt Manager가 연결시켜준다면 훨씬 효과적인 Multi Modal이 나올 것.

Visual ChatGPT
Toolformer

  • Prompt Engineering -> 3rd Party Platform
  • 3rd Party Platform은 매우 쉽고 간편한 ... Super Extremely Easy UX가 필요하다. 왜냐하면 데이터 기반으로 성능을 향상시켜야하고, 그 모으는 방식은 매우 쉬워야 하기 때문

4. 요약

3줄 요약

  • 잘 활용을 하자
  • 그러나, 각 기업만의 독자적인 것이 필요하다
  • 미래의 Data Research를 잘 대비하자

SW1.0 vs SW2.0

VersionInputOutput
SW1.0Code InSW Out
SW2.0Data InSW Out
profile
헤매는 만큼 자기 땅이다.

0개의 댓글