Lab up AI with microsoft

미남홀란드·2023년 10월 30일

위치 : 광화문 마이크로소프트 13층

일정 : 10월 21일 (토) 13:00

Slipstream : AI 레이싱에서 치고 나가는 법

신정규 : 래블업 주식회사 CEO


고성능 컴퓨팅 분야, 분선처리, 가속화 등이 필요해질 것으로 예상했다. - 2015년 창업

  • 파운데이션 모델을 만들기엔 한계가 있으니 파인튜닝을 이용한 다양한 방법론을 오늘 소개
  • 모델이 클수록 프롬프트엔지니어링 이 유리하지만 , 작은 경우는 모델이 작을떈 어려울수가 있다.
    • ex) 너는 의학전문가 인 ChatBot 이야 전문적인 응답을 수행하는 경우에는 모델이 작은 경우 원하는 값의 도출이 어려울 수 있다.

하드웨어와 소프트웨어 사이 어딘가에서 AI 를 외치다

김준기 : 레블업 주식회사 CTO


AI : 지능의 확장과 기술의 특이점

  • 과학 연구와 기술 발전에서 점점 어려워지는 부분

    • 객관성과 재현가능성
      • 남이 확인한 결과를 나도 확인 해볼 수 있는 것
      • 필요로 하는 자원의 양 증가 → 자본 집약적
      • 알고 있어야 하는 배경 지식과 대상의 증가 → 높은 복잡성
  • “Make AI Accessible”

    • 초기 분야에서 나타나는 다양한 비효율을 선제적으로 제거 및 최적화
    • 유관 분야 지식과 기술 체계의 수직 통합
  • HPC / Cloud Computing / 가속 컴퓨팅을 어떻게하면 잘 활용해서 쓸 수 있을까?

가상화와 컨테이너

  • 가상화 : Consolidation 의 핵심
    • 물리적 자원과 논리적 자원의 분리
  • 컨테이너
    • 출발은 리눅스 cgroup을 통한 운영체제의 namespace분리 및 자원 제약 구현
    • Docker가 overlay fileststem 개념을 도입하여 재현가능한 소프트웨어 배포 환경으로 부상

HPC(고성능 컴퓨팅)

거대한 규모의 계산을 실행하기 위해 작은 컴퓨터들을 여러 개 모아서 병렬 분산 처리

GenieLabs KT Large AI: API Platform 구축하기

백두산 : KT 융합기술원

GenieLabs


API provider vs Devloper

Locust : 내가 만든 모델을 어떻게 rps(request for seconds)을 측정할때 보는 tool

  • python 기반으로 다루기가 쉬운 장점
  • 별도 작업 없이 Report 생성 가능
  • 가격산정 / 자원의 효율성이 분배 등을 고려할 수 있다.

Perf Analyzer(Nvidia)

batch 에 따른 처리 속도가 달라진다.

  • 인퍼런스에서도 배치를 할 수 있게끔 제공을 한다.
  • NLP에서의 문제가 있기 때문에 Dynamic Padding 의 방법이 나왔다.

기존 생성형 Batch의 어려움 → Continuous Batching

음성 뉴비의 whisper fine-Tunning 해보기

최성철 : 부경대학교


STT + LLM(Speech to Text + LLM)

  • 클로버 노트
  • 에이닷

사실 STT자체가 완벽하지는 않음.

→ 근데 그 부족함을 LLM 이 해결해준다.

소음 상황에서의 STT

  • 공항에서의 통신 - 기장이 통신하는 경우
  • 해운, 한망, 항공 , 클라우드 서비스가 어려운 보안 필요 영역의 모델 필요

→ 항만일지를 적는다. 사람이 적는데 아직은 변하지 않았으나 대체가 될 수 있는 직업군

Whisper Model 로 파인튜닝

  • Open AI 에서 개발한 음성 모식 모델
  • 다양한 언어의 음성을 인식하고, 음성 번역 및 언어 감지도 수행할 수 있음
  • Transformer seq to seq 모델로 구성되어있음, 다국어 음성인식, 음성번역, 발화 언어 식별 및 음성 활동 감지를 수행할 대규모 데이터셋을 기반으로 학습되어있으며, 다양한 오디어데이터를 포함한다.
  • 680,000시간의 web Scale dataset으로 사전 학습
  • 과소평가된 weakly supervised learning 으로 학습

Log-Mel Spectogram

  • 사람의 발화를 녹음한 데이터
  • 연속형데이터를 0,1 이산형데이터로 바꿔준다.
  • 일정한 시간 간격으로 아날로그 신호의 값을 샘플링하고, 그 샘플링된 값을 이진코드로 표현하는 방식으로 이루어짐

multi task learning

Evaluation Metrics

  • WER
  • CER
  • ?ER

AI 엔지니어의 역량 : 모델을 이해하고 , 그 모델의 데이터를 변경하는 역량

생성형 AI 어디까지 알아보고 오셨어요?

김현수 : Microsoft


1995(인터넷연결) → 2007(아이폰의 등장) → 2023(GPT-4 GenAI)

GitHub Copilot

  • 내가 만들고 싶은 코드를 주석으로 쓰면 Generation 을 해준다.

Microsoft 365 Copilot

  • 현업의 솔루션에서 업무에 도움을 받을 수 있게 해준다

Azure OpenAI service

  • 지식관리시스템, 교육, 서적, 전자상거래, 금융, 고객센터 등에서 활발하게 사용하고 있다.

좋은 질문으로 부터 시작 : Prompt Engineering

  • 페르소나 정의
  • 관련데이터 ex) 경쟁사는 이렇게 하는게 맞아 few-shot running
  • 천천히 하나씩 생각하면서 단계별 생각 COT(Chain Of Things) 방식의 방법론

외부데이터를 활용

정보 시스템을 이용해 증강 생성 - Retrieval Augmented Generation (RAG)

프레임워크

  • langchain , semantic kernel, prompt flow

백엔드 개발자에서 데이터와 AI 교육을 하게 되기까지

박조은 : 오늘코드


Code of Conduct

파이콘 행동 강령 - 건설적인 토론을 해주세요.

우리는 서로 다른 배경과 지식을 가지고 있습니다.

비판과 비난은 다릅니다.

정중한 표현을 사용해주세요

사람이 아닌 내용을 비판해주세요

결점이나 문제점이 아닌 대안에 집중해주세요

내 지식을 뽐내기위해서 다른사람을 비난을 하지마세요

사이먼 사이넥 - 부정적 사고의 부정적 역할

profile
AI engineer

0개의 댓글