7가지 멋진 기술 GenAI 및 LLM 면접 질문
출처:https://www.datasciencecentral.com/7-cool-technical-genai-llm-job-interview-questions/
😈 데이터블로그 챌린지 4일차😈 입니다.
datasciencecentral.com 에서 genAI 및 LLM 관련 질문과 답변을 읽어보았습니다.
진부한 문제가 아닌, 최신의 기술트렌드에 기반한 문제셋이기 때문에 읽어볼 가치가 있었습니다!
=> nested dictionary를 사용하여 단어, 개념 간의 연결 관계를 나타낼 수 있음. 중첩 사전의 상위 키는 주제 (예: 수학), 하위 키는 하위 주제 (예: 미적분), 값은 연결 강도를 나타내는 가중치입니다.
=> 표준 라이브러리들은 1억 x 1억의 거리 행렬을 필요로 하기 때문에 사용하기 어려움. 희소 그래프( sparse graph)에 적합한 방법을 사용해야 하며, 중첩 사전을 이용하여 연결된 단어들을 찾는 방법이 하나의 해결책입니다.
=> 메타데이터, 인덱스, 관련 항목, 빵가루 경로, 카테고리 등의 구조적 요소들이 웹 페이지에 포함됨. 이러한 구조적 요소들을 추출하여 지식 그래프나 분류 체계를 구축할 수 있습니다.
=> 긴 문장이나 맥락 정보를 담은 토큰 활용:다중토큰(multi-token), 문맥토큰(contextual token)
쓸모없는 토큰을 제거하되(가장 긴 토큰은 유지) 가변 크기 임베딩으로 작업해야합니다.
참조: https://mltechniques.com/2024/04/12/hallucination-free-self-tuned-fast-hierarchical-llms-with-multi-token-embeddings/
=> 설명가능한 AI를 기반으로 함. 하이퍼파라미터를 선택하고 마음에 드는 하이퍼파라미터에 플래그를 지정 => 사용자 입력에 기반한 자동화 된 강화학습
또한, 사용자가 검색 유형이나 카테고리에 따라 특정 하위 llm을 선택할 수 있도록 하면 성능이 더욱 향상 됨
=>
1) 가변길이 임베딩으로 작업하면 임베딩 크기가 줄어든다. 토큰과 임베딩 테이블 크기를 줄이는것도 또 다른 해결책.
2) 압축된 임베딩에서 ANN을 사용하여 검색을 수행, pANN은 훨씬 빠르게 실행가능함.
3) 캐싱을 이용하여 가장 자주 액세스 하는 임베딩, 쿼리를 저장하면 실시간 성능 향상가능
https://www.datasciencecentral.com/wp-content/uploads/2024/04/ann.gif
=>변화량 기반 컬모고로프-스미르노프 거리 multivariate Kolmogorov-Smirnov distance (KS)라는 새로운 평가 지표를 제안.
모델 평가 지표로 활용 가능, 높은 계산 효율성, 손실 함수로 활용 가능