데블챌#5. 7 Cool Technical GenAI & LLM Job Interview Questions

MUUU·2024년 6월 2일
0

데블챌

목록 보기
5/14


7가지 멋진 기술 GenAI 및 LLM 면접 질문

출처:https://www.datasciencecentral.com/7-cool-technical-genai-llm-job-interview-questions/

😈 데이터블로그 챌린지 4일차😈 입니다.
datasciencecentral.com 에서 genAI 및 LLM 관련 질문과 답변을 읽어보았습니다.
진부한 문제가 아닌, 최신의 기술트렌드에 기반한 문제셋이기 때문에 읽어볼 가치가 있었습니다!


요약

  • GenAItechLab.com의 CEO인 Vincent Granville이 정리한 genAI와 LLM에 기반한 최신 기술과 관련된 질문과 그에 대한 답변입니다.

내용

1. python 에 embedded dictionary를 사용하여 지식그래프를 구축하는 방법은?

=> nested dictionary를 사용하여 단어, 개념 간의 연결 관계를 나타낼 수 있음. 중첩 사전의 상위 키는 주제 (예: 수학), 하위 키는 하위 주제 (예: 미적분), 값은 연결 강도를 나타내는 가중치입니다.

2. 데이터가 1억 개의 키워드로 구성된 경우, 계층적 클러스터링(hierarchical clustering)을 어떻게 수행합니까?

=> 표준 라이브러리들은 1억 x 1억의 거리 행렬을 필요로 하기 때문에 사용하기 어려움. 희소 그래프( sparse graph)에 적합한 방법을 사용해야 하며, 중첩 사전을 이용하여 연결된 단어들을 찾는 방법이 하나의 해결책입니다.

3. Wikipedia와 같은 대규모 저장소를 크롤링할 때, 단순히 문서만 가져오는게 아니라 '문서구조 정보'를 함께 추출하는 방법은 무엇입니까?

=> 메타데이터, 인덱스, 관련 항목, 빵가루 경로, 카테고리 등의 구조적 요소들이 웹 페이지에 포함됨. 이러한 구조적 요소들을 추출하여 지식 그래프나 분류 체계를 구축할 수 있습니다.

4. LLM 임베딩을 긴 문장이나 맥락 정보를 담은 토큰으로 어떻게 향상시킬 수 있습니까?

=> 긴 문장이나 맥락 정보를 담은 토큰 활용:다중토큰(multi-token), 문맥토큰(contextual token)
쓸모없는 토큰을 제거하되(가장 긴 토큰은 유지) 가변 크기 임베딩으로 작업해야합니다.
참조: https://mltechniques.com/2024/04/12/hallucination-free-self-tuned-fast-hierarchical-llms-with-multi-token-embeddings/

5. 모델 평가 및 훈련과 관련된 많은 문제를 제거하기 위해 implenet self-tuning 하는 방법은 무엇입니까?

=> 설명가능한 AI를 기반으로 함. 하이퍼파라미터를 선택하고 마음에 드는 하이퍼파라미터에 플래그를 지정 => 사용자 입력에 기반한 자동화 된 강화학습
또한, 사용자가 검색 유형이나 카테고리에 따라 특정 하위 llm을 선택할 수 있도록 하면 성능이 더욱 향상 됨

6. 벡터 검색 속도를 수십배 높이는 방법은 무엇입니까?

=>
1) 가변길이 임베딩으로 작업하면 임베딩 크기가 줄어든다. 토큰과 임베딩 테이블 크기를 줄이는것도 또 다른 해결책.
2) 압축된 임베딩에서 ANN을 사용하여 검색을 수행, pANN은 훨씬 빠르게 실행가능함.
3) 캐싱을 이용하여 가장 자주 액세스 하는 임베딩, 쿼리를 저장하면 실시간 성능 향상가능

https://www.datasciencecentral.com/wp-content/uploads/2024/04/ann.gif

7. 모델에서 최상의 결과를 얻기 위한 이상적인 손실 함수는 무엇입니까?

=>변화량 기반 컬모고로프-스미르노프 거리 multivariate Kolmogorov-Smirnov distance (KS)라는 새로운 평가 지표를 제안.
모델 평가 지표로 활용 가능, 높은 계산 효율성, 손실 함수로 활용 가능

profile
데이터분석

0개의 댓글