# inference
AI 추론을 위한 최적의 하드웨어 스펙을 결정할 때 고려해야 할 네 가지
추론이 사용자 경험을 결정한다. AI 서비스를 개발하는 입장에서는, 모델의 학습이 더 중요하게 느껴진다. 따라서 학습을 위한 인프라에 자연스럽게 많은 금액을 투자하게 된다. 그러나 최종 사용자 입장에서는 모델 학습을 하는 데 걸리는 시간과 비용이 얼마나 되는지는 거의

LLM이 text를 생성하는 방식과 생성 전략
LLM의 inference 과정을 설명허깅페이스 모델의 generate 함수를 직접 구현하여 구체적 설명생성 전략의 간략한 소개Transformer 모델은 주로 Encoder와 Decoder 두 계열로 구분됩니다. Encoder 계열 모델, 예를 들어 BERT 같은 모
타입스크립트 정리2: annotation, 함수
타입 애너테이션으로 타입을 선언해줄 수 있다어떤 함수는 숫자만 반환해야 한다던가어떤 객체는 color라는 프로퍼티를 갖고 그것은 문자열의 배열이어야 한다이렇게 정해놓을때 변수 이름 뒤에 콜론 : 을 적고 타입을 적어주면 된다콜론 뒤에 string이 타입스크립트에게 이
[MLOps] Triton Inference Server 구축기 2 - model repository 만들기
이전 글에서 triton inference server를 docker로 띄우는데 성공하였다면, 이제 serving 하고자 하는 모델을 trained model들이 위치하게 된다. 이어지는 블로그 글에서 자세한 내용을 적을 예정이다. 여기서 지정한 로컬 모델 경로에는
[MLOps] Triton Inference Server 구축기 1 - 설치
공식 문서에서 추천하는 triton build 및 deployment 방법은 docker 이미지를 통한 빌드이기 때문에 추천하는 방식으로 블로그를 쓰려고 한다. 1. Docker, NVIDIA Container Toolkit 설치하기 Triton inference
[MLOps] Triton Inference Server 구축기 0 - 공식 문서 모음
Triton으로 inference server를 구축하는 과정에서 정보가 많이 없어 고생을 많이 하고 있다. 예시도 많이 없을 뿐더러, Nvidia에서 나온 공식 문서도 이곳 저곳 흩어져 있어서 이곳에 정리해보려 한다.

[MLOps] Inference Model Format
Inference model formats for production deployment

M1 Part12 - '아직은 잘 모르겠는' BetterTransformer on M1
2022년 11월 22일쯤에 우연히 BetterTransformer, Out of the Box Performance for Hugging Face Transformers이 포스트를 발견하였다. 들뜬 마음에, 링크부터 저장하였다. 원래는 무언가 실험을 하고 싶었으나,

yolo v7 export.py 분석하기
어제 torch.jit.script 활용하여 pt 파일을 생성해보려 했지만, 제대로 되지 않았다.따라서, yolo v7의 소스코드에 있는 export.py 를 분석하여, 어떤 방식으로 pyTorch 모델을 architecture와 parameter가 담긴 pt파일이

Inference - 3
해당 시리즈는 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/ 입니다.

Inference - 2
해당 시리즈는 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/ 입니다.

Inference - 1
해당 시리즈는 LG에서 지원하는 LG Aimers의 교육 내용을 정리한 것으로, 모든 출처는 https://www.lgaimers.ai/ 입니다.

[MLOps] Multi-Model 서빙을 위한 RedisAI Cluster 구축하기 1편 - What is RedisAI ?
최근 팀에서 자체 NLU 모델을 개발하며 Multi-model Serving에 대한 수요가 생겨났습니다. 각 고객(에이전트)마다

Model Train Job API 개발 - Kubernetes 환경
_ 1. 배경_ 쿠버네티스가 컨테이너 오케스트레이션 도구로 각광을 받은 이유 중 AI 환경에서의 편의성이 높은 점도 있다고 생각합니다. ML Pipeline 환경을 쿠버네티스에서 운영했을 때 학습,관리,배포를 모두 운영 할 수 있습니다. 이러한 각각의 오픈소스(Not

Model Inference with ONNX
pytorch 모델을 바로 서빙에 사용할 수 있도록 Pytorch로 개발한 모델(using transformers)을 onnx포멧으로 변환하고 모델최적화, 그리고 onnxruntime으로 서빙하는 과정 설명

[TS] (2) 기초 : 타입 선언과 타입 추론
타입 선언과 타입 추론을 알아보고, 타입 추론을 활용했을 때와 하지 않았을 때 타입을 선언하는 코드를 비교해봅니다.