sujin-koo (Sujin Koo)

AI 😎

태그 목록

전체보기 (42)paper-review(4)audio(2)LLM(1)low latency(1)streaming(1)rag(1)Training-free(1)Music Generation(1)Game AI(1)ASR(1)sound-separation(1)tts(1)speech(1)

[Paper Review] OpenS2S

OpenS2S는 사용자의 음성에 담긴 언어적 내용과 감정, 억양, 말투 같은 준언어적 정보를 이해하고, 이에 맞는 공감적 텍스트와 감정이 표현된 음성 응답을 생성하는 오픈소스 Speech-to-Speech 모델이다. 다만 OpenS2S는 응답 텍스트가 모두 완성되기 전부터 speech token과 waveform을 순차적으로 생성하지만, Moshi나 Pe...

약 13시간 전

0개의 댓글

[Paper Review] PHOENIX-VAD: STREAMING SEMANTIC ENDPOINT DETECTION FOR FULL-DUPLEX SPEECH INTERACTION

Overview One of the most critical challenges in building a full-duplex dialogue model is achieving naturalistic turn-taking — the model should know when to respond and when to keep listening. This p...

2026년 6월 22일

0개의 댓글

Digging Into the Moshi Model's Code

Today I took a closer look at how the Moshi model actually works under the hood, code-wise. Moshi is fundamentally a model designed to listen and speak at the same time. Because of this, unlike typic...

2026년 6월 21일

0개의 댓글

[Paper Review] DialogueSidon: Recovering Full-Duplex Dialogue Tracks from In-the-Wild Dialogue Audio

How can we make a better dataset from in-the-wild data for training full-duplex models? ✔️ Background Training a full-duplex spoken dialogue model requires dialogue recordings where each speaker is o...

2026년 6월 13일

0개의 댓글

PLDA와 Cosine Similarity 차이점

최근에 화자 분리 태스크를 보곤 했는데 음성 인식, 화자 인증, 얼굴 인식, 임베딩 검색 같은 분야를 보다 보면 자주 등장하는 비교 방식이 있습니다. 바로 Cosine Similarity와 PLDA입니다. 둘 다 “두 벡터가 얼마나 비슷한가?”를 판단하는 데 쓰이지만 차이가 있기 때문에 그 부분은 간단하게 정리하고자 합니다. 결론을 미리 말씀 드리자면,...

2026년 6월 7일

0개의 댓글

음성 대화모델, 요즘은 어떻게 평가할까

최근 음성 대화모델 연구가 정말 활발하다. 특히 사용자의 말을 끝까지 다 듣고 나서야 대답하는 half-duplex 방식을 넘어, 듣는 동시에 말할 수 있는 full-duplex 모델들이 빠르게 등장하고 있다. 끼어들기(interruption), 멈춤(pause), 짧은 맞장구(backchannel)처럼 사람 사이의 대화에서 자연스럽게 일어나는 현상들을 다...

2026년 5월 31일

0개의 댓글

대화 데이터셋 리뷰

Open-Source Full-Duplex Conversational Datasets for Natural and Interactive Speech Synthesis 대화형 모델에 계속 관심을 갖고 있고, 데이터 파트가 궁금해 읽게 되었습니다. 논문에서 진행한 방식은 직접 녹음하는 방식이었는데 사실 비용 문제로 크롤링이나 합성에 비해 제가 따라서 적용하기...

2026년 5월 17일

0개의 댓글

AI EXPO 2026 국제인공지능대전 관람 후기

코엑스에서 진행된 AI EXPO 2026 에 다녀왔습니다. 행사정보 링크 코엑스 : https://www.coex.co.kr/exhibitions/국제인공지능대전-2/ 국제인공지능대전: http://www.aiexpo.co.kr/home/v4.php?s=34 시간: 05/06(수) - 05/08(금) 10:00 - 17:00 장소: 코엑스 Hall ...

2026년 5월 7일

0개의 댓글

[Paper Review] Easy Turn: Integrating Acoustic and Linguistic Modalities for Robust Turn-Taking in Full-Duplex Spoken Dialogue Systems

#Full-duplex spoken dialogue systems #turn taking detection #음향과 언어를 함께 써서, 더 자연스러운 대화를 만들 수 있을까? ✔️ 배경 최근 spoken dialogue system은 단순히 “질문하면 대답하는”

2026년 5월 3일

0개의 댓글

PersonaPlex 리뷰

PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models ✔️ 배경 최근 음성 AI는 단순히 자연스러운 음성을 합성하는 TTS를 넘어서, 실시간으로 듣고, 말하고, 끼어들고, 맞장구치며, 상황에 맞는 역할을 수행하는 대화형 음성 에이전트로 빠르게 확장되고 있습니다. 특...

2026년 4월 26일

0개의 댓글

화자 분리(Speaker Diarization) 기초(2) - VAD, UBM

작성중

2026년 4월 13일

0개의 댓글

[Paper Review] AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration

https://arxiv.org/abs/2306.00978 작성중..

2026년 4월 11일

0개의 댓글

화자 분리(Speaker Diarization) 기초 (1) - MFCC

시작하기 전에... 용어를 헷갈려 하실까봐 spectrum, spectrogram, mel spectrogram, mfcc 의 차이를 간단히 정리하자면 이와 같습니다. 이미지 출처 waveform → (pre-emphasis) → STFT(framing(hamming window, overlap, hop size) → 각 프레임에 DFT(실제로는 연산 ...

2026년 4월 9일

0개의 댓글

[Paper Review] Emotion Concepts and their Function in a Large Language Model

https://transformer-circuits.pub/2026/emotions/index.html 작성중..

2026년 4월 8일

0개의 댓글

chown – 파일 소유자 변경

chown – 파일 소유자 변경 ✔️ 기본 개념 chown은 파일이나 디렉토리의 소유자(owner)와 그룹(group) 을 변경하는 명령어이다. ✔️ 사용 예시 sudo chown -R [소유자]:[그룹] [대상 디렉토리] ✔️ 의미 sudo : 관리자 권한으로 실행 chown : 소유자 변경 -R : 하위 디렉토리까지 재귀적으로 적용

2026년 4월 7일

0개의 댓글