Stable Diffusion์ 2022๋ 8์ Stability AI์์ ๋ฐํํ text-to-image ์์ฑ ๋ชจ๋ธ๋ก, ์คํ์์ค๋ก ๊ณต๊ฐ๋์ด ์ธ๊ณต์ง๋ฅ ์ด๋ฏธ์ง ์์ฑ ๋ถ์ผ์์ ํฐ ์ฃผ๋ชฉ์ ๋ฐ์๋๋ฐ์, 24๋ 12์ ๊ธฐ์ค 1๋ง 2์ฒํ๊ฐ ๋๋ ์ธ์ฉ์๋ฅผ ๊ฐ์ง๋ ๋ ผ๋ฌธ์ ๋๋ค. ์ต๊ทผ
๋ฅ๋ฌ๋์ด๋ ๋จธ์ ๋ฌ๋ ํ๋ก์ ํธ๋ฅผ ํ๋ค ๋ณด๋ฉด, ๋ชจ๋ธ์ config ํ์ผ์ ํตํด ํ์ต์ ํ์ํ ๋ค์ํ ์ค์ ์ ์ ์ํ๊ฒ ๋ฉ๋๋ค. ์ด๋ฌํ ์ค์ ํ์ผ์ ๋ง๋ค ๋ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉํ๋ ํฌ๋งท์ด YAML์ ๋๋ค. ๋ํ, ์ค์ ํ์ผ์ ํจ์จ์ ์ผ๋ก ๊ด๋ฆฌํ๊ณ , ๋ค์ํ ์คํ ํ๊ฒฝ์ ์ง์ํ๊ธฐ ์ํด
NOPE: Novel Object Pose Estimation from a Single Image์ arxiv ๊ธฐ์ค 23๋ 3์์ ๊ฒ์ฌ๋ ํ์ดํผ์ ๋๋ค. ํ์ดํผ ๋ด์ฉ์ ์์ 6D pose estimation task๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ๋จผ์ ์ต๊ทผ 6D Pose esti
๋ฐ์ด๋ฉ ๋ฐ์ค๋ก ๋์ด์๋ object detection ๋ฐ์ดํฐ์ ์ ์ด์ฉํด์ segmentation ๋ฐ์ดํฐ์ ์ผ๋ก ๋ณ๊ฒฝํ๊ณ ์ถ์ ๋, ์ข์ธก์ annotate๋ก ๋ค์ด๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ์ฐ๋ค.์ฐ์ธก์ ํด๋ฐ์์ polygon tool ๋๋ smart polygon tool์ ์ฌ์ฉํ์ฌ s
Towards Total Recall in Industrial Anomaly Detection (CVPR, 2022) locally-aware patch ๋น๊ต ๋ฐ coreset subsampling์ ํตํ idustrial anomaly detection
catastrophic forgetting์์ด ํ๋์ ๋ชจ๋ธ์์ multi-object๋ฅผ ์ง์์ ์ผ๋ก ํ์ตํ๊ณ , task ๊ฐ transfer๊ฐ ์์ ๋ก์ด anomaly detection ๋ชจ๋ธ\*์ฌ๊ธฐ์ ๋งํ๋ task๋ ๋ค๋ฅธ object category, anomaly det
json๋ฐ์ดํฐ๋ csv์์ ๊ฐ row์ ๋ํ ๋ต๋ณ์ ๋ฐ์ผ๋ ค๊ณ ํ ๋, ๋ค์๊ณผ ๊ฐ์ ์๋ฌ๊ฐ ๋ํ๋ฌ๋ค.. ํ ํฐ ์๋ผ๋ ค๊ณ ๋ฐ์ดํฐ ํ๋ ๋ฃ์ด์ ํจ์ ๋ง๋ ๊ฑฐ ๋์ํ๋์ง ํ์ธํ ๋ค์ ์ ์ฒด ๋ฐ์ดํฐ์ ๋ํด ๋๋ ธ๋๋ฐ ์๋ฌ ๋ฐ์RateLimitError: Rate limit reach
์ฐ๊ตฌ์์์ ์ธ๋ฏธ๋ ์ด๋ฆฌ๋๊ฑฐ ๋ฉ์ผ๋ฐ๊ณ ๋ฃ๊ณ ์ถ์ด์ ์ค์ฅ๋๊ป ๋ง์๋๋ฆฌ๊ณ ๋ค๋ฅธ ์ฐ๊ตฌ์ค ์ธ๋ฏธ๋ ์ฐธ์ํ๊ธฐ KAIST ๋ฐ๋ณ์ค ์ฐ๊ตฌ์๋์ด ์ค์ ์ 3D ์ฝํ ์ธ ์์ฑ ๊ธฐ์ ๋ํฅ๊ณผ CVPR 2024์์ ๋ฐํํ์ ๋ ผ๋ฌธ์ ์๊ฐํด์ฃผ์ จ๋ค. ์ต๊ทผ multi view์ synthetic data ๋ง
Vision Transformer๋ ์ปดํจํฐ ๋น์ ์์ ์์ ํฐ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, human body pose estimation์ ์ ์ฉ๋์ด ์ฐ์ํ ์ฑ๋ฅ์ ์ป์์ต๋๋ค. ๊ธฐ์กด์ ViTPose์์๋ vision transformer๋ฅผ pose estimation tas
Inpaint Anything ๋ ผ๋ฌธ์ 23๋ 4์์ ๋ฐํ๋์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ Segment Anything Model(SAM)์ ๊ธฐ๋ฐ์ผ๋ก ํ ์ด๋ฏธ์ง ์ธํ์ธํ ์์คํ ์ ์๊ฐํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๋ค์๊ณผ ๊ฐ์ ์ฃผ์ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค.Remove Anything: ์ฌ์ฉ์
generator๊ฐ discriminator๊ฐ ๋ชป ๋ง์ถ๋ ํด๋์ค๋ฅผ ํ์ ํด์ ๊ทธ ํด๋์ค๋ง ๊ณ์ ์์ฑํด์ discriminator๊ฐ ์ ๋ถ ์ค๋ถ๋ฅํ๋๋ก ํ๋๊ฒ ์ฆ generator๊ฐ local minima์ ๊ฐํ ๊ฒ์ด๋ค. Problem with BCE lossGAN์์ bi
๋ณธ ๊ธ์์๋ CVPR์์ 22๋ ๋์ ๋ฐํ๋ MetaFormer is Actually What You Need for Vision, Yu et al.์ ๋ํด ๊ฐ๋จํ๊ฒ ์ ๋ฆฌํ๊ฒ ์ต๋๋ค.๋ ผ๋ฌธ์์๋ ์ผ๋ฐํ๋ ํธ๋์คํฌ๋จธ ์ํคํ ์ฒ๋ฅผ ์ ์ํฉ๋๋ค.์ฌ๊ธฐ์ ๊ธฐ์กด ํธ๋์คํฌ๋จธ ๊ตฌ์กฐ์์ Sel
Inception ์ํคํ ์ฒ๋ ์ด๊ธฐ์ GoogLeNet์ผ๋ก ์๋ ค์ ธ ์์์ผ๋ฉฐ, ์ดํ Inception v2, Inception v3 ๋ฑ ๋ค์ํ ๋ฒ์ ์ด ๋ฐํ๋์์ต๋๋ค. Inception v4๋ 2016๋ ์ ์๊ฐ๋์์ผ๋ฉฐ, ๊ทธ ์ดํ๋ก๋ ๋ค์ํ ๊ฐ์ ์ด ์ด๋ฃจ์ด์ง ๊ฒ์ผ๋ก ์๋ ค์ ธ ์์ต
Pre-trained Language Model (PLM) ํจ์จ์ ์ผ๋ก finetuningํ๊ธฐ, PEFT ๋ฐฉ๋ฒ๋ก ``LoRA``, ``prompt tuning``, ``prefix tuning``
๊นํ ์ค์น ๋งค๋ด์ผ์ฒ๋ผ sudo ์ ๊ทผ์ด ๋ถ๊ฐํ server์์ stable diffusion ์ค์นํ๊ธฐ
์ค๋ ์๊ฐํ๋ BLIP(paper)๋, 2022๋ ๋ฐํ๋ ๋ ผ๋ฌธ์ผ๋ก vision-language understanding tasks์ generation-based tasks ๋ชจ๋ ์ ์ฐํ๊ฒ ์ฌ์ฉํ ์ ์๋๋ก ์ํคํ ์ฒ๋ฅผ ์ค๊ณํ์๊ณ , ํฉ์ฑ๋ ์บก์ ์ ์์ฑํ๊ณ ๊ธฐ์กด
github link : https://github.com/AUTOMATIC1111/stable-diffusion-webui/์ ๋ ํฌ์งํ ๋ฆฌ๋ฅผ cloneํ๊ณ webui-user.bat ํ์ผ์ ๋๋ธํด๋ฆญํ์ฌ ์คํํ๋ฉด ๋๋ค.์ด๋ python์ ์ฐพ์ ์ ์๋ค๋ ์๋ฌ๊ฐ
SlowFast Networks for Video Recognition ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ
CLIP์ OpenAI๊ฐ 2021๋ ๋ฐํํ์ผ๋ฉฐ, ์ด๋ฏธ์ง ์ธ์ ์ ๋ ์ด๋ธ์ด ์๋ ค์ง์ง ์์ ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฌ์ ํ์ต์ํค๋๋ฐ ์ฌ์ฉ๋๋ค. CLIP ๋ฐฉ๋ฒ๋ก ์ ํต์ฌ์ Image Encoder์ Text Encoder๋ฅผ Contrastive Learning ๋ฐฉ๋ฒ์ผ๋ก ํ์ตํ๋ค๋
๋ด๋ง๋๋ก ๋ง๋ ๋ฉ๋ด์ถ์ฒ์์คํ ์งํ๊ณผ์ ์ ๊ฐ๋ตํ๊ฒ ์ ๋ฆฌํด๋ดค๋ค. ํ๋ก์ ํธ๋ ๋ฐ์ดํฐ ์์ง ๋จ๊ณ๋ถํฐ ์ถ์ฒ๋ฐฉ์ ์ ๊ตฌํ, ํ๊ฐ์งํ ๊ณ ๋ฏผ๊น์ง ๋ค์ํ ๊ณผ์ ์ ๊ฑฐ์ณค๋ค.