개발자로 후회없는 삶 살기

논문 리뷰 PART.Sketch2Fashion: Generating clothing visualization from sketches 본문

[AI]/[논문 리뷰, 분석]

논문 리뷰 PART.Sketch2Fashion: Generating clothing visualization from sketches

몽이장쥰 2022. 11. 22. 18:35

서론

Sketch2Fashion은 스케치 의류 이미지를 실제 이미지로 변환하는 작업을 수행합니다. 스케치 관련 GAN은 몽타주를 실제 얼굴로 바꾸거나 연필 스케치 그림을 실제 작품으로 바꾸는 등 다양합니다. 본 포스팅에서 주요 내용 위주로 논문을 번역/ 요약하였습니다.

 

> 논문에서는 사람이 그린 의류 디자인 스케치를 실제 의류로 변환하는 논문을 다룹니다. 틀린 내용이 있으면 피드백 부탁드립니다.

 

- 논문 제목 : Sketch2Fashion: Generating clothing visualization from sketches

- 저자 : Manya Bansal, David Wang, Vy Thai

 

본론

 - 논문

55752208.pdf
3.99MB

 

- 깃허브

https://github.com/vythaihn/Sketch2Fashion-pytorch-CycleGAN-and-pix2pix

 

GitHub - vythaihn/Sketch2Fashion-pytorch-CycleGAN-and-pix2pix: Image-to-Image Translation in PyTorch

Image-to-Image Translation in PyTorch. Contribute to vythaihn/Sketch2Fashion-pytorch-CycleGAN-and-pix2pix development by creating an account on GitHub.

github.com

 

[깃허브나 유튜브]

- Information

이것은 스케치에 따라 사실적인 의상을 생성하는 것을 목표로 하는 Sketch2Fashion 프로젝트의 구현입니다. 이 프로젝트는 Pix2Pix 및 CycleGAN 모델을 사용하여 목표를 달성합니다.

 

 

 

- Important

프로젝트 Pix2Pix 및 CycleGAN 구현은 원본 CGAN 및 CycleGAN의 문서 Github repo에서 크게 차용했습니다. 그러나 프로젝트 리포지토리에는 다음과 같이 몇 가지 변경 사항이 있습니다.

크기 조정, 가장자리 생성, 데이터 세트 분할 등과 같은 입력 파이프라인 구현을 위한 새 폴더 Tools를 추가했습니다. 이 폴더는 Tensorflow의 Pix2Pix 구현에서 크게 차용되었습니다.

 

 

=> 실행

논문에서는 다양한 스케치 GAN에 사용된 모델과 아키텍쳐를 그대로 의류에도 사용할 수 있음을 언급하며 따로 새로운 모델이나 방법론을 제시한 것은 아닙니다. 다만 저자는 본인이 실험한 최고의 환경을 제시하고 있습니다. 또한 프로젝트 중간중간 사용된 알고리즘을 비교하여 최적의 알고리즘을 추천합니다.

 

1. model : ① Pix2Pix, ② Cyclegan

2. edge detection : ① Holistically-Nested Edge Detection, ② Canny Edge Detection, ③ Sketch outputs of CycleGAN

 

[논문 1회독]

- Abstract

이미지에서 다른 이미지로의 맵핑은 많은 발전을 이뤘습니다. 저자는 이것을 패션 디자인의 스케치를 완성된 최종 의상으로 변환합니다. 우리 프로젝트는 3가지 에지 감지 알고리즘을 실험하고 서로 다른 아키텍처를 가진 3가지 모델을 테스트합니다.

 

- 본론 Figure 미리 보기

=> Fig1

그림 1: CycleGAN은 가짜 스케치에서 컬러 픽셀을 사용하여 재구성 프로세스를 알리는 "속임수"를 제공한다.

=> Fig2

그림 2: 75 Epoch 동안 CGAN으로 훈련한 후의 다양한 에지 추출 성능

 

 

 

5. Conclusion

5.1 Visual Results of MUNIT

결론적으로 우리는 CGAN 및 CycleGAN 모델이 MUNIT보다 이미지 사실주의에서 더 나은 성능을 보이지만 예상대로 MUNIT는 더 다양한 이미지를 생성한다는 것을 발견했습니다. MUIT에서 더 나은 이미지 리얼리즘은 더 적은 흥미로운 패턴이 생성되었음을 의미합니다. 하지만 CGAN과 CycleGAN에서 더 나은 이미지 리얼리즘은 더 낮은 색상 다양성을 의미합니다.

 

 

5.2 Visual Results of CGAN

 

 우리는 또한 디자인 스케치에서 사실적인 이미지를 생성하는 작업의 경우 교육 데이터 "스케치"를 생성하는 가장 효과적인 방법이 Edges2Shoes 또는 Edges2Cats와 같은 이전 프로젝트에서 자주 사용되는 가장자리 감지 알고리즘이 아니라는 결론입니다.

 

 

 

5.3 Visual Results of CycleGAN

대신 더 나은 세부 정보와 음영으로 스케치를 생성할 수 있는 CycleGAN 모델과 같은 알고리즘을 사용하는 것이 좋습니다. 이것들은 훨씬 더 나은 결과물을 생성할 뿐만 아니라 실제 패션 디자인 스케치를 훨씬 더 잘 표현합니다.

 

 

[논문 2회독 (수식 + method + experiment 위주)] 

1. Introduction

우리 프로젝트는 스케치를 옷을 디자인하는 과정을 마지막 단계로 이끄는 사실적이고 컬러감 있는 옷 이미지로 변형합니다.

 

2. Dataset and Input Pipeline

Leonidas Lefakis가 제공한 오픈 소스 패션 의류 데이터 세트를 사용합니다. HED, Canny 및 CycleGAN의 스케치 출력이라는 세 가지 다른 방법을 사용하여 스케치를 생성합니다.

 

-> 3개의 감지 기술로 스케치를 만든다. > canny나 hed 보다 cyclegan으로 스케치 풍의 의류 이미지를 만드는 게 좋다.

 

3. Architecture

3.1 MUNIT(Multimodal Unsupervised Image-to-Image Translation)

다양한 스타일을 생성하기 위해 MUNIT 모델을 구현합니다. 이 모델은 적대적 목표로 훈련된 두 개의 자동 인코더로 구성됩니다. 손실 함수는 스타일(s) 및 내용(c)에 대한 고려 사항을 포함하는 image reconstruction loss, latent reconstruction loss 및 adversarial loss(판별자 손실)로 구성되어 최종적으로 가중치와 결합하여 총 손실을 계산합니다.

 

1) image reconstruction loss

 

2) latent reconstruction loss

 

 

3) adversarial loss

 

 

판별자 오차

 

MUNIT(Multimodal Unsupervised Image-to-Image Translation)를 사용하기 위해 모델 하이퍼 파리미터로 cycle gan에 맞게 바꿔야 합니다.

epoch batch size weight decay β1 β2 decay lr 재구성
손실
가중치
적대 손실
가중치
잠재재구성 손실 가중치
200,000 1 0.0001 0.5 0.999  0.5  0.0001  10 1 1

 

+ CGAN, CycleGAN : 총 3개의 모델로 성능 비교를 하였습니다.

 

 

 

 

Comments