Paper summary

ManiTrans: Text-Guided Image Manipulation

1.What is this paper about?

初めて、Transformer-basedのtext-guided image manipulation modelである。 さらに、CLIPを用いた、semantic loss functionと2つのpre-trained modelを用いたsemantic alignment moduleを導入して、SOTAを達成した。

2.What’s better than previous paper?

過去モデルでは、DAMSM(AttnGAN)などのattentionが使われていたが、Transfomerを導入することで、より精度の高いattentionが行えるようになった。 さらに、CLIPを使用したLossを導入することで、他クラスのCOCOデータセットでも高い精度を実現した。 さらに、textに関連しない領域の情報を保持するために、manipulation modelの前に、detectionして領域を分けることで、背景情報の不本意な修正をなくした。

3.What are important parts of technique and methods?

compare

VAEを用いて、出力画像を入力画像が同じになるように学習し、Transoformerを使用して、textとimage(token)の結びつきを学習させた。

さらに、Inferenceの時に、事前にsegmentation detectionと、テキスト関連部を出力するpre-train model(今回は、CContinuous Refinement Model(CRM)とFILIP)を使用することで、text関連部のみをdetectし、その情報を入力することで、image manipulationの精度を向上させた。

4.How did they verify it?

使用したデータセット: Oxford(花), CUB(鳥), COCO(色々) 使用したmetrcs:

Quantitative evalution

Qualitative evalution

compare

また、CUBとOxfordの融合データセットを作ることで、 花→鳥、鳥→花のimage manipulationgaが可能になった。

compare

5.Is there a debate?

生成前のbackgroundと生成後のbackgroundの変化がある。 → lossをかませるか、WACVの方法でやれば、まあ精度は改善できると思われる。 でも、imagenといい、最近のimage manipulation modelは、多少のテキストに関連していない部分を許容する動きなのかな?(背景画像より、realityのあるimageって感じ?)

CUBとOxfordの画像をmixの仕方などが知りたいが、何も書かれていない。 → codeの公開はよーーーー

6.My interest paper in this paper