Paper Page - From Reflection To Perfection: Scaling Inference-Time Optimization For Text-to-Image Diffusion Models Via Reflection Tuning

Recent text-to-image diffusion models achieve impressive visual quality through extensive scaling of training data and model parameters, yet they often struggle with complex scenes and fine-grained details. Inspired by the self-reflection capabilities emergent in large language models, we propose ReflectionFlow, an inference-time framework enabling diffusion models to iteratively reflect upon and refine their outputs. ReflectionFlow introduces three complementary inference-time scaling axes: (1) noise-level scaling to optimize latent initialization; (2) prompt-level scaling for precise semantic guidance; and most notably, (3) reflection-level scaling, which explicitly provides actionable reflections to iteratively assess and correct previous generations. To facilitate reflection-level scaling, we construct GenRef, a large-scale dataset comprising 1 million triplets, each containing a reflection, a flawed image, and an enhanced image. Leveraging this dataset, we efficiently perform reflection tuning on state-of-the-art diffusion transformer, FLUX.1-dev, by jointly modeling multimodal inputs within a unified framework. Experimental results show that ReflectionFlow significantly outperforms naive noise-level scaling methods, offering a scalable and compute-efficient solution toward higher-quality image synthesis on challenging tasks.

Source link

What's Hot

Cohere Health Named to TIME’s World’s Top HealthTech Companies 2025 List

Filevine Bags $400m to ‘Scale Legal Intelligence’ – Artificial Lawyer

ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment – Takara TLDR

Paper page – From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment – Takara TLDR

VideoFrom3D: 3D Scene Video Generation via Complementary Image and Video Diffusion Models – Takara TLDR

ByteWrist: A Parallel Robotic Wrist Enabling Flexible and Anthropomorphic Motion for Confined Spaces – Takara TLDR

Court Rules ‘Gender Ideology’ Ban on Art Endowments Unconstitutional

Rural Danish Art Museum Acquires Painting By Artemisia Gentileschi

Dan Nadel Is Expanding American Art History, One Outlier at a Time

Bernard Arnault Says French Wealth Tax Will ‘Destroy’ the Economy

Cohere Health Named to TIME’s World’s Top HealthTech Companies 2025 List

Filevine Bags $400m to ‘Scale Legal Intelligence’ – Artificial Lawyer

ContextFlow: Training-Free Video Object Editing via Adaptive Context Enrichment – Takara TLDR

What's Hot

Paper page – From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

Related Posts

Subscribe to Updates