Optimal Control Meets Flow Matching: A Principled Route To Multi-Subject Fidelity - Takara TLDR

Text-to-image (T2I) models excel on single-entity prompts but struggle with
multi-subject descriptions, often showing attribute leakage, identity
entanglement, and subject omissions. We introduce the first theoretical
framework with a principled, optimizable objective for steering sampling
dynamics toward multi-subject fidelity. Viewing flow matching (FM) through
stochastic optimal control (SOC), we formulate subject disentanglement as
control over a trained FM sampler. This yields two architecture-agnostic
algorithms: (i) a training-free test-time controller that perturbs the base
velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight
fine-tuning rule that regresses a control network to a backward adjoint signal
while preserving base-model capabilities. The same formulation unifies prior
attention heuristics, extends to diffusion models via a flow-diffusion
correspondence, and provides the first fine-tuning route explicitly designed
for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and
Stable Diffusion XL, both algorithms consistently improve multi-subject
alignment while maintaining base-model style. Test-time control runs
efficiently on commodity GPUs, and fine-tuned controllers trained on limited
prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal
Control for Unentangled Subjects), which achieves state-of-the-art
multi-subject fidelity across models.

Source link

What's Hot

StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions – Takara TLDR

Elon Musk’s AI War With OpenAI Explained As Rift Intensifies, Lands In Court

OpenAI is the world’s most valuable private company after private stock sale

Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity – Takara TLDR

StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions – Takara TLDR

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses – Takara TLDR

VLA-RFT: Vision-Language-Action Reinforcement Fine-tuning with Verified Rewards in World Simulators – Takara TLDR

Italian police seize 21 suspected forgeries attributed to Dalí

Acclaimed Sculptor Petrit Halilaj Wins $100,000 Nasher Prize

Syracuse University Starts First Program For Podcasters and Influencers

Sotheby’s Sells York Avenue HQ to Weill Cornell, Prepares Breuer Move

StealthAttack: Robust 3D Gaussian Splatting Poisoning via Density-Guided Illusions – Takara TLDR

Elon Musk’s AI War With OpenAI Explained As Rift Intensifies, Lands In Court

OpenAI is the world’s most valuable private company after private stock sale

What's Hot

Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity – Takara TLDR

Related Posts

Subscribe to Updates