LatentFlowSR

Abstract

Audio super-resolution aims to recover missing high-frequency details from bandwidth-limited low-resolution audio, thereby improving the naturalness and perceptual quality of the reconstructed signal. However, most existing methods directly operate in the waveform or time–frequency domain, which not only involves high-dimensional generation spaces but is also largely limited to speech tasks, leaving substantial room for improvement on more complex audio types such as sound effects and music. To mitigate these limitations, we introduce LatentFlowSR, a new audio super-resolution approach that leverages conditional flow matching (CFM) within a latent representation space. Specifically, we first train a noise-robust autoencoder, which encodes low-resolution audio into a continuous latent space. Conditioned on the low-resolution latent representation, a CFM mechanism progressively generates the corresponding high-resolution latent representation from a Gaussian prior with a one-step ordinary differential equation (ODE) solver. The resulting high-resolution latent representation is then decoded by the pretrained autoencoder to reconstruct the high-resolution audio. Experimental results demonstrate that LatentFlowSR consistently outperforms baseline methods across various audio types and super-resolution settings. These results indicate that the proposed method possesses strong high-frequency reconstruction capability and robust generalization performance, providing compelling evidence for the effectiveness of latent-space modeling in audio super-resolution. All relevant code will be made publicly available upon completion of the paper review process.

I. VCTK

In-domain

8 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

NU-Wave

N/A

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

NU-Wave

N/A

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

NU-Wave

N/A

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

12 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

NU-Wave

N/A

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

NU-Wave

N/A

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

NU-Wave

N/A

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

16 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

NU-Wave

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

NU-Wave

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

NU-Wave

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

24 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

NU-Wave

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

NU-Wave

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

NU-Wave

NU-Wave2

UDM+

AudioSR

FlashSR

FlowHigh

mdctGAN

AP-BWE

LatentFlowSR

II. ESC-50

Out-of-domain

8 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

12 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

16 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

24 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

III. Internal Music

In-domain

8 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

12 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

16 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

24 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

IV. MUSDB18-HQ

Out-of-domain

8 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

12 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

16 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

24 kHz → 44.1 kHz

Sample 1

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 2

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

Sample 3

Low-Resolution Input

Ground Truth

AudioSR

FlashSR

FlowHigh

LatentFlowSR

LatentFlowSR: High-Fidelity Audio Super-Resolution via Noise-Robust Latent Flow Matching

Abstract

I. VCTK

8 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

12 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

16 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

24 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

II. ESC-50

8 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

12 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

16 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

24 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

III. Internal Music

8 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

12 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

16 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

24 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

IV. MUSDB18-HQ

8 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

12 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

16 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3

24 kHz → 44.1 kHz

Sample 1

Sample 2

Sample 3