add uncond slg variant

stduhpf · stduhpf · commit 41b4865ff175 · 2025-03-14T00:24:20.000+01:00
diff --git a/examples/cli/main.cpp b/examples/cli/main.cpp
@@ -136,6 +136,7 @@ struct SDParams {
     float slg_scale              = 0.0f;
     float skip_layer_start       = 0.01f;
     float skip_layer_end         = 0.2f;
+    bool slg_uncond              = false;
 
     float apg_eta            = 1.0f;
     float apg_momentum       = 0.0f;
@@ -240,11 +241,14 @@ void print_usage(int argc, const char* argv[]) {
     printf("                                     (replaces saturation with a smooth approximation)\n");
     printf("  --slg-scale SCALE                  skip layer guidance (SLG) scale, only for DiT models: (default: 0)\n");
     printf("                                     0 means disabled, a value of 2.5 is nice for sd3.5 medium\n");
-    printf("  --eta SCALE                        eta in DDIM, only for DDIM and TCD: (default: 0)\n");
+    printf("  --slg-uncond                       Use CFG's forward pass for SLG instead of a separate pass, only for DiT models\n");
+    printf("                                     To use this, it's recommended to keep slg-scale to 0, both for performance and quality reasons\n");
+    printf("                                     This should be slightly faster than normal cfg when cfg_scale != 1.\n");
     printf("  --skip-layers LAYERS               Layers to skip for SLG steps: (default: [7,8,9])\n");
     printf("  --skip-layer-start START           SLG enabling point: (default: 0.01)\n");
     printf("  --skip-layer-end END               SLG disabling point: (default: 0.2)\n");
     printf("                                     SLG will be enabled at step int([STEPS]*[START]) and disabled at int([STEPS]*[END])\n");
+    printf("  --eta SCALE                        eta in DDIM, only for DDIM and TCD: (default: 0)\n");
     printf("  --strength STRENGTH                strength for noising/unnoising (default: 0.75)\n");
     printf("  --style-ratio STYLE-RATIO          strength for keeping input identity (default: 20%%)\n");
     printf("  --control-strength STRENGTH        strength to apply Control Net (default: 0.9)\n");
@@ -611,6 +615,8 @@ void parse_args(int argc, const char** argv, SDParams& params) {
                 break;
             }
             params.slg_scale = std::stof(argv[i]);
+        } else if (arg == "--slg-uncond") {
+            params.slg_uncond = true;
         } else if (arg == "--skip-layers") {
             if (++i >= argc) {
                 invalid_arg = true;
@@ -816,6 +822,7 @@ std::string get_image_params(SDParams params, int64_t seed) {
         }
     }
     if (params.slg_scale != 0 && params.skip_layers.size() != 0) {
+        parameter_string += "Unconditional SLG: " + std::string(params.slg_uncond ? "True" : "False") + ", ";
         parameter_string += "SLG scale: " + std::to_string(params.cfg_scale) + ", ";
         parameter_string += "Skip layers: [";
         for (const auto& layer : params.skip_layers) {
@@ -1072,7 +1079,8 @@ int main(int argc, const char* argv[]) {
                                           params.skip_layers.size(),
                                           params.slg_scale,
                                           params.skip_layer_start,
-                                          params.skip_layer_end},
+                                          params.skip_layer_end,
+                                          params.slg_uncond},
                           sd_apg_params_t{params.apg_eta,
                                           params.apg_momentum,
                                           params.apg_norm_threshold,
@@ -1145,7 +1153,8 @@ int main(int argc, const char* argv[]) {
                                               params.skip_layers.size(),
                                               params.slg_scale,
                                               params.skip_layer_start,
-                                              params.skip_layer_end},
+                                              params.skip_layer_end,
+                                              params.slg_uncond},
                               sd_apg_params_t{params.apg_eta,
                                               params.apg_momentum,
                                               params.apg_norm_threshold,
diff --git a/stable-diffusion.cpp b/stable-diffusion.cpp
@@ -922,7 +922,7 @@ class StableDiffusionGGML {
                         const std::vector<float>& sigmas,
                         int start_merge_step,
                         SDCondition id_cond,
-                        sd_slg_params_t slg_params = {NULL, 0, 0, 0, 0},
+                        sd_slg_params_t slg_params = {NULL, 0, 0, 0, false},
                         sd_apg_params_t apg_params = {1, 0, 0, 0},
                         ggml_tensor* noise_mask    = nullptr) {
         std::vector<int> skip_layers(slg_params.skip_layers, slg_params.skip_layers + slg_params.skip_layers_count);
@@ -949,7 +949,7 @@ class StableDiffusionGGML {
         struct ggml_tensor* noised_input = ggml_dup_tensor(work_ctx, noise);
 
         bool has_unconditioned = cfg_scale != 1.0 && uncond.c_crossattn != NULL;
-        bool has_skiplayer     = slg_params.scale != 0.0 && skip_layers.size() > 0;
+        bool has_skiplayer     = (slg_params.scale != 0.0 || slg_params.slg_uncond) && skip_layers.size() > 0;
 
         // denoise wrapper
         struct ggml_tensor* out_cond   = ggml_dup_tensor(work_ctx, x);
@@ -961,7 +961,9 @@ class StableDiffusionGGML {
         }
         if (has_skiplayer) {
             if (sd_version_is_dit(version)) {
-                out_skip = ggml_dup_tensor(work_ctx, x);
+                if (slg_params.scale != 0.0) {
+                    out_skip = ggml_dup_tensor(work_ctx, x);
+                }
             } else {
                 has_skiplayer = false;
                 LOG_WARN("SLG is incompatible with %s models", model_version_to_str[version]);
@@ -970,7 +972,7 @@ class StableDiffusionGGML {
         struct ggml_tensor* denoised = ggml_dup_tensor(work_ctx, x);
 
         struct ggml_tensor* preview_tensor = NULL;
-        auto sd_preview_mode = sd_get_preview_mode();
+        auto sd_preview_mode               = sd_get_preview_mode();
         if (sd_preview_mode != SD_PREVIEW_NONE && sd_preview_mode != SD_PREVIEW_PROJ) {
             preview_tensor = ggml_new_tensor_4d(work_ctx, GGML_TYPE_F32,
                                                 (denoised->ne[0] * 8),
@@ -1040,6 +1042,8 @@ class StableDiffusionGGML {
                                          control_strength,
                                          &out_cond);
             }
+            int step_count         = sigmas.size();
+            bool is_skiplayer_step = has_skiplayer && step > (int)(slg_params.skip_layer_start * step_count) && step < (int)(slg_params.skip_layer_end * step_count);
 
             float* negative_data = NULL;
             if (has_unconditioned) {
@@ -1048,24 +1052,39 @@ class StableDiffusionGGML {
                     control_net->compute(n_threads, noised_input, control_hint, timesteps, uncond.c_crossattn, uncond.c_vector);
                     controls = control_net->controls;
                 }
-                diffusion_model->compute(n_threads,
-                                         noised_input,
-                                         timesteps,
-                                         uncond.c_crossattn,
-                                         uncond.c_concat,
-                                         uncond.c_vector,
-                                         guidance_tensor,
-                                         -1,
-                                         controls,
-                                         control_strength,
-                                         &out_uncond);
+                if (is_skiplayer_step && slg_params.slg_uncond) {
+                    LOG_DEBUG("Skipping layers at uncond step %d\n", step);
+                    diffusion_model->compute(n_threads,
+                                             noised_input,
+                                             timesteps,
+                                             uncond.c_crossattn,
+                                             uncond.c_concat,
+                                             uncond.c_vector,
+                                             guidance_tensor,
+                                             -1,
+                                             controls,
+                                             control_strength,
+                                             &out_uncond,
+                                             NULL,
+                                             skip_layers);
+                } else {
+                    diffusion_model->compute(n_threads,
+                                             noised_input,
+                                             timesteps,
+                                             uncond.c_crossattn,
+                                             uncond.c_concat,
+                                             uncond.c_vector,
+                                             guidance_tensor,
+                                             -1,
+                                             controls,
+                                             control_strength,
+                                             &out_uncond);
+                }
                 negative_data = (float*)out_uncond->data;
             }
 
-            int step_count         = sigmas.size();
-            bool is_skiplayer_step = has_skiplayer && step > (int)(slg_params.skip_layer_start * step_count) && step < (int)(slg_params.skip_layer_end * step_count);
             float* skip_layer_data = NULL;
-            if (is_skiplayer_step) {
+            if (is_skiplayer_step && slg_params.scale != 0.0) {
                 LOG_DEBUG("Skipping layers at step %d\n", step);
                 // skip layer (same as conditionned)
                 diffusion_model->compute(n_threads,
@@ -1153,7 +1172,7 @@ class StableDiffusionGGML {
                         latent_result = positive_data[i] + (cfg_scale - 1) * delta;
                     }
                 }
-                if (is_skiplayer_step) {
+                if (is_skiplayer_step && slg_params.scale != 0.0) {
                     latent_result = latent_result + (positive_data[i] - skip_layer_data[i]) * slg_params.scale;
                 }
                 // v = latent_result, eps = latent_result
@@ -1177,7 +1196,7 @@ class StableDiffusionGGML {
                 pretty_progress(step, (int)steps, (t1 - t0) / 1000000.f);
                 // LOG_INFO("step %d sampling completed taking %.2fs", step, (t1 - t0) * 1.0f / 1000000);
             }
-            auto sd_preview_cb = sd_get_preview_callback();
+            auto sd_preview_cb   = sd_get_preview_callback();
             auto sd_preview_mode = sd_get_preview_mode();
             if (sd_preview_cb != NULL) {
                 if (step % sd_get_preview_interval() == 0) {
diff --git a/stable-diffusion.h b/stable-diffusion.h
@@ -140,6 +140,7 @@ typedef struct {
     float scale;
     float skip_layer_start;
     float skip_layer_end;
+    bool slg_uncond;
 } sd_slg_params_t;
 
 typedef void (*sd_log_cb_t)(enum sd_log_level_t level, const char* text, void* data);