[None][perf] Autotune TRT-LLM Gen MoE when using CUDA graphs

jinyangyuan-nvidia · jinyangyuan-nvidia · commit b8a1c1bfb9ae · 2025-08-27T02:33:50.000-07:00
Signed-off-by: Jinyang Yuan &lt;154768711+jinyangyuan-nvidia@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/pyexecutor/model_engine.py b/tensorrt_llm/_torch/pyexecutor/model_engine.py
@@ -787,6 +787,12 @@ def release_batch(result: ScheduledRequests | None):
                         f"Run generation only CUDA graph warmup for batch size={bs}, draft_len={draft_len}"
                     )
                     self.enable_spec_decode = draft_len > 0 or self.is_draft_model
+                    if self.pytorch_backend_config.enable_autotuner:
+                        with self.no_cuda_graph(), autotune():
+                            self.forward(batch,
+                                         new_tensors_device=None,
+                                         resource_manager=resource_manager)
+                        torch.cuda.synchronize()
                     self.forward(batch,
                                  new_tensors_device=None,
                                  resource_manager=resource_manager)