[None][perf] Autotune TRT-LLM Gen MoE when using CUDA graphs

jinyangyuan-nvidia · jinyangyuan-nvidia · commit b4279663b9af · 2025-08-27T02:24:23.000-07:00
Signed-off-by: Jinyang Yuan &lt;154768711+jinyangyuan-nvidia@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/pyexecutor/model_engine.py b/tensorrt_llm/_torch/pyexecutor/model_engine.py
@@ -787,6 +787,11 @@ def release_batch(result: ScheduledRequests | None):
                         f"Run generation only CUDA graph warmup for batch size={bs}, draft_len={draft_len}"
                     )
                     self.enable_spec_decode = draft_len > 0 or self.is_draft_model
+                    with self.no_cuda_graph(), autotune():
+                        self.forward(batch,
+                                     new_tensors_device=None,
+                                     resource_manager=resource_manager)
+                    torch.cuda.synchronize()
                     self.forward(batch,
                                  new_tensors_device=None,
                                  resource_manager=resource_manager)