fix bugs for optimizer with states

meta-pytorch · 564612540 · Dec 23, 2024 · Dec 23, 2024 · Dec 23, 2024 · Dec 24, 2024
commit 35d793fa11d2a7f2d64e8a525a5167a5b12ab7ca
diff --git a/research/disk_optimizer/optimizers/KFadaclipoptimizer.py b/research/disk_optimizer/optimizers/KFadaclipoptimizer.py
@@ -69,16 +69,27 @@ def step(self, closure=required) -> Optional[float]:
             loss = self._compute_one_closure(closure)
 
         if self.pre_step():
+            tmp_states = []
+            first_step = False
             for p in self.params:
                 grad = p.grad
                 state = self.state[p]
                 if "kf_d_t" not in state:
+                    state = dict()
+                    first_step = True
                     state["kf_d_t"] = torch.zeros_like(p.data).to(p.data)
                     state["kf_m_t"] = grad.clone().to(p.data)
                 state["kf_m_t"].lerp_(grad, weight=self.kappa)
                 p.grad = state["kf_m_t"].clone().to(p.data)
                 state["kf_d_t"] = -p.data.clone().to(p.data)
+                if first_step:
+                    tmp_states.append(state)
             self.original_optimizer.step()
             for p in self.params:
+                if first_step:
+                    tmp_state = tmp_states.pop(0)
+                    self.state[p]['kf_d_t'] = tmp_state['kf_d_t']
+                    self.state[p]['kf_m_t'] = tmp_state['kf_m_t']
+                    del tmp_state
                 self.state[p]["kf_d_t"].add_(p.data, alpha=1.0)
         return loss
diff --git a/research/disk_optimizer/optimizers/KFddpoptimizer.py b/research/disk_optimizer/optimizers/KFddpoptimizer.py
@@ -73,17 +73,28 @@ def step(self, closure=required) -> Optional[float]:
             loss = self._compute_one_closure(closure)
 
         if self.pre_step():
+            tmp_states = []
+            first_step = False
             for p in self.params:
                 grad = p.grad
                 state = self.state[p]
                 if "kf_d_t" not in state:
+                    state = dict()
+                    first_step = True
                     state["kf_d_t"] = torch.zeros_like(p.data).to(p.data)
                     state["kf_m_t"] = grad.clone().to(p.data)
                 state["kf_m_t"].lerp_(grad, weight=self.kappa)
                 p.grad = state["kf_m_t"].clone().to(p.data)
                 state["kf_d_t"] = -p.data.clone().to(p.data)
+                if first_step:
+                    tmp_states.append(state)
             self.reduce_gradients()
             self.original_optimizer.step()
             for p in self.params:
+                if first_step:
+                    tmp_state = tmp_states.pop(0)
+                    self.state[p]['kf_d_t'] = tmp_state['kf_d_t']
+                    self.state[p]['kf_m_t'] = tmp_state['kf_m_t']
+                    del tmp_state
                 self.state[p]["kf_d_t"].add_(p.data, alpha=1.0)
         return loss
diff --git a/research/disk_optimizer/optimizers/KFddpoptimizer_fast_gradient_clipping.py b/research/disk_optimizer/optimizers/KFddpoptimizer_fast_gradient_clipping.py
@@ -70,17 +70,28 @@ def step(self, closure=required) -> Optional[float]:
             loss = self._compute_one_closure(closure)
 
         if self.pre_step():
+            tmp_states = []
+            first_step = False
             for p in self.params:
                 grad = p.grad
                 state = self.state[p]
                 if "kf_d_t" not in state:
+                    state = dict()
+                    first_step = True
                     state["kf_d_t"] = torch.zeros_like(p.data).to(p.data)
                     state["kf_m_t"] = grad.clone().to(p.data)
                 state["kf_m_t"].lerp_(grad, weight=self.kappa)
                 p.grad = state["kf_m_t"].clone().to(p.data)
                 state["kf_d_t"] = -p.data.clone().to(p.data)
+                if first_step:
+                    tmp_states.append(state)
             self.reduce_gradients()
             self.original_optimizer.step()
             for p in self.params:
+                if first_step:
+                    tmp_state = tmp_states.pop(0)
+                    self.state[p]['kf_d_t'] = tmp_state['kf_d_t']
+                    self.state[p]['kf_m_t'] = tmp_state['kf_m_t']
+                    del tmp_state
                 self.state[p]["kf_d_t"].add_(p.data, alpha=1.0)
         return loss
diff --git a/research/disk_optimizer/optimizers/KFoptimizer.py b/research/disk_optimizer/optimizers/KFoptimizer.py
@@ -121,16 +121,27 @@ def step(self, closure=required) -> Optional[float]:
             loss = self._compute_one_closure(closure)
 
         if self.pre_step():
+            tmp_states = []
+            first_step = False
             for p in self.params:
                 grad = p.grad
                 state = self.state[p]
                 if "kf_d_t" not in state:
+                    state = dict()
+                    first_step = True
                     state["kf_d_t"] = torch.zeros_like(p.data).to(p.data)
                     state["kf_m_t"] = grad.clone().to(p.data)
                 state["kf_m_t"].lerp_(grad, weight=self.kappa)
                 p.grad = state["kf_m_t"].clone().to(p.data)
                 state["kf_d_t"] = -p.data.clone().to(p.data)
+                if first_step:
+                    tmp_states.append(state)
             self.original_optimizer.step()
             for p in self.params:
+                if first_step:
+                    tmp_state = tmp_states.pop(0)
+                    self.state[p]['kf_d_t'] = tmp_state['kf_d_t']
+                    self.state[p]['kf_m_t'] = tmp_state['kf_m_t']
+                    del tmp_state
                 self.state[p]["kf_d_t"].add_(p.data, alpha=1.0)
         return loss