metaopt
diff --git a/‎.pre-commit-config.yaml
Lines changed: 1 addition & 1 deletion b/‎.pre-commit-config.yaml
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/FuncTorch/maml_omniglot_vmap.py
Lines changed: 7 additions & 4 deletions b/‎examples/FuncTorch/maml_omniglot_vmap.py
Lines changed: 7 additions & 4 deletions
diff --git a/‎examples/FuncTorch/parallel_train_torchopt.py
Lines changed: 6 additions & 2 deletions b/‎examples/FuncTorch/parallel_train_torchopt.py
Lines changed: 6 additions & 2 deletions
diff --git a/‎examples/L2R/helpers/model.py
Lines changed: 1 addition & 1 deletion b/‎examples/L2R/helpers/model.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/L2R/l2r.py
Lines changed: 5 additions & 2 deletions b/‎examples/L2R/l2r.py
Lines changed: 5 additions & 2 deletions
diff --git a/‎examples/LOLA/helpers/utils.py
Lines changed: 1 addition & 1 deletion b/‎examples/LOLA/helpers/utils.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/MAML-RL/func_maml.py
Lines changed: 6 additions & 2 deletions b/‎examples/MAML-RL/func_maml.py
Lines changed: 6 additions & 2 deletions
diff --git a/‎examples/MAML-RL/helpers/tabular_mdp.py
Lines changed: 11 additions & 4 deletions b/‎examples/MAML-RL/helpers/tabular_mdp.py
Lines changed: 11 additions & 4 deletions
diff --git a/‎examples/MAML-RL/maml.py
Lines changed: 1 addition & 1 deletion b/‎examples/MAML-RL/maml.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/MAML-RL/maml_torchrl.py
Lines changed: 2 additions & 2 deletions b/‎examples/MAML-RL/maml_torchrl.py
Lines changed: 2 additions & 2 deletions
@@ -29,7 +29,7 @@ repos:
       - id: clang-format
         stages: [commit, push, manual]
   - repo: https://github.com/charliermarsh/ruff-pre-commit
-    rev: v0.0.256
+    rev: v0.0.257
     hooks:
       - id: ruff
         args: [--fix, --exit-non-zero-on-fix]
 
@@ -79,7 +79,10 @@ def main():
     argparser.add_argument('--k_qry', type=int, help='k shot for query set', default=15)
     argparser.add_argument('--device', type=str, help='device', default='cuda')
     argparser.add_argument(
-        '--task_num', type=int, help='meta batch size, namely task num', default=32
+        '--task_num',
+        type=int,
+        help='meta batch size, namely task num',
+        default=32,
     )
     argparser.add_argument('--seed', type=int, help='random seed', default=1)
     args = argparser.parse_args()
@@ -199,7 +202,7 @@ def train(db, net, device, meta_opt, epoch, log):
 
         if batch_idx % 4 == 0:
             print(
-                f'[Epoch {i:.2f}] Train Loss: {qry_losses:.2f} | Acc: {qry_accs:.2f} | Time: {iter_time:.2f}'
+                f'[Epoch {i:.2f}] Train Loss: {qry_losses:.2f} | Acc: {qry_accs:.2f} | Time: {iter_time:.2f}',
             )
         log.append(
             {
@@ -208,7 +211,7 @@ def train(db, net, device, meta_opt, epoch, log):
                 'acc': qry_accs,
                 'mode': 'train',
                 'time': time.time(),
-            }
+            },
         )
 
 
@@ -257,7 +260,7 @@ def test(db, net, device, epoch, log):
             'acc': qry_accs,
             'mode': 'test',
             'time': time.time(),
-        }
+        },
     )
 
 
 
@@ -135,7 +135,9 @@ def test_parallel_train_step_fn(self, num_models):
         weights, opt_state = parallel_init_fn(torch.ones(num_models, 1))
         for i in range(2000):
             loss, (weights, opt_states) = parallel_train_step_fn(
-                (weights, opt_state), points, labels
+                (weights, opt_state),
+                points,
+                labels,
             )
             if i % 200 == 0:
                 print(loss)
@@ -186,7 +188,9 @@ def test_parallel_train_step_fn(self, num_models):
     optimizer = torchopt.adam(lr=0.2)
     opt_state = optimizer.init(weights)
     functorch_original = ParallelTrainFunctorchTorchOpt(
-        loss_fn=loss_fn, optimizer=optimizer, device=DEVICE
+        loss_fn=loss_fn,
+        optimizer=optimizer,
+        device=DEVICE,
     )
     # Step 4: Let's verify this actually trains.
     # We should see the loss decrease.
 
@@ -51,7 +51,7 @@ def __init__(self, args):
         )
         self.args = args
         self.meta_weights = torch.zeros(self.args.batch_size, requires_grad=True).to(
-            self.args.device
+            self.args.device,
         )
         self.criterion = nn.BCELoss()
 
 
@@ -199,8 +199,11 @@ def run_L2R(args, mnist_train, mnist_test):
                 running_train_mean = np.mean(np.array(running_train_loss))
                 print(
                     'EPOCH: {}, BATCH: {}, WEIGHTED_TRAIN_LOSS: {}, VALID_LOSS: {}'.format(
-                        _epoch, idx, running_train_mean, running_valid_mean
-                    )
+                        _epoch,
+                        idx,
+                        running_train_mean,
+                        running_valid_mean,
+                    ),
                 )
                 running_valid_loss = []
                 running_train_loss = []
 
@@ -82,7 +82,7 @@ def dice_objective(self, use_baseline=True):
         if use_baseline:
             # variance_reduction:
             baseline_term = torch.mean(
-                torch.sum((1 - magic_box(stochastic_nodes)) * discounted_values, dim=1)
+                torch.sum((1 - magic_box(stochastic_nodes)) * discounted_values, dim=1),
             )
             dice_objective = dice_objective + baseline_term
 
 
@@ -173,7 +173,11 @@ def main(args):
         outer_opt.step()
 
         test_pre_reward_ls, test_post_reward_ls = evaluate(
-            env, args.seed, TASK_NUM, fpolicy, params
+            env,
+            args.seed,
+            TASK_NUM,
+            fpolicy,
+            params,
         )
 
         train_pre_reward.append(sum(train_pre_reward_ls) / TASK_NUM)
@@ -190,7 +194,7 @@ def main(args):
 
 if __name__ == '__main__':
     parser = argparse.ArgumentParser(
-        description='Reinforcement learning with Model-Agnostic Meta-Learning (MAML) - Train'
+        description='Reinforcement learning with Model-Agnostic Meta-Learning (MAML) - Train',
     )
     parser.add_argument('--seed', type=int, default=1, help='random seed (default: 1)')
     args = parser.parse_args()
 
@@ -49,7 +49,10 @@ def __init__(self, num_states, num_actions, max_episode_steps, seed, task=None):
 
         self.action_space = spaces.Discrete(num_actions)
         self.observation_space = spaces.Box(
-            low=0.0, high=1.0, shape=(num_states,), dtype=np.float32
+            low=0.0,
+            high=1.0,
+            shape=(num_states,),
+            dtype=np.float32,
         )
 
         self._task = task
@@ -62,7 +65,8 @@ def __init__(self, num_states, num_actions, max_episode_steps, seed, task=None):
             ),
         )
         self._rewards_mean = task.get(
-            'rewards_mean', np.zeros((num_states, num_actions), dtype=np.float32)
+            'rewards_mean',
+            np.zeros((num_states, num_actions), dtype=np.float32),
         )
         self._state = 0
         self._elapsed_steps = None
@@ -79,7 +83,9 @@ def sample_tasks(self, num_tasks):
             size=(num_tasks, self.num_states, self.num_actions),
         )
         rewards_mean = self.np_random.normal(
-            1.0, 1.0, size=(num_tasks, self.num_states, self.num_actions)
+            1.0,
+            1.0,
+            size=(num_tasks, self.num_states, self.num_actions),
         )
         tasks = [
             {'transitions': transition, 'rewards_mean': reward_mean}
@@ -106,7 +112,8 @@ def step(self, action):
         reward = self.np_random.normal(mean, 1.0)
 
         self._state = self.np_random.choice(
-            self.num_states, p=self._transitions[self._state, action]
+            self.num_states,
+            p=self._transitions[self._state, action],
         )
         observation = np.zeros(self.num_states, dtype=np.float32)
         observation[self._state] = 1.0
 
@@ -193,7 +193,7 @@ def main(args):
 
 if __name__ == '__main__':
     parser = argparse.ArgumentParser(
-        description='Reinforcement learning with Model-Agnostic Meta-Learning (MAML) - Train'
+        description='Reinforcement learning with Model-Agnostic Meta-Learning (MAML) - Train',
     )
     parser.add_argument('--seed', type=int, default=1, help='random seed (default: 1)')
     args = parser.parse_args()
 
@@ -234,15 +234,15 @@ def lambda_env():
             f'train_pre_reward: {train_pre_reward[-1]: 4.4f}, '
             f'train_post_reward: {train_post_reward[-1]: 4.4f}, '
             f'test_pre_reward: {test_pre_reward[-1]: 4.4f}, '
-            f'test_post_reward: {test_post_reward[-1]: 4.4f}, '
+            f'test_post_reward: {test_post_reward[-1]: 4.4f}, ',
         )
 
     env.close()
 
 
 if __name__ == '__main__':
     parser = argparse.ArgumentParser(
-        description='Reinforcement learning with Model-Agnostic Meta-Learning (MAML) - Train'
+        description='Reinforcement learning with Model-Agnostic Meta-Learning (MAML) - Train',
     )
     parser.add_argument('--seed', type=int, default=1, help='random seed (default: 1)')
     parser.add_argument('--parallel', action='store_true', help='run envs in parallel')
Original file line number	Diff line number	Diff line change
`@@ -51,7 +51,7 @@ def __init__(self, args):`
`51`	`51`	`)`
`52`	`52`	`self.args = args`
`53`	`53`	`self.meta_weights = torch.zeros(self.args.batch_size, requires_grad=True).to(`
`54`		`- self.args.device`
	`54`	`+ self.args.device,`
`55`	`55`	`)`
`56`	`56`	`self.criterion = nn.BCELoss()`
`57`	`57`
Original file line number	Diff line number	Diff line change
`@@ -82,7 +82,7 @@ def dice_objective(self, use_baseline=True):`
`82`	`82`	`if use_baseline:`
`83`	`83`	`# variance_reduction:`
`84`	`84`	`baseline_term = torch.mean(`
`85`		`- torch.sum((1 - magic_box(stochastic_nodes)) * discounted_values, dim=1)`
	`85`	`+ torch.sum((1 - magic_box(stochastic_nodes)) * discounted_values, dim=1),`
`86`	`86`	`)`
`87`	`87`	`dice_objective = dice_objective + baseline_term`
`88`	`88`
Original file line number	Diff line number	Diff line change
`@@ -193,7 +193,7 @@ def main(args):`
`193`	`193`
`194`	`194`	`if __name__ == '__main__':`
`195`	`195`	`parser = argparse.ArgumentParser(`
`196`		`- description='Reinforcement learning with Model-Agnostic Meta-Learning (MAML) - Train'`
	`196`	`+ description='Reinforcement learning with Model-Agnostic Meta-Learning (MAML) - Train',`
`197`	`197`	`)`
`198`	`198`	`parser.add_argument('--seed', type=int, default=1, help='random seed (default: 1)')`
`199`	`199`	`args = parser.parse_args()`