metaopt
diff --git a/‎CHANGELOG.md
Lines changed: 1 addition & 0 deletions b/‎CHANGELOG.md
Lines changed: 1 addition & 0 deletions
diff --git a/‎Makefile
Lines changed: 1 addition & 1 deletion b/‎Makefile
Lines changed: 1 addition & 1 deletion
diff --git a/‎README.md
Lines changed: 16 additions & 0 deletions b/‎README.md
Lines changed: 16 additions & 0 deletions
diff --git a/‎docs/source/api/api.rst
Lines changed: 7 additions & 0 deletions b/‎docs/source/api/api.rst
Lines changed: 7 additions & 0 deletions
diff --git a/‎examples/MAML-RL/func_maml.py
Lines changed: 196 additions & 0 deletions b/‎examples/MAML-RL/func_maml.py
Lines changed: 196 additions & 0 deletions
diff --git a/‎examples/MAML-RL/maml.py
Lines changed: 3 additions & 2 deletions b/‎examples/MAML-RL/maml.py
Lines changed: 3 additions & 2 deletions
diff --git a/‎setup.py
Lines changed: 31 additions & 9 deletions b/‎setup.py
Lines changed: 31 additions & 9 deletions
diff --git a/‎tests/test_optimizer.py
Lines changed: 55 additions & 1 deletion b/‎tests/test_optimizer.py
Lines changed: 55 additions & 1 deletion
@@ -13,6 +13,7 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 
 ### Added
 
+- Add wrapper class for functional optimizers and examples of `functorch` integration by [@vmoens](https://github.com/vmoens) and [@Benjamin-eecs](https://github.com/Benjamin-eecs) and [@XuehaiPan](https://github.com/XuehaiPan) in [#6](https://github.com/metaopt/torchopt/pull/6).
 - Implicit differentiation support by [@JieRen98](https://github.com/JieRen98) and [@waterhorse1](https://github.com/waterhorse1) and [@XuehaiPan](https://github.com/XuehaiPan) in [#41](https://github.com/metaopt/torchopt/pull/41).
 
 ### Changed
 
@@ -14,7 +14,7 @@ PYTHON         ?= $(shell command -v python3 || command -v python)
 default: install
 
 install:
-	$(PYTHON) -m pip install .
+	$(PYTHON) -m pip install -vvv .
 
 install-editable:
 	$(PYTHON) -m pip install --upgrade pip
 
@@ -77,6 +77,22 @@ updates, opt_state = optimizer.update(grads, opt_state)  # get updates
 params = torchopt.apply_updates(params, updates)         # update network parameters
 ```
 
+We also provide a wrapper `torchopt.FuncOptimizer` to make maintaining the optimizer state easier:
+
+```python
+net = Net()  # init
+loader = Loader()
+optimizer = torchopt.FuncOptimizer(torchopt.adam())      # wrap with `torchopt.FuncOptimizer`
+
+model, params = functorch.make_functional(net)           # use functorch extract network parameters
+
+for xs, ys in loader:                                    # get data
+    pred = model(params, xs)                             # forward
+    loss = F.cross_entropy(pred, ys)                     # compute loss
+
+    params = optimizer.step(loss, params)                # update network parameters
+```
+
 ### PyTorch-Like API
 
 We also offer origin PyTorch APIs (e.g. `zero_grad()` or `step()`) by wrapping our Optax-Like API for traditional PyTorch user:
 
@@ -29,11 +29,18 @@ Functional Optimizers
 
 .. autosummary::
 
+    FuncOptimizer
     adam
     sgd
     rmsprop
     adamw
 
+Wrapper for Function Optimizer
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+.. autoclass:: FuncOptimizer
+    :members:
+
 Functional Adam Optimizer
 ~~~~~~~~~~~~~~~~~~~~~~~~~
 
 
@@ -0,0 +1,196 @@
+# Copyright 2022 MetaOPT Team. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ==============================================================================
+
+import argparse
+from typing import NamedTuple
+
+import functorch
+import gym
+import numpy as np
+import torch
+import torch.optim as optim
+
+import torchopt
+from helpers.policy import CategoricalMLPPolicy
+
+
+TASK_NUM = 40
+TRAJ_NUM = 20
+TRAJ_LEN = 10
+
+STATE_DIM = 10
+ACTION_DIM = 5
+
+GAMMA = 0.99
+LAMBDA = 0.95
+
+outer_iters = 500
+inner_iters = 1
+
+
+class Traj(NamedTuple):
+    obs: np.ndarray
+    acs: np.ndarray
+    next_obs: np.ndarray
+    rews: np.ndarray
+    gammas: np.ndarray
+
+
+def sample_traj(env, task, fpolicy, params):
+    env.reset_task(task)
+    obs_buf = np.zeros(shape=(TRAJ_LEN, TRAJ_NUM, STATE_DIM), dtype=np.float32)
+    next_obs_buf = np.zeros(shape=(TRAJ_LEN, TRAJ_NUM, STATE_DIM), dtype=np.float32)
+    acs_buf = np.zeros(shape=(TRAJ_LEN, TRAJ_NUM), dtype=np.int8)
+    rews_buf = np.zeros(shape=(TRAJ_LEN, TRAJ_NUM), dtype=np.float32)
+    gammas_buf = np.zeros(shape=(TRAJ_LEN, TRAJ_NUM), dtype=np.float32)
+    with torch.no_grad():
+        for batch in range(TRAJ_NUM):
+            ob = env.reset()
+            for step in range(TRAJ_LEN):
+                ob_tensor = torch.from_numpy(ob)
+                pi, _ = fpolicy(params, ob_tensor)
+                ac_tensor = pi.sample()
+                ac = ac_tensor.cpu().numpy()
+                next_ob, rew, done, info = env.step(ac)
+
+                obs_buf[step][batch] = ob
+                next_obs_buf[step][batch] = next_ob
+                acs_buf[step][batch] = ac
+                rews_buf[step][batch] = rew
+                gammas_buf[step][batch] = done * GAMMA
+                ob = next_ob
+    return Traj(obs=obs_buf, acs=acs_buf, next_obs=next_obs_buf, rews=rews_buf, gammas=gammas_buf)
+
+
+def a2c_loss(traj, fpolicy, params, value_coef):
+    lambdas = np.ones_like(traj.gammas) * LAMBDA
+    _, next_values = fpolicy(params, torch.from_numpy(traj.next_obs))
+    next_values = torch.squeeze(next_values, -1).detach().numpy()
+    # Work backwards to compute `G_{T-1}`, ..., `G_0`.
+    returns = []
+    g = next_values[-1, :]
+    for i in reversed(range(next_values.shape[0])):
+        g = traj.rews[i, :] + traj.gammas[i, :] * (
+            (1 - lambdas[i, :]) * next_values[i, :] + lambdas[i, :] * g
+        )
+        returns.insert(0, g)
+    lambda_returns = torch.from_numpy(np.array(returns))
+    pi, values = fpolicy(params, torch.from_numpy(traj.obs))
+    log_probs = pi.log_prob(torch.from_numpy(traj.acs))
+    advs = lambda_returns - torch.squeeze(values, -1)
+    action_loss = -(advs.detach() * log_probs).mean()
+    value_loss = advs.pow(2).mean()
+
+    loss = action_loss + value_coef * value_loss
+    return loss
+
+
+def evaluate(env, seed, task_num, fpolicy, params):
+    pre_reward_ls = []
+    post_reward_ls = []
+    inner_opt = torchopt.MetaSGD(lr=0.5)
+    env = gym.make(
+        'TabularMDP-v0',
+        **dict(
+            num_states=STATE_DIM, num_actions=ACTION_DIM, max_episode_steps=TRAJ_LEN, seed=args.seed
+        ),
+    )
+    tasks = env.sample_tasks(num_tasks=task_num)
+
+    for idx in range(task_num):
+        for _ in range(inner_iters):
+            pre_trajs = sample_traj(env, tasks[idx], fpolicy, params)
+
+            inner_loss = a2c_loss(pre_trajs, fpolicy, params, value_coef=0.5)
+            params = inner_opt.step(inner_loss, params)
+        post_trajs = sample_traj(env, tasks[idx], fpolicy, params)
+
+        # Logging
+        pre_reward_ls.append(np.sum(pre_trajs.rews, axis=0).mean())
+        post_reward_ls.append(np.sum(post_trajs.rews, axis=0).mean())
+
+    return pre_reward_ls, post_reward_ls
+
+
+def main(args):
+    # init training
+    torch.manual_seed(args.seed)
+    torch.cuda.manual_seed_all(args.seed)
+    # Env
+    env = gym.make(
+        'TabularMDP-v0',
+        **dict(
+            num_states=STATE_DIM, num_actions=ACTION_DIM, max_episode_steps=TRAJ_LEN, seed=args.seed
+        ),
+    )
+    # Policy
+    policy = CategoricalMLPPolicy(input_size=STATE_DIM, output_size=ACTION_DIM)
+    fpolicy, params = functorch.make_functional(policy)
+
+    inner_opt = torchopt.MetaSGD(lr=0.5)
+    outer_opt = optim.Adam(params, lr=1e-3)
+    train_pre_reward = []
+    train_post_reward = []
+    test_pre_reward = []
+    test_post_reward = []
+
+    for i in range(outer_iters):
+        tasks = env.sample_tasks(num_tasks=TASK_NUM)
+        train_pre_reward_ls = []
+        train_post_reward_ls = []
+
+        outer_opt.zero_grad()
+
+        param_orig = [p.detach().clone().requires_grad_() for p in params]
+        _params = list(params)
+        for idx in range(TASK_NUM):
+
+            for _ in range(inner_iters):
+                pre_trajs = sample_traj(env, tasks[idx], fpolicy, _params)
+                inner_loss = a2c_loss(pre_trajs, fpolicy, _params, value_coef=0.5)
+                _params = inner_opt.step(inner_loss, _params)
+            post_trajs = sample_traj(env, tasks[idx], fpolicy, _params)
+            outer_loss = a2c_loss(post_trajs, fpolicy, _params, value_coef=0.5)
+            outer_loss.backward()
+            _params = [p.detach().clone().requires_grad_() for p in param_orig]
+
+            # Logging
+            train_pre_reward_ls.append(np.sum(pre_trajs.rews, axis=0).mean())
+            train_post_reward_ls.append(np.sum(post_trajs.rews, axis=0).mean())
+        outer_opt.step()
+
+        test_pre_reward_ls, test_post_reward_ls = evaluate(
+            env, args.seed, TASK_NUM, fpolicy, params
+        )
+
+        train_pre_reward.append(sum(train_pre_reward_ls) / TASK_NUM)
+        train_post_reward.append(sum(train_post_reward_ls) / TASK_NUM)
+        test_pre_reward.append(sum(test_pre_reward_ls) / TASK_NUM)
+        test_post_reward.append(sum(test_post_reward_ls) / TASK_NUM)
+
+        print('Train_iters', i)
+        print('train_pre_reward', sum(train_pre_reward_ls) / TASK_NUM)
+        print('train_post_reward', sum(train_post_reward_ls) / TASK_NUM)
+        print('test_pre_reward', sum(test_pre_reward_ls) / TASK_NUM)
+        print('test_post_reward', sum(test_post_reward_ls) / TASK_NUM)
+
+
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser(
+        description='Reinforcement learning with Model-Agnostic Meta-Learning (MAML) - Train'
+    )
+    parser.add_argument('--seed', type=int, default=1, help='random seed (default: 1)')
+    args = parser.parse_args()
+    main(args)
@@ -99,8 +99,9 @@ def a2c_loss(traj, policy, value_coef):
     advs = lambda_returns - torch.squeeze(values, -1)
     action_loss = -(advs.detach() * log_probs).mean()
     value_loss = advs.pow(2).mean()
-    a2c_loss = action_loss + value_coef * value_loss
-    return a2c_loss
+
+    loss = action_loss + value_coef * value_loss
+    return loss
 
 
 def evaluate(env, seed, task_num, policy):
 
@@ -14,9 +14,13 @@
     from setuptools.command.build_ext import build_ext
 
 HERE = pathlib.Path(__file__).absolute().parent
+VERSION_FILE = HERE / 'torchopt' / 'version.py'
 
-sys.path.insert(0, str(HERE / 'torchopt'))
-import version  # noqa
+try:
+    from torchopt import version  # noqa
+except ImportError:
+    sys.path.insert(0, str(VERSION_FILE.parent))
+    import version  # noqa
 
 
 class CMakeExtension(Extension):
@@ -81,10 +85,28 @@ def build_extension(self, ext):
             os.chdir(HERE)
 
 
-setup(
-    version=version.__version__,
-    package_data={'sharedlib': ['*.so', '*.pyd']},
-    include_package_data=True,
-    cmdclass={'build_ext': cmake_build_ext},
-    ext_modules=[CMakeExtension('torchopt._C', source_dir=HERE)],
-)
+VERSION_CONTENT = None
+if not version.__release__:
+    import re
+
+    VERSION_CONTENT = VERSION_FILE.read_text(encoding='UTF-8')
+    VERSION_FILE.write_text(
+        data=re.sub(
+            r"""__version__\s*=\s*('[^']+'|"[^"]+")""",
+            r"__version__ = '{}'".format(version.__version__),
+            string=VERSION_CONTENT,
+        ),
+        encoding='UTF-8',
+    )
+
+try:
+    setup(
+        version=version.__version__,
+        package_data={'sharedlib': ['*.so', '*.pyd']},
+        include_package_data=True,
+        cmdclass={'build_ext': cmake_build_ext},
+        ext_modules=[CMakeExtension('torchopt._C', source_dir=HERE)],
+    )
+finally:
+    if VERSION_CONTENT is not None:
+        VERSION_FILE.write_text(data=VERSION_CONTENT, encoding='UTF-8')
@@ -13,8 +13,9 @@
 # limitations under the License.
 # ==============================================================================
 
-from typing import Tuple
+from typing import Callable, Tuple
 
+import functorch
 import pytest
 import torch
 import torch.nn.functional as F
@@ -364,3 +365,56 @@ def test_RMSProp(
         optim_ref.step()
 
     helpers.assert_model_all_close(model, model_ref, model_base, dtype=dtype)
+
+
+@helpers.parametrize(
+    dtype=[torch.float64, torch.float32],
+    lr=[1e-2, 1e-3],
+    optimizers=[
+        (torchopt.sgd, torch.optim.SGD),
+        (torchopt.adam, torch.optim.Adam),
+        (torchopt.adamw, torch.optim.AdamW),
+        (torchopt.rmsprop, torch.optim.RMSprop),
+    ],
+    inplace=[True, False],
+    weight_decay=[0.0, 1e-2],
+)
+def test_FuncOptimizer(
+    dtype: torch.dtype,
+    lr: float,
+    optimizers: Tuple[Callable, torch.optim.Optimizer],
+    inplace: bool,
+    weight_decay: float,
+) -> None:
+    model, model_ref, model_base, loader = helpers.get_models(device='cpu', dtype=dtype)
+
+    torchopt_optimizer, torch_optimizer = optimizers
+
+    fmodel, params, buffers = functorch.make_functional_with_buffers(model)
+    optim = torchopt.FuncOptimizer(
+        torchopt_optimizer(
+            lr=lr,
+            weight_decay=weight_decay,
+        ),
+        inplace=inplace,
+    )
+    optim_ref = torch_optimizer(
+        model_ref.parameters(),
+        lr,
+        weight_decay=weight_decay,
+    )
+
+    for xs, ys in loader:
+        xs = xs.to(dtype=dtype)
+        pred = fmodel(params, buffers, xs)
+        pred_ref = model_ref(xs)
+        loss = F.cross_entropy(pred, ys)
+        loss_ref = F.cross_entropy(pred_ref, ys)
+
+        params = optim.step(loss, params)
+
+        optim_ref.zero_grad()
+        loss_ref.backward()
+        optim_ref.step()
+
+    helpers.assert_model_all_close((params, buffers), model_ref, model_base, dtype=dtype)