feat(acc_op): add if condition for the element number small situations

JieRen98 · JieRen98 · commit 28f76aca0975 · 2022-11-02T18:06:53.000+08:00
diff --git a/src/adam_op/adam_op_impl_cpu.cpp b/src/adam_op/adam_op_impl_cpu.cpp
@@ -27,6 +27,37 @@ using std::size_t;
 
 namespace adam_op {
 
+constexpr int min_elements_use_omp = 1000;
+
+template <typename scalar_t, typename other_t>
+void adamForwardInplaceCPUKernel(const other_t b1,
+                                 const other_t inv_one_minus_pow_b1,
+                                 const other_t b2,
+                                 const other_t inv_one_minus_pow_b2,
+                                 const other_t eps,
+                                 const other_t eps_root,
+                                 const size_t n,
+                                 scalar_t *__restrict__ updates_ptr,
+                                 scalar_t *__restrict__ mu_ptr,
+                                 scalar_t *__restrict__ nu_ptr) {
+#pragma omp parallel for num_threads(std::min( \
+    n / (size_t)min_elements_use_omp, (size_t)omp_get_num_procs())) if (n > min_elements_use_omp)
+  for (size_t tid = 0; tid < n; ++tid) {
+    const scalar_t updates = updates_ptr[tid];
+    const scalar_t mu = mu_ptr[tid];
+    const scalar_t nu = nu_ptr[tid];
+
+    const scalar_t mu_out = b1 * mu + (1 - b1) * updates;
+    const scalar_t nu_out = b2 * nu + (1 - b2) * updates * updates;
+    const scalar_t updates_out =
+        mu_out * inv_one_minus_pow_b1 / (sqrt(nu_out * inv_one_minus_pow_b2 + eps_root) + eps);
+
+    mu_ptr[tid] = mu_out;
+    nu_ptr[tid] = nu_out;
+    updates_ptr[tid] = updates_out;
+  }
+}
+
 TensorArray<3> adamForwardInplaceCPU(const torch::Tensor &updates,
                                      const torch::Tensor &mu,
                                      const torch::Tensor &nu,
@@ -39,44 +70,110 @@ TensorArray<3> adamForwardInplaceCPU(const torch::Tensor &updates,
   const other_t inv_one_minus_pow_b1 = 1 / (1 - std::pow(b1, count));
   const other_t inv_one_minus_pow_b2 = 1 / (1 - std::pow(b2, count));
 
-  AT_DISPATCH_SCALAR_TYPES(
-      updates.scalar_type(), "adamForwardInplaceCPU", ([&] {
-        mu.mul_(scalar_t(b1)).add_(updates, 1 - scalar_t(b1));
-
-        nu.mul_(scalar_t(b2)).addcmul_(updates, updates.conj(), 1 - scalar_t(b2));
-
-        updates.copy_(mu.mul(scalar_t(inv_one_minus_pow_b1))
-                          .div_(nu.mul(inv_one_minus_pow_b2)
-                                    .add_(scalar_t(eps_root))
-                                    .sqrt_()
-                                    .add_(scalar_t(eps))));
-      }));
+  const size_t n = getTensorPlainSize(updates);
+  AT_DISPATCH_SCALAR_TYPES(updates.scalar_type(), "adamForwardInplaceCPU", ([&] {
+                             adamForwardInplaceCPUKernel<scalar_t, scalar_t>(
+                                 scalar_t(b1),
+                                 scalar_t(inv_one_minus_pow_b1),
+                                 scalar_t(b2),
+                                 scalar_t(inv_one_minus_pow_b2),
+                                 scalar_t(eps),
+                                 scalar_t(eps_root),
+                                 n,
+                                 updates.data_ptr<scalar_t>(),
+                                 mu.data_ptr<scalar_t>(),
+                                 nu.data_ptr<scalar_t>());
+                           }));
   return TensorArray<3>{updates, mu, nu};
 }
 
+template <typename scalar_t, typename other_t>
+void adamForwardMuCPUKernel(const scalar_t *__restrict__ updates_ptr,
+                            const scalar_t *__restrict__ mu_ptr,
+                            const other_t b1,
+                            const size_t n,
+                            scalar_t *__restrict__ mu_out_ptr) {
+#pragma omp parallel for num_threads(std::min( \
+    n / (size_t)min_elements_use_omp, (size_t)omp_get_num_procs())) if (n > min_elements_use_omp)
+  for (size_t tid = 0; tid < n; ++tid) {
+    const scalar_t updates = updates_ptr[tid];
+    const scalar_t mu = mu_ptr[tid];
+    const scalar_t mu_out = b1 * mu + (1 - b1) * updates;
+    mu_out_ptr[tid] = mu_out;
+  }
+}
+
 torch::Tensor adamForwardMuCPU(const torch::Tensor &updates,
                                const torch::Tensor &mu,
                                const pyfloat_t b1) {
-  torch::Tensor mu_out;
+  auto mu_out = torch::empty_like(mu);
 
+  const size_t n = getTensorPlainSize(updates);
   AT_DISPATCH_SCALAR_TYPES(updates.scalar_type(), "adamForwardMuCPU", ([&] {
-                             mu_out = mu.mul(b1).add_(updates, 1 - scalar_t(b1));
+                             adamForwardMuCPUKernel<scalar_t, scalar_t>(
+                                 updates.data_ptr<scalar_t>(),
+                                 mu.data_ptr<scalar_t>(),
+                                 scalar_t(b1),
+                                 n,
+                                 mu_out.data_ptr<scalar_t>());
                            }));
   return mu_out;
 }
 
+template <typename scalar_t, typename other_t>
+void adamForwardNuCPUKernel(const scalar_t *__restrict__ updates_ptr,
+                            const scalar_t *__restrict__ nu_ptr,
+                            const other_t b2,
+                            const size_t n,
+                            scalar_t *__restrict__ nu_out_ptr) {
+#pragma omp parallel for num_threads(std::min( \
+    n / (size_t)min_elements_use_omp, (size_t)omp_get_num_procs())) if (n > min_elements_use_omp)
+  for (size_t tid = 0; tid < n; ++tid) {
+    const scalar_t updates = updates_ptr[tid];
+    const scalar_t nu = nu_ptr[tid];
+
+    const scalar_t nu_out = b2 * nu + (1 - b2) * pow(updates, 2);
+    nu_out_ptr[tid] = nu_out;
+  }
+}
+
 torch::Tensor adamForwardNuCPU(const torch::Tensor &updates,
                                const torch::Tensor &nu,
                                const pyfloat_t b2) {
-  torch::Tensor nu_out;
+  auto nu_out = torch::empty_like(nu);
 
+  const size_t n = getTensorPlainSize(updates);
   AT_DISPATCH_SCALAR_TYPES(updates.scalar_type(), "adamForwardNuCPU", ([&] {
-                             nu_out =
-                                 nu.mul(b2).addcmul_(updates, updates.conj(), 1 - scalar_t(b2));
+                             adamForwardNuCPUKernel<scalar_t, scalar_t>(
+                                 updates.data_ptr<scalar_t>(),
+                                 nu.data_ptr<scalar_t>(),
+                                 scalar_t(b2),
+                                 n,
+                                 nu_out.data_ptr<scalar_t>());
                            }));
   return nu_out;
 }
 
+template <typename scalar_t, typename other_t>
+void adamForwardUpdatesCPUKernel(const scalar_t *__restrict__ new_mu_ptr,
+                                 const scalar_t *__restrict__ new_nu_ptr,
+                                 const other_t inv_one_minus_pow_b1,
+                                 const other_t inv_one_minus_pow_b2,
+                                 const other_t eps,
+                                 const other_t eps_root,
+                                 const size_t n,
+                                 scalar_t *__restrict__ updates_out_ptr) {
+#pragma omp parallel for num_threads(std::min( \
+    n / (size_t)min_elements_use_omp, (size_t)omp_get_num_procs())) if (n > min_elements_use_omp)
+  for (size_t tid = 0; tid < n; ++tid) {
+    const scalar_t new_mu = new_mu_ptr[tid];
+    const scalar_t new_nu = new_nu_ptr[tid];
+    const scalar_t mu_hat = new_mu * inv_one_minus_pow_b1;
+    const scalar_t nu_hat = new_nu * inv_one_minus_pow_b2;
+    updates_out_ptr[tid] = mu_hat / (sqrt(nu_hat + eps_root) + eps);
+  }
+}
+
 torch::Tensor adamForwardUpdatesCPU(const torch::Tensor &new_mu,
                                     const torch::Tensor &new_nu,
                                     const pyfloat_t b1,
@@ -86,47 +183,97 @@ torch::Tensor adamForwardUpdatesCPU(const torch::Tensor &new_mu,
                                     const pyuint_t count) {
   using other_t = pyfloat_t;
 
-  torch::Tensor updates_out;
+  auto updates_out = torch::empty_like(new_mu);
 
   const other_t one_minus_pow_b1 = 1 - std::pow(b1, count);
   const other_t inv_one_minus_pow_b1 = 1 / one_minus_pow_b1;
   const other_t one_minus_pow_b2 = 1 - std::pow(b2, count);
   const other_t inv_one_minus_pow_b2 = 1 / one_minus_pow_b2;
 
+  const size_t n = getTensorPlainSize(new_mu);
   AT_DISPATCH_SCALAR_TYPES(new_mu.scalar_type(), "adamForwardUpdatesCPU", ([&] {
-                             updates_out = new_mu.mul(scalar_t(inv_one_minus_pow_b1))
-                                               .div_(new_nu.mul(scalar_t(inv_one_minus_pow_b2))
-                                                         .add_(scalar_t(eps_root))
-                                                         .sqrt_()
-                                                         .add_(scalar_t(eps)));
+                             adamForwardUpdatesCPUKernel<scalar_t, scalar_t>(
+                                 new_mu.data_ptr<scalar_t>(),
+                                 new_nu.data_ptr<scalar_t>(),
+                                 scalar_t(inv_one_minus_pow_b1),
+                                 scalar_t(inv_one_minus_pow_b2),
+                                 scalar_t(eps),
+                                 scalar_t(eps_root),
+                                 n,
+                                 updates_out.data_ptr<scalar_t>());
                            }));
   return updates_out;
 }
 
+template <typename scalar_t, typename other_t>
+void adamBackwardMuCPUKernel(const scalar_t *__restrict__ dmu_ptr,
+                             const other_t b1,
+                             const size_t n,
+                             scalar_t *__restrict__ dupdates_out_ptr,
+                             scalar_t *__restrict__ dmu_out_ptr) {
+#pragma omp parallel for num_threads(std::min( \
+    n / (size_t)min_elements_use_omp, (size_t)omp_get_num_procs())) if (n > min_elements_use_omp)
+  for (size_t tid = 0; tid < n; ++tid) {
+    const scalar_t dmu = dmu_ptr[tid];
+
+    dupdates_out_ptr[tid] = (1 - b1) * dmu;
+    dmu_out_ptr[tid] = b1 * dmu;
+  }
+}
+
 TensorArray<2> adamBackwardMuCPU(const torch::Tensor &dmu,
                                  const torch::Tensor &updates,
                                  const torch::Tensor &mu,
                                  const pyfloat_t b1) {
-  torch::Tensor dupdates_out;
-  torch::Tensor dmu_out;
+  auto dupdates_out = torch::empty_like(updates);
+  auto dmu_out = torch::empty_like(mu);
 
+  const size_t n = getTensorPlainSize(dmu);
   AT_DISPATCH_SCALAR_TYPES(dmu.scalar_type(), "adamBackwardMuCPU", ([&] {
-                             dupdates_out = dmu.mul(1 - scalar_t(b1));
-                             dmu_out = dmu.mul(scalar_t(b1));
+                             adamBackwardMuCPUKernel<scalar_t, scalar_t>(
+                                 dmu.data_ptr<scalar_t>(),
+                                 scalar_t(b1),
+                                 n,
+                                 dupdates_out.data_ptr<scalar_t>(),
+                                 dmu_out.data_ptr<scalar_t>());
                            }));
   return TensorArray<2>{std::move(dupdates_out), std::move(dmu_out)};
 }
 
+template <typename scalar_t, typename other_t>
+void adamBackwardNuCPUKernel(const scalar_t *__restrict__ dnu_ptr,
+                             const scalar_t *__restrict__ updates_ptr,
+                             const other_t b2,
+                             const size_t n,
+                             scalar_t *__restrict__ dupdates_out_ptr,
+                             scalar_t *__restrict__ dnu_out_ptr) {
+#pragma omp parallel for num_threads(std::min( \
+    n / (size_t)min_elements_use_omp, (size_t)omp_get_num_procs())) if (n > min_elements_use_omp)
+  for (size_t tid = 0; tid < n; ++tid) {
+    const scalar_t dnu = dnu_ptr[tid];
+    const scalar_t updates = updates_ptr[tid];
+
+    dupdates_out_ptr[tid] = 2 * (1 - b2) * updates * dnu;
+    dnu_out_ptr[tid] = b2 * dnu;
+  }
+}
+
 TensorArray<2> adamBackwardNuCPU(const torch::Tensor &dnu,
                                  const torch::Tensor &updates,
                                  const torch::Tensor &nu,
                                  const pyfloat_t b2) {
-  torch::Tensor dupdates_out;
-  torch::Tensor dnu_out;
+  auto dupdates_out = torch::empty_like(updates);
+  auto dnu_out = torch::empty_like(nu);
 
+  const size_t n = getTensorPlainSize(dnu);
   AT_DISPATCH_SCALAR_TYPES(dnu.scalar_type(), "adamForwardNuCPU", ([&] {
-                             dupdates_out = updates.mul(2 - 2 * scalar_t(b2)).mul_(dnu);
-                             dnu_out = dnu.mul(scalar_t(b2));
+                             adamBackwardNuCPUKernel<scalar_t, scalar_t>(
+                                 dnu.data_ptr<scalar_t>(),
+                                 updates.data_ptr<scalar_t>(),
+                                 scalar_t(b2),
+                                 n,
+                                 dupdates_out.data_ptr<scalar_t>(),
+                                 dnu_out.data_ptr<scalar_t>());
                            }));
   return TensorArray<2>{std::move(dupdates_out), std::move(dnu_out)};
 }
@@ -140,7 +287,8 @@ void adamBackwardUpdatesCPUKernel(const scalar_t *__restrict__ dupdates_ptr,
                                   const size_t n,
                                   scalar_t *__restrict__ dnew_mu_out_ptr,
                                   scalar_t *__restrict__ dnew_nu_out_ptr) {
-#pragma omp parallel for num_threads(omp_get_num_procs())
+#pragma omp parallel for num_threads(std::min( \
+    n / (size_t)min_elements_use_omp, (size_t)omp_get_num_procs())) if (n > min_elements_use_omp)
   for (size_t tid = 0; tid < n; ++tid) {
     const scalar_t dupdates = dupdates_ptr[tid];
     const scalar_t updates = updates_ptr[tid];