Fixing a CUDA / P100 regression introduced by PR 181

PR 181 ( https://gitlab.com/libeigen/eigen/-/merge_requests/181 ) adds `__launch_bounds__(1024)` attribute to GPU kernels, that did not have that attribute explicitly specified. That PR seems to cause regressions on the CUDA platform. This PR/commit makes the changes in PR 181, to be applicable for HIP only
author: Deven Desai <deven.desai.amd@gmail.com> 2020-08-19 20:06:39 +0000
committer: Deven Desai <deven.desai.amd@gmail.com> 2020-08-20 00:29:57 +0000
commit: 603e213d13311af286c8c1abd4ea14a8bd3d204e (patch)
tree: fce713b0de190f4ee9d5be162a7efb83d0f8754c /unsupported/Eigen/CXX11/src/Tensor/TensorScan.h
parent: c060114a259af3460dc40b388df47c86944f2600 (diff)
1 files changed, 1 insertions, 1 deletions
diff --git a/unsupported/Eigen/CXX11/src/Tensor/TensorScan.h b/unsupported/Eigen/CXX11/src/Tensor/TensorScan.h
index 9e3b1a0b9..98c8250f0 100644
--- a/unsupported/Eigen/CXX11/src/Tensor/TensorScan.h
+++ b/unsupported/Eigen/CXX11/src/Tensor/TensorScan.h
@@ -334,7 +334,7 @@ struct ScanLauncher<Self, Reducer, ThreadPoolDevice, Vectorize> {
 // parallel, but it would be better to use a parallel scan algorithm and
 // optimize memory access.
 template <typename Self, typename Reducer>
-__global__ __launch_bounds__(1024) void ScanKernel(Self self, Index total_size, typename Self::CoeffReturnType* data) {
+__global__ EIGEN_HIP_LAUNCH_BOUNDS_1024 void ScanKernel(Self self, Index total_size, typename Self::CoeffReturnType* data) {
   // Compute offset as in the CPU version
   Index val = threadIdx.x + blockIdx.x * blockDim.x;
   Index offset = (val / self.stride()) * self.stride() * self.size() + val % self.stride();
author	Deven Desai <deven.desai.amd@gmail.com>	2020-08-19 20:06:39 +0000
committer	Deven Desai <deven.desai.amd@gmail.com>	2020-08-20 00:29:57 +0000
commit	603e213d13311af286c8c1abd4ea14a8bd3d204e (patch)
tree	fce713b0de190f4ee9d5be162a7efb83d0f8754c /unsupported/Eigen/CXX11/src/Tensor/TensorScan.h
parent	c060114a259af3460dc40b388df47c86944f2600 (diff)