Correct kernel launch bounds for CUDA sm_60
commitb04a53c49ab4a69dee20c5f3bb3c3e3df06701b9
authorSzilárd Páll <pall.szilard@gmail.com>
Mon, 26 Sep 2016 22:10:48 +0000 (27 00:10 +0200)
committerSzilárd Páll <pall.szilard@gmail.com>
Sun, 9 Oct 2016 02:16:06 +0000 (9 04:16 +0200)
tree425c1c2e4cf10ceb7472cb7047d4373a5cd6d3da
parent10bbec738f44527ddbc7dba80d89db728861f129
Correct kernel launch bounds for CUDA sm_60

The GP100 architecture has half the SM size (64 ALUs) compared to 5.x
hence 64 threads/block already achieves maximum occupancy and the
incorrectly tweaked launch configuration is not optimal. This change
reverts the incorrectly increased block size in cc4214a.

Change-Id: I9be10acfb3650c778401d04dfcd52aa200f78ff4
src/gromacs/mdlib/nbnxn_cuda/nbnxn_cuda.cu
src/gromacs/mdlib/nbnxn_cuda/nbnxn_cuda_kernel.cuh