Performance optimization for contiguous tensors

pbelevich · pbelevich · commit 3fbd40a87b57 · 2020-12-16T20:42:30.000-05:00
ghstack-source-id: bc74b98 Pull Request resolved: #103
diff --git a/torchcsprng/csrc/block_cipher.h b/torchcsprng/csrc/block_cipher.h
@@ -32,101 +32,127 @@ namespace csprng {
 
 template<typename input_index_calc_t>
 TORCH_CSPRNG_HOST_DEVICE static void copy_input_to_block(int64_t idx, uint8_t* block, int block_size,
-    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc) {
-  for (auto i = 0; i < block_size / input_type_size; ++i) {
-    const auto linear_index = idx * (block_size / input_type_size) + i;
-    if (linear_index < input_numel) {
-      std::memcpy(
-          block + i * input_type_size,
-          &(reinterpret_cast<uint8_t*>(input_ptr)[input_index_calc(linear_index)]),
-          input_type_size
-      );
+    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc, bool input_is_contiguous) {
+  if (input_is_contiguous) {
+    for (auto i = 0; i < block_size / input_type_size; ++i) {
+      const auto linear_index = idx * (block_size / input_type_size) + i;
+      if (linear_index < input_numel) {
+        std::memcpy(
+            block + i * input_type_size,
+            &(reinterpret_cast<uint8_t*>(input_ptr)[linear_index * input_type_size]),
+            input_type_size
+        );
+      }
+    }
+  } else {
+    for (auto i = 0; i < block_size / input_type_size; ++i) {
+      const auto linear_index = idx * (block_size / input_type_size) + i;
+      if (linear_index < input_numel) {
+        std::memcpy(
+            block + i * input_type_size,
+            &(reinterpret_cast<uint8_t*>(input_ptr)[input_index_calc(linear_index)]),
+            input_type_size
+        );
+      }
     }
   }
 }
 
 template<typename output_index_calc_t>
 TORCH_CSPRNG_HOST_DEVICE static void copy_block_to_output(int64_t idx, uint8_t* block, int output_elem_per_block,
-    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc) {
-  for (auto i = 0; i < output_elem_per_block; ++i) {
-    const auto linear_index = idx * output_elem_per_block + i;
-    if (linear_index < output_numel) {
-      std::memcpy(
-          &(reinterpret_cast<uint8_t*>(output_ptr)[output_index_calc(linear_index)]),
-          block + i * output_type_size,
-          output_type_size
-      );
+    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc, bool output_is_contiguous) {
+  if (output_is_contiguous) {
+    for (auto i = 0; i < output_elem_per_block; ++i) {
+      const auto linear_index = idx * output_elem_per_block + i;
+      if (linear_index < output_numel) {
+        std::memcpy(
+            &(reinterpret_cast<uint8_t*>(output_ptr)[linear_index * output_type_size]),
+            block + i * output_type_size,
+            output_type_size
+        );
+      }
+    }
+  } else {
+    for (auto i = 0; i < output_elem_per_block; ++i) {
+      const auto linear_index = idx * output_elem_per_block + i;
+      if (linear_index < output_numel) {
+        std::memcpy(
+            &(reinterpret_cast<uint8_t*>(output_ptr)[output_index_calc(linear_index)]),
+            block + i * output_type_size,
+            output_type_size
+        );
+      }
     }
   }
 }
 
 template<int block_size, typename cipher_t, typename input_index_calc_t, typename output_index_calc_t, typename transform_t>
 TORCH_CSPRNG_HOST_DEVICE static void block_cipher_kernel_helper(
     int64_t idx, cipher_t cipher, int output_elem_per_block,
-    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc,
-    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc,
+    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc, bool input_is_contiguous,
+    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc, bool output_is_contiguous,
     transform_t transform) {
   uint8_t block[block_size];
   std::memset(&block, 0, block_size); // is it ok to use zeros as padding?
   if (input_ptr != nullptr) {
-    copy_input_to_block(idx, block, block_size, input_ptr, input_numel, input_type_size, input_index_calc);
+    copy_input_to_block(idx, block, block_size, input_ptr, input_numel, input_type_size, input_index_calc, input_is_contiguous);
   }
   cipher(idx, block);
   transform(block);
-  copy_block_to_output(idx, block, output_elem_per_block, output_ptr, output_numel, output_type_size, output_index_calc);
+  copy_block_to_output(idx, block, output_elem_per_block, output_ptr, output_numel, output_type_size, output_index_calc, output_is_contiguous);
 }
 
 #if defined(__CUDACC__) || defined(__HIPCC__)
 template<int block_size, typename cipher_t, typename input_index_calc_t, typename output_index_calc_t, typename transform_t>
 __global__ static void block_cipher_kernel_cuda(cipher_t cipher, int output_elem_per_block,
-    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc,
-    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc,
+    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc, bool input_is_contiguous,
+    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc, bool output_is_contiguous,
     transform_t transform) {
   const auto idx = blockIdx.x * blockDim.x + threadIdx.x;
   block_cipher_kernel_helper<block_size>(idx, cipher, output_elem_per_block,
-    input_ptr, input_numel, input_type_size, input_index_calc,
-    output_ptr, output_numel, output_type_size, output_index_calc,
+    input_ptr, input_numel, input_type_size, input_index_calc, input_is_contiguous,
+    output_ptr, output_numel, output_type_size, output_index_calc, output_is_contiguous,
     transform);
 }
 #endif
 
 template<int block_size, typename cipher_t, typename input_index_calc_t, typename output_index_calc_t, typename transform_t>
 static void block_cipher_kernel_cpu_serial(int64_t begin, int64_t end, cipher_t cipher, int output_elem_per_block,
-    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc,
-    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc,
+    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc, bool input_is_contiguous,
+    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc, bool output_is_contiguous,
     transform_t transform) {
   for (auto idx = begin; idx < end; ++idx) {
     block_cipher_kernel_helper<block_size>(idx, cipher, output_elem_per_block,
-      input_ptr, input_numel, input_type_size, input_index_calc,
-      output_ptr, output_numel, output_type_size, output_index_calc,
+      input_ptr, input_numel, input_type_size, input_index_calc, input_is_contiguous,
+      output_ptr, output_numel, output_type_size, output_index_calc, output_is_contiguous,
       transform);
   }
 }
 
 template<int block_size, typename cipher_t, typename input_index_calc_t, typename output_index_calc_t, typename transform_t>
 static void block_cipher_kernel_cpu(int64_t total, cipher_t cipher, int output_elem_per_block,
-    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc,
-    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc,
+    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc, bool input_is_contiguous,
+    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc, bool output_is_contiguous,
     transform_t transform_func) {
   if (total < at::internal::GRAIN_SIZE || at::get_num_threads() == 1) {
     block_cipher_kernel_cpu_serial<block_size>(0, total, cipher, output_elem_per_block,
-      input_ptr, input_numel, input_type_size, input_index_calc,
-      output_ptr, output_numel, output_type_size, output_index_calc,
+      input_ptr, input_numel, input_type_size, input_index_calc, input_is_contiguous,
+      output_ptr, output_numel, output_type_size, output_index_calc, output_is_contiguous,
       transform_func);
   } else {
     at::parallel_for(0, total, at::internal::GRAIN_SIZE, [&](int64_t begin, int64_t end) {
       block_cipher_kernel_cpu_serial<block_size>(begin, end, cipher, output_elem_per_block,
-        input_ptr, input_numel, input_type_size, input_index_calc,
-        output_ptr, output_numel, output_type_size, output_index_calc,
+        input_ptr, input_numel, input_type_size, input_index_calc, input_is_contiguous,
+        output_ptr, output_numel, output_type_size, output_index_calc, output_is_contiguous,
         transform_func);
     });
   }
 }
 
 template<int block_size, typename cipher_t, typename input_index_calc_t, typename output_index_calc_t, typename transform_t>
 void block_cipher(
-    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc,
-    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc,
+    void* input_ptr, int64_t input_numel, int input_type_size, input_index_calc_t input_index_calc, bool input_is_contiguous,
+    void* output_ptr, int64_t output_numel, int output_type_size, output_index_calc_t output_index_calc, bool output_is_contiguous,
     at::Device device, cipher_t cipher, int output_elem_per_block, transform_t transform_func) {
   if (output_ptr == nullptr || output_numel == 0) {
     return;
@@ -136,8 +162,8 @@ void block_cipher(
     const auto total = (output_numel + output_elem_per_block - 1) / output_elem_per_block;
     block_cipher_kernel_cpu<block_size>(total,
         cipher, output_elem_per_block,
-        input_ptr, input_numel, input_type_size, input_index_calc,
-        output_ptr, output_numel, output_type_size, output_index_calc,
+        input_ptr, input_numel, input_type_size, input_index_calc, input_is_contiguous,
+        output_ptr, output_numel, output_type_size, output_index_calc, output_is_contiguous,
         transform_func
     );
   } else if (device.type() == at::kCUDA) {
@@ -147,8 +173,8 @@ void block_cipher(
     auto stream = at::cuda::getCurrentCUDAStream();
     block_cipher_kernel_cuda<block_size><<<grid, threads, 0, stream>>>(
         cipher, output_elem_per_block,
-        input_ptr, input_numel, input_type_size, input_index_calc,
-        output_ptr, output_numel, output_type_size, output_index_calc,
+        input_ptr, input_numel, input_type_size, input_index_calc, input_is_contiguous,
+        output_ptr, output_numel, output_type_size, output_index_calc, output_is_contiguous,
         transform_func
     );
     AT_CUDA_CHECK(cudaGetLastError());
@@ -193,8 +219,8 @@ void block_cipher(at::Tensor input, at::Tensor output, cipher_t cipher) {
   const auto device = output.device();
 
   torch::csprng::block_cipher<block_size>(
-      input_ptr, input_numel, input_type_size, input_index_calc,
-      output_ptr, output_numel, output_type_size, output_index_calc,
+      input_ptr, input_numel, input_type_size, input_index_calc, input.is_contiguous(),
+      output_ptr, output_numel, output_type_size, output_index_calc, output.is_contiguous(),
       device, cipher, block_size / output_type_size,
       [] TORCH_CSPRNG_HOST_DEVICE (uint8_t* x) {});
 }
diff --git a/torchcsprng/csrc/kernels_body.inc b/torchcsprng/csrc/kernels_body.inc
@@ -66,8 +66,8 @@ void aes_helper(at::TensorIterator& iter, const uint8_t* key_bytes, transform_t
       return output_offset_calc.get(li)[0];
   };
   torch::csprng::block_cipher<aes::block_t_size>(
-      nullptr, 0, 0, output_index_calc,
-      output.data_ptr(), output.numel(), output.element_size(), output_index_calc,
+      nullptr, 0, 0, output_index_calc, false,
+      output.data_ptr(), output.numel(), output.element_size(), output_index_calc, output.is_contiguous(),
       iter.device_type(),
       [key_bytes] TORCH_CSPRNG_HOST_DEVICE (int64_t idx, uint8_t* block) -> void {
           uint8_t idx_block[aes::block_t_size];