NOAA-GFDL · edoyango · May 14, 2026 · May 14, 2026 · May 14, 2026 · May 18, 2026
@@ -335,7 +335,9 @@ MODULE diag_data_mod
     class(*), allocatable         :: att_value(:) !< Value of the attribute
     character(len=:), allocatable :: att_name     !< Name of the attribute
     contains
+#ifndef __NVCOMPILER
       procedure :: add => fms_add_attribute
+#endif
       procedure :: write_metadata
   end type fmsDiagAttribute_type
 ! Include variable "version" to be written to log file.
@@ -558,6 +560,7 @@ function get_base_second() &
     res = base_second
   end function get_base_second
 
+#ifndef __NVCOMPILER
   !> @brief Adds an attribute to the attribute type
   subroutine fms_add_attribute(this, att_name, att_value)
     class(fmsDiagAttribute_type), intent(inout) :: this         !< Diag attribute type
@@ -589,6 +592,7 @@ subroutine fms_add_attribute(this, att_name, att_value)
       end select
     end select
   end subroutine fms_add_attribute
+#endif
 
   !> @brief gets the type of a variable
   !> @return the type of the variable (r4,r8,i4,i8,string)

@@ -17,92 +17,146 @@
 !***********************************************************************
 
 if( group%k_loop_inside ) then
-!$OMP parallel do default(none) shared(nunpack,group,nscalar,ptr,nvector,ksize,buffer_start_pos) &
+! nvfortran + cray pointers imposes some restrictions on the loops below:
+!   * the compiler cannot privatise OpenMP cray pointers in offloaded loops. Hence, inner loops
+!     must be ported rather than the whole outer loop.
+!   * the more verbose form of openmp offload loops must be used. Would prefer "target teams loop".
+!   * default(shared) must be used otherwise loops hang or segfault. Would prefer "default(none)".
+#ifndef __NVCOMPILER_OPENMP_GPU
+!$OMP parallel do default(shared) shared(nunpack,group,nscalar,ptr,nvector,ksize,buffer_start_pos) &
 !$OMP                          private(buffer_pos,pos,m,is, ie, js, je,rotation, &
-!$OMP                                  ptr_field, ptr_fieldx, ptr_fieldy, n,k )
+!$OMP                                  ptr_field, ptr_fieldx, ptr_fieldy, n,k,ni,nj,idx)
+#endif
   do n = nunpack, 1, -1
      buffer_pos = group%unpack_buffer_pos(n) + buffer_start_pos
      pos = buffer_pos
-     is = group%unpack_is(n); ie = group%unpack_ie(n)
-     js = group%unpack_js(n); je = group%unpack_je(n)
+     is = group%unpack_is(n); ie = group%unpack_ie(n); ni = ie-is+1
+     js = group%unpack_js(n); je = group%unpack_je(n); nj = je-js+1
      if( group%unpack_type(n) == FIELD_S ) then
         do l=1,nscalar  ! loop over number of fields
            ptr_field = group%addrs_s(l)
+#ifdef __NVCOMPILER_OPENMP_GPU
+           !$omp target teams distribute parallel do collapse(3) if(use_device_ptr) &
+           !$omp   default(shared) &
+           !$omp   private(i,j,k,idx) shared(ksize,js,je,is,ie,pos,nj,ni,ptr_field,ptr) &
+           !$omp   map(to: buffer(pos+1:pos+ksize*nj*ni)) &
+           !$omp   map(from: field(is:ie,js:je,1:ksize))
+#endif
            do k = 1, ksize
               do j = js, je
                  do i = is, ie
-                    pos = pos + 1
-                    field(i,j,k) = buffer(pos)
+                    idx = pos + (k-1)*nj*ni + (j-js)*ni + (i-is) + 1
+                    field(i,j,k) = buffer(idx)
                  end do
               end do
            end do
+           pos = pos + ksize*nj*ni
         end do
      else if( group%unpack_type(n) == FIELD_X ) then
         do l=1,nvector  ! loop over number of fields
            ptr_fieldx = group%addrs_x(l)
+#ifdef __NVCOMPILER_OPENMP_GPU
+           !$omp target teams distribute parallel do collapse(3) if(use_device_ptr) &
+           !$omp   default(shared) &
+           !$omp   private(i,j,k,idx) shared(ksize,js,je,is,ie,pos,nj,ni,ptr_fieldx,ptr) &
+           !$omp   map(to: buffer(pos+1:pos+ksize*nj*ni)) &
+           !$omp   map(from: fieldx(is:ie,js:je,1:ksize))
+#endif
            do k = 1, ksize
               do j = js, je
                  do i = is, ie
-                    pos = pos + 1
-                    fieldx(i,j,k) = buffer(pos)
+                    idx = pos + (k-1)*nj*ni + (j-js)*ni + (i-is) + 1
+                    fieldx(i,j,k) = buffer(idx)
                  end do
               end do
            end do
+           pos = pos + ksize*nj*ni
         end do
      else if( group%unpack_type(n) == FIELD_Y ) then
         do l=1,nvector  ! loop over number of fields
            ptr_fieldy = group%addrs_y(l)
+#ifdef __NVCOMPILER_OPENMP_GPU
+           !$omp target teams distribute parallel do collapse(3) if(use_device_ptr) &
+           !$omp   default(shared) &
+           !$omp   private(i,j,k,idx) shared(ksize,js,je,is,ie,pos,nj,ni,ptr_fieldy,ptr) &
+           !$omp   map(to: buffer(pos+1:pos+ksize*nj*ni)) &
+           !$omp   map(from: fieldy(is:ie,js:je,1:ksize))
+#endif
            do k = 1, ksize
               do j = js, je
                  do i = is, ie
-                    pos = pos + 1
-                    fieldy(i,j,k) = buffer(pos)
+                    idx = pos + (k-1)*nj*ni + (j-js)*ni + (i-is) + 1
+                    fieldy(i,j,k) = buffer(idx)
                  end do
               end do
            end do
+           pos = pos + ksize*nj*ni
         end do
      endif
   enddo
 else
-!$OMP parallel do default(none) shared(nunpack,group,nscalar,ptr,nvector,ksize,buffer_start_pos) &
+#ifndef __NVCOMPILER_OPENMP_GPU
+!$OMP parallel do default(shared) shared(nunpack,group,nscalar,ptr,nvector,ksize,buffer_start_pos) &
 !$OMP                          private(buffer_pos,pos,m,is, ie, js, je,rotation, &
-!$OMP                                  ptr_field, ptr_fieldx, ptr_fieldy,n,k)
+!$OMP                                  ptr_field, ptr_fieldx, ptr_fieldy,n,k,ni,nj,idx)
+#endif
   do nk = nunpack*ksize, 1, -1
      n = (nk-1)/ksize + 1
      k = mod((nk-1), ksize) + 1
      buffer_pos = group%unpack_buffer_pos(n) + buffer_start_pos
      pos = buffer_pos + (k-1)*group%unpack_size(n)
-     is = group%unpack_is(n); ie = group%unpack_ie(n)
-     js = group%unpack_js(n); je = group%unpack_je(n)
+     is = group%unpack_is(n); ie = group%unpack_ie(n); ni = ie-is+1
+     js = group%unpack_js(n); je = group%unpack_je(n); nj = je-js+1
      if( group%unpack_type(n) == FIELD_S ) then
         do l=1,nscalar  ! loop over number of fields
            ptr_field = group%addrs_s(l)
+#ifdef __NVCOMPILER_OPENMP_GPU
+           !$omp target teams distribute parallel do collapse(2) if(use_device_ptr) &
+           !$omp   default(shared) &
+           !$omp   private(i,j,idx) shared(k,js,je,is,ie,pos,ni,ptr_field,ptr) &
+           !$omp   map(to: buffer(pos+1:pos+nj*ni)) map(from: field(is:ie,js:je,k))
+#endif
            do j = js, je
               do i = is, ie
-                 pos = pos + 1
-                 field(i,j,k) = buffer(pos)
+                 idx = pos + (j-js)*ni + (i-is) + 1
+                 field(i,j,k) = buffer(idx)
               end do
            end do
+           pos = pos + ni*nj
         end do
      else if( group%unpack_type(n) == FIELD_X ) then
         do l=1,nvector  ! loop over number of fields
            ptr_fieldx = group%addrs_x(l)
+#ifdef __NVCOMPILER_OPENMP_GPU
+           !$omp target teams distribute parallel do collapse(2) if(use_device_ptr) &
+           !$omp   default(shared) &
+           !$omp   private(i,j,idx) shared(k,js,je,is,ie,pos,ni,ptr_fieldx,ptr) &
+           !$omp   map(to: buffer(pos+1:pos+nj*ni)) map(from: fieldx(is:ie,js:je,k))
+#endif
            do j = js, je
               do i = is, ie
-                 pos = pos + 1
-                 fieldx(i,j,k) = buffer(pos)
+                 idx = pos + (j-js)*ni + (i-is) + 1
+                 fieldx(i,j,k) = buffer(idx)
               end do
            end do
+           pos = pos + ni*nj
         end do
      else if( group%unpack_type(n) == FIELD_Y ) then
         do l=1,nvector  ! loop over number of fields
            ptr_fieldy = group%addrs_y(l)
+#ifdef __NVCOMPILER_OPENMP_GPU
+           !$omp target teams distribute parallel do collapse(2) if(use_device_ptr) &
+           !$omp   default(shared) &
+           !$omp   private(i,j,idx) shared(k,js,je,is,ie,pos,ni,ptr_fieldy,ptr) &
+           !$omp   map(to: buffer(pos+1:pos+nj*ni)) map(from: fieldy(is:ie,js:je,k))
+#endif
            do j = js, je
               do i = is, ie
-                 pos = pos + 1
-                 fieldy(i,j,k) = buffer(pos)
+               idx = pos + (j-js)*ni + (i-is) + 1
+               fieldy(i,j,k) = buffer(idx)
               end do
            end do
+           pos = pos + ni*nj
         end do
      endif
   enddo

@@ -30,6 +30,7 @@
 !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
   !> @brief Initialize the @ref mpp_mod module. Must be called before any usage.
   subroutine mpp_init_f08( flags, localcomm, test_level, alt_input_nml_path )
+  !$ use omp_lib
   integer, optional, intent(in) :: flags !< Flags for debug output, can be MPP_VERBOSE or MPP_DEBUG
   type(mpi_comm), optional, intent(in) :: localcomm !< MPI communicator to use. Only relevant if MPI has already
                                                !! been initialized by an external call to mpi_init.
@@ -60,6 +61,14 @@
   call MPI_COMM_RANK( mpp_comm_private, pe,   error )
   call MPI_COMM_SIZE( mpp_comm_private, npes, error )
 
+  ! set default device to enable multi GPU parallelism
+  ! calls to both OpenACC and OpenMP runtimes are needed
+  ! because we use both do-concurrent and openmp
+  ! if you remove either, the code will run multiple
+  ! ranks on a _single_ GPU. Be careful out there!
+  !$ call omp_set_default_device(pe)
+  !$acc set device_num(pe)
+
   module_is_initialized = .TRUE.
   if (present(test_level)) then
     t_level = test_level

@@ -905,6 +905,8 @@
 #undef MPP_TYPE_INIT_VALUE
 
 !****************************************************
+#ifndef __NVCOMPILER
+
 #undef MPP_GLOBAL_FIELD_
 #define MPP_GLOBAL_FIELD_ mpp_global_field_r8
 #undef MPP_TYPE_
@@ -972,6 +974,127 @@
 #undef DEFAULT_VALUE_
 #define DEFAULT_VALUE_ .false._l4_kind
 #include <mpp_global_field.fh>
+
+
+!! if __NVCOMPILER is defined, use compatibility version
+#else
+
+#undef MPP_TYPE_
+#define MPP_TYPE_ real(r8_kind)
+#undef DEFAULT_VALUE_
+#define DEFAULT_VALUE_ 0._r8_kind
+#undef MPP_GLOBAL_FIELD_2D_
+#define MPP_GLOBAL_FIELD_2D_ mpp_global_field_r8_2d
+#undef MPP_GLOBAL_FIELD_3D_
+#define MPP_GLOBAL_FIELD_3D_ mpp_global_field_r8_3d
+#undef MPP_GLOBAL_FIELD_4D_
+#define MPP_GLOBAL_FIELD_4D_ mpp_global_field_r8_4d
+#undef MPP_GLOBAL_FIELD_5D_
+#define MPP_GLOBAL_FIELD_5D_ mpp_global_field_r8_5d
+#include <mpp_global_field_compat.fh>
+
+#undef MPP_TYPE_
+#define MPP_TYPE_ integer(i8_kind)
+#undef DEFAULT_VALUE_
+#define DEFAULT_VALUE_ 0_i8_kind
+#undef MPP_GLOBAL_FIELD_2D_
+#define MPP_GLOBAL_FIELD_2D_ mpp_global_field_i8_2d
+#undef MPP_GLOBAL_FIELD_3D_
+#define MPP_GLOBAL_FIELD_3D_ mpp_global_field_i8_3d
+#undef MPP_GLOBAL_FIELD_4D_
+#define MPP_GLOBAL_FIELD_4D_ mpp_global_field_i8_4d
+#undef MPP_GLOBAL_FIELD_5D_
+#define MPP_GLOBAL_FIELD_5D_ mpp_global_field_i8_5d
+#include <mpp_global_field_compat.fh>
+
+#ifdef OVERLOAD_C8
+#undef MPP_TYPE_
+#define MPP_TYPE_ complex(c8_kind)
+#undef DEFAULT_VALUE_
+#define DEFAULT_VALUE_ (0._r8_kind,0._r8_kind)
+#undef MPP_GLOBAL_FIELD_2D_
+#define MPP_GLOBAL_FIELD_2D_ mpp_global_field_c8_2d
+#undef MPP_GLOBAL_FIELD_3D_
+#define MPP_GLOBAL_FIELD_3D_ mpp_global_field_c8_3d
+#undef MPP_GLOBAL_FIELD_4D_
+#define MPP_GLOBAL_FIELD_4D_ mpp_global_field_c8_4d
+#undef MPP_GLOBAL_FIELD_5D_
+#define MPP_GLOBAL_FIELD_5D_ mpp_global_field_c8_5d
+#include <mpp_global_field_compat.fh>
+#endif
+
+#ifdef OVERLOAD_C4
+#undef MPP_TYPE_
+#define MPP_TYPE_ complex(c4_kind)
+#undef DEFAULT_VALUE_
+#define DEFAULT_VALUE_ (0._r4_kind,0._r4_kind)
+#undef MPP_GLOBAL_FIELD_2D_
+#define MPP_GLOBAL_FIELD_2D_ mpp_global_field_c4_2d
+#undef MPP_GLOBAL_FIELD_3D_
+#define MPP_GLOBAL_FIELD_3D_ mpp_global_field_c4_3d
+#undef MPP_GLOBAL_FIELD_4D_
+#define MPP_GLOBAL_FIELD_4D_ mpp_global_field_c4_4d
+#undef MPP_GLOBAL_FIELD_5D_
+#define MPP_GLOBAL_FIELD_5D_ mpp_global_field_c4_5d
+#include <mpp_global_field_compat.fh>
+#endif
+
+#undef MPP_TYPE_
+#define MPP_TYPE_ logical(l8_kind)
+#undef DEFAULT_VALUE_
+#define DEFAULT_VALUE_ .false._l8_kind
+#undef MPP_GLOBAL_FIELD_2D_
+#define MPP_GLOBAL_FIELD_2D_ mpp_global_field_l8_2d
+#undef MPP_GLOBAL_FIELD_3D_
+#define MPP_GLOBAL_FIELD_3D_ mpp_global_field_l8_3d
+#undef MPP_GLOBAL_FIELD_4D_
+#define MPP_GLOBAL_FIELD_4D_ mpp_global_field_l8_4d
+#undef MPP_GLOBAL_FIELD_5D_
+#define MPP_GLOBAL_FIELD_5D_ mpp_global_field_l8_5d
+#include <mpp_global_field_compat.fh>
+
+#undef MPP_TYPE_
+#define MPP_TYPE_ real(r4_kind)
+#undef DEFAULT_VALUE_
+#define DEFAULT_VALUE_ 0._r4_kind
+#undef MPP_GLOBAL_FIELD_2D_
+#define MPP_GLOBAL_FIELD_2D_ mpp_global_field_r4_2d
+#undef MPP_GLOBAL_FIELD_3D_
+#define MPP_GLOBAL_FIELD_3D_ mpp_global_field_r4_3d
+#undef MPP_GLOBAL_FIELD_4D_
+#define MPP_GLOBAL_FIELD_4D_ mpp_global_field_r4_4d
+#undef MPP_GLOBAL_FIELD_5D_
+#define MPP_GLOBAL_FIELD_5D_ mpp_global_field_r4_5d
+#include <mpp_global_field_compat.fh>
+
+#undef MPP_TYPE_
+#define MPP_TYPE_ integer(i4_kind)
+#undef DEFAULT_VALUE_
+#define DEFAULT_VALUE_ 0_i4_kind
+#undef MPP_GLOBAL_FIELD_2D_
+#define MPP_GLOBAL_FIELD_2D_ mpp_global_field_i4_2d
+#undef MPP_GLOBAL_FIELD_3D_
+#define MPP_GLOBAL_FIELD_3D_ mpp_global_field_i4_3d
+#undef MPP_GLOBAL_FIELD_4D_
+#define MPP_GLOBAL_FIELD_4D_ mpp_global_field_i4_4d
+#undef MPP_GLOBAL_FIELD_5D_
+#define MPP_GLOBAL_FIELD_5D_ mpp_global_field_i4_5d
+#include <mpp_global_field_compat.fh>
+
+#undef MPP_TYPE_
+#define MPP_TYPE_ logical(l4_kind)
+#undef DEFAULT_VALUE_
+#define DEFAULT_VALUE_ .false._l4_kind
+#undef MPP_GLOBAL_FIELD_2D_
+#define MPP_GLOBAL_FIELD_2D_ mpp_global_field_l4_2d
+#undef MPP_GLOBAL_FIELD_3D_
+#define MPP_GLOBAL_FIELD_3D_ mpp_global_field_l4_3d
+#undef MPP_GLOBAL_FIELD_4D_
+#define MPP_GLOBAL_FIELD_4D_ mpp_global_field_l4_4d
+#undef MPP_GLOBAL_FIELD_5D_
+#define MPP_GLOBAL_FIELD_5D_ mpp_global_field_l4_5d
+#include <mpp_global_field_compat.fh>
+#endif
 !****************************************************
 #undef MPP_DO_GLOBAL_FIELD_3D_AD_
 #define MPP_DO_GLOBAL_FIELD_3D_AD_ mpp_do_global_field2D_r8_3d_ad