tile-ai
diff --git a/‎_sources/autoapi/tilelang/contrib/cutedsl/atomic/index.rst.txt‎
Lines changed: 123 additions & 0 deletions b/‎_sources/autoapi/tilelang/contrib/cutedsl/atomic/index.rst.txt‎
Lines changed: 123 additions & 0 deletions
diff --git a/‎_sources/autoapi/tilelang/contrib/cutedsl/cpasync/index.rst.txt‎
Lines changed: 34 additions & 17 deletions b/‎_sources/autoapi/tilelang/contrib/cutedsl/cpasync/index.rst.txt‎
Lines changed: 34 additions & 17 deletions
diff --git a/‎_sources/autoapi/tilelang/contrib/cutedsl/gemm_tcgen05/index.rst.txt‎
Lines changed: 163 additions & 0 deletions b/‎_sources/autoapi/tilelang/contrib/cutedsl/gemm_tcgen05/index.rst.txt‎
Lines changed: 163 additions & 0 deletions
@@ -0,0 +1,123 @@
+tilelang.contrib.cutedsl.atomic
+===============================
+
+.. py:module:: tilelang.contrib.cutedsl.atomic
+
+.. autoapi-nested-parse::
+
+   Atomic operations for CuTeDSL backend.
+
+   This module provides implementations of atomic operations using NVVM and LLVM dialects.
+
+
+
+Functions
+---------
+
+.. autoapisummary::
+
+   tilelang.contrib.cutedsl.atomic.AtomicAdd
+   tilelang.contrib.cutedsl.atomic.AtomicAddRet
+   tilelang.contrib.cutedsl.atomic.AtomicAddx2
+   tilelang.contrib.cutedsl.atomic.AtomicAddx4
+   tilelang.contrib.cutedsl.atomic.AtomicMax
+   tilelang.contrib.cutedsl.atomic.AtomicMaxRet
+   tilelang.contrib.cutedsl.atomic.AtomicMin
+   tilelang.contrib.cutedsl.atomic.AtomicMinRet
+   tilelang.contrib.cutedsl.atomic.AtomicLoad
+   tilelang.contrib.cutedsl.atomic.AtomicStore
+
+
+Module Contents
+---------------
+
+.. py:function:: AtomicAdd(ptr, value, *, loc=None, ip=None)
+
+   Perform atomic addition on a pointer.
+
+   Supports float16, float32, int32, and int64 types.
+   Returns the old value before addition (atomicrmw semantics).
+
+
+.. py:function:: AtomicAddRet(ptr, value, *, loc=None, ip=None)
+
+   Perform atomic addition and return the previous value.
+
+   This is the same as AtomicAdd since nvvm.atomicrmw always returns old value.
+
+
+.. py:function:: AtomicAddx2(dst_ptr, src_values, *, loc=None, ip=None)
+
+   Vectorized atomic add for 2 consecutive elements.
+
+   Uses PTX atom.add.v2.f32 for float32 or atom.add.noftz.v2.f16 for float16.
+
+   :param dst_ptr: Pointer to destination (2 consecutive elements)
+   :param src_values: Source values - can be TensorSSA (loaded tensor) or Pointer
+
+
+.. py:function:: AtomicAddx4(dst_ptr, src_values, *, loc=None, ip=None)
+
+   Vectorized atomic add for 4 consecutive float32 elements.
+
+   Uses PTX atom.global.add.v4.f32 for true vectorized atomic operation on SM90+.
+
+   :param dst_ptr: Pointer to destination (4 consecutive float32 elements)
+   :param src_values: Source values - can be TensorSSA (loaded tensor) or Pointer
+
+
+.. py:function:: AtomicMax(ptr, value, *, loc=None, ip=None)
+
+   Perform atomic maximum operation.
+
+   For integers, uses nvvm.atomicrmw with MAX.
+   For floats, uses CAS loop since PTX doesn't have atomic max for float32.
+
+
+.. py:function:: AtomicMaxRet(ptr, value, *, loc=None, ip=None)
+
+   Perform atomic maximum and return the previous value.
+
+
+.. py:function:: AtomicMin(ptr, value, *, loc=None, ip=None)
+
+   Perform atomic minimum operation.
+
+   For integers, uses nvvm.atomicrmw with MIN.
+   For floats, uses CAS loop since PTX doesn't have atomic min for float32.
+
+
+.. py:function:: AtomicMinRet(ptr, value, *, loc=None, ip=None)
+
+   Perform atomic minimum and return the previous value.
+
+
+.. py:function:: AtomicLoad(ptr, memory_order, *, loc=None, ip=None)
+
+   Perform atomic load with specified memory ordering.
+
+   :param ptr: Pointer to load from
+   :param memory_order: TileLang memory order ID (0=relaxed, 2=acquire, 5=seq_cst, etc.)
+
+   :returns: The loaded value
+
+   PTX mapping (per NVIDIA ABI):
+       relaxed: ld.relaxed.<scope>
+       acquire: ld.acquire.<scope>
+       seq_cst: fence.sc.<scope>; ld.relaxed.<scope>
+
+
+.. py:function:: AtomicStore(ptr, value, memory_order, *, loc=None, ip=None)
+
+   Perform atomic store with specified memory ordering.
+
+   :param ptr: Pointer to store to
+   :param value: Value to store
+   :param memory_order: TileLang memory order ID (0=relaxed, 3=release, 5=seq_cst, etc.)
+
+   PTX mapping (per NVIDIA ABI):
+       relaxed: st.relaxed.<scope>
+       release: st.release.<scope>
+       seq_cst: fence.sc.<scope>; st.relaxed.<scope>
+
+
@@ -4,15 +4,6 @@ tilelang.contrib.cutedsl.cpasync
 .. py:module:: tilelang.contrib.cutedsl.cpasync
 
 
-Attributes
-----------
-
-.. autoapisummary::
-
-   tilelang.contrib.cutedsl.cpasync.BYTES_PER_TENSORMAP
-   tilelang.contrib.cutedsl.cpasync.BYTES_PER_POINTER
-
-
 Functions
 ---------
 
@@ -23,23 +14,20 @@ Functions
    tilelang.contrib.cutedsl.cpasync.extract_tensormap_ptr
    tilelang.contrib.cutedsl.cpasync.tma_load
    tilelang.contrib.cutedsl.cpasync.tma_store
+   tilelang.contrib.cutedsl.cpasync.tma_reduce
    tilelang.contrib.cutedsl.cpasync.tma_store_arrive
    tilelang.contrib.cutedsl.cpasync.tma_store_wait
    tilelang.contrib.cutedsl.cpasync.cp_async_shared_global
    tilelang.contrib.cutedsl.cpasync.prefetch_tma_descriptor
+   tilelang.contrib.cutedsl.cpasync.mbarrier_wait
+   tilelang.contrib.cutedsl.cpasync.mbarrier_cp_async_arrive
+   tilelang.contrib.cutedsl.cpasync.fence_proxy_async
+   tilelang.contrib.cutedsl.cpasync.fence_barrier_init
 
 
 Module Contents
 ---------------
 
-.. py:data:: BYTES_PER_TENSORMAP
-   :value: 128
-
-
-.. py:data:: BYTES_PER_POINTER
-   :value: 8
-
-
 .. py:function:: cp_async_gs(size, dst, src)
 
 .. py:function:: cp_async_gs_conditional(size, dst, src, cond)
@@ -77,6 +65,21 @@ Module Contents
    :type crd:                       tuple[Int, ...]
 
 
+.. py:function:: tma_reduce(tma_desc, smem_ptr, crd, *, loc=None, ip=None)
+
+   Reduce data from shared memory to global memory using TMA with atomic ADD reduction.
+
+   This performs an atomic add of shared memory data to global memory using
+   the TMA unit's reduce capability.
+
+   :param tma_desc:                 TMA descriptor for the tensor
+   :type tma_desc:                  TMA descriptor
+   :param smem_ptr:                 Source pointer in shared memory
+   :type smem_ptr:                  Pointer
+   :param crd:                      Coordinates tuple for the tensor access
+   :type crd:                       tuple[Int, ...]
+
+
 .. py:function:: tma_store_arrive(*, loc=None, ip=None)
 
    Indicate arrival of warp issuing TMA_STORE.
@@ -114,3 +117,17 @@ Module Contents
    Corresponds to PTX instruction: prefetch.tensormap;
 
 
+.. py:function:: mbarrier_wait(mbar_ptr, phase, timeout_ns = 10000000, *, loc=None, ip=None)
+
+   Waits on a mbarrier with a specified phase (blocking loop).
+
+   Uses inline PTX to loop until the try_wait succeeds.
+   The CUDA backend does: while (!mbar.try_wait(parity)) {}
+
+
+.. py:function:: mbarrier_cp_async_arrive(mbar_ptr, *, loc=None, ip=None)
+
+.. py:function:: fence_proxy_async()
+
+.. py:function:: fence_barrier_init()
+
@@ -0,0 +1,163 @@
+tilelang.contrib.cutedsl.gemm_tcgen05
+=====================================
+
+.. py:module:: tilelang.contrib.cutedsl.gemm_tcgen05
+
+.. autoapi-nested-parse::
+
+   tcgen05 (SM100/Blackwell) MMA support for CuTeDSL backend.
+
+   Provides:
+     - Tcgen05SmemDescriptor: 64-bit SMEM descriptor for tcgen05 MMA
+     - initialize_tcgen05_descriptor: bitfield packing matching common.h layout
+     - tcgen05mma_ss / tcgen05mma_ws_ss / tcgen05mma_ts: MMA PTX inline asm
+     - tcgen05_mma_arrive: mbarrier arrive for MMA commit
+     - tmem_allocate / tmem_deallocate: TMEM allocation/deallocation
+
+
+
+Classes
+-------
+
+.. autoapisummary::
+
+   tilelang.contrib.cutedsl.gemm_tcgen05.Tcgen05SmemDescriptor
+
+
+Functions
+---------
+
+.. autoapisummary::
+
+   tilelang.contrib.cutedsl.gemm_tcgen05.initialize_tcgen05_descriptor
+   tilelang.contrib.cutedsl.gemm_tcgen05.tcgen05mma_ss
+   tilelang.contrib.cutedsl.gemm_tcgen05.tcgen05mma_ws_ss
+   tilelang.contrib.cutedsl.gemm_tcgen05.tcgen05mma_ts
+   tilelang.contrib.cutedsl.gemm_tcgen05.tcgen05_mma_arrive
+   tilelang.contrib.cutedsl.gemm_tcgen05.tmem_allocate
+   tilelang.contrib.cutedsl.gemm_tcgen05.tmem_deallocate
+   tilelang.contrib.cutedsl.gemm_tcgen05.tcgen05_ld_32dp32bNx
+   tilelang.contrib.cutedsl.gemm_tcgen05.tcgen05_ld_32dp64bNx
+   tilelang.contrib.cutedsl.gemm_tcgen05.tcgen05_ld_32dp128bNx
+   tilelang.contrib.cutedsl.gemm_tcgen05.tcgen05_ld_32dp256bNx
+
+
+Module Contents
+---------------
+
+.. py:class:: Tcgen05SmemDescriptor(desc_64 = None)
+
+   64-bit shared-memory descriptor for tcgen05 MMA (Blackwell).
+
+   Mirrors tl::Tcgen05SMemDescriptor from common.h.
+   Stored as two Int32 registers; recast to Int64 for the PTX operand.
+
+
+   .. py:attribute:: desc
+
+
+   .. py:attribute:: desc_i64
+
+
+   .. py:method:: __add__(offset)
+
+      Add byte offset.  Like C++ operator+, shifts offset >> 4.
+
+
+
+.. py:function:: initialize_tcgen05_descriptor(desc, start_address, leading_byte_offset, stride_byte_offset, base_offset, leading_abs, swizzle_mode)
+
+   Pack the tcgen05 SMEM descriptor bitfields.
+
+   Matches the C++ ``initialize_tcgen05_descriptor`` in common.h:
+     Low 32 bits (reg32_[0]):
+       [0:14)   start_address >> 4
+       [16:30)  leading_byte_offset  (already >>4 from TIR)
+     High 32 bits (reg32_[1]):
+       [0:14)   stride_byte_offset   (already >>4 from TIR)
+       [14:16)  version = 1
+       [17:20)  base_offset & 0x7
+       [20:21)  lbo_mode (leading_is_absolute ? 1 : 0)
+       [29:32)  layout_type (swizzle_mode & 0x7)
+
+
+.. py:function:: tcgen05mma_ss(kind_dtype, desc_a, desc_b, tmem_c, desc_val, scale_out, mask0, mask1, mask2, mask3)
+
+   tcgen05.mma.cta_group::1.kind::{kind} [tmem_c], desc_a, desc_b, desc_val, {masks}, p;
+
+   Guarded by elect_one_sync — only one thread in the warp issues the MMA.
+   The TIR codegen also wraps calls in ``if (threadIdx.x >> 5) == 0``
+   which selects warp 0.
+
+
+.. py:function:: tcgen05mma_ws_ss(kind_dtype, desc_a, desc_b, tmem_c, desc_val, scale_out)
+
+   tcgen05.mma.ws.cta_group::1.kind::{kind} [tmem_c], desc_a, desc_b, desc_val, p, 0;
+
+
+.. py:function:: tcgen05mma_ts(kind_dtype, tmem_a, desc_b, tmem_c, desc_val, scale_out, mask0, mask1, mask2, mask3)
+
+   tcgen05.mma.cta_group::1.kind::{kind} [tmem_c], [tmem_a], desc_b, desc_val, {masks}, p;
+
+
+.. py:function:: tcgen05_mma_arrive(mbar_ptr)
+
+   tcgen05.commit.cta_group::1.mbarrier::arrive::one.shared::cluster.b64 [mbar];
+
+   Guarded by elect_one_sync — only one thread in the warp issues the commit.
+
+
+.. py:function:: tmem_allocate(tmem_buffer_ptr, num_cols)
+
+   tcgen05.alloc.cta_group::1.sync.aligned.shared::cta.b32 [dst], num_cols;
+
+   tmem_buffer_ptr: SMEM pointer that receives the allocated TMEM address.
+   num_cols: number of columns to allocate.
+
+
+.. py:function:: tmem_deallocate(tmem_ptr, num_cols)
+
+   tcgen05.dealloc.cta_group::1.sync.aligned.b32 tmem_addr, num_cols;
+
+   tmem_ptr: SMEM pointer to the uint32 holding the TMEM address.
+   num_cols: number of columns to deallocate.
+
+
+.. py:function:: tcgen05_ld_32dp32bNx(N, pack16, tmem_start_col, tmem_col_offset, dst_ptr)
+
+   Load N uint32 values from TMEM using tcgen05.ld.sync.aligned.32x32b.
+
+   Matches tl::tcgen05_ld_32dp32bNx from copy_sm100.h.
+   N: number of 32-bit elements to load (x-count, compile-time constant).
+   pack16: if True, use 16-bit packing (not implemented yet).
+   tmem_start_col: TMEM base column address.
+   tmem_col_offset: additional column offset.
+   dst_ptr: destination pointer (register memory).
+
+
+.. py:function:: tcgen05_ld_32dp64bNx(N, pack16, tmem_start_col, tmem_col_offset, dst_ptr)
+
+   Load from TMEM using 32dp64b pattern (2x 16x64b for lower/upper 16 rows).
+
+   Matches tl::tmem_ld_32dp64bNx from tcgen_05_ld.h.
+   N: x-count for 16x64b instructions. Total output: 2*N i32 regs.
+
+
+.. py:function:: tcgen05_ld_32dp128bNx(N, pack16, tmem_start_col, tmem_col_offset, dst_ptr)
+
+   Load from TMEM using 32dp128b pattern (2x 16x128b for lower/upper 16 rows).
+
+   Matches tl::tmem_ld_32dp128bNx from tcgen_05_ld.h.
+   N: x-count for 16x128b instructions. Total output: 4*N i32 regs.
+   16x128b.xN produces 2*N i32 regs per half.
+
+
+.. py:function:: tcgen05_ld_32dp256bNx(N, pack16, tmem_start_col, tmem_col_offset, dst_ptr)
+
+   Load from TMEM using 32dp256b pattern (2x 16x256b for lower/upper 16 rows).
+
+   Matches tl::tmem_ld_32dp256bNx from tcgen_05_ld.h.
+   N: x-count for 16x256b instructions. Total output: 8*N i32 regs.
+   16x256b.xN produces 4*N i32 regs per half.
+
+