CPU SIMD 编程快速入门
系统介绍 CPU SIMD 编程体系,涵盖 x86 AVX/AVX-512/AMX、RISC-V RVV 与 ARM/Apple 平台实践,并附 memcpy/memset 及矩阵转置实现。
系统介绍 CPU SIMD 编程体系,涵盖 x86 AVX/AVX-512/AMX、RISC-V RVV 与 ARM/Apple 平台实践,并附 memcpy/memset 及矩阵转置实现。
Linux 中带权内存交错分配实现方式mm/mempolicy.c 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647/...
第一章 GPU硬件架构与CUDA开发环境配置1.1 CUDA设备架构详解 SM是GPU中最基本的计算单元,负责线程调度与数据处理,由多个计算核心CUDAcore和调度单元组成。 GPU中32个线程组成一个warp,是最小的调度单元,SM中的调度器...
常见工作流1. 集中式工作流(Centralized Workflow) 模式:所有人都直接基于 main 开发。 优点:简单直接,上手成本最低。 缺点:多人并行开发时容易互相影响,不适合复杂项目。 适用:个人项目、小团队、低频发布场景。 2. 功...
暂不公开.
暂不公开.
本文是对官方reduce优化的精简,方便个人复习,详细回顾参考知乎深入浅出系列 leetGPU 问题解决 快速记忆123456789101112131415161718192021222324252627282930313233343536373...
转载、参考: https://zhuanlan.zhihu.com/p/1910636263666610461 计算量推导矩阵乘法: $C = \alpha AB + \beta C$$A$ 形状为 $M \times K$ ,$B$ ...
Tongkaio/CUDA_Kernel_Samples: CUDA 算子手撕与面试指南