Zane Jiang

CPU SIMD 编程快速入门

系统介绍 CPU SIMD 编程体系，涵盖 x86 AVX/AVX-512/AMX、RISC-V RVV 与 ARM/Apple 平台实践，并附 memcpy/memset 及矩阵转置实现。

Linux 中带权内存交错分配实现方式mm/mempolicy.c 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647/...

第一章 GPU硬件架构与CUDA开发环境配置1.1 CUDA设备架构详解 SM是GPU中最基本的计算单元，负责线程调度与数据处理，由多个计算核心CUDAcore和调度单元组成。 GPU中32个线程组成一个warp，是最小的调度单元，SM中的调度器...

常见工作流1. 集中式工作流（Centralized Workflow）模式：所有人都直接基于 main 开发。优点：简单直接，上手成本最低。缺点：多人并行开发时容易互相影响，不适合复杂项目。适用：个人项目、小团队、低频发布场景。 2. 功...

暂不公开.

暂不公开.

本文是对官方reduce优化的精简，方便个人复习,详细回顾参考知乎深入浅出系列 leetGPU 问题解决快速记忆123456789101112131415161718192021222324252627282930313233343536373...

转载、参考： https://zhuanlan.zhihu.com/p/1910636263666610461 计算量推导矩阵乘法： $C = \alpha AB + \beta C$$A$ 形状为 $M \times K$ ,$B$ ...

Tongkaio/CUDA_Kernel_Samples: CUDA 算子手撕与面试指南