CPU SIMD 编程快速入门

系统介绍 CPU SIMD 编程体系,涵盖 x86 AVX/AVX-512/AMX、RISC-V RVV 与 ARM/Apple 平台实践,并附 memcpy/memset 及矩阵转置实现。

性能优化

Linux weight interleave 实现分析

Linux 中带权内存交错分配实现方式mm/mempolicy.c 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647/...

《GPU并行编程与性能优化》阅读笔记

第一章 GPU硬件架构与CUDA开发环境配置1.1 CUDA设备架构详解 SM是GPU中最基本的计算单元,负责线程调度与数据处理,由多个计算核心CUDAcore和调度单元组成。 GPU中32个线程组成一个warp,是最小的调度单元,SM中的调度器...

阅读笔记

Git 版本管理与开源

常见工作流1. 集中式工作流(Centralized Workflow) 模式:所有人都直接基于 main 开发。 优点:简单直接,上手成本最低。 缺点:多人并行开发时容易互相影响,不适合复杂项目。 适用:个人项目、小团队、低频发布场景。 2. 功...

基于CXL的MOE冷专家计算卸载

暂不公开.

CXL

异构内存最佳放置的手动探索

暂不公开.

CXL

CUDA算子优化-Reduce

本文是对官方reduce优化的精简,方便个人复习,详细回顾参考知乎深入浅出系列 leetGPU 问题解决 快速记忆123456789101112131415161718192021222324252627282930313233343536373...

CUDA

CUDA算子优化-GEMM

转载、参考: https://zhuanlan.zhihu.com/p/1910636263666610461 计算量推导矩阵乘法: $C = \alpha AB + \beta C$$A$ 形状为 $M \times K$ ,$B$ ...

CUDA

CUDA算子优化-SoftMax

Tongkaio/CUDA_Kernel_Samples: CUDA 算子手撕与面试指南

CUDA
12

本站由 Zane Jiang 使用 Stellar 1.33.1 主题创建,一款很棒的 Hexo 主题!

总访问 次 || 本页访问
总访客 人 || 本页访客