《GPU并行编程与性能优化》阅读笔记

第一章 GPU硬件架构与CUDA开发环境配置1.1 CUDA设备架构详解 SM是GPU中最基本的计算单元,负责线程调度与数据处理,由多个计算核心CUDAcore和调度单元组成。 GPU中32个线程组成一个warp,是最小的调度单元,SM中的调度器...

阅读笔记

Git 版本管理与开源

常见工作流1. 集中式工作流(Centralized Workflow) 模式:所有人都直接基于 main 开发。 优点:简单直接,上手成本最低。 缺点:多人并行开发时容易互相影响,不适合复杂项目。 适用:个人项目、小团队、低频发布场景。 2. 功...

基于CXL的MOE冷专家计算卸载

暂不公开.

CXL

异构内存最佳放置的手动探索

暂不公开.

CXL

CUDA算子优化-GEMM

Tongkaio/CUDA_Kernel_Samples: CUDA 算子手撕与面试指南

CUDA

CUDA算子优化-Reduce

本文是对官方reduce优化的精简,方便个人复习,详细回顾参考知乎深入浅出系列 leetGPU 问题解决 展示 reduce的7种优化 V0_0 naive跨步相加,非全局内存访问, 123456789101112131415161718__g...

CUDA

CUDA算子优化-SoftMax

Tongkaio/CUDA_Kernel_Samples: CUDA 算子手撕与面试指南

CUDA

GGML源码浅析(1) 基础数据结构、内存管理、后端管理

GGML 源码浅析(1)前言1.阅读路线 ​ 1.内存管理:不使用后端时(参见example/simple-ctx)介绍ggml中的重要数据结构以及内存管理 ​ 2.后端的设计逻辑 3.基于gpt-2学习模型构建过程中权重与kv-cache...

源码解析/大模型

几种程序接口重定向、插桩方式比较

最近在实验中需要分析程序中的堆变量内存分配情况,一开始自己的实现是采用llvm IR Pass修改的方式,后来在OSDI的论文中发现相关的方法采用的是LD_PRELOAD的方式实现,一开始认为这种方法会更加简单,于是进行了实现,结果发现各有特点。 1...

12

本站由 Zane Jiang 使用 Stellar 1.33.1 主题创建,一款很棒的 Hexo 主题!

总访问 次 || 本页访问
总访客 人 || 本页访客