ASPLOS`25 Systematic CXL Memory Characterization and Performance Analysis at Scale

Systematic CXL Memory Characterization and Performance Analysis at Scale Jinshu Liu Virginia Tech https://github.com/MoatLab...

Paper/CXL/perfomance analysis

ASPLOS-25 PIM Is All You Need A CXL-Enabled GPU-Free System for Large Language Model Inference

背景PIM和PNMPIM 的计算单元与存储单元结合紧密,处于内存芯片内部。在传统 PIM 方法里,计算单元被放置在主存储器(DRAM)中,与存储单元在物理上紧密相连。像美光的混合存储立方体(HMC),在 DRAM 层的堆栈下设置逻辑层,期望在逻辑层...

Paper/CXL Paper/LLM

MICRO-25-LongSight |Compute-Enabled Memory to Accelerate Large-Context LLMs via Sparse Attention

摘要基于 Transformer 的大型语言模型(LLMs)中的大输入上下文窗口有助于减少幻觉现象,提高输出准确性和个性化程度。然而,随着上下文窗口的扩大,注意力阶段在执行时间中的占比逐渐增加。键值(KV)缓存通过避免重复计算缓解了部分成本,但 K...

Paper/CXL Paper/LLM

ASPLOS·23 '25 TPP

TPP:面向 CXL 使能的分层内存透明页放置技术摘要超大规模应用对内存需求的持续增长,使得内存成为数据中心总体支出的重要组成部分。CXL(Compute Express Link)等一致性接口的出现,为内存扩展提供了有效解决方案,使主内存能够整合多...

Paper/CXL/tiering-memory

OSDI'25 Tiered Memory Management Beyond Hotness

Tiered Memory Management Beyond Hotness Jinshu Liu Hamid Hadian Hanchen Xu Huaicheng Li Virginia Tech https://github.com/Moat...

Paper/CXL/tiering-memory

ISCA`25 LIA A Single-GPU LLM Inference Acceleration with Cooperative AMX-Enabled CPU-GPU Computation and CXL Offloading

Abstract​ 单GPU的内存容量限制了大模型推理,使得使用成本高昂的多GPU部署或者在慢速PCIE传输导致性能受限的CPU-GPU部署十分必要。在这个工作中,我们首先benchmark了最新的带有AMX的Intel CPU,包括4th SPR...

Paper/CXL Paper/LLM

本站由 Zane Jiang 使用 Stellar 1.33.1 主题创建,一款很棒的 Hexo 主题!

总访问 次 || 本页访问
总访客 人 || 本页访客