ASPLOS`25 Systematic CXL Memory Characterization and Performance Analysis at Scale
Systematic CXL Memory Characterization and Performance Analysis at Scale Jinshu Liu Virginia Tech https://github.com/MoatLab...
Systematic CXL Memory Characterization and Performance Analysis at Scale Jinshu Liu Virginia Tech https://github.com/MoatLab...
背景PIM和PNMPIM 的计算单元与存储单元结合紧密,处于内存芯片内部。在传统 PIM 方法里,计算单元被放置在主存储器(DRAM)中,与存储单元在物理上紧密相连。像美光的混合存储立方体(HMC),在 DRAM 层的堆栈下设置逻辑层,期望在逻辑层...
摘要基于 Transformer 的大型语言模型(LLMs)中的大输入上下文窗口有助于减少幻觉现象,提高输出准确性和个性化程度。然而,随着上下文窗口的扩大,注意力阶段在执行时间中的占比逐渐增加。键值(KV)缓存通过避免重复计算缓解了部分成本,但 K...
TPP:面向 CXL 使能的分层内存透明页放置技术摘要超大规模应用对内存需求的持续增长,使得内存成为数据中心总体支出的重要组成部分。CXL(Compute Express Link)等一致性接口的出现,为内存扩展提供了有效解决方案,使主内存能够整合多...
Tiered Memory Management Beyond Hotness Jinshu Liu Hamid Hadian Hanchen Xu Huaicheng Li Virginia Tech https://github.com/Moat...
Abstract 单GPU的内存容量限制了大模型推理,使得使用成本高昂的多GPU部署或者在慢速PCIE传输导致性能受限的CPU-GPU部署十分必要。在这个工作中,我们首先benchmark了最新的带有AMX的Intel CPU,包括4th SPR...