说明
官方推荐学习路线
论文阅读

Abstract
作用:将ONNX等格式的模型文件转化为可以在TPU运行的二进制模型文件bmodule
主要实现了两个Dialect :设备无关的张量操作方言TOP,负责编码深度学习的图;设备相关的TPU方言TPU负责提供利用TPU计算的标准。
Background
介绍MLIR(基本概念、Tensor Type、Quantization Dialect)、ONNX格式、量化方式(统一量化、对称与非对称量化、分位修正等)
Compiler
3.1 Overview

3.2 Module
介绍module的atrribute。包括name。weight_file
weight_file的主要功能是实现权重与mlir的分离存储。
location实现操作与权重的关联。也就是代码中OP操作都使用#loc0 之类,然后外部#loc0 = loc("input")指明对应tensor在weight_file中的位置。

3.3 Top dialect
定义:


相关背景:
Dialect定义、OP定义、traits合并、什么是OP的Interfaces
论文讲解笔记记录
视频 去除论文中的重复部分
视频讲解的最大区别就是结合了代码,所以重点关注代码实现
Overview
一、Translation


二、Canonicalize


三 、Lowering


四 LayerGroup



五、Code Generation

六、Calibration + Quantization



七、Deploy Quantized Model

八、Correctness Check

常用命令


