【TVM】TI关于TVM的使用测试与分析

# 1. 前言

上一篇文档 [TI-EdgeAI使用OSRT之TVM进行模型导出](http://blackmanba.top/doc/6/) ，详细介绍了关于在TI平台的导出阶段使用OSRT（open source Runtime）中的TVM模块对模型进行导出的详细过程，同时也大体上梳理了关于TVM进行模型导出和推理的整个过程。

本着对TVM框架的好奇和开源TVM框架的边界以及使用方法和优略这一目标，同时参考对比其他使用TVM框架的平台或者类似TVM的框架的介绍，以了解、分析、使用、对比、联想和总结为过程，相信总结使用TVM框架解决模型部署问题的优劣。

![](/media/202405/2024-05-17_144630_0734100.9026442436549461.png)

联想：MindIR is Relay High Level IR
![](/media/202405/2024-05-17_144630_1551380.36379980398208156.png)

![](/media/202405/2024-05-17_144643_3982820.27865478364804386.png)

# 2. 使用TVM导出img_stage的过程

* 整体TVM的使用过程在 [TI-EdgeAI使用OSRT之TVM进行模型导出](http://blackmanba.top/doc/6/) 中已经有详细的说明，这里不再赘述。主要是描述一下在BEVDet img_stage导出过程中遇到的问题，需要测试的需求和解决方案。

![](/media/202405/2024-05-17_144735_8594570.8056801238804735.png)

* 整体需要测试的需求有三个：
	1. BEVDet 中的Image_stage是否能正常导出；
	2. TVM导出是否支持多Batch的方式；
	3. 对于一些不支持层如何处理；
	
	
# 2.1. BEVDet 中的Image_stage是否能正常导出

![](/media/202405/2024-05-22_192335_7423000.2818683858359703.png)

直接说结论，如上图所示能够正常导出。导出过程将下图中的模型结构拆分成了5个子图。

![](/media/202405/2024-05-17_144758_4939140.17205613918389828.png)

其中第四个子图tidl_3中，BN层连接两个GEMM的部分，整个Relay解析部分能够正常完成，但是导出的Relay会因为合并优化等过程导致TIDL导出过程报错。这时候需要使用deny_list针对BN和GEMM的合并不去进行优化。执行完成后既可以看到上图中正常完成导出结果。

![](/media/202405/2024-05-17_144815_0459790.30351513199416447.png)

![](/media/202405/2024-05-17_144815_1414900.3571770005942769.png)

# 2.2. TVM导出是否支持多Batch的方式

从实际执行时可以发现，TVM默认导出不支持多Batch的方式。

![](/media/202405/2024-05-17_144832_2001180.5251476457503647.png)

![](/media/202405/2024-05-17_144839_6313640.06162882735167152.png)

但是查看源码后可以发现，可以通过配置环境变量的方式适配多batch

![](/media/202405/2024-05-17_144852_4642190.4968162648487374.png)

![](/media/202405/2024-05-17_144852_5679500.9890518908351532.png)

配置完成后Relay转换阶段不再有相关batch不支持的报错提示，模型能够顺利导出。

![](/media/202405/2024-05-17_144910_3902040.18318805083206946.png)

但是如果使用data calibration，还有可能因为网络参数配置的关系导致不支持。

![](/media/202405/2024-05-17_144917_6514520.6193453716290381.png)

但是值得注意的是，在0901（不包含0901）版本之前，TIDL不支持多个C7X当作一个使用。所以即使如下图所示，模型本身能够按照多batch的方式导出，该模型仍只能porting到一个target上去运行，从执行效率的角度来说无法做到效率最大化。

![](/media/202405/2024-05-17_145017_3056120.6451563922872868.png)

# 2.3. 对于一些不支持层如何处理

* 如果是TIDL不支持但是TVM支持并能够识别的层，TVM能够生成在arm上或者C7x上执行的代码；
* 如果是TIDL不支持，TVM也不支持的曾，需要额外在TVM中去进行实现，并且需要考虑性能问题

关于如何在TVM中创建一个Operator 可以参见TVM官网

![](/media/202405/2024-05-17_145053_4363740.642125331227796.png)

# Annexe
* https://tvm.apache.org/docs/tutorial/introduction.html#an-overview-of-tvm-and-model-optimization

* https://mp.weixin.qq.com/s?__biz=MzUzMzY1NTkwOQ==&mid=2247516186&idx=1&sn=a48f507414d76f43c57318dadfb24ff9&chksm=faa27810cdd5f106ab1f049abff5f0645459d452809ed0898dba618996301a5f4e09cd7a1ca1&mpshare=1&scene=1&srcid=0212Kbth4oQC89Ohbuh4Igu1&sharer_shareinfo=720fab24388896cad21520c9f4e344d7&sharer_shareinfo_first=cfa65a4029ab1e6f37ce2478c150c66a#rd

* https://tvm.apache.org/docs/dev/how_to/relay_add_op.html?highlight=scanopattrs

* https://e2e.ti.com/support/processors-group/processors/f/processors-forum/1322956/missing-inputs-in-the-network-and-cannot-be-topologically-sorted