ReduceSum算子的输入数据类型（input_data_type）为“DT_FLOAT16”，block_dim字段的值为“1”，说明该算子未开启多核并行计算。

原因分析

针对昇腾AI处理器的ReduceSum算子，若输入数据类型为float16，由于硬件限制，某些场景下会无法开启多核计算。

解决方案

ReduceSum算子输入数据是float16的情况可能有如下两种场景：

场景一：

网络调测时未开启混合精度，ReduceSum算子的输入数据本身就是float16类型，此种情况下，若ReduceSum算子的性能较差，可尝试在ReduceSum算子前插入一个Cast算子，将算子的输入数据类型从float16转换为float32。

ReduceSum算子在输入类型为float32的场景下，会使能多核并发计算，从而达到提升该算子性能的效果。

场景二：

网络调测时开启了混合精度，将ReduceSum算子的输入数据类型从float32转换成了float16，此种情况下，可将ReduceSum算子加入混合精度黑名单，这样网络调测时ReduceSum算子就不会被转换成float16类型，从而避免该算子性能的劣化。

将ReduceSum算子加入混合精度黑名单的方法如下：

1）修改网络脚本，通过modify_mixlist参数指定需要修改的混合精度算子黑名单，修改示例如下：

# Estimator模式修改方法

npu_config=NPURunConfig(

...

precision_mode="allow_mix_precision",

modify_mixlist="/home/test/ops_info.json"

)

# sess.run模式修改方法

config = tf.ConfigProto()

custom_op = config.graph_options.rewrite_options.custom_optimizers.add()

custom_op.name = "NpuOptimizer"

custom_op.parameter_map["use_off_line"].b = True

custom_op.parameter_map["precision_mode"].s = tf.compat.as_bytes("allow_mix_precision")

custom_op.parameter_map["modify_mixlist"].s = tf.compat.as_bytes("/home/test/ops_info.json")

2）在ops_info.json文件中进行算子黑名单的配置，配置示例如下：

{

"black-list": {

"to-add": ["ReduceSumD"]

}

}

补充说明：仅在ReduceSum算子性能较差时，且符合本案例中的问题现象时，可尝试使用此方法进行性能提升。

05 更多介绍

[1]昇腾文档中心：https://www.hiascend.com/zh/document

[2]昇腾社区在线课程：https://www.hiascend.com/zh/edu/courses

[3]昇腾论坛：https://www.hiascend.com/forum

点击关注，第一时间了解华为云新鲜技术~

json 解决方案在线课程性能提升 doc rap url

昇腾迁移丨4个TensorFlow模型训练案例解读

原因分析

解决方案

05 更多介绍