#bert.inf.f16.pt.mb64
 --reset --allow-enum-tags-only=0 --sdt=f16:f16 --ddt=f16 --alg=add --stag=abc:abc 64x384x1024:64x384x1024n"bert.inf.f16.pt.mb64*2"
 --reset --allow-enum-tags-only=0 --sdt=f16:f16 --ddt=f16 --alg=add --stag=abcd:abcd 64x16x384x384:64x1x1x384n"bert.inf.f16.pt.mb64*24"
#bert.tr.bf16.pt.mb4
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 4x512x1024:1x512x1024n"bert.tr.bf16.pt.mb4*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 4x512x1024:4x512x1024n"bert.tr.bf16.pt.mb4*1"
 --reset --allow-enum-tags-only=0 --sdt=bf16:bf16 --ddt=bf16 --alg=add --stag=abcd:abcd 4x16x512x512:4x1x1x512n"bert.tr.bf16.pt.mb4*24"
 --reset --allow-enum-tags-only=0 --sdt=bf16:bf16 --ddt=bf16 --alg=add --stag=abc:abc 4x512x1024:4x512x1024n"bert.tr.bf16.pt.mb4*144"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 30522:30522n"bert.tr.bf16.pt.mb4*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 1024:1024n"bert.tr.bf16.pt.mb4*221"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 1024x1024:1024x1024n"bert.tr.bf16.pt.mb4*97"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 1024x4096:1024x4096n"bert.tr.bf16.pt.mb4*24"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 4096:4096n"bert.tr.bf16.pt.mb4*24"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 4096x1024:4096x1024n"bert.tr.bf16.pt.mb4*24"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 2x1024:2x1024n"bert.tr.bf16.pt.mb4*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 512x1024:512x1024n"bert.tr.bf16.pt.mb4*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 30522x1024:30522x1024n"bert.tr.bf16.pt.mb4*2"
#resnet-50.tr.bf16.pt.mb128
 --reset --allow-enum-tags-only=0 --sdt=bf16:bf16 --ddt=bf16 --alg=add --stag=ABcd32a16b:ABcd32a16b 128x256x56x56:128x256x56x56n"resnet-50.tr.bf16.pt.mb128*6"
 --reset --allow-enum-tags-only=0 --sdt=bf16:bf16 --ddt=bf16 --alg=add --stag=ABcd32a16b:ABcd32a16b 128x512x28x28:128x512x28x28n"resnet-50.tr.bf16.pt.mb128*8"
 --reset --allow-enum-tags-only=0 --sdt=bf16:bf16 --ddt=bf16 --alg=add --stag=ABcd32a16b:ABcd32a16b 128x1024x14x14:128x1024x14x14n"resnet-50.tr.bf16.pt.mb128*12"
 --reset --allow-enum-tags-only=0 --sdt=bf16:bf16 --ddt=bf16 --alg=add --stag=ABcd32a16b:ABcd32a16b 128x2048x7x7:128x2048x7x7n"resnet-50.tr.bf16.pt.mb128*5"
 --reset --allow-enum-tags-only=0 --sdt=bf16:bf16 --ddt=bf16 --alg=add --stag=ABcd32a16b:ABcd32a16b 128x64x56x56:128x64x56x56n"resnet-50.tr.bf16.pt.mb128*1"
#cosmictagger.tr.f32.pt.mb4
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 4x48x20x32:4x48x20x32n"cosmictagger.tr.f32.pt.mb4*30"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 4x40x40x64:4x40x40x64n"cosmictagger.tr.f32.pt.mb4*30"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 4x32x80x128:4x32x80x128n"cosmictagger.tr.f32.pt.mb4*30"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 4x24x160x256:4x24x160x256n"cosmictagger.tr.f32.pt.mb4*30"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 4x16x320x512:4x16x320x512n"cosmictagger.tr.f32.pt.mb4*30"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 4x8x640x1024:4x8x640x1024n"cosmictagger.tr.f32.pt.mb4*30"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 3x8x1x1:3x8x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 3:3n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 8:8n"cosmictagger.tr.f32.pt.mb4*252"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 8x8x3x3:8x8x3x3n"cosmictagger.tr.f32.pt.mb4*56"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 8x16x1x1:8x16x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 16:16n"cosmictagger.tr.f32.pt.mb4*252"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 16x16x3x3:16x16x3x3n"cosmictagger.tr.f32.pt.mb4*56"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 16x24x1x1:16x24x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 24:24n"cosmictagger.tr.f32.pt.mb4*252"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 24x24x3x3:24x24x3x3n"cosmictagger.tr.f32.pt.mb4*56"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 24x32x1x1:24x32x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 32:32n"cosmictagger.tr.f32.pt.mb4*252"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 32x32x3x3:32x32x3x3n"cosmictagger.tr.f32.pt.mb4*56"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 32x40x1x1:32x40x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 40:40n"cosmictagger.tr.f32.pt.mb4*252"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 40x40x3x3:40x40x3x3n"cosmictagger.tr.f32.pt.mb4*56"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 40x48x1x1:40x48x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 48:48n"cosmictagger.tr.f32.pt.mb4*252"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 48x48x3x3:48x48x3x3n"cosmictagger.tr.f32.pt.mb4*56"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 48x56x1x1:48x56x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 56:56n"cosmictagger.tr.f32.pt.mb4*42"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 56x48x1x1:56x48x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 48x40x1x1:48x40x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 40x32x1x1:40x32x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 32x24x1x1:32x24x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 24x16x1x1:24x16x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 16x8x1x1:16x8x1x1n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 8x1x5x5:8x1x5x5n"cosmictagger.tr.f32.pt.mb4*14"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 168:168n"cosmictagger.tr.f32.pt.mb4*12"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 168x256x1x1:168x256x1x1n"cosmictagger.tr.f32.pt.mb4*4"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 256:256n"cosmictagger.tr.f32.pt.mb4*72"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 256x256x5x5:256x256x5x5n"cosmictagger.tr.f32.pt.mb4*20"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 256x168x1x1:256x168x1x1n"cosmictagger.tr.f32.pt.mb4*4"
#candleuno.tr.f32.tf.mb128
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=ab:ab 128x1000:1x1n"candleuno.tr.f32.tf.mb128*22"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=ab:ab 128x1000:128x1000n"candleuno.tr.f32.tf.mb128*22"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=sub --stag=ab:ab 128x1:128x1n"candleuno.tr.f32.tf.mb128*2"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=a:a 128:1n"candleuno.tr.f32.tf.mb128*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=sub --stag=a:a 1:1n"candleuno.tr.f32.tf.mb128*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=a:a 1:1n"candleuno.tr.f32.tf.mb128*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=ab:ab 128x1:1x1n"candleuno.tr.f32.tf.mb128*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=ab:ab 128x1:128x1n"candleuno.tr.f32.tf.mb128*1"
#adorym.tr.f32.pt.mb1
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 1x72x72:1x72x72n"adorym.tr.f32.pt.mb1*1024"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 256x256x256x2:256x256x256x2n"adorym.tr.f32.pt.mb1*2"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=div --stag=abcd:abcd 256x256x256x2:256x256x256x2n"adorym.tr.f32.pt.mb1*1"
#pointnet.tr.f32.pt.mb16
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 16x64x15000:16x64x15000n"pointnet.tr.f32.pt.mb16*16"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 16x5:16x5n"pointnet.tr.f32.pt.mb16*16"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=div --stag=ab:ab 16x5:16x5n"pointnet.tr.f32.pt.mb16*16"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 5:5n"pointnet.tr.f32.pt.mb16*15"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 5x128x1:5x128x1n"pointnet.tr.f32.pt.mb16*15"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 128:128n"pointnet.tr.f32.pt.mb16*60"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 128x256x1:128x256x1n"pointnet.tr.f32.pt.mb16*15"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 256:256n"pointnet.tr.f32.pt.mb16*45"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 256x512x1:256x512x1n"pointnet.tr.f32.pt.mb16*15"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 512:512n"pointnet.tr.f32.pt.mb16*45"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 512x1088x1:512x1088x1n"pointnet.tr.f32.pt.mb16*15"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 1024:1024n"pointnet.tr.f32.pt.mb16*45"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 1024x128x1:1024x128x1n"pointnet.tr.f32.pt.mb16*45"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 128x64x1:128x64x1n"pointnet.tr.f32.pt.mb16*45"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 64:64n"pointnet.tr.f32.pt.mb16*75"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 64x64x1:64x64x1n"pointnet.tr.f32.pt.mb16*45"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 4096:4096n"pointnet.tr.f32.pt.mb16*15"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 4096x256:4096x256n"pointnet.tr.f32.pt.mb16*15"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 256x512:256x512n"pointnet.tr.f32.pt.mb16*30"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 512x1024:512x1024n"pointnet.tr.f32.pt.mb16*30"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abc:abc 64x7x1:64x7x1n"pointnet.tr.f32.pt.mb16*30"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=a:a 49:49n"pointnet.tr.f32.pt.mb16*15"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 49x256:49x256n"pointnet.tr.f32.pt.mb16*15"
#mma.tr.f32.tf.mb32
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=ab:ab 128x1:1x1n"mma.tr.f32.tf.mb32*3"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=abcd:abcd 16x1x128x256:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=abcd:abcd 32x1x256x256:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=abcd:abcd 16x1x1x64:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=abcd:abcd 4x1x256x128:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=abcd:abcd 16x1x64x128:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=abcd:abcd 4x1x128x128:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=ab:ab 1856x128:1x1n"mma.tr.f32.tf.mb32*3"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=ab:ab 128x128:1x1n"mma.tr.f32.tf.mb32*3"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=abcd:abcd 2x1x128x64:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 128x1:1x1n"mma.tr.f32.tf.mb32*3"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 16x1x128x256:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 32x1x256x256:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 16x1x1x64:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 4x1x256x128:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 16x1x64x128:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 4x1x128x128:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 1856x128:1x1n"mma.tr.f32.tf.mb32*3"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=ab:ab 128x128:1x1n"mma.tr.f32.tf.mb32*3"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=add --stag=abcd:abcd 2x1x128x64:1x1x1x1n"mma.tr.f32.tf.mb32*1"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=sub --stag=ab:ab 32x3:32x3n"mma.tr.f32.tf.mb32*10"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=ab:ab 32x3:1x1n"mma.tr.f32.tf.mb32*10"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=ab:ab 32x3:32x3n"mma.tr.f32.tf.mb32*10"
 --reset --allow-enum-tags-only=0 --sdt=f32:f32 --ddt=f32 --alg=mul --stag=a:a 1:1n"mma.tr.f32.tf.mb32*20"
