Store float and byte constant colors.

This makes loading them much simpler in 8-bit mode. Change-Id: I35ff34ebd0b93425c4e39e055bf4ade8cf8561e1 Reviewed-on: https://skia-review.googlesource.com/30621 Reviewed-by: Florin Malita <fmalita@chromium.org> Commit-Queue: Mike Klein <mtklein@chromium.org>
author: Mike Klein <mtklein@chromium.org> 2017-08-03 11:24:13 -0400
committer: Skia Commit-Bot <skia-commit-bot@chromium.org> 2017-08-03 15:47:26 +0000
commit: 1a2e3e1e77bf7d7da31e8403d88b743f74669c3c (patch)
tree: 0230bf6d958d520641c7d549496d1a1e28fdd5cc /src/jumper/SkJumper_generated.S
parent: 16776dfb4b307c70d08e316f2ecf2a53953f2e0d (diff)
1 files changed, 370 insertions, 427 deletions
diff --git a/src/jumper/SkJumper_generated.S b/src/jumper/SkJumper_generated.S
index ce01a81595..af5a8b1ff3 100644
--- a/src/jumper/SkJumper_generated.S
+++ b/src/jumper/SkJumper_generated.S
@@ -50443,23 +50443,7 @@ HIDDEN _sk_uniform_color_hsw_8bit
 FUNCTION(_sk_uniform_color_hsw_8bit)
 _sk_uniform_color_hsw_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
-  .byte  197,250,16,5,122,18,0,0             // vmovss        0x127a(%rip),%xmm0        # 132c <_sk_xor__hsw_8bit+0xbd>
-  .byte  197,250,89,16                       // vmulss        (%rax),%xmm0,%xmm2
-  .byte  196,225,250,44,202                  // vcvttss2si    %xmm2,%rcx
-  .byte  197,250,89,80,4                     // vmulss        0x4(%rax),%xmm0,%xmm2
-  .byte  196,225,250,44,210                  // vcvttss2si    %xmm2,%rdx
-  .byte  193,226,8                           // shl           $0x8,%edx
-  .byte  9,202                               // or            %ecx,%edx
-  .byte  197,250,89,80,8                     // vmulss        0x8(%rax),%xmm0,%xmm2
-  .byte  196,225,250,44,202                  // vcvttss2si    %xmm2,%rcx
-  .byte  193,225,16                          // shl           $0x10,%ecx
-  .byte  197,250,89,64,12                    // vmulss        0xc(%rax),%xmm0,%xmm0
-  .byte  196,225,250,44,192                  // vcvttss2si    %xmm0,%rax
-  .byte  193,224,24                          // shl           $0x18,%eax
-  .byte  9,200                               // or            %ecx,%eax
-  .byte  9,208                               // or            %edx,%eax
-  .byte  197,249,110,192                     // vmovd         %eax,%xmm0
-  .byte  196,226,125,88,192                  // vpbroadcastd  %xmm0,%ymm0
+  .byte  196,226,125,24,64,16                // vbroadcastss  0x10(%rax),%ymm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
 
@@ -50468,7 +50452,7 @@ HIDDEN _sk_set_rgb_hsw_8bit
 FUNCTION(_sk_set_rgb_hsw_8bit)
 _sk_set_rgb_hsw_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
-  .byte  197,250,16,21,49,18,0,0             // vmovss        0x1231(%rip),%xmm2        # 1330 <_sk_xor__hsw_8bit+0xc1>
+  .byte  197,250,16,21,42,18,0,0             // vmovss        0x122a(%rip),%xmm2        # 12e8 <_sk_xor__hsw_8bit+0xbd>
   .byte  197,234,89,24                       // vmulss        (%rax),%xmm2,%xmm3
   .byte  196,225,250,44,203                  // vcvttss2si    %xmm3,%rcx
   .byte  197,234,89,88,4                     // vmulss        0x4(%rax),%xmm2,%xmm3
@@ -50481,7 +50465,7 @@ _sk_set_rgb_hsw_8bit:
   .byte  9,208                               // or            %edx,%eax
   .byte  197,249,110,208                     // vmovd         %eax,%xmm2
   .byte  196,226,125,88,210                  // vpbroadcastd  %xmm2,%ymm2
-  .byte  197,253,219,5,41,18,0,0             // vpand         0x1229(%rip),%ymm0,%ymm0        # 1360 <_sk_xor__hsw_8bit+0xf1>
+  .byte  197,253,219,5,42,18,0,0             // vpand         0x122a(%rip),%ymm0,%ymm0        # 1320 <_sk_xor__hsw_8bit+0xf5>
   .byte  197,237,235,192                     // vpor          %ymm0,%ymm2,%ymm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -50490,8 +50474,8 @@ HIDDEN _sk_premul_hsw_8bit
 .globl _sk_premul_hsw_8bit
 FUNCTION(_sk_premul_hsw_8bit)
 _sk_premul_hsw_8bit:
-  .byte  196,226,125,0,21,56,18,0,0          // vpshufb       0x1238(%rip),%ymm0,%ymm2        # 1380 <_sk_xor__hsw_8bit+0x111>
-  .byte  197,237,235,21,80,18,0,0            // vpor          0x1250(%rip),%ymm2,%ymm2        # 13a0 <_sk_xor__hsw_8bit+0x131>
+  .byte  196,226,125,0,21,57,18,0,0          // vpshufb       0x1239(%rip),%ymm0,%ymm2        # 1340 <_sk_xor__hsw_8bit+0x115>
+  .byte  197,237,235,21,81,18,0,0            // vpor          0x1251(%rip),%ymm2,%ymm2        # 1360 <_sk_xor__hsw_8bit+0x135>
   .byte  196,226,125,48,216                  // vpmovzxbw     %xmm0,%ymm3
   .byte  196,227,125,57,192,1                // vextracti128  $0x1,%ymm0,%xmm0
   .byte  196,226,125,48,192                  // vpmovzxbw     %xmm0,%ymm0
@@ -50514,7 +50498,7 @@ HIDDEN _sk_swap_rb_hsw_8bit
 .globl _sk_swap_rb_hsw_8bit
 FUNCTION(_sk_swap_rb_hsw_8bit)
 _sk_swap_rb_hsw_8bit:
-  .byte  196,226,125,0,5,25,18,0,0           // vpshufb       0x1219(%rip),%ymm0,%ymm0        # 13c0 <_sk_xor__hsw_8bit+0x151>
+  .byte  196,226,125,0,5,26,18,0,0           // vpshufb       0x121a(%rip),%ymm0,%ymm0        # 1380 <_sk_xor__hsw_8bit+0x155>
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
 
@@ -50532,7 +50516,7 @@ _sk_load_8888_hsw_8bit:
   .byte  72,3,8                              // add           (%rax),%rcx
   .byte  74,141,4,137                        // lea           (%rcx,%r9,4),%rax
   .byte  77,133,192                          // test          %r8,%r8
-  .byte  117,8                               // jne           1d8 <_sk_load_8888_hsw_8bit+0x2d>
+  .byte  117,8                               // jne           197 <_sk_load_8888_hsw_8bit+0x2d>
   .byte  197,254,111,0                       // vmovdqu       (%rax),%ymm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -50544,7 +50528,7 @@ _sk_load_8888_hsw_8bit:
   .byte  196,225,249,110,194                 // vmovq         %rdx,%xmm0
   .byte  196,226,125,33,192                  // vpmovsxbd     %xmm0,%ymm0
   .byte  196,226,125,140,0                   // vpmaskmovd    (%rax),%ymm0,%ymm0
-  .byte  235,214                             // jmp           1d4 <_sk_load_8888_hsw_8bit+0x29>
+  .byte  235,214                             // jmp           193 <_sk_load_8888_hsw_8bit+0x29>
 
 HIDDEN _sk_load_8888_dst_hsw_8bit
 .globl _sk_load_8888_dst_hsw_8bit
@@ -50560,7 +50544,7 @@ _sk_load_8888_dst_hsw_8bit:
   .byte  72,3,8                              // add           (%rax),%rcx
   .byte  74,141,4,137                        // lea           (%rcx,%r9,4),%rax
   .byte  77,133,192                          // test          %r8,%r8
-  .byte  117,8                               // jne           22b <_sk_load_8888_dst_hsw_8bit+0x2d>
+  .byte  117,8                               // jne           1ea <_sk_load_8888_dst_hsw_8bit+0x2d>
   .byte  197,254,111,8                       // vmovdqu       (%rax),%ymm1
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -50572,7 +50556,7 @@ _sk_load_8888_dst_hsw_8bit:
   .byte  196,225,249,110,202                 // vmovq         %rdx,%xmm1
   .byte  196,226,125,33,201                  // vpmovsxbd     %xmm1,%ymm1
   .byte  196,226,117,140,8                   // vpmaskmovd    (%rax),%ymm1,%ymm1
-  .byte  235,214                             // jmp           227 <_sk_load_8888_dst_hsw_8bit+0x29>
+  .byte  235,214                             // jmp           1e6 <_sk_load_8888_dst_hsw_8bit+0x29>
 
 HIDDEN _sk_store_8888_hsw_8bit
 .globl _sk_store_8888_hsw_8bit
@@ -50588,7 +50572,7 @@ _sk_store_8888_hsw_8bit:
   .byte  72,3,8                              // add           (%rax),%rcx
   .byte  74,141,4,137                        // lea           (%rcx,%r9,4),%rax
   .byte  77,133,192                          // test          %r8,%r8
-  .byte  117,8                               // jne           27e <_sk_store_8888_hsw_8bit+0x2d>
+  .byte  117,8                               // jne           23d <_sk_store_8888_hsw_8bit+0x2d>
   .byte  197,254,127,0                       // vmovdqu       %ymm0,(%rax)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -50600,7 +50584,7 @@ _sk_store_8888_hsw_8bit:
   .byte  196,225,249,110,210                 // vmovq         %rdx,%xmm2
   .byte  196,226,125,33,210                  // vpmovsxbd     %xmm2,%ymm2
   .byte  196,226,109,142,0                   // vpmaskmovd    %ymm0,%ymm2,(%rax)
-  .byte  235,214                             // jmp           27a <_sk_store_8888_hsw_8bit+0x29>
+  .byte  235,214                             // jmp           239 <_sk_store_8888_hsw_8bit+0x29>
 
 HIDDEN _sk_load_bgra_hsw_8bit
 .globl _sk_load_bgra_hsw_8bit
@@ -50616,9 +50600,9 @@ _sk_load_bgra_hsw_8bit:
   .byte  72,3,8                              // add           (%rax),%rcx
   .byte  74,141,4,137                        // lea           (%rcx,%r9,4),%rax
   .byte  77,133,192                          // test          %r8,%r8
-  .byte  117,17                              // jne           2da <_sk_load_bgra_hsw_8bit+0x36>
+  .byte  117,17                              // jne           299 <_sk_load_bgra_hsw_8bit+0x36>
   .byte  197,254,111,0                       // vmovdqu       (%rax),%ymm0
-  .byte  196,226,125,0,5,10,17,0,0           // vpshufb       0x110a(%rip),%ymm0,%ymm0        # 13e0 <_sk_xor__hsw_8bit+0x171>
+  .byte  196,226,125,0,5,11,17,0,0           // vpshufb       0x110b(%rip),%ymm0,%ymm0        # 13a0 <_sk_xor__hsw_8bit+0x175>
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  185,8,0,0,0                         // mov           $0x8,%ecx
@@ -50629,7 +50613,7 @@ _sk_load_bgra_hsw_8bit:
   .byte  196,225,249,110,194                 // vmovq         %rdx,%xmm0
   .byte  196,226,125,33,192                  // vpmovsxbd     %xmm0,%ymm0
   .byte  196,226,125,140,0                   // vpmaskmovd    (%rax),%ymm0,%ymm0
-  .byte  235,205                             // jmp           2cd <_sk_load_bgra_hsw_8bit+0x29>
+  .byte  235,205                             // jmp           28c <_sk_load_bgra_hsw_8bit+0x29>
 
 HIDDEN _sk_load_bgra_dst_hsw_8bit
 .globl _sk_load_bgra_dst_hsw_8bit
@@ -50645,9 +50629,9 @@ _sk_load_bgra_dst_hsw_8bit:
   .byte  72,3,8                              // add           (%rax),%rcx
   .byte  74,141,4,137                        // lea           (%rcx,%r9,4),%rax
   .byte  77,133,192                          // test          %r8,%r8
-  .byte  117,17                              // jne           336 <_sk_load_bgra_dst_hsw_8bit+0x36>
+  .byte  117,17                              // jne           2f5 <_sk_load_bgra_dst_hsw_8bit+0x36>
   .byte  197,254,111,8                       // vmovdqu       (%rax),%ymm1
-  .byte  196,226,117,0,13,206,16,0,0         // vpshufb       0x10ce(%rip),%ymm1,%ymm1        # 1400 <_sk_xor__hsw_8bit+0x191>
+  .byte  196,226,117,0,13,207,16,0,0         // vpshufb       0x10cf(%rip),%ymm1,%ymm1        # 13c0 <_sk_xor__hsw_8bit+0x195>
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  185,8,0,0,0                         // mov           $0x8,%ecx
@@ -50658,7 +50642,7 @@ _sk_load_bgra_dst_hsw_8bit:
   .byte  196,225,249,110,202                 // vmovq         %rdx,%xmm1
   .byte  196,226,125,33,201                  // vpmovsxbd     %xmm1,%ymm1
   .byte  196,226,117,140,8                   // vpmaskmovd    (%rax),%ymm1,%ymm1
-  .byte  235,205                             // jmp           329 <_sk_load_bgra_dst_hsw_8bit+0x29>
+  .byte  235,205                             // jmp           2e8 <_sk_load_bgra_dst_hsw_8bit+0x29>
 
 HIDDEN _sk_store_bgra_hsw_8bit
 .globl _sk_store_bgra_hsw_8bit
@@ -50673,9 +50657,9 @@ _sk_store_bgra_hsw_8bit:
   .byte  72,193,225,2                        // shl           $0x2,%rcx
   .byte  72,3,8                              // add           (%rax),%rcx
   .byte  74,141,4,137                        // lea           (%rcx,%r9,4),%rax
-  .byte  196,226,125,0,21,155,16,0,0         // vpshufb       0x109b(%rip),%ymm0,%ymm2        # 1420 <_sk_xor__hsw_8bit+0x1b1>
+  .byte  196,226,125,0,21,156,16,0,0         // vpshufb       0x109c(%rip),%ymm0,%ymm2        # 13e0 <_sk_xor__hsw_8bit+0x1b5>
   .byte  77,133,192                          // test          %r8,%r8
-  .byte  117,8                               // jne           392 <_sk_store_bgra_hsw_8bit+0x36>
+  .byte  117,8                               // jne           351 <_sk_store_bgra_hsw_8bit+0x36>
   .byte  197,254,127,16                      // vmovdqu       %ymm2,(%rax)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -50687,7 +50671,7 @@ _sk_store_bgra_hsw_8bit:
   .byte  196,225,249,110,218                 // vmovq         %rdx,%xmm3
   .byte  196,226,125,33,219                  // vpmovsxbd     %xmm3,%ymm3
   .byte  196,226,101,142,16                  // vpmaskmovd    %ymm2,%ymm3,(%rax)
-  .byte  235,214                             // jmp           38e <_sk_store_bgra_hsw_8bit+0x32>
+  .byte  235,214                             // jmp           34d <_sk_store_bgra_hsw_8bit+0x32>
 
 HIDDEN _sk_load_a8_hsw_8bit
 .globl _sk_load_a8_hsw_8bit
@@ -50701,9 +50685,9 @@ _sk_load_a8_hsw_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,28                              // jne           3f1 <_sk_load_a8_hsw_8bit+0x39>
+  .byte  117,28                              // jne           3b0 <_sk_load_a8_hsw_8bit+0x39>
   .byte  196,162,121,48,4,2                  // vpmovzxbw     (%rdx,%r8,1),%xmm0
-  .byte  197,249,219,5,93,18,0,0             // vpand         0x125d(%rip),%xmm0,%xmm0        # 1640 <_sk_xor__hsw_8bit+0x3d1>
+  .byte  197,249,219,5,94,18,0,0             // vpand         0x125e(%rip),%xmm0,%xmm0        # 1600 <_sk_xor__hsw_8bit+0x3d5>
   .byte  196,226,125,51,192                  // vpmovzxwd     %xmm0,%ymm0
   .byte  197,253,114,240,24                  // vpslld        $0x18,%ymm0,%ymm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
@@ -50712,15 +50696,15 @@ _sk_load_a8_hsw_8bit:
   .byte  197,249,239,192                     // vpxor         %xmm0,%xmm0,%xmm0
   .byte  65,254,201                          // dec           %r9b
   .byte  65,128,249,6                        // cmp           $0x6,%r9b
-  .byte  119,217                             // ja            3db <_sk_load_a8_hsw_8bit+0x23>
+  .byte  119,217                             // ja            39a <_sk_load_a8_hsw_8bit+0x23>
   .byte  65,15,182,193                       // movzbl        %r9b,%eax
-  .byte  72,141,13,119,0,0,0                 // lea           0x77(%rip),%rcx        # 484 <_sk_load_a8_hsw_8bit+0xcc>
+  .byte  72,141,13,116,0,0,0                 // lea           0x74(%rip),%rcx        # 440 <_sk_load_a8_hsw_8bit+0xc9>
   .byte  72,99,4,129                         // movslq        (%rcx,%rax,4),%rax
   .byte  72,1,200                            // add           %rcx,%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  197,249,110,192                     // vmovd         %eax,%xmm0
-  .byte  235,186                             // jmp           3db <_sk_load_a8_hsw_8bit+0x23>
+  .byte  235,186                             // jmp           39a <_sk_load_a8_hsw_8bit+0x23>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  197,249,239,192                     // vpxor         %xmm0,%xmm0,%xmm0
   .byte  197,249,196,192,2                   // vpinsrw       $0x2,%eax,%xmm0,%xmm0
@@ -50728,7 +50712,7 @@ _sk_load_a8_hsw_8bit:
   .byte  197,249,110,208                     // vmovd         %eax,%xmm2
   .byte  196,226,121,48,210                  // vpmovzxbw     %xmm2,%xmm2
   .byte  196,227,121,2,194,1                 // vpblendd      $0x1,%xmm2,%xmm0,%xmm0
-  .byte  235,149                             // jmp           3db <_sk_load_a8_hsw_8bit+0x23>
+  .byte  235,149                             // jmp           39a <_sk_load_a8_hsw_8bit+0x23>
   .byte  66,15,182,68,2,6                    // movzbl        0x6(%rdx,%r8,1),%eax
   .byte  197,249,239,192                     // vpxor         %xmm0,%xmm0,%xmm0
   .byte  197,249,196,192,6                   // vpinsrw       $0x6,%eax,%xmm0,%xmm0
@@ -50739,23 +50723,24 @@ _sk_load_a8_hsw_8bit:
   .byte  196,161,121,110,20,2                // vmovd         (%rdx,%r8,1),%xmm2
   .byte  196,226,121,48,210                  // vpmovzxbw     %xmm2,%xmm2
   .byte  196,227,105,2,192,12                // vpblendd      $0xc,%xmm0,%xmm2,%xmm0
-  .byte  233,90,255,255,255                  // jmpq          3db <_sk_load_a8_hsw_8bit+0x23>
-  .byte  15,31,0                             // nopl          (%rax)
-  .byte  146                                 // xchg          %eax,%edx
+  .byte  233,90,255,255,255                  // jmpq          39a <_sk_load_a8_hsw_8bit+0x23>
+  .byte  149                                 // xchg          %eax,%ebp
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
-  .byte  255,172,255,255,255,157,255         // ljmp          *-0x620001(%rdi,%rdi,8)
+  .byte  255,175,255,255,255,160             // ljmp          *-0x5f000001(%rdi)
   .byte  255                                 // (bad)
-  .byte  255,231                             // jmpq          *%rdi
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
+  .byte  234                                 // (bad)
   .byte  255                                 // (bad)
-  .byte  220,255                             // fdivr         %st,%st(7)
   .byte  255                                 // (bad)
-  .byte  255,209                             // callq         *%rcx
   .byte  255                                 // (bad)
+  .byte  223,255                             // (bad)
   .byte  255                                 // (bad)
-  .byte  255,194                             // inc           %edx
+  .byte  255,212                             // callq         *%rsp
+  .byte  255                                 // (bad)
+  .byte  255                                 // (bad)
+  .byte  255,197                             // inc           %ebp
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
   .byte  255                                 // .byte         0xff
@@ -50772,9 +50757,9 @@ _sk_load_a8_dst_hsw_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,28                              // jne           4d9 <_sk_load_a8_dst_hsw_8bit+0x39>
+  .byte  117,28                              // jne           495 <_sk_load_a8_dst_hsw_8bit+0x39>
   .byte  196,162,121,48,12,2                 // vpmovzxbw     (%rdx,%r8,1),%xmm1
-  .byte  197,241,219,13,133,17,0,0           // vpand         0x1185(%rip),%xmm1,%xmm1        # 1650 <_sk_xor__hsw_8bit+0x3e1>
+  .byte  197,241,219,13,137,17,0,0           // vpand         0x1189(%rip),%xmm1,%xmm1        # 1610 <_sk_xor__hsw_8bit+0x3e5>
   .byte  196,226,125,51,201                  // vpmovzxwd     %xmm1,%ymm1
   .byte  197,245,114,241,24                  // vpslld        $0x18,%ymm1,%ymm1
   .byte  72,173                              // lods          %ds:(%rsi),%rax
@@ -50783,15 +50768,15 @@ _sk_load_a8_dst_hsw_8bit:
   .byte  197,241,239,201                     // vpxor         %xmm1,%xmm1,%xmm1
   .byte  65,254,201                          // dec           %r9b
   .byte  65,128,249,6                        // cmp           $0x6,%r9b
-  .byte  119,217                             // ja            4c3 <_sk_load_a8_dst_hsw_8bit+0x23>
+  .byte  119,217                             // ja            47f <_sk_load_a8_dst_hsw_8bit+0x23>
   .byte  65,15,182,193                       // movzbl        %r9b,%eax
-  .byte  72,141,13,119,0,0,0                 // lea           0x77(%rip),%rcx        # 56c <_sk_load_a8_dst_hsw_8bit+0xcc>
+  .byte  72,141,13,119,0,0,0                 // lea           0x77(%rip),%rcx        # 528 <_sk_load_a8_dst_hsw_8bit+0xcc>
   .byte  72,99,4,129                         // movslq        (%rcx,%rax,4),%rax
   .byte  72,1,200                            // add           %rcx,%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  197,249,110,200                     // vmovd         %eax,%xmm1
-  .byte  235,186                             // jmp           4c3 <_sk_load_a8_dst_hsw_8bit+0x23>
+  .byte  235,186                             // jmp           47f <_sk_load_a8_dst_hsw_8bit+0x23>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  197,241,239,201                     // vpxor         %xmm1,%xmm1,%xmm1
   .byte  197,241,196,200,2                   // vpinsrw       $0x2,%eax,%xmm1,%xmm1
@@ -50799,7 +50784,7 @@ _sk_load_a8_dst_hsw_8bit:
   .byte  197,249,110,208                     // vmovd         %eax,%xmm2
   .byte  196,226,121,48,210                  // vpmovzxbw     %xmm2,%xmm2
   .byte  196,227,113,2,202,1                 // vpblendd      $0x1,%xmm2,%xmm1,%xmm1
-  .byte  235,149                             // jmp           4c3 <_sk_load_a8_dst_hsw_8bit+0x23>
+  .byte  235,149                             // jmp           47f <_sk_load_a8_dst_hsw_8bit+0x23>
   .byte  66,15,182,68,2,6                    // movzbl        0x6(%rdx,%r8,1),%eax
   .byte  197,241,239,201                     // vpxor         %xmm1,%xmm1,%xmm1
   .byte  197,241,196,200,6                   // vpinsrw       $0x6,%eax,%xmm1,%xmm1
@@ -50810,7 +50795,7 @@ _sk_load_a8_dst_hsw_8bit:
   .byte  196,161,121,110,20,2                // vmovd         (%rdx,%r8,1),%xmm2
   .byte  196,226,121,48,210                  // vpmovzxbw     %xmm2,%xmm2
   .byte  196,227,105,2,201,12                // vpblendd      $0xc,%xmm1,%xmm2,%xmm1
-  .byte  233,90,255,255,255                  // jmpq          4c3 <_sk_load_a8_dst_hsw_8bit+0x23>
+  .byte  233,90,255,255,255                  // jmpq          47f <_sk_load_a8_dst_hsw_8bit+0x23>
   .byte  15,31,0                             // nopl          (%rax)
   .byte  146                                 // xchg          %eax,%edx
   .byte  255                                 // (bad)
@@ -50842,35 +50827,35 @@ _sk_store_a8_hsw_8bit:
   .byte  72,99,87,8                          // movslq        0x8(%rdi),%rdx
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
-  .byte  196,226,125,0,21,151,14,0,0         // vpshufb       0xe97(%rip),%ymm0,%ymm2        # 1440 <_sk_xor__hsw_8bit+0x1d1>
+  .byte  196,226,125,0,21,155,14,0,0         // vpshufb       0xe9b(%rip),%ymm0,%ymm2        # 1400 <_sk_xor__hsw_8bit+0x1d5>
   .byte  196,227,253,0,210,232               // vpermq        $0xe8,%ymm2,%ymm2
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,19                              // jne           5c7 <_sk_store_a8_hsw_8bit+0x3f>
-  .byte  196,226,105,0,21,195,16,0,0         // vpshufb       0x10c3(%rip),%xmm2,%xmm2        # 1680 <_sk_xor__hsw_8bit+0x411>
+  .byte  117,19                              // jne           583 <_sk_store_a8_hsw_8bit+0x3f>
+  .byte  196,226,105,0,21,199,16,0,0         // vpshufb       0x10c7(%rip),%xmm2,%xmm2        # 1640 <_sk_xor__hsw_8bit+0x415>
   .byte  196,161,121,214,20,2                // vmovq         %xmm2,(%rdx,%r8,1)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,7                        // and           $0x7,%r9b
   .byte  65,254,201                          // dec           %r9b
   .byte  65,128,249,6                        // cmp           $0x6,%r9b
-  .byte  119,239                             // ja            5c3 <_sk_store_a8_hsw_8bit+0x3b>
+  .byte  119,239                             // ja            57f <_sk_store_a8_hsw_8bit+0x3b>
   .byte  65,15,182,193                       // movzbl        %r9b,%eax
-  .byte  72,141,13,85,0,0,0                  // lea           0x55(%rip),%rcx        # 634 <_sk_store_a8_hsw_8bit+0xac>
+  .byte  72,141,13,85,0,0,0                  // lea           0x55(%rip),%rcx        # 5f0 <_sk_store_a8_hsw_8bit+0xac>
   .byte  72,99,4,129                         // movslq        (%rcx,%rax,4),%rax
   .byte  72,1,200                            // add           %rcx,%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  196,163,121,20,20,2,0               // vpextrb       $0x0,%xmm2,(%rdx,%r8,1)
-  .byte  235,210                             // jmp           5c3 <_sk_store_a8_hsw_8bit+0x3b>
+  .byte  235,210                             // jmp           57f <_sk_store_a8_hsw_8bit+0x3b>
   .byte  196,163,121,20,84,2,2,4             // vpextrb       $0x4,%xmm2,0x2(%rdx,%r8,1)
-  .byte  196,226,105,0,21,94,16,0,0          // vpshufb       0x105e(%rip),%xmm2,%xmm2        # 1660 <_sk_xor__hsw_8bit+0x3f1>
+  .byte  196,226,105,0,21,98,16,0,0          // vpshufb       0x1062(%rip),%xmm2,%xmm2        # 1620 <_sk_xor__hsw_8bit+0x3f5>
   .byte  196,163,121,21,20,2,0               // vpextrw       $0x0,%xmm2,(%rdx,%r8,1)
-  .byte  235,184                             // jmp           5c3 <_sk_store_a8_hsw_8bit+0x3b>
+  .byte  235,184                             // jmp           57f <_sk_store_a8_hsw_8bit+0x3b>
   .byte  196,163,121,20,84,2,6,12            // vpextrb       $0xc,%xmm2,0x6(%rdx,%r8,1)
   .byte  196,163,121,20,84,2,5,10            // vpextrb       $0xa,%xmm2,0x5(%rdx,%r8,1)
   .byte  196,163,121,20,84,2,4,8             // vpextrb       $0x8,%xmm2,0x4(%rdx,%r8,1)
-  .byte  196,226,105,0,21,68,16,0,0          // vpshufb       0x1044(%rip),%xmm2,%xmm2        # 1670 <_sk_xor__hsw_8bit+0x401>
+  .byte  196,226,105,0,21,72,16,0,0          // vpshufb       0x1048(%rip),%xmm2,%xmm2        # 1630 <_sk_xor__hsw_8bit+0x405>
   .byte  196,161,121,126,20,2                // vmovd         %xmm2,(%rdx,%r8,1)
-  .byte  235,143                             // jmp           5c3 <_sk_store_a8_hsw_8bit+0x3b>
+  .byte  235,143                             // jmp           57f <_sk_store_a8_hsw_8bit+0x3b>
   .byte  180,255                             // mov           $0xff,%ah
   .byte  255                                 // (bad)
   .byte  255,197                             // inc           %ebp
@@ -50903,13 +50888,13 @@ _sk_load_g8_hsw_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,50                              // jne           69f <_sk_load_g8_hsw_8bit+0x4f>
+  .byte  117,50                              // jne           65b <_sk_load_g8_hsw_8bit+0x4f>
   .byte  196,162,121,48,4,2                  // vpmovzxbw     (%rdx,%r8,1),%xmm0
-  .byte  197,249,219,5,21,16,0,0             // vpand         0x1015(%rip),%xmm0,%xmm0        # 1690 <_sk_xor__hsw_8bit+0x421>
+  .byte  197,249,219,5,25,16,0,0             // vpand         0x1019(%rip),%xmm0,%xmm0        # 1650 <_sk_xor__hsw_8bit+0x425>
   .byte  196,226,125,51,192                  // vpmovzxwd     %xmm0,%ymm0
-  .byte  196,226,125,88,21,171,12,0,0        // vpbroadcastd  0xcab(%rip),%ymm2        # 1334 <_sk_xor__hsw_8bit+0xc5>
+  .byte  196,226,125,88,21,167,12,0,0        // vpbroadcastd  0xca7(%rip),%ymm2        # 12ec <_sk_xor__hsw_8bit+0xc1>
   .byte  196,226,125,64,194                  // vpmulld       %ymm2,%ymm0,%ymm0
-  .byte  196,226,125,88,21,161,12,0,0        // vpbroadcastd  0xca1(%rip),%ymm2        # 1338 <_sk_xor__hsw_8bit+0xc9>
+  .byte  196,226,125,88,21,157,12,0,0        // vpbroadcastd  0xc9d(%rip),%ymm2        # 12f0 <_sk_xor__hsw_8bit+0xc5>
   .byte  197,253,235,194                     // vpor          %ymm2,%ymm0,%ymm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -50917,15 +50902,15 @@ _sk_load_g8_hsw_8bit:
   .byte  197,249,239,192                     // vpxor         %xmm0,%xmm0,%xmm0
   .byte  65,254,201                          // dec           %r9b
   .byte  65,128,249,6                        // cmp           $0x6,%r9b
-  .byte  119,195                             // ja            673 <_sk_load_g8_hsw_8bit+0x23>
+  .byte  119,195                             // ja            62f <_sk_load_g8_hsw_8bit+0x23>
   .byte  65,15,182,193                       // movzbl        %r9b,%eax
-  .byte  72,141,13,121,0,0,0                 // lea           0x79(%rip),%rcx        # 734 <_sk_load_g8_hsw_8bit+0xe4>
+  .byte  72,141,13,121,0,0,0                 // lea           0x79(%rip),%rcx        # 6f0 <_sk_load_g8_hsw_8bit+0xe4>
   .byte  72,99,4,129                         // movslq        (%rcx,%rax,4),%rax
   .byte  72,1,200                            // add           %rcx,%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  197,249,110,192                     // vmovd         %eax,%xmm0
-  .byte  235,164                             // jmp           673 <_sk_load_g8_hsw_8bit+0x23>
+  .byte  235,164                             // jmp           62f <_sk_load_g8_hsw_8bit+0x23>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  197,249,239,192                     // vpxor         %xmm0,%xmm0,%xmm0
   .byte  197,249,196,192,2                   // vpinsrw       $0x2,%eax,%xmm0,%xmm0
@@ -50933,7 +50918,7 @@ _sk_load_g8_hsw_8bit:
   .byte  197,249,110,208                     // vmovd         %eax,%xmm2
   .byte  196,226,121,48,210                  // vpmovzxbw     %xmm2,%xmm2
   .byte  196,227,121,2,194,1                 // vpblendd      $0x1,%xmm2,%xmm0,%xmm0
-  .byte  233,124,255,255,255                 // jmpq          673 <_sk_load_g8_hsw_8bit+0x23>
+  .byte  233,124,255,255,255                 // jmpq          62f <_sk_load_g8_hsw_8bit+0x23>
   .byte  66,15,182,68,2,6                    // movzbl        0x6(%rdx,%r8,1),%eax
   .byte  197,249,239,192                     // vpxor         %xmm0,%xmm0,%xmm0
   .byte  197,249,196,192,6                   // vpinsrw       $0x6,%eax,%xmm0,%xmm0
@@ -50944,7 +50929,7 @@ _sk_load_g8_hsw_8bit:
   .byte  196,161,121,110,20,2                // vmovd         (%rdx,%r8,1),%xmm2
   .byte  196,226,121,48,210                  // vpmovzxbw     %xmm2,%xmm2
   .byte  196,227,105,2,192,12                // vpblendd      $0xc,%xmm0,%xmm2,%xmm0
-  .byte  233,65,255,255,255                  // jmpq          673 <_sk_load_g8_hsw_8bit+0x23>
+  .byte  233,65,255,255,255                  // jmpq          62f <_sk_load_g8_hsw_8bit+0x23>
   .byte  102,144                             // xchg          %ax,%ax
   .byte  144                                 // nop
   .byte  255                                 // (bad)
@@ -50953,7 +50938,7 @@ _sk_load_g8_hsw_8bit:
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
-  .byte  232,255,255,255,221                 // callq         ffffffffde000744 <_sk_xor__hsw_8bit+0xffffffffddfff4d5>
+  .byte  232,255,255,255,221                 // callq         ffffffffde000700 <_sk_xor__hsw_8bit+0xffffffffddfff4d5>
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
   .byte  255,210                             // callq         *%rdx
@@ -50976,13 +50961,13 @@ _sk_load_g8_dst_hsw_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,50                              // jne           79f <_sk_load_g8_dst_hsw_8bit+0x4f>
+  .byte  117,50                              // jne           75b <_sk_load_g8_dst_hsw_8bit+0x4f>
   .byte  196,162,121,48,12,2                 // vpmovzxbw     (%rdx,%r8,1),%xmm1
-  .byte  197,241,219,13,37,15,0,0            // vpand         0xf25(%rip),%xmm1,%xmm1        # 16a0 <_sk_xor__hsw_8bit+0x431>
+  .byte  197,241,219,13,41,15,0,0            // vpand         0xf29(%rip),%xmm1,%xmm1        # 1660 <_sk_xor__hsw_8bit+0x435>
   .byte  196,226,125,51,201                  // vpmovzxwd     %xmm1,%ymm1
-  .byte  196,226,125,88,21,179,11,0,0        // vpbroadcastd  0xbb3(%rip),%ymm2        # 133c <_sk_xor__hsw_8bit+0xcd>
+  .byte  196,226,125,88,21,175,11,0,0        // vpbroadcastd  0xbaf(%rip),%ymm2        # 12f4 <_sk_xor__hsw_8bit+0xc9>
   .byte  196,226,117,64,202                  // vpmulld       %ymm2,%ymm1,%ymm1
-  .byte  196,226,125,88,21,169,11,0,0        // vpbroadcastd  0xba9(%rip),%ymm2        # 1340 <_sk_xor__hsw_8bit+0xd1>
+  .byte  196,226,125,88,21,165,11,0,0        // vpbroadcastd  0xba5(%rip),%ymm2        # 12f8 <_sk_xor__hsw_8bit+0xcd>
   .byte  197,245,235,202                     // vpor          %ymm2,%ymm1,%ymm1
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -50990,15 +50975,15 @@ _sk_load_g8_dst_hsw_8bit:
   .byte  197,241,239,201                     // vpxor         %xmm1,%xmm1,%xmm1
   .byte  65,254,201                          // dec           %r9b
   .byte  65,128,249,6                        // cmp           $0x6,%r9b
-  .byte  119,195                             // ja            773 <_sk_load_g8_dst_hsw_8bit+0x23>
+  .byte  119,195                             // ja            72f <_sk_load_g8_dst_hsw_8bit+0x23>
   .byte  65,15,182,193                       // movzbl        %r9b,%eax
-  .byte  72,141,13,121,0,0,0                 // lea           0x79(%rip),%rcx        # 834 <_sk_load_g8_dst_hsw_8bit+0xe4>
+  .byte  72,141,13,121,0,0,0                 // lea           0x79(%rip),%rcx        # 7f0 <_sk_load_g8_dst_hsw_8bit+0xe4>
   .byte  72,99,4,129                         // movslq        (%rcx,%rax,4),%rax
   .byte  72,1,200                            // add           %rcx,%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  197,249,110,200                     // vmovd         %eax,%xmm1
-  .byte  235,164                             // jmp           773 <_sk_load_g8_dst_hsw_8bit+0x23>
+  .byte  235,164                             // jmp           72f <_sk_load_g8_dst_hsw_8bit+0x23>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  197,241,239,201                     // vpxor         %xmm1,%xmm1,%xmm1
   .byte  197,241,196,200,2                   // vpinsrw       $0x2,%eax,%xmm1,%xmm1
@@ -51006,7 +50991,7 @@ _sk_load_g8_dst_hsw_8bit:
   .byte  197,249,110,208                     // vmovd         %eax,%xmm2
   .byte  196,226,121,48,210                  // vpmovzxbw     %xmm2,%xmm2
   .byte  196,227,113,2,202,1                 // vpblendd      $0x1,%xmm2,%xmm1,%xmm1
-  .byte  233,124,255,255,255                 // jmpq          773 <_sk_load_g8_dst_hsw_8bit+0x23>
+  .byte  233,124,255,255,255                 // jmpq          72f <_sk_load_g8_dst_hsw_8bit+0x23>
   .byte  66,15,182,68,2,6                    // movzbl        0x6(%rdx,%r8,1),%eax
   .byte  197,241,239,201                     // vpxor         %xmm1,%xmm1,%xmm1
   .byte  197,241,196,200,6                   // vpinsrw       $0x6,%eax,%xmm1,%xmm1
@@ -51017,7 +51002,7 @@ _sk_load_g8_dst_hsw_8bit:
   .byte  196,161,121,110,20,2                // vmovd         (%rdx,%r8,1),%xmm2
   .byte  196,226,121,48,210                  // vpmovzxbw     %xmm2,%xmm2
   .byte  196,227,105,2,201,12                // vpblendd      $0xc,%xmm1,%xmm2,%xmm1
-  .byte  233,65,255,255,255                  // jmpq          773 <_sk_load_g8_dst_hsw_8bit+0x23>
+  .byte  233,65,255,255,255                  // jmpq          72f <_sk_load_g8_dst_hsw_8bit+0x23>
   .byte  102,144                             // xchg          %ax,%ax
   .byte  144                                 // nop
   .byte  255                                 // (bad)
@@ -51026,7 +51011,7 @@ _sk_load_g8_dst_hsw_8bit:
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
-  .byte  232,255,255,255,221                 // callq         ffffffffde000844 <_sk_xor__hsw_8bit+0xffffffffddfff5d5>
+  .byte  232,255,255,255,221                 // callq         ffffffffde000800 <_sk_xor__hsw_8bit+0xffffffffddfff5d5>
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
   .byte  255,210                             // callq         *%rdx
@@ -51051,9 +51036,9 @@ _sk_srcover_rgba_8888_hsw_8bit:
   .byte  72,3,8                              // add           (%rax),%rcx
   .byte  74,141,4,137                        // lea           (%rcx,%r9,4),%rax
   .byte  77,133,192                          // test          %r8,%r8
-  .byte  117,108                             // jne           8e1 <_sk_srcover_rgba_8888_hsw_8bit+0x91>
+  .byte  117,108                             // jne           89d <_sk_srcover_rgba_8888_hsw_8bit+0x91>
   .byte  197,254,111,16                      // vmovdqu       (%rax),%ymm2
-  .byte  196,226,125,0,29,222,11,0,0         // vpshufb       0xbde(%rip),%ymm0,%ymm3        # 1460 <_sk_xor__hsw_8bit+0x1f1>
+  .byte  196,226,125,0,29,226,11,0,0         // vpshufb       0xbe2(%rip),%ymm0,%ymm3        # 1420 <_sk_xor__hsw_8bit+0x1f5>
   .byte  196,226,125,48,226                  // vpmovzxbw     %xmm2,%ymm4
   .byte  196,227,125,57,213,1                // vextracti128  $0x1,%ymm2,%xmm5
   .byte  196,226,125,48,237                  // vpmovzxbw     %xmm5,%ymm5
@@ -51072,7 +51057,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
   .byte  197,237,248,211                     // vpsubb        %ymm3,%ymm2,%ymm2
   .byte  197,237,252,208                     // vpaddb        %ymm0,%ymm2,%ymm2
   .byte  77,133,192                          // test          %r8,%r8
-  .byte  117,49                              // jne           90a <_sk_srcover_rgba_8888_hsw_8bit+0xba>
+  .byte  117,49                              // jne           8c6 <_sk_srcover_rgba_8888_hsw_8bit+0xba>
   .byte  197,254,127,16                      // vmovdqu       %ymm2,(%rax)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -51084,7 +51069,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
   .byte  196,225,249,110,210                 // vmovq         %rdx,%xmm2
   .byte  196,226,125,33,210                  // vpmovsxbd     %xmm2,%ymm2
   .byte  196,226,109,140,16                  // vpmaskmovd    (%rax),%ymm2,%ymm2
-  .byte  233,111,255,255,255                 // jmpq          879 <_sk_srcover_rgba_8888_hsw_8bit+0x29>
+  .byte  233,111,255,255,255                 // jmpq          835 <_sk_srcover_rgba_8888_hsw_8bit+0x29>
   .byte  185,8,0,0,0                         // mov           $0x8,%ecx
   .byte  68,41,193                           // sub           %r8d,%ecx
   .byte  192,225,3                           // shl           $0x3,%cl
@@ -51093,7 +51078,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
   .byte  196,225,249,110,218                 // vmovq         %rdx,%xmm3
   .byte  196,226,125,33,219                  // vpmovsxbd     %xmm3,%ymm3
   .byte  196,226,101,142,16                  // vpmaskmovd    %ymm2,%ymm3,(%rax)
-  .byte  235,173                             // jmp           8dd <_sk_srcover_rgba_8888_hsw_8bit+0x8d>
+  .byte  235,173                             // jmp           899 <_sk_srcover_rgba_8888_hsw_8bit+0x8d>
 
 HIDDEN _sk_scale_1_float_hsw_8bit
 .globl _sk_scale_1_float_hsw_8bit
@@ -51101,14 +51086,14 @@ FUNCTION(_sk_scale_1_float_hsw_8bit)
 _sk_scale_1_float_hsw_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  197,250,16,16                       // vmovss        (%rax),%xmm2
-  .byte  197,234,89,21,6,10,0,0              // vmulss        0xa06(%rip),%xmm2,%xmm2        # 1344 <_sk_xor__hsw_8bit+0xd5>
+  .byte  197,234,89,21,2,10,0,0              // vmulss        0xa02(%rip),%xmm2,%xmm2        # 12fc <_sk_xor__hsw_8bit+0xd1>
   .byte  197,250,44,194                      // vcvttss2si    %xmm2,%eax
   .byte  197,249,110,208                     // vmovd         %eax,%xmm2
   .byte  196,226,125,120,210                 // vpbroadcastb  %xmm2,%ymm2
   .byte  196,226,125,48,216                  // vpmovzxbw     %xmm0,%ymm3
   .byte  196,227,125,57,192,1                // vextracti128  $0x1,%ymm0,%xmm0
   .byte  196,226,125,48,192                  // vpmovzxbw     %xmm0,%ymm0
-  .byte  197,237,219,21,29,11,0,0            // vpand         0xb1d(%rip),%ymm2,%ymm2        # 1480 <_sk_xor__hsw_8bit+0x211>
+  .byte  197,237,219,21,33,11,0,0            // vpand         0xb21(%rip),%ymm2,%ymm2        # 1440 <_sk_xor__hsw_8bit+0x215>
   .byte  197,237,213,224                     // vpmullw       %ymm0,%ymm2,%ymm4
   .byte  197,237,213,211                     // vpmullw       %ymm3,%ymm2,%ymm2
   .byte  197,237,253,211                     // vpaddw        %ymm3,%ymm2,%ymm2
@@ -51133,11 +51118,11 @@ _sk_scale_u8_hsw_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,106                             // jne           a18 <_sk_scale_u8_hsw_8bit+0x87>
+  .byte  117,106                             // jne           9d4 <_sk_scale_u8_hsw_8bit+0x87>
   .byte  196,162,121,48,20,2                 // vpmovzxbw     (%rdx,%r8,1),%xmm2
-  .byte  197,233,219,21,244,12,0,0           // vpand         0xcf4(%rip),%xmm2,%xmm2        # 16b0 <_sk_xor__hsw_8bit+0x441>
+  .byte  197,233,219,21,248,12,0,0           // vpand         0xcf8(%rip),%xmm2,%xmm2        # 1670 <_sk_xor__hsw_8bit+0x445>
   .byte  196,226,125,51,210                  // vpmovzxwd     %xmm2,%ymm2
-  .byte  196,226,109,0,21,214,10,0,0         // vpshufb       0xad6(%rip),%ymm2,%ymm2        # 14a0 <_sk_xor__hsw_8bit+0x231>
+  .byte  196,226,109,0,21,218,10,0,0         // vpshufb       0xada(%rip),%ymm2,%ymm2        # 1460 <_sk_xor__hsw_8bit+0x235>
   .byte  196,226,125,48,216                  // vpmovzxbw     %xmm0,%ymm3
   .byte  196,227,125,57,192,1                // vextracti128  $0x1,%ymm0,%xmm0
   .byte  196,226,125,48,192                  // vpmovzxbw     %xmm0,%ymm0
@@ -51159,15 +51144,15 @@ _sk_scale_u8_hsw_8bit:
   .byte  197,233,239,210                     // vpxor         %xmm2,%xmm2,%xmm2
   .byte  65,254,201                          // dec           %r9b
   .byte  65,128,249,6                        // cmp           $0x6,%r9b
-  .byte  119,139                             // ja            9b4 <_sk_scale_u8_hsw_8bit+0x23>
+  .byte  119,139                             // ja            970 <_sk_scale_u8_hsw_8bit+0x23>
   .byte  65,15,182,193                       // movzbl        %r9b,%eax
-  .byte  72,141,13,124,0,0,0                 // lea           0x7c(%rip),%rcx        # ab0 <_sk_scale_u8_hsw_8bit+0x11f>
+  .byte  72,141,13,124,0,0,0                 // lea           0x7c(%rip),%rcx        # a6c <_sk_scale_u8_hsw_8bit+0x11f>
   .byte  72,99,4,129                         // movslq        (%rcx,%rax,4),%rax
   .byte  72,1,200                            // add           %rcx,%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  197,249,110,208                     // vmovd         %eax,%xmm2
-  .byte  233,105,255,255,255                 // jmpq          9b4 <_sk_scale_u8_hsw_8bit+0x23>
+  .byte  233,105,255,255,255                 // jmpq          970 <_sk_scale_u8_hsw_8bit+0x23>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  197,233,239,210                     // vpxor         %xmm2,%xmm2,%xmm2
   .byte  197,233,196,208,2                   // vpinsrw       $0x2,%eax,%xmm2,%xmm2
@@ -51175,7 +51160,7 @@ _sk_scale_u8_hsw_8bit:
   .byte  197,249,110,216                     // vmovd         %eax,%xmm3
   .byte  196,226,121,48,219                  // vpmovzxbw     %xmm3,%xmm3
   .byte  196,227,105,2,211,1                 // vpblendd      $0x1,%xmm3,%xmm2,%xmm2
-  .byte  233,65,255,255,255                  // jmpq          9b4 <_sk_scale_u8_hsw_8bit+0x23>
+  .byte  233,65,255,255,255                  // jmpq          970 <_sk_scale_u8_hsw_8bit+0x23>
   .byte  66,15,182,68,2,6                    // movzbl        0x6(%rdx,%r8,1),%eax
   .byte  197,233,239,210                     // vpxor         %xmm2,%xmm2,%xmm2
   .byte  197,233,196,208,6                   // vpinsrw       $0x6,%eax,%xmm2,%xmm2
@@ -51186,7 +51171,7 @@ _sk_scale_u8_hsw_8bit:
   .byte  196,161,121,110,28,2                // vmovd         (%rdx,%r8,1),%xmm3
   .byte  196,226,121,48,219                  // vpmovzxbw     %xmm3,%xmm3
   .byte  196,227,97,2,210,12                 // vpblendd      $0xc,%xmm2,%xmm3,%xmm2
-  .byte  233,6,255,255,255                   // jmpq          9b4 <_sk_scale_u8_hsw_8bit+0x23>
+  .byte  233,6,255,255,255                   // jmpq          970 <_sk_scale_u8_hsw_8bit+0x23>
   .byte  102,144                             // xchg          %ax,%ax
   .byte  141                                 // (bad)
   .byte  255                                 // (bad)
@@ -51195,7 +51180,7 @@ _sk_scale_u8_hsw_8bit:
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
-  .byte  232,255,255,255,221                 // callq         ffffffffde000ac0 <_sk_xor__hsw_8bit+0xffffffffddfff851>
+  .byte  232,255,255,255,221                 // callq         ffffffffde000a7c <_sk_xor__hsw_8bit+0xffffffffddfff851>
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
   .byte  255,210                             // callq         *%rdx
@@ -51212,14 +51197,14 @@ FUNCTION(_sk_lerp_1_float_hsw_8bit)
 _sk_lerp_1_float_hsw_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  197,250,16,16                       // vmovss        (%rax),%xmm2
-  .byte  197,234,89,21,110,8,0,0             // vmulss        0x86e(%rip),%xmm2,%xmm2        # 1348 <_sk_xor__hsw_8bit+0xd9>
+  .byte  197,234,89,21,106,8,0,0             // vmulss        0x86a(%rip),%xmm2,%xmm2        # 1300 <_sk_xor__hsw_8bit+0xd5>
   .byte  197,250,44,194                      // vcvttss2si    %xmm2,%eax
   .byte  197,249,110,208                     // vmovd         %eax,%xmm2
   .byte  196,226,125,120,210                 // vpbroadcastb  %xmm2,%ymm2
   .byte  196,226,125,48,216                  // vpmovzxbw     %xmm0,%ymm3
   .byte  196,227,125,57,192,1                // vextracti128  $0x1,%ymm0,%xmm0
   .byte  196,226,125,48,192                  // vpmovzxbw     %xmm0,%ymm0
-  .byte  197,237,219,37,193,9,0,0            // vpand         0x9c1(%rip),%ymm2,%ymm4        # 14c0 <_sk_xor__hsw_8bit+0x251>
+  .byte  197,237,219,37,197,9,0,0            // vpand         0x9c5(%rip),%ymm2,%ymm4        # 1480 <_sk_xor__hsw_8bit+0x255>
   .byte  197,221,213,232                     // vpmullw       %ymm0,%ymm4,%ymm5
   .byte  197,221,213,227                     // vpmullw       %ymm3,%ymm4,%ymm4
   .byte  197,221,253,219                     // vpaddw        %ymm3,%ymm4,%ymm3
@@ -51262,11 +51247,11 @@ _sk_lerp_u8_hsw_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  15,133,192,0,0,0                    // jne           c64 <_sk_lerp_u8_hsw_8bit+0xe1>
+  .byte  15,133,192,0,0,0                    // jne           c20 <_sk_lerp_u8_hsw_8bit+0xe1>
   .byte  196,162,121,48,20,2                 // vpmovzxbw     (%rdx,%r8,1),%xmm2
-  .byte  197,233,219,21,14,11,0,0            // vpand         0xb0e(%rip),%xmm2,%xmm2        # 16c0 <_sk_xor__hsw_8bit+0x451>
+  .byte  197,233,219,21,18,11,0,0            // vpand         0xb12(%rip),%xmm2,%xmm2        # 1680 <_sk_xor__hsw_8bit+0x455>
   .byte  196,226,125,51,210                  // vpmovzxwd     %xmm2,%ymm2
-  .byte  196,226,109,0,21,32,9,0,0           // vpshufb       0x920(%rip),%ymm2,%ymm2        # 14e0 <_sk_xor__hsw_8bit+0x271>
+  .byte  196,226,109,0,21,36,9,0,0           // vpshufb       0x924(%rip),%ymm2,%ymm2        # 14a0 <_sk_xor__hsw_8bit+0x275>
   .byte  196,226,125,48,216                  // vpmovzxbw     %xmm0,%ymm3
   .byte  196,227,125,57,192,1                // vextracti128  $0x1,%ymm0,%xmm0
   .byte  196,226,125,48,192                  // vpmovzxbw     %xmm0,%ymm0
@@ -51306,15 +51291,15 @@ _sk_lerp_u8_hsw_8bit:
   .byte  197,233,239,210                     // vpxor         %xmm2,%xmm2,%xmm2
   .byte  65,254,201                          // dec           %r9b
   .byte  65,128,249,6                        // cmp           $0x6,%r9b
-  .byte  15,135,49,255,255,255               // ja            baa <_sk_lerp_u8_hsw_8bit+0x27>
+  .byte  15,135,49,255,255,255               // ja            b66 <_sk_lerp_u8_hsw_8bit+0x27>
   .byte  65,15,182,193                       // movzbl        %r9b,%eax
-  .byte  72,141,13,124,0,0,0                 // lea           0x7c(%rip),%rcx        # d00 <_sk_lerp_u8_hsw_8bit+0x17d>
+  .byte  72,141,13,124,0,0,0                 // lea           0x7c(%rip),%rcx        # cbc <_sk_lerp_u8_hsw_8bit+0x17d>
   .byte  72,99,4,129                         // movslq        (%rcx,%rax,4),%rax
   .byte  72,1,200                            // add           %rcx,%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  197,249,110,208                     // vmovd         %eax,%xmm2
-  .byte  233,15,255,255,255                  // jmpq          baa <_sk_lerp_u8_hsw_8bit+0x27>
+  .byte  233,15,255,255,255                  // jmpq          b66 <_sk_lerp_u8_hsw_8bit+0x27>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  197,233,239,210                     // vpxor         %xmm2,%xmm2,%xmm2
   .byte  197,233,196,208,2                   // vpinsrw       $0x2,%eax,%xmm2,%xmm2
@@ -51322,7 +51307,7 @@ _sk_lerp_u8_hsw_8bit:
   .byte  197,249,110,216                     // vmovd         %eax,%xmm3
   .byte  196,226,121,48,219                  // vpmovzxbw     %xmm3,%xmm3
   .byte  196,227,105,2,211,1                 // vpblendd      $0x1,%xmm3,%xmm2,%xmm2
-  .byte  233,231,254,255,255                 // jmpq          baa <_sk_lerp_u8_hsw_8bit+0x27>
+  .byte  233,231,254,255,255                 // jmpq          b66 <_sk_lerp_u8_hsw_8bit+0x27>
   .byte  66,15,182,68,2,6                    // movzbl        0x6(%rdx,%r8,1),%eax
   .byte  197,233,239,210                     // vpxor         %xmm2,%xmm2,%xmm2
   .byte  197,233,196,208,6                   // vpinsrw       $0x6,%eax,%xmm2,%xmm2
@@ -51333,7 +51318,7 @@ _sk_lerp_u8_hsw_8bit:
   .byte  196,161,121,110,28,2                // vmovd         (%rdx,%r8,1),%xmm3
   .byte  196,226,121,48,219                  // vpmovzxbw     %xmm3,%xmm3
   .byte  196,227,97,2,210,12                 // vpblendd      $0xc,%xmm2,%xmm3,%xmm2
-  .byte  233,172,254,255,255                 // jmpq          baa <_sk_lerp_u8_hsw_8bit+0x27>
+  .byte  233,172,254,255,255                 // jmpq          b66 <_sk_lerp_u8_hsw_8bit+0x27>
   .byte  102,144                             // xchg          %ax,%ax
   .byte  141                                 // (bad)
   .byte  255                                 // (bad)
@@ -51342,7 +51327,7 @@ _sk_lerp_u8_hsw_8bit:
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
-  .byte  232,255,255,255,221                 // callq         ffffffffde000d10 <_sk_xor__hsw_8bit+0xffffffffddfffaa1>
+  .byte  232,255,255,255,221                 // callq         ffffffffde000ccc <_sk_xor__hsw_8bit+0xffffffffddfffaa1>
   .byte  255                                 // (bad)
   .byte  255                                 // (bad)
   .byte  255,210                             // callq         *%rdx
@@ -51374,7 +51359,7 @@ HIDDEN _sk_black_color_hsw_8bit
 FUNCTION(_sk_black_color_hsw_8bit)
 _sk_black_color_hsw_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
-  .byte  196,226,125,25,5,153,9,0,0          // vbroadcastsd  0x999(%rip),%ymm0        # 16d0 <_sk_xor__hsw_8bit+0x461>
+  .byte  196,226,125,25,5,157,9,0,0          // vbroadcastsd  0x99d(%rip),%ymm0        # 1690 <_sk_xor__hsw_8bit+0x465>
   .byte  255,224                             // jmpq          *%rax
 
 HIDDEN _sk_white_color_hsw_8bit
@@ -51397,7 +51382,7 @@ HIDDEN _sk_srcatop_hsw_8bit
 .globl _sk_srcatop_hsw_8bit
 FUNCTION(_sk_srcatop_hsw_8bit)
 _sk_srcatop_hsw_8bit:
-  .byte  197,253,111,21,175,7,0,0            // vmovdqa       0x7af(%rip),%ymm2        # 1500 <_sk_xor__hsw_8bit+0x291>
+  .byte  197,253,111,21,179,7,0,0            // vmovdqa       0x7b3(%rip),%ymm2        # 14c0 <_sk_xor__hsw_8bit+0x295>
   .byte  196,226,117,0,218                   // vpshufb       %ymm2,%ymm1,%ymm3
   .byte  196,226,125,48,224                  // vpmovzxbw     %xmm0,%ymm4
   .byte  196,227,125,57,197,1                // vextracti128  $0x1,%ymm0,%xmm5
@@ -51440,7 +51425,7 @@ HIDDEN _sk_dstatop_hsw_8bit
 .globl _sk_dstatop_hsw_8bit
 FUNCTION(_sk_dstatop_hsw_8bit)
 _sk_dstatop_hsw_8bit:
-  .byte  197,253,111,21,25,7,0,0             // vmovdqa       0x719(%rip),%ymm2        # 1520 <_sk_xor__hsw_8bit+0x2b1>
+  .byte  197,253,111,21,29,7,0,0             // vmovdqa       0x71d(%rip),%ymm2        # 14e0 <_sk_xor__hsw_8bit+0x2b5>
   .byte  196,226,125,0,218                   // vpshufb       %ymm2,%ymm0,%ymm3
   .byte  196,226,125,48,225                  // vpmovzxbw     %xmm1,%ymm4
   .byte  196,227,125,57,205,1                // vextracti128  $0x1,%ymm1,%xmm5
@@ -51483,7 +51468,7 @@ HIDDEN _sk_srcin_hsw_8bit
 .globl _sk_srcin_hsw_8bit
 FUNCTION(_sk_srcin_hsw_8bit)
 _sk_srcin_hsw_8bit:
-  .byte  196,226,117,0,21,130,6,0,0          // vpshufb       0x682(%rip),%ymm1,%ymm2        # 1540 <_sk_xor__hsw_8bit+0x2d1>
+  .byte  196,226,117,0,21,134,6,0,0          // vpshufb       0x686(%rip),%ymm1,%ymm2        # 1500 <_sk_xor__hsw_8bit+0x2d5>
   .byte  196,226,125,48,216                  // vpmovzxbw     %xmm0,%ymm3
   .byte  196,227,125,57,192,1                // vextracti128  $0x1,%ymm0,%xmm0
   .byte  196,226,125,48,192                  // vpmovzxbw     %xmm0,%ymm0
@@ -51506,7 +51491,7 @@ HIDDEN _sk_dstin_hsw_8bit
 .globl _sk_dstin_hsw_8bit
 FUNCTION(_sk_dstin_hsw_8bit)
 _sk_dstin_hsw_8bit:
-  .byte  196,226,125,0,5,75,6,0,0            // vpshufb       0x64b(%rip),%ymm0,%ymm0        # 1560 <_sk_xor__hsw_8bit+0x2f1>
+  .byte  196,226,125,0,5,79,6,0,0            // vpshufb       0x64f(%rip),%ymm0,%ymm0        # 1520 <_sk_xor__hsw_8bit+0x2f5>
   .byte  196,226,125,48,209                  // vpmovzxbw     %xmm1,%ymm2
   .byte  196,227,125,57,203,1                // vextracti128  $0x1,%ymm1,%xmm3
   .byte  196,226,125,48,219                  // vpmovzxbw     %xmm3,%ymm3
@@ -51529,7 +51514,7 @@ HIDDEN _sk_srcout_hsw_8bit
 .globl _sk_srcout_hsw_8bit
 FUNCTION(_sk_srcout_hsw_8bit)
 _sk_srcout_hsw_8bit:
-  .byte  196,226,117,0,21,20,6,0,0           // vpshufb       0x614(%rip),%ymm1,%ymm2        # 1580 <_sk_xor__hsw_8bit+0x311>
+  .byte  196,226,117,0,21,24,6,0,0           // vpshufb       0x618(%rip),%ymm1,%ymm2        # 1540 <_sk_xor__hsw_8bit+0x315>
   .byte  197,229,118,219                     // vpcmpeqd      %ymm3,%ymm3,%ymm3
   .byte  197,237,239,211                     // vpxor         %ymm3,%ymm2,%ymm2
   .byte  196,226,125,48,216                  // vpmovzxbw     %xmm0,%ymm3
@@ -51554,7 +51539,7 @@ HIDDEN _sk_dstout_hsw_8bit
 .globl _sk_dstout_hsw_8bit
 FUNCTION(_sk_dstout_hsw_8bit)
 _sk_dstout_hsw_8bit:
-  .byte  196,226,125,0,5,213,5,0,0           // vpshufb       0x5d5(%rip),%ymm0,%ymm0        # 15a0 <_sk_xor__hsw_8bit+0x331>
+  .byte  196,226,125,0,5,217,5,0,0           // vpshufb       0x5d9(%rip),%ymm0,%ymm0        # 1560 <_sk_xor__hsw_8bit+0x335>
   .byte  197,237,118,210                     // vpcmpeqd      %ymm2,%ymm2,%ymm2
   .byte  197,253,239,194                     // vpxor         %ymm2,%ymm0,%ymm0
   .byte  196,226,125,48,209                  // vpmovzxbw     %xmm1,%ymm2
@@ -51579,7 +51564,7 @@ HIDDEN _sk_srcover_hsw_8bit
 .globl _sk_srcover_hsw_8bit
 FUNCTION(_sk_srcover_hsw_8bit)
 _sk_srcover_hsw_8bit:
-  .byte  196,226,125,0,21,150,5,0,0          // vpshufb       0x596(%rip),%ymm0,%ymm2        # 15c0 <_sk_xor__hsw_8bit+0x351>
+  .byte  196,226,125,0,21,154,5,0,0          // vpshufb       0x59a(%rip),%ymm0,%ymm2        # 1580 <_sk_xor__hsw_8bit+0x355>
   .byte  196,226,125,48,217                  // vpmovzxbw     %xmm1,%ymm3
   .byte  196,227,125,57,204,1                // vextracti128  $0x1,%ymm1,%xmm4
   .byte  196,226,125,48,228                  // vpmovzxbw     %xmm4,%ymm4
@@ -51604,7 +51589,7 @@ HIDDEN _sk_dstover_hsw_8bit
 .globl _sk_dstover_hsw_8bit
 FUNCTION(_sk_dstover_hsw_8bit)
 _sk_dstover_hsw_8bit:
-  .byte  196,226,117,0,21,87,5,0,0           // vpshufb       0x557(%rip),%ymm1,%ymm2        # 15e0 <_sk_xor__hsw_8bit+0x371>
+  .byte  196,226,117,0,21,91,5,0,0           // vpshufb       0x55b(%rip),%ymm1,%ymm2        # 15a0 <_sk_xor__hsw_8bit+0x375>
   .byte  196,226,125,48,216                  // vpmovzxbw     %xmm0,%ymm3
   .byte  196,227,125,57,196,1                // vextracti128  $0x1,%ymm0,%xmm4
   .byte  196,226,125,48,228                  // vpmovzxbw     %xmm4,%ymm4
@@ -51651,7 +51636,7 @@ HIDDEN _sk_multiply_hsw_8bit
 .globl _sk_multiply_hsw_8bit
 FUNCTION(_sk_multiply_hsw_8bit)
 _sk_multiply_hsw_8bit:
-  .byte  197,253,111,37,203,4,0,0            // vmovdqa       0x4cb(%rip),%ymm4        # 1600 <_sk_xor__hsw_8bit+0x391>
+  .byte  197,253,111,37,207,4,0,0            // vmovdqa       0x4cf(%rip),%ymm4        # 15c0 <_sk_xor__hsw_8bit+0x395>
   .byte  196,226,117,0,212                   // vpshufb       %ymm4,%ymm1,%ymm2
   .byte  197,213,118,237                     // vpcmpeqd      %ymm5,%ymm5,%ymm5
   .byte  197,237,239,245                     // vpxor         %ymm5,%ymm2,%ymm6
@@ -51730,7 +51715,7 @@ HIDDEN _sk_xor__hsw_8bit
 .globl _sk_xor__hsw_8bit
 FUNCTION(_sk_xor__hsw_8bit)
 _sk_xor__hsw_8bit:
-  .byte  197,253,111,21,169,3,0,0            // vmovdqa       0x3a9(%rip),%ymm2        # 1620 <_sk_xor__hsw_8bit+0x3b1>
+  .byte  197,253,111,21,173,3,0,0            // vmovdqa       0x3ad(%rip),%ymm2        # 15e0 <_sk_xor__hsw_8bit+0x3b5>
   .byte  196,226,117,0,218                   // vpshufb       %ymm2,%ymm1,%ymm3
   .byte  197,221,118,228                     // vpcmpeqd      %ymm4,%ymm4,%ymm4
   .byte  197,229,239,220                     // vpxor         %ymm4,%ymm3,%ymm3
@@ -51772,9 +51757,7 @@ _sk_xor__hsw_8bit:
 
 BALIGN4
   .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            1373 <_sk_xor__hsw_8bit+0x104>
-  .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            1377 <_sk_xor__hsw_8bit+0x108>
+  .byte  127,67                              // jg            132f <_sk_xor__hsw_8bit+0x104>
   .byte  1,1                                 // add           %eax,(%rcx)
   .byte  1,0                                 // add           %eax,(%rax)
   .byte  0,0                                 // add           %al,(%rax)
@@ -51784,9 +51767,9 @@ BALIGN4
   .byte  0,0                                 // add           %al,(%rax)
   .byte  0,255                               // add           %bh,%bh
   .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            138b <_sk_xor__hsw_8bit+0x11c>
+  .byte  127,67                              // jg            1343 <_sk_xor__hsw_8bit+0x118>
   .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            138f <_sk_xor__hsw_8bit+0x120>
+  .byte  127,67                              // jg            1347 <_sk_xor__hsw_8bit+0x11c>
 
 BALIGN32
   .byte  0,0                                 // add           %al,(%rax)
@@ -52375,25 +52358,7 @@ HIDDEN _sk_uniform_color_sse41_8bit
 FUNCTION(_sk_uniform_color_sse41_8bit)
 _sk_uniform_color_sse41_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
-  .byte  243,15,16,5,53,15,0,0               // movss         0xf35(%rip),%xmm0        # fe4 <_sk_xor__sse41_8bit+0xae>
-  .byte  243,15,16,16                        // movss         (%rax),%xmm2
-  .byte  243,15,89,208                       // mulss         %xmm0,%xmm2
-  .byte  243,72,15,44,202                    // cvttss2si     %xmm2,%rcx
-  .byte  243,15,16,80,4                      // movss         0x4(%rax),%xmm2
-  .byte  243,15,89,208                       // mulss         %xmm0,%xmm2
-  .byte  243,72,15,44,210                    // cvttss2si     %xmm2,%rdx
-  .byte  193,226,8                           // shl           $0x8,%edx
-  .byte  9,202                               // or            %ecx,%edx
-  .byte  243,15,16,80,8                      // movss         0x8(%rax),%xmm2
-  .byte  243,15,89,208                       // mulss         %xmm0,%xmm2
-  .byte  243,72,15,44,202                    // cvttss2si     %xmm2,%rcx
-  .byte  193,225,16                          // shl           $0x10,%ecx
-  .byte  243,15,89,64,12                     // mulss         0xc(%rax),%xmm0
-  .byte  243,72,15,44,192                    // cvttss2si     %xmm0,%rax
-  .byte  193,224,24                          // shl           $0x18,%eax
-  .byte  9,200                               // or            %ecx,%eax
-  .byte  9,208                               // or            %edx,%eax
-  .byte  102,15,110,192                      // movd          %eax,%xmm0
+  .byte  102,15,110,64,16                    // movd          0x10(%rax),%xmm0
   .byte  102,15,112,192,0                    // pshufd        $0x0,%xmm0,%xmm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -52403,7 +52368,7 @@ HIDDEN _sk_set_rgb_sse41_8bit
 FUNCTION(_sk_set_rgb_sse41_8bit)
 _sk_set_rgb_sse41_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
-  .byte  243,15,16,21,224,14,0,0             // movss         0xee0(%rip),%xmm2        # fe8 <_sk_xor__sse41_8bit+0xb2>
+  .byte  243,15,16,21,221,14,0,0             // movss         0xedd(%rip),%xmm2        # f9c <_sk_xor__sse41_8bit+0xaf>
   .byte  243,15,16,24                        // movss         (%rax),%xmm3
   .byte  243,15,89,218                       // mulss         %xmm2,%xmm3
   .byte  243,72,15,44,203                    // cvttss2si     %xmm3,%rcx
@@ -52418,7 +52383,7 @@ _sk_set_rgb_sse41_8bit:
   .byte  9,208                               // or            %edx,%eax
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,112,210,0                    // pshufd        $0x0,%xmm2,%xmm2
-  .byte  102,15,219,5,184,14,0,0             // pand          0xeb8(%rip),%xmm0        # 1000 <_sk_xor__sse41_8bit+0xca>
+  .byte  102,15,219,5,177,14,0,0             // pand          0xeb1(%rip),%xmm0        # fb0 <_sk_xor__sse41_8bit+0xc3>
   .byte  102,15,235,194                      // por           %xmm2,%xmm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -52428,8 +52393,8 @@ HIDDEN _sk_premul_sse41_8bit
 FUNCTION(_sk_premul_sse41_8bit)
 _sk_premul_sse41_8bit:
   .byte  102,15,111,216                      // movdqa        %xmm0,%xmm3
-  .byte  102,15,56,0,29,179,14,0,0           // pshufb        0xeb3(%rip),%xmm3        # 1010 <_sk_xor__sse41_8bit+0xda>
-  .byte  102,15,235,29,187,14,0,0            // por           0xebb(%rip),%xmm3        # 1020 <_sk_xor__sse41_8bit+0xea>
+  .byte  102,15,56,0,29,172,14,0,0           // pshufb        0xeac(%rip),%xmm3        # fc0 <_sk_xor__sse41_8bit+0xd3>
+  .byte  102,15,235,29,180,14,0,0            // por           0xeb4(%rip),%xmm3        # fd0 <_sk_xor__sse41_8bit+0xe3>
   .byte  102,15,239,228                      // pxor          %xmm4,%xmm4
   .byte  102,15,56,48,232                    // pmovzxbw      %xmm0,%xmm5
   .byte  102,15,104,196                      // punpckhbw     %xmm4,%xmm0
@@ -52439,7 +52404,7 @@ _sk_premul_sse41_8bit:
   .byte  102,15,213,213                      // pmullw        %xmm5,%xmm2
   .byte  102,15,253,216                      // paddw         %xmm0,%xmm3
   .byte  102,15,253,213                      // paddw         %xmm5,%xmm2
-  .byte  102,15,111,5,157,14,0,0             // movdqa        0xe9d(%rip),%xmm0        # 1030 <_sk_xor__sse41_8bit+0xfa>
+  .byte  102,15,111,5,150,14,0,0             // movdqa        0xe96(%rip),%xmm0        # fe0 <_sk_xor__sse41_8bit+0xf3>
   .byte  102,15,56,0,216                     // pshufb        %xmm0,%xmm3
   .byte  102,15,56,0,208                     // pshufb        %xmm0,%xmm2
   .byte  102,15,108,211                      // punpcklqdq    %xmm3,%xmm2
@@ -52451,7 +52416,7 @@ HIDDEN _sk_swap_rb_sse41_8bit
 .globl _sk_swap_rb_sse41_8bit
 FUNCTION(_sk_swap_rb_sse41_8bit)
 _sk_swap_rb_sse41_8bit:
-  .byte  102,15,56,0,5,142,14,0,0            // pshufb        0xe8e(%rip),%xmm0        # 1040 <_sk_xor__sse41_8bit+0x10a>
+  .byte  102,15,56,0,5,135,14,0,0            // pshufb        0xe87(%rip),%xmm0        # ff0 <_sk_xor__sse41_8bit+0x103>
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
 
@@ -52468,25 +52433,25 @@ _sk_load_8888_sse41_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,10                              // jne           1e1 <_sk_load_8888_sse41_8bit+0x2b>
+  .byte  117,10                              // jne           198 <_sk_load_8888_sse41_8bit+0x2b>
   .byte  243,66,15,111,4,130                 // movdqu        (%rdx,%r8,4),%xmm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,42                              // je            215 <_sk_load_8888_sse41_8bit+0x5f>
+  .byte  116,42                              // je            1cc <_sk_load_8888_sse41_8bit+0x5f>
   .byte  102,15,239,192                      // pxor          %xmm0,%xmm0
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            207 <_sk_load_8888_sse41_8bit+0x51>
+  .byte  116,18                              // je            1be <_sk_load_8888_sse41_8bit+0x51>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,226                             // jne           1dd <_sk_load_8888_sse41_8bit+0x27>
+  .byte  117,226                             // jne           194 <_sk_load_8888_sse41_8bit+0x27>
   .byte  102,66,15,110,68,130,8              // movd          0x8(%rdx,%r8,4),%xmm0
   .byte  102,15,112,192,69                   // pshufd        $0x45,%xmm0,%xmm0
   .byte  243,66,15,126,20,130                // movq          (%rdx,%r8,4),%xmm2
   .byte  102,15,58,14,194,15                 // pblendw       $0xf,%xmm2,%xmm0
-  .byte  235,200                             // jmp           1dd <_sk_load_8888_sse41_8bit+0x27>
+  .byte  235,200                             // jmp           194 <_sk_load_8888_sse41_8bit+0x27>
   .byte  102,66,15,110,4,130                 // movd          (%rdx,%r8,4),%xmm0
-  .byte  235,192                             // jmp           1dd <_sk_load_8888_sse41_8bit+0x27>
+  .byte  235,192                             // jmp           194 <_sk_load_8888_sse41_8bit+0x27>
 
 HIDDEN _sk_load_8888_dst_sse41_8bit
 .globl _sk_load_8888_dst_sse41_8bit
@@ -52501,25 +52466,25 @@ _sk_load_8888_dst_sse41_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,10                              // jne           248 <_sk_load_8888_dst_sse41_8bit+0x2b>
+  .byte  117,10                              // jne           1ff <_sk_load_8888_dst_sse41_8bit+0x2b>
   .byte  243,66,15,111,12,130                // movdqu        (%rdx,%r8,4),%xmm1
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,42                              // je            27c <_sk_load_8888_dst_sse41_8bit+0x5f>
+  .byte  116,42                              // je            233 <_sk_load_8888_dst_sse41_8bit+0x5f>
   .byte  102,15,239,201                      // pxor          %xmm1,%xmm1
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            26e <_sk_load_8888_dst_sse41_8bit+0x51>
+  .byte  116,18                              // je            225 <_sk_load_8888_dst_sse41_8bit+0x51>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,226                             // jne           244 <_sk_load_8888_dst_sse41_8bit+0x27>
+  .byte  117,226                             // jne           1fb <_sk_load_8888_dst_sse41_8bit+0x27>
   .byte  102,66,15,110,76,130,8              // movd          0x8(%rdx,%r8,4),%xmm1
   .byte  102,15,112,201,69                   // pshufd        $0x45,%xmm1,%xmm1
   .byte  243,66,15,126,20,130                // movq          (%rdx,%r8,4),%xmm2
   .byte  102,15,58,14,202,15                 // pblendw       $0xf,%xmm2,%xmm1
-  .byte  235,200                             // jmp           244 <_sk_load_8888_dst_sse41_8bit+0x27>
+  .byte  235,200                             // jmp           1fb <_sk_load_8888_dst_sse41_8bit+0x27>
   .byte  102,66,15,110,12,130                // movd          (%rdx,%r8,4),%xmm1
-  .byte  235,192                             // jmp           244 <_sk_load_8888_dst_sse41_8bit+0x27>
+  .byte  235,192                             // jmp           1fb <_sk_load_8888_dst_sse41_8bit+0x27>
 
 HIDDEN _sk_store_8888_sse41_8bit
 .globl _sk_store_8888_sse41_8bit
@@ -52534,22 +52499,22 @@ _sk_store_8888_sse41_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,10                              // jne           2af <_sk_store_8888_sse41_8bit+0x2b>
+  .byte  117,10                              // jne           266 <_sk_store_8888_sse41_8bit+0x2b>
   .byte  243,66,15,127,4,130                 // movdqu        %xmm0,(%rdx,%r8,4)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,29                              // je            2d6 <_sk_store_8888_sse41_8bit+0x52>
+  .byte  116,29                              // je            28d <_sk_store_8888_sse41_8bit+0x52>
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,15                              // je            2ce <_sk_store_8888_sse41_8bit+0x4a>
+  .byte  116,15                              // je            285 <_sk_store_8888_sse41_8bit+0x4a>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,230                             // jne           2ab <_sk_store_8888_sse41_8bit+0x27>
+  .byte  117,230                             // jne           262 <_sk_store_8888_sse41_8bit+0x27>
   .byte  102,66,15,58,22,68,130,8,2          // pextrd        $0x2,%xmm0,0x8(%rdx,%r8,4)
   .byte  102,66,15,214,4,130                 // movq          %xmm0,(%rdx,%r8,4)
-  .byte  235,213                             // jmp           2ab <_sk_store_8888_sse41_8bit+0x27>
+  .byte  235,213                             // jmp           262 <_sk_store_8888_sse41_8bit+0x27>
   .byte  102,66,15,126,4,130                 // movd          %xmm0,(%rdx,%r8,4)
-  .byte  235,205                             // jmp           2ab <_sk_store_8888_sse41_8bit+0x27>
+  .byte  235,205                             // jmp           262 <_sk_store_8888_sse41_8bit+0x27>
 
 HIDDEN _sk_load_bgra_sse41_8bit
 .globl _sk_load_bgra_sse41_8bit
@@ -52564,26 +52529,26 @@ _sk_load_bgra_sse41_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,19                              // jne           312 <_sk_load_bgra_sse41_8bit+0x34>
+  .byte  117,19                              // jne           2c9 <_sk_load_bgra_sse41_8bit+0x34>
   .byte  243,66,15,111,4,130                 // movdqu        (%rdx,%r8,4),%xmm0
-  .byte  102,15,56,0,5,66,13,0,0             // pshufb        0xd42(%rip),%xmm0        # 1050 <_sk_xor__sse41_8bit+0x11a>
+  .byte  102,15,56,0,5,59,13,0,0             // pshufb        0xd3b(%rip),%xmm0        # 1000 <_sk_xor__sse41_8bit+0x113>
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,42                              // je            346 <_sk_load_bgra_sse41_8bit+0x68>
+  .byte  116,42                              // je            2fd <_sk_load_bgra_sse41_8bit+0x68>
   .byte  102,15,239,192                      // pxor          %xmm0,%xmm0
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            338 <_sk_load_bgra_sse41_8bit+0x5a>
+  .byte  116,18                              // je            2ef <_sk_load_bgra_sse41_8bit+0x5a>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,217                             // jne           305 <_sk_load_bgra_sse41_8bit+0x27>
+  .byte  117,217                             // jne           2bc <_sk_load_bgra_sse41_8bit+0x27>
   .byte  102,66,15,110,68,130,8              // movd          0x8(%rdx,%r8,4),%xmm0
   .byte  102,15,112,192,69                   // pshufd        $0x45,%xmm0,%xmm0
   .byte  243,66,15,126,20,130                // movq          (%rdx,%r8,4),%xmm2
   .byte  102,15,58,14,194,15                 // pblendw       $0xf,%xmm2,%xmm0
-  .byte  235,191                             // jmp           305 <_sk_load_bgra_sse41_8bit+0x27>
+  .byte  235,191                             // jmp           2bc <_sk_load_bgra_sse41_8bit+0x27>
   .byte  102,66,15,110,4,130                 // movd          (%rdx,%r8,4),%xmm0
-  .byte  235,183                             // jmp           305 <_sk_load_bgra_sse41_8bit+0x27>
+  .byte  235,183                             // jmp           2bc <_sk_load_bgra_sse41_8bit+0x27>
 
 HIDDEN _sk_load_bgra_dst_sse41_8bit
 .globl _sk_load_bgra_dst_sse41_8bit
@@ -52598,26 +52563,26 @@ _sk_load_bgra_dst_sse41_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,19                              // jne           382 <_sk_load_bgra_dst_sse41_8bit+0x34>
+  .byte  117,19                              // jne           339 <_sk_load_bgra_dst_sse41_8bit+0x34>
   .byte  243,66,15,111,12,130                // movdqu        (%rdx,%r8,4),%xmm1
-  .byte  102,15,56,0,13,226,12,0,0           // pshufb        0xce2(%rip),%xmm1        # 1060 <_sk_xor__sse41_8bit+0x12a>
+  .byte  102,15,56,0,13,219,12,0,0           // pshufb        0xcdb(%rip),%xmm1        # 1010 <_sk_xor__sse41_8bit+0x123>
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,42                              // je            3b6 <_sk_load_bgra_dst_sse41_8bit+0x68>
+  .byte  116,42                              // je            36d <_sk_load_bgra_dst_sse41_8bit+0x68>
   .byte  102,15,239,201                      // pxor          %xmm1,%xmm1
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            3a8 <_sk_load_bgra_dst_sse41_8bit+0x5a>
+  .byte  116,18                              // je            35f <_sk_load_bgra_dst_sse41_8bit+0x5a>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,217                             // jne           375 <_sk_load_bgra_dst_sse41_8bit+0x27>
+  .byte  117,217                             // jne           32c <_sk_load_bgra_dst_sse41_8bit+0x27>
   .byte  102,66,15,110,76,130,8              // movd          0x8(%rdx,%r8,4),%xmm1
   .byte  102,15,112,201,69                   // pshufd        $0x45,%xmm1,%xmm1
   .byte  243,66,15,126,20,130                // movq          (%rdx,%r8,4),%xmm2
   .byte  102,15,58,14,202,15                 // pblendw       $0xf,%xmm2,%xmm1
-  .byte  235,191                             // jmp           375 <_sk_load_bgra_dst_sse41_8bit+0x27>
+  .byte  235,191                             // jmp           32c <_sk_load_bgra_dst_sse41_8bit+0x27>
   .byte  102,66,15,110,12,130                // movd          (%rdx,%r8,4),%xmm1
-  .byte  235,183                             // jmp           375 <_sk_load_bgra_dst_sse41_8bit+0x27>
+  .byte  235,183                             // jmp           32c <_sk_load_bgra_dst_sse41_8bit+0x27>
 
 HIDDEN _sk_store_bgra_sse41_8bit
 .globl _sk_store_bgra_sse41_8bit
@@ -52632,24 +52597,24 @@ _sk_store_bgra_sse41_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  102,15,111,208                      // movdqa        %xmm0,%xmm2
-  .byte  102,15,56,0,21,137,12,0,0           // pshufb        0xc89(%rip),%xmm2        # 1070 <_sk_xor__sse41_8bit+0x13a>
+  .byte  102,15,56,0,21,130,12,0,0           // pshufb        0xc82(%rip),%xmm2        # 1020 <_sk_xor__sse41_8bit+0x133>
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,10                              // jne           3f6 <_sk_store_bgra_sse41_8bit+0x38>
+  .byte  117,10                              // jne           3ad <_sk_store_bgra_sse41_8bit+0x38>
   .byte  243,66,15,127,20,130                // movdqu        %xmm2,(%rdx,%r8,4)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,29                              // je            41d <_sk_store_bgra_sse41_8bit+0x5f>
+  .byte  116,29                              // je            3d4 <_sk_store_bgra_sse41_8bit+0x5f>
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,15                              // je            415 <_sk_store_bgra_sse41_8bit+0x57>
+  .byte  116,15                              // je            3cc <_sk_store_bgra_sse41_8bit+0x57>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,230                             // jne           3f2 <_sk_store_bgra_sse41_8bit+0x34>
+  .byte  117,230                             // jne           3a9 <_sk_store_bgra_sse41_8bit+0x34>
   .byte  102,66,15,58,22,84,130,8,2          // pextrd        $0x2,%xmm2,0x8(%rdx,%r8,4)
   .byte  102,66,15,214,20,130                // movq          %xmm2,(%rdx,%r8,4)
-  .byte  235,213                             // jmp           3f2 <_sk_store_bgra_sse41_8bit+0x34>
+  .byte  235,213                             // jmp           3a9 <_sk_store_bgra_sse41_8bit+0x34>
   .byte  102,66,15,126,20,130                // movd          %xmm2,(%rdx,%r8,4)
-  .byte  235,205                             // jmp           3f2 <_sk_store_bgra_sse41_8bit+0x34>
+  .byte  235,205                             // jmp           3a9 <_sk_store_bgra_sse41_8bit+0x34>
 
 HIDDEN _sk_load_a8_sse41_8bit
 .globl _sk_load_a8_sse41_8bit
@@ -52663,19 +52628,19 @@ _sk_load_a8_sse41_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,16                              // jne           452 <_sk_load_a8_sse41_8bit+0x2d>
+  .byte  117,16                              // jne           409 <_sk_load_a8_sse41_8bit+0x2d>
   .byte  102,66,15,56,49,4,2                 // pmovzxbd      (%rdx,%r8,1),%xmm0
   .byte  102,15,114,240,24                   // pslld         $0x18,%xmm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,53                              // je            491 <_sk_load_a8_sse41_8bit+0x6c>
+  .byte  116,53                              // je            448 <_sk_load_a8_sse41_8bit+0x6c>
   .byte  102,15,239,192                      // pxor          %xmm0,%xmm0
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            47b <_sk_load_a8_sse41_8bit+0x56>
+  .byte  116,21                              // je            432 <_sk_load_a8_sse41_8bit+0x56>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,221                             // jne           449 <_sk_load_a8_sse41_8bit+0x24>
+  .byte  117,221                             // jne           400 <_sk_load_a8_sse41_8bit+0x24>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,192                      // movd          %eax,%xmm0
   .byte  102,15,112,192,69                   // pshufd        $0x45,%xmm0,%xmm0
@@ -52683,10 +52648,10 @@ _sk_load_a8_sse41_8bit:
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,56,49,210                    // pmovzxbd      %xmm2,%xmm2
   .byte  102,15,58,14,194,15                 // pblendw       $0xf,%xmm2,%xmm0
-  .byte  235,184                             // jmp           449 <_sk_load_a8_sse41_8bit+0x24>
+  .byte  235,184                             // jmp           400 <_sk_load_a8_sse41_8bit+0x24>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,192                      // movd          %eax,%xmm0
-  .byte  235,173                             // jmp           449 <_sk_load_a8_sse41_8bit+0x24>
+  .byte  235,173                             // jmp           400 <_sk_load_a8_sse41_8bit+0x24>
 
 HIDDEN _sk_load_a8_dst_sse41_8bit
 .globl _sk_load_a8_dst_sse41_8bit
@@ -52700,19 +52665,19 @@ _sk_load_a8_dst_sse41_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,16                              // jne           4c9 <_sk_load_a8_dst_sse41_8bit+0x2d>
+  .byte  117,16                              // jne           480 <_sk_load_a8_dst_sse41_8bit+0x2d>
   .byte  102,66,15,56,49,12,2                // pmovzxbd      (%rdx,%r8,1),%xmm1
   .byte  102,15,114,241,24                   // pslld         $0x18,%xmm1
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,53                              // je            508 <_sk_load_a8_dst_sse41_8bit+0x6c>
+  .byte  116,53                              // je            4bf <_sk_load_a8_dst_sse41_8bit+0x6c>
   .byte  102,15,239,201                      // pxor          %xmm1,%xmm1
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            4f2 <_sk_load_a8_dst_sse41_8bit+0x56>
+  .byte  116,21                              // je            4a9 <_sk_load_a8_dst_sse41_8bit+0x56>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,221                             // jne           4c0 <_sk_load_a8_dst_sse41_8bit+0x24>
+  .byte  117,221                             // jne           477 <_sk_load_a8_dst_sse41_8bit+0x24>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,200                      // movd          %eax,%xmm1
   .byte  102,15,112,201,69                   // pshufd        $0x45,%xmm1,%xmm1
@@ -52720,10 +52685,10 @@ _sk_load_a8_dst_sse41_8bit:
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,56,49,210                    // pmovzxbd      %xmm2,%xmm2
   .byte  102,15,58,14,202,15                 // pblendw       $0xf,%xmm2,%xmm1
-  .byte  235,184                             // jmp           4c0 <_sk_load_a8_dst_sse41_8bit+0x24>
+  .byte  235,184                             // jmp           477 <_sk_load_a8_dst_sse41_8bit+0x24>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,200                      // movd          %eax,%xmm1
-  .byte  235,173                             // jmp           4c0 <_sk_load_a8_dst_sse41_8bit+0x24>
+  .byte  235,173                             // jmp           477 <_sk_load_a8_dst_sse41_8bit+0x24>
 
 HIDDEN _sk_store_a8_sse41_8bit
 .globl _sk_store_a8_sse41_8bit
@@ -52739,24 +52704,24 @@ _sk_store_a8_sse41_8bit:
   .byte  102,15,111,208                      // movdqa        %xmm0,%xmm2
   .byte  102,15,114,210,24                   // psrld         $0x18,%xmm2
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,19                              // jne           54c <_sk_store_a8_sse41_8bit+0x39>
-  .byte  102,15,56,0,21,78,11,0,0            // pshufb        0xb4e(%rip),%xmm2        # 1090 <_sk_xor__sse41_8bit+0x15a>
+  .byte  117,19                              // jne           503 <_sk_store_a8_sse41_8bit+0x39>
+  .byte  102,15,56,0,21,71,11,0,0            // pshufb        0xb47(%rip),%xmm2        # 1040 <_sk_xor__sse41_8bit+0x153>
   .byte  102,66,15,126,20,2                  // movd          %xmm2,(%rdx,%r8,1)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,40                              // je            57e <_sk_store_a8_sse41_8bit+0x6b>
+  .byte  116,40                              // je            535 <_sk_store_a8_sse41_8bit+0x6b>
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,15                              // je            56b <_sk_store_a8_sse41_8bit+0x58>
+  .byte  116,15                              // je            522 <_sk_store_a8_sse41_8bit+0x58>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,230                             // jne           548 <_sk_store_a8_sse41_8bit+0x35>
+  .byte  117,230                             // jne           4ff <_sk_store_a8_sse41_8bit+0x35>
   .byte  102,66,15,58,20,84,2,2,8            // pextrb        $0x8,%xmm2,0x2(%rdx,%r8,1)
-  .byte  102,15,56,0,21,12,11,0,0            // pshufb        0xb0c(%rip),%xmm2        # 1080 <_sk_xor__sse41_8bit+0x14a>
+  .byte  102,15,56,0,21,5,11,0,0             // pshufb        0xb05(%rip),%xmm2        # 1030 <_sk_xor__sse41_8bit+0x143>
   .byte  102,66,15,58,21,20,2,0              // pextrw        $0x0,%xmm2,(%rdx,%r8,1)
-  .byte  235,202                             // jmp           548 <_sk_store_a8_sse41_8bit+0x35>
+  .byte  235,202                             // jmp           4ff <_sk_store_a8_sse41_8bit+0x35>
   .byte  102,66,15,58,20,20,2,0              // pextrb        $0x0,%xmm2,(%rdx,%r8,1)
-  .byte  235,192                             // jmp           548 <_sk_store_a8_sse41_8bit+0x35>
+  .byte  235,192                             // jmp           4ff <_sk_store_a8_sse41_8bit+0x35>
 
 HIDDEN _sk_load_g8_sse41_8bit
 .globl _sk_load_g8_sse41_8bit
@@ -52770,21 +52735,21 @@ _sk_load_g8_sse41_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,36                              // jne           5c9 <_sk_load_g8_sse41_8bit+0x41>
+  .byte  117,36                              // jne           580 <_sk_load_g8_sse41_8bit+0x41>
   .byte  102,66,15,56,49,4,2                 // pmovzxbd      (%rdx,%r8,1),%xmm0
-  .byte  102,15,219,5,236,10,0,0             // pand          0xaec(%rip),%xmm0        # 10a0 <_sk_xor__sse41_8bit+0x16a>
-  .byte  102,15,56,64,5,243,10,0,0           // pmulld        0xaf3(%rip),%xmm0        # 10b0 <_sk_xor__sse41_8bit+0x17a>
-  .byte  102,15,235,5,251,10,0,0             // por           0xafb(%rip),%xmm0        # 10c0 <_sk_xor__sse41_8bit+0x18a>
+  .byte  102,15,219,5,229,10,0,0             // pand          0xae5(%rip),%xmm0        # 1050 <_sk_xor__sse41_8bit+0x163>
+  .byte  102,15,56,64,5,236,10,0,0           // pmulld        0xaec(%rip),%xmm0        # 1060 <_sk_xor__sse41_8bit+0x173>
+  .byte  102,15,235,5,244,10,0,0             // por           0xaf4(%rip),%xmm0        # 1070 <_sk_xor__sse41_8bit+0x183>
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,53                              // je            608 <_sk_load_g8_sse41_8bit+0x80>
+  .byte  116,53                              // je            5bf <_sk_load_g8_sse41_8bit+0x80>
   .byte  102,15,239,192                      // pxor          %xmm0,%xmm0
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            5f2 <_sk_load_g8_sse41_8bit+0x6a>
+  .byte  116,21                              // je            5a9 <_sk_load_g8_sse41_8bit+0x6a>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,201                             // jne           5ac <_sk_load_g8_sse41_8bit+0x24>
+  .byte  117,201                             // jne           563 <_sk_load_g8_sse41_8bit+0x24>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,192                      // movd          %eax,%xmm0
   .byte  102,15,112,192,69                   // pshufd        $0x45,%xmm0,%xmm0
@@ -52792,10 +52757,10 @@ _sk_load_g8_sse41_8bit:
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,56,49,210                    // pmovzxbd      %xmm2,%xmm2
   .byte  102,15,58,14,194,15                 // pblendw       $0xf,%xmm2,%xmm0
-  .byte  235,164                             // jmp           5ac <_sk_load_g8_sse41_8bit+0x24>
+  .byte  235,164                             // jmp           563 <_sk_load_g8_sse41_8bit+0x24>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,192                      // movd          %eax,%xmm0
-  .byte  235,153                             // jmp           5ac <_sk_load_g8_sse41_8bit+0x24>
+  .byte  235,153                             // jmp           563 <_sk_load_g8_sse41_8bit+0x24>
 
 HIDDEN _sk_load_g8_dst_sse41_8bit
 .globl _sk_load_g8_dst_sse41_8bit
@@ -52809,21 +52774,21 @@ _sk_load_g8_dst_sse41_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,36                              // jne           654 <_sk_load_g8_dst_sse41_8bit+0x41>
+  .byte  117,36                              // jne           60b <_sk_load_g8_dst_sse41_8bit+0x41>
   .byte  102,66,15,56,49,12,2                // pmovzxbd      (%rdx,%r8,1),%xmm1
-  .byte  102,15,219,13,145,10,0,0            // pand          0xa91(%rip),%xmm1        # 10d0 <_sk_xor__sse41_8bit+0x19a>
-  .byte  102,15,56,64,13,152,10,0,0          // pmulld        0xa98(%rip),%xmm1        # 10e0 <_sk_xor__sse41_8bit+0x1aa>
-  .byte  102,15,235,13,160,10,0,0            // por           0xaa0(%rip),%xmm1        # 10f0 <_sk_xor__sse41_8bit+0x1ba>
+  .byte  102,15,219,13,138,10,0,0            // pand          0xa8a(%rip),%xmm1        # 1080 <_sk_xor__sse41_8bit+0x193>
+  .byte  102,15,56,64,13,145,10,0,0          // pmulld        0xa91(%rip),%xmm1        # 1090 <_sk_xor__sse41_8bit+0x1a3>
+  .byte  102,15,235,13,153,10,0,0            // por           0xa99(%rip),%xmm1        # 10a0 <_sk_xor__sse41_8bit+0x1b3>
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,53                              // je            693 <_sk_load_g8_dst_sse41_8bit+0x80>
+  .byte  116,53                              // je            64a <_sk_load_g8_dst_sse41_8bit+0x80>
   .byte  102,15,239,201                      // pxor          %xmm1,%xmm1
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            67d <_sk_load_g8_dst_sse41_8bit+0x6a>
+  .byte  116,21                              // je            634 <_sk_load_g8_dst_sse41_8bit+0x6a>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,201                             // jne           637 <_sk_load_g8_dst_sse41_8bit+0x24>
+  .byte  117,201                             // jne           5ee <_sk_load_g8_dst_sse41_8bit+0x24>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,200                      // movd          %eax,%xmm1
   .byte  102,15,112,201,69                   // pshufd        $0x45,%xmm1,%xmm1
@@ -52831,10 +52796,10 @@ _sk_load_g8_dst_sse41_8bit:
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,56,49,210                    // pmovzxbd      %xmm2,%xmm2
   .byte  102,15,58,14,202,15                 // pblendw       $0xf,%xmm2,%xmm1
-  .byte  235,164                             // jmp           637 <_sk_load_g8_dst_sse41_8bit+0x24>
+  .byte  235,164                             // jmp           5ee <_sk_load_g8_dst_sse41_8bit+0x24>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,200                      // movd          %eax,%xmm1
-  .byte  235,153                             // jmp           637 <_sk_load_g8_dst_sse41_8bit+0x24>
+  .byte  235,153                             // jmp           5ee <_sk_load_g8_dst_sse41_8bit+0x24>
 
 HIDDEN _sk_srcover_rgba_8888_sse41_8bit
 .globl _sk_srcover_rgba_8888_sse41_8bit
@@ -52849,11 +52814,11 @@ _sk_srcover_rgba_8888_sse41_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,106                             // jne           729 <_sk_srcover_rgba_8888_sse41_8bit+0x8b>
+  .byte  117,106                             // jne           6e0 <_sk_srcover_rgba_8888_sse41_8bit+0x8b>
   .byte  243,66,15,111,20,130                // movdqu        (%rdx,%r8,4),%xmm2
   .byte  77,133,201                          // test          %r9,%r9
   .byte  102,15,111,216                      // movdqa        %xmm0,%xmm3
-  .byte  102,15,56,0,29,43,10,0,0            // pshufb        0xa2b(%rip),%xmm3        # 1100 <_sk_xor__sse41_8bit+0x1ca>
+  .byte  102,15,56,0,29,36,10,0,0            // pshufb        0xa24(%rip),%xmm3        # 10b0 <_sk_xor__sse41_8bit+0x1c3>
   .byte  102,15,239,228                      // pxor          %xmm4,%xmm4
   .byte  102,15,111,234                      // movdqa        %xmm2,%xmm5
   .byte  102,15,104,236                      // punpckhbw     %xmm4,%xmm5
@@ -52864,44 +52829,44 @@ _sk_srcover_rgba_8888_sse41_8bit:
   .byte  102,15,213,254                      // pmullw        %xmm6,%xmm7
   .byte  102,15,253,221                      // paddw         %xmm5,%xmm3
   .byte  102,15,253,254                      // paddw         %xmm6,%xmm7
-  .byte  102,15,111,37,9,10,0,0              // movdqa        0xa09(%rip),%xmm4        # 1110 <_sk_xor__sse41_8bit+0x1da>
+  .byte  102,15,111,37,2,10,0,0              // movdqa        0xa02(%rip),%xmm4        # 10c0 <_sk_xor__sse41_8bit+0x1d3>
   .byte  102,15,56,0,220                     // pshufb        %xmm4,%xmm3
   .byte  102,15,56,0,252                     // pshufb        %xmm4,%xmm7
   .byte  102,15,108,251                      // punpcklqdq    %xmm3,%xmm7
   .byte  102,15,248,215                      // psubb         %xmm7,%xmm2
   .byte  102,15,252,208                      // paddb         %xmm0,%xmm2
-  .byte  117,60                              // jne           75b <_sk_srcover_rgba_8888_sse41_8bit+0xbd>
+  .byte  117,60                              // jne           712 <_sk_srcover_rgba_8888_sse41_8bit+0xbd>
   .byte  243,66,15,127,20,130                // movdqu        %xmm2,(%rdx,%r8,4)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  68,137,200                          // mov           %r9d,%eax
   .byte  36,3                                // and           $0x3,%al
   .byte  60,1                                // cmp           $0x1,%al
-  .byte  116,80                              // je            782 <_sk_srcover_rgba_8888_sse41_8bit+0xe4>
+  .byte  116,80                              // je            739 <_sk_srcover_rgba_8888_sse41_8bit+0xe4>
   .byte  102,15,239,210                      // pxor          %xmm2,%xmm2
   .byte  60,2                                // cmp           $0x2,%al
-  .byte  116,16                              // je            74a <_sk_srcover_rgba_8888_sse41_8bit+0xac>
+  .byte  116,16                              // je            701 <_sk_srcover_rgba_8888_sse41_8bit+0xac>
   .byte  60,3                                // cmp           $0x3,%al
-  .byte  117,135                             // jne           6c5 <_sk_srcover_rgba_8888_sse41_8bit+0x27>
+  .byte  117,135                             // jne           67c <_sk_srcover_rgba_8888_sse41_8bit+0x27>
   .byte  102,66,15,110,84,130,8              // movd          0x8(%rdx,%r8,4),%xmm2
   .byte  102,15,112,210,69                   // pshufd        $0x45,%xmm2,%xmm2
   .byte  243,66,15,126,28,130                // movq          (%rdx,%r8,4),%xmm3
   .byte  102,15,58,14,211,15                 // pblendw       $0xf,%xmm3,%xmm2
-  .byte  233,106,255,255,255                 // jmpq          6c5 <_sk_srcover_rgba_8888_sse41_8bit+0x27>
+  .byte  233,106,255,255,255                 // jmpq          67c <_sk_srcover_rgba_8888_sse41_8bit+0x27>
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,40                              // je            78d <_sk_srcover_rgba_8888_sse41_8bit+0xef>
+  .byte  116,40                              // je            744 <_sk_srcover_rgba_8888_sse41_8bit+0xef>
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,15                              // je            77a <_sk_srcover_rgba_8888_sse41_8bit+0xdc>
+  .byte  116,15                              // je            731 <_sk_srcover_rgba_8888_sse41_8bit+0xdc>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,180                             // jne           725 <_sk_srcover_rgba_8888_sse41_8bit+0x87>
+  .byte  117,180                             // jne           6dc <_sk_srcover_rgba_8888_sse41_8bit+0x87>
   .byte  102,66,15,58,22,84,130,8,2          // pextrd        $0x2,%xmm2,0x8(%rdx,%r8,4)
   .byte  102,66,15,214,20,130                // movq          %xmm2,(%rdx,%r8,4)
-  .byte  235,163                             // jmp           725 <_sk_srcover_rgba_8888_sse41_8bit+0x87>
+  .byte  235,163                             // jmp           6dc <_sk_srcover_rgba_8888_sse41_8bit+0x87>
   .byte  102,66,15,110,20,130                // movd          (%rdx,%r8,4),%xmm2
-  .byte  233,56,255,255,255                  // jmpq          6c5 <_sk_srcover_rgba_8888_sse41_8bit+0x27>
+  .byte  233,56,255,255,255                  // jmpq          67c <_sk_srcover_rgba_8888_sse41_8bit+0x27>
   .byte  102,66,15,126,20,130                // movd          %xmm2,(%rdx,%r8,4)
-  .byte  235,144                             // jmp           725 <_sk_srcover_rgba_8888_sse41_8bit+0x87>
+  .byte  235,144                             // jmp           6dc <_sk_srcover_rgba_8888_sse41_8bit+0x87>
 
 HIDDEN _sk_scale_1_float_sse41_8bit
 .globl _sk_scale_1_float_sse41_8bit
@@ -52909,19 +52874,19 @@ FUNCTION(_sk_scale_1_float_sse41_8bit)
 _sk_scale_1_float_sse41_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  243,15,16,16                        // movss         (%rax),%xmm2
-  .byte  243,15,89,21,73,8,0,0               // mulss         0x849(%rip),%xmm2        # fec <_sk_xor__sse41_8bit+0xb6>
+  .byte  243,15,89,21,70,8,0,0               // mulss         0x846(%rip),%xmm2        # fa0 <_sk_xor__sse41_8bit+0xb3>
   .byte  243,15,44,194                       // cvttss2si     %xmm2,%eax
   .byte  102,15,110,216                      // movd          %eax,%xmm3
   .byte  15,87,210                           // xorps         %xmm2,%xmm2
   .byte  102,15,56,48,224                    // pmovzxbw      %xmm0,%xmm4
   .byte  102,15,104,194                      // punpckhbw     %xmm2,%xmm0
-  .byte  102,15,56,0,29,96,9,0,0             // pshufb        0x960(%rip),%xmm3        # 1120 <_sk_xor__sse41_8bit+0x1ea>
+  .byte  102,15,56,0,29,89,9,0,0             // pshufb        0x959(%rip),%xmm3        # 10d0 <_sk_xor__sse41_8bit+0x1e3>
   .byte  102,15,111,211                      // movdqa        %xmm3,%xmm2
   .byte  102,15,213,212                      // pmullw        %xmm4,%xmm2
   .byte  102,15,213,216                      // pmullw        %xmm0,%xmm3
   .byte  102,15,253,216                      // paddw         %xmm0,%xmm3
   .byte  102,15,253,212                      // paddw         %xmm4,%xmm2
-  .byte  102,15,111,5,84,9,0,0               // movdqa        0x954(%rip),%xmm0        # 1130 <_sk_xor__sse41_8bit+0x1fa>
+  .byte  102,15,111,5,77,9,0,0               // movdqa        0x94d(%rip),%xmm0        # 10e0 <_sk_xor__sse41_8bit+0x1f3>
   .byte  102,15,56,0,216                     // pshufb        %xmm0,%xmm3
   .byte  102,15,56,0,208                     // pshufb        %xmm0,%xmm2
   .byte  102,15,108,211                      // punpcklqdq    %xmm3,%xmm2
@@ -52941,10 +52906,10 @@ _sk_scale_u8_sse41_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,84                              // jne           863 <_sk_scale_u8_sse41_8bit+0x71>
+  .byte  117,84                              // jne           81a <_sk_scale_u8_sse41_8bit+0x71>
   .byte  102,66,15,56,49,28,2                // pmovzxbd      (%rdx,%r8,1),%xmm3
   .byte  102,15,239,228                      // pxor          %xmm4,%xmm4
-  .byte  102,15,56,0,29,29,9,0,0             // pshufb        0x91d(%rip),%xmm3        # 1140 <_sk_xor__sse41_8bit+0x20a>
+  .byte  102,15,56,0,29,22,9,0,0             // pshufb        0x916(%rip),%xmm3        # 10f0 <_sk_xor__sse41_8bit+0x203>
   .byte  102,15,56,48,232                    // pmovzxbw      %xmm0,%xmm5
   .byte  102,15,104,196                      // punpckhbw     %xmm4,%xmm0
   .byte  102,15,56,48,211                    // pmovzxbw      %xmm3,%xmm2
@@ -52953,7 +52918,7 @@ _sk_scale_u8_sse41_8bit:
   .byte  102,15,213,213                      // pmullw        %xmm5,%xmm2
   .byte  102,15,253,216                      // paddw         %xmm0,%xmm3
   .byte  102,15,253,213                      // paddw         %xmm5,%xmm2
-  .byte  102,15,111,5,3,9,0,0                // movdqa        0x903(%rip),%xmm0        # 1150 <_sk_xor__sse41_8bit+0x21a>
+  .byte  102,15,111,5,252,8,0,0              // movdqa        0x8fc(%rip),%xmm0        # 1100 <_sk_xor__sse41_8bit+0x213>
   .byte  102,15,56,0,216                     // pshufb        %xmm0,%xmm3
   .byte  102,15,56,0,208                     // pshufb        %xmm0,%xmm2
   .byte  102,15,108,211                      // punpcklqdq    %xmm3,%xmm2
@@ -52962,12 +52927,12 @@ _sk_scale_u8_sse41_8bit:
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,56                              // je            8a5 <_sk_scale_u8_sse41_8bit+0xb3>
+  .byte  116,56                              // je            85c <_sk_scale_u8_sse41_8bit+0xb3>
   .byte  102,15,239,219                      // pxor          %xmm3,%xmm3
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            88c <_sk_scale_u8_sse41_8bit+0x9a>
+  .byte  116,21                              // je            843 <_sk_scale_u8_sse41_8bit+0x9a>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,153                             // jne           816 <_sk_scale_u8_sse41_8bit+0x24>
+  .byte  117,153                             // jne           7cd <_sk_scale_u8_sse41_8bit+0x24>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,112,218,69                   // pshufd        $0x45,%xmm2,%xmm3
@@ -52975,10 +52940,10 @@ _sk_scale_u8_sse41_8bit:
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,56,49,210                    // pmovzxbd      %xmm2,%xmm2
   .byte  102,15,58,14,218,15                 // pblendw       $0xf,%xmm2,%xmm3
-  .byte  233,113,255,255,255                 // jmpq          816 <_sk_scale_u8_sse41_8bit+0x24>
+  .byte  233,113,255,255,255                 // jmpq          7cd <_sk_scale_u8_sse41_8bit+0x24>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,216                      // movd          %eax,%xmm3
-  .byte  233,99,255,255,255                  // jmpq          816 <_sk_scale_u8_sse41_8bit+0x24>
+  .byte  233,99,255,255,255                  // jmpq          7cd <_sk_scale_u8_sse41_8bit+0x24>
 
 HIDDEN _sk_lerp_1_float_sse41_8bit
 .globl _sk_lerp_1_float_sse41_8bit
@@ -52986,21 +52951,21 @@ FUNCTION(_sk_lerp_1_float_sse41_8bit)
 _sk_lerp_1_float_sse41_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  243,15,16,16                        // movss         (%rax),%xmm2
-  .byte  243,15,89,21,47,7,0,0               // mulss         0x72f(%rip),%xmm2        # ff0 <_sk_xor__sse41_8bit+0xba>
+  .byte  243,15,89,21,44,7,0,0               // mulss         0x72c(%rip),%xmm2        # fa4 <_sk_xor__sse41_8bit+0xb7>
   .byte  243,15,44,194                       // cvttss2si     %xmm2,%eax
   .byte  102,15,110,216                      // movd          %eax,%xmm3
   .byte  102,15,239,228                      // pxor          %xmm4,%xmm4
   .byte  102,15,56,0,220                     // pshufb        %xmm4,%xmm3
   .byte  102,15,56,48,232                    // pmovzxbw      %xmm0,%xmm5
   .byte  102,15,104,196                      // punpckhbw     %xmm4,%xmm0
-  .byte  102,15,111,21,125,8,0,0             // movdqa        0x87d(%rip),%xmm2        # 1160 <_sk_xor__sse41_8bit+0x22a>
+  .byte  102,15,111,21,118,8,0,0             // movdqa        0x876(%rip),%xmm2        # 1110 <_sk_xor__sse41_8bit+0x223>
   .byte  102,15,219,211                      // pand          %xmm3,%xmm2
   .byte  102,15,111,242                      // movdqa        %xmm2,%xmm6
   .byte  102,15,213,240                      // pmullw        %xmm0,%xmm6
   .byte  102,15,213,213                      // pmullw        %xmm5,%xmm2
   .byte  102,15,253,240                      // paddw         %xmm0,%xmm6
   .byte  102,15,253,213                      // paddw         %xmm5,%xmm2
-  .byte  102,15,111,45,109,8,0,0             // movdqa        0x86d(%rip),%xmm5        # 1170 <_sk_xor__sse41_8bit+0x23a>
+  .byte  102,15,111,45,102,8,0,0             // movdqa        0x866(%rip),%xmm5        # 1120 <_sk_xor__sse41_8bit+0x233>
   .byte  102,15,56,0,245                     // pshufb        %xmm5,%xmm6
   .byte  102,15,56,0,213                     // pshufb        %xmm5,%xmm2
   .byte  102,15,108,214                      // punpcklqdq    %xmm6,%xmm2
@@ -53034,10 +52999,10 @@ _sk_lerp_u8_sse41_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  15,133,148,0,0,0                    // jne           a0a <_sk_lerp_u8_sse41_8bit+0xb5>
+  .byte  15,133,148,0,0,0                    // jne           9c1 <_sk_lerp_u8_sse41_8bit+0xb5>
   .byte  102,66,15,56,49,20,2                // pmovzxbd      (%rdx,%r8,1),%xmm2
   .byte  102,15,239,228                      // pxor          %xmm4,%xmm4
-  .byte  102,15,56,0,21,246,7,0,0            // pshufb        0x7f6(%rip),%xmm2        # 1180 <_sk_xor__sse41_8bit+0x24a>
+  .byte  102,15,56,0,21,239,7,0,0            // pshufb        0x7ef(%rip),%xmm2        # 1130 <_sk_xor__sse41_8bit+0x243>
   .byte  102,15,56,48,232                    // pmovzxbw      %xmm0,%xmm5
   .byte  102,15,104,196                      // punpckhbw     %xmm4,%xmm0
   .byte  102,15,111,242                      // movdqa        %xmm2,%xmm6
@@ -53047,7 +53012,7 @@ _sk_lerp_u8_sse41_8bit:
   .byte  102,15,213,221                      // pmullw        %xmm5,%xmm3
   .byte  102,15,253,240                      // paddw         %xmm0,%xmm6
   .byte  102,15,253,221                      // paddw         %xmm5,%xmm3
-  .byte  102,15,111,45,216,7,0,0             // movdqa        0x7d8(%rip),%xmm5        # 1190 <_sk_xor__sse41_8bit+0x25a>
+  .byte  102,15,111,45,209,7,0,0             // movdqa        0x7d1(%rip),%xmm5        # 1140 <_sk_xor__sse41_8bit+0x253>
   .byte  102,15,56,0,245                     // pshufb        %xmm5,%xmm6
   .byte  102,15,56,0,221                     // pshufb        %xmm5,%xmm3
   .byte  102,15,108,222                      // punpcklqdq    %xmm6,%xmm3
@@ -53070,12 +53035,12 @@ _sk_lerp_u8_sse41_8bit:
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,60                              // je            a50 <_sk_lerp_u8_sse41_8bit+0xfb>
+  .byte  116,60                              // je            a07 <_sk_lerp_u8_sse41_8bit+0xfb>
   .byte  102,15,239,210                      // pxor          %xmm2,%xmm2
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,25                              // je            a37 <_sk_lerp_u8_sse41_8bit+0xe2>
+  .byte  116,25                              // je            9ee <_sk_lerp_u8_sse41_8bit+0xe2>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  15,133,85,255,255,255               // jne           97d <_sk_lerp_u8_sse41_8bit+0x28>
+  .byte  15,133,85,255,255,255               // jne           934 <_sk_lerp_u8_sse41_8bit+0x28>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,112,210,69                   // pshufd        $0x45,%xmm2,%xmm2
@@ -53083,10 +53048,10 @@ _sk_lerp_u8_sse41_8bit:
   .byte  102,15,110,216                      // movd          %eax,%xmm3
   .byte  102,15,56,49,219                    // pmovzxbd      %xmm3,%xmm3
   .byte  102,15,58,14,211,15                 // pblendw       $0xf,%xmm3,%xmm2
-  .byte  233,45,255,255,255                  // jmpq          97d <_sk_lerp_u8_sse41_8bit+0x28>
+  .byte  233,45,255,255,255                  // jmpq          934 <_sk_lerp_u8_sse41_8bit+0x28>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,208                      // movd          %eax,%xmm2
-  .byte  233,31,255,255,255                  // jmpq          97d <_sk_lerp_u8_sse41_8bit+0x28>
+  .byte  233,31,255,255,255                  // jmpq          934 <_sk_lerp_u8_sse41_8bit+0x28>
 
 HIDDEN _sk_move_src_dst_sse41_8bit
 .globl _sk_move_src_dst_sse41_8bit
@@ -53109,7 +53074,7 @@ HIDDEN _sk_black_color_sse41_8bit
 FUNCTION(_sk_black_color_sse41_8bit)
 _sk_black_color_sse41_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
-  .byte  15,40,5,43,7,0,0                    // movaps        0x72b(%rip),%xmm0        # 11a0 <_sk_xor__sse41_8bit+0x26a>
+  .byte  15,40,5,36,7,0,0                    // movaps        0x724(%rip),%xmm0        # 1150 <_sk_xor__sse41_8bit+0x263>
   .byte  255,224                             // jmpq          *%rax
 
 HIDDEN _sk_white_color_sse41_8bit
@@ -53132,7 +53097,7 @@ HIDDEN _sk_srcatop_sse41_8bit
 .globl _sk_srcatop_sse41_8bit
 FUNCTION(_sk_srcatop_sse41_8bit)
 _sk_srcatop_sse41_8bit:
-  .byte  102,68,15,111,5,33,7,0,0            // movdqa        0x721(%rip),%xmm8        # 11b0 <_sk_xor__sse41_8bit+0x27a>
+  .byte  102,68,15,111,5,26,7,0,0            // movdqa        0x71a(%rip),%xmm8        # 1160 <_sk_xor__sse41_8bit+0x273>
   .byte  102,15,111,217                      // movdqa        %xmm1,%xmm3
   .byte  102,15,56,48,225                    // pmovzxbw      %xmm1,%xmm4
   .byte  102,15,111,233                      // movdqa        %xmm1,%xmm5
@@ -53147,7 +53112,7 @@ _sk_srcatop_sse41_8bit:
   .byte  102,15,56,48,248                    // pmovzxbw      %xmm0,%xmm7
   .byte  102,15,213,215                      // pmullw        %xmm7,%xmm2
   .byte  102,15,253,215                      // paddw         %xmm7,%xmm2
-  .byte  102,15,111,61,236,6,0,0             // movdqa        0x6ec(%rip),%xmm7        # 11c0 <_sk_xor__sse41_8bit+0x28a>
+  .byte  102,15,111,61,229,6,0,0             // movdqa        0x6e5(%rip),%xmm7        # 1170 <_sk_xor__sse41_8bit+0x283>
   .byte  102,15,56,0,239                     // pshufb        %xmm7,%xmm5
   .byte  102,15,56,0,215                     // pshufb        %xmm7,%xmm2
   .byte  102,15,108,213                      // punpcklqdq    %xmm5,%xmm2
@@ -53172,7 +53137,7 @@ HIDDEN _sk_dstatop_sse41_8bit
 .globl _sk_dstatop_sse41_8bit
 FUNCTION(_sk_dstatop_sse41_8bit)
 _sk_dstatop_sse41_8bit:
-  .byte  102,15,111,21,165,6,0,0             // movdqa        0x6a5(%rip),%xmm2        # 11d0 <_sk_xor__sse41_8bit+0x29a>
+  .byte  102,15,111,21,158,6,0,0             // movdqa        0x69e(%rip),%xmm2        # 1180 <_sk_xor__sse41_8bit+0x293>
   .byte  102,15,111,216                      // movdqa        %xmm0,%xmm3
   .byte  102,15,56,0,218                     // pshufb        %xmm2,%xmm3
   .byte  102,69,15,239,192                   // pxor          %xmm8,%xmm8
@@ -53186,7 +53151,7 @@ _sk_dstatop_sse41_8bit:
   .byte  102,15,253,223                      // paddw         %xmm7,%xmm3
   .byte  102,15,213,229                      // pmullw        %xmm5,%xmm4
   .byte  102,15,253,229                      // paddw         %xmm5,%xmm4
-  .byte  102,15,111,45,115,6,0,0             // movdqa        0x673(%rip),%xmm5        # 11e0 <_sk_xor__sse41_8bit+0x2aa>
+  .byte  102,15,111,45,108,6,0,0             // movdqa        0x66c(%rip),%xmm5        # 1190 <_sk_xor__sse41_8bit+0x2a3>
   .byte  102,15,56,0,221                     // pshufb        %xmm5,%xmm3
   .byte  102,15,56,0,229                     // pshufb        %xmm5,%xmm4
   .byte  102,15,108,227                      // punpcklqdq    %xmm3,%xmm4
@@ -53214,7 +53179,7 @@ HIDDEN _sk_srcin_sse41_8bit
 FUNCTION(_sk_srcin_sse41_8bit)
 _sk_srcin_sse41_8bit:
   .byte  102,15,111,217                      // movdqa        %xmm1,%xmm3
-  .byte  102,15,56,0,29,29,6,0,0             // pshufb        0x61d(%rip),%xmm3        # 11f0 <_sk_xor__sse41_8bit+0x2ba>
+  .byte  102,15,56,0,29,22,6,0,0             // pshufb        0x616(%rip),%xmm3        # 11a0 <_sk_xor__sse41_8bit+0x2b3>
   .byte  102,15,239,228                      // pxor          %xmm4,%xmm4
   .byte  102,15,56,48,232                    // pmovzxbw      %xmm0,%xmm5
   .byte  102,15,104,196                      // punpckhbw     %xmm4,%xmm0
@@ -53224,7 +53189,7 @@ _sk_srcin_sse41_8bit:
   .byte  102,15,213,213                      // pmullw        %xmm5,%xmm2
   .byte  102,15,253,216                      // paddw         %xmm0,%xmm3
   .byte  102,15,253,213                      // paddw         %xmm5,%xmm2
-  .byte  102,15,111,5,255,5,0,0              // movdqa        0x5ff(%rip),%xmm0        # 1200 <_sk_xor__sse41_8bit+0x2ca>
+  .byte  102,15,111,5,248,5,0,0              // movdqa        0x5f8(%rip),%xmm0        # 11b0 <_sk_xor__sse41_8bit+0x2c3>
   .byte  102,15,56,0,216                     // pshufb        %xmm0,%xmm3
   .byte  102,15,56,0,208                     // pshufb        %xmm0,%xmm2
   .byte  102,15,108,211                      // punpcklqdq    %xmm3,%xmm2
@@ -53236,7 +53201,7 @@ HIDDEN _sk_dstin_sse41_8bit
 .globl _sk_dstin_sse41_8bit
 FUNCTION(_sk_dstin_sse41_8bit)
 _sk_dstin_sse41_8bit:
-  .byte  102,15,56,0,5,240,5,0,0             // pshufb        0x5f0(%rip),%xmm0        # 1210 <_sk_xor__sse41_8bit+0x2da>
+  .byte  102,15,56,0,5,233,5,0,0             // pshufb        0x5e9(%rip),%xmm0        # 11c0 <_sk_xor__sse41_8bit+0x2d3>
   .byte  102,15,239,219                      // pxor          %xmm3,%xmm3
   .byte  102,15,56,48,225                    // pmovzxbw      %xmm1,%xmm4
   .byte  102,15,111,233                      // movdqa        %xmm1,%xmm5
@@ -53247,7 +53212,7 @@ _sk_dstin_sse41_8bit:
   .byte  102,15,213,212                      // pmullw        %xmm4,%xmm2
   .byte  102,15,253,197                      // paddw         %xmm5,%xmm0
   .byte  102,15,253,212                      // paddw         %xmm4,%xmm2
-  .byte  102,15,111,29,206,5,0,0             // movdqa        0x5ce(%rip),%xmm3        # 1220 <_sk_xor__sse41_8bit+0x2ea>
+  .byte  102,15,111,29,199,5,0,0             // movdqa        0x5c7(%rip),%xmm3        # 11d0 <_sk_xor__sse41_8bit+0x2e3>
   .byte  102,15,56,0,195                     // pshufb        %xmm3,%xmm0
   .byte  102,15,56,0,211                     // pshufb        %xmm3,%xmm2
   .byte  102,15,108,208                      // punpcklqdq    %xmm0,%xmm2
@@ -53260,7 +53225,7 @@ HIDDEN _sk_srcout_sse41_8bit
 FUNCTION(_sk_srcout_sse41_8bit)
 _sk_srcout_sse41_8bit:
   .byte  102,15,111,209                      // movdqa        %xmm1,%xmm2
-  .byte  102,15,56,0,21,187,5,0,0            // pshufb        0x5bb(%rip),%xmm2        # 1230 <_sk_xor__sse41_8bit+0x2fa>
+  .byte  102,15,56,0,21,180,5,0,0            // pshufb        0x5b4(%rip),%xmm2        # 11e0 <_sk_xor__sse41_8bit+0x2f3>
   .byte  102,15,118,219                      // pcmpeqd       %xmm3,%xmm3
   .byte  102,15,239,218                      // pxor          %xmm2,%xmm3
   .byte  102,15,239,228                      // pxor          %xmm4,%xmm4
@@ -53272,7 +53237,7 @@ _sk_srcout_sse41_8bit:
   .byte  102,15,213,213                      // pmullw        %xmm5,%xmm2
   .byte  102,15,253,216                      // paddw         %xmm0,%xmm3
   .byte  102,15,253,213                      // paddw         %xmm5,%xmm2
-  .byte  102,15,111,5,149,5,0,0              // movdqa        0x595(%rip),%xmm0        # 1240 <_sk_xor__sse41_8bit+0x30a>
+  .byte  102,15,111,5,142,5,0,0              // movdqa        0x58e(%rip),%xmm0        # 11f0 <_sk_xor__sse41_8bit+0x303>
   .byte  102,15,56,0,216                     // pshufb        %xmm0,%xmm3
   .byte  102,15,56,0,208                     // pshufb        %xmm0,%xmm2
   .byte  102,15,108,211                      // punpcklqdq    %xmm3,%xmm2
@@ -53284,7 +53249,7 @@ HIDDEN _sk_dstout_sse41_8bit
 .globl _sk_dstout_sse41_8bit
 FUNCTION(_sk_dstout_sse41_8bit)
 _sk_dstout_sse41_8bit:
-  .byte  102,15,56,0,5,134,5,0,0             // pshufb        0x586(%rip),%xmm0        # 1250 <_sk_xor__sse41_8bit+0x31a>
+  .byte  102,15,56,0,5,127,5,0,0             // pshufb        0x57f(%rip),%xmm0        # 1200 <_sk_xor__sse41_8bit+0x313>
   .byte  102,15,118,210                      // pcmpeqd       %xmm2,%xmm2
   .byte  102,15,239,208                      // pxor          %xmm0,%xmm2
   .byte  102,15,239,219                      // pxor          %xmm3,%xmm3
@@ -53297,7 +53262,7 @@ _sk_dstout_sse41_8bit:
   .byte  102,15,213,196                      // pmullw        %xmm4,%xmm0
   .byte  102,15,253,213                      // paddw         %xmm5,%xmm2
   .byte  102,15,253,196                      // paddw         %xmm4,%xmm0
-  .byte  102,15,111,29,92,5,0,0              // movdqa        0x55c(%rip),%xmm3        # 1260 <_sk_xor__sse41_8bit+0x32a>
+  .byte  102,15,111,29,85,5,0,0              // movdqa        0x555(%rip),%xmm3        # 1210 <_sk_xor__sse41_8bit+0x323>
   .byte  102,15,56,0,211                     // pshufb        %xmm3,%xmm2
   .byte  102,15,56,0,195                     // pshufb        %xmm3,%xmm0
   .byte  102,15,108,194                      // punpcklqdq    %xmm2,%xmm0
@@ -53309,7 +53274,7 @@ HIDDEN _sk_srcover_sse41_8bit
 FUNCTION(_sk_srcover_sse41_8bit)
 _sk_srcover_sse41_8bit:
   .byte  102,15,111,208                      // movdqa        %xmm0,%xmm2
-  .byte  102,15,56,0,21,77,5,0,0             // pshufb        0x54d(%rip),%xmm2        # 1270 <_sk_xor__sse41_8bit+0x33a>
+  .byte  102,15,56,0,21,70,5,0,0             // pshufb        0x546(%rip),%xmm2        # 1220 <_sk_xor__sse41_8bit+0x333>
   .byte  102,15,239,219                      // pxor          %xmm3,%xmm3
   .byte  102,15,56,48,225                    // pmovzxbw      %xmm1,%xmm4
   .byte  102,15,252,193                      // paddb         %xmm1,%xmm0
@@ -53321,7 +53286,7 @@ _sk_srcover_sse41_8bit:
   .byte  102,15,213,244                      // pmullw        %xmm4,%xmm6
   .byte  102,15,253,213                      // paddw         %xmm5,%xmm2
   .byte  102,15,253,244                      // paddw         %xmm4,%xmm6
-  .byte  102,15,111,29,39,5,0,0              // movdqa        0x527(%rip),%xmm3        # 1280 <_sk_xor__sse41_8bit+0x34a>
+  .byte  102,15,111,29,32,5,0,0              // movdqa        0x520(%rip),%xmm3        # 1230 <_sk_xor__sse41_8bit+0x343>
   .byte  102,15,56,0,211                     // pshufb        %xmm3,%xmm2
   .byte  102,15,56,0,243                     // pshufb        %xmm3,%xmm6
   .byte  102,15,108,242                      // punpcklqdq    %xmm2,%xmm6
@@ -53337,7 +53302,7 @@ _sk_dstover_sse41_8bit:
   .byte  102,15,56,48,216                    // pmovzxbw      %xmm0,%xmm3
   .byte  102,15,252,193                      // paddb         %xmm1,%xmm0
   .byte  102,15,111,225                      // movdqa        %xmm1,%xmm4
-  .byte  102,15,56,0,37,7,5,0,0              // pshufb        0x507(%rip),%xmm4        # 1290 <_sk_xor__sse41_8bit+0x35a>
+  .byte  102,15,56,0,37,0,5,0,0              // pshufb        0x500(%rip),%xmm4        # 1240 <_sk_xor__sse41_8bit+0x353>
   .byte  102,15,239,237                      // pxor          %xmm5,%xmm5
   .byte  102,15,104,213                      // punpckhbw     %xmm5,%xmm2
   .byte  102,15,56,48,244                    // pmovzxbw      %xmm4,%xmm6
@@ -53346,7 +53311,7 @@ _sk_dstover_sse41_8bit:
   .byte  102,15,213,243                      // pmullw        %xmm3,%xmm6
   .byte  102,15,253,226                      // paddw         %xmm2,%xmm4
   .byte  102,15,253,243                      // paddw         %xmm3,%xmm6
-  .byte  102,15,111,21,238,4,0,0             // movdqa        0x4ee(%rip),%xmm2        # 12a0 <_sk_xor__sse41_8bit+0x36a>
+  .byte  102,15,111,21,231,4,0,0             // movdqa        0x4e7(%rip),%xmm2        # 1250 <_sk_xor__sse41_8bit+0x363>
   .byte  102,15,56,0,226                     // pshufb        %xmm2,%xmm4
   .byte  102,15,56,0,242                     // pshufb        %xmm2,%xmm6
   .byte  102,15,108,244                      // punpcklqdq    %xmm4,%xmm6
@@ -53368,7 +53333,7 @@ _sk_modulate_sse41_8bit:
   .byte  102,15,213,212                      // pmullw        %xmm4,%xmm2
   .byte  102,15,253,232                      // paddw         %xmm0,%xmm5
   .byte  102,15,253,212                      // paddw         %xmm4,%xmm2
-  .byte  102,15,111,5,182,4,0,0              // movdqa        0x4b6(%rip),%xmm0        # 12b0 <_sk_xor__sse41_8bit+0x37a>
+  .byte  102,15,111,5,175,4,0,0              // movdqa        0x4af(%rip),%xmm0        # 1260 <_sk_xor__sse41_8bit+0x373>
   .byte  102,15,56,0,232                     // pshufb        %xmm0,%xmm5
   .byte  102,15,56,0,208                     // pshufb        %xmm0,%xmm2
   .byte  102,15,108,213                      // punpcklqdq    %xmm5,%xmm2
@@ -53380,7 +53345,7 @@ HIDDEN _sk_multiply_sse41_8bit
 .globl _sk_multiply_sse41_8bit
 FUNCTION(_sk_multiply_sse41_8bit)
 _sk_multiply_sse41_8bit:
-  .byte  102,68,15,111,5,167,4,0,0           // movdqa        0x4a7(%rip),%xmm8        # 12c0 <_sk_xor__sse41_8bit+0x38a>
+  .byte  102,68,15,111,5,160,4,0,0           // movdqa        0x4a0(%rip),%xmm8        # 1270 <_sk_xor__sse41_8bit+0x383>
   .byte  102,15,111,225                      // movdqa        %xmm1,%xmm4
   .byte  102,15,56,48,209                    // pmovzxbw      %xmm1,%xmm2
   .byte  102,15,111,233                      // movdqa        %xmm1,%xmm5
@@ -53397,7 +53362,7 @@ _sk_multiply_sse41_8bit:
   .byte  102,15,213,254                      // pmullw        %xmm6,%xmm7
   .byte  102,15,253,235                      // paddw         %xmm3,%xmm5
   .byte  102,15,253,254                      // paddw         %xmm6,%xmm7
-  .byte  102,68,15,111,29,100,4,0,0          // movdqa        0x464(%rip),%xmm11        # 12d0 <_sk_xor__sse41_8bit+0x39a>
+  .byte  102,68,15,111,29,93,4,0,0           // movdqa        0x45d(%rip),%xmm11        # 1280 <_sk_xor__sse41_8bit+0x393>
   .byte  102,65,15,56,0,235                  // pshufb        %xmm11,%xmm5
   .byte  102,65,15,56,0,251                  // pshufb        %xmm11,%xmm7
   .byte  102,15,108,253                      // punpcklqdq    %xmm5,%xmm7
@@ -53442,7 +53407,7 @@ _sk_screen_sse41_8bit:
   .byte  102,15,213,235                      // pmullw        %xmm3,%xmm5
   .byte  102,15,253,235                      // paddw         %xmm3,%xmm5
   .byte  102,15,253,242                      // paddw         %xmm2,%xmm6
-  .byte  102,15,111,21,192,3,0,0             // movdqa        0x3c0(%rip),%xmm2        # 12e0 <_sk_xor__sse41_8bit+0x3aa>
+  .byte  102,15,111,21,185,3,0,0             // movdqa        0x3b9(%rip),%xmm2        # 1290 <_sk_xor__sse41_8bit+0x3a3>
   .byte  102,15,56,0,242                     // pshufb        %xmm2,%xmm6
   .byte  102,15,56,0,234                     // pshufb        %xmm2,%xmm5
   .byte  102,15,108,238                      // punpcklqdq    %xmm6,%xmm5
@@ -53454,7 +53419,7 @@ HIDDEN _sk_xor__sse41_8bit
 .globl _sk_xor__sse41_8bit
 FUNCTION(_sk_xor__sse41_8bit)
 _sk_xor__sse41_8bit:
-  .byte  102,68,15,111,5,177,3,0,0           // movdqa        0x3b1(%rip),%xmm8        # 12f0 <_sk_xor__sse41_8bit+0x3ba>
+  .byte  102,68,15,111,5,170,3,0,0           // movdqa        0x3aa(%rip),%xmm8        # 12a0 <_sk_xor__sse41_8bit+0x3b3>
   .byte  102,15,111,217                      // movdqa        %xmm1,%xmm3
   .byte  102,15,56,48,225                    // pmovzxbw      %xmm1,%xmm4
   .byte  102,15,111,233                      // movdqa        %xmm1,%xmm5
@@ -53471,7 +53436,7 @@ _sk_xor__sse41_8bit:
   .byte  102,15,56,48,208                    // pmovzxbw      %xmm0,%xmm2
   .byte  102,15,213,242                      // pmullw        %xmm2,%xmm6
   .byte  102,15,253,242                      // paddw         %xmm2,%xmm6
-  .byte  102,68,15,111,21,113,3,0,0          // movdqa        0x371(%rip),%xmm10        # 1300 <_sk_xor__sse41_8bit+0x3ca>
+  .byte  102,68,15,111,21,106,3,0,0          // movdqa        0x36a(%rip),%xmm10        # 12b0 <_sk_xor__sse41_8bit+0x3c3>
   .byte  102,65,15,56,0,234                  // pshufb        %xmm10,%xmm5
   .byte  102,65,15,56,0,242                  // pshufb        %xmm10,%xmm6
   .byte  102,15,108,245                      // punpcklqdq    %xmm5,%xmm6
@@ -53494,13 +53459,11 @@ _sk_xor__sse41_8bit:
 
 BALIGN4
   .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            102b <_sk_xor__sse41_8bit+0xf5>
+  .byte  127,67                              // jg            fe3 <_sk_xor__sse41_8bit+0xf6>
   .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            102f <_sk_xor__sse41_8bit+0xf9>
+  .byte  127,67                              // jg            fe7 <_sk_xor__sse41_8bit+0xfa>
   .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            1033 <_sk_xor__sse41_8bit+0xfd>
-  .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            1037 <_sk_xor__sse41_8bit+0x101>
+  .byte  127,67                              // jg            feb <_sk_xor__sse41_8bit+0xfe>
 
 BALIGN16
   .byte  0,0                                 // add           %al,(%rax)
@@ -53960,25 +53923,7 @@ HIDDEN _sk_uniform_color_sse2_8bit
 FUNCTION(_sk_uniform_color_sse2_8bit)
 _sk_uniform_color_sse2_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
-  .byte  243,15,16,5,85,17,0,0               // movss         0x1155(%rip),%xmm0        # 1204 <_sk_xor__sse2_8bit+0xc8>
-  .byte  243,15,16,16                        // movss         (%rax),%xmm2
-  .byte  243,15,89,208                       // mulss         %xmm0,%xmm2
-  .byte  243,72,15,44,202                    // cvttss2si     %xmm2,%rcx
-  .byte  243,15,16,80,4                      // movss         0x4(%rax),%xmm2
-  .byte  243,15,89,208                       // mulss         %xmm0,%xmm2
-  .byte  243,72,15,44,210                    // cvttss2si     %xmm2,%rdx
-  .byte  193,226,8                           // shl           $0x8,%edx
-  .byte  9,202                               // or            %ecx,%edx
-  .byte  243,15,16,80,8                      // movss         0x8(%rax),%xmm2
-  .byte  243,15,89,208                       // mulss         %xmm0,%xmm2
-  .byte  243,72,15,44,202                    // cvttss2si     %xmm2,%rcx
-  .byte  193,225,16                          // shl           $0x10,%ecx
-  .byte  243,15,89,64,12                     // mulss         0xc(%rax),%xmm0
-  .byte  243,72,15,44,192                    // cvttss2si     %xmm0,%rax
-  .byte  193,224,24                          // shl           $0x18,%eax
-  .byte  9,200                               // or            %ecx,%eax
-  .byte  9,208                               // or            %edx,%eax
-  .byte  102,15,110,192                      // movd          %eax,%xmm0
+  .byte  102,15,110,64,16                    // movd          0x10(%rax),%xmm0
   .byte  102,15,112,192,0                    // pshufd        $0x0,%xmm0,%xmm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -53988,7 +53933,7 @@ HIDDEN _sk_set_rgb_sse2_8bit
 FUNCTION(_sk_set_rgb_sse2_8bit)
 _sk_set_rgb_sse2_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
-  .byte  243,15,16,21,0,17,0,0               // movss         0x1100(%rip),%xmm2        # 1208 <_sk_xor__sse2_8bit+0xcc>
+  .byte  243,15,16,21,253,16,0,0             // movss         0x10fd(%rip),%xmm2        # 11bc <_sk_xor__sse2_8bit+0xc9>
   .byte  243,15,16,24                        // movss         (%rax),%xmm3
   .byte  243,15,89,218                       // mulss         %xmm2,%xmm3
   .byte  243,72,15,44,203                    // cvttss2si     %xmm3,%rcx
@@ -54003,7 +53948,7 @@ _sk_set_rgb_sse2_8bit:
   .byte  9,208                               // or            %edx,%eax
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,112,210,0                    // pshufd        $0x0,%xmm2,%xmm2
-  .byte  102,15,219,5,216,16,0,0             // pand          0x10d8(%rip),%xmm0        # 1220 <_sk_xor__sse2_8bit+0xe4>
+  .byte  102,15,219,5,209,16,0,0             // pand          0x10d1(%rip),%xmm0        # 11d0 <_sk_xor__sse2_8bit+0xdd>
   .byte  102,15,235,194                      // por           %xmm2,%xmm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
@@ -54018,7 +53963,7 @@ _sk_premul_sse2_8bit:
   .byte  102,15,96,210                       // punpcklbw     %xmm2,%xmm2
   .byte  242,15,112,210,95                   // pshuflw       $0x5f,%xmm2,%xmm2
   .byte  243,15,112,218,95                   // pshufhw       $0x5f,%xmm2,%xmm3
-  .byte  102,15,235,29,187,16,0,0            // por           0x10bb(%rip),%xmm3        # 1230 <_sk_xor__sse2_8bit+0xf4>
+  .byte  102,15,235,29,180,16,0,0            // por           0x10b4(%rip),%xmm3        # 11e0 <_sk_xor__sse2_8bit+0xed>
   .byte  102,15,239,228                      // pxor          %xmm4,%xmm4
   .byte  102,15,111,208                      // movdqa        %xmm0,%xmm2
   .byte  102,15,96,212                       // punpcklbw     %xmm4,%xmm2
@@ -54066,24 +54011,24 @@ _sk_load_8888_sse2_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,10                              // jne           20e <_sk_load_8888_sse2_8bit+0x2b>
+  .byte  117,10                              // jne           1c5 <_sk_load_8888_sse2_8bit+0x2b>
   .byte  243,66,15,111,4,130                 // movdqu        (%rdx,%r8,4),%xmm0
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,36                              // je            23c <_sk_load_8888_sse2_8bit+0x59>
+  .byte  116,36                              // je            1f3 <_sk_load_8888_sse2_8bit+0x59>
   .byte  102,15,239,192                      // pxor          %xmm0,%xmm0
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            234 <_sk_load_8888_sse2_8bit+0x51>
+  .byte  116,18                              // je            1eb <_sk_load_8888_sse2_8bit+0x51>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,226                             // jne           20a <_sk_load_8888_sse2_8bit+0x27>
+  .byte  117,226                             // jne           1c1 <_sk_load_8888_sse2_8bit+0x27>
   .byte  102,66,15,110,68,130,8              // movd          0x8(%rdx,%r8,4),%xmm0
   .byte  102,15,112,192,69                   // pshufd        $0x45,%xmm0,%xmm0
   .byte  102,66,15,18,4,130                  // movlpd        (%rdx,%r8,4),%xmm0
-  .byte  235,206                             // jmp           20a <_sk_load_8888_sse2_8bit+0x27>
+  .byte  235,206                             // jmp           1c1 <_sk_load_8888_sse2_8bit+0x27>
   .byte  102,66,15,110,4,130                 // movd          (%rdx,%r8,4),%xmm0
-  .byte  235,198                             // jmp           20a <_sk_load_8888_sse2_8bit+0x27>
+  .byte  235,198                             // jmp           1c1 <_sk_load_8888_sse2_8bit+0x27>
 
 HIDDEN _sk_load_8888_dst_sse2_8bit
 .globl _sk_load_8888_dst_sse2_8bit
@@ -54098,24 +54043,24 @@ _sk_load_8888_dst_sse2_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,10                              // jne           26f <_sk_load_8888_dst_sse2_8bit+0x2b>
+  .byte  117,10                              // jne           226 <_sk_load_8888_dst_sse2_8bit+0x2b>
   .byte  243,66,15,111,12,130                // movdqu        (%rdx,%r8,4),%xmm1
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,36                              // je            29d <_sk_load_8888_dst_sse2_8bit+0x59>
+  .byte  116,36                              // je            254 <_sk_load_8888_dst_sse2_8bit+0x59>
   .byte  102,15,239,201                      // pxor          %xmm1,%xmm1
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            295 <_sk_load_8888_dst_sse2_8bit+0x51>
+  .byte  116,18                              // je            24c <_sk_load_8888_dst_sse2_8bit+0x51>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,226                             // jne           26b <_sk_load_8888_dst_sse2_8bit+0x27>
+  .byte  117,226                             // jne           222 <_sk_load_8888_dst_sse2_8bit+0x27>
   .byte  102,66,15,110,76,130,8              // movd          0x8(%rdx,%r8,4),%xmm1
   .byte  102,15,112,201,69                   // pshufd        $0x45,%xmm1,%xmm1
   .byte  102,66,15,18,12,130                 // movlpd        (%rdx,%r8,4),%xmm1
-  .byte  235,206                             // jmp           26b <_sk_load_8888_dst_sse2_8bit+0x27>
+  .byte  235,206                             // jmp           222 <_sk_load_8888_dst_sse2_8bit+0x27>
   .byte  102,66,15,110,12,130                // movd          (%rdx,%r8,4),%xmm1
-  .byte  235,198                             // jmp           26b <_sk_load_8888_dst_sse2_8bit+0x27>
+  .byte  235,198                             // jmp           222 <_sk_load_8888_dst_sse2_8bit+0x27>
 
 HIDDEN _sk_store_8888_sse2_8bit
 .globl _sk_store_8888_sse2_8bit
@@ -54130,23 +54075,23 @@ _sk_store_8888_sse2_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,10                              // jne           2d0 <_sk_store_8888_sse2_8bit+0x2b>
+  .byte  117,10                              // jne           287 <_sk_store_8888_sse2_8bit+0x2b>
   .byte  243,66,15,127,4,130                 // movdqu        %xmm0,(%rdx,%r8,4)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,32                              // je            2fa <_sk_store_8888_sse2_8bit+0x55>
+  .byte  116,32                              // je            2b1 <_sk_store_8888_sse2_8bit+0x55>
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            2f2 <_sk_store_8888_sse2_8bit+0x4d>
+  .byte  116,18                              // je            2a9 <_sk_store_8888_sse2_8bit+0x4d>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,230                             // jne           2cc <_sk_store_8888_sse2_8bit+0x27>
+  .byte  117,230                             // jne           283 <_sk_store_8888_sse2_8bit+0x27>
   .byte  102,15,112,208,78                   // pshufd        $0x4e,%xmm0,%xmm2
   .byte  102,66,15,126,84,130,8              // movd          %xmm2,0x8(%rdx,%r8,4)
   .byte  102,66,15,214,4,130                 // movq          %xmm0,(%rdx,%r8,4)
-  .byte  235,210                             // jmp           2cc <_sk_store_8888_sse2_8bit+0x27>
+  .byte  235,210                             // jmp           283 <_sk_store_8888_sse2_8bit+0x27>
   .byte  102,66,15,126,4,130                 // movd          %xmm0,(%rdx,%r8,4)
-  .byte  235,202                             // jmp           2cc <_sk_store_8888_sse2_8bit+0x27>
+  .byte  235,202                             // jmp           283 <_sk_store_8888_sse2_8bit+0x27>
 
 HIDDEN _sk_load_bgra_sse2_8bit
 .globl _sk_load_bgra_sse2_8bit
@@ -54161,7 +54106,7 @@ _sk_load_bgra_sse2_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,50                              // jne           355 <_sk_load_bgra_sse2_8bit+0x53>
+  .byte  117,50                              // jne           30c <_sk_load_bgra_sse2_8bit+0x53>
   .byte  243,66,15,111,4,130                 // movdqu        (%rdx,%r8,4),%xmm0
   .byte  102,15,239,210                      // pxor          %xmm2,%xmm2
   .byte  102,15,111,216                      // movdqa        %xmm0,%xmm3
@@ -54176,18 +54121,18 @@ _sk_load_bgra_sse2_8bit:
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,36                              // je            383 <_sk_load_bgra_sse2_8bit+0x81>
+  .byte  116,36                              // je            33a <_sk_load_bgra_sse2_8bit+0x81>
   .byte  102,15,239,192                      // pxor          %xmm0,%xmm0
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            37b <_sk_load_bgra_sse2_8bit+0x79>
+  .byte  116,18                              // je            332 <_sk_load_bgra_sse2_8bit+0x79>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,186                             // jne           329 <_sk_load_bgra_sse2_8bit+0x27>
+  .byte  117,186                             // jne           2e0 <_sk_load_bgra_sse2_8bit+0x27>
   .byte  102,66,15,110,68,130,8              // movd          0x8(%rdx,%r8,4),%xmm0
   .byte  102,15,112,192,69                   // pshufd        $0x45,%xmm0,%xmm0
   .byte  102,66,15,18,4,130                  // movlpd        (%rdx,%r8,4),%xmm0
-  .byte  235,166                             // jmp           329 <_sk_load_bgra_sse2_8bit+0x27>
+  .byte  235,166                             // jmp           2e0 <_sk_load_bgra_sse2_8bit+0x27>
   .byte  102,66,15,110,4,130                 // movd          (%rdx,%r8,4),%xmm0
-  .byte  235,158                             // jmp           329 <_sk_load_bgra_sse2_8bit+0x27>
+  .byte  235,158                             // jmp           2e0 <_sk_load_bgra_sse2_8bit+0x27>
 
 HIDDEN _sk_load_bgra_dst_sse2_8bit
 .globl _sk_load_bgra_dst_sse2_8bit
@@ -54202,7 +54147,7 @@ _sk_load_bgra_dst_sse2_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,50                              // jne           3de <_sk_load_bgra_dst_sse2_8bit+0x53>
+  .byte  117,50                              // jne           395 <_sk_load_bgra_dst_sse2_8bit+0x53>
   .byte  243,66,15,111,12,130                // movdqu        (%rdx,%r8,4),%xmm1
   .byte  102,15,239,210                      // pxor          %xmm2,%xmm2
   .byte  102,15,111,217                      // movdqa        %xmm1,%xmm3
@@ -54217,18 +54162,18 @@ _sk_load_bgra_dst_sse2_8bit:
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,36                              // je            40c <_sk_load_bgra_dst_sse2_8bit+0x81>
+  .byte  116,36                              // je            3c3 <_sk_load_bgra_dst_sse2_8bit+0x81>
   .byte  102,15,239,201                      // pxor          %xmm1,%xmm1
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            404 <_sk_load_bgra_dst_sse2_8bit+0x79>
+  .byte  116,18                              // je            3bb <_sk_load_bgra_dst_sse2_8bit+0x79>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,186                             // jne           3b2 <_sk_load_bgra_dst_sse2_8bit+0x27>
+  .byte  117,186                             // jne           369 <_sk_load_bgra_dst_sse2_8bit+0x27>
   .byte  102,66,15,110,76,130,8              // movd          0x8(%rdx,%r8,4),%xmm1
   .byte  102,15,112,201,69                   // pshufd        $0x45,%xmm1,%xmm1
   .byte  102,66,15,18,12,130                 // movlpd        (%rdx,%r8,4),%xmm1
-  .byte  235,166                             // jmp           3b2 <_sk_load_bgra_dst_sse2_8bit+0x27>
+  .byte  235,166                             // jmp           369 <_sk_load_bgra_dst_sse2_8bit+0x27>
   .byte  102,66,15,110,12,130                // movd          (%rdx,%r8,4),%xmm1
-  .byte  235,158                             // jmp           3b2 <_sk_load_bgra_dst_sse2_8bit+0x27>
+  .byte  235,158                             // jmp           369 <_sk_load_bgra_dst_sse2_8bit+0x27>
 
 HIDDEN _sk_store_bgra_sse2_8bit
 .globl _sk_store_bgra_sse2_8bit
@@ -54253,23 +54198,23 @@ _sk_store_bgra_sse2_8bit:
   .byte  243,15,112,210,198                  // pshufhw       $0xc6,%xmm2,%xmm2
   .byte  102,15,103,211                      // packuswb      %xmm3,%xmm2
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,10                              // jne           46b <_sk_store_bgra_sse2_8bit+0x57>
+  .byte  117,10                              // jne           422 <_sk_store_bgra_sse2_8bit+0x57>
   .byte  243,66,15,127,20,130                // movdqu        %xmm2,(%rdx,%r8,4)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,32                              // je            495 <_sk_store_bgra_sse2_8bit+0x81>
+  .byte  116,32                              // je            44c <_sk_store_bgra_sse2_8bit+0x81>
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            48d <_sk_store_bgra_sse2_8bit+0x79>
+  .byte  116,18                              // je            444 <_sk_store_bgra_sse2_8bit+0x79>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,230                             // jne           467 <_sk_store_bgra_sse2_8bit+0x53>
+  .byte  117,230                             // jne           41e <_sk_store_bgra_sse2_8bit+0x53>
   .byte  102,15,112,218,78                   // pshufd        $0x4e,%xmm2,%xmm3
   .byte  102,66,15,126,92,130,8              // movd          %xmm3,0x8(%rdx,%r8,4)
   .byte  102,66,15,214,20,130                // movq          %xmm2,(%rdx,%r8,4)
-  .byte  235,210                             // jmp           467 <_sk_store_bgra_sse2_8bit+0x53>
+  .byte  235,210                             // jmp           41e <_sk_store_bgra_sse2_8bit+0x53>
   .byte  102,66,15,126,20,130                // movd          %xmm2,(%rdx,%r8,4)
-  .byte  235,202                             // jmp           467 <_sk_store_bgra_sse2_8bit+0x53>
+  .byte  235,202                             // jmp           41e <_sk_store_bgra_sse2_8bit+0x53>
 
 HIDDEN _sk_load_a8_sse2_8bit
 .globl _sk_load_a8_sse2_8bit
@@ -54283,7 +54228,7 @@ _sk_load_a8_sse2_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,23                              // jne           4d1 <_sk_load_a8_sse2_8bit+0x34>
+  .byte  117,23                              // jne           488 <_sk_load_a8_sse2_8bit+0x34>
   .byte  102,66,15,110,4,2                   // movd          (%rdx,%r8,1),%xmm0
   .byte  102,15,96,192                       // punpcklbw     %xmm0,%xmm0
   .byte  102,15,97,192                       // punpcklwd     %xmm0,%xmm0
@@ -54292,12 +54237,12 @@ _sk_load_a8_sse2_8bit:
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,54                              // je            511 <_sk_load_a8_sse2_8bit+0x74>
+  .byte  116,54                              // je            4c8 <_sk_load_a8_sse2_8bit+0x74>
   .byte  102,15,239,192                      // pxor          %xmm0,%xmm0
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            4fa <_sk_load_a8_sse2_8bit+0x5d>
+  .byte  116,21                              // je            4b1 <_sk_load_a8_sse2_8bit+0x5d>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,221                             // jne           4c8 <_sk_load_a8_sse2_8bit+0x2b>
+  .byte  117,221                             // jne           47f <_sk_load_a8_sse2_8bit+0x2b>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,192                      // movd          %eax,%xmm0
   .byte  102,15,112,192,69                   // pshufd        $0x45,%xmm0,%xmm0
@@ -54306,10 +54251,10 @@ _sk_load_a8_sse2_8bit:
   .byte  102,15,96,208                       // punpcklbw     %xmm0,%xmm2
   .byte  102,15,97,208                       // punpcklwd     %xmm0,%xmm2
   .byte  242,15,16,194                       // movsd         %xmm2,%xmm0
-  .byte  235,183                             // jmp           4c8 <_sk_load_a8_sse2_8bit+0x2b>
+  .byte  235,183                             // jmp           47f <_sk_load_a8_sse2_8bit+0x2b>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,192                      // movd          %eax,%xmm0
-  .byte  235,172                             // jmp           4c8 <_sk_load_a8_sse2_8bit+0x2b>
+  .byte  235,172                             // jmp           47f <_sk_load_a8_sse2_8bit+0x2b>
 
 HIDDEN _sk_load_a8_dst_sse2_8bit
 .globl _sk_load_a8_dst_sse2_8bit
@@ -54323,7 +54268,7 @@ _sk_load_a8_dst_sse2_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,23                              // jne           550 <_sk_load_a8_dst_sse2_8bit+0x34>
+  .byte  117,23                              // jne           507 <_sk_load_a8_dst_sse2_8bit+0x34>
   .byte  102,66,15,110,12,2                  // movd          (%rdx,%r8,1),%xmm1
   .byte  102,15,96,200                       // punpcklbw     %xmm0,%xmm1
   .byte  102,15,97,200                       // punpcklwd     %xmm0,%xmm1
@@ -54332,12 +54277,12 @@ _sk_load_a8_dst_sse2_8bit:
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,54                              // je            590 <_sk_load_a8_dst_sse2_8bit+0x74>
+  .byte  116,54                              // je            547 <_sk_load_a8_dst_sse2_8bit+0x74>
   .byte  102,15,239,201                      // pxor          %xmm1,%xmm1
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            579 <_sk_load_a8_dst_sse2_8bit+0x5d>
+  .byte  116,21                              // je            530 <_sk_load_a8_dst_sse2_8bit+0x5d>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,221                             // jne           547 <_sk_load_a8_dst_sse2_8bit+0x2b>
+  .byte  117,221                             // jne           4fe <_sk_load_a8_dst_sse2_8bit+0x2b>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,200                      // movd          %eax,%xmm1
   .byte  102,15,112,201,69                   // pshufd        $0x45,%xmm1,%xmm1
@@ -54346,10 +54291,10 @@ _sk_load_a8_dst_sse2_8bit:
   .byte  102,15,96,208                       // punpcklbw     %xmm0,%xmm2
   .byte  102,15,97,208                       // punpcklwd     %xmm0,%xmm2
   .byte  242,15,16,202                       // movsd         %xmm2,%xmm1
-  .byte  235,183                             // jmp           547 <_sk_load_a8_dst_sse2_8bit+0x2b>
+  .byte  235,183                             // jmp           4fe <_sk_load_a8_dst_sse2_8bit+0x2b>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,200                      // movd          %eax,%xmm1
-  .byte  235,172                             // jmp           547 <_sk_load_a8_dst_sse2_8bit+0x2b>
+  .byte  235,172                             // jmp           4fe <_sk_load_a8_dst_sse2_8bit+0x2b>
 
 HIDDEN _sk_store_a8_sse2_8bit
 .globl _sk_store_a8_sse2_8bit
@@ -54365,8 +54310,8 @@ _sk_store_a8_sse2_8bit:
   .byte  102,15,111,208                      // movdqa        %xmm0,%xmm2
   .byte  102,15,114,210,24                   // psrld         $0x18,%xmm2
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,26                              // jne           5db <_sk_store_a8_sse2_8bit+0x40>
-  .byte  102,15,219,21,119,12,0,0            // pand          0xc77(%rip),%xmm2        # 1240 <_sk_xor__sse2_8bit+0x104>
+  .byte  117,26                              // jne           592 <_sk_store_a8_sse2_8bit+0x40>
+  .byte  102,15,219,21,112,12,0,0            // pand          0xc70(%rip),%xmm2        # 11f0 <_sk_xor__sse2_8bit+0xfd>
   .byte  102,15,103,210                      // packuswb      %xmm2,%xmm2
   .byte  102,15,103,210                      // packuswb      %xmm2,%xmm2
   .byte  102,66,15,126,20,2                  // movd          %xmm2,(%rdx,%r8,1)
@@ -54374,24 +54319,24 @@ _sk_store_a8_sse2_8bit:
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,54                              // je            61b <_sk_store_a8_sse2_8bit+0x80>
+  .byte  116,54                              // je            5d2 <_sk_store_a8_sse2_8bit+0x80>
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            600 <_sk_store_a8_sse2_8bit+0x65>
+  .byte  116,21                              // je            5b7 <_sk_store_a8_sse2_8bit+0x65>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,230                             // jne           5d7 <_sk_store_a8_sse2_8bit+0x3c>
+  .byte  117,230                             // jne           58e <_sk_store_a8_sse2_8bit+0x3c>
   .byte  102,15,127,84,36,232                // movdqa        %xmm2,-0x18(%rsp)
   .byte  138,68,36,240                       // mov           -0x10(%rsp),%al
   .byte  66,136,68,2,2                       // mov           %al,0x2(%rdx,%r8,1)
-  .byte  102,15,219,21,56,12,0,0             // pand          0xc38(%rip),%xmm2        # 1240 <_sk_xor__sse2_8bit+0x104>
+  .byte  102,15,219,21,49,12,0,0             // pand          0xc31(%rip),%xmm2        # 11f0 <_sk_xor__sse2_8bit+0xfd>
   .byte  102,15,103,210                      // packuswb      %xmm2,%xmm2
   .byte  102,15,103,210                      // packuswb      %xmm2,%xmm2
   .byte  102,15,126,208                      // movd          %xmm2,%eax
   .byte  102,66,137,4,2                      // mov           %ax,(%rdx,%r8,1)
-  .byte  235,188                             // jmp           5d7 <_sk_store_a8_sse2_8bit+0x3c>
+  .byte  235,188                             // jmp           58e <_sk_store_a8_sse2_8bit+0x3c>
   .byte  102,15,127,84,36,216                // movdqa        %xmm2,-0x28(%rsp)
   .byte  138,68,36,216                       // mov           -0x28(%rsp),%al
   .byte  66,136,4,2                          // mov           %al,(%rdx,%r8,1)
-  .byte  235,172                             // jmp           5d7 <_sk_store_a8_sse2_8bit+0x3c>
+  .byte  235,172                             // jmp           58e <_sk_store_a8_sse2_8bit+0x3c>
 
 HIDDEN _sk_load_g8_sse2_8bit
 .globl _sk_load_g8_sse2_8bit
@@ -54405,29 +54350,29 @@ _sk_load_g8_sse2_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,69                              // jne           68d <_sk_load_g8_sse2_8bit+0x62>
+  .byte  117,69                              // jne           644 <_sk_load_g8_sse2_8bit+0x62>
   .byte  102,66,15,110,4,2                   // movd          (%rdx,%r8,1),%xmm0
   .byte  102,15,96,192                       // punpcklbw     %xmm0,%xmm0
   .byte  102,15,97,192                       // punpcklwd     %xmm0,%xmm0
-  .byte  102,15,219,5,242,11,0,0             // pand          0xbf2(%rip),%xmm0        # 1250 <_sk_xor__sse2_8bit+0x114>
-  .byte  102,15,111,21,250,11,0,0            // movdqa        0xbfa(%rip),%xmm2        # 1260 <_sk_xor__sse2_8bit+0x124>
+  .byte  102,15,219,5,235,11,0,0             // pand          0xbeb(%rip),%xmm0        # 1200 <_sk_xor__sse2_8bit+0x10d>
+  .byte  102,15,111,21,243,11,0,0            // movdqa        0xbf3(%rip),%xmm2        # 1210 <_sk_xor__sse2_8bit+0x11d>
   .byte  102,15,112,216,245                  // pshufd        $0xf5,%xmm0,%xmm3
   .byte  102,15,244,194                      // pmuludq       %xmm2,%xmm0
   .byte  102,15,112,192,232                  // pshufd        $0xe8,%xmm0,%xmm0
   .byte  102,15,244,218                      // pmuludq       %xmm2,%xmm3
   .byte  102,15,112,211,232                  // pshufd        $0xe8,%xmm3,%xmm2
   .byte  102,15,98,194                       // punpckldq     %xmm2,%xmm0
-  .byte  102,15,235,5,231,11,0,0             // por           0xbe7(%rip),%xmm0        # 1270 <_sk_xor__sse2_8bit+0x134>
+  .byte  102,15,235,5,224,11,0,0             // por           0xbe0(%rip),%xmm0        # 1220 <_sk_xor__sse2_8bit+0x12d>
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,54                              // je            6cd <_sk_load_g8_sse2_8bit+0xa2>
+  .byte  116,54                              // je            684 <_sk_load_g8_sse2_8bit+0xa2>
   .byte  102,15,239,192                      // pxor          %xmm0,%xmm0
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            6b6 <_sk_load_g8_sse2_8bit+0x8b>
+  .byte  116,21                              // je            66d <_sk_load_g8_sse2_8bit+0x8b>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,175                             // jne           656 <_sk_load_g8_sse2_8bit+0x2b>
+  .byte  117,175                             // jne           60d <_sk_load_g8_sse2_8bit+0x2b>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,192                      // movd          %eax,%xmm0
   .byte  102,15,112,192,69                   // pshufd        $0x45,%xmm0,%xmm0
@@ -54436,10 +54381,10 @@ _sk_load_g8_sse2_8bit:
   .byte  102,15,96,208                       // punpcklbw     %xmm0,%xmm2
   .byte  102,15,97,208                       // punpcklwd     %xmm0,%xmm2
   .byte  242,15,16,194                       // movsd         %xmm2,%xmm0
-  .byte  235,137                             // jmp           656 <_sk_load_g8_sse2_8bit+0x2b>
+  .byte  235,137                             // jmp           60d <_sk_load_g8_sse2_8bit+0x2b>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,192                      // movd          %eax,%xmm0
-  .byte  233,123,255,255,255                 // jmpq          656 <_sk_load_g8_sse2_8bit+0x2b>
+  .byte  233,123,255,255,255                 // jmpq          60d <_sk_load_g8_sse2_8bit+0x2b>
 
 HIDDEN _sk_load_g8_dst_sse2_8bit
 .globl _sk_load_g8_dst_sse2_8bit
@@ -54453,29 +54398,29 @@ _sk_load_g8_dst_sse2_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,69                              // jne           73d <_sk_load_g8_dst_sse2_8bit+0x62>
+  .byte  117,69                              // jne           6f4 <_sk_load_g8_dst_sse2_8bit+0x62>
   .byte  102,66,15,110,12,2                  // movd          (%rdx,%r8,1),%xmm1
   .byte  102,15,96,200                       // punpcklbw     %xmm0,%xmm1
   .byte  102,15,97,200                       // punpcklwd     %xmm0,%xmm1
-  .byte  102,15,219,13,114,11,0,0            // pand          0xb72(%rip),%xmm1        # 1280 <_sk_xor__sse2_8bit+0x144>
-  .byte  102,15,111,21,122,11,0,0            // movdqa        0xb7a(%rip),%xmm2        # 1290 <_sk_xor__sse2_8bit+0x154>
+  .byte  102,15,219,13,107,11,0,0            // pand          0xb6b(%rip),%xmm1        # 1230 <_sk_xor__sse2_8bit+0x13d>
+  .byte  102,15,111,21,115,11,0,0            // movdqa        0xb73(%rip),%xmm2        # 1240 <_sk_xor__sse2_8bit+0x14d>
   .byte  102,15,112,217,245                  // pshufd        $0xf5,%xmm1,%xmm3
   .byte  102,15,244,202                      // pmuludq       %xmm2,%xmm1
   .byte  102,15,112,201,232                  // pshufd        $0xe8,%xmm1,%xmm1
   .byte  102,15,244,218                      // pmuludq       %xmm2,%xmm3
   .byte  102,15,112,211,232                  // pshufd        $0xe8,%xmm3,%xmm2
   .byte  102,15,98,202                       // punpckldq     %xmm2,%xmm1
-  .byte  102,15,235,13,103,11,0,0            // por           0xb67(%rip),%xmm1        # 12a0 <_sk_xor__sse2_8bit+0x164>
+  .byte  102,15,235,13,96,11,0,0             // por           0xb60(%rip),%xmm1        # 1250 <_sk_xor__sse2_8bit+0x15d>
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,54                              // je            77d <_sk_load_g8_dst_sse2_8bit+0xa2>
+  .byte  116,54                              // je            734 <_sk_load_g8_dst_sse2_8bit+0xa2>
   .byte  102,15,239,201                      // pxor          %xmm1,%xmm1
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            766 <_sk_load_g8_dst_sse2_8bit+0x8b>
+  .byte  116,21                              // je            71d <_sk_load_g8_dst_sse2_8bit+0x8b>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,175                             // jne           706 <_sk_load_g8_dst_sse2_8bit+0x2b>
+  .byte  117,175                             // jne           6bd <_sk_load_g8_dst_sse2_8bit+0x2b>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,200                      // movd          %eax,%xmm1
   .byte  102,15,112,201,69                   // pshufd        $0x45,%xmm1,%xmm1
@@ -54484,10 +54429,10 @@ _sk_load_g8_dst_sse2_8bit:
   .byte  102,15,96,208                       // punpcklbw     %xmm0,%xmm2
   .byte  102,15,97,208                       // punpcklwd     %xmm0,%xmm2
   .byte  242,15,16,202                       // movsd         %xmm2,%xmm1
-  .byte  235,137                             // jmp           706 <_sk_load_g8_dst_sse2_8bit+0x2b>
+  .byte  235,137                             // jmp           6bd <_sk_load_g8_dst_sse2_8bit+0x2b>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,200                      // movd          %eax,%xmm1
-  .byte  233,123,255,255,255                 // jmpq          706 <_sk_load_g8_dst_sse2_8bit+0x2b>
+  .byte  233,123,255,255,255                 // jmpq          6bd <_sk_load_g8_dst_sse2_8bit+0x2b>
 
 HIDDEN _sk_srcover_rgba_8888_sse2_8bit
 .globl _sk_srcover_rgba_8888_sse2_8bit
@@ -54502,7 +54447,7 @@ _sk_srcover_rgba_8888_sse2_8bit:
   .byte  72,193,226,2                        // shl           $0x2,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,120                             // jne           824 <_sk_srcover_rgba_8888_sse2_8bit+0x99>
+  .byte  117,120                             // jne           7db <_sk_srcover_rgba_8888_sse2_8bit+0x99>
   .byte  243,66,15,111,20,130                // movdqu        (%rdx,%r8,4),%xmm2
   .byte  77,133,201                          // test          %r9,%r9
   .byte  242,15,112,216,231                  // pshuflw       $0xe7,%xmm0,%xmm3
@@ -54528,38 +54473,38 @@ _sk_srcover_rgba_8888_sse2_8bit:
   .byte  102,15,103,251                      // packuswb      %xmm3,%xmm7
   .byte  102,15,248,215                      // psubb         %xmm7,%xmm2
   .byte  102,15,252,208                      // paddb         %xmm0,%xmm2
-  .byte  117,58                              // jne           854 <_sk_srcover_rgba_8888_sse2_8bit+0xc9>
+  .byte  117,58                              // jne           80b <_sk_srcover_rgba_8888_sse2_8bit+0xc9>
   .byte  243,66,15,127,20,130                // movdqu        %xmm2,(%rdx,%r8,4)
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  255,224                             // jmpq          *%rax
   .byte  68,137,200                          // mov           %r9d,%eax
   .byte  36,3                                // and           $0x3,%al
   .byte  60,1                                // cmp           $0x1,%al
-  .byte  116,81                              // je            87e <_sk_srcover_rgba_8888_sse2_8bit+0xf3>
+  .byte  116,81                              // je            835 <_sk_srcover_rgba_8888_sse2_8bit+0xf3>
   .byte  102,15,239,210                      // pxor          %xmm2,%xmm2
   .byte  60,2                                // cmp           $0x2,%al
-  .byte  116,20                              // je            849 <_sk_srcover_rgba_8888_sse2_8bit+0xbe>
+  .byte  116,20                              // je            800 <_sk_srcover_rgba_8888_sse2_8bit+0xbe>
   .byte  60,3                                // cmp           $0x3,%al
-  .byte  15,133,117,255,255,255              // jne           7b2 <_sk_srcover_rgba_8888_sse2_8bit+0x27>
+  .byte  15,133,117,255,255,255              // jne           769 <_sk_srcover_rgba_8888_sse2_8bit+0x27>
   .byte  102,66,15,110,84,130,8              // movd          0x8(%rdx,%r8,4),%xmm2
   .byte  102,15,112,210,69                   // pshufd        $0x45,%xmm2,%xmm2
   .byte  102,66,15,18,20,130                 // movlpd        (%rdx,%r8,4),%xmm2
-  .byte  233,94,255,255,255                  // jmpq          7b2 <_sk_srcover_rgba_8888_sse2_8bit+0x27>
+  .byte  233,94,255,255,255                  // jmpq          769 <_sk_srcover_rgba_8888_sse2_8bit+0x27>
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,43                              // je            889 <_sk_srcover_rgba_8888_sse2_8bit+0xfe>
+  .byte  116,43                              // je            840 <_sk_srcover_rgba_8888_sse2_8bit+0xfe>
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,18                              // je            876 <_sk_srcover_rgba_8888_sse2_8bit+0xeb>
+  .byte  116,18                              // je            82d <_sk_srcover_rgba_8888_sse2_8bit+0xeb>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,182                             // jne           820 <_sk_srcover_rgba_8888_sse2_8bit+0x95>
+  .byte  117,182                             // jne           7d7 <_sk_srcover_rgba_8888_sse2_8bit+0x95>
   .byte  102,15,112,218,78                   // pshufd        $0x4e,%xmm2,%xmm3
   .byte  102,66,15,126,92,130,8              // movd          %xmm3,0x8(%rdx,%r8,4)
   .byte  102,66,15,214,20,130                // movq          %xmm2,(%rdx,%r8,4)
-  .byte  235,162                             // jmp           820 <_sk_srcover_rgba_8888_sse2_8bit+0x95>
+  .byte  235,162                             // jmp           7d7 <_sk_srcover_rgba_8888_sse2_8bit+0x95>
   .byte  102,66,15,110,20,130                // movd          (%rdx,%r8,4),%xmm2
-  .byte  233,41,255,255,255                  // jmpq          7b2 <_sk_srcover_rgba_8888_sse2_8bit+0x27>
+  .byte  233,41,255,255,255                  // jmpq          769 <_sk_srcover_rgba_8888_sse2_8bit+0x27>
   .byte  102,66,15,126,20,130                // movd          %xmm2,(%rdx,%r8,4)
-  .byte  235,143                             // jmp           820 <_sk_srcover_rgba_8888_sse2_8bit+0x95>
+  .byte  235,143                             // jmp           7d7 <_sk_srcover_rgba_8888_sse2_8bit+0x95>
 
 HIDDEN _sk_scale_1_float_sse2_8bit
 .globl _sk_scale_1_float_sse2_8bit
@@ -54567,7 +54512,7 @@ FUNCTION(_sk_scale_1_float_sse2_8bit)
 _sk_scale_1_float_sse2_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  243,15,16,16                        // movss         (%rax),%xmm2
-  .byte  243,15,89,21,109,9,0,0              // mulss         0x96d(%rip),%xmm2        # 120c <_sk_xor__sse2_8bit+0xd0>
+  .byte  243,15,89,21,106,9,0,0              // mulss         0x96a(%rip),%xmm2        # 11c0 <_sk_xor__sse2_8bit+0xcd>
   .byte  243,15,44,194                       // cvttss2si     %xmm2,%eax
   .byte  102,15,239,219                      // pxor          %xmm3,%xmm3
   .byte  102,15,111,208                      // movdqa        %xmm0,%xmm2
@@ -54577,7 +54522,7 @@ _sk_scale_1_float_sse2_8bit:
   .byte  102,15,96,219                       // punpcklbw     %xmm3,%xmm3
   .byte  242,15,112,219,0                    // pshuflw       $0x0,%xmm3,%xmm3
   .byte  102,15,112,219,80                   // pshufd        $0x50,%xmm3,%xmm3
-  .byte  102,15,219,29,227,9,0,0             // pand          0x9e3(%rip),%xmm3        # 12b0 <_sk_xor__sse2_8bit+0x174>
+  .byte  102,15,219,29,220,9,0,0             // pand          0x9dc(%rip),%xmm3        # 1260 <_sk_xor__sse2_8bit+0x16d>
   .byte  102,15,111,227                      // movdqa        %xmm3,%xmm4
   .byte  102,15,213,224                      // pmullw        %xmm0,%xmm4
   .byte  102,15,213,218                      // pmullw        %xmm2,%xmm3
@@ -54602,7 +54547,7 @@ _sk_scale_u8_sse2_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  117,114                             // jne           986 <_sk_scale_u8_sse2_8bit+0x8f>
+  .byte  117,114                             // jne           93d <_sk_scale_u8_sse2_8bit+0x8f>
   .byte  102,66,15,110,20,2                  // movd          (%rdx,%r8,1),%xmm2
   .byte  102,15,96,208                       // punpcklbw     %xmm0,%xmm2
   .byte  102,15,97,208                       // punpcklwd     %xmm0,%xmm2
@@ -54632,12 +54577,12 @@ _sk_scale_u8_sse2_8bit:
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,57                              // je            9c9 <_sk_scale_u8_sse2_8bit+0xd2>
+  .byte  116,57                              // je            980 <_sk_scale_u8_sse2_8bit+0xd2>
   .byte  102,15,239,210                      // pxor          %xmm2,%xmm2
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,21                              // je            9af <_sk_scale_u8_sse2_8bit+0xb8>
+  .byte  116,21                              // je            966 <_sk_scale_u8_sse2_8bit+0xb8>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  117,130                             // jne           922 <_sk_scale_u8_sse2_8bit+0x2b>
+  .byte  117,130                             // jne           8d9 <_sk_scale_u8_sse2_8bit+0x2b>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,112,210,69                   // pshufd        $0x45,%xmm2,%xmm2
@@ -54646,10 +54591,10 @@ _sk_scale_u8_sse2_8bit:
   .byte  102,15,96,216                       // punpcklbw     %xmm0,%xmm3
   .byte  102,15,97,216                       // punpcklwd     %xmm0,%xmm3
   .byte  242,15,16,211                       // movsd         %xmm3,%xmm2
-  .byte  233,89,255,255,255                  // jmpq          922 <_sk_scale_u8_sse2_8bit+0x2b>
+  .byte  233,89,255,255,255                  // jmpq          8d9 <_sk_scale_u8_sse2_8bit+0x2b>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,208                      // movd          %eax,%xmm2
-  .byte  233,75,255,255,255                  // jmpq          922 <_sk_scale_u8_sse2_8bit+0x2b>
+  .byte  233,75,255,255,255                  // jmpq          8d9 <_sk_scale_u8_sse2_8bit+0x2b>
 
 HIDDEN _sk_lerp_1_float_sse2_8bit
 .globl _sk_lerp_1_float_sse2_8bit
@@ -54657,7 +54602,7 @@ FUNCTION(_sk_lerp_1_float_sse2_8bit)
 _sk_lerp_1_float_sse2_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
   .byte  243,15,16,16                        // movss         (%rax),%xmm2
-  .byte  243,15,89,21,43,8,0,0               // mulss         0x82b(%rip),%xmm2        # 1210 <_sk_xor__sse2_8bit+0xd4>
+  .byte  243,15,89,21,40,8,0,0               // mulss         0x828(%rip),%xmm2        # 11c4 <_sk_xor__sse2_8bit+0xd1>
   .byte  243,15,44,194                       // cvttss2si     %xmm2,%eax
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,96,210                       // punpcklbw     %xmm2,%xmm2
@@ -54667,7 +54612,7 @@ _sk_lerp_1_float_sse2_8bit:
   .byte  102,15,111,232                      // movdqa        %xmm0,%xmm5
   .byte  102,15,96,236                       // punpcklbw     %xmm4,%xmm5
   .byte  102,15,104,196                      // punpckhbw     %xmm4,%xmm0
-  .byte  102,15,111,21,173,8,0,0             // movdqa        0x8ad(%rip),%xmm2        # 12c0 <_sk_xor__sse2_8bit+0x184>
+  .byte  102,15,111,21,166,8,0,0             // movdqa        0x8a6(%rip),%xmm2        # 1270 <_sk_xor__sse2_8bit+0x17d>
   .byte  102,15,219,211                      // pand          %xmm3,%xmm2
   .byte  102,15,111,242                      // movdqa        %xmm2,%xmm6
   .byte  102,15,213,240                      // pmullw        %xmm0,%xmm6
@@ -54709,7 +54654,7 @@ _sk_lerp_u8_sse2_8bit:
   .byte  72,15,175,209                       // imul          %rcx,%rdx
   .byte  72,3,16                             // add           (%rax),%rdx
   .byte  77,133,201                          // test          %r9,%r9
-  .byte  15,133,180,0,0,0                    // jne           b58 <_sk_lerp_u8_sse2_8bit+0xd5>
+  .byte  15,133,180,0,0,0                    // jne           b0f <_sk_lerp_u8_sse2_8bit+0xd5>
   .byte  102,66,15,110,20,2                  // movd          (%rdx,%r8,1),%xmm2
   .byte  102,15,96,208                       // punpcklbw     %xmm0,%xmm2
   .byte  102,15,97,208                       // punpcklwd     %xmm0,%xmm2
@@ -54755,12 +54700,12 @@ _sk_lerp_u8_sse2_8bit:
   .byte  255,224                             // jmpq          *%rax
   .byte  65,128,225,3                        // and           $0x3,%r9b
   .byte  65,128,249,1                        // cmp           $0x1,%r9b
-  .byte  116,61                              // je            b9f <_sk_lerp_u8_sse2_8bit+0x11c>
+  .byte  116,61                              // je            b56 <_sk_lerp_u8_sse2_8bit+0x11c>
   .byte  102,15,239,210                      // pxor          %xmm2,%xmm2
   .byte  65,128,249,2                        // cmp           $0x2,%r9b
-  .byte  116,25                              // je            b85 <_sk_lerp_u8_sse2_8bit+0x102>
+  .byte  116,25                              // je            b3c <_sk_lerp_u8_sse2_8bit+0x102>
   .byte  65,128,249,3                        // cmp           $0x3,%r9b
-  .byte  15,133,60,255,255,255               // jne           ab2 <_sk_lerp_u8_sse2_8bit+0x2f>
+  .byte  15,133,60,255,255,255               // jne           a69 <_sk_lerp_u8_sse2_8bit+0x2f>
   .byte  66,15,182,68,2,2                    // movzbl        0x2(%rdx,%r8,1),%eax
   .byte  102,15,110,208                      // movd          %eax,%xmm2
   .byte  102,15,112,210,69                   // pshufd        $0x45,%xmm2,%xmm2
@@ -54769,10 +54714,10 @@ _sk_lerp_u8_sse2_8bit:
   .byte  102,15,96,216                       // punpcklbw     %xmm0,%xmm3
   .byte  102,15,97,216                       // punpcklwd     %xmm0,%xmm3
   .byte  242,15,16,211                       // movsd         %xmm3,%xmm2
-  .byte  233,19,255,255,255                  // jmpq          ab2 <_sk_lerp_u8_sse2_8bit+0x2f>
+  .byte  233,19,255,255,255                  // jmpq          a69 <_sk_lerp_u8_sse2_8bit+0x2f>
   .byte  66,15,182,4,2                       // movzbl        (%rdx,%r8,1),%eax
   .byte  102,15,110,208                      // movd          %eax,%xmm2
-  .byte  233,5,255,255,255                   // jmpq          ab2 <_sk_lerp_u8_sse2_8bit+0x2f>
+  .byte  233,5,255,255,255                   // jmpq          a69 <_sk_lerp_u8_sse2_8bit+0x2f>
 
 HIDDEN _sk_move_src_dst_sse2_8bit
 .globl _sk_move_src_dst_sse2_8bit
@@ -54795,7 +54740,7 @@ HIDDEN _sk_black_color_sse2_8bit
 FUNCTION(_sk_black_color_sse2_8bit)
 _sk_black_color_sse2_8bit:
   .byte  72,173                              // lods          %ds:(%rsi),%rax
-  .byte  15,40,5,12,7,0,0                    // movaps        0x70c(%rip),%xmm0        # 12d0 <_sk_xor__sse2_8bit+0x194>
+  .byte  15,40,5,5,7,0,0                     // movaps        0x705(%rip),%xmm0        # 1280 <_sk_xor__sse2_8bit+0x18d>
   .byte  255,224                             // jmpq          *%rax
 
 HIDDEN _sk_white_color_sse2_8bit
@@ -55255,13 +55200,11 @@ _sk_xor__sse2_8bit:
 
 BALIGN4
   .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            124b <_sk_xor__sse2_8bit+0x10f>
-  .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            124f <_sk_xor__sse2_8bit+0x113>
+  .byte  127,67                              // jg            1203 <_sk_xor__sse2_8bit+0x110>
   .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            1253 <_sk_xor__sse2_8bit+0x117>
+  .byte  127,67                              // jg            1207 <_sk_xor__sse2_8bit+0x114>
   .byte  0,0                                 // add           %al,(%rax)
-  .byte  127,67                              // jg            1257 <_sk_xor__sse2_8bit+0x11b>
+  .byte  127,67                              // jg            120b <_sk_xor__sse2_8bit+0x118>
 
 BALIGN16
   .byte  0,0                                 // add           %al,(%rax)
author	Mike Klein <mtklein@chromium.org>	2017-08-03 11:24:13 -0400
committer	Skia Commit-Bot <skia-commit-bot@chromium.org>	2017-08-03 15:47:26 +0000
commit	1a2e3e1e77bf7d7da31e8403d88b743f74669c3c (patch)
tree	0230bf6d958d520641c7d549496d1a1e28fdd5cc /src/jumper/SkJumper_generated.S
parent	16776dfb4b307c70d08e316f2ecf2a53953f2e0d (diff)