aboutsummaryrefslogtreecommitdiffhomepage
path: root/src/jumper/SkJumper_generated.S
diff options
context:
space:
mode:
authorGravatar Mike Klein <mtklein@chromium.org>2017-08-03 00:43:19 -0400
committerGravatar Skia Commit-Bot <skia-commit-bot@chromium.org>2017-08-03 13:33:26 +0000
commitc18ab884ae6cf85521ed2c719d78e45308404335 (patch)
tree997de0c76358474d8dd8c3f882fca9ed889d8636 /src/jumper/SkJumper_generated.S
parente7f89fc257a5ddd83a314e7bbdd23cb17a461ae5 (diff)
_very_ minor srcover speedup
This is a consistent, very small speedup for srcover. SkRasterPipeline_run Before: 30.4057ns After: 30.1089ns i.e. a 1% speedup on the bench, maybe 3-4% improvment in srcover itself. The only reason I'd send this out now is that this will slightly change some pixels, so it's a good thing to sneak in before rebaselining. It's possible that other blend modes would benefit from the same, but I've only looked at srcover (and I've also changed dstover so that it doesn't look funny). Change-Id: Ic056ca0912d76648d43a78e0052176fd0f7934f1 Reviewed-on: https://skia-review.googlesource.com/30281 Reviewed-by: Florin Malita <fmalita@chromium.org> Commit-Queue: Mike Klein <mtklein@chromium.org>
Diffstat (limited to 'src/jumper/SkJumper_generated.S')
-rw-r--r--src/jumper/SkJumper_generated.S540
1 files changed, 267 insertions, 273 deletions
diff --git a/src/jumper/SkJumper_generated.S b/src/jumper/SkJumper_generated.S
index 1b005b621f..ce01a81595 100644
--- a/src/jumper/SkJumper_generated.S
+++ b/src/jumper/SkJumper_generated.S
@@ -50443,7 +50443,7 @@ HIDDEN _sk_uniform_color_hsw_8bit
FUNCTION(_sk_uniform_color_hsw_8bit)
_sk_uniform_color_hsw_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 197,250,16,5,134,18,0,0 // vmovss 0x1286(%rip),%xmm0 # 1338 <_sk_xor__hsw_8bit+0xbd>
+ .byte 197,250,16,5,122,18,0,0 // vmovss 0x127a(%rip),%xmm0 # 132c <_sk_xor__hsw_8bit+0xbd>
.byte 197,250,89,16 // vmulss (%rax),%xmm0,%xmm2
.byte 196,225,250,44,202 // vcvttss2si %xmm2,%rcx
.byte 197,250,89,80,4 // vmulss 0x4(%rax),%xmm0,%xmm2
@@ -50468,7 +50468,7 @@ HIDDEN _sk_set_rgb_hsw_8bit
FUNCTION(_sk_set_rgb_hsw_8bit)
_sk_set_rgb_hsw_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 197,250,16,21,61,18,0,0 // vmovss 0x123d(%rip),%xmm2 # 133c <_sk_xor__hsw_8bit+0xc1>
+ .byte 197,250,16,21,49,18,0,0 // vmovss 0x1231(%rip),%xmm2 # 1330 <_sk_xor__hsw_8bit+0xc1>
.byte 197,234,89,24 // vmulss (%rax),%xmm2,%xmm3
.byte 196,225,250,44,203 // vcvttss2si %xmm3,%rcx
.byte 197,234,89,88,4 // vmulss 0x4(%rax),%xmm2,%xmm3
@@ -50481,7 +50481,7 @@ _sk_set_rgb_hsw_8bit:
.byte 9,208 // or %edx,%eax
.byte 197,249,110,208 // vmovd %eax,%xmm2
.byte 196,226,125,88,210 // vpbroadcastd %xmm2,%ymm2
- .byte 197,253,219,5,41,18,0,0 // vpand 0x1229(%rip),%ymm0,%ymm0 # 1360 <_sk_xor__hsw_8bit+0xe5>
+ .byte 197,253,219,5,41,18,0,0 // vpand 0x1229(%rip),%ymm0,%ymm0 # 1360 <_sk_xor__hsw_8bit+0xf1>
.byte 197,237,235,192 // vpor %ymm0,%ymm2,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -50490,8 +50490,8 @@ HIDDEN _sk_premul_hsw_8bit
.globl _sk_premul_hsw_8bit
FUNCTION(_sk_premul_hsw_8bit)
_sk_premul_hsw_8bit:
- .byte 196,226,125,0,21,56,18,0,0 // vpshufb 0x1238(%rip),%ymm0,%ymm2 # 1380 <_sk_xor__hsw_8bit+0x105>
- .byte 197,237,235,21,80,18,0,0 // vpor 0x1250(%rip),%ymm2,%ymm2 # 13a0 <_sk_xor__hsw_8bit+0x125>
+ .byte 196,226,125,0,21,56,18,0,0 // vpshufb 0x1238(%rip),%ymm0,%ymm2 # 1380 <_sk_xor__hsw_8bit+0x111>
+ .byte 197,237,235,21,80,18,0,0 // vpor 0x1250(%rip),%ymm2,%ymm2 # 13a0 <_sk_xor__hsw_8bit+0x131>
.byte 196,226,125,48,216 // vpmovzxbw %xmm0,%ymm3
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
.byte 196,226,125,48,192 // vpmovzxbw %xmm0,%ymm0
@@ -50514,7 +50514,7 @@ HIDDEN _sk_swap_rb_hsw_8bit
.globl _sk_swap_rb_hsw_8bit
FUNCTION(_sk_swap_rb_hsw_8bit)
_sk_swap_rb_hsw_8bit:
- .byte 196,226,125,0,5,25,18,0,0 // vpshufb 0x1219(%rip),%ymm0,%ymm0 # 13c0 <_sk_xor__hsw_8bit+0x145>
+ .byte 196,226,125,0,5,25,18,0,0 // vpshufb 0x1219(%rip),%ymm0,%ymm0 # 13c0 <_sk_xor__hsw_8bit+0x151>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -50618,7 +50618,7 @@ _sk_load_bgra_hsw_8bit:
.byte 77,133,192 // test %r8,%r8
.byte 117,17 // jne 2da <_sk_load_bgra_hsw_8bit+0x36>
.byte 197,254,111,0 // vmovdqu (%rax),%ymm0
- .byte 196,226,125,0,5,10,17,0,0 // vpshufb 0x110a(%rip),%ymm0,%ymm0 # 13e0 <_sk_xor__hsw_8bit+0x165>
+ .byte 196,226,125,0,5,10,17,0,0 // vpshufb 0x110a(%rip),%ymm0,%ymm0 # 13e0 <_sk_xor__hsw_8bit+0x171>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 185,8,0,0,0 // mov $0x8,%ecx
@@ -50647,7 +50647,7 @@ _sk_load_bgra_dst_hsw_8bit:
.byte 77,133,192 // test %r8,%r8
.byte 117,17 // jne 336 <_sk_load_bgra_dst_hsw_8bit+0x36>
.byte 197,254,111,8 // vmovdqu (%rax),%ymm1
- .byte 196,226,117,0,13,206,16,0,0 // vpshufb 0x10ce(%rip),%ymm1,%ymm1 # 1400 <_sk_xor__hsw_8bit+0x185>
+ .byte 196,226,117,0,13,206,16,0,0 // vpshufb 0x10ce(%rip),%ymm1,%ymm1 # 1400 <_sk_xor__hsw_8bit+0x191>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 185,8,0,0,0 // mov $0x8,%ecx
@@ -50673,7 +50673,7 @@ _sk_store_bgra_hsw_8bit:
.byte 72,193,225,2 // shl $0x2,%rcx
.byte 72,3,8 // add (%rax),%rcx
.byte 74,141,4,137 // lea (%rcx,%r9,4),%rax
- .byte 196,226,125,0,21,155,16,0,0 // vpshufb 0x109b(%rip),%ymm0,%ymm2 # 1420 <_sk_xor__hsw_8bit+0x1a5>
+ .byte 196,226,125,0,21,155,16,0,0 // vpshufb 0x109b(%rip),%ymm0,%ymm2 # 1420 <_sk_xor__hsw_8bit+0x1b1>
.byte 77,133,192 // test %r8,%r8
.byte 117,8 // jne 392 <_sk_store_bgra_hsw_8bit+0x36>
.byte 197,254,127,16 // vmovdqu %ymm2,(%rax)
@@ -50703,7 +50703,7 @@ _sk_load_a8_hsw_8bit:
.byte 77,133,201 // test %r9,%r9
.byte 117,28 // jne 3f1 <_sk_load_a8_hsw_8bit+0x39>
.byte 196,162,121,48,4,2 // vpmovzxbw (%rdx,%r8,1),%xmm0
- .byte 197,249,219,5,93,18,0,0 // vpand 0x125d(%rip),%xmm0,%xmm0 # 1640 <_sk_xor__hsw_8bit+0x3c5>
+ .byte 197,249,219,5,93,18,0,0 // vpand 0x125d(%rip),%xmm0,%xmm0 # 1640 <_sk_xor__hsw_8bit+0x3d1>
.byte 196,226,125,51,192 // vpmovzxwd %xmm0,%ymm0
.byte 197,253,114,240,24 // vpslld $0x18,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -50774,7 +50774,7 @@ _sk_load_a8_dst_hsw_8bit:
.byte 77,133,201 // test %r9,%r9
.byte 117,28 // jne 4d9 <_sk_load_a8_dst_hsw_8bit+0x39>
.byte 196,162,121,48,12,2 // vpmovzxbw (%rdx,%r8,1),%xmm1
- .byte 197,241,219,13,133,17,0,0 // vpand 0x1185(%rip),%xmm1,%xmm1 # 1650 <_sk_xor__hsw_8bit+0x3d5>
+ .byte 197,241,219,13,133,17,0,0 // vpand 0x1185(%rip),%xmm1,%xmm1 # 1650 <_sk_xor__hsw_8bit+0x3e1>
.byte 196,226,125,51,201 // vpmovzxwd %xmm1,%ymm1
.byte 197,245,114,241,24 // vpslld $0x18,%ymm1,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -50842,11 +50842,11 @@ _sk_store_a8_hsw_8bit:
.byte 72,99,87,8 // movslq 0x8(%rdi),%rdx
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
- .byte 196,226,125,0,21,151,14,0,0 // vpshufb 0xe97(%rip),%ymm0,%ymm2 # 1440 <_sk_xor__hsw_8bit+0x1c5>
+ .byte 196,226,125,0,21,151,14,0,0 // vpshufb 0xe97(%rip),%ymm0,%ymm2 # 1440 <_sk_xor__hsw_8bit+0x1d1>
.byte 196,227,253,0,210,232 // vpermq $0xe8,%ymm2,%ymm2
.byte 77,133,201 // test %r9,%r9
.byte 117,19 // jne 5c7 <_sk_store_a8_hsw_8bit+0x3f>
- .byte 196,226,105,0,21,195,16,0,0 // vpshufb 0x10c3(%rip),%xmm2,%xmm2 # 1680 <_sk_xor__hsw_8bit+0x405>
+ .byte 196,226,105,0,21,195,16,0,0 // vpshufb 0x10c3(%rip),%xmm2,%xmm2 # 1680 <_sk_xor__hsw_8bit+0x411>
.byte 196,161,121,214,20,2 // vmovq %xmm2,(%rdx,%r8,1)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -50862,13 +50862,13 @@ _sk_store_a8_hsw_8bit:
.byte 196,163,121,20,20,2,0 // vpextrb $0x0,%xmm2,(%rdx,%r8,1)
.byte 235,210 // jmp 5c3 <_sk_store_a8_hsw_8bit+0x3b>
.byte 196,163,121,20,84,2,2,4 // vpextrb $0x4,%xmm2,0x2(%rdx,%r8,1)
- .byte 196,226,105,0,21,94,16,0,0 // vpshufb 0x105e(%rip),%xmm2,%xmm2 # 1660 <_sk_xor__hsw_8bit+0x3e5>
+ .byte 196,226,105,0,21,94,16,0,0 // vpshufb 0x105e(%rip),%xmm2,%xmm2 # 1660 <_sk_xor__hsw_8bit+0x3f1>
.byte 196,163,121,21,20,2,0 // vpextrw $0x0,%xmm2,(%rdx,%r8,1)
.byte 235,184 // jmp 5c3 <_sk_store_a8_hsw_8bit+0x3b>
.byte 196,163,121,20,84,2,6,12 // vpextrb $0xc,%xmm2,0x6(%rdx,%r8,1)
.byte 196,163,121,20,84,2,5,10 // vpextrb $0xa,%xmm2,0x5(%rdx,%r8,1)
.byte 196,163,121,20,84,2,4,8 // vpextrb $0x8,%xmm2,0x4(%rdx,%r8,1)
- .byte 196,226,105,0,21,68,16,0,0 // vpshufb 0x1044(%rip),%xmm2,%xmm2 # 1670 <_sk_xor__hsw_8bit+0x3f5>
+ .byte 196,226,105,0,21,68,16,0,0 // vpshufb 0x1044(%rip),%xmm2,%xmm2 # 1670 <_sk_xor__hsw_8bit+0x401>
.byte 196,161,121,126,20,2 // vmovd %xmm2,(%rdx,%r8,1)
.byte 235,143 // jmp 5c3 <_sk_store_a8_hsw_8bit+0x3b>
.byte 180,255 // mov $0xff,%ah
@@ -50905,11 +50905,11 @@ _sk_load_g8_hsw_8bit:
.byte 77,133,201 // test %r9,%r9
.byte 117,50 // jne 69f <_sk_load_g8_hsw_8bit+0x4f>
.byte 196,162,121,48,4,2 // vpmovzxbw (%rdx,%r8,1),%xmm0
- .byte 197,249,219,5,21,16,0,0 // vpand 0x1015(%rip),%xmm0,%xmm0 # 1690 <_sk_xor__hsw_8bit+0x415>
+ .byte 197,249,219,5,21,16,0,0 // vpand 0x1015(%rip),%xmm0,%xmm0 # 1690 <_sk_xor__hsw_8bit+0x421>
.byte 196,226,125,51,192 // vpmovzxwd %xmm0,%ymm0
- .byte 196,226,125,88,21,183,12,0,0 // vpbroadcastd 0xcb7(%rip),%ymm2 # 1340 <_sk_xor__hsw_8bit+0xc5>
+ .byte 196,226,125,88,21,171,12,0,0 // vpbroadcastd 0xcab(%rip),%ymm2 # 1334 <_sk_xor__hsw_8bit+0xc5>
.byte 196,226,125,64,194 // vpmulld %ymm2,%ymm0,%ymm0
- .byte 196,226,125,88,21,173,12,0,0 // vpbroadcastd 0xcad(%rip),%ymm2 # 1344 <_sk_xor__hsw_8bit+0xc9>
+ .byte 196,226,125,88,21,161,12,0,0 // vpbroadcastd 0xca1(%rip),%ymm2 # 1338 <_sk_xor__hsw_8bit+0xc9>
.byte 197,253,235,194 // vpor %ymm2,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -50953,7 +50953,7 @@ _sk_load_g8_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 232,255,255,255,221 // callq ffffffffde000744 <_sk_xor__hsw_8bit+0xffffffffddfff4c9>
+ .byte 232,255,255,255,221 // callq ffffffffde000744 <_sk_xor__hsw_8bit+0xffffffffddfff4d5>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,210 // callq *%rdx
@@ -50978,11 +50978,11 @@ _sk_load_g8_dst_hsw_8bit:
.byte 77,133,201 // test %r9,%r9
.byte 117,50 // jne 79f <_sk_load_g8_dst_hsw_8bit+0x4f>
.byte 196,162,121,48,12,2 // vpmovzxbw (%rdx,%r8,1),%xmm1
- .byte 197,241,219,13,37,15,0,0 // vpand 0xf25(%rip),%xmm1,%xmm1 # 16a0 <_sk_xor__hsw_8bit+0x425>
+ .byte 197,241,219,13,37,15,0,0 // vpand 0xf25(%rip),%xmm1,%xmm1 # 16a0 <_sk_xor__hsw_8bit+0x431>
.byte 196,226,125,51,201 // vpmovzxwd %xmm1,%ymm1
- .byte 196,226,125,88,21,191,11,0,0 // vpbroadcastd 0xbbf(%rip),%ymm2 # 1348 <_sk_xor__hsw_8bit+0xcd>
+ .byte 196,226,125,88,21,179,11,0,0 // vpbroadcastd 0xbb3(%rip),%ymm2 # 133c <_sk_xor__hsw_8bit+0xcd>
.byte 196,226,117,64,202 // vpmulld %ymm2,%ymm1,%ymm1
- .byte 196,226,125,88,21,181,11,0,0 // vpbroadcastd 0xbb5(%rip),%ymm2 # 134c <_sk_xor__hsw_8bit+0xd1>
+ .byte 196,226,125,88,21,169,11,0,0 // vpbroadcastd 0xba9(%rip),%ymm2 # 1340 <_sk_xor__hsw_8bit+0xd1>
.byte 197,245,235,202 // vpor %ymm2,%ymm1,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -51026,7 +51026,7 @@ _sk_load_g8_dst_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 232,255,255,255,221 // callq ffffffffde000844 <_sk_xor__hsw_8bit+0xffffffffddfff5c9>
+ .byte 232,255,255,255,221 // callq ffffffffde000844 <_sk_xor__hsw_8bit+0xffffffffddfff5d5>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,210 // callq *%rdx
@@ -51051,29 +51051,28 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 72,3,8 // add (%rax),%rcx
.byte 74,141,4,137 // lea (%rcx,%r9,4),%rax
.byte 77,133,192 // test %r8,%r8
- .byte 117,112 // jne 8e5 <_sk_srcover_rgba_8888_hsw_8bit+0x95>
+ .byte 117,108 // jne 8e1 <_sk_srcover_rgba_8888_hsw_8bit+0x91>
.byte 197,254,111,16 // vmovdqu (%rax),%ymm2
- .byte 196,226,125,0,29,222,11,0,0 // vpshufb 0xbde(%rip),%ymm0,%ymm3 # 1460 <_sk_xor__hsw_8bit+0x1e5>
- .byte 197,221,118,228 // vpcmpeqd %ymm4,%ymm4,%ymm4
- .byte 197,229,239,220 // vpxor %ymm4,%ymm3,%ymm3
+ .byte 196,226,125,0,29,222,11,0,0 // vpshufb 0xbde(%rip),%ymm0,%ymm3 # 1460 <_sk_xor__hsw_8bit+0x1f1>
.byte 196,226,125,48,226 // vpmovzxbw %xmm2,%ymm4
- .byte 196,227,125,57,210,1 // vextracti128 $0x1,%ymm2,%xmm2
- .byte 196,226,125,48,210 // vpmovzxbw %xmm2,%ymm2
- .byte 196,226,125,48,235 // vpmovzxbw %xmm3,%ymm5
+ .byte 196,227,125,57,213,1 // vextracti128 $0x1,%ymm2,%xmm5
+ .byte 196,226,125,48,237 // vpmovzxbw %xmm5,%ymm5
+ .byte 196,226,125,48,243 // vpmovzxbw %xmm3,%ymm6
.byte 196,227,125,57,219,1 // vextracti128 $0x1,%ymm3,%xmm3
.byte 196,226,125,48,219 // vpmovzxbw %xmm3,%ymm3
- .byte 197,237,213,219 // vpmullw %ymm3,%ymm2,%ymm3
- .byte 197,221,213,237 // vpmullw %ymm5,%ymm4,%ymm5
- .byte 197,213,253,228 // vpaddw %ymm4,%ymm5,%ymm4
- .byte 197,229,253,210 // vpaddw %ymm2,%ymm3,%ymm2
- .byte 197,237,113,210,8 // vpsrlw $0x8,%ymm2,%ymm2
- .byte 197,229,113,212,8 // vpsrlw $0x8,%ymm4,%ymm3
- .byte 196,227,101,56,226,1 // vinserti128 $0x1,%xmm2,%ymm3,%ymm4
- .byte 196,227,101,70,210,49 // vperm2i128 $0x31,%ymm2,%ymm3,%ymm2
- .byte 197,221,103,210 // vpackuswb %ymm2,%ymm4,%ymm2
+ .byte 197,213,213,219 // vpmullw %ymm3,%ymm5,%ymm3
+ .byte 197,221,213,246 // vpmullw %ymm6,%ymm4,%ymm6
+ .byte 197,205,253,228 // vpaddw %ymm4,%ymm6,%ymm4
+ .byte 197,229,253,221 // vpaddw %ymm5,%ymm3,%ymm3
+ .byte 197,229,113,211,8 // vpsrlw $0x8,%ymm3,%ymm3
+ .byte 197,221,113,212,8 // vpsrlw $0x8,%ymm4,%ymm4
+ .byte 196,227,93,56,235,1 // vinserti128 $0x1,%xmm3,%ymm4,%ymm5
+ .byte 196,227,93,70,219,49 // vperm2i128 $0x31,%ymm3,%ymm4,%ymm3
+ .byte 197,213,103,219 // vpackuswb %ymm3,%ymm5,%ymm3
+ .byte 197,237,248,211 // vpsubb %ymm3,%ymm2,%ymm2
.byte 197,237,252,208 // vpaddb %ymm0,%ymm2,%ymm2
.byte 77,133,192 // test %r8,%r8
- .byte 117,49 // jne 90e <_sk_srcover_rgba_8888_hsw_8bit+0xbe>
+ .byte 117,49 // jne 90a <_sk_srcover_rgba_8888_hsw_8bit+0xba>
.byte 197,254,127,16 // vmovdqu %ymm2,(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -51085,7 +51084,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 196,225,249,110,210 // vmovq %rdx,%xmm2
.byte 196,226,125,33,210 // vpmovsxbd %xmm2,%ymm2
.byte 196,226,109,140,16 // vpmaskmovd (%rax),%ymm2,%ymm2
- .byte 233,107,255,255,255 // jmpq 879 <_sk_srcover_rgba_8888_hsw_8bit+0x29>
+ .byte 233,111,255,255,255 // jmpq 879 <_sk_srcover_rgba_8888_hsw_8bit+0x29>
.byte 185,8,0,0,0 // mov $0x8,%ecx
.byte 68,41,193 // sub %r8d,%ecx
.byte 192,225,3 // shl $0x3,%cl
@@ -51094,7 +51093,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 196,225,249,110,218 // vmovq %rdx,%xmm3
.byte 196,226,125,33,219 // vpmovsxbd %xmm3,%ymm3
.byte 196,226,101,142,16 // vpmaskmovd %ymm2,%ymm3,(%rax)
- .byte 235,173 // jmp 8e1 <_sk_srcover_rgba_8888_hsw_8bit+0x91>
+ .byte 235,173 // jmp 8dd <_sk_srcover_rgba_8888_hsw_8bit+0x8d>
HIDDEN _sk_scale_1_float_hsw_8bit
.globl _sk_scale_1_float_hsw_8bit
@@ -51102,14 +51101,14 @@ FUNCTION(_sk_scale_1_float_hsw_8bit)
_sk_scale_1_float_hsw_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,250,16,16 // vmovss (%rax),%xmm2
- .byte 197,234,89,21,14,10,0,0 // vmulss 0xa0e(%rip),%xmm2,%xmm2 # 1350 <_sk_xor__hsw_8bit+0xd5>
+ .byte 197,234,89,21,6,10,0,0 // vmulss 0xa06(%rip),%xmm2,%xmm2 # 1344 <_sk_xor__hsw_8bit+0xd5>
.byte 197,250,44,194 // vcvttss2si %xmm2,%eax
.byte 197,249,110,208 // vmovd %eax,%xmm2
.byte 196,226,125,120,210 // vpbroadcastb %xmm2,%ymm2
.byte 196,226,125,48,216 // vpmovzxbw %xmm0,%ymm3
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
.byte 196,226,125,48,192 // vpmovzxbw %xmm0,%ymm0
- .byte 197,237,219,21,25,11,0,0 // vpand 0xb19(%rip),%ymm2,%ymm2 # 1480 <_sk_xor__hsw_8bit+0x205>
+ .byte 197,237,219,21,29,11,0,0 // vpand 0xb1d(%rip),%ymm2,%ymm2 # 1480 <_sk_xor__hsw_8bit+0x211>
.byte 197,237,213,224 // vpmullw %ymm0,%ymm2,%ymm4
.byte 197,237,213,211 // vpmullw %ymm3,%ymm2,%ymm2
.byte 197,237,253,211 // vpaddw %ymm3,%ymm2,%ymm2
@@ -51134,11 +51133,11 @@ _sk_scale_u8_hsw_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,106 // jne a1c <_sk_scale_u8_hsw_8bit+0x87>
+ .byte 117,106 // jne a18 <_sk_scale_u8_hsw_8bit+0x87>
.byte 196,162,121,48,20,2 // vpmovzxbw (%rdx,%r8,1),%xmm2
- .byte 197,233,219,21,240,12,0,0 // vpand 0xcf0(%rip),%xmm2,%xmm2 # 16b0 <_sk_xor__hsw_8bit+0x435>
+ .byte 197,233,219,21,244,12,0,0 // vpand 0xcf4(%rip),%xmm2,%xmm2 # 16b0 <_sk_xor__hsw_8bit+0x441>
.byte 196,226,125,51,210 // vpmovzxwd %xmm2,%ymm2
- .byte 196,226,109,0,21,210,10,0,0 // vpshufb 0xad2(%rip),%ymm2,%ymm2 # 14a0 <_sk_xor__hsw_8bit+0x225>
+ .byte 196,226,109,0,21,214,10,0,0 // vpshufb 0xad6(%rip),%ymm2,%ymm2 # 14a0 <_sk_xor__hsw_8bit+0x231>
.byte 196,226,125,48,216 // vpmovzxbw %xmm0,%ymm3
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
.byte 196,226,125,48,192 // vpmovzxbw %xmm0,%ymm0
@@ -51160,15 +51159,15 @@ _sk_scale_u8_hsw_8bit:
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,139 // ja 9b8 <_sk_scale_u8_hsw_8bit+0x23>
+ .byte 119,139 // ja 9b4 <_sk_scale_u8_hsw_8bit+0x23>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,124,0,0,0 // lea 0x7c(%rip),%rcx # ab4 <_sk_scale_u8_hsw_8bit+0x11f>
+ .byte 72,141,13,124,0,0,0 // lea 0x7c(%rip),%rcx # ab0 <_sk_scale_u8_hsw_8bit+0x11f>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 197,249,110,208 // vmovd %eax,%xmm2
- .byte 233,105,255,255,255 // jmpq 9b8 <_sk_scale_u8_hsw_8bit+0x23>
+ .byte 233,105,255,255,255 // jmpq 9b4 <_sk_scale_u8_hsw_8bit+0x23>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 197,233,196,208,2 // vpinsrw $0x2,%eax,%xmm2,%xmm2
@@ -51176,7 +51175,7 @@ _sk_scale_u8_hsw_8bit:
.byte 197,249,110,216 // vmovd %eax,%xmm3
.byte 196,226,121,48,219 // vpmovzxbw %xmm3,%xmm3
.byte 196,227,105,2,211,1 // vpblendd $0x1,%xmm3,%xmm2,%xmm2
- .byte 233,65,255,255,255 // jmpq 9b8 <_sk_scale_u8_hsw_8bit+0x23>
+ .byte 233,65,255,255,255 // jmpq 9b4 <_sk_scale_u8_hsw_8bit+0x23>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 197,233,196,208,6 // vpinsrw $0x6,%eax,%xmm2,%xmm2
@@ -51187,7 +51186,7 @@ _sk_scale_u8_hsw_8bit:
.byte 196,161,121,110,28,2 // vmovd (%rdx,%r8,1),%xmm3
.byte 196,226,121,48,219 // vpmovzxbw %xmm3,%xmm3
.byte 196,227,97,2,210,12 // vpblendd $0xc,%xmm2,%xmm3,%xmm2
- .byte 233,6,255,255,255 // jmpq 9b8 <_sk_scale_u8_hsw_8bit+0x23>
+ .byte 233,6,255,255,255 // jmpq 9b4 <_sk_scale_u8_hsw_8bit+0x23>
.byte 102,144 // xchg %ax,%ax
.byte 141 // (bad)
.byte 255 // (bad)
@@ -51196,7 +51195,7 @@ _sk_scale_u8_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 232,255,255,255,221 // callq ffffffffde000ac4 <_sk_xor__hsw_8bit+0xffffffffddfff849>
+ .byte 232,255,255,255,221 // callq ffffffffde000ac0 <_sk_xor__hsw_8bit+0xffffffffddfff851>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,210 // callq *%rdx
@@ -51213,14 +51212,14 @@ FUNCTION(_sk_lerp_1_float_hsw_8bit)
_sk_lerp_1_float_hsw_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,250,16,16 // vmovss (%rax),%xmm2
- .byte 197,234,89,21,118,8,0,0 // vmulss 0x876(%rip),%xmm2,%xmm2 # 1354 <_sk_xor__hsw_8bit+0xd9>
+ .byte 197,234,89,21,110,8,0,0 // vmulss 0x86e(%rip),%xmm2,%xmm2 # 1348 <_sk_xor__hsw_8bit+0xd9>
.byte 197,250,44,194 // vcvttss2si %xmm2,%eax
.byte 197,249,110,208 // vmovd %eax,%xmm2
.byte 196,226,125,120,210 // vpbroadcastb %xmm2,%ymm2
.byte 196,226,125,48,216 // vpmovzxbw %xmm0,%ymm3
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
.byte 196,226,125,48,192 // vpmovzxbw %xmm0,%ymm0
- .byte 197,237,219,37,189,9,0,0 // vpand 0x9bd(%rip),%ymm2,%ymm4 # 14c0 <_sk_xor__hsw_8bit+0x245>
+ .byte 197,237,219,37,193,9,0,0 // vpand 0x9c1(%rip),%ymm2,%ymm4 # 14c0 <_sk_xor__hsw_8bit+0x251>
.byte 197,221,213,232 // vpmullw %ymm0,%ymm4,%ymm5
.byte 197,221,213,227 // vpmullw %ymm3,%ymm4,%ymm4
.byte 197,221,253,219 // vpaddw %ymm3,%ymm4,%ymm3
@@ -51263,11 +51262,11 @@ _sk_lerp_u8_hsw_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 15,133,192,0,0,0 // jne c68 <_sk_lerp_u8_hsw_8bit+0xe1>
+ .byte 15,133,192,0,0,0 // jne c64 <_sk_lerp_u8_hsw_8bit+0xe1>
.byte 196,162,121,48,20,2 // vpmovzxbw (%rdx,%r8,1),%xmm2
- .byte 197,233,219,21,10,11,0,0 // vpand 0xb0a(%rip),%xmm2,%xmm2 # 16c0 <_sk_xor__hsw_8bit+0x445>
+ .byte 197,233,219,21,14,11,0,0 // vpand 0xb0e(%rip),%xmm2,%xmm2 # 16c0 <_sk_xor__hsw_8bit+0x451>
.byte 196,226,125,51,210 // vpmovzxwd %xmm2,%ymm2
- .byte 196,226,109,0,21,28,9,0,0 // vpshufb 0x91c(%rip),%ymm2,%ymm2 # 14e0 <_sk_xor__hsw_8bit+0x265>
+ .byte 196,226,109,0,21,32,9,0,0 // vpshufb 0x920(%rip),%ymm2,%ymm2 # 14e0 <_sk_xor__hsw_8bit+0x271>
.byte 196,226,125,48,216 // vpmovzxbw %xmm0,%ymm3
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
.byte 196,226,125,48,192 // vpmovzxbw %xmm0,%ymm0
@@ -51307,15 +51306,15 @@ _sk_lerp_u8_hsw_8bit:
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 15,135,49,255,255,255 // ja bae <_sk_lerp_u8_hsw_8bit+0x27>
+ .byte 15,135,49,255,255,255 // ja baa <_sk_lerp_u8_hsw_8bit+0x27>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,124,0,0,0 // lea 0x7c(%rip),%rcx # d04 <_sk_lerp_u8_hsw_8bit+0x17d>
+ .byte 72,141,13,124,0,0,0 // lea 0x7c(%rip),%rcx # d00 <_sk_lerp_u8_hsw_8bit+0x17d>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 197,249,110,208 // vmovd %eax,%xmm2
- .byte 233,15,255,255,255 // jmpq bae <_sk_lerp_u8_hsw_8bit+0x27>
+ .byte 233,15,255,255,255 // jmpq baa <_sk_lerp_u8_hsw_8bit+0x27>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 197,233,196,208,2 // vpinsrw $0x2,%eax,%xmm2,%xmm2
@@ -51323,7 +51322,7 @@ _sk_lerp_u8_hsw_8bit:
.byte 197,249,110,216 // vmovd %eax,%xmm3
.byte 196,226,121,48,219 // vpmovzxbw %xmm3,%xmm3
.byte 196,227,105,2,211,1 // vpblendd $0x1,%xmm3,%xmm2,%xmm2
- .byte 233,231,254,255,255 // jmpq bae <_sk_lerp_u8_hsw_8bit+0x27>
+ .byte 233,231,254,255,255 // jmpq baa <_sk_lerp_u8_hsw_8bit+0x27>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 197,233,196,208,6 // vpinsrw $0x6,%eax,%xmm2,%xmm2
@@ -51334,7 +51333,7 @@ _sk_lerp_u8_hsw_8bit:
.byte 196,161,121,110,28,2 // vmovd (%rdx,%r8,1),%xmm3
.byte 196,226,121,48,219 // vpmovzxbw %xmm3,%xmm3
.byte 196,227,97,2,210,12 // vpblendd $0xc,%xmm2,%xmm3,%xmm2
- .byte 233,172,254,255,255 // jmpq bae <_sk_lerp_u8_hsw_8bit+0x27>
+ .byte 233,172,254,255,255 // jmpq baa <_sk_lerp_u8_hsw_8bit+0x27>
.byte 102,144 // xchg %ax,%ax
.byte 141 // (bad)
.byte 255 // (bad)
@@ -51343,7 +51342,7 @@ _sk_lerp_u8_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 232,255,255,255,221 // callq ffffffffde000d14 <_sk_xor__hsw_8bit+0xffffffffddfffa99>
+ .byte 232,255,255,255,221 // callq ffffffffde000d10 <_sk_xor__hsw_8bit+0xffffffffddfffaa1>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,210 // callq *%rdx
@@ -51375,7 +51374,7 @@ HIDDEN _sk_black_color_hsw_8bit
FUNCTION(_sk_black_color_hsw_8bit)
_sk_black_color_hsw_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,25,5,149,9,0,0 // vbroadcastsd 0x995(%rip),%ymm0 # 16d0 <_sk_xor__hsw_8bit+0x455>
+ .byte 196,226,125,25,5,153,9,0,0 // vbroadcastsd 0x999(%rip),%ymm0 # 16d0 <_sk_xor__hsw_8bit+0x461>
.byte 255,224 // jmpq *%rax
HIDDEN _sk_white_color_hsw_8bit
@@ -51398,7 +51397,7 @@ HIDDEN _sk_srcatop_hsw_8bit
.globl _sk_srcatop_hsw_8bit
FUNCTION(_sk_srcatop_hsw_8bit)
_sk_srcatop_hsw_8bit:
- .byte 197,253,111,21,171,7,0,0 // vmovdqa 0x7ab(%rip),%ymm2 # 1500 <_sk_xor__hsw_8bit+0x285>
+ .byte 197,253,111,21,175,7,0,0 // vmovdqa 0x7af(%rip),%ymm2 # 1500 <_sk_xor__hsw_8bit+0x291>
.byte 196,226,117,0,218 // vpshufb %ymm2,%ymm1,%ymm3
.byte 196,226,125,48,224 // vpmovzxbw %xmm0,%ymm4
.byte 196,227,125,57,197,1 // vextracti128 $0x1,%ymm0,%xmm5
@@ -51441,7 +51440,7 @@ HIDDEN _sk_dstatop_hsw_8bit
.globl _sk_dstatop_hsw_8bit
FUNCTION(_sk_dstatop_hsw_8bit)
_sk_dstatop_hsw_8bit:
- .byte 197,253,111,21,21,7,0,0 // vmovdqa 0x715(%rip),%ymm2 # 1520 <_sk_xor__hsw_8bit+0x2a5>
+ .byte 197,253,111,21,25,7,0,0 // vmovdqa 0x719(%rip),%ymm2 # 1520 <_sk_xor__hsw_8bit+0x2b1>
.byte 196,226,125,0,218 // vpshufb %ymm2,%ymm0,%ymm3
.byte 196,226,125,48,225 // vpmovzxbw %xmm1,%ymm4
.byte 196,227,125,57,205,1 // vextracti128 $0x1,%ymm1,%xmm5
@@ -51484,7 +51483,7 @@ HIDDEN _sk_srcin_hsw_8bit
.globl _sk_srcin_hsw_8bit
FUNCTION(_sk_srcin_hsw_8bit)
_sk_srcin_hsw_8bit:
- .byte 196,226,117,0,21,126,6,0,0 // vpshufb 0x67e(%rip),%ymm1,%ymm2 # 1540 <_sk_xor__hsw_8bit+0x2c5>
+ .byte 196,226,117,0,21,130,6,0,0 // vpshufb 0x682(%rip),%ymm1,%ymm2 # 1540 <_sk_xor__hsw_8bit+0x2d1>
.byte 196,226,125,48,216 // vpmovzxbw %xmm0,%ymm3
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
.byte 196,226,125,48,192 // vpmovzxbw %xmm0,%ymm0
@@ -51507,7 +51506,7 @@ HIDDEN _sk_dstin_hsw_8bit
.globl _sk_dstin_hsw_8bit
FUNCTION(_sk_dstin_hsw_8bit)
_sk_dstin_hsw_8bit:
- .byte 196,226,125,0,5,71,6,0,0 // vpshufb 0x647(%rip),%ymm0,%ymm0 # 1560 <_sk_xor__hsw_8bit+0x2e5>
+ .byte 196,226,125,0,5,75,6,0,0 // vpshufb 0x64b(%rip),%ymm0,%ymm0 # 1560 <_sk_xor__hsw_8bit+0x2f1>
.byte 196,226,125,48,209 // vpmovzxbw %xmm1,%ymm2
.byte 196,227,125,57,203,1 // vextracti128 $0x1,%ymm1,%xmm3
.byte 196,226,125,48,219 // vpmovzxbw %xmm3,%ymm3
@@ -51530,7 +51529,7 @@ HIDDEN _sk_srcout_hsw_8bit
.globl _sk_srcout_hsw_8bit
FUNCTION(_sk_srcout_hsw_8bit)
_sk_srcout_hsw_8bit:
- .byte 196,226,117,0,21,16,6,0,0 // vpshufb 0x610(%rip),%ymm1,%ymm2 # 1580 <_sk_xor__hsw_8bit+0x305>
+ .byte 196,226,117,0,21,20,6,0,0 // vpshufb 0x614(%rip),%ymm1,%ymm2 # 1580 <_sk_xor__hsw_8bit+0x311>
.byte 197,229,118,219 // vpcmpeqd %ymm3,%ymm3,%ymm3
.byte 197,237,239,211 // vpxor %ymm3,%ymm2,%ymm2
.byte 196,226,125,48,216 // vpmovzxbw %xmm0,%ymm3
@@ -51555,7 +51554,7 @@ HIDDEN _sk_dstout_hsw_8bit
.globl _sk_dstout_hsw_8bit
FUNCTION(_sk_dstout_hsw_8bit)
_sk_dstout_hsw_8bit:
- .byte 196,226,125,0,5,209,5,0,0 // vpshufb 0x5d1(%rip),%ymm0,%ymm0 # 15a0 <_sk_xor__hsw_8bit+0x325>
+ .byte 196,226,125,0,5,213,5,0,0 // vpshufb 0x5d5(%rip),%ymm0,%ymm0 # 15a0 <_sk_xor__hsw_8bit+0x331>
.byte 197,237,118,210 // vpcmpeqd %ymm2,%ymm2,%ymm2
.byte 197,253,239,194 // vpxor %ymm2,%ymm0,%ymm0
.byte 196,226,125,48,209 // vpmovzxbw %xmm1,%ymm2
@@ -51580,9 +51579,7 @@ HIDDEN _sk_srcover_hsw_8bit
.globl _sk_srcover_hsw_8bit
FUNCTION(_sk_srcover_hsw_8bit)
_sk_srcover_hsw_8bit:
- .byte 196,226,125,0,21,146,5,0,0 // vpshufb 0x592(%rip),%ymm0,%ymm2 # 15c0 <_sk_xor__hsw_8bit+0x345>
- .byte 197,229,118,219 // vpcmpeqd %ymm3,%ymm3,%ymm3
- .byte 197,237,239,211 // vpxor %ymm3,%ymm2,%ymm2
+ .byte 196,226,125,0,21,150,5,0,0 // vpshufb 0x596(%rip),%ymm0,%ymm2 # 15c0 <_sk_xor__hsw_8bit+0x351>
.byte 196,226,125,48,217 // vpmovzxbw %xmm1,%ymm3
.byte 196,227,125,57,204,1 // vextracti128 $0x1,%ymm1,%xmm4
.byte 196,226,125,48,228 // vpmovzxbw %xmm4,%ymm4
@@ -51598,7 +51595,8 @@ _sk_srcover_hsw_8bit:
.byte 196,227,101,56,226,1 // vinserti128 $0x1,%xmm2,%ymm3,%ymm4
.byte 196,227,101,70,210,49 // vperm2i128 $0x31,%ymm2,%ymm3,%ymm2
.byte 197,221,103,210 // vpackuswb %ymm2,%ymm4,%ymm2
- .byte 197,237,252,192 // vpaddb %ymm0,%ymm2,%ymm0
+ .byte 197,245,252,192 // vpaddb %ymm0,%ymm1,%ymm0
+ .byte 197,253,248,194 // vpsubb %ymm2,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -51606,25 +51604,24 @@ HIDDEN _sk_dstover_hsw_8bit
.globl _sk_dstover_hsw_8bit
FUNCTION(_sk_dstover_hsw_8bit)
_sk_dstover_hsw_8bit:
- .byte 196,226,117,0,21,79,5,0,0 // vpshufb 0x54f(%rip),%ymm1,%ymm2 # 15e0 <_sk_xor__hsw_8bit+0x365>
- .byte 197,229,118,219 // vpcmpeqd %ymm3,%ymm3,%ymm3
- .byte 197,237,239,211 // vpxor %ymm3,%ymm2,%ymm2
+ .byte 196,226,117,0,21,87,5,0,0 // vpshufb 0x557(%rip),%ymm1,%ymm2 # 15e0 <_sk_xor__hsw_8bit+0x371>
.byte 196,226,125,48,216 // vpmovzxbw %xmm0,%ymm3
- .byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
- .byte 196,226,125,48,192 // vpmovzxbw %xmm0,%ymm0
- .byte 196,226,125,48,226 // vpmovzxbw %xmm2,%ymm4
+ .byte 196,227,125,57,196,1 // vextracti128 $0x1,%ymm0,%xmm4
+ .byte 196,226,125,48,228 // vpmovzxbw %xmm4,%ymm4
+ .byte 196,226,125,48,234 // vpmovzxbw %xmm2,%ymm5
.byte 196,227,125,57,210,1 // vextracti128 $0x1,%ymm2,%xmm2
.byte 196,226,125,48,210 // vpmovzxbw %xmm2,%ymm2
- .byte 197,237,213,208 // vpmullw %ymm0,%ymm2,%ymm2
- .byte 197,221,213,227 // vpmullw %ymm3,%ymm4,%ymm4
- .byte 197,221,253,219 // vpaddw %ymm3,%ymm4,%ymm3
- .byte 197,237,253,192 // vpaddw %ymm0,%ymm2,%ymm0
- .byte 197,253,113,208,8 // vpsrlw $0x8,%ymm0,%ymm0
- .byte 197,237,113,211,8 // vpsrlw $0x8,%ymm3,%ymm2
- .byte 196,227,109,56,216,1 // vinserti128 $0x1,%xmm0,%ymm2,%ymm3
- .byte 196,227,109,70,192,49 // vperm2i128 $0x31,%ymm0,%ymm2,%ymm0
- .byte 197,229,103,192 // vpackuswb %ymm0,%ymm3,%ymm0
- .byte 197,253,252,193 // vpaddb %ymm1,%ymm0,%ymm0
+ .byte 197,237,213,212 // vpmullw %ymm4,%ymm2,%ymm2
+ .byte 197,213,213,235 // vpmullw %ymm3,%ymm5,%ymm5
+ .byte 197,213,253,219 // vpaddw %ymm3,%ymm5,%ymm3
+ .byte 197,237,253,212 // vpaddw %ymm4,%ymm2,%ymm2
+ .byte 197,237,113,210,8 // vpsrlw $0x8,%ymm2,%ymm2
+ .byte 197,229,113,211,8 // vpsrlw $0x8,%ymm3,%ymm3
+ .byte 196,227,101,56,226,1 // vinserti128 $0x1,%xmm2,%ymm3,%ymm4
+ .byte 196,227,101,70,210,49 // vperm2i128 $0x31,%ymm2,%ymm3,%ymm2
+ .byte 197,221,103,210 // vpackuswb %ymm2,%ymm4,%ymm2
+ .byte 197,245,252,192 // vpaddb %ymm0,%ymm1,%ymm0
+ .byte 197,253,248,194 // vpsubb %ymm2,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -51654,7 +51651,7 @@ HIDDEN _sk_multiply_hsw_8bit
.globl _sk_multiply_hsw_8bit
FUNCTION(_sk_multiply_hsw_8bit)
_sk_multiply_hsw_8bit:
- .byte 197,253,111,37,191,4,0,0 // vmovdqa 0x4bf(%rip),%ymm4 # 1600 <_sk_xor__hsw_8bit+0x385>
+ .byte 197,253,111,37,203,4,0,0 // vmovdqa 0x4cb(%rip),%ymm4 # 1600 <_sk_xor__hsw_8bit+0x391>
.byte 196,226,117,0,212 // vpshufb %ymm4,%ymm1,%ymm2
.byte 197,213,118,237 // vpcmpeqd %ymm5,%ymm5,%ymm5
.byte 197,237,239,245 // vpxor %ymm5,%ymm2,%ymm6
@@ -51733,7 +51730,7 @@ HIDDEN _sk_xor__hsw_8bit
.globl _sk_xor__hsw_8bit
FUNCTION(_sk_xor__hsw_8bit)
_sk_xor__hsw_8bit:
- .byte 197,253,111,21,157,3,0,0 // vmovdqa 0x39d(%rip),%ymm2 # 1620 <_sk_xor__hsw_8bit+0x3a5>
+ .byte 197,253,111,21,169,3,0,0 // vmovdqa 0x3a9(%rip),%ymm2 # 1620 <_sk_xor__hsw_8bit+0x3b1>
.byte 196,226,117,0,218 // vpshufb %ymm2,%ymm1,%ymm3
.byte 197,221,118,228 // vpcmpeqd %ymm4,%ymm4,%ymm4
.byte 197,229,239,220 // vpxor %ymm4,%ymm3,%ymm3
@@ -51775,9 +51772,9 @@ _sk_xor__hsw_8bit:
BALIGN4
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 137f <_sk_xor__hsw_8bit+0x104>
+ .byte 127,67 // jg 1373 <_sk_xor__hsw_8bit+0x104>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 1383 <_sk_xor__hsw_8bit+0x108>
+ .byte 127,67 // jg 1377 <_sk_xor__hsw_8bit+0x108>
.byte 1,1 // add %eax,(%rcx)
.byte 1,0 // add %eax,(%rax)
.byte 0,0 // add %al,(%rax)
@@ -51787,9 +51784,9 @@ BALIGN4
.byte 0,0 // add %al,(%rax)
.byte 0,255 // add %bh,%bh
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 1397 <_sk_xor__hsw_8bit+0x11c>
+ .byte 127,67 // jg 138b <_sk_xor__hsw_8bit+0x11c>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 139b <_sk_xor__hsw_8bit+0x120>
+ .byte 127,67 // jg 138f <_sk_xor__hsw_8bit+0x120>
BALIGN32
.byte 0,0 // add %al,(%rax)
@@ -52378,7 +52375,7 @@ HIDDEN _sk_uniform_color_sse41_8bit
FUNCTION(_sk_uniform_color_sse41_8bit)
_sk_uniform_color_sse41_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 243,15,16,5,61,15,0,0 // movss 0xf3d(%rip),%xmm0 # fec <_sk_xor__sse41_8bit+0xae>
+ .byte 243,15,16,5,53,15,0,0 // movss 0xf35(%rip),%xmm0 # fe4 <_sk_xor__sse41_8bit+0xae>
.byte 243,15,16,16 // movss (%rax),%xmm2
.byte 243,15,89,208 // mulss %xmm0,%xmm2
.byte 243,72,15,44,202 // cvttss2si %xmm2,%rcx
@@ -52406,7 +52403,7 @@ HIDDEN _sk_set_rgb_sse41_8bit
FUNCTION(_sk_set_rgb_sse41_8bit)
_sk_set_rgb_sse41_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 243,15,16,21,232,14,0,0 // movss 0xee8(%rip),%xmm2 # ff0 <_sk_xor__sse41_8bit+0xb2>
+ .byte 243,15,16,21,224,14,0,0 // movss 0xee0(%rip),%xmm2 # fe8 <_sk_xor__sse41_8bit+0xb2>
.byte 243,15,16,24 // movss (%rax),%xmm3
.byte 243,15,89,218 // mulss %xmm2,%xmm3
.byte 243,72,15,44,203 // cvttss2si %xmm3,%rcx
@@ -52421,7 +52418,7 @@ _sk_set_rgb_sse41_8bit:
.byte 9,208 // or %edx,%eax
.byte 102,15,110,208 // movd %eax,%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
- .byte 102,15,219,5,184,14,0,0 // pand 0xeb8(%rip),%xmm0 # 1000 <_sk_xor__sse41_8bit+0xc2>
+ .byte 102,15,219,5,184,14,0,0 // pand 0xeb8(%rip),%xmm0 # 1000 <_sk_xor__sse41_8bit+0xca>
.byte 102,15,235,194 // por %xmm2,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -52431,8 +52428,8 @@ HIDDEN _sk_premul_sse41_8bit
FUNCTION(_sk_premul_sse41_8bit)
_sk_premul_sse41_8bit:
.byte 102,15,111,216 // movdqa %xmm0,%xmm3
- .byte 102,15,56,0,29,179,14,0,0 // pshufb 0xeb3(%rip),%xmm3 # 1010 <_sk_xor__sse41_8bit+0xd2>
- .byte 102,15,235,29,187,14,0,0 // por 0xebb(%rip),%xmm3 # 1020 <_sk_xor__sse41_8bit+0xe2>
+ .byte 102,15,56,0,29,179,14,0,0 // pshufb 0xeb3(%rip),%xmm3 # 1010 <_sk_xor__sse41_8bit+0xda>
+ .byte 102,15,235,29,187,14,0,0 // por 0xebb(%rip),%xmm3 # 1020 <_sk_xor__sse41_8bit+0xea>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,56,48,232 // pmovzxbw %xmm0,%xmm5
.byte 102,15,104,196 // punpckhbw %xmm4,%xmm0
@@ -52442,7 +52439,7 @@ _sk_premul_sse41_8bit:
.byte 102,15,213,213 // pmullw %xmm5,%xmm2
.byte 102,15,253,216 // paddw %xmm0,%xmm3
.byte 102,15,253,213 // paddw %xmm5,%xmm2
- .byte 102,15,111,5,157,14,0,0 // movdqa 0xe9d(%rip),%xmm0 # 1030 <_sk_xor__sse41_8bit+0xf2>
+ .byte 102,15,111,5,157,14,0,0 // movdqa 0xe9d(%rip),%xmm0 # 1030 <_sk_xor__sse41_8bit+0xfa>
.byte 102,15,56,0,216 // pshufb %xmm0,%xmm3
.byte 102,15,56,0,208 // pshufb %xmm0,%xmm2
.byte 102,15,108,211 // punpcklqdq %xmm3,%xmm2
@@ -52454,7 +52451,7 @@ HIDDEN _sk_swap_rb_sse41_8bit
.globl _sk_swap_rb_sse41_8bit
FUNCTION(_sk_swap_rb_sse41_8bit)
_sk_swap_rb_sse41_8bit:
- .byte 102,15,56,0,5,142,14,0,0 // pshufb 0xe8e(%rip),%xmm0 # 1040 <_sk_xor__sse41_8bit+0x102>
+ .byte 102,15,56,0,5,142,14,0,0 // pshufb 0xe8e(%rip),%xmm0 # 1040 <_sk_xor__sse41_8bit+0x10a>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -52569,7 +52566,7 @@ _sk_load_bgra_sse41_8bit:
.byte 77,133,201 // test %r9,%r9
.byte 117,19 // jne 312 <_sk_load_bgra_sse41_8bit+0x34>
.byte 243,66,15,111,4,130 // movdqu (%rdx,%r8,4),%xmm0
- .byte 102,15,56,0,5,66,13,0,0 // pshufb 0xd42(%rip),%xmm0 # 1050 <_sk_xor__sse41_8bit+0x112>
+ .byte 102,15,56,0,5,66,13,0,0 // pshufb 0xd42(%rip),%xmm0 # 1050 <_sk_xor__sse41_8bit+0x11a>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 65,128,225,3 // and $0x3,%r9b
@@ -52603,7 +52600,7 @@ _sk_load_bgra_dst_sse41_8bit:
.byte 77,133,201 // test %r9,%r9
.byte 117,19 // jne 382 <_sk_load_bgra_dst_sse41_8bit+0x34>
.byte 243,66,15,111,12,130 // movdqu (%rdx,%r8,4),%xmm1
- .byte 102,15,56,0,13,226,12,0,0 // pshufb 0xce2(%rip),%xmm1 # 1060 <_sk_xor__sse41_8bit+0x122>
+ .byte 102,15,56,0,13,226,12,0,0 // pshufb 0xce2(%rip),%xmm1 # 1060 <_sk_xor__sse41_8bit+0x12a>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 65,128,225,3 // and $0x3,%r9b
@@ -52635,7 +52632,7 @@ _sk_store_bgra_sse41_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 102,15,111,208 // movdqa %xmm0,%xmm2
- .byte 102,15,56,0,21,137,12,0,0 // pshufb 0xc89(%rip),%xmm2 # 1070 <_sk_xor__sse41_8bit+0x132>
+ .byte 102,15,56,0,21,137,12,0,0 // pshufb 0xc89(%rip),%xmm2 # 1070 <_sk_xor__sse41_8bit+0x13a>
.byte 77,133,201 // test %r9,%r9
.byte 117,10 // jne 3f6 <_sk_store_bgra_sse41_8bit+0x38>
.byte 243,66,15,127,20,130 // movdqu %xmm2,(%rdx,%r8,4)
@@ -52743,7 +52740,7 @@ _sk_store_a8_sse41_8bit:
.byte 102,15,114,210,24 // psrld $0x18,%xmm2
.byte 77,133,201 // test %r9,%r9
.byte 117,19 // jne 54c <_sk_store_a8_sse41_8bit+0x39>
- .byte 102,15,56,0,21,78,11,0,0 // pshufb 0xb4e(%rip),%xmm2 # 1090 <_sk_xor__sse41_8bit+0x152>
+ .byte 102,15,56,0,21,78,11,0,0 // pshufb 0xb4e(%rip),%xmm2 # 1090 <_sk_xor__sse41_8bit+0x15a>
.byte 102,66,15,126,20,2 // movd %xmm2,(%rdx,%r8,1)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -52755,7 +52752,7 @@ _sk_store_a8_sse41_8bit:
.byte 65,128,249,3 // cmp $0x3,%r9b
.byte 117,230 // jne 548 <_sk_store_a8_sse41_8bit+0x35>
.byte 102,66,15,58,20,84,2,2,8 // pextrb $0x8,%xmm2,0x2(%rdx,%r8,1)
- .byte 102,15,56,0,21,12,11,0,0 // pshufb 0xb0c(%rip),%xmm2 # 1080 <_sk_xor__sse41_8bit+0x142>
+ .byte 102,15,56,0,21,12,11,0,0 // pshufb 0xb0c(%rip),%xmm2 # 1080 <_sk_xor__sse41_8bit+0x14a>
.byte 102,66,15,58,21,20,2,0 // pextrw $0x0,%xmm2,(%rdx,%r8,1)
.byte 235,202 // jmp 548 <_sk_store_a8_sse41_8bit+0x35>
.byte 102,66,15,58,20,20,2,0 // pextrb $0x0,%xmm2,(%rdx,%r8,1)
@@ -52775,9 +52772,9 @@ _sk_load_g8_sse41_8bit:
.byte 77,133,201 // test %r9,%r9
.byte 117,36 // jne 5c9 <_sk_load_g8_sse41_8bit+0x41>
.byte 102,66,15,56,49,4,2 // pmovzxbd (%rdx,%r8,1),%xmm0
- .byte 102,15,219,5,236,10,0,0 // pand 0xaec(%rip),%xmm0 # 10a0 <_sk_xor__sse41_8bit+0x162>
- .byte 102,15,56,64,5,243,10,0,0 // pmulld 0xaf3(%rip),%xmm0 # 10b0 <_sk_xor__sse41_8bit+0x172>
- .byte 102,15,235,5,251,10,0,0 // por 0xafb(%rip),%xmm0 # 10c0 <_sk_xor__sse41_8bit+0x182>
+ .byte 102,15,219,5,236,10,0,0 // pand 0xaec(%rip),%xmm0 # 10a0 <_sk_xor__sse41_8bit+0x16a>
+ .byte 102,15,56,64,5,243,10,0,0 // pmulld 0xaf3(%rip),%xmm0 # 10b0 <_sk_xor__sse41_8bit+0x17a>
+ .byte 102,15,235,5,251,10,0,0 // por 0xafb(%rip),%xmm0 # 10c0 <_sk_xor__sse41_8bit+0x18a>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 65,128,225,3 // and $0x3,%r9b
@@ -52814,9 +52811,9 @@ _sk_load_g8_dst_sse41_8bit:
.byte 77,133,201 // test %r9,%r9
.byte 117,36 // jne 654 <_sk_load_g8_dst_sse41_8bit+0x41>
.byte 102,66,15,56,49,12,2 // pmovzxbd (%rdx,%r8,1),%xmm1
- .byte 102,15,219,13,145,10,0,0 // pand 0xa91(%rip),%xmm1 # 10d0 <_sk_xor__sse41_8bit+0x192>
- .byte 102,15,56,64,13,152,10,0,0 // pmulld 0xa98(%rip),%xmm1 # 10e0 <_sk_xor__sse41_8bit+0x1a2>
- .byte 102,15,235,13,160,10,0,0 // por 0xaa0(%rip),%xmm1 # 10f0 <_sk_xor__sse41_8bit+0x1b2>
+ .byte 102,15,219,13,145,10,0,0 // pand 0xa91(%rip),%xmm1 # 10d0 <_sk_xor__sse41_8bit+0x19a>
+ .byte 102,15,56,64,13,152,10,0,0 // pmulld 0xa98(%rip),%xmm1 # 10e0 <_sk_xor__sse41_8bit+0x1aa>
+ .byte 102,15,235,13,160,10,0,0 // por 0xaa0(%rip),%xmm1 # 10f0 <_sk_xor__sse41_8bit+0x1ba>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 65,128,225,3 // and $0x3,%r9b
@@ -52856,25 +52853,25 @@ _sk_srcover_rgba_8888_sse41_8bit:
.byte 243,66,15,111,20,130 // movdqu (%rdx,%r8,4),%xmm2
.byte 77,133,201 // test %r9,%r9
.byte 102,15,111,216 // movdqa %xmm0,%xmm3
- .byte 102,15,56,0,29,43,10,0,0 // pshufb 0xa2b(%rip),%xmm3 # 1100 <_sk_xor__sse41_8bit+0x1c2>
- .byte 102,15,118,228 // pcmpeqd %xmm4,%xmm4
- .byte 102,15,239,227 // pxor %xmm3,%xmm4
- .byte 102,15,239,237 // pxor %xmm5,%xmm5
+ .byte 102,15,56,0,29,43,10,0,0 // pshufb 0xa2b(%rip),%xmm3 # 1100 <_sk_xor__sse41_8bit+0x1ca>
+ .byte 102,15,239,228 // pxor %xmm4,%xmm4
+ .byte 102,15,111,234 // movdqa %xmm2,%xmm5
+ .byte 102,15,104,236 // punpckhbw %xmm4,%xmm5
.byte 102,15,56,48,242 // pmovzxbw %xmm2,%xmm6
- .byte 102,15,104,213 // punpckhbw %xmm5,%xmm2
- .byte 102,15,56,48,220 // pmovzxbw %xmm4,%xmm3
- .byte 102,15,104,229 // punpckhbw %xmm5,%xmm4
- .byte 102,15,213,226 // pmullw %xmm2,%xmm4
- .byte 102,15,213,222 // pmullw %xmm6,%xmm3
- .byte 102,15,253,226 // paddw %xmm2,%xmm4
- .byte 102,15,253,222 // paddw %xmm6,%xmm3
- .byte 102,15,111,21,5,10,0,0 // movdqa 0xa05(%rip),%xmm2 # 1110 <_sk_xor__sse41_8bit+0x1d2>
- .byte 102,15,56,0,226 // pshufb %xmm2,%xmm4
- .byte 102,15,56,0,218 // pshufb %xmm2,%xmm3
- .byte 102,15,108,220 // punpcklqdq %xmm4,%xmm3
- .byte 102,15,252,216 // paddb %xmm0,%xmm3
+ .byte 102,15,56,48,251 // pmovzxbw %xmm3,%xmm7
+ .byte 102,15,104,220 // punpckhbw %xmm4,%xmm3
+ .byte 102,15,213,221 // pmullw %xmm5,%xmm3
+ .byte 102,15,213,254 // pmullw %xmm6,%xmm7
+ .byte 102,15,253,221 // paddw %xmm5,%xmm3
+ .byte 102,15,253,254 // paddw %xmm6,%xmm7
+ .byte 102,15,111,37,9,10,0,0 // movdqa 0xa09(%rip),%xmm4 # 1110 <_sk_xor__sse41_8bit+0x1da>
+ .byte 102,15,56,0,220 // pshufb %xmm4,%xmm3
+ .byte 102,15,56,0,252 // pshufb %xmm4,%xmm7
+ .byte 102,15,108,251 // punpcklqdq %xmm3,%xmm7
+ .byte 102,15,248,215 // psubb %xmm7,%xmm2
+ .byte 102,15,252,208 // paddb %xmm0,%xmm2
.byte 117,60 // jne 75b <_sk_srcover_rgba_8888_sse41_8bit+0xbd>
- .byte 243,66,15,127,28,130 // movdqu %xmm3,(%rdx,%r8,4)
+ .byte 243,66,15,127,20,130 // movdqu %xmm2,(%rdx,%r8,4)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 68,137,200 // mov %r9d,%eax
@@ -52898,12 +52895,12 @@ _sk_srcover_rgba_8888_sse41_8bit:
.byte 116,15 // je 77a <_sk_srcover_rgba_8888_sse41_8bit+0xdc>
.byte 65,128,249,3 // cmp $0x3,%r9b
.byte 117,180 // jne 725 <_sk_srcover_rgba_8888_sse41_8bit+0x87>
- .byte 102,66,15,58,22,92,130,8,2 // pextrd $0x2,%xmm3,0x8(%rdx,%r8,4)
- .byte 102,66,15,214,28,130 // movq %xmm3,(%rdx,%r8,4)
+ .byte 102,66,15,58,22,84,130,8,2 // pextrd $0x2,%xmm2,0x8(%rdx,%r8,4)
+ .byte 102,66,15,214,20,130 // movq %xmm2,(%rdx,%r8,4)
.byte 235,163 // jmp 725 <_sk_srcover_rgba_8888_sse41_8bit+0x87>
.byte 102,66,15,110,20,130 // movd (%rdx,%r8,4),%xmm2
.byte 233,56,255,255,255 // jmpq 6c5 <_sk_srcover_rgba_8888_sse41_8bit+0x27>
- .byte 102,66,15,126,28,130 // movd %xmm3,(%rdx,%r8,4)
+ .byte 102,66,15,126,20,130 // movd %xmm2,(%rdx,%r8,4)
.byte 235,144 // jmp 725 <_sk_srcover_rgba_8888_sse41_8bit+0x87>
HIDDEN _sk_scale_1_float_sse41_8bit
@@ -52912,19 +52909,19 @@ FUNCTION(_sk_scale_1_float_sse41_8bit)
_sk_scale_1_float_sse41_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 243,15,16,16 // movss (%rax),%xmm2
- .byte 243,15,89,21,81,8,0,0 // mulss 0x851(%rip),%xmm2 # ff4 <_sk_xor__sse41_8bit+0xb6>
+ .byte 243,15,89,21,73,8,0,0 // mulss 0x849(%rip),%xmm2 # fec <_sk_xor__sse41_8bit+0xb6>
.byte 243,15,44,194 // cvttss2si %xmm2,%eax
.byte 102,15,110,216 // movd %eax,%xmm3
.byte 15,87,210 // xorps %xmm2,%xmm2
.byte 102,15,56,48,224 // pmovzxbw %xmm0,%xmm4
.byte 102,15,104,194 // punpckhbw %xmm2,%xmm0
- .byte 102,15,56,0,29,96,9,0,0 // pshufb 0x960(%rip),%xmm3 # 1120 <_sk_xor__sse41_8bit+0x1e2>
+ .byte 102,15,56,0,29,96,9,0,0 // pshufb 0x960(%rip),%xmm3 # 1120 <_sk_xor__sse41_8bit+0x1ea>
.byte 102,15,111,211 // movdqa %xmm3,%xmm2
.byte 102,15,213,212 // pmullw %xmm4,%xmm2
.byte 102,15,213,216 // pmullw %xmm0,%xmm3
.byte 102,15,253,216 // paddw %xmm0,%xmm3
.byte 102,15,253,212 // paddw %xmm4,%xmm2
- .byte 102,15,111,5,84,9,0,0 // movdqa 0x954(%rip),%xmm0 # 1130 <_sk_xor__sse41_8bit+0x1f2>
+ .byte 102,15,111,5,84,9,0,0 // movdqa 0x954(%rip),%xmm0 # 1130 <_sk_xor__sse41_8bit+0x1fa>
.byte 102,15,56,0,216 // pshufb %xmm0,%xmm3
.byte 102,15,56,0,208 // pshufb %xmm0,%xmm2
.byte 102,15,108,211 // punpcklqdq %xmm3,%xmm2
@@ -52947,7 +52944,7 @@ _sk_scale_u8_sse41_8bit:
.byte 117,84 // jne 863 <_sk_scale_u8_sse41_8bit+0x71>
.byte 102,66,15,56,49,28,2 // pmovzxbd (%rdx,%r8,1),%xmm3
.byte 102,15,239,228 // pxor %xmm4,%xmm4
- .byte 102,15,56,0,29,29,9,0,0 // pshufb 0x91d(%rip),%xmm3 # 1140 <_sk_xor__sse41_8bit+0x202>
+ .byte 102,15,56,0,29,29,9,0,0 // pshufb 0x91d(%rip),%xmm3 # 1140 <_sk_xor__sse41_8bit+0x20a>
.byte 102,15,56,48,232 // pmovzxbw %xmm0,%xmm5
.byte 102,15,104,196 // punpckhbw %xmm4,%xmm0
.byte 102,15,56,48,211 // pmovzxbw %xmm3,%xmm2
@@ -52956,7 +52953,7 @@ _sk_scale_u8_sse41_8bit:
.byte 102,15,213,213 // pmullw %xmm5,%xmm2
.byte 102,15,253,216 // paddw %xmm0,%xmm3
.byte 102,15,253,213 // paddw %xmm5,%xmm2
- .byte 102,15,111,5,3,9,0,0 // movdqa 0x903(%rip),%xmm0 # 1150 <_sk_xor__sse41_8bit+0x212>
+ .byte 102,15,111,5,3,9,0,0 // movdqa 0x903(%rip),%xmm0 # 1150 <_sk_xor__sse41_8bit+0x21a>
.byte 102,15,56,0,216 // pshufb %xmm0,%xmm3
.byte 102,15,56,0,208 // pshufb %xmm0,%xmm2
.byte 102,15,108,211 // punpcklqdq %xmm3,%xmm2
@@ -52989,21 +52986,21 @@ FUNCTION(_sk_lerp_1_float_sse41_8bit)
_sk_lerp_1_float_sse41_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 243,15,16,16 // movss (%rax),%xmm2
- .byte 243,15,89,21,55,7,0,0 // mulss 0x737(%rip),%xmm2 # ff8 <_sk_xor__sse41_8bit+0xba>
+ .byte 243,15,89,21,47,7,0,0 // mulss 0x72f(%rip),%xmm2 # ff0 <_sk_xor__sse41_8bit+0xba>
.byte 243,15,44,194 // cvttss2si %xmm2,%eax
.byte 102,15,110,216 // movd %eax,%xmm3
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,56,0,220 // pshufb %xmm4,%xmm3
.byte 102,15,56,48,232 // pmovzxbw %xmm0,%xmm5
.byte 102,15,104,196 // punpckhbw %xmm4,%xmm0
- .byte 102,15,111,21,125,8,0,0 // movdqa 0x87d(%rip),%xmm2 # 1160 <_sk_xor__sse41_8bit+0x222>
+ .byte 102,15,111,21,125,8,0,0 // movdqa 0x87d(%rip),%xmm2 # 1160 <_sk_xor__sse41_8bit+0x22a>
.byte 102,15,219,211 // pand %xmm3,%xmm2
.byte 102,15,111,242 // movdqa %xmm2,%xmm6
.byte 102,15,213,240 // pmullw %xmm0,%xmm6
.byte 102,15,213,213 // pmullw %xmm5,%xmm2
.byte 102,15,253,240 // paddw %xmm0,%xmm6
.byte 102,15,253,213 // paddw %xmm5,%xmm2
- .byte 102,15,111,45,109,8,0,0 // movdqa 0x86d(%rip),%xmm5 # 1170 <_sk_xor__sse41_8bit+0x232>
+ .byte 102,15,111,45,109,8,0,0 // movdqa 0x86d(%rip),%xmm5 # 1170 <_sk_xor__sse41_8bit+0x23a>
.byte 102,15,56,0,245 // pshufb %xmm5,%xmm6
.byte 102,15,56,0,213 // pshufb %xmm5,%xmm2
.byte 102,15,108,214 // punpcklqdq %xmm6,%xmm2
@@ -53040,7 +53037,7 @@ _sk_lerp_u8_sse41_8bit:
.byte 15,133,148,0,0,0 // jne a0a <_sk_lerp_u8_sse41_8bit+0xb5>
.byte 102,66,15,56,49,20,2 // pmovzxbd (%rdx,%r8,1),%xmm2
.byte 102,15,239,228 // pxor %xmm4,%xmm4
- .byte 102,15,56,0,21,246,7,0,0 // pshufb 0x7f6(%rip),%xmm2 # 1180 <_sk_xor__sse41_8bit+0x242>
+ .byte 102,15,56,0,21,246,7,0,0 // pshufb 0x7f6(%rip),%xmm2 # 1180 <_sk_xor__sse41_8bit+0x24a>
.byte 102,15,56,48,232 // pmovzxbw %xmm0,%xmm5
.byte 102,15,104,196 // punpckhbw %xmm4,%xmm0
.byte 102,15,111,242 // movdqa %xmm2,%xmm6
@@ -53050,7 +53047,7 @@ _sk_lerp_u8_sse41_8bit:
.byte 102,15,213,221 // pmullw %xmm5,%xmm3
.byte 102,15,253,240 // paddw %xmm0,%xmm6
.byte 102,15,253,221 // paddw %xmm5,%xmm3
- .byte 102,15,111,45,216,7,0,0 // movdqa 0x7d8(%rip),%xmm5 # 1190 <_sk_xor__sse41_8bit+0x252>
+ .byte 102,15,111,45,216,7,0,0 // movdqa 0x7d8(%rip),%xmm5 # 1190 <_sk_xor__sse41_8bit+0x25a>
.byte 102,15,56,0,245 // pshufb %xmm5,%xmm6
.byte 102,15,56,0,221 // pshufb %xmm5,%xmm3
.byte 102,15,108,222 // punpcklqdq %xmm6,%xmm3
@@ -53112,7 +53109,7 @@ HIDDEN _sk_black_color_sse41_8bit
FUNCTION(_sk_black_color_sse41_8bit)
_sk_black_color_sse41_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,5,43,7,0,0 // movaps 0x72b(%rip),%xmm0 # 11a0 <_sk_xor__sse41_8bit+0x262>
+ .byte 15,40,5,43,7,0,0 // movaps 0x72b(%rip),%xmm0 # 11a0 <_sk_xor__sse41_8bit+0x26a>
.byte 255,224 // jmpq *%rax
HIDDEN _sk_white_color_sse41_8bit
@@ -53135,7 +53132,7 @@ HIDDEN _sk_srcatop_sse41_8bit
.globl _sk_srcatop_sse41_8bit
FUNCTION(_sk_srcatop_sse41_8bit)
_sk_srcatop_sse41_8bit:
- .byte 102,68,15,111,5,33,7,0,0 // movdqa 0x721(%rip),%xmm8 # 11b0 <_sk_xor__sse41_8bit+0x272>
+ .byte 102,68,15,111,5,33,7,0,0 // movdqa 0x721(%rip),%xmm8 # 11b0 <_sk_xor__sse41_8bit+0x27a>
.byte 102,15,111,217 // movdqa %xmm1,%xmm3
.byte 102,15,56,48,225 // pmovzxbw %xmm1,%xmm4
.byte 102,15,111,233 // movdqa %xmm1,%xmm5
@@ -53150,7 +53147,7 @@ _sk_srcatop_sse41_8bit:
.byte 102,15,56,48,248 // pmovzxbw %xmm0,%xmm7
.byte 102,15,213,215 // pmullw %xmm7,%xmm2
.byte 102,15,253,215 // paddw %xmm7,%xmm2
- .byte 102,15,111,61,236,6,0,0 // movdqa 0x6ec(%rip),%xmm7 # 11c0 <_sk_xor__sse41_8bit+0x282>
+ .byte 102,15,111,61,236,6,0,0 // movdqa 0x6ec(%rip),%xmm7 # 11c0 <_sk_xor__sse41_8bit+0x28a>
.byte 102,15,56,0,239 // pshufb %xmm7,%xmm5
.byte 102,15,56,0,215 // pshufb %xmm7,%xmm2
.byte 102,15,108,213 // punpcklqdq %xmm5,%xmm2
@@ -53175,7 +53172,7 @@ HIDDEN _sk_dstatop_sse41_8bit
.globl _sk_dstatop_sse41_8bit
FUNCTION(_sk_dstatop_sse41_8bit)
_sk_dstatop_sse41_8bit:
- .byte 102,15,111,21,165,6,0,0 // movdqa 0x6a5(%rip),%xmm2 # 11d0 <_sk_xor__sse41_8bit+0x292>
+ .byte 102,15,111,21,165,6,0,0 // movdqa 0x6a5(%rip),%xmm2 # 11d0 <_sk_xor__sse41_8bit+0x29a>
.byte 102,15,111,216 // movdqa %xmm0,%xmm3
.byte 102,15,56,0,218 // pshufb %xmm2,%xmm3
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
@@ -53189,7 +53186,7 @@ _sk_dstatop_sse41_8bit:
.byte 102,15,253,223 // paddw %xmm7,%xmm3
.byte 102,15,213,229 // pmullw %xmm5,%xmm4
.byte 102,15,253,229 // paddw %xmm5,%xmm4
- .byte 102,15,111,45,115,6,0,0 // movdqa 0x673(%rip),%xmm5 # 11e0 <_sk_xor__sse41_8bit+0x2a2>
+ .byte 102,15,111,45,115,6,0,0 // movdqa 0x673(%rip),%xmm5 # 11e0 <_sk_xor__sse41_8bit+0x2aa>
.byte 102,15,56,0,221 // pshufb %xmm5,%xmm3
.byte 102,15,56,0,229 // pshufb %xmm5,%xmm4
.byte 102,15,108,227 // punpcklqdq %xmm3,%xmm4
@@ -53217,7 +53214,7 @@ HIDDEN _sk_srcin_sse41_8bit
FUNCTION(_sk_srcin_sse41_8bit)
_sk_srcin_sse41_8bit:
.byte 102,15,111,217 // movdqa %xmm1,%xmm3
- .byte 102,15,56,0,29,29,6,0,0 // pshufb 0x61d(%rip),%xmm3 # 11f0 <_sk_xor__sse41_8bit+0x2b2>
+ .byte 102,15,56,0,29,29,6,0,0 // pshufb 0x61d(%rip),%xmm3 # 11f0 <_sk_xor__sse41_8bit+0x2ba>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,56,48,232 // pmovzxbw %xmm0,%xmm5
.byte 102,15,104,196 // punpckhbw %xmm4,%xmm0
@@ -53227,7 +53224,7 @@ _sk_srcin_sse41_8bit:
.byte 102,15,213,213 // pmullw %xmm5,%xmm2
.byte 102,15,253,216 // paddw %xmm0,%xmm3
.byte 102,15,253,213 // paddw %xmm5,%xmm2
- .byte 102,15,111,5,255,5,0,0 // movdqa 0x5ff(%rip),%xmm0 # 1200 <_sk_xor__sse41_8bit+0x2c2>
+ .byte 102,15,111,5,255,5,0,0 // movdqa 0x5ff(%rip),%xmm0 # 1200 <_sk_xor__sse41_8bit+0x2ca>
.byte 102,15,56,0,216 // pshufb %xmm0,%xmm3
.byte 102,15,56,0,208 // pshufb %xmm0,%xmm2
.byte 102,15,108,211 // punpcklqdq %xmm3,%xmm2
@@ -53239,7 +53236,7 @@ HIDDEN _sk_dstin_sse41_8bit
.globl _sk_dstin_sse41_8bit
FUNCTION(_sk_dstin_sse41_8bit)
_sk_dstin_sse41_8bit:
- .byte 102,15,56,0,5,240,5,0,0 // pshufb 0x5f0(%rip),%xmm0 # 1210 <_sk_xor__sse41_8bit+0x2d2>
+ .byte 102,15,56,0,5,240,5,0,0 // pshufb 0x5f0(%rip),%xmm0 # 1210 <_sk_xor__sse41_8bit+0x2da>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,56,48,225 // pmovzxbw %xmm1,%xmm4
.byte 102,15,111,233 // movdqa %xmm1,%xmm5
@@ -53250,7 +53247,7 @@ _sk_dstin_sse41_8bit:
.byte 102,15,213,212 // pmullw %xmm4,%xmm2
.byte 102,15,253,197 // paddw %xmm5,%xmm0
.byte 102,15,253,212 // paddw %xmm4,%xmm2
- .byte 102,15,111,29,206,5,0,0 // movdqa 0x5ce(%rip),%xmm3 # 1220 <_sk_xor__sse41_8bit+0x2e2>
+ .byte 102,15,111,29,206,5,0,0 // movdqa 0x5ce(%rip),%xmm3 # 1220 <_sk_xor__sse41_8bit+0x2ea>
.byte 102,15,56,0,195 // pshufb %xmm3,%xmm0
.byte 102,15,56,0,211 // pshufb %xmm3,%xmm2
.byte 102,15,108,208 // punpcklqdq %xmm0,%xmm2
@@ -53263,7 +53260,7 @@ HIDDEN _sk_srcout_sse41_8bit
FUNCTION(_sk_srcout_sse41_8bit)
_sk_srcout_sse41_8bit:
.byte 102,15,111,209 // movdqa %xmm1,%xmm2
- .byte 102,15,56,0,21,187,5,0,0 // pshufb 0x5bb(%rip),%xmm2 # 1230 <_sk_xor__sse41_8bit+0x2f2>
+ .byte 102,15,56,0,21,187,5,0,0 // pshufb 0x5bb(%rip),%xmm2 # 1230 <_sk_xor__sse41_8bit+0x2fa>
.byte 102,15,118,219 // pcmpeqd %xmm3,%xmm3
.byte 102,15,239,218 // pxor %xmm2,%xmm3
.byte 102,15,239,228 // pxor %xmm4,%xmm4
@@ -53275,7 +53272,7 @@ _sk_srcout_sse41_8bit:
.byte 102,15,213,213 // pmullw %xmm5,%xmm2
.byte 102,15,253,216 // paddw %xmm0,%xmm3
.byte 102,15,253,213 // paddw %xmm5,%xmm2
- .byte 102,15,111,5,149,5,0,0 // movdqa 0x595(%rip),%xmm0 # 1240 <_sk_xor__sse41_8bit+0x302>
+ .byte 102,15,111,5,149,5,0,0 // movdqa 0x595(%rip),%xmm0 # 1240 <_sk_xor__sse41_8bit+0x30a>
.byte 102,15,56,0,216 // pshufb %xmm0,%xmm3
.byte 102,15,56,0,208 // pshufb %xmm0,%xmm2
.byte 102,15,108,211 // punpcklqdq %xmm3,%xmm2
@@ -53287,7 +53284,7 @@ HIDDEN _sk_dstout_sse41_8bit
.globl _sk_dstout_sse41_8bit
FUNCTION(_sk_dstout_sse41_8bit)
_sk_dstout_sse41_8bit:
- .byte 102,15,56,0,5,134,5,0,0 // pshufb 0x586(%rip),%xmm0 # 1250 <_sk_xor__sse41_8bit+0x312>
+ .byte 102,15,56,0,5,134,5,0,0 // pshufb 0x586(%rip),%xmm0 # 1250 <_sk_xor__sse41_8bit+0x31a>
.byte 102,15,118,210 // pcmpeqd %xmm2,%xmm2
.byte 102,15,239,208 // pxor %xmm0,%xmm2
.byte 102,15,239,219 // pxor %xmm3,%xmm3
@@ -53300,7 +53297,7 @@ _sk_dstout_sse41_8bit:
.byte 102,15,213,196 // pmullw %xmm4,%xmm0
.byte 102,15,253,213 // paddw %xmm5,%xmm2
.byte 102,15,253,196 // paddw %xmm4,%xmm0
- .byte 102,15,111,29,92,5,0,0 // movdqa 0x55c(%rip),%xmm3 # 1260 <_sk_xor__sse41_8bit+0x322>
+ .byte 102,15,111,29,92,5,0,0 // movdqa 0x55c(%rip),%xmm3 # 1260 <_sk_xor__sse41_8bit+0x32a>
.byte 102,15,56,0,211 // pshufb %xmm3,%xmm2
.byte 102,15,56,0,195 // pshufb %xmm3,%xmm0
.byte 102,15,108,194 // punpcklqdq %xmm2,%xmm0
@@ -53312,24 +53309,23 @@ HIDDEN _sk_srcover_sse41_8bit
FUNCTION(_sk_srcover_sse41_8bit)
_sk_srcover_sse41_8bit:
.byte 102,15,111,208 // movdqa %xmm0,%xmm2
- .byte 102,15,56,0,21,77,5,0,0 // pshufb 0x54d(%rip),%xmm2 # 1270 <_sk_xor__sse41_8bit+0x332>
- .byte 102,15,118,219 // pcmpeqd %xmm3,%xmm3
- .byte 102,15,239,218 // pxor %xmm2,%xmm3
- .byte 102,15,239,210 // pxor %xmm2,%xmm2
+ .byte 102,15,56,0,21,77,5,0,0 // pshufb 0x54d(%rip),%xmm2 # 1270 <_sk_xor__sse41_8bit+0x33a>
+ .byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,56,48,225 // pmovzxbw %xmm1,%xmm4
+ .byte 102,15,252,193 // paddb %xmm1,%xmm0
.byte 102,15,111,233 // movdqa %xmm1,%xmm5
- .byte 102,15,104,234 // punpckhbw %xmm2,%xmm5
- .byte 102,15,56,48,243 // pmovzxbw %xmm3,%xmm6
- .byte 102,15,104,218 // punpckhbw %xmm2,%xmm3
- .byte 102,15,213,221 // pmullw %xmm5,%xmm3
+ .byte 102,15,104,235 // punpckhbw %xmm3,%xmm5
+ .byte 102,15,56,48,242 // pmovzxbw %xmm2,%xmm6
+ .byte 102,15,104,211 // punpckhbw %xmm3,%xmm2
+ .byte 102,15,213,213 // pmullw %xmm5,%xmm2
.byte 102,15,213,244 // pmullw %xmm4,%xmm6
- .byte 102,15,253,221 // paddw %xmm5,%xmm3
+ .byte 102,15,253,213 // paddw %xmm5,%xmm2
.byte 102,15,253,244 // paddw %xmm4,%xmm6
- .byte 102,15,111,21,35,5,0,0 // movdqa 0x523(%rip),%xmm2 # 1280 <_sk_xor__sse41_8bit+0x342>
- .byte 102,15,56,0,218 // pshufb %xmm2,%xmm3
- .byte 102,15,56,0,242 // pshufb %xmm2,%xmm6
- .byte 102,15,108,243 // punpcklqdq %xmm3,%xmm6
- .byte 102,15,252,198 // paddb %xmm6,%xmm0
+ .byte 102,15,111,29,39,5,0,0 // movdqa 0x527(%rip),%xmm3 # 1280 <_sk_xor__sse41_8bit+0x34a>
+ .byte 102,15,56,0,211 // pshufb %xmm3,%xmm2
+ .byte 102,15,56,0,243 // pshufb %xmm3,%xmm6
+ .byte 102,15,108,242 // punpcklqdq %xmm2,%xmm6
+ .byte 102,15,248,198 // psubb %xmm6,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -53337,26 +53333,25 @@ HIDDEN _sk_dstover_sse41_8bit
.globl _sk_dstover_sse41_8bit
FUNCTION(_sk_dstover_sse41_8bit)
_sk_dstover_sse41_8bit:
- .byte 102,15,111,209 // movdqa %xmm1,%xmm2
- .byte 102,15,56,0,21,16,5,0,0 // pshufb 0x510(%rip),%xmm2 # 1290 <_sk_xor__sse41_8bit+0x352>
- .byte 102,15,118,219 // pcmpeqd %xmm3,%xmm3
- .byte 102,15,239,218 // pxor %xmm2,%xmm3
- .byte 102,15,239,228 // pxor %xmm4,%xmm4
- .byte 102,15,56,48,232 // pmovzxbw %xmm0,%xmm5
- .byte 102,15,104,196 // punpckhbw %xmm4,%xmm0
- .byte 102,15,56,48,211 // pmovzxbw %xmm3,%xmm2
- .byte 102,15,104,220 // punpckhbw %xmm4,%xmm3
- .byte 102,15,213,216 // pmullw %xmm0,%xmm3
- .byte 102,15,213,213 // pmullw %xmm5,%xmm2
- .byte 102,15,253,216 // paddw %xmm0,%xmm3
- .byte 102,15,253,213 // paddw %xmm5,%xmm2
- .byte 102,15,111,5,234,4,0,0 // movdqa 0x4ea(%rip),%xmm0 # 12a0 <_sk_xor__sse41_8bit+0x362>
- .byte 102,15,56,0,216 // pshufb %xmm0,%xmm3
- .byte 102,15,56,0,208 // pshufb %xmm0,%xmm2
- .byte 102,15,108,211 // punpcklqdq %xmm3,%xmm2
- .byte 102,15,252,209 // paddb %xmm1,%xmm2
+ .byte 102,15,111,208 // movdqa %xmm0,%xmm2
+ .byte 102,15,56,48,216 // pmovzxbw %xmm0,%xmm3
+ .byte 102,15,252,193 // paddb %xmm1,%xmm0
+ .byte 102,15,111,225 // movdqa %xmm1,%xmm4
+ .byte 102,15,56,0,37,7,5,0,0 // pshufb 0x507(%rip),%xmm4 # 1290 <_sk_xor__sse41_8bit+0x35a>
+ .byte 102,15,239,237 // pxor %xmm5,%xmm5
+ .byte 102,15,104,213 // punpckhbw %xmm5,%xmm2
+ .byte 102,15,56,48,244 // pmovzxbw %xmm4,%xmm6
+ .byte 102,15,104,229 // punpckhbw %xmm5,%xmm4
+ .byte 102,15,213,226 // pmullw %xmm2,%xmm4
+ .byte 102,15,213,243 // pmullw %xmm3,%xmm6
+ .byte 102,15,253,226 // paddw %xmm2,%xmm4
+ .byte 102,15,253,243 // paddw %xmm3,%xmm6
+ .byte 102,15,111,21,238,4,0,0 // movdqa 0x4ee(%rip),%xmm2 # 12a0 <_sk_xor__sse41_8bit+0x36a>
+ .byte 102,15,56,0,226 // pshufb %xmm2,%xmm4
+ .byte 102,15,56,0,242 // pshufb %xmm2,%xmm6
+ .byte 102,15,108,244 // punpcklqdq %xmm4,%xmm6
+ .byte 102,15,248,198 // psubb %xmm6,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 102,15,111,194 // movdqa %xmm2,%xmm0
.byte 255,224 // jmpq *%rax
HIDDEN _sk_modulate_sse41_8bit
@@ -53373,7 +53368,7 @@ _sk_modulate_sse41_8bit:
.byte 102,15,213,212 // pmullw %xmm4,%xmm2
.byte 102,15,253,232 // paddw %xmm0,%xmm5
.byte 102,15,253,212 // paddw %xmm4,%xmm2
- .byte 102,15,111,5,174,4,0,0 // movdqa 0x4ae(%rip),%xmm0 # 12b0 <_sk_xor__sse41_8bit+0x372>
+ .byte 102,15,111,5,182,4,0,0 // movdqa 0x4b6(%rip),%xmm0 # 12b0 <_sk_xor__sse41_8bit+0x37a>
.byte 102,15,56,0,232 // pshufb %xmm0,%xmm5
.byte 102,15,56,0,208 // pshufb %xmm0,%xmm2
.byte 102,15,108,213 // punpcklqdq %xmm5,%xmm2
@@ -53385,7 +53380,7 @@ HIDDEN _sk_multiply_sse41_8bit
.globl _sk_multiply_sse41_8bit
FUNCTION(_sk_multiply_sse41_8bit)
_sk_multiply_sse41_8bit:
- .byte 102,68,15,111,5,159,4,0,0 // movdqa 0x49f(%rip),%xmm8 # 12c0 <_sk_xor__sse41_8bit+0x382>
+ .byte 102,68,15,111,5,167,4,0,0 // movdqa 0x4a7(%rip),%xmm8 # 12c0 <_sk_xor__sse41_8bit+0x38a>
.byte 102,15,111,225 // movdqa %xmm1,%xmm4
.byte 102,15,56,48,209 // pmovzxbw %xmm1,%xmm2
.byte 102,15,111,233 // movdqa %xmm1,%xmm5
@@ -53402,7 +53397,7 @@ _sk_multiply_sse41_8bit:
.byte 102,15,213,254 // pmullw %xmm6,%xmm7
.byte 102,15,253,235 // paddw %xmm3,%xmm5
.byte 102,15,253,254 // paddw %xmm6,%xmm7
- .byte 102,68,15,111,29,92,4,0,0 // movdqa 0x45c(%rip),%xmm11 # 12d0 <_sk_xor__sse41_8bit+0x392>
+ .byte 102,68,15,111,29,100,4,0,0 // movdqa 0x464(%rip),%xmm11 # 12d0 <_sk_xor__sse41_8bit+0x39a>
.byte 102,65,15,56,0,235 // pshufb %xmm11,%xmm5
.byte 102,65,15,56,0,251 // pshufb %xmm11,%xmm7
.byte 102,15,108,253 // punpcklqdq %xmm5,%xmm7
@@ -53447,7 +53442,7 @@ _sk_screen_sse41_8bit:
.byte 102,15,213,235 // pmullw %xmm3,%xmm5
.byte 102,15,253,235 // paddw %xmm3,%xmm5
.byte 102,15,253,242 // paddw %xmm2,%xmm6
- .byte 102,15,111,21,184,3,0,0 // movdqa 0x3b8(%rip),%xmm2 # 12e0 <_sk_xor__sse41_8bit+0x3a2>
+ .byte 102,15,111,21,192,3,0,0 // movdqa 0x3c0(%rip),%xmm2 # 12e0 <_sk_xor__sse41_8bit+0x3aa>
.byte 102,15,56,0,242 // pshufb %xmm2,%xmm6
.byte 102,15,56,0,234 // pshufb %xmm2,%xmm5
.byte 102,15,108,238 // punpcklqdq %xmm6,%xmm5
@@ -53459,7 +53454,7 @@ HIDDEN _sk_xor__sse41_8bit
.globl _sk_xor__sse41_8bit
FUNCTION(_sk_xor__sse41_8bit)
_sk_xor__sse41_8bit:
- .byte 102,68,15,111,5,169,3,0,0 // movdqa 0x3a9(%rip),%xmm8 # 12f0 <_sk_xor__sse41_8bit+0x3b2>
+ .byte 102,68,15,111,5,177,3,0,0 // movdqa 0x3b1(%rip),%xmm8 # 12f0 <_sk_xor__sse41_8bit+0x3ba>
.byte 102,15,111,217 // movdqa %xmm1,%xmm3
.byte 102,15,56,48,225 // pmovzxbw %xmm1,%xmm4
.byte 102,15,111,233 // movdqa %xmm1,%xmm5
@@ -53476,7 +53471,7 @@ _sk_xor__sse41_8bit:
.byte 102,15,56,48,208 // pmovzxbw %xmm0,%xmm2
.byte 102,15,213,242 // pmullw %xmm2,%xmm6
.byte 102,15,253,242 // paddw %xmm2,%xmm6
- .byte 102,68,15,111,21,105,3,0,0 // movdqa 0x369(%rip),%xmm10 # 1300 <_sk_xor__sse41_8bit+0x3c2>
+ .byte 102,68,15,111,21,113,3,0,0 // movdqa 0x371(%rip),%xmm10 # 1300 <_sk_xor__sse41_8bit+0x3ca>
.byte 102,65,15,56,0,234 // pshufb %xmm10,%xmm5
.byte 102,65,15,56,0,242 // pshufb %xmm10,%xmm6
.byte 102,15,108,245 // punpcklqdq %xmm5,%xmm6
@@ -53499,13 +53494,13 @@ _sk_xor__sse41_8bit:
BALIGN4
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 1033 <_sk_xor__sse41_8bit+0xf5>
+ .byte 127,67 // jg 102b <_sk_xor__sse41_8bit+0xf5>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 1037 <_sk_xor__sse41_8bit+0xf9>
+ .byte 127,67 // jg 102f <_sk_xor__sse41_8bit+0xf9>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 103b <_sk_xor__sse41_8bit+0xfd>
+ .byte 127,67 // jg 1033 <_sk_xor__sse41_8bit+0xfd>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 103f <_sk_xor__sse41_8bit+0x101>
+ .byte 127,67 // jg 1037 <_sk_xor__sse41_8bit+0x101>
BALIGN16
.byte 0,0 // add %al,(%rax)
@@ -53965,7 +53960,7 @@ HIDDEN _sk_uniform_color_sse2_8bit
FUNCTION(_sk_uniform_color_sse2_8bit)
_sk_uniform_color_sse2_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 243,15,16,5,89,17,0,0 // movss 0x1159(%rip),%xmm0 # 1208 <_sk_xor__sse2_8bit+0xc8>
+ .byte 243,15,16,5,85,17,0,0 // movss 0x1155(%rip),%xmm0 # 1204 <_sk_xor__sse2_8bit+0xc8>
.byte 243,15,16,16 // movss (%rax),%xmm2
.byte 243,15,89,208 // mulss %xmm0,%xmm2
.byte 243,72,15,44,202 // cvttss2si %xmm2,%rcx
@@ -53993,7 +53988,7 @@ HIDDEN _sk_set_rgb_sse2_8bit
FUNCTION(_sk_set_rgb_sse2_8bit)
_sk_set_rgb_sse2_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 243,15,16,21,4,17,0,0 // movss 0x1104(%rip),%xmm2 # 120c <_sk_xor__sse2_8bit+0xcc>
+ .byte 243,15,16,21,0,17,0,0 // movss 0x1100(%rip),%xmm2 # 1208 <_sk_xor__sse2_8bit+0xcc>
.byte 243,15,16,24 // movss (%rax),%xmm3
.byte 243,15,89,218 // mulss %xmm2,%xmm3
.byte 243,72,15,44,203 // cvttss2si %xmm3,%rcx
@@ -54008,7 +54003,7 @@ _sk_set_rgb_sse2_8bit:
.byte 9,208 // or %edx,%eax
.byte 102,15,110,208 // movd %eax,%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
- .byte 102,15,219,5,216,16,0,0 // pand 0x10d8(%rip),%xmm0 # 1220 <_sk_xor__sse2_8bit+0xe0>
+ .byte 102,15,219,5,216,16,0,0 // pand 0x10d8(%rip),%xmm0 # 1220 <_sk_xor__sse2_8bit+0xe4>
.byte 102,15,235,194 // por %xmm2,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -54023,7 +54018,7 @@ _sk_premul_sse2_8bit:
.byte 102,15,96,210 // punpcklbw %xmm2,%xmm2
.byte 242,15,112,210,95 // pshuflw $0x5f,%xmm2,%xmm2
.byte 243,15,112,218,95 // pshufhw $0x5f,%xmm2,%xmm3
- .byte 102,15,235,29,187,16,0,0 // por 0x10bb(%rip),%xmm3 # 1230 <_sk_xor__sse2_8bit+0xf0>
+ .byte 102,15,235,29,187,16,0,0 // por 0x10bb(%rip),%xmm3 # 1230 <_sk_xor__sse2_8bit+0xf4>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,111,208 // movdqa %xmm0,%xmm2
.byte 102,15,96,212 // punpcklbw %xmm4,%xmm2
@@ -54371,7 +54366,7 @@ _sk_store_a8_sse2_8bit:
.byte 102,15,114,210,24 // psrld $0x18,%xmm2
.byte 77,133,201 // test %r9,%r9
.byte 117,26 // jne 5db <_sk_store_a8_sse2_8bit+0x40>
- .byte 102,15,219,21,119,12,0,0 // pand 0xc77(%rip),%xmm2 # 1240 <_sk_xor__sse2_8bit+0x100>
+ .byte 102,15,219,21,119,12,0,0 // pand 0xc77(%rip),%xmm2 # 1240 <_sk_xor__sse2_8bit+0x104>
.byte 102,15,103,210 // packuswb %xmm2,%xmm2
.byte 102,15,103,210 // packuswb %xmm2,%xmm2
.byte 102,66,15,126,20,2 // movd %xmm2,(%rdx,%r8,1)
@@ -54387,7 +54382,7 @@ _sk_store_a8_sse2_8bit:
.byte 102,15,127,84,36,232 // movdqa %xmm2,-0x18(%rsp)
.byte 138,68,36,240 // mov -0x10(%rsp),%al
.byte 66,136,68,2,2 // mov %al,0x2(%rdx,%r8,1)
- .byte 102,15,219,21,56,12,0,0 // pand 0xc38(%rip),%xmm2 # 1240 <_sk_xor__sse2_8bit+0x100>
+ .byte 102,15,219,21,56,12,0,0 // pand 0xc38(%rip),%xmm2 # 1240 <_sk_xor__sse2_8bit+0x104>
.byte 102,15,103,210 // packuswb %xmm2,%xmm2
.byte 102,15,103,210 // packuswb %xmm2,%xmm2
.byte 102,15,126,208 // movd %xmm2,%eax
@@ -54414,15 +54409,15 @@ _sk_load_g8_sse2_8bit:
.byte 102,66,15,110,4,2 // movd (%rdx,%r8,1),%xmm0
.byte 102,15,96,192 // punpcklbw %xmm0,%xmm0
.byte 102,15,97,192 // punpcklwd %xmm0,%xmm0
- .byte 102,15,219,5,242,11,0,0 // pand 0xbf2(%rip),%xmm0 # 1250 <_sk_xor__sse2_8bit+0x110>
- .byte 102,15,111,21,250,11,0,0 // movdqa 0xbfa(%rip),%xmm2 # 1260 <_sk_xor__sse2_8bit+0x120>
+ .byte 102,15,219,5,242,11,0,0 // pand 0xbf2(%rip),%xmm0 # 1250 <_sk_xor__sse2_8bit+0x114>
+ .byte 102,15,111,21,250,11,0,0 // movdqa 0xbfa(%rip),%xmm2 # 1260 <_sk_xor__sse2_8bit+0x124>
.byte 102,15,112,216,245 // pshufd $0xf5,%xmm0,%xmm3
.byte 102,15,244,194 // pmuludq %xmm2,%xmm0
.byte 102,15,112,192,232 // pshufd $0xe8,%xmm0,%xmm0
.byte 102,15,244,218 // pmuludq %xmm2,%xmm3
.byte 102,15,112,211,232 // pshufd $0xe8,%xmm3,%xmm2
.byte 102,15,98,194 // punpckldq %xmm2,%xmm0
- .byte 102,15,235,5,231,11,0,0 // por 0xbe7(%rip),%xmm0 # 1270 <_sk_xor__sse2_8bit+0x130>
+ .byte 102,15,235,5,231,11,0,0 // por 0xbe7(%rip),%xmm0 # 1270 <_sk_xor__sse2_8bit+0x134>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 65,128,225,3 // and $0x3,%r9b
@@ -54462,15 +54457,15 @@ _sk_load_g8_dst_sse2_8bit:
.byte 102,66,15,110,12,2 // movd (%rdx,%r8,1),%xmm1
.byte 102,15,96,200 // punpcklbw %xmm0,%xmm1
.byte 102,15,97,200 // punpcklwd %xmm0,%xmm1
- .byte 102,15,219,13,114,11,0,0 // pand 0xb72(%rip),%xmm1 # 1280 <_sk_xor__sse2_8bit+0x140>
- .byte 102,15,111,21,122,11,0,0 // movdqa 0xb7a(%rip),%xmm2 # 1290 <_sk_xor__sse2_8bit+0x150>
+ .byte 102,15,219,13,114,11,0,0 // pand 0xb72(%rip),%xmm1 # 1280 <_sk_xor__sse2_8bit+0x144>
+ .byte 102,15,111,21,122,11,0,0 // movdqa 0xb7a(%rip),%xmm2 # 1290 <_sk_xor__sse2_8bit+0x154>
.byte 102,15,112,217,245 // pshufd $0xf5,%xmm1,%xmm3
.byte 102,15,244,202 // pmuludq %xmm2,%xmm1
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,244,218 // pmuludq %xmm2,%xmm3
.byte 102,15,112,211,232 // pshufd $0xe8,%xmm3,%xmm2
.byte 102,15,98,202 // punpckldq %xmm2,%xmm1
- .byte 102,15,235,13,103,11,0,0 // por 0xb67(%rip),%xmm1 # 12a0 <_sk_xor__sse2_8bit+0x160>
+ .byte 102,15,235,13,103,11,0,0 // por 0xb67(%rip),%xmm1 # 12a0 <_sk_xor__sse2_8bit+0x164>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 65,128,225,3 // and $0x3,%r9b
@@ -54516,25 +54511,25 @@ _sk_srcover_rgba_8888_sse2_8bit:
.byte 102,15,96,219 // punpcklbw %xmm3,%xmm3
.byte 242,15,112,219,95 // pshuflw $0x5f,%xmm3,%xmm3
.byte 243,15,112,219,95 // pshufhw $0x5f,%xmm3,%xmm3
- .byte 102,15,118,228 // pcmpeqd %xmm4,%xmm4
- .byte 102,15,239,227 // pxor %xmm3,%xmm4
- .byte 102,15,239,237 // pxor %xmm5,%xmm5
+ .byte 102,15,239,228 // pxor %xmm4,%xmm4
+ .byte 102,15,111,234 // movdqa %xmm2,%xmm5
+ .byte 102,15,96,236 // punpcklbw %xmm4,%xmm5
.byte 102,15,111,242 // movdqa %xmm2,%xmm6
- .byte 102,15,96,245 // punpcklbw %xmm5,%xmm6
- .byte 102,15,104,213 // punpckhbw %xmm5,%xmm2
- .byte 102,15,111,220 // movdqa %xmm4,%xmm3
- .byte 102,15,96,221 // punpcklbw %xmm5,%xmm3
- .byte 102,15,104,229 // punpckhbw %xmm5,%xmm4
- .byte 102,15,213,226 // pmullw %xmm2,%xmm4
+ .byte 102,15,104,244 // punpckhbw %xmm4,%xmm6
+ .byte 102,15,111,251 // movdqa %xmm3,%xmm7
+ .byte 102,15,96,252 // punpcklbw %xmm4,%xmm7
+ .byte 102,15,104,220 // punpckhbw %xmm4,%xmm3
.byte 102,15,213,222 // pmullw %xmm6,%xmm3
+ .byte 102,15,213,253 // pmullw %xmm5,%xmm7
+ .byte 102,15,253,253 // paddw %xmm5,%xmm7
.byte 102,15,253,222 // paddw %xmm6,%xmm3
- .byte 102,15,253,226 // paddw %xmm2,%xmm4
- .byte 102,15,113,212,8 // psrlw $0x8,%xmm4
.byte 102,15,113,211,8 // psrlw $0x8,%xmm3
- .byte 102,15,103,220 // packuswb %xmm4,%xmm3
- .byte 102,15,252,216 // paddb %xmm0,%xmm3
+ .byte 102,15,113,215,8 // psrlw $0x8,%xmm7
+ .byte 102,15,103,251 // packuswb %xmm3,%xmm7
+ .byte 102,15,248,215 // psubb %xmm7,%xmm2
+ .byte 102,15,252,208 // paddb %xmm0,%xmm2
.byte 117,58 // jne 854 <_sk_srcover_rgba_8888_sse2_8bit+0xc9>
- .byte 243,66,15,127,28,130 // movdqu %xmm3,(%rdx,%r8,4)
+ .byte 243,66,15,127,20,130 // movdqu %xmm2,(%rdx,%r8,4)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 68,137,200 // mov %r9d,%eax
@@ -54557,13 +54552,13 @@ _sk_srcover_rgba_8888_sse2_8bit:
.byte 116,18 // je 876 <_sk_srcover_rgba_8888_sse2_8bit+0xeb>
.byte 65,128,249,3 // cmp $0x3,%r9b
.byte 117,182 // jne 820 <_sk_srcover_rgba_8888_sse2_8bit+0x95>
- .byte 102,15,112,211,78 // pshufd $0x4e,%xmm3,%xmm2
- .byte 102,66,15,126,84,130,8 // movd %xmm2,0x8(%rdx,%r8,4)
- .byte 102,66,15,214,28,130 // movq %xmm3,(%rdx,%r8,4)
+ .byte 102,15,112,218,78 // pshufd $0x4e,%xmm2,%xmm3
+ .byte 102,66,15,126,92,130,8 // movd %xmm3,0x8(%rdx,%r8,4)
+ .byte 102,66,15,214,20,130 // movq %xmm2,(%rdx,%r8,4)
.byte 235,162 // jmp 820 <_sk_srcover_rgba_8888_sse2_8bit+0x95>
.byte 102,66,15,110,20,130 // movd (%rdx,%r8,4),%xmm2
.byte 233,41,255,255,255 // jmpq 7b2 <_sk_srcover_rgba_8888_sse2_8bit+0x27>
- .byte 102,66,15,126,28,130 // movd %xmm3,(%rdx,%r8,4)
+ .byte 102,66,15,126,20,130 // movd %xmm2,(%rdx,%r8,4)
.byte 235,143 // jmp 820 <_sk_srcover_rgba_8888_sse2_8bit+0x95>
HIDDEN _sk_scale_1_float_sse2_8bit
@@ -54572,7 +54567,7 @@ FUNCTION(_sk_scale_1_float_sse2_8bit)
_sk_scale_1_float_sse2_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 243,15,16,16 // movss (%rax),%xmm2
- .byte 243,15,89,21,113,9,0,0 // mulss 0x971(%rip),%xmm2 # 1210 <_sk_xor__sse2_8bit+0xd0>
+ .byte 243,15,89,21,109,9,0,0 // mulss 0x96d(%rip),%xmm2 # 120c <_sk_xor__sse2_8bit+0xd0>
.byte 243,15,44,194 // cvttss2si %xmm2,%eax
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,111,208 // movdqa %xmm0,%xmm2
@@ -54582,7 +54577,7 @@ _sk_scale_1_float_sse2_8bit:
.byte 102,15,96,219 // punpcklbw %xmm3,%xmm3
.byte 242,15,112,219,0 // pshuflw $0x0,%xmm3,%xmm3
.byte 102,15,112,219,80 // pshufd $0x50,%xmm3,%xmm3
- .byte 102,15,219,29,227,9,0,0 // pand 0x9e3(%rip),%xmm3 # 12b0 <_sk_xor__sse2_8bit+0x170>
+ .byte 102,15,219,29,227,9,0,0 // pand 0x9e3(%rip),%xmm3 # 12b0 <_sk_xor__sse2_8bit+0x174>
.byte 102,15,111,227 // movdqa %xmm3,%xmm4
.byte 102,15,213,224 // pmullw %xmm0,%xmm4
.byte 102,15,213,218 // pmullw %xmm2,%xmm3
@@ -54662,7 +54657,7 @@ FUNCTION(_sk_lerp_1_float_sse2_8bit)
_sk_lerp_1_float_sse2_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 243,15,16,16 // movss (%rax),%xmm2
- .byte 243,15,89,21,47,8,0,0 // mulss 0x82f(%rip),%xmm2 # 1214 <_sk_xor__sse2_8bit+0xd4>
+ .byte 243,15,89,21,43,8,0,0 // mulss 0x82b(%rip),%xmm2 # 1210 <_sk_xor__sse2_8bit+0xd4>
.byte 243,15,44,194 // cvttss2si %xmm2,%eax
.byte 102,15,110,208 // movd %eax,%xmm2
.byte 102,15,96,210 // punpcklbw %xmm2,%xmm2
@@ -54672,7 +54667,7 @@ _sk_lerp_1_float_sse2_8bit:
.byte 102,15,111,232 // movdqa %xmm0,%xmm5
.byte 102,15,96,236 // punpcklbw %xmm4,%xmm5
.byte 102,15,104,196 // punpckhbw %xmm4,%xmm0
- .byte 102,15,111,21,173,8,0,0 // movdqa 0x8ad(%rip),%xmm2 # 12c0 <_sk_xor__sse2_8bit+0x180>
+ .byte 102,15,111,21,173,8,0,0 // movdqa 0x8ad(%rip),%xmm2 # 12c0 <_sk_xor__sse2_8bit+0x184>
.byte 102,15,219,211 // pand %xmm3,%xmm2
.byte 102,15,111,242 // movdqa %xmm2,%xmm6
.byte 102,15,213,240 // pmullw %xmm0,%xmm6
@@ -54800,7 +54795,7 @@ HIDDEN _sk_black_color_sse2_8bit
FUNCTION(_sk_black_color_sse2_8bit)
_sk_black_color_sse2_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,5,12,7,0,0 // movaps 0x70c(%rip),%xmm0 # 12d0 <_sk_xor__sse2_8bit+0x190>
+ .byte 15,40,5,12,7,0,0 // movaps 0x70c(%rip),%xmm0 # 12d0 <_sk_xor__sse2_8bit+0x194>
.byte 255,224 // jmpq *%rax
HIDDEN _sk_white_color_sse2_8bit
@@ -55047,24 +55042,23 @@ _sk_srcover_sse2_8bit:
.byte 102,15,96,210 // punpcklbw %xmm2,%xmm2
.byte 242,15,112,210,95 // pshuflw $0x5f,%xmm2,%xmm2
.byte 243,15,112,210,95 // pshufhw $0x5f,%xmm2,%xmm2
- .byte 102,15,118,219 // pcmpeqd %xmm3,%xmm3
- .byte 102,15,239,218 // pxor %xmm2,%xmm3
- .byte 102,15,239,210 // pxor %xmm2,%xmm2
+ .byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,111,225 // movdqa %xmm1,%xmm4
+ .byte 102,15,252,193 // paddb %xmm1,%xmm0
.byte 102,15,111,233 // movdqa %xmm1,%xmm5
- .byte 102,15,96,234 // punpcklbw %xmm2,%xmm5
- .byte 102,15,104,226 // punpckhbw %xmm2,%xmm4
- .byte 102,15,111,243 // movdqa %xmm3,%xmm6
- .byte 102,15,96,242 // punpcklbw %xmm2,%xmm6
- .byte 102,15,104,218 // punpckhbw %xmm2,%xmm3
- .byte 102,15,213,220 // pmullw %xmm4,%xmm3
+ .byte 102,15,96,235 // punpcklbw %xmm3,%xmm5
+ .byte 102,15,104,227 // punpckhbw %xmm3,%xmm4
+ .byte 102,15,111,242 // movdqa %xmm2,%xmm6
+ .byte 102,15,96,243 // punpcklbw %xmm3,%xmm6
+ .byte 102,15,104,211 // punpckhbw %xmm3,%xmm2
+ .byte 102,15,213,212 // pmullw %xmm4,%xmm2
.byte 102,15,213,245 // pmullw %xmm5,%xmm6
.byte 102,15,253,245 // paddw %xmm5,%xmm6
- .byte 102,15,253,220 // paddw %xmm4,%xmm3
- .byte 102,15,113,211,8 // psrlw $0x8,%xmm3
+ .byte 102,15,253,212 // paddw %xmm4,%xmm2
+ .byte 102,15,113,210,8 // psrlw $0x8,%xmm2
.byte 102,15,113,214,8 // psrlw $0x8,%xmm6
- .byte 102,15,103,243 // packuswb %xmm3,%xmm6
- .byte 102,15,252,198 // paddb %xmm6,%xmm0
+ .byte 102,15,103,242 // packuswb %xmm2,%xmm6
+ .byte 102,15,248,198 // psubb %xmm6,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -55072,31 +55066,31 @@ HIDDEN _sk_dstover_sse2_8bit
.globl _sk_dstover_sse2_8bit
FUNCTION(_sk_dstover_sse2_8bit)
_sk_dstover_sse2_8bit:
- .byte 242,15,112,209,231 // pshuflw $0xe7,%xmm1,%xmm2
- .byte 243,15,112,210,231 // pshufhw $0xe7,%xmm2,%xmm2
- .byte 102,15,112,210,232 // pshufd $0xe8,%xmm2,%xmm2
- .byte 102,15,96,210 // punpcklbw %xmm2,%xmm2
- .byte 242,15,112,210,95 // pshuflw $0x5f,%xmm2,%xmm2
- .byte 243,15,112,210,95 // pshufhw $0x5f,%xmm2,%xmm2
- .byte 102,15,118,219 // pcmpeqd %xmm3,%xmm3
- .byte 102,15,239,218 // pxor %xmm2,%xmm3
- .byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,111,208 // movdqa %xmm0,%xmm2
- .byte 102,15,96,212 // punpcklbw %xmm4,%xmm2
- .byte 102,15,104,196 // punpckhbw %xmm4,%xmm0
- .byte 102,15,111,235 // movdqa %xmm3,%xmm5
+ .byte 242,15,112,193,231 // pshuflw $0xe7,%xmm1,%xmm0
+ .byte 243,15,112,192,231 // pshufhw $0xe7,%xmm0,%xmm0
+ .byte 102,15,112,192,232 // pshufd $0xe8,%xmm0,%xmm0
+ .byte 102,15,96,192 // punpcklbw %xmm0,%xmm0
+ .byte 242,15,112,192,95 // pshuflw $0x5f,%xmm0,%xmm0
+ .byte 243,15,112,216,95 // pshufhw $0x5f,%xmm0,%xmm3
+ .byte 102,15,239,228 // pxor %xmm4,%xmm4
+ .byte 102,15,111,234 // movdqa %xmm2,%xmm5
.byte 102,15,96,236 // punpcklbw %xmm4,%xmm5
+ .byte 102,15,111,193 // movdqa %xmm1,%xmm0
+ .byte 102,15,252,194 // paddb %xmm2,%xmm0
+ .byte 102,15,104,212 // punpckhbw %xmm4,%xmm2
+ .byte 102,15,111,243 // movdqa %xmm3,%xmm6
+ .byte 102,15,96,244 // punpcklbw %xmm4,%xmm6
.byte 102,15,104,220 // punpckhbw %xmm4,%xmm3
- .byte 102,15,213,216 // pmullw %xmm0,%xmm3
- .byte 102,15,213,234 // pmullw %xmm2,%xmm5
- .byte 102,15,253,213 // paddw %xmm5,%xmm2
- .byte 102,15,253,216 // paddw %xmm0,%xmm3
+ .byte 102,15,213,218 // pmullw %xmm2,%xmm3
+ .byte 102,15,213,245 // pmullw %xmm5,%xmm6
+ .byte 102,15,253,245 // paddw %xmm5,%xmm6
+ .byte 102,15,253,218 // paddw %xmm2,%xmm3
.byte 102,15,113,211,8 // psrlw $0x8,%xmm3
- .byte 102,15,113,210,8 // psrlw $0x8,%xmm2
- .byte 102,15,103,211 // packuswb %xmm3,%xmm2
- .byte 102,15,252,209 // paddb %xmm1,%xmm2
+ .byte 102,15,113,214,8 // psrlw $0x8,%xmm6
+ .byte 102,15,103,243 // packuswb %xmm3,%xmm6
+ .byte 102,15,248,198 // psubb %xmm6,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 102,15,111,194 // movdqa %xmm2,%xmm0
.byte 255,224 // jmpq *%rax
HIDDEN _sk_modulate_sse2_8bit
@@ -55261,13 +55255,13 @@ _sk_xor__sse2_8bit:
BALIGN4
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 124f <_sk_xor__sse2_8bit+0x10f>
+ .byte 127,67 // jg 124b <_sk_xor__sse2_8bit+0x10f>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 1253 <_sk_xor__sse2_8bit+0x113>
+ .byte 127,67 // jg 124f <_sk_xor__sse2_8bit+0x113>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 1257 <_sk_xor__sse2_8bit+0x117>
+ .byte 127,67 // jg 1253 <_sk_xor__sse2_8bit+0x117>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 125b <_sk_xor__sse2_8bit+0x11b>
+ .byte 127,67 // jg 1257 <_sk_xor__sse2_8bit+0x11b>
BALIGN16
.byte 0,0 // add %al,(%rax)