aboutsummaryrefslogtreecommitdiffhomepage
path: root/src/jumper
diff options
context:
space:
mode:
authorGravatar Mike Klein <mtklein@chromium.org>2017-08-29 13:38:09 -0400
committerGravatar Skia Commit-Bot <skia-commit-bot@chromium.org>2017-08-29 18:58:01 +0000
commit856b3c3a8c37deac5aa6f5db0e743036e8c56b95 (patch)
tree3ef911d5d1c54121da57bda0a4458ba04fc29a5d /src/jumper
parentcd48524767c62f4ee1b18cd96fbc32cf93133b23 (diff)
no more need for a constants pointer
The only reason we were keeping SkJumper_constants around is that it was hard to get float/integer iota vectors on arm64 without relocations. Now that we're compiling arm64 normally as part of Skia, we don't have to worry about relocations. This means we can kill the struct and stop passing around that pointer. Change-Id: I013c6a735947f3db2bc87f2bfa38b7520d2e2fce Reviewed-on: https://skia-review.googlesource.com/40200 Commit-Queue: Mike Klein <mtklein@chromium.org> Reviewed-by: Herb Derby <herb@google.com>
Diffstat (limited to 'src/jumper')
-rw-r--r--src/jumper/SkJumper.cpp14
-rw-r--r--src/jumper/SkJumper.h5
-rw-r--r--src/jumper/SkJumper_generated.S23399
-rw-r--r--src/jumper/SkJumper_generated_win.S22665
-rw-r--r--src/jumper/SkJumper_stages.cpp38
-rw-r--r--src/jumper/SkJumper_stages_8bit.cpp4
6 files changed, 23040 insertions, 23085 deletions
diff --git a/src/jumper/SkJumper.cpp b/src/jumper/SkJumper.cpp
index 8f3e6a749f..9fff6cefce 100644
--- a/src/jumper/SkJumper.cpp
+++ b/src/jumper/SkJumper.cpp
@@ -18,14 +18,6 @@
#define __has_feature(x) 0
#endif
-// Stages expect these constants to be set to these values.
-// It's fine to rearrange and add new ones if you update SkJumper_constants.
-using K = const SkJumper_constants;
-static K kConstants = {
- {0,1,2,3,4,5,6,7},
- {0,1,2,3,4,5,6,7},
-};
-
#define M(st) +1
static const int kNumStages = SK_RASTER_PIPELINE_STAGES(M);
#undef M
@@ -60,7 +52,7 @@ static const int kNumStages = SK_RASTER_PIPELINE_STAGES(M);
// We can't express the real types of most stage functions portably, so we use a stand-in.
// We'll only ever call start_pipeline(), which then chains into the rest.
using StageFn = void(void);
-using StartPipelineFn = void(size_t,size_t,size_t,size_t, void**,K*);
+using StartPipelineFn = void(size_t,size_t,size_t,size_t, void**);
// Some platforms expect C "name" maps to asm "_name", others to "name".
#if defined(__APPLE__)
@@ -410,7 +402,7 @@ void SkRasterPipeline::run(size_t x, size_t y, size_t w, size_t h) const {
SkAutoSTMalloc<64, void*> program(fSlotsNeeded);
const SkJumper_Engine& engine = this->build_pipeline(program.get() + fSlotsNeeded);
- engine.start_pipeline(x,y,x+w,y+h, program.get(), &kConstants);
+ engine.start_pipeline(x,y,x+w,y+h, program.get());
}
std::function<void(size_t, size_t, size_t, size_t)> SkRasterPipeline::compile() const {
@@ -423,6 +415,6 @@ std::function<void(size_t, size_t, size_t, size_t)> SkRasterPipeline::compile()
auto start_pipeline = engine.start_pipeline;
return [=](size_t x, size_t y, size_t w, size_t h) {
- start_pipeline(x,y,x+w,y+h, program, &kConstants);
+ start_pipeline(x,y,x+w,y+h, program);
};
}
diff --git a/src/jumper/SkJumper.h b/src/jumper/SkJumper.h
index 4bb851f939..32b56450ff 100644
--- a/src/jumper/SkJumper.h
+++ b/src/jumper/SkJumper.h
@@ -61,11 +61,6 @@
static const int SkJumper_kMaxStride = 8;
-struct SkJumper_constants {
- float iota_F [SkJumper_kMaxStride]; // 0,1,2,3,4,...
- uint32_t iota_U32[SkJumper_kMaxStride]; // 0,1,2,3,4,...
-};
-
struct SkJumper_MemoryCtx {
void* pixels;
int stride;
diff --git a/src/jumper/SkJumper_generated.S b/src/jumper/SkJumper_generated.S
index 465095b67f..6d0bd499df 100644
--- a/src/jumper/SkJumper_generated.S
+++ b/src/jumper/SkJumper_generated.S
@@ -34,44 +34,42 @@ _sk_start_pipeline_vfp4:
.long 0xe28db01c // add fp, sp, #28
.long 0xe24dd06c // sub sp, sp, #108
.long 0xe7c3d01f // bfc sp, #0, #4
- .long 0xe1a06001 // mov r6, r1
+ .long 0xe1a0a001 // mov sl, r1
.long 0xe1a05002 // mov r5, r2
.long 0xe1a09000 // mov r9, r0
- .long 0xe1560003 // cmp r6, r3
+ .long 0xe15a0003 // cmp sl, r3
.long 0xe58d300c // str r3, [sp, #12]
- .long 0x2a00001f // bcs a8 <sk_start_pipeline_vfp4+0xa8>
+ .long 0x2a00001d // bcs a0 <sk_start_pipeline_vfp4+0xa0>
.long 0xe59b4008 // ldr r4, [fp, #8]
.long 0xe2898004 // add r8, r9, #4
.long 0xe28d7010 // add r7, sp, #16
- .long 0xe494a004 // ldr sl, [r4], #4
+ .long 0xe4946004 // ldr r6, [r4], #4
.long 0xe3a00000 // mov r0, #0
.long 0xe58d9010 // str r9, [sp, #16]
- .long 0xe58d6014 // str r6, [sp, #20]
+ .long 0xe58da014 // str sl, [sp, #20]
.long 0xe1580005 // cmp r8, r5
.long 0xe58d0018 // str r0, [sp, #24]
- .long 0xe59b000c // ldr r0, [fp, #12]
- .long 0xe58d001c // str r0, [sp, #28]
.long 0xe1a00009 // mov r0, r9
- .long 0x8a000008 // bhi 80 <sk_start_pipeline_vfp4+0x80>
+ .long 0x8a000008 // bhi 78 <sk_start_pipeline_vfp4+0x78>
.long 0xe1a00007 // mov r0, r7
.long 0xe1a01004 // mov r1, r4
- .long 0xe12fff3a // blx sl
+ .long 0xe12fff36 // blx r6
.long 0xe59d1010 // ldr r1, [sp, #16]
.long 0xe2810004 // add r0, r1, #4
.long 0xe2811008 // add r1, r1, #8
.long 0xe1510005 // cmp r1, r5
.long 0xe58d0010 // str r0, [sp, #16]
- .long 0x9afffff6 // bls 5c <sk_start_pipeline_vfp4+0x5c>
+ .long 0x9afffff6 // bls 54 <sk_start_pipeline_vfp4+0x54>
.long 0xe0550000 // subs r0, r5, r0
- .long 0x0a000003 // beq 98 <sk_start_pipeline_vfp4+0x98>
+ .long 0x0a000003 // beq 90 <sk_start_pipeline_vfp4+0x90>
.long 0xe58d0018 // str r0, [sp, #24]
.long 0xe1a00007 // mov r0, r7
.long 0xe1a01004 // mov r1, r4
- .long 0xe12fff3a // blx sl
+ .long 0xe12fff36 // blx r6
.long 0xe59d000c // ldr r0, [sp, #12]
- .long 0xe2866001 // add r6, r6, #1
- .long 0xe1560000 // cmp r6, r0
- .long 0x1affffe3 // bne 38 <sk_start_pipeline_vfp4+0x38>
+ .long 0xe28aa001 // add sl, sl, #1
+ .long 0xe15a0000 // cmp sl, r0
+ .long 0x1affffe5 // bne 38 <sk_start_pipeline_vfp4+0x38>
.long 0xe24bd01c // sub sp, fp, #28
.long 0xe8bd8ff0 // pop {r4, r5, r6, r7, r8, r9, sl, fp, pc}
@@ -87,25 +85,25 @@ HIDDEN _sk_seed_shader_vfp4
FUNCTION(_sk_seed_shader_vfp4)
_sk_seed_shader_vfp4:
.long 0xe1a02000 // mov r2, r0
- .long 0xf2c3465f // vmov.i32 q10, #1056964608
+ .long 0xf2c3265f // vmov.i32 q9, #1056964608
.long 0xf4e20cbd // vld1.32 {d16[]-d17[]}, [r2 :32]!
- .long 0xf2c06050 // vmov.i32 q11, #0
+ .long 0xe28f3054 // add r3, pc, #84
.long 0xf3fb0660 // vcvt.f32.s32 q8, q8
- .long 0xf4e22cbf // vld1.32 {d18[]-d19[]}, [r2 :32]
- .long 0xf3fb2662 // vcvt.f32.s32 q9, q9
- .long 0xe590200c // ldr r2, [r0, #12]
- .long 0xe28f3040 // add r3, pc, #64
- .long 0xf2400de4 // vadd.f32 q8, q8, q10
+ .long 0xf2c06050 // vmov.i32 q11, #0
.long 0xf4234acf // vld1.64 {d4-d5}, [r3]
- .long 0xf4628a8f // vld1.32 {d24-d25}, [r2]
+ .long 0xe28f3054 // add r3, pc, #84
+ .long 0xf4e28cbf // vld1.32 {d24[]-d25[]}, [r2 :32]
.long 0xe2802040 // add r2, r0, #64
- .long 0xf2022de4 // vadd.f32 q1, q9, q10
+ .long 0xf3fb8668 // vcvt.f32.s32 q12, q12
+ .long 0xf2400de2 // vadd.f32 q8, q8, q9
.long 0xf4426aef // vst1.64 {d22-d23}, [r2 :128]
.long 0xe2802030 // add r2, r0, #48
- .long 0xf2080de0 // vadd.f32 q0, q12, q8
+ .long 0xf4634acf // vld1.64 {d20-d21}, [r3]
+ .long 0xf2806050 // vmov.i32 q3, #0
+ .long 0xf2082de2 // vadd.f32 q1, q12, q9
.long 0xf4426aef // vst1.64 {d22-d23}, [r2 :128]
.long 0xe2802020 // add r2, r0, #32
- .long 0xf2806050 // vmov.i32 q3, #0
+ .long 0xf2000de4 // vadd.f32 q0, q8, q10
.long 0xf4426aef // vst1.64 {d22-d23}, [r2 :128]
.long 0xe2802010 // add r2, r0, #16
.long 0xf4426aef // vst1.64 {d22-d23}, [r2 :128]
@@ -116,21 +114,24 @@ _sk_seed_shader_vfp4:
.long 0x3f800000 // .word 0x3f800000
.long 0x3f800000 // .word 0x3f800000
.long 0x3f800000 // .word 0x3f800000
+ .long 0x00000000 // .word 0x00000000
+ .long 0x3f800000 // .word 0x3f800000
+ .long 0x40000000 // .word 0x40000000
+ .long 0x40400000 // .word 0x40400000
HIDDEN _sk_dither_vfp4
.globl _sk_dither_vfp4
FUNCTION(_sk_dither_vfp4)
_sk_dither_vfp4:
- .long 0xe590200c // ldr r2, [r0, #12]
- .long 0xe1a03000 // mov r3, r0
- .long 0xf4e30cbd // vld1.32 {d16[]-d17[]}, [r3 :32]!
+ .long 0xe1a02000 // mov r2, r0
.long 0xf2c04051 // vmov.i32 q10, #1
- .long 0xe2822020 // add r2, r2, #32
+ .long 0xf4e20cbd // vld1.32 {d16[]-d17[]}, [r2 :32]!
+ .long 0xe28f30b4 // add r3, pc, #180
.long 0xf2c06054 // vmov.i32 q11, #4
- .long 0xf4e3acbf // vld1.32 {d26[]-d27[]}, [r3 :32]
- .long 0xf4622a8f // vld1.32 {d18-d19}, [r2]
+ .long 0xf4e2acbf // vld1.32 {d26[]-d27[]}, [r2 :32]
.long 0xe3a025f2 // mov r2, #1015021568
- .long 0xf26208e0 // vadd.i32 q8, q9, q8
+ .long 0xf4632acf // vld1.64 {d18-d19}, [r3]
+ .long 0xf26008e2 // vadd.i32 q8, q8, q9
.long 0xf2c02052 // vmov.i32 q9, #2
.long 0xf24081f4 // vand q12, q8, q10
.long 0xf240c1f2 // vand q14, q8, q9
@@ -150,7 +151,7 @@ _sk_dither_vfp4:
.long 0xf3ff4076 // vshr.u32 q10, q11, #1
.long 0xf26001f2 // vorr q8, q8, q9
.long 0xeea22b90 // vdup.32 q9, r2
- .long 0xe28f2054 // add r2, pc, #84
+ .long 0xe28f2060 // add r2, pc, #96
.long 0xe5913000 // ldr r3, [r1]
.long 0xf26001f4 // vorr q8, q8, q10
.long 0xf2c06050 // vmov.i32 q11, #0
@@ -172,7 +173,10 @@ _sk_dither_vfp4:
.long 0xf2062fe4 // vmax.f32 q1, q11, q10
.long 0xf2064fe0 // vmax.f32 q2, q11, q8
.long 0xe12fff12 // bx r2
- .long 0xe320f000 // nop {0}
+ .long 0x00000000 // .word 0x00000000
+ .long 0x00000001 // .word 0x00000001
+ .long 0x00000002 // .word 0x00000002
+ .long 0x00000003 // .word 0x00000003
.long 0xbefc0000 // .word 0xbefc0000
.long 0xbefc0000 // .word 0xbefc0000
.long 0xbefc0000 // .word 0xbefc0000
@@ -1924,7 +1928,7 @@ _sk_srcover_rgba_8888_vfp4:
.long 0xe0842102 // add r2, r4, r2, lsl #2
.long 0xe2804020 // add r4, r0, #32
.long 0xe0822106 // add r2, r2, r6, lsl #2
- .long 0x1a000032 // bne 1b98 <sk_srcover_rgba_8888_vfp4+0x110>
+ .long 0x1a000032 // bne 1ba8 <sk_srcover_rgba_8888_vfp4+0x110>
.long 0xf4620a8f // vld1.32 {d16-d17}, [r2]
.long 0xf3c7405f // vmov.i32 q10, #255
.long 0xe28f6f51 // add r6, pc, #324
@@ -1969,7 +1973,7 @@ _sk_srcover_rgba_8888_vfp4:
.long 0xf2f0c57c // vshl.s32 q14, q14, #16
.long 0xf26e01f4 // vorr q8, q15, q10
.long 0xf26001fc // vorr q8, q8, q14
- .long 0x1a000015 // bne 1bd8 <sk_srcover_rgba_8888_vfp4+0x150>
+ .long 0x1a000015 // bne 1be8 <sk_srcover_rgba_8888_vfp4+0x150>
.long 0xf4420a8f // vst1.32 {d16-d17}, [r2]
.long 0xe5912004 // ldr r2, [r1, #4]
.long 0xe2811008 // add r1, r1, #8
@@ -1978,12 +1982,12 @@ _sk_srcover_rgba_8888_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe2036003 // and r6, r3, #3
.long 0xe3560001 // cmp r6, #1
- .long 0x0a000017 // beq 1c04 <sk_srcover_rgba_8888_vfp4+0x17c>
+ .long 0x0a000017 // beq 1c14 <sk_srcover_rgba_8888_vfp4+0x17c>
.long 0xf2c00050 // vmov.i32 q8, #0
.long 0xe3560002 // cmp r6, #2
- .long 0x0a000005 // beq 1bc8 <sk_srcover_rgba_8888_vfp4+0x140>
+ .long 0x0a000005 // beq 1bd8 <sk_srcover_rgba_8888_vfp4+0x140>
.long 0xe3560003 // cmp r6, #3
- .long 0x1affffc5 // bne 1ad0 <sk_srcover_rgba_8888_vfp4+0x48>
+ .long 0x1affffc5 // bne 1ae0 <sk_srcover_rgba_8888_vfp4+0x48>
.long 0xe3a06000 // mov r6, #0
.long 0xeea06b90 // vdup.32 q8, r6
.long 0xe2826008 // add r6, r2, #8
@@ -1991,24 +1995,24 @@ _sk_srcover_rgba_8888_vfp4:
.long 0xedd22b00 // vldr d18, [r2]
.long 0xf2f008e2 // vext.8 q8, q8, q9, #8
.long 0xf2f008e0 // vext.8 q8, q8, q8, #8
- .long 0xeaffffbd // b 1ad0 <sk_srcover_rgba_8888_vfp4+0x48>
+ .long 0xeaffffbd // b 1ae0 <sk_srcover_rgba_8888_vfp4+0x48>
.long 0xe2033003 // and r3, r3, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a00000b // beq 1c14 <sk_srcover_rgba_8888_vfp4+0x18c>
+ .long 0x0a00000b // beq 1c24 <sk_srcover_rgba_8888_vfp4+0x18c>
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000003 // beq 1bfc <sk_srcover_rgba_8888_vfp4+0x174>
+ .long 0x0a000003 // beq 1c0c <sk_srcover_rgba_8888_vfp4+0x174>
.long 0xe3530003 // cmp r3, #3
- .long 0x1affffe3 // bne 1b84 <sk_srcover_rgba_8888_vfp4+0xfc>
+ .long 0x1affffe3 // bne 1b94 <sk_srcover_rgba_8888_vfp4+0xfc>
.long 0xe2823008 // add r3, r2, #8
.long 0xf4c3183f // vst1.32 {d17[0]}, [r3 :32]
.long 0xedc20b00 // vstr d16, [r2]
- .long 0xeaffffdf // b 1b84 <sk_srcover_rgba_8888_vfp4+0xfc>
+ .long 0xeaffffdf // b 1b94 <sk_srcover_rgba_8888_vfp4+0xfc>
.long 0xe3a06000 // mov r6, #0
.long 0xeea06b90 // vdup.32 q8, r6
.long 0xf4e2083f // vld1.32 {d16[0]}, [r2 :32]
- .long 0xeaffffae // b 1ad0 <sk_srcover_rgba_8888_vfp4+0x48>
+ .long 0xeaffffae // b 1ae0 <sk_srcover_rgba_8888_vfp4+0x48>
.long 0xf4c2083f // vst1.32 {d16[0]}, [r2 :32]
- .long 0xeaffffd9 // b 1b84 <sk_srcover_rgba_8888_vfp4+0xfc>
+ .long 0xeaffffd9 // b 1b94 <sk_srcover_rgba_8888_vfp4+0xfc>
.long 0xe320f000 // nop {0}
.long 0x437f0000 // .word 0x437f0000
.long 0x437f0000 // .word 0x437f0000
@@ -2653,7 +2657,7 @@ _sk_scale_u8_vfp4:
.long 0xe5922004 // ldr r2, [r2, #4]
.long 0xe0224392 // mla r2, r2, r3, r4
.long 0xe082200e // add r2, r2, lr
- .long 0x1a000013 // bne 2504 <sk_scale_u8_vfp4+0x7c>
+ .long 0x1a000013 // bne 2514 <sk_scale_u8_vfp4+0x7c>
.long 0xe5922000 // ldr r2, [r2]
.long 0xe58d2000 // str r2, [sp]
.long 0xe1a0200d // mov r2, sp
@@ -2676,12 +2680,12 @@ _sk_scale_u8_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a000012 // beq 255c <sk_scale_u8_vfp4+0xd4>
+ .long 0x0a000012 // beq 256c <sk_scale_u8_vfp4+0xd4>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000005 // beq 2534 <sk_scale_u8_vfp4+0xac>
+ .long 0x0a000005 // beq 2544 <sk_scale_u8_vfp4+0xac>
.long 0xe3530003 // cmp r3, #3
- .long 0x1affffe8 // bne 24c8 <sk_scale_u8_vfp4+0x40>
+ .long 0x1affffe8 // bne 24d8 <sk_scale_u8_vfp4+0x40>
.long 0xe3a04000 // mov r4, #0
.long 0xe5d23002 // ldrb r3, [r2, #2]
.long 0xee804bb0 // vdup.16 d16, r4
@@ -2695,12 +2699,12 @@ _sk_scale_u8_vfp4:
.long 0xf3f62124 // vuzp.16 d18, d20
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffda // b 24c8 <sk_scale_u8_vfp4+0x40>
+ .long 0xeaffffda // b 24d8 <sk_scale_u8_vfp4+0x40>
.long 0xe3a03000 // mov r3, #0
.long 0xe5d22000 // ldrb r2, [r2]
.long 0xee803bb0 // vdup.16 d16, r3
.long 0xee002bb0 // vmov.16 d16[0], r2
- .long 0xeaffffd5 // b 24c8 <sk_scale_u8_vfp4+0x40>
+ .long 0xeaffffd5 // b 24d8 <sk_scale_u8_vfp4+0x40>
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -2722,7 +2726,7 @@ _sk_scale_565_vfp4:
.long 0xe0842082 // add r2, r4, r2, lsl #1
.long 0xe082308c // add r3, r2, ip, lsl #1
.long 0xe280c040 // add ip, r0, #64
- .long 0x1a000024 // bne 2648 <sk_scale_565_vfp4+0xc8>
+ .long 0x1a000024 // bne 2658 <sk_scale_565_vfp4+0xc8>
.long 0xf463074f // vld1.16 {d16}, [r3]
.long 0xf3d00a30 // vmovl.u16 q8, d16
.long 0xe3a02e7e // mov r2, #2016
@@ -2762,12 +2766,12 @@ _sk_scale_565_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20e2003 // and r2, lr, #3
.long 0xe3520001 // cmp r2, #1
- .long 0x0a000011 // beq 269c <sk_scale_565_vfp4+0x11c>
+ .long 0x0a000011 // beq 26ac <sk_scale_565_vfp4+0x11c>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3520002 // cmp r2, #2
- .long 0x0a000005 // beq 2678 <sk_scale_565_vfp4+0xf8>
+ .long 0x0a000005 // beq 2688 <sk_scale_565_vfp4+0xf8>
.long 0xe3520003 // cmp r2, #3
- .long 0x1affffd3 // bne 25b8 <sk_scale_565_vfp4+0x38>
+ .long 0x1affffd3 // bne 25c8 <sk_scale_565_vfp4+0x38>
.long 0xe3a02000 // mov r2, #0
.long 0xee802bb0 // vdup.16 d16, r2
.long 0xe2832004 // add r2, r3, #4
@@ -2780,11 +2784,11 @@ _sk_scale_565_vfp4:
.long 0xf3f62121 // vuzp.16 d18, d17
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffc6 // b 25b8 <sk_scale_565_vfp4+0x38>
+ .long 0xeaffffc6 // b 25c8 <sk_scale_565_vfp4+0x38>
.long 0xe3a02000 // mov r2, #0
.long 0xee802bb0 // vdup.16 d16, r2
.long 0xf4e3041f // vld1.16 {d16[0]}, [r3 :16]
- .long 0xeaffffc2 // b 25b8 <sk_scale_565_vfp4+0x38>
+ .long 0xeaffffc2 // b 25c8 <sk_scale_565_vfp4+0x38>
.long 0xe320f000 // nop {0}
.long 0x3d042108 // .word 0x3d042108
.long 0x3d042108 // .word 0x3d042108
@@ -2845,7 +2849,7 @@ _sk_lerp_u8_vfp4:
.long 0xe0824003 // add r4, r2, r3
.long 0xe2803020 // add r3, r0, #32
.long 0xe2802010 // add r2, r0, #16
- .long 0x1a00001f // bne 27f8 <sk_lerp_u8_vfp4+0xb8>
+ .long 0x1a00001f // bne 2808 <sk_lerp_u8_vfp4+0xb8>
.long 0xe5944000 // ldr r4, [r4]
.long 0xe58d4000 // str r4, [sp]
.long 0xe1a0400d // mov r4, sp
@@ -2880,12 +2884,12 @@ _sk_lerp_u8_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe2065003 // and r5, r6, #3
.long 0xe3550001 // cmp r5, #1
- .long 0x0a000012 // beq 2850 <sk_lerp_u8_vfp4+0x110>
+ .long 0x0a000012 // beq 2860 <sk_lerp_u8_vfp4+0x110>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3550002 // cmp r5, #2
- .long 0x0a000005 // beq 2828 <sk_lerp_u8_vfp4+0xe8>
+ .long 0x0a000005 // beq 2838 <sk_lerp_u8_vfp4+0xe8>
.long 0xe3550003 // cmp r5, #3
- .long 0x1affffdc // bne 278c <sk_lerp_u8_vfp4+0x4c>
+ .long 0x1affffdc // bne 279c <sk_lerp_u8_vfp4+0x4c>
.long 0xe3a06000 // mov r6, #0
.long 0xe5d45002 // ldrb r5, [r4, #2]
.long 0xee806bb0 // vdup.16 d16, r6
@@ -2899,12 +2903,12 @@ _sk_lerp_u8_vfp4:
.long 0xf3f62124 // vuzp.16 d18, d20
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffce // b 278c <sk_lerp_u8_vfp4+0x4c>
+ .long 0xeaffffce // b 279c <sk_lerp_u8_vfp4+0x4c>
.long 0xe3a05000 // mov r5, #0
.long 0xe5d44000 // ldrb r4, [r4]
.long 0xee805bb0 // vdup.16 d16, r5
.long 0xee004bb0 // vmov.16 d16[0], r4
- .long 0xeaffffc9 // b 278c <sk_lerp_u8_vfp4+0x4c>
+ .long 0xeaffffc9 // b 279c <sk_lerp_u8_vfp4+0x4c>
.long 0xe320f000 // nop {0}
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -2929,7 +2933,7 @@ _sk_lerp_565_vfp4:
.long 0xe0824083 // add r4, r2, r3, lsl #1
.long 0xe2802030 // add r2, r0, #48
.long 0xe2803010 // add r3, r0, #16
- .long 0x1a00002f // bne 2974 <sk_lerp_565_vfp4+0xfc>
+ .long 0x1a00002f // bne 2984 <sk_lerp_565_vfp4+0xfc>
.long 0xf464074f // vld1.16 {d16}, [r4]
.long 0xf3d00a30 // vmovl.u16 q8, d16
.long 0xe3a04e7e // mov r4, #2016
@@ -2980,12 +2984,12 @@ _sk_lerp_565_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe2065003 // and r5, r6, #3
.long 0xe3550001 // cmp r5, #1
- .long 0x0a000011 // beq 29c8 <sk_lerp_565_vfp4+0x150>
+ .long 0x0a000011 // beq 29d8 <sk_lerp_565_vfp4+0x150>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3550002 // cmp r5, #2
- .long 0x0a000005 // beq 29a4 <sk_lerp_565_vfp4+0x12c>
+ .long 0x0a000005 // beq 29b4 <sk_lerp_565_vfp4+0x12c>
.long 0xe3550003 // cmp r5, #3
- .long 0x1affffc8 // bne 28b8 <sk_lerp_565_vfp4+0x40>
+ .long 0x1affffc8 // bne 28c8 <sk_lerp_565_vfp4+0x40>
.long 0xe3a05000 // mov r5, #0
.long 0xee805bb0 // vdup.16 d16, r5
.long 0xe2845004 // add r5, r4, #4
@@ -2998,11 +3002,11 @@ _sk_lerp_565_vfp4:
.long 0xf3f62121 // vuzp.16 d18, d17
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffbb // b 28b8 <sk_lerp_565_vfp4+0x40>
+ .long 0xeaffffbb // b 28c8 <sk_lerp_565_vfp4+0x40>
.long 0xe3a05000 // mov r5, #0
.long 0xee805bb0 // vdup.16 d16, r5
.long 0xf4e4041f // vld1.16 {d16[0]}, [r4 :16]
- .long 0xeaffffb7 // b 28b8 <sk_lerp_565_vfp4+0x40>
+ .long 0xeaffffb7 // b 28c8 <sk_lerp_565_vfp4+0x40>
.long 0x3d042108 // .word 0x3d042108
.long 0x3d042108 // .word 0x3d042108
.long 0x3d042108 // .word 0x3d042108
@@ -3027,7 +3031,7 @@ _sk_load_tables_vfp4:
.long 0xe5964000 // ldr r4, [r6]
.long 0xe3530000 // cmp r3, #0
.long 0xe084e102 // add lr, r4, r2, lsl #2
- .long 0x1a000036 // bne 2b04 <sk_load_tables_vfp4+0xfc>
+ .long 0x1a000036 // bne 2b14 <sk_load_tables_vfp4+0xfc>
.long 0xf46e0a8f // vld1.32 {d16-d17}, [lr]
.long 0xf3c7405f // vmov.i32 q10, #255
.long 0xe5967004 // ldr r7, [r6, #4]
@@ -3085,12 +3089,12 @@ _sk_load_tables_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe203c003 // and ip, r3, #3
.long 0xe35c0001 // cmp ip, #1
- .long 0x0a00000c // beq 2b44 <sk_load_tables_vfp4+0x13c>
+ .long 0x0a00000c // beq 2b54 <sk_load_tables_vfp4+0x13c>
.long 0xf2c00050 // vmov.i32 q8, #0
.long 0xe35c0002 // cmp ip, #2
- .long 0x0a000005 // beq 2b34 <sk_load_tables_vfp4+0x12c>
+ .long 0x0a000005 // beq 2b44 <sk_load_tables_vfp4+0x12c>
.long 0xe35c0003 // cmp ip, #3
- .long 0x1affffc1 // bne 2a2c <sk_load_tables_vfp4+0x24>
+ .long 0x1affffc1 // bne 2a3c <sk_load_tables_vfp4+0x24>
.long 0xe3a02000 // mov r2, #0
.long 0xeea02b90 // vdup.32 q8, r2
.long 0xe28e2008 // add r2, lr, #8
@@ -3098,11 +3102,11 @@ _sk_load_tables_vfp4:
.long 0xedde2b00 // vldr d18, [lr]
.long 0xf2f008e2 // vext.8 q8, q8, q9, #8
.long 0xf2f008e0 // vext.8 q8, q8, q8, #8
- .long 0xeaffffb9 // b 2a2c <sk_load_tables_vfp4+0x24>
+ .long 0xeaffffb9 // b 2a3c <sk_load_tables_vfp4+0x24>
.long 0xe3a02000 // mov r2, #0
.long 0xeea02b90 // vdup.32 q8, r2
.long 0xf4ee083f // vld1.32 {d16[0]}, [lr :32]
- .long 0xeaffffb5 // b 2a2c <sk_load_tables_vfp4+0x24>
+ .long 0xeaffffb5 // b 2a3c <sk_load_tables_vfp4+0x24>
.long 0xe320f000 // nop {0}
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -3120,7 +3124,7 @@ _sk_load_tables_u16_be_vfp4:
.long 0xe5982000 // ldr r2, [r8]
.long 0xe35e0000 // cmp lr, #0
.long 0xe082c183 // add ip, r2, r3, lsl #3
- .long 0x1a000039 // bne 2c70 <sk_load_tables_u16_be_vfp4+0x108>
+ .long 0x1a000039 // bne 2c80 <sk_load_tables_u16_be_vfp4+0x108>
.long 0xf46c004f // vld4.16 {d16-d19}, [ip]
.long 0xf3c72b3f // vbic.i16 d18, #65280
.long 0xe5986004 // ldr r6, [r8, #4]
@@ -3181,14 +3185,14 @@ _sk_load_tables_u16_be_vfp4:
.long 0xe12fff12 // bx r2
.long 0xf4ec070f // vld4.16 {d16[0],d17[0],d18[0],d19[0]}, [ip]
.long 0xe35e0001 // cmp lr, #1
- .long 0x0affffc3 // beq 2b8c <sk_load_tables_u16_be_vfp4+0x24>
+ .long 0x0affffc3 // beq 2b9c <sk_load_tables_u16_be_vfp4+0x24>
.long 0xe28c2008 // add r2, ip, #8
.long 0xe35e0003 // cmp lr, #3
.long 0xf4e2074f // vld4.16 {d16[1],d17[1],d18[1],d19[1]}, [r2]
- .long 0x3affffbf // bcc 2b8c <sk_load_tables_u16_be_vfp4+0x24>
+ .long 0x3affffbf // bcc 2b9c <sk_load_tables_u16_be_vfp4+0x24>
.long 0xe28c2010 // add r2, ip, #16
.long 0xf4e2078f // vld4.16 {d16[2],d17[2],d18[2],d19[2]}, [r2]
- .long 0xeaffffbc // b 2b8c <sk_load_tables_u16_be_vfp4+0x24>
+ .long 0xeaffffbc // b 2b9c <sk_load_tables_u16_be_vfp4+0x24>
.long 0x37800080 // .word 0x37800080
.long 0x37800080 // .word 0x37800080
.long 0x37800080 // .word 0x37800080
@@ -3206,7 +3210,7 @@ _sk_load_tables_rgb_u16_be_vfp4:
.long 0xe5982000 // ldr r2, [r8]
.long 0xe35e0000 // cmp lr, #0
.long 0xe082c083 // add ip, r2, r3, lsl #1
- .long 0x1a000033 // bne 2d9c <sk_load_tables_rgb_u16_be_vfp4+0xf4>
+ .long 0x1a000033 // bne 2dac <sk_load_tables_rgb_u16_be_vfp4+0xf4>
.long 0xf46c044f // vld3.16 {d16-d18}, [ip]
.long 0xf3c72b3f // vbic.i16 d18, #65280
.long 0xe5987004 // ldr r7, [r8, #4]
@@ -3261,14 +3265,14 @@ _sk_load_tables_rgb_u16_be_vfp4:
.long 0xe12fff12 // bx r2
.long 0xf4ec060f // vld3.16 {d16[0],d17[0],d18[0]}, [ip]
.long 0xe35e0001 // cmp lr, #1
- .long 0x0affffc9 // beq 2cd0 <sk_load_tables_rgb_u16_be_vfp4+0x28>
+ .long 0x0affffc9 // beq 2ce0 <sk_load_tables_rgb_u16_be_vfp4+0x28>
.long 0xe28c2006 // add r2, ip, #6
.long 0xe35e0003 // cmp lr, #3
.long 0xf4e2064f // vld3.16 {d16[1],d17[1],d18[1]}, [r2]
- .long 0x3affffc5 // bcc 2cd0 <sk_load_tables_rgb_u16_be_vfp4+0x28>
+ .long 0x3affffc5 // bcc 2ce0 <sk_load_tables_rgb_u16_be_vfp4+0x28>
.long 0xe28c200c // add r2, ip, #12
.long 0xf4e2068f // vld3.16 {d16[2],d17[2],d18[2]}, [r2]
- .long 0xeaffffc2 // b 2cd0 <sk_load_tables_rgb_u16_be_vfp4+0x28>
+ .long 0xeaffffc2 // b 2ce0 <sk_load_tables_rgb_u16_be_vfp4+0x28>
.long 0xe320f000 // nop {0}
.long 0x3f800000 // .word 0x3f800000
.long 0x3f800000 // .word 0x3f800000
@@ -4321,7 +4325,7 @@ _sk_load_a8_vfp4:
.long 0xe5922004 // ldr r2, [r2, #4]
.long 0xe0224392 // mla r2, r2, r3, r4
.long 0xe082200e // add r2, r2, lr
- .long 0x1a000012 // bne 3d80 <sk_load_a8_vfp4+0x78>
+ .long 0x1a000012 // bne 3d90 <sk_load_a8_vfp4+0x78>
.long 0xe5922000 // ldr r2, [r2]
.long 0xe58d2000 // str r2, [sp]
.long 0xe1a0200d // mov r2, sp
@@ -4343,12 +4347,12 @@ _sk_load_a8_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a000012 // beq 3dd8 <sk_load_a8_vfp4+0xd0>
+ .long 0x0a000012 // beq 3de8 <sk_load_a8_vfp4+0xd0>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000005 // beq 3db0 <sk_load_a8_vfp4+0xa8>
+ .long 0x0a000005 // beq 3dc0 <sk_load_a8_vfp4+0xa8>
.long 0xe3530003 // cmp r3, #3
- .long 0x1affffe9 // bne 3d48 <sk_load_a8_vfp4+0x40>
+ .long 0x1affffe9 // bne 3d58 <sk_load_a8_vfp4+0x40>
.long 0xe3a04000 // mov r4, #0
.long 0xe5d23002 // ldrb r3, [r2, #2]
.long 0xee804bb0 // vdup.16 d16, r4
@@ -4362,12 +4366,12 @@ _sk_load_a8_vfp4:
.long 0xf3f62124 // vuzp.16 d18, d20
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffdb // b 3d48 <sk_load_a8_vfp4+0x40>
+ .long 0xeaffffdb // b 3d58 <sk_load_a8_vfp4+0x40>
.long 0xe3a03000 // mov r3, #0
.long 0xe5d22000 // ldrb r2, [r2]
.long 0xee803bb0 // vdup.16 d16, r3
.long 0xee002bb0 // vmov.16 d16[0], r2
- .long 0xeaffffd6 // b 3d48 <sk_load_a8_vfp4+0x40>
+ .long 0xeaffffd6 // b 3d58 <sk_load_a8_vfp4+0x40>
.long 0xe320f000 // nop {0}
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -4396,7 +4400,7 @@ _sk_load_a8_dst_vfp4:
.long 0xf4430aef // vst1.64 {d16-d17}, [r3 :128]
.long 0xe082300c // add r3, r2, ip
.long 0xe280c040 // add ip, r0, #64
- .long 0x1a000011 // bne 3e94 <sk_load_a8_dst_vfp4+0x94>
+ .long 0x1a000011 // bne 3ea4 <sk_load_a8_dst_vfp4+0x94>
.long 0xe5932000 // ldr r2, [r3]
.long 0xe58d2000 // str r2, [sp]
.long 0xe1a0200d // mov r2, sp
@@ -4417,12 +4421,12 @@ _sk_load_a8_dst_vfp4:
.long 0xe12fff13 // bx r3
.long 0xe20e2003 // and r2, lr, #3
.long 0xe3520001 // cmp r2, #1
- .long 0x0a000012 // beq 3eec <sk_load_a8_dst_vfp4+0xec>
+ .long 0x0a000012 // beq 3efc <sk_load_a8_dst_vfp4+0xec>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3520002 // cmp r2, #2
- .long 0x0a000005 // beq 3ec4 <sk_load_a8_dst_vfp4+0xc4>
+ .long 0x0a000005 // beq 3ed4 <sk_load_a8_dst_vfp4+0xc4>
.long 0xe3520003 // cmp r2, #3
- .long 0x1affffea // bne 3e60 <sk_load_a8_dst_vfp4+0x60>
+ .long 0x1affffea // bne 3e70 <sk_load_a8_dst_vfp4+0x60>
.long 0xe3a05000 // mov r5, #0
.long 0xe5d32002 // ldrb r2, [r3, #2]
.long 0xee805bb0 // vdup.16 d16, r5
@@ -4436,12 +4440,12 @@ _sk_load_a8_dst_vfp4:
.long 0xf3f62124 // vuzp.16 d18, d20
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffdc // b 3e60 <sk_load_a8_dst_vfp4+0x60>
+ .long 0xeaffffdc // b 3e70 <sk_load_a8_dst_vfp4+0x60>
.long 0xe5d32000 // ldrb r2, [r3]
.long 0xe3a03000 // mov r3, #0
.long 0xee803bb0 // vdup.16 d16, r3
.long 0xee002bb0 // vmov.16 d16[0], r2
- .long 0xeaffffd7 // b 3e60 <sk_load_a8_dst_vfp4+0x60>
+ .long 0xeaffffd7 // b 3e70 <sk_load_a8_dst_vfp4+0x60>
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -4507,7 +4511,7 @@ _sk_store_a8_vfp4:
.long 0xe0224392 // mla r2, r2, r3, r4
.long 0xe082200e // add r2, r2, lr
.long 0xf3f60220 // vmovn.i32 d16, q8
- .long 0x1a000005 // bne 3ff8 <sk_store_a8_vfp4+0x58>
+ .long 0x1a000005 // bne 4008 <sk_store_a8_vfp4+0x58>
.long 0xf3f20121 // vuzp.8 d16, d17
.long 0xf4c2080f // vst1.32 {d16[0]}, [r2]
.long 0xe5912004 // ldr r2, [r1, #4]
@@ -4516,21 +4520,21 @@ _sk_store_a8_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a00000a // beq 4030 <sk_store_a8_vfp4+0x90>
+ .long 0x0a00000a // beq 4040 <sk_store_a8_vfp4+0x90>
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000003 // beq 401c <sk_store_a8_vfp4+0x7c>
+ .long 0x0a000003 // beq 402c <sk_store_a8_vfp4+0x7c>
.long 0xe3530003 // cmp r3, #3
- .long 0x1afffff4 // bne 3fe8 <sk_store_a8_vfp4+0x48>
+ .long 0x1afffff4 // bne 3ff8 <sk_store_a8_vfp4+0x48>
.long 0xeeb03bb0 // vmov.u16 r3, d16[2]
.long 0xe5c23002 // strb r3, [r2, #2]
.long 0xee903bf0 // vmov.u16 r3, d16[1]
.long 0xee904bb0 // vmov.u16 r4, d16[0]
.long 0xe5c23001 // strb r3, [r2, #1]
.long 0xe5c24000 // strb r4, [r2]
- .long 0xeaffffed // b 3fe8 <sk_store_a8_vfp4+0x48>
+ .long 0xeaffffed // b 3ff8 <sk_store_a8_vfp4+0x48>
.long 0xee903bb0 // vmov.u16 r3, d16[0]
.long 0xe5c23000 // strb r3, [r2]
- .long 0xeaffffea // b 3fe8 <sk_store_a8_vfp4+0x48>
+ .long 0xeaffffea // b 3ff8 <sk_store_a8_vfp4+0x48>
.long 0xe320f000 // nop {0}
.long 0x437f0000 // .word 0x437f0000
.long 0x437f0000 // .word 0x437f0000
@@ -4551,7 +4555,7 @@ _sk_load_g8_vfp4:
.long 0xe5922004 // ldr r2, [r2, #4]
.long 0xe0224392 // mla r2, r2, r3, r4
.long 0xe082200e // add r2, r2, lr
- .long 0x1a000013 // bne 40cc <sk_load_g8_vfp4+0x7c>
+ .long 0x1a000013 // bne 40dc <sk_load_g8_vfp4+0x7c>
.long 0xe5922000 // ldr r2, [r2]
.long 0xe58d2000 // str r2, [sp]
.long 0xe1a0200d // mov r2, sp
@@ -4574,12 +4578,12 @@ _sk_load_g8_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a000012 // beq 4124 <sk_load_g8_vfp4+0xd4>
+ .long 0x0a000012 // beq 4134 <sk_load_g8_vfp4+0xd4>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000005 // beq 40fc <sk_load_g8_vfp4+0xac>
+ .long 0x0a000005 // beq 410c <sk_load_g8_vfp4+0xac>
.long 0xe3530003 // cmp r3, #3
- .long 0x1affffe8 // bne 4090 <sk_load_g8_vfp4+0x40>
+ .long 0x1affffe8 // bne 40a0 <sk_load_g8_vfp4+0x40>
.long 0xe3a04000 // mov r4, #0
.long 0xe5d23002 // ldrb r3, [r2, #2]
.long 0xee804bb0 // vdup.16 d16, r4
@@ -4593,12 +4597,12 @@ _sk_load_g8_vfp4:
.long 0xf3f62124 // vuzp.16 d18, d20
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffda // b 4090 <sk_load_g8_vfp4+0x40>
+ .long 0xeaffffda // b 40a0 <sk_load_g8_vfp4+0x40>
.long 0xe3a03000 // mov r3, #0
.long 0xe5d22000 // ldrb r2, [r2]
.long 0xee803bb0 // vdup.16 d16, r3
.long 0xee002bb0 // vmov.16 d16[0], r2
- .long 0xeaffffd5 // b 4090 <sk_load_g8_vfp4+0x40>
+ .long 0xeaffffd5 // b 40a0 <sk_load_g8_vfp4+0x40>
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -4625,7 +4629,7 @@ _sk_load_g8_dst_vfp4:
.long 0xe0824003 // add r4, r2, r3
.long 0xe2802020 // add r2, r0, #32
.long 0xe2803010 // add r3, r0, #16
- .long 0x1a000015 // bne 41e8 <sk_load_g8_dst_vfp4+0x90>
+ .long 0x1a000015 // bne 41f8 <sk_load_g8_dst_vfp4+0x90>
.long 0xe5944000 // ldr r4, [r4]
.long 0xe58d4000 // str r4, [sp]
.long 0xe1a0400d // mov r4, sp
@@ -4650,12 +4654,12 @@ _sk_load_g8_dst_vfp4:
.long 0xe12fff13 // bx r3
.long 0xe2065003 // and r5, r6, #3
.long 0xe3550001 // cmp r5, #1
- .long 0x0a000012 // beq 4240 <sk_load_g8_dst_vfp4+0xe8>
+ .long 0x0a000012 // beq 4250 <sk_load_g8_dst_vfp4+0xe8>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3550002 // cmp r5, #2
- .long 0x0a000005 // beq 4218 <sk_load_g8_dst_vfp4+0xc0>
+ .long 0x0a000005 // beq 4228 <sk_load_g8_dst_vfp4+0xc0>
.long 0xe3550003 // cmp r5, #3
- .long 0x1affffe6 // bne 41a4 <sk_load_g8_dst_vfp4+0x4c>
+ .long 0x1affffe6 // bne 41b4 <sk_load_g8_dst_vfp4+0x4c>
.long 0xe3a06000 // mov r6, #0
.long 0xe5d45002 // ldrb r5, [r4, #2]
.long 0xee806bb0 // vdup.16 d16, r6
@@ -4669,12 +4673,12 @@ _sk_load_g8_dst_vfp4:
.long 0xf3f62124 // vuzp.16 d18, d20
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffd8 // b 41a4 <sk_load_g8_dst_vfp4+0x4c>
+ .long 0xeaffffd8 // b 41b4 <sk_load_g8_dst_vfp4+0x4c>
.long 0xe3a05000 // mov r5, #0
.long 0xe5d44000 // ldrb r4, [r4]
.long 0xee805bb0 // vdup.16 d16, r5
.long 0xee004bb0 // vmov.16 d16[0], r4
- .long 0xeaffffd3 // b 41a4 <sk_load_g8_dst_vfp4+0x4c>
+ .long 0xeaffffd3 // b 41b4 <sk_load_g8_dst_vfp4+0x4c>
.long 0xe320f000 // nop {0}
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -4741,7 +4745,7 @@ _sk_load_565_vfp4:
.long 0xe0020392 // mul r2, r2, r3
.long 0xe0842082 // add r2, r4, r2, lsl #1
.long 0xe082208e // add r2, r2, lr, lsl #1
- .long 0x1a00001b // bne 43a8 <sk_load_565_vfp4+0xa0>
+ .long 0x1a00001b // bne 43b8 <sk_load_565_vfp4+0xa0>
.long 0xf462074f // vld1.16 {d16}, [r2]
.long 0xf3d00a30 // vmovl.u16 q8, d16
.long 0xe3a02e7e // mov r2, #2016
@@ -4772,12 +4776,12 @@ _sk_load_565_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a000011 // beq 43fc <sk_load_565_vfp4+0xf4>
+ .long 0x0a000011 // beq 440c <sk_load_565_vfp4+0xf4>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000005 // beq 43d8 <sk_load_565_vfp4+0xd0>
+ .long 0x0a000005 // beq 43e8 <sk_load_565_vfp4+0xd0>
.long 0xe3530003 // cmp r3, #3
- .long 0x1affffdc // bne 433c <sk_load_565_vfp4+0x34>
+ .long 0x1affffdc // bne 434c <sk_load_565_vfp4+0x34>
.long 0xe3a03000 // mov r3, #0
.long 0xee803bb0 // vdup.16 d16, r3
.long 0xe2823004 // add r3, r2, #4
@@ -4790,11 +4794,11 @@ _sk_load_565_vfp4:
.long 0xf3f62121 // vuzp.16 d18, d17
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffcf // b 433c <sk_load_565_vfp4+0x34>
+ .long 0xeaffffcf // b 434c <sk_load_565_vfp4+0x34>
.long 0xe3a03000 // mov r3, #0
.long 0xee803bb0 // vdup.16 d16, r3
.long 0xf4e2041f // vld1.16 {d16[0]}, [r2 :16]
- .long 0xeaffffcb // b 433c <sk_load_565_vfp4+0x34>
+ .long 0xeaffffcb // b 434c <sk_load_565_vfp4+0x34>
.long 0xe320f000 // nop {0}
.long 0x37842108 // .word 0x37842108
.long 0x37842108 // .word 0x37842108
@@ -4831,7 +4835,7 @@ _sk_load_565_dst_vfp4:
.long 0xe0824083 // add r4, r2, r3, lsl #1
.long 0xe2802020 // add r2, r0, #32
.long 0xe2803010 // add r3, r0, #16
- .long 0x1a00001f // bne 450c <sk_load_565_dst_vfp4+0xbc>
+ .long 0x1a00001f // bne 451c <sk_load_565_dst_vfp4+0xbc>
.long 0xf464074f // vld1.16 {d16}, [r4]
.long 0xf3d00a30 // vmovl.u16 q8, d16
.long 0xe3a04e7e // mov r4, #2016
@@ -4866,12 +4870,12 @@ _sk_load_565_dst_vfp4:
.long 0xe12fff13 // bx r3
.long 0xe2065003 // and r5, r6, #3
.long 0xe3550001 // cmp r5, #1
- .long 0x0a000011 // beq 4560 <sk_load_565_dst_vfp4+0x110>
+ .long 0x0a000011 // beq 4570 <sk_load_565_dst_vfp4+0x110>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3550002 // cmp r5, #2
- .long 0x0a000005 // beq 453c <sk_load_565_dst_vfp4+0xec>
+ .long 0x0a000005 // beq 454c <sk_load_565_dst_vfp4+0xec>
.long 0xe3550003 // cmp r5, #3
- .long 0x1affffd8 // bne 4490 <sk_load_565_dst_vfp4+0x40>
+ .long 0x1affffd8 // bne 44a0 <sk_load_565_dst_vfp4+0x40>
.long 0xe3a05000 // mov r5, #0
.long 0xee805bb0 // vdup.16 d16, r5
.long 0xe2845004 // add r5, r4, #4
@@ -4884,11 +4888,11 @@ _sk_load_565_dst_vfp4:
.long 0xf3f62121 // vuzp.16 d18, d17
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffcb // b 4490 <sk_load_565_dst_vfp4+0x40>
+ .long 0xeaffffcb // b 44a0 <sk_load_565_dst_vfp4+0x40>
.long 0xe3a05000 // mov r5, #0
.long 0xee805bb0 // vdup.16 d16, r5
.long 0xf4e4041f // vld1.16 {d16[0]}, [r4 :16]
- .long 0xeaffffc7 // b 4490 <sk_load_565_dst_vfp4+0x40>
+ .long 0xeaffffc7 // b 44a0 <sk_load_565_dst_vfp4+0x40>
.long 0x37842108 // .word 0x37842108
.long 0x37842108 // .word 0x37842108
.long 0x37842108 // .word 0x37842108
@@ -5000,7 +5004,7 @@ _sk_store_565_vfp4:
.long 0xf26401f0 // vorr q8, q10, q8
.long 0xf26001f2 // vorr q8, q8, q9
.long 0xf3f60220 // vmovn.i32 d16, q8
- .long 0x1a000004 // bne 471c <sk_store_565_vfp4+0x84>
+ .long 0x1a000004 // bne 472c <sk_store_565_vfp4+0x84>
.long 0xf442074f // vst1.16 {d16}, [r2]
.long 0xe5912004 // ldr r2, [r1, #4]
.long 0xe2811008 // add r1, r1, #8
@@ -5008,11 +5012,11 @@ _sk_store_565_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a00000c // beq 475c <sk_store_565_vfp4+0xc4>
+ .long 0x0a00000c // beq 476c <sk_store_565_vfp4+0xc4>
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000003 // beq 4740 <sk_store_565_vfp4+0xa8>
+ .long 0x0a000003 // beq 4750 <sk_store_565_vfp4+0xa8>
.long 0xe3530003 // cmp r3, #3
- .long 0x1afffff4 // bne 470c <sk_store_565_vfp4+0x74>
+ .long 0x1afffff4 // bne 471c <sk_store_565_vfp4+0x74>
.long 0xe2823004 // add r3, r2, #4
.long 0xf4c3049f // vst1.16 {d16[2]}, [r3 :16]
.long 0xee903bb0 // vmov.u16 r3, d16[0]
@@ -5021,9 +5025,9 @@ _sk_store_565_vfp4:
.long 0xee204b90 // vmov.32 d16[1], r4
.long 0xf3f60121 // vuzp.16 d16, d17
.long 0xf4c2080f // vst1.32 {d16[0]}, [r2]
- .long 0xeaffffeb // b 470c <sk_store_565_vfp4+0x74>
+ .long 0xeaffffeb // b 471c <sk_store_565_vfp4+0x74>
.long 0xf4c2041f // vst1.16 {d16[0]}, [r2 :16]
- .long 0xeaffffe9 // b 470c <sk_store_565_vfp4+0x74>
+ .long 0xeaffffe9 // b 471c <sk_store_565_vfp4+0x74>
.long 0xe320f000 // nop {0}
.long 0x427c0000 // .word 0x427c0000
.long 0x427c0000 // .word 0x427c0000
@@ -5045,7 +5049,7 @@ _sk_load_4444_vfp4:
.long 0xe0020392 // mul r2, r2, r3
.long 0xe0842082 // add r2, r4, r2, lsl #1
.long 0xe082208e // add r2, r2, lr, lsl #1
- .long 0x1a00001e // bne 4824 <sk_load_4444_vfp4+0xac>
+ .long 0x1a00001e // bne 4834 <sk_load_4444_vfp4+0xac>
.long 0xf462074f // vld1.16 {d16}, [r2]
.long 0xf3d00a30 // vmovl.u16 q8, d16
.long 0xe28f20d0 // add r2, pc, #208
@@ -5079,12 +5083,12 @@ _sk_load_4444_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a000011 // beq 4878 <sk_load_4444_vfp4+0x100>
+ .long 0x0a000011 // beq 4888 <sk_load_4444_vfp4+0x100>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000005 // beq 4854 <sk_load_4444_vfp4+0xdc>
+ .long 0x0a000005 // beq 4864 <sk_load_4444_vfp4+0xdc>
.long 0xe3530003 // cmp r3, #3
- .long 0x1affffd9 // bne 47ac <sk_load_4444_vfp4+0x34>
+ .long 0x1affffd9 // bne 47bc <sk_load_4444_vfp4+0x34>
.long 0xe3a03000 // mov r3, #0
.long 0xee803bb0 // vdup.16 d16, r3
.long 0xe2823004 // add r3, r2, #4
@@ -5097,11 +5101,11 @@ _sk_load_4444_vfp4:
.long 0xf3f62121 // vuzp.16 d18, d17
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffcc // b 47ac <sk_load_4444_vfp4+0x34>
+ .long 0xeaffffcc // b 47bc <sk_load_4444_vfp4+0x34>
.long 0xe3a03000 // mov r3, #0
.long 0xee803bb0 // vdup.16 d16, r3
.long 0xf4e2041f // vld1.16 {d16[0]}, [r2 :16]
- .long 0xeaffffc8 // b 47ac <sk_load_4444_vfp4+0x34>
+ .long 0xeaffffc8 // b 47bc <sk_load_4444_vfp4+0x34>
.long 0x3b888889 // .word 0x3b888889
.long 0x3b888889 // .word 0x3b888889
.long 0x3b888889 // .word 0x3b888889
@@ -5137,7 +5141,7 @@ _sk_load_4444_dst_vfp4:
.long 0xe0824083 // add r4, r2, r3, lsl #1
.long 0xe2802020 // add r2, r0, #32
.long 0xe2803010 // add r3, r0, #16
- .long 0x1a000023 // bne 4994 <sk_load_4444_dst_vfp4+0xcc>
+ .long 0x1a000023 // bne 49a4 <sk_load_4444_dst_vfp4+0xcc>
.long 0xf464074f // vld1.16 {d16}, [r4]
.long 0xf3d00a30 // vmovl.u16 q8, d16
.long 0xe28f40e4 // add r4, pc, #228
@@ -5176,12 +5180,12 @@ _sk_load_4444_dst_vfp4:
.long 0xe12fff13 // bx r3
.long 0xe2065003 // and r5, r6, #3
.long 0xe3550001 // cmp r5, #1
- .long 0x0a000011 // beq 49e8 <sk_load_4444_dst_vfp4+0x120>
+ .long 0x0a000011 // beq 49f8 <sk_load_4444_dst_vfp4+0x120>
.long 0xf2c00010 // vmov.i32 d16, #0
.long 0xe3550002 // cmp r5, #2
- .long 0x0a000005 // beq 49c4 <sk_load_4444_dst_vfp4+0xfc>
+ .long 0x0a000005 // beq 49d4 <sk_load_4444_dst_vfp4+0xfc>
.long 0xe3550003 // cmp r5, #3
- .long 0x1affffd4 // bne 4908 <sk_load_4444_dst_vfp4+0x40>
+ .long 0x1affffd4 // bne 4918 <sk_load_4444_dst_vfp4+0x40>
.long 0xe3a05000 // mov r5, #0
.long 0xee805bb0 // vdup.16 d16, r5
.long 0xe2845004 // add r5, r4, #4
@@ -5194,11 +5198,11 @@ _sk_load_4444_dst_vfp4:
.long 0xf3f62121 // vuzp.16 d18, d17
.long 0xf2f004a2 // vext.8 d16, d16, d18, #4
.long 0xf2f004a0 // vext.8 d16, d16, d16, #4
- .long 0xeaffffc7 // b 4908 <sk_load_4444_dst_vfp4+0x40>
+ .long 0xeaffffc7 // b 4918 <sk_load_4444_dst_vfp4+0x40>
.long 0xe3a05000 // mov r5, #0
.long 0xee805bb0 // vdup.16 d16, r5
.long 0xf4e4041f // vld1.16 {d16[0]}, [r4 :16]
- .long 0xeaffffc3 // b 4908 <sk_load_4444_dst_vfp4+0x40>
+ .long 0xeaffffc3 // b 4918 <sk_load_4444_dst_vfp4+0x40>
.long 0x37888889 // .word 0x37888889
.long 0x37888889 // .word 0x37888889
.long 0x37888889 // .word 0x37888889
@@ -5321,7 +5325,7 @@ _sk_store_4444_vfp4:
.long 0xf26001f6 // vorr q8, q8, q11
.long 0xf26001f2 // vorr q8, q8, q9
.long 0xf3f60220 // vmovn.i32 d16, q8
- .long 0x1a000004 // bne 4bd0 <sk_store_4444_vfp4+0x90>
+ .long 0x1a000004 // bne 4be0 <sk_store_4444_vfp4+0x90>
.long 0xf442074f // vst1.16 {d16}, [r2]
.long 0xe5912004 // ldr r2, [r1, #4]
.long 0xe2811008 // add r1, r1, #8
@@ -5329,11 +5333,11 @@ _sk_store_4444_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a00000c // beq 4c10 <sk_store_4444_vfp4+0xd0>
+ .long 0x0a00000c // beq 4c20 <sk_store_4444_vfp4+0xd0>
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000003 // beq 4bf4 <sk_store_4444_vfp4+0xb4>
+ .long 0x0a000003 // beq 4c04 <sk_store_4444_vfp4+0xb4>
.long 0xe3530003 // cmp r3, #3
- .long 0x1afffff4 // bne 4bc0 <sk_store_4444_vfp4+0x80>
+ .long 0x1afffff4 // bne 4bd0 <sk_store_4444_vfp4+0x80>
.long 0xe2823004 // add r3, r2, #4
.long 0xf4c3049f // vst1.16 {d16[2]}, [r3 :16]
.long 0xee903bb0 // vmov.u16 r3, d16[0]
@@ -5342,9 +5346,9 @@ _sk_store_4444_vfp4:
.long 0xee204b90 // vmov.32 d16[1], r4
.long 0xf3f60121 // vuzp.16 d16, d17
.long 0xf4c2080f // vst1.32 {d16[0]}, [r2]
- .long 0xeaffffeb // b 4bc0 <sk_store_4444_vfp4+0x80>
+ .long 0xeaffffeb // b 4bd0 <sk_store_4444_vfp4+0x80>
.long 0xf4c2041f // vst1.16 {d16[0]}, [r2 :16]
- .long 0xeaffffe9 // b 4bc0 <sk_store_4444_vfp4+0x80>
+ .long 0xeaffffe9 // b 4bd0 <sk_store_4444_vfp4+0x80>
HIDDEN _sk_load_8888_vfp4
.globl _sk_load_8888_vfp4
@@ -5360,7 +5364,7 @@ _sk_load_8888_vfp4:
.long 0xe0020392 // mul r2, r2, r3
.long 0xe0842102 // add r2, r4, r2, lsl #2
.long 0xe082210e // add r2, r2, lr, lsl #2
- .long 0x1a000015 // bne 4c9c <sk_load_8888_vfp4+0x84>
+ .long 0x1a000015 // bne 4cac <sk_load_8888_vfp4+0x84>
.long 0xf4620a8f // vld1.32 {d16-d17}, [r2]
.long 0xf3c7205f // vmov.i32 q9, #255
.long 0xe28f209c // add r2, pc, #156
@@ -5385,12 +5389,12 @@ _sk_load_8888_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a00000c // beq 4cdc <sk_load_8888_vfp4+0xc4>
+ .long 0x0a00000c // beq 4cec <sk_load_8888_vfp4+0xc4>
.long 0xf2c00050 // vmov.i32 q8, #0
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000005 // beq 4ccc <sk_load_8888_vfp4+0xb4>
+ .long 0x0a000005 // beq 4cdc <sk_load_8888_vfp4+0xb4>
.long 0xe3530003 // cmp r3, #3
- .long 0x1affffe2 // bne 4c48 <sk_load_8888_vfp4+0x30>
+ .long 0x1affffe2 // bne 4c58 <sk_load_8888_vfp4+0x30>
.long 0xe3a03000 // mov r3, #0
.long 0xeea03b90 // vdup.32 q8, r3
.long 0xe2823008 // add r3, r2, #8
@@ -5398,11 +5402,11 @@ _sk_load_8888_vfp4:
.long 0xedd22b00 // vldr d18, [r2]
.long 0xf2f008e2 // vext.8 q8, q8, q9, #8
.long 0xf2f008e0 // vext.8 q8, q8, q8, #8
- .long 0xeaffffda // b 4c48 <sk_load_8888_vfp4+0x30>
+ .long 0xeaffffda // b 4c58 <sk_load_8888_vfp4+0x30>
.long 0xe3a03000 // mov r3, #0
.long 0xeea03b90 // vdup.32 q8, r3
.long 0xf4e2083f // vld1.32 {d16[0]}, [r2 :32]
- .long 0xeaffffd6 // b 4c48 <sk_load_8888_vfp4+0x30>
+ .long 0xeaffffd6 // b 4c58 <sk_load_8888_vfp4+0x30>
.long 0xe320f000 // nop {0}
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -5426,7 +5430,7 @@ _sk_load_8888_dst_vfp4:
.long 0xe0824103 // add r4, r2, r3, lsl #2
.long 0xe2802020 // add r2, r0, #32
.long 0xe2803010 // add r3, r0, #16
- .long 0x1a00001a // bne 4da4 <sk_load_8888_dst_vfp4+0xa4>
+ .long 0x1a00001a // bne 4db4 <sk_load_8888_dst_vfp4+0xa4>
.long 0xf4640a8f // vld1.32 {d16-d17}, [r4]
.long 0xf3c7205f // vmov.i32 q9, #255
.long 0xe28f40b0 // add r4, pc, #176
@@ -5456,12 +5460,12 @@ _sk_load_8888_dst_vfp4:
.long 0xe12fff13 // bx r3
.long 0xe2065003 // and r5, r6, #3
.long 0xe3550001 // cmp r5, #1
- .long 0x0a00000c // beq 4de4 <sk_load_8888_dst_vfp4+0xe4>
+ .long 0x0a00000c // beq 4df4 <sk_load_8888_dst_vfp4+0xe4>
.long 0xf2c00050 // vmov.i32 q8, #0
.long 0xe3550002 // cmp r5, #2
- .long 0x0a000005 // beq 4dd4 <sk_load_8888_dst_vfp4+0xd4>
+ .long 0x0a000005 // beq 4de4 <sk_load_8888_dst_vfp4+0xd4>
.long 0xe3550003 // cmp r5, #3
- .long 0x1affffdd // bne 4d3c <sk_load_8888_dst_vfp4+0x3c>
+ .long 0x1affffdd // bne 4d4c <sk_load_8888_dst_vfp4+0x3c>
.long 0xe3a05000 // mov r5, #0
.long 0xeea05b90 // vdup.32 q8, r5
.long 0xe2845008 // add r5, r4, #8
@@ -5469,11 +5473,11 @@ _sk_load_8888_dst_vfp4:
.long 0xedd42b00 // vldr d18, [r4]
.long 0xf2f008e2 // vext.8 q8, q8, q9, #8
.long 0xf2f008e0 // vext.8 q8, q8, q8, #8
- .long 0xeaffffd5 // b 4d3c <sk_load_8888_dst_vfp4+0x3c>
+ .long 0xeaffffd5 // b 4d4c <sk_load_8888_dst_vfp4+0x3c>
.long 0xe3a05000 // mov r5, #0
.long 0xeea05b90 // vdup.32 q8, r5
.long 0xf4e4083f // vld1.32 {d16[0]}, [r4 :32]
- .long 0xeaffffd1 // b 4d3c <sk_load_8888_dst_vfp4+0x3c>
+ .long 0xeaffffd1 // b 4d4c <sk_load_8888_dst_vfp4+0x3c>
.long 0xe320f000 // nop {0}
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -5563,7 +5567,7 @@ _sk_store_8888_vfp4:
.long 0xf2f84576 // vshl.s32 q10, q11, #24
.long 0xf26001f2 // vorr q8, q8, q9
.long 0xf26001f4 // vorr q8, q8, q10
- .long 0x1a000004 // bne 4f48 <sk_store_8888_vfp4+0x90>
+ .long 0x1a000004 // bne 4f58 <sk_store_8888_vfp4+0x90>
.long 0xf4420a8f // vst1.32 {d16-d17}, [r2]
.long 0xe5912004 // ldr r2, [r1, #4]
.long 0xe2811008 // add r1, r1, #8
@@ -5571,17 +5575,17 @@ _sk_store_8888_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a000007 // beq 4f74 <sk_store_8888_vfp4+0xbc>
+ .long 0x0a000007 // beq 4f84 <sk_store_8888_vfp4+0xbc>
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000003 // beq 4f6c <sk_store_8888_vfp4+0xb4>
+ .long 0x0a000003 // beq 4f7c <sk_store_8888_vfp4+0xb4>
.long 0xe3530003 // cmp r3, #3
- .long 0x1afffff4 // bne 4f38 <sk_store_8888_vfp4+0x80>
+ .long 0x1afffff4 // bne 4f48 <sk_store_8888_vfp4+0x80>
.long 0xe2823008 // add r3, r2, #8
.long 0xf4c3183f // vst1.32 {d17[0]}, [r3 :32]
.long 0xedc20b00 // vstr d16, [r2]
- .long 0xeafffff0 // b 4f38 <sk_store_8888_vfp4+0x80>
+ .long 0xeafffff0 // b 4f48 <sk_store_8888_vfp4+0x80>
.long 0xf4c2083f // vst1.32 {d16[0]}, [r2 :32]
- .long 0xeaffffee // b 4f38 <sk_store_8888_vfp4+0x80>
+ .long 0xeaffffee // b 4f48 <sk_store_8888_vfp4+0x80>
.long 0xe320f000 // nop {0}
.long 0x437f0000 // .word 0x437f0000
.long 0x437f0000 // .word 0x437f0000
@@ -5602,7 +5606,7 @@ _sk_load_bgra_vfp4:
.long 0xe0020392 // mul r2, r2, r3
.long 0xe0842102 // add r2, r4, r2, lsl #2
.long 0xe082210e // add r2, r2, lr, lsl #2
- .long 0x1a000015 // bne 5014 <sk_load_bgra_vfp4+0x84>
+ .long 0x1a000015 // bne 5024 <sk_load_bgra_vfp4+0x84>
.long 0xf4620a8f // vld1.32 {d16-d17}, [r2]
.long 0xf3c7205f // vmov.i32 q9, #255
.long 0xe28f209c // add r2, pc, #156
@@ -5627,12 +5631,12 @@ _sk_load_bgra_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a00000c // beq 5054 <sk_load_bgra_vfp4+0xc4>
+ .long 0x0a00000c // beq 5064 <sk_load_bgra_vfp4+0xc4>
.long 0xf2c00050 // vmov.i32 q8, #0
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000005 // beq 5044 <sk_load_bgra_vfp4+0xb4>
+ .long 0x0a000005 // beq 5054 <sk_load_bgra_vfp4+0xb4>
.long 0xe3530003 // cmp r3, #3
- .long 0x1affffe2 // bne 4fc0 <sk_load_bgra_vfp4+0x30>
+ .long 0x1affffe2 // bne 4fd0 <sk_load_bgra_vfp4+0x30>
.long 0xe3a03000 // mov r3, #0
.long 0xeea03b90 // vdup.32 q8, r3
.long 0xe2823008 // add r3, r2, #8
@@ -5640,11 +5644,11 @@ _sk_load_bgra_vfp4:
.long 0xedd22b00 // vldr d18, [r2]
.long 0xf2f008e2 // vext.8 q8, q8, q9, #8
.long 0xf2f008e0 // vext.8 q8, q8, q8, #8
- .long 0xeaffffda // b 4fc0 <sk_load_bgra_vfp4+0x30>
+ .long 0xeaffffda // b 4fd0 <sk_load_bgra_vfp4+0x30>
.long 0xe3a03000 // mov r3, #0
.long 0xeea03b90 // vdup.32 q8, r3
.long 0xf4e2083f // vld1.32 {d16[0]}, [r2 :32]
- .long 0xeaffffd6 // b 4fc0 <sk_load_bgra_vfp4+0x30>
+ .long 0xeaffffd6 // b 4fd0 <sk_load_bgra_vfp4+0x30>
.long 0xe320f000 // nop {0}
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -5668,7 +5672,7 @@ _sk_load_bgra_dst_vfp4:
.long 0xe0824103 // add r4, r2, r3, lsl #2
.long 0xe2802020 // add r2, r0, #32
.long 0xe2803010 // add r3, r0, #16
- .long 0x1a00001a // bne 511c <sk_load_bgra_dst_vfp4+0xa4>
+ .long 0x1a00001a // bne 512c <sk_load_bgra_dst_vfp4+0xa4>
.long 0xf4640a8f // vld1.32 {d16-d17}, [r4]
.long 0xf3c7205f // vmov.i32 q9, #255
.long 0xe28f40b0 // add r4, pc, #176
@@ -5698,12 +5702,12 @@ _sk_load_bgra_dst_vfp4:
.long 0xe12fff13 // bx r3
.long 0xe2065003 // and r5, r6, #3
.long 0xe3550001 // cmp r5, #1
- .long 0x0a00000c // beq 515c <sk_load_bgra_dst_vfp4+0xe4>
+ .long 0x0a00000c // beq 516c <sk_load_bgra_dst_vfp4+0xe4>
.long 0xf2c00050 // vmov.i32 q8, #0
.long 0xe3550002 // cmp r5, #2
- .long 0x0a000005 // beq 514c <sk_load_bgra_dst_vfp4+0xd4>
+ .long 0x0a000005 // beq 515c <sk_load_bgra_dst_vfp4+0xd4>
.long 0xe3550003 // cmp r5, #3
- .long 0x1affffdd // bne 50b4 <sk_load_bgra_dst_vfp4+0x3c>
+ .long 0x1affffdd // bne 50c4 <sk_load_bgra_dst_vfp4+0x3c>
.long 0xe3a05000 // mov r5, #0
.long 0xeea05b90 // vdup.32 q8, r5
.long 0xe2845008 // add r5, r4, #8
@@ -5711,11 +5715,11 @@ _sk_load_bgra_dst_vfp4:
.long 0xedd42b00 // vldr d18, [r4]
.long 0xf2f008e2 // vext.8 q8, q8, q9, #8
.long 0xf2f008e0 // vext.8 q8, q8, q8, #8
- .long 0xeaffffd5 // b 50b4 <sk_load_bgra_dst_vfp4+0x3c>
+ .long 0xeaffffd5 // b 50c4 <sk_load_bgra_dst_vfp4+0x3c>
.long 0xe3a05000 // mov r5, #0
.long 0xeea05b90 // vdup.32 q8, r5
.long 0xf4e4083f // vld1.32 {d16[0]}, [r4 :32]
- .long 0xeaffffd1 // b 50b4 <sk_load_bgra_dst_vfp4+0x3c>
+ .long 0xeaffffd1 // b 50c4 <sk_load_bgra_dst_vfp4+0x3c>
.long 0xe320f000 // nop {0}
.long 0x3b808081 // .word 0x3b808081
.long 0x3b808081 // .word 0x3b808081
@@ -5805,7 +5809,7 @@ _sk_store_bgra_vfp4:
.long 0xf2f84576 // vshl.s32 q10, q11, #24
.long 0xf26001f2 // vorr q8, q8, q9
.long 0xf26001f4 // vorr q8, q8, q10
- .long 0x1a000004 // bne 52c0 <sk_store_bgra_vfp4+0x90>
+ .long 0x1a000004 // bne 52d0 <sk_store_bgra_vfp4+0x90>
.long 0xf4420a8f // vst1.32 {d16-d17}, [r2]
.long 0xe5912004 // ldr r2, [r1, #4]
.long 0xe2811008 // add r1, r1, #8
@@ -5813,17 +5817,17 @@ _sk_store_bgra_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe20c3003 // and r3, ip, #3
.long 0xe3530001 // cmp r3, #1
- .long 0x0a000007 // beq 52ec <sk_store_bgra_vfp4+0xbc>
+ .long 0x0a000007 // beq 52fc <sk_store_bgra_vfp4+0xbc>
.long 0xe3530002 // cmp r3, #2
- .long 0x0a000003 // beq 52e4 <sk_store_bgra_vfp4+0xb4>
+ .long 0x0a000003 // beq 52f4 <sk_store_bgra_vfp4+0xb4>
.long 0xe3530003 // cmp r3, #3
- .long 0x1afffff4 // bne 52b0 <sk_store_bgra_vfp4+0x80>
+ .long 0x1afffff4 // bne 52c0 <sk_store_bgra_vfp4+0x80>
.long 0xe2823008 // add r3, r2, #8
.long 0xf4c3183f // vst1.32 {d17[0]}, [r3 :32]
.long 0xedc20b00 // vstr d16, [r2]
- .long 0xeafffff0 // b 52b0 <sk_store_bgra_vfp4+0x80>
+ .long 0xeafffff0 // b 52c0 <sk_store_bgra_vfp4+0x80>
.long 0xf4c2083f // vst1.32 {d16[0]}, [r2 :32]
- .long 0xeaffffee // b 52b0 <sk_store_bgra_vfp4+0x80>
+ .long 0xeaffffee // b 52c0 <sk_store_bgra_vfp4+0x80>
.long 0xe320f000 // nop {0}
.long 0x437f0000 // .word 0x437f0000
.long 0x437f0000 // .word 0x437f0000
@@ -5844,7 +5848,7 @@ _sk_load_f16_vfp4:
.long 0xe0020293 // mul r2, r3, r2
.long 0xe0842182 // add r2, r4, r2, lsl #3
.long 0xe082318e // add r3, r2, lr, lsl #3
- .long 0x1a000008 // bne 5358 <sk_load_f16_vfp4+0x50>
+ .long 0x1a000008 // bne 5368 <sk_load_f16_vfp4+0x50>
.long 0xf463004f // vld4.16 {d16-d19}, [r3]
.long 0xe5912004 // ldr r2, [r1, #4]
.long 0xf3b60720 // vcvt.f32.f16 q0, d16
@@ -5856,14 +5860,14 @@ _sk_load_f16_vfp4:
.long 0xe12fff12 // bx r2
.long 0xf4e3070f // vld4.16 {d16[0],d17[0],d18[0],d19[0]}, [r3]
.long 0xe35c0001 // cmp ip, #1
- .long 0x0afffff4 // beq 5338 <sk_load_f16_vfp4+0x30>
+ .long 0x0afffff4 // beq 5348 <sk_load_f16_vfp4+0x30>
.long 0xe2832008 // add r2, r3, #8
.long 0xe35c0003 // cmp ip, #3
.long 0xf4e2074f // vld4.16 {d16[1],d17[1],d18[1],d19[1]}, [r2]
- .long 0x3afffff0 // bcc 5338 <sk_load_f16_vfp4+0x30>
+ .long 0x3afffff0 // bcc 5348 <sk_load_f16_vfp4+0x30>
.long 0xe2832010 // add r2, r3, #16
.long 0xf4e2078f // vld4.16 {d16[2],d17[2],d18[2],d19[2]}, [r2]
- .long 0xeaffffed // b 5338 <sk_load_f16_vfp4+0x30>
+ .long 0xeaffffed // b 5348 <sk_load_f16_vfp4+0x30>
HIDDEN _sk_load_f16_dst_vfp4
.globl _sk_load_f16_dst_vfp4
@@ -5882,7 +5886,7 @@ _sk_load_f16_dst_vfp4:
.long 0xe0825183 // add r5, r2, r3, lsl #3
.long 0xe2802020 // add r2, r0, #32
.long 0xe2803010 // add r3, r0, #16
- .long 0x1a00000d // bne 53f0 <sk_load_f16_dst_vfp4+0x70>
+ .long 0x1a00000d // bne 5400 <sk_load_f16_dst_vfp4+0x70>
.long 0xf465004f // vld4.16 {d16-d19}, [r5]
.long 0xf3f64720 // vcvt.f32.f16 q10, d16
.long 0xf3f66721 // vcvt.f32.f16 q11, d17
@@ -5899,14 +5903,14 @@ _sk_load_f16_dst_vfp4:
.long 0xe12fff13 // bx r3
.long 0xf4e5070f // vld4.16 {d16[0],d17[0],d18[0],d19[0]}, [r5]
.long 0xe3560001 // cmp r6, #1
- .long 0x0affffef // beq 53bc <sk_load_f16_dst_vfp4+0x3c>
+ .long 0x0affffef // beq 53cc <sk_load_f16_dst_vfp4+0x3c>
.long 0xe2854008 // add r4, r5, #8
.long 0xe3560003 // cmp r6, #3
.long 0xf4e4074f // vld4.16 {d16[1],d17[1],d18[1],d19[1]}, [r4]
- .long 0x3affffeb // bcc 53bc <sk_load_f16_dst_vfp4+0x3c>
+ .long 0x3affffeb // bcc 53cc <sk_load_f16_dst_vfp4+0x3c>
.long 0xe2854010 // add r4, r5, #16
.long 0xf4e4078f // vld4.16 {d16[2],d17[2],d18[2],d19[2]}, [r4]
- .long 0xeaffffe8 // b 53bc <sk_load_f16_dst_vfp4+0x3c>
+ .long 0xeaffffe8 // b 53cc <sk_load_f16_dst_vfp4+0x3c>
HIDDEN _sk_gather_f16_vfp4
.globl _sk_gather_f16_vfp4
@@ -5967,7 +5971,7 @@ _sk_store_f16_vfp4:
.long 0xe0020392 // mul r2, r2, r3
.long 0xe0842182 // add r2, r4, r2, lsl #3
.long 0xe082218e // add r2, r2, lr, lsl #3
- .long 0x1a000004 // bne 54f8 <sk_store_f16_vfp4+0x50>
+ .long 0x1a000004 // bne 5508 <sk_store_f16_vfp4+0x50>
.long 0xf442004f // vst4.16 {d16-d19}, [r2]
.long 0xe5912004 // ldr r2, [r1, #4]
.long 0xe2811008 // add r1, r1, #8
@@ -5975,14 +5979,14 @@ _sk_store_f16_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe35c0001 // cmp ip, #1
.long 0xf4c2070f // vst4.16 {d16[0],d17[0],d18[0],d19[0]}, [r2]
- .long 0x0afffff8 // beq 54e8 <sk_store_f16_vfp4+0x40>
+ .long 0x0afffff8 // beq 54f8 <sk_store_f16_vfp4+0x40>
.long 0xe2823008 // add r3, r2, #8
.long 0xe35c0003 // cmp ip, #3
.long 0xf4c3074f // vst4.16 {d16[1],d17[1],d18[1],d19[1]}, [r3]
- .long 0x3afffff4 // bcc 54e8 <sk_store_f16_vfp4+0x40>
+ .long 0x3afffff4 // bcc 54f8 <sk_store_f16_vfp4+0x40>
.long 0xe2822010 // add r2, r2, #16
.long 0xf4c2078f // vst4.16 {d16[2],d17[2],d18[2],d19[2]}, [r2]
- .long 0xeafffff1 // b 54e8 <sk_store_f16_vfp4+0x40>
+ .long 0xeafffff1 // b 54f8 <sk_store_f16_vfp4+0x40>
HIDDEN _sk_load_u16_be_vfp4
.globl _sk_load_u16_be_vfp4
@@ -5998,7 +6002,7 @@ _sk_load_u16_be_vfp4:
.long 0xe0020293 // mul r2, r3, r2
.long 0xe0842082 // add r2, r4, r2, lsl #1
.long 0xe082318e // add r3, r2, lr, lsl #3
- .long 0x1a00001e // bne 55c8 <sk_load_u16_be_vfp4+0xa8>
+ .long 0x1a00001e // bne 55d8 <sk_load_u16_be_vfp4+0xa8>
.long 0xf463004f // vld4.16 {d16-d19}, [r3]
.long 0xf3d84030 // vshr.u16 d20, d16, #8
.long 0xe28f2094 // add r2, pc, #148
@@ -6032,14 +6036,14 @@ _sk_load_u16_be_vfp4:
.long 0xe12fff12 // bx r2
.long 0xf4e3070f // vld4.16 {d16[0],d17[0],d18[0],d19[0]}, [r3]
.long 0xe35c0001 // cmp ip, #1
- .long 0x0affffde // beq 5550 <sk_load_u16_be_vfp4+0x30>
+ .long 0x0affffde // beq 5560 <sk_load_u16_be_vfp4+0x30>
.long 0xe2832008 // add r2, r3, #8
.long 0xe35c0003 // cmp ip, #3
.long 0xf4e2074f // vld4.16 {d16[1],d17[1],d18[1],d19[1]}, [r2]
- .long 0x3affffda // bcc 5550 <sk_load_u16_be_vfp4+0x30>
+ .long 0x3affffda // bcc 5560 <sk_load_u16_be_vfp4+0x30>
.long 0xe2832010 // add r2, r3, #16
.long 0xf4e2078f // vld4.16 {d16[2],d17[2],d18[2],d19[2]}, [r2]
- .long 0xeaffffd7 // b 5550 <sk_load_u16_be_vfp4+0x30>
+ .long 0xeaffffd7 // b 5560 <sk_load_u16_be_vfp4+0x30>
.long 0x37800080 // .word 0x37800080
.long 0x37800080 // .word 0x37800080
.long 0x37800080 // .word 0x37800080
@@ -6060,7 +6064,7 @@ _sk_load_rgb_u16_be_vfp4:
.long 0xe08e308e // add r3, lr, lr, lsl #1
.long 0xe0842082 // add r2, r4, r2, lsl #1
.long 0xe0823083 // add r3, r2, r3, lsl #1
- .long 0x1a00001a // bne 569c <sk_load_rgb_u16_be_vfp4+0x9c>
+ .long 0x1a00001a // bne 56ac <sk_load_rgb_u16_be_vfp4+0x9c>
.long 0xf463044f // vld3.16 {d16-d18}, [r3]
.long 0xf3d84030 // vshr.u16 d20, d16, #8
.long 0xe28f2088 // add r2, pc, #136
@@ -6090,14 +6094,14 @@ _sk_load_rgb_u16_be_vfp4:
.long 0xe12fff12 // bx r2
.long 0xf4e3060f // vld3.16 {d16[0],d17[0],d18[0]}, [r3]
.long 0xe35c0001 // cmp ip, #1
- .long 0x0affffe2 // beq 5634 <sk_load_rgb_u16_be_vfp4+0x34>
+ .long 0x0affffe2 // beq 5644 <sk_load_rgb_u16_be_vfp4+0x34>
.long 0xe2832006 // add r2, r3, #6
.long 0xe35c0003 // cmp ip, #3
.long 0xf4e2064f // vld3.16 {d16[1],d17[1],d18[1]}, [r2]
- .long 0x3affffde // bcc 5634 <sk_load_rgb_u16_be_vfp4+0x34>
+ .long 0x3affffde // bcc 5644 <sk_load_rgb_u16_be_vfp4+0x34>
.long 0xe283200c // add r2, r3, #12
.long 0xf4e2068f // vld3.16 {d16[2],d17[2],d18[2]}, [r2]
- .long 0xeaffffdb // b 5634 <sk_load_rgb_u16_be_vfp4+0x34>
+ .long 0xeaffffdb // b 5644 <sk_load_rgb_u16_be_vfp4+0x34>
.long 0xe320f000 // nop {0}
.long 0x37800080 // .word 0x37800080
.long 0x37800080 // .word 0x37800080
@@ -6152,7 +6156,7 @@ _sk_store_u16_be_vfp4:
.long 0xf2d84534 // vshl.s16 d20, d20, #8
.long 0xf26811b7 // vorr d17, d24, d23
.long 0xf26401b9 // vorr d16, d20, d25
- .long 0x1a000004 // bne 57a0 <sk_store_u16_be_vfp4+0xb8>
+ .long 0x1a000004 // bne 57b0 <sk_store_u16_be_vfp4+0xb8>
.long 0xf443004f // vst4.16 {d16-d19}, [r3]
.long 0xe5912004 // ldr r2, [r1, #4]
.long 0xe2811008 // add r1, r1, #8
@@ -6160,14 +6164,14 @@ _sk_store_u16_be_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe35c0001 // cmp ip, #1
.long 0xf4c3070f // vst4.16 {d16[0],d17[0],d18[0],d19[0]}, [r3]
- .long 0x0afffff8 // beq 5790 <sk_store_u16_be_vfp4+0xa8>
+ .long 0x0afffff8 // beq 57a0 <sk_store_u16_be_vfp4+0xa8>
.long 0xe2832008 // add r2, r3, #8
.long 0xe35c0003 // cmp ip, #3
.long 0xf4c2074f // vst4.16 {d16[1],d17[1],d18[1],d19[1]}, [r2]
- .long 0x3afffff4 // bcc 5790 <sk_store_u16_be_vfp4+0xa8>
+ .long 0x3afffff4 // bcc 57a0 <sk_store_u16_be_vfp4+0xa8>
.long 0xe2832010 // add r2, r3, #16
.long 0xf4c2078f // vst4.16 {d16[2],d17[2],d18[2],d19[2]}, [r2]
- .long 0xeafffff1 // b 5790 <sk_store_u16_be_vfp4+0xa8>
+ .long 0xeafffff1 // b 57a0 <sk_store_u16_be_vfp4+0xa8>
.long 0x477fff00 // .word 0x477fff00
.long 0x477fff00 // .word 0x477fff00
.long 0x477fff00 // .word 0x477fff00
@@ -6187,7 +6191,7 @@ _sk_load_f32_vfp4:
.long 0xe0020392 // mul r2, r2, r3
.long 0xe0842102 // add r2, r4, r2, lsl #2
.long 0xe082220e // add r2, r2, lr, lsl #4
- .long 0x1a000009 // bne 582c <sk_load_f32_vfp4+0x54>
+ .long 0x1a000009 // bne 583c <sk_load_f32_vfp4+0x54>
.long 0xf462018d // vld4.32 {d16,d18,d20,d22}, [r2]!
.long 0xf462118f // vld4.32 {d17,d19,d21,d23}, [r2]
.long 0xf22001f0 // vorr q0, q8, q8
@@ -6200,14 +6204,14 @@ _sk_load_f32_vfp4:
.long 0xe12fff12 // bx r2
.long 0xf4a20b4f // vld4.32 {d0[0],d2[0],d4[0],d6[0]}, [r2]
.long 0xe35c0001 // cmp ip, #1
- .long 0x0afffff8 // beq 581c <sk_load_f32_vfp4+0x44>
+ .long 0x0afffff8 // beq 582c <sk_load_f32_vfp4+0x44>
.long 0xe2823010 // add r3, r2, #16
.long 0xe35c0003 // cmp ip, #3
.long 0xf4a30bcf // vld4.32 {d0[1],d2[1],d4[1],d6[1]}, [r3]
- .long 0x3afffff4 // bcc 581c <sk_load_f32_vfp4+0x44>
+ .long 0x3afffff4 // bcc 582c <sk_load_f32_vfp4+0x44>
.long 0xe2822020 // add r2, r2, #32
.long 0xf4a21b4f // vld4.32 {d1[0],d3[0],d5[0],d7[0]}, [r2]
- .long 0xeafffff1 // b 581c <sk_load_f32_vfp4+0x44>
+ .long 0xeafffff1 // b 582c <sk_load_f32_vfp4+0x44>
HIDDEN _sk_load_f32_dst_vfp4
.globl _sk_load_f32_dst_vfp4
@@ -6226,7 +6230,7 @@ _sk_load_f32_dst_vfp4:
.long 0xe0824203 // add r4, r2, r3, lsl #4
.long 0xe2802020 // add r2, r0, #32
.long 0xe2803010 // add r3, r0, #16
- .long 0x1a00000e // bne 58c8 <sk_load_f32_dst_vfp4+0x74>
+ .long 0x1a00000e // bne 58d8 <sk_load_f32_dst_vfp4+0x74>
.long 0xf464818d // vld4.32 {d24,d26,d28,d30}, [r4]!
.long 0xf464918f // vld4.32 {d25,d27,d29,d31}, [r4]
.long 0xf26801f8 // vorr q8, q12, q12
@@ -6244,14 +6248,14 @@ _sk_load_f32_dst_vfp4:
.long 0xe12fff13 // bx r3
.long 0xf4e40b4f // vld4.32 {d16[0],d18[0],d20[0],d22[0]}, [r4]
.long 0xe3560001 // cmp r6, #1
- .long 0x0afffff3 // beq 58a4 <sk_load_f32_dst_vfp4+0x50>
+ .long 0x0afffff3 // beq 58b4 <sk_load_f32_dst_vfp4+0x50>
.long 0xe2845010 // add r5, r4, #16
.long 0xe3560003 // cmp r6, #3
.long 0xf4e50bcf // vld4.32 {d16[1],d18[1],d20[1],d22[1]}, [r5]
- .long 0x3affffef // bcc 58a4 <sk_load_f32_dst_vfp4+0x50>
+ .long 0x3affffef // bcc 58b4 <sk_load_f32_dst_vfp4+0x50>
.long 0xe2844020 // add r4, r4, #32
.long 0xf4e41b4f // vld4.32 {d17[0],d19[0],d21[0],d23[0]}, [r4]
- .long 0xeaffffec // b 58a4 <sk_load_f32_dst_vfp4+0x50>
+ .long 0xeaffffec // b 58b4 <sk_load_f32_dst_vfp4+0x50>
HIDDEN _sk_store_f32_vfp4
.globl _sk_store_f32_vfp4
@@ -6267,7 +6271,7 @@ _sk_store_f32_vfp4:
.long 0xe0020392 // mul r2, r2, r3
.long 0xe0842102 // add r2, r4, r2, lsl #2
.long 0xe082220e // add r2, r2, lr, lsl #4
- .long 0x1a000005 // bne 5934 <sk_store_f32_vfp4+0x44>
+ .long 0x1a000005 // bne 5944 <sk_store_f32_vfp4+0x44>
.long 0xf402018d // vst4.32 {d0,d2,d4,d6}, [r2]!
.long 0xf402118f // vst4.32 {d1,d3,d5,d7}, [r2]
.long 0xe5912004 // ldr r2, [r1, #4]
@@ -6276,14 +6280,14 @@ _sk_store_f32_vfp4:
.long 0xe12fff12 // bx r2
.long 0xe35c0001 // cmp ip, #1
.long 0xf4820b4f // vst4.32 {d0[0],d2[0],d4[0],d6[0]}, [r2]
- .long 0x0afffff8 // beq 5924 <sk_store_f32_vfp4+0x34>
+ .long 0x0afffff8 // beq 5934 <sk_store_f32_vfp4+0x34>
.long 0xe2823010 // add r3, r2, #16
.long 0xe35c0003 // cmp ip, #3
.long 0xf4830bcf // vst4.32 {d0[1],d2[1],d4[1],d6[1]}, [r3]
- .long 0x3afffff4 // bcc 5924 <sk_store_f32_vfp4+0x34>
+ .long 0x3afffff4 // bcc 5934 <sk_store_f32_vfp4+0x34>
.long 0xe2822020 // add r2, r2, #32
.long 0xf4821b4f // vst4.32 {d1[0],d3[0],d5[0],d7[0]}, [r2]
- .long 0xeafffff1 // b 5924 <sk_store_f32_vfp4+0x34>
+ .long 0xeafffff1 // b 5934 <sk_store_f32_vfp4+0x34>
HIDDEN _sk_clamp_x_vfp4
.globl _sk_clamp_x_vfp4
@@ -6964,7 +6968,7 @@ _sk_gradient_vfp4:
.long 0xf2c00050 // vmov.i32 q8, #0
.long 0xe5931000 // ldr r1, [r3]
.long 0xe3510002 // cmp r1, #2
- .long 0x3a00000a // bcc 629c <sk_gradient_vfp4+0x5c>
+ .long 0x3a00000a // bcc 62ac <sk_gradient_vfp4+0x5c>
.long 0xe5932024 // ldr r2, [r3, #36]
.long 0xf2c04051 // vmov.i32 q10, #1
.long 0xf2c00050 // vmov.i32 q8, #0
@@ -6975,7 +6979,7 @@ _sk_gradient_vfp4:
.long 0xf3468ee8 // vcge.f32 q12, q11, q12
.long 0xf35481f2 // vbsl q12, q10, q9
.long 0xf26808e0 // vadd.i32 q8, q12, q8
- .long 0x1afffff9 // bne 6284 <sk_gradient_vfp4+0x44>
+ .long 0x1afffff9 // bne 6294 <sk_gradient_vfp4+0x44>
.long 0xee315b90 // vmov.32 r5, d17[1]
.long 0xe5937010 // ldr r7, [r3, #16]
.long 0xee112b90 // vmov.32 r2, d17[0]
@@ -8116,7 +8120,7 @@ _sk_clut_3D_vfp4:
.long 0xee1e2b10 // vmov.32 r2, d14[0]
.long 0xf2660d40 // vsub.f32 q8, q3, q0
.long 0xf2000cf4 // vfma.f32 q0, q8, q10
- .long 0xea000003 // b 72a0 <sk_clut_3D_vfp4+0x500>
+ .long 0xea000003 // b 72b0 <sk_clut_3D_vfp4+0x500>
.long 0x3f7ff972 // .word 0x3f7ff972
.long 0x3f7ff972 // .word 0x3f7ff972
.long 0x3f7ff972 // .word 0x3f7ff972
@@ -8621,7 +8625,7 @@ _sk_clut_4D_vfp4:
.long 0xf20c0cdc // vfma.f32 q0, q14, q6
.long 0xf260cd4e // vsub.f32 q14, q0, q7
.long 0xf20cecfe // vfma.f32 q7, q14, q15
- .long 0xea000003 // b 7a70 <sk_clut_4D_vfp4+0x548>
+ .long 0xea000003 // b 7a80 <sk_clut_4D_vfp4+0x548>
.long 0x3f7ff972 // .word 0x3f7ff972
.long 0x3f7ff972 // .word 0x3f7ff972
.long 0x3f7ff972 // .word 0x3f7ff972
@@ -9284,53 +9288,44 @@ _sk_start_pipeline_hsw:
.byte 65,85 // push %r13
.byte 65,84 // push %r12
.byte 83 // push %rbx
- .byte 72,131,236,40 // sub $0x28,%rsp
- .byte 72,137,211 // mov %rdx,%rbx
- .byte 73,137,246 // mov %rsi,%r14
+ .byte 72,131,236,24 // sub $0x18,%rsp
+ .byte 73,137,215 // mov %rdx,%r15
+ .byte 72,137,243 // mov %rsi,%rbx
.byte 72,137,125,208 // mov %rdi,-0x30(%rbp)
.byte 76,137,198 // mov %r8,%rsi
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 72,137,194 // mov %rax,%rdx
- .byte 72,137,77,176 // mov %rcx,-0x50(%rbp)
- .byte 73,57,206 // cmp %rcx,%r14
- .byte 115,117 // jae a1 <_sk_start_pipeline_hsw+0xa1>
+ .byte 73,137,197 // mov %rax,%r13
+ .byte 73,137,246 // mov %rsi,%r14
+ .byte 72,137,77,192 // mov %rcx,-0x40(%rbp)
+ .byte 72,57,203 // cmp %rcx,%rbx
+ .byte 115,83 // jae 82 <_sk_start_pipeline_hsw+0x82>
.byte 72,139,69,208 // mov -0x30(%rbp),%rax
.byte 72,141,64,8 // lea 0x8(%rax),%rax
- .byte 72,137,69,184 // mov %rax,-0x48(%rbp)
- .byte 76,137,77,192 // mov %r9,-0x40(%rbp)
- .byte 72,137,85,200 // mov %rdx,-0x38(%rbp)
- .byte 73,137,221 // mov %rbx,%r13
- .byte 73,137,244 // mov %rsi,%r12
+ .byte 72,137,69,200 // mov %rax,-0x38(%rbp)
.byte 72,139,85,208 // mov -0x30(%rbp),%rdx
- .byte 72,57,93,184 // cmp %rbx,-0x48(%rbp)
- .byte 119,45 // ja 7d <_sk_start_pipeline_hsw+0x7d>
- .byte 76,139,125,208 // mov -0x30(%rbp),%r15
- .byte 69,49,192 // xor %r8d,%r8d
- .byte 76,137,207 // mov %r9,%rdi
- .byte 76,137,230 // mov %r12,%rsi
- .byte 76,137,250 // mov %r15,%rdx
- .byte 76,137,241 // mov %r14,%rcx
- .byte 255,85,200 // callq *-0x38(%rbp)
- .byte 76,137,235 // mov %r13,%rbx
- .byte 76,139,77,192 // mov -0x40(%rbp),%r9
- .byte 73,141,87,8 // lea 0x8(%r15),%rdx
- .byte 73,131,199,16 // add $0x10,%r15
- .byte 73,57,223 // cmp %rbx,%r15
- .byte 73,137,215 // mov %rdx,%r15
- .byte 118,215 // jbe 54 <_sk_start_pipeline_hsw+0x54>
- .byte 73,137,216 // mov %rbx,%r8
- .byte 73,41,208 // sub %rdx,%r8
- .byte 116,19 // je 98 <_sk_start_pipeline_hsw+0x98>
- .byte 76,137,207 // mov %r9,%rdi
- .byte 76,137,230 // mov %r12,%rsi
- .byte 76,137,241 // mov %r14,%rcx
- .byte 255,85,200 // callq *-0x38(%rbp)
- .byte 76,137,235 // mov %r13,%rbx
- .byte 76,139,77,192 // mov -0x40(%rbp),%r9
- .byte 73,255,198 // inc %r14
- .byte 76,59,117,176 // cmp -0x50(%rbp),%r14
- .byte 117,165 // jne 46 <_sk_start_pipeline_hsw+0x46>
- .byte 72,131,196,40 // add $0x28,%rsp
+ .byte 76,57,125,200 // cmp %r15,-0x38(%rbp)
+ .byte 119,35 // ja 68 <_sk_start_pipeline_hsw+0x68>
+ .byte 76,139,101,208 // mov -0x30(%rbp),%r12
+ .byte 49,255 // xor %edi,%edi
+ .byte 76,137,246 // mov %r14,%rsi
+ .byte 76,137,226 // mov %r12,%rdx
+ .byte 72,137,217 // mov %rbx,%rcx
+ .byte 65,255,213 // callq *%r13
+ .byte 73,141,84,36,8 // lea 0x8(%r12),%rdx
+ .byte 73,131,196,16 // add $0x10,%r12
+ .byte 77,57,252 // cmp %r15,%r12
+ .byte 73,137,212 // mov %rdx,%r12
+ .byte 118,225 // jbe 49 <_sk_start_pipeline_hsw+0x49>
+ .byte 76,137,255 // mov %r15,%rdi
+ .byte 72,41,215 // sub %rdx,%rdi
+ .byte 116,9 // je 79 <_sk_start_pipeline_hsw+0x79>
+ .byte 76,137,246 // mov %r14,%rsi
+ .byte 72,137,217 // mov %rbx,%rcx
+ .byte 65,255,213 // callq *%r13
+ .byte 72,255,195 // inc %rbx
+ .byte 72,59,93,192 // cmp -0x40(%rbp),%rbx
+ .byte 117,185 // jne 3b <_sk_start_pipeline_hsw+0x3b>
+ .byte 72,131,196,24 // add $0x18,%rsp
.byte 91 // pop %rbx
.byte 65,92 // pop %r12
.byte 65,93 // pop %r13
@@ -9353,15 +9348,15 @@ _sk_seed_shader_hsw:
.byte 197,249,110,194 // vmovd %edx,%xmm0
.byte 196,226,125,88,192 // vpbroadcastd %xmm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,90,184,2,0 // vbroadcastss 0x2b85a(%rip),%ymm1 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,226,125,24,13,49,184,2,0 // vbroadcastss 0x2b831(%rip),%ymm1 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,252,88,193 // vaddps %ymm1,%ymm0,%ymm0
- .byte 197,252,88,7 // vaddps (%rdi),%ymm0,%ymm0
+ .byte 197,252,88,5,201,185,2,0 // vaddps 0x2b9c9(%rip),%ymm0,%ymm0 # 2ba80 <_sk_overlay_sse2_8bit+0x5e3>
.byte 197,249,110,209 // vmovd %ecx,%xmm2
.byte 196,226,125,88,210 // vpbroadcastd %xmm2,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
.byte 197,236,88,201 // vaddps %ymm1,%ymm2,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,21,58,184,2,0 // vbroadcastss 0x2b83a(%rip),%ymm2 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,21,13,184,2,0 // vbroadcastss 0x2b80d(%rip),%ymm2 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,228,87,219 // vxorps %ymm3,%ymm3,%ymm3
.byte 197,220,87,228 // vxorps %ymm4,%ymm4,%ymm4
.byte 197,212,87,237 // vxorps %ymm5,%ymm5,%ymm5
@@ -9376,17 +9371,17 @@ _sk_dither_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,121,110,194 // vmovd %edx,%xmm8
.byte 196,66,125,88,192 // vpbroadcastd %xmm8,%ymm8
- .byte 197,61,254,71,32 // vpaddd 0x20(%rdi),%ymm8,%ymm8
+ .byte 197,61,254,5,164,185,2,0 // vpaddd 0x2b9a4(%rip),%ymm8,%ymm8 # 2baa0 <_sk_overlay_sse2_8bit+0x603>
.byte 197,121,110,201 // vmovd %ecx,%xmm9
.byte 196,66,125,88,201 // vpbroadcastd %xmm9,%ymm9
.byte 196,65,53,239,200 // vpxor %ymm8,%ymm9,%ymm9
- .byte 196,98,125,88,21,1,184,2,0 // vpbroadcastd 0x2b801(%rip),%ymm10 # 2b92c <_sk_overlay_sse2_8bit+0x447>
+ .byte 196,98,125,88,21,209,183,2,0 // vpbroadcastd 0x2b7d1(%rip),%ymm10 # 2b8e4 <_sk_overlay_sse2_8bit+0x447>
.byte 196,65,53,219,218 // vpand %ymm10,%ymm9,%ymm11
.byte 196,193,37,114,243,5 // vpslld $0x5,%ymm11,%ymm11
.byte 196,65,61,219,210 // vpand %ymm10,%ymm8,%ymm10
.byte 196,193,45,114,242,4 // vpslld $0x4,%ymm10,%ymm10
- .byte 196,98,125,88,37,230,183,2,0 // vpbroadcastd 0x2b7e6(%rip),%ymm12 # 2b930 <_sk_overlay_sse2_8bit+0x44b>
- .byte 196,98,125,88,45,225,183,2,0 // vpbroadcastd 0x2b7e1(%rip),%ymm13 # 2b934 <_sk_overlay_sse2_8bit+0x44f>
+ .byte 196,98,125,88,37,182,183,2,0 // vpbroadcastd 0x2b7b6(%rip),%ymm12 # 2b8e8 <_sk_overlay_sse2_8bit+0x44b>
+ .byte 196,98,125,88,45,177,183,2,0 // vpbroadcastd 0x2b7b1(%rip),%ymm13 # 2b8ec <_sk_overlay_sse2_8bit+0x44f>
.byte 196,65,53,219,245 // vpand %ymm13,%ymm9,%ymm14
.byte 196,193,13,114,246,2 // vpslld $0x2,%ymm14,%ymm14
.byte 196,65,61,219,237 // vpand %ymm13,%ymm8,%ymm13
@@ -9401,11 +9396,11 @@ _sk_dither_hsw:
.byte 196,65,61,235,194 // vpor %ymm10,%ymm8,%ymm8
.byte 196,65,61,235,193 // vpor %ymm9,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
- .byte 196,98,125,24,13,147,183,2,0 // vbroadcastss 0x2b793(%rip),%ymm9 # 2b938 <_sk_overlay_sse2_8bit+0x453>
- .byte 196,98,125,24,21,142,183,2,0 // vbroadcastss 0x2b78e(%rip),%ymm10 # 2b93c <_sk_overlay_sse2_8bit+0x457>
+ .byte 196,98,125,24,13,99,183,2,0 // vbroadcastss 0x2b763(%rip),%ymm9 # 2b8f0 <_sk_overlay_sse2_8bit+0x453>
+ .byte 196,98,125,24,21,94,183,2,0 // vbroadcastss 0x2b75e(%rip),%ymm10 # 2b8f4 <_sk_overlay_sse2_8bit+0x457>
.byte 196,66,61,184,209 // vfmadd231ps %ymm9,%ymm8,%ymm10
.byte 196,98,125,24,0 // vbroadcastss (%rax),%ymm8
- .byte 196,65,60,89,194 // vmulps %ymm10,%ymm8,%ymm8
+ .byte 196,65,44,89,192 // vmulps %ymm8,%ymm10,%ymm8
.byte 197,188,88,192 // vaddps %ymm0,%ymm8,%ymm0
.byte 197,188,88,201 // vaddps %ymm1,%ymm8,%ymm1
.byte 197,188,88,210 // vaddps %ymm2,%ymm8,%ymm2
@@ -9436,7 +9431,7 @@ HIDDEN _sk_black_color_hsw
FUNCTION(_sk_black_color_hsw)
_sk_black_color_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,22,183,2,0 // vbroadcastss 0x2b716(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,230,182,2,0 // vbroadcastss 0x2b6e6(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,87,192 // vxorps %ymm0,%ymm0,%ymm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 197,236,87,210 // vxorps %ymm2,%ymm2,%ymm2
@@ -9447,7 +9442,7 @@ HIDDEN _sk_white_color_hsw
FUNCTION(_sk_white_color_hsw)
_sk_white_color_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,253,182,2,0 // vbroadcastss 0x2b6fd(%rip),%ymm0 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,5,205,182,2,0 // vbroadcastss 0x2b6cd(%rip),%ymm0 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,40,200 // vmovaps %ymm0,%ymm1
.byte 197,252,40,208 // vmovaps %ymm0,%ymm2
.byte 197,252,40,216 // vmovaps %ymm0,%ymm3
@@ -9493,7 +9488,7 @@ HIDDEN _sk_srcatop_hsw
FUNCTION(_sk_srcatop_hsw)
_sk_srcatop_hsw:
.byte 197,252,89,199 // vmulps %ymm7,%ymm0,%ymm0
- .byte 196,98,125,24,5,156,182,2,0 // vbroadcastss 0x2b69c(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,108,182,2,0 // vbroadcastss 0x2b66c(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 196,226,61,184,196 // vfmadd231ps %ymm4,%ymm8,%ymm0
.byte 197,244,89,207 // vmulps %ymm7,%ymm1,%ymm1
@@ -9509,7 +9504,7 @@ HIDDEN _sk_dstatop_hsw
.globl _sk_dstatop_hsw
FUNCTION(_sk_dstatop_hsw)
_sk_dstatop_hsw:
- .byte 196,98,125,24,5,107,182,2,0 // vbroadcastss 0x2b66b(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,59,182,2,0 // vbroadcastss 0x2b63b(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,199 // vsubps %ymm7,%ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 196,226,101,184,196 // vfmadd231ps %ymm4,%ymm3,%ymm0
@@ -9548,7 +9543,7 @@ HIDDEN _sk_srcout_hsw
.globl _sk_srcout_hsw
FUNCTION(_sk_srcout_hsw)
_sk_srcout_hsw:
- .byte 196,98,125,24,5,14,182,2,0 // vbroadcastss 0x2b60e(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,222,181,2,0 // vbroadcastss 0x2b5de(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,199 // vsubps %ymm7,%ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
@@ -9561,7 +9556,7 @@ HIDDEN _sk_dstout_hsw
.globl _sk_dstout_hsw
FUNCTION(_sk_dstout_hsw)
_sk_dstout_hsw:
- .byte 196,226,125,24,5,237,181,2,0 // vbroadcastss 0x2b5ed(%rip),%ymm0 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,5,189,181,2,0 // vbroadcastss 0x2b5bd(%rip),%ymm0 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,92,219 // vsubps %ymm3,%ymm0,%ymm3
.byte 197,228,89,196 // vmulps %ymm4,%ymm3,%ymm0
.byte 197,228,89,205 // vmulps %ymm5,%ymm3,%ymm1
@@ -9574,7 +9569,7 @@ HIDDEN _sk_srcover_hsw
.globl _sk_srcover_hsw
FUNCTION(_sk_srcover_hsw)
_sk_srcover_hsw:
- .byte 196,98,125,24,5,204,181,2,0 // vbroadcastss 0x2b5cc(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,156,181,2,0 // vbroadcastss 0x2b59c(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 196,194,93,184,192 // vfmadd231ps %ymm8,%ymm4,%ymm0
.byte 196,194,85,184,200 // vfmadd231ps %ymm8,%ymm5,%ymm1
@@ -9587,7 +9582,7 @@ HIDDEN _sk_dstover_hsw
.globl _sk_dstover_hsw
FUNCTION(_sk_dstover_hsw)
_sk_dstover_hsw:
- .byte 196,98,125,24,5,167,181,2,0 // vbroadcastss 0x2b5a7(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,119,181,2,0 // vbroadcastss 0x2b577(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,199 // vsubps %ymm7,%ymm8,%ymm8
.byte 196,226,61,168,196 // vfmadd213ps %ymm4,%ymm8,%ymm0
.byte 196,226,61,168,205 // vfmadd213ps %ymm5,%ymm8,%ymm1
@@ -9611,7 +9606,7 @@ HIDDEN _sk_multiply_hsw
.globl _sk_multiply_hsw
FUNCTION(_sk_multiply_hsw)
_sk_multiply_hsw:
- .byte 196,98,125,24,5,110,181,2,0 // vbroadcastss 0x2b56e(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,62,181,2,0 // vbroadcastss 0x2b53e(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,207 // vsubps %ymm7,%ymm8,%ymm9
.byte 197,52,89,208 // vmulps %ymm0,%ymm9,%ymm10
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
@@ -9634,7 +9629,7 @@ HIDDEN _sk_plus__hsw
FUNCTION(_sk_plus__hsw)
_sk_plus__hsw:
.byte 197,252,88,196 // vaddps %ymm4,%ymm0,%ymm0
- .byte 196,98,125,24,5,29,181,2,0 // vbroadcastss 0x2b51d(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,237,180,2,0 // vbroadcastss 0x2b4ed(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,124,93,192 // vminps %ymm8,%ymm0,%ymm0
.byte 197,244,88,205 // vaddps %ymm5,%ymm1,%ymm1
.byte 196,193,116,93,200 // vminps %ymm8,%ymm1,%ymm1
@@ -9664,7 +9659,7 @@ HIDDEN _sk_xor__hsw
.globl _sk_xor__hsw
FUNCTION(_sk_xor__hsw)
_sk_xor__hsw:
- .byte 196,98,125,24,5,200,180,2,0 // vbroadcastss 0x2b4c8(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,152,180,2,0 // vbroadcastss 0x2b498(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,207 // vsubps %ymm7,%ymm8,%ymm9
.byte 197,180,89,192 // vmulps %ymm0,%ymm9,%ymm0
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
@@ -9698,7 +9693,7 @@ _sk_darken_hsw:
.byte 197,100,89,206 // vmulps %ymm6,%ymm3,%ymm9
.byte 196,193,108,95,209 // vmaxps %ymm9,%ymm2,%ymm2
.byte 197,188,92,210 // vsubps %ymm2,%ymm8,%ymm2
- .byte 196,98,125,24,5,76,180,2,0 // vbroadcastss 0x2b44c(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,28,180,2,0 // vbroadcastss 0x2b41c(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 196,194,69,184,216 // vfmadd231ps %ymm8,%ymm7,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -9723,7 +9718,7 @@ _sk_lighten_hsw:
.byte 197,100,89,206 // vmulps %ymm6,%ymm3,%ymm9
.byte 196,193,108,93,209 // vminps %ymm9,%ymm2,%ymm2
.byte 197,188,92,210 // vsubps %ymm2,%ymm8,%ymm2
- .byte 196,98,125,24,5,247,179,2,0 // vbroadcastss 0x2b3f7(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,199,179,2,0 // vbroadcastss 0x2b3c7(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 196,194,69,184,216 // vfmadd231ps %ymm8,%ymm7,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -9751,7 +9746,7 @@ _sk_difference_hsw:
.byte 196,193,108,93,209 // vminps %ymm9,%ymm2,%ymm2
.byte 197,236,88,210 // vaddps %ymm2,%ymm2,%ymm2
.byte 197,188,92,210 // vsubps %ymm2,%ymm8,%ymm2
- .byte 196,98,125,24,5,150,179,2,0 // vbroadcastss 0x2b396(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,102,179,2,0 // vbroadcastss 0x2b366(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 196,194,69,184,216 // vfmadd231ps %ymm8,%ymm7,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -9773,7 +9768,7 @@ _sk_exclusion_hsw:
.byte 197,236,89,214 // vmulps %ymm6,%ymm2,%ymm2
.byte 197,236,88,210 // vaddps %ymm2,%ymm2,%ymm2
.byte 197,188,92,210 // vsubps %ymm2,%ymm8,%ymm2
- .byte 196,98,125,24,5,80,179,2,0 // vbroadcastss 0x2b350(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,32,179,2,0 // vbroadcastss 0x2b320(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 196,194,69,184,216 // vfmadd231ps %ymm8,%ymm7,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -9783,7 +9778,7 @@ HIDDEN _sk_colorburn_hsw
.globl _sk_colorburn_hsw
FUNCTION(_sk_colorburn_hsw)
_sk_colorburn_hsw:
- .byte 196,98,125,24,5,58,179,2,0 // vbroadcastss 0x2b33a(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,10,179,2,0 // vbroadcastss 0x2b30a(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,207 // vsubps %ymm7,%ymm8,%ymm9
.byte 197,52,89,216 // vmulps %ymm0,%ymm9,%ymm11
.byte 196,65,44,87,210 // vxorps %ymm10,%ymm10,%ymm10
@@ -9841,7 +9836,7 @@ HIDDEN _sk_colordodge_hsw
FUNCTION(_sk_colordodge_hsw)
_sk_colordodge_hsw:
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
- .byte 196,98,125,24,13,74,178,2,0 // vbroadcastss 0x2b24a(%rip),%ymm9 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,13,26,178,2,0 // vbroadcastss 0x2b21a(%rip),%ymm9 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,52,92,215 // vsubps %ymm7,%ymm9,%ymm10
.byte 197,44,89,216 // vmulps %ymm0,%ymm10,%ymm11
.byte 197,52,92,203 // vsubps %ymm3,%ymm9,%ymm9
@@ -9894,7 +9889,7 @@ HIDDEN _sk_hardlight_hsw
.globl _sk_hardlight_hsw
FUNCTION(_sk_hardlight_hsw)
_sk_hardlight_hsw:
- .byte 196,98,125,24,5,100,177,2,0 // vbroadcastss 0x2b164(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,52,177,2,0 // vbroadcastss 0x2b134(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,215 // vsubps %ymm7,%ymm8,%ymm10
.byte 197,44,89,216 // vmulps %ymm0,%ymm10,%ymm11
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
@@ -9945,7 +9940,7 @@ HIDDEN _sk_overlay_hsw
.globl _sk_overlay_hsw
FUNCTION(_sk_overlay_hsw)
_sk_overlay_hsw:
- .byte 196,98,125,24,5,152,176,2,0 // vbroadcastss 0x2b098(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,104,176,2,0 // vbroadcastss 0x2b068(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,215 // vsubps %ymm7,%ymm8,%ymm10
.byte 197,44,89,216 // vmulps %ymm0,%ymm10,%ymm11
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
@@ -10006,10 +10001,10 @@ _sk_softlight_hsw:
.byte 196,65,20,88,197 // vaddps %ymm13,%ymm13,%ymm8
.byte 196,65,60,88,192 // vaddps %ymm8,%ymm8,%ymm8
.byte 196,66,61,168,192 // vfmadd213ps %ymm8,%ymm8,%ymm8
- .byte 196,98,125,24,29,179,175,2,0 // vbroadcastss 0x2afb3(%rip),%ymm11 # 2b940 <_sk_overlay_sse2_8bit+0x45b>
+ .byte 196,98,125,24,29,131,175,2,0 // vbroadcastss 0x2af83(%rip),%ymm11 # 2b8f8 <_sk_overlay_sse2_8bit+0x45b>
.byte 196,65,20,88,227 // vaddps %ymm11,%ymm13,%ymm12
.byte 196,65,28,89,192 // vmulps %ymm8,%ymm12,%ymm8
- .byte 196,98,125,24,37,164,175,2,0 // vbroadcastss 0x2afa4(%rip),%ymm12 # 2b944 <_sk_overlay_sse2_8bit+0x45f>
+ .byte 196,98,125,24,37,116,175,2,0 // vbroadcastss 0x2af74(%rip),%ymm12 # 2b8fc <_sk_overlay_sse2_8bit+0x45f>
.byte 196,66,21,184,196 // vfmadd231ps %ymm12,%ymm13,%ymm8
.byte 196,65,124,82,245 // vrsqrtps %ymm13,%ymm14
.byte 196,65,124,83,246 // vrcpps %ymm14,%ymm14
@@ -10019,7 +10014,7 @@ _sk_softlight_hsw:
.byte 197,4,194,255,2 // vcmpleps %ymm7,%ymm15,%ymm15
.byte 196,67,13,74,240,240 // vblendvps %ymm15,%ymm8,%ymm14,%ymm14
.byte 197,116,88,249 // vaddps %ymm1,%ymm1,%ymm15
- .byte 196,98,125,24,5,83,175,2,0 // vbroadcastss 0x2af53(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,35,175,2,0 // vbroadcastss 0x2af23(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,65,60,92,237 // vsubps %ymm13,%ymm8,%ymm13
.byte 197,132,92,195 // vsubps %ymm3,%ymm15,%ymm0
.byte 196,98,125,168,235 // vfmadd213ps %ymm3,%ymm0,%ymm13
@@ -10132,11 +10127,11 @@ _sk_hue_hsw:
.byte 196,65,28,89,210 // vmulps %ymm10,%ymm12,%ymm10
.byte 196,65,44,94,214 // vdivps %ymm14,%ymm10,%ymm10
.byte 196,67,45,74,224,240 // vblendvps %ymm15,%ymm8,%ymm10,%ymm12
- .byte 196,98,125,24,53,107,173,2,0 // vbroadcastss 0x2ad6b(%rip),%ymm14 # 2b948 <_sk_overlay_sse2_8bit+0x463>
- .byte 196,98,125,24,61,102,173,2,0 // vbroadcastss 0x2ad66(%rip),%ymm15 # 2b94c <_sk_overlay_sse2_8bit+0x467>
+ .byte 196,98,125,24,53,59,173,2,0 // vbroadcastss 0x2ad3b(%rip),%ymm14 # 2b900 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,61,54,173,2,0 // vbroadcastss 0x2ad36(%rip),%ymm15 # 2b904 <_sk_overlay_sse2_8bit+0x467>
.byte 196,65,84,89,239 // vmulps %ymm15,%ymm5,%ymm13
.byte 196,66,93,184,238 // vfmadd231ps %ymm14,%ymm4,%ymm13
- .byte 196,226,125,24,5,87,173,2,0 // vbroadcastss 0x2ad57(%rip),%ymm0 # 2b950 <_sk_overlay_sse2_8bit+0x46b>
+ .byte 196,226,125,24,5,39,173,2,0 // vbroadcastss 0x2ad27(%rip),%ymm0 # 2b908 <_sk_overlay_sse2_8bit+0x46b>
.byte 196,98,77,184,232 // vfmadd231ps %ymm0,%ymm6,%ymm13
.byte 196,65,116,89,215 // vmulps %ymm15,%ymm1,%ymm10
.byte 196,66,53,184,214 // vfmadd231ps %ymm14,%ymm9,%ymm10
@@ -10191,7 +10186,7 @@ _sk_hue_hsw:
.byte 196,193,124,95,192 // vmaxps %ymm8,%ymm0,%ymm0
.byte 196,65,36,95,200 // vmaxps %ymm8,%ymm11,%ymm9
.byte 196,65,116,95,192 // vmaxps %ymm8,%ymm1,%ymm8
- .byte 196,226,125,24,13,24,172,2,0 // vbroadcastss 0x2ac18(%rip),%ymm1 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,13,232,171,2,0 // vbroadcastss 0x2abe8(%rip),%ymm1 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,116,92,215 // vsubps %ymm7,%ymm1,%ymm10
.byte 197,172,89,210 // vmulps %ymm2,%ymm10,%ymm2
.byte 197,116,92,219 // vsubps %ymm3,%ymm1,%ymm11
@@ -10245,11 +10240,11 @@ _sk_saturation_hsw:
.byte 196,65,28,89,210 // vmulps %ymm10,%ymm12,%ymm10
.byte 196,65,44,94,214 // vdivps %ymm14,%ymm10,%ymm10
.byte 196,67,45,74,224,240 // vblendvps %ymm15,%ymm8,%ymm10,%ymm12
- .byte 196,98,125,24,53,75,171,2,0 // vbroadcastss 0x2ab4b(%rip),%ymm14 # 2b948 <_sk_overlay_sse2_8bit+0x463>
- .byte 196,98,125,24,61,70,171,2,0 // vbroadcastss 0x2ab46(%rip),%ymm15 # 2b94c <_sk_overlay_sse2_8bit+0x467>
+ .byte 196,98,125,24,53,27,171,2,0 // vbroadcastss 0x2ab1b(%rip),%ymm14 # 2b900 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,61,22,171,2,0 // vbroadcastss 0x2ab16(%rip),%ymm15 # 2b904 <_sk_overlay_sse2_8bit+0x467>
.byte 196,65,84,89,239 // vmulps %ymm15,%ymm5,%ymm13
.byte 196,66,93,184,238 // vfmadd231ps %ymm14,%ymm4,%ymm13
- .byte 196,226,125,24,5,55,171,2,0 // vbroadcastss 0x2ab37(%rip),%ymm0 # 2b950 <_sk_overlay_sse2_8bit+0x46b>
+ .byte 196,226,125,24,5,7,171,2,0 // vbroadcastss 0x2ab07(%rip),%ymm0 # 2b908 <_sk_overlay_sse2_8bit+0x46b>
.byte 196,98,77,184,232 // vfmadd231ps %ymm0,%ymm6,%ymm13
.byte 196,65,116,89,215 // vmulps %ymm15,%ymm1,%ymm10
.byte 196,66,53,184,214 // vfmadd231ps %ymm14,%ymm9,%ymm10
@@ -10304,7 +10299,7 @@ _sk_saturation_hsw:
.byte 196,193,124,95,192 // vmaxps %ymm8,%ymm0,%ymm0
.byte 196,65,36,95,200 // vmaxps %ymm8,%ymm11,%ymm9
.byte 196,65,116,95,192 // vmaxps %ymm8,%ymm1,%ymm8
- .byte 196,226,125,24,13,248,169,2,0 // vbroadcastss 0x2a9f8(%rip),%ymm1 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,13,200,169,2,0 // vbroadcastss 0x2a9c8(%rip),%ymm1 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,116,92,215 // vsubps %ymm7,%ymm1,%ymm10
.byte 197,172,89,210 // vmulps %ymm2,%ymm10,%ymm2
.byte 197,116,92,219 // vsubps %ymm3,%ymm1,%ymm11
@@ -10332,11 +10327,11 @@ _sk_color_hsw:
.byte 197,108,89,199 // vmulps %ymm7,%ymm2,%ymm8
.byte 197,116,89,215 // vmulps %ymm7,%ymm1,%ymm10
.byte 197,52,89,223 // vmulps %ymm7,%ymm9,%ymm11
- .byte 196,98,125,24,45,173,169,2,0 // vbroadcastss 0x2a9ad(%rip),%ymm13 # 2b948 <_sk_overlay_sse2_8bit+0x463>
- .byte 196,98,125,24,53,168,169,2,0 // vbroadcastss 0x2a9a8(%rip),%ymm14 # 2b94c <_sk_overlay_sse2_8bit+0x467>
+ .byte 196,98,125,24,45,125,169,2,0 // vbroadcastss 0x2a97d(%rip),%ymm13 # 2b900 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,53,120,169,2,0 // vbroadcastss 0x2a978(%rip),%ymm14 # 2b904 <_sk_overlay_sse2_8bit+0x467>
.byte 196,65,84,89,230 // vmulps %ymm14,%ymm5,%ymm12
.byte 196,66,93,184,229 // vfmadd231ps %ymm13,%ymm4,%ymm12
- .byte 196,98,125,24,61,153,169,2,0 // vbroadcastss 0x2a999(%rip),%ymm15 # 2b950 <_sk_overlay_sse2_8bit+0x46b>
+ .byte 196,98,125,24,61,105,169,2,0 // vbroadcastss 0x2a969(%rip),%ymm15 # 2b908 <_sk_overlay_sse2_8bit+0x46b>
.byte 196,66,77,184,231 // vfmadd231ps %ymm15,%ymm6,%ymm12
.byte 196,65,44,89,206 // vmulps %ymm14,%ymm10,%ymm9
.byte 196,66,61,184,205 // vfmadd231ps %ymm13,%ymm8,%ymm9
@@ -10392,7 +10387,7 @@ _sk_color_hsw:
.byte 196,193,116,95,206 // vmaxps %ymm14,%ymm1,%ymm1
.byte 196,65,44,95,198 // vmaxps %ymm14,%ymm10,%ymm8
.byte 196,65,124,95,206 // vmaxps %ymm14,%ymm0,%ymm9
- .byte 196,226,125,24,5,79,168,2,0 // vbroadcastss 0x2a84f(%rip),%ymm0 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,5,31,168,2,0 // vbroadcastss 0x2a81f(%rip),%ymm0 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,124,92,215 // vsubps %ymm7,%ymm0,%ymm10
.byte 197,172,89,210 // vmulps %ymm2,%ymm10,%ymm2
.byte 197,124,92,219 // vsubps %ymm3,%ymm0,%ymm11
@@ -10420,11 +10415,11 @@ _sk_luminosity_hsw:
.byte 197,100,89,196 // vmulps %ymm4,%ymm3,%ymm8
.byte 197,100,89,213 // vmulps %ymm5,%ymm3,%ymm10
.byte 197,100,89,222 // vmulps %ymm6,%ymm3,%ymm11
- .byte 196,98,125,24,45,4,168,2,0 // vbroadcastss 0x2a804(%rip),%ymm13 # 2b948 <_sk_overlay_sse2_8bit+0x463>
- .byte 196,98,125,24,53,255,167,2,0 // vbroadcastss 0x2a7ff(%rip),%ymm14 # 2b94c <_sk_overlay_sse2_8bit+0x467>
+ .byte 196,98,125,24,45,212,167,2,0 // vbroadcastss 0x2a7d4(%rip),%ymm13 # 2b900 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,53,207,167,2,0 // vbroadcastss 0x2a7cf(%rip),%ymm14 # 2b904 <_sk_overlay_sse2_8bit+0x467>
.byte 196,65,116,89,230 // vmulps %ymm14,%ymm1,%ymm12
.byte 196,66,109,184,229 // vfmadd231ps %ymm13,%ymm2,%ymm12
- .byte 196,98,125,24,61,240,167,2,0 // vbroadcastss 0x2a7f0(%rip),%ymm15 # 2b950 <_sk_overlay_sse2_8bit+0x46b>
+ .byte 196,98,125,24,61,192,167,2,0 // vbroadcastss 0x2a7c0(%rip),%ymm15 # 2b908 <_sk_overlay_sse2_8bit+0x46b>
.byte 196,66,53,184,231 // vfmadd231ps %ymm15,%ymm9,%ymm12
.byte 196,65,44,89,206 // vmulps %ymm14,%ymm10,%ymm9
.byte 196,66,61,184,205 // vfmadd231ps %ymm13,%ymm8,%ymm9
@@ -10480,7 +10475,7 @@ _sk_luminosity_hsw:
.byte 196,193,116,95,206 // vmaxps %ymm14,%ymm1,%ymm1
.byte 196,65,44,95,198 // vmaxps %ymm14,%ymm10,%ymm8
.byte 196,65,124,95,206 // vmaxps %ymm14,%ymm0,%ymm9
- .byte 196,226,125,24,5,166,166,2,0 // vbroadcastss 0x2a6a6(%rip),%ymm0 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,5,118,166,2,0 // vbroadcastss 0x2a676(%rip),%ymm0 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,124,92,215 // vsubps %ymm7,%ymm0,%ymm10
.byte 197,172,89,210 // vmulps %ymm2,%ymm10,%ymm2
.byte 197,124,92,219 // vsubps %ymm3,%ymm0,%ymm11
@@ -10501,28 +10496,27 @@ HIDDEN _sk_srcover_rgba_8888_hsw
.globl _sk_srcover_rgba_8888_hsw
FUNCTION(_sk_srcover_rgba_8888_hsw)
_sk_srcover_rgba_8888_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,180,0,0,0 // jne 1399 <_sk_srcover_rgba_8888_hsw+0xd5>
- .byte 196,193,126,111,60,153 // vmovdqu (%r9,%rbx,4),%ymm7
- .byte 197,197,219,37,237,167,2,0 // vpand 0x2a7ed(%rip),%ymm7,%ymm4 # 2bae0 <_sk_overlay_sse2_8bit+0x5fb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,179,0,0,0 // jne 137f <_sk_srcover_rgba_8888_hsw+0xd3>
+ .byte 196,129,126,111,60,152 // vmovdqu (%r8,%r11,4),%ymm7
+ .byte 197,197,219,37,230,167,2,0 // vpand 0x2a7e6(%rip),%ymm7,%ymm4 # 2bac0 <_sk_overlay_sse2_8bit+0x623>
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,226,69,0,45,0,168,2,0 // vpshufb 0x2a800(%rip),%ymm7,%ymm5 # 2bb00 <_sk_overlay_sse2_8bit+0x61b>
+ .byte 196,226,69,0,45,249,167,2,0 // vpshufb 0x2a7f9(%rip),%ymm7,%ymm5 # 2bae0 <_sk_overlay_sse2_8bit+0x643>
.byte 197,252,91,237 // vcvtdq2ps %ymm5,%ymm5
- .byte 196,226,69,0,53,19,168,2,0 // vpshufb 0x2a813(%rip),%ymm7,%ymm6 # 2bb20 <_sk_overlay_sse2_8bit+0x63b>
+ .byte 196,226,69,0,53,12,168,2,0 // vpshufb 0x2a80c(%rip),%ymm7,%ymm6 # 2bb00 <_sk_overlay_sse2_8bit+0x663>
.byte 197,252,91,246 // vcvtdq2ps %ymm6,%ymm6
.byte 197,197,114,215,24 // vpsrld $0x18,%ymm7,%ymm7
.byte 197,252,91,255 // vcvtdq2ps %ymm7,%ymm7
- .byte 196,98,125,24,5,5,166,2,0 // vbroadcastss 0x2a605(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,214,165,2,0 // vbroadcastss 0x2a5d6(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
- .byte 196,98,125,24,13,36,166,2,0 // vbroadcastss 0x2a624(%rip),%ymm9 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 196,98,125,24,13,245,165,2,0 // vbroadcastss 0x2a5f5(%rip),%ymm9 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,193,124,89,193 // vmulps %ymm9,%ymm0,%ymm0
.byte 196,194,93,184,192 // vfmadd231ps %ymm8,%ymm4,%ymm0
.byte 196,193,116,89,201 // vmulps %ymm9,%ymm1,%ymm1
@@ -10541,96 +10535,95 @@ _sk_srcover_rgba_8888_hsw:
.byte 196,193,45,114,242,24 // vpslld $0x18,%ymm10,%ymm10
.byte 196,65,53,235,202 // vpor %ymm10,%ymm9,%ymm9
.byte 196,65,61,235,193 // vpor %ymm9,%ymm8,%ymm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,66 // jne 13d0 <_sk_srcover_rgba_8888_hsw+0x10c>
- .byte 196,65,126,127,4,153 // vmovdqu %ymm8,(%r9,%rbx,4)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,65 // jne 13b6 <_sk_srcover_rgba_8888_hsw+0x10a>
+ .byte 196,1,126,127,4,152 // vmovdqu %ymm8,(%r8,%r11,4)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,197,239,255 // vpxor %ymm7,%ymm7,%ymm7
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,58,255,255,255 // ja 12eb <_sk_srcover_rgba_8888_hsw+0x27>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,0,1,0,0 // lea 0x100(%rip),%r11 # 14bc <_sk_srcover_rgba_8888_hsw+0x1f8>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,193,121,110,60,153 // vmovd (%r9,%rbx,4),%xmm7
- .byte 233,27,255,255,255 // jmpq 12eb <_sk_srcover_rgba_8888_hsw+0x27>
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,180 // ja 1394 <_sk_srcover_rgba_8888_hsw+0xd0>
- .byte 65,15,182,194 // movzbl %r10b,%eax
- .byte 76,141,21,237,0,0,0 // lea 0xed(%rip),%r10 # 14d8 <_sk_srcover_rgba_8888_hsw+0x214>
- .byte 73,99,4,130 // movslq (%r10,%rax,4),%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,59,255,255,255 // ja 12d2 <_sk_srcover_rgba_8888_hsw+0x26>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,254,0,0,0 // lea 0xfe(%rip),%r10 # 14a0 <_sk_srcover_rgba_8888_hsw+0x1f4>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
.byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 196,65,121,126,4,153 // vmovd %xmm8,(%r9,%rbx,4)
- .byte 235,152 // jmp 1394 <_sk_srcover_rgba_8888_hsw+0xd0>
- .byte 196,193,121,110,100,153,8 // vmovd 0x8(%r9,%rbx,4),%xmm4
+ .byte 196,129,121,110,60,152 // vmovd (%r8,%r11,4),%xmm7
+ .byte 233,28,255,255,255 // jmpq 12d2 <_sk_srcover_rgba_8888_hsw+0x26>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,181 // ja 137b <_sk_srcover_rgba_8888_hsw+0xcf>
+ .byte 65,15,182,193 // movzbl %r9b,%eax
+ .byte 76,141,13,235,0,0,0 // lea 0xeb(%rip),%r9 # 14bc <_sk_srcover_rgba_8888_hsw+0x210>
+ .byte 73,99,4,129 // movslq (%r9,%rax,4),%rax
+ .byte 76,1,200 // add %r9,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,1,121,126,4,152 // vmovd %xmm8,(%r8,%r11,4)
+ .byte 235,153 // jmp 137b <_sk_srcover_rgba_8888_hsw+0xcf>
+ .byte 196,129,121,110,100,152,8 // vmovd 0x8(%r8,%r11,4),%xmm4
.byte 196,226,121,89,228 // vpbroadcastq %xmm4,%xmm4
.byte 197,213,239,237 // vpxor %ymm5,%ymm5,%ymm5
.byte 196,227,85,2,252,4 // vpblendd $0x4,%ymm4,%ymm5,%ymm7
- .byte 196,193,122,126,36,153 // vmovq (%r9,%rbx,4),%xmm4
+ .byte 196,129,122,126,36,152 // vmovq (%r8,%r11,4),%xmm4
.byte 196,227,69,2,252,3 // vpblendd $0x3,%ymm4,%ymm7,%ymm7
- .byte 233,200,254,255,255 // jmpq 12eb <_sk_srcover_rgba_8888_hsw+0x27>
- .byte 196,193,121,110,100,153,24 // vmovd 0x18(%r9,%rbx,4),%xmm4
+ .byte 233,201,254,255,255 // jmpq 12d2 <_sk_srcover_rgba_8888_hsw+0x26>
+ .byte 196,129,121,110,100,152,24 // vmovd 0x18(%r8,%r11,4),%xmm4
.byte 196,226,125,89,228 // vpbroadcastq %xmm4,%ymm4
.byte 197,213,239,237 // vpxor %ymm5,%ymm5,%ymm5
.byte 196,227,85,2,252,64 // vpblendd $0x40,%ymm4,%ymm5,%ymm7
.byte 196,227,125,57,252,1 // vextracti128 $0x1,%ymm7,%xmm4
- .byte 196,195,89,34,100,153,20,1 // vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,20,1 // vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
.byte 196,227,69,56,252,1 // vinserti128 $0x1,%xmm4,%ymm7,%ymm7
.byte 196,227,125,57,252,1 // vextracti128 $0x1,%ymm7,%xmm4
- .byte 196,195,89,34,100,153,16,0 // vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,16,0 // vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
.byte 196,227,69,56,252,1 // vinserti128 $0x1,%xmm4,%ymm7,%ymm7
- .byte 196,193,122,111,36,153 // vmovdqu (%r9,%rbx,4),%xmm4
+ .byte 196,129,122,111,36,152 // vmovdqu (%r8,%r11,4),%xmm4
.byte 196,227,93,2,255,240 // vpblendd $0xf0,%ymm7,%ymm4,%ymm7
- .byte 233,121,254,255,255 // jmpq 12eb <_sk_srcover_rgba_8888_hsw+0x27>
- .byte 196,67,121,22,68,153,8,2 // vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- .byte 196,65,121,214,4,153 // vmovq %xmm8,(%r9,%rbx,4)
- .byte 233,15,255,255,255 // jmpq 1394 <_sk_srcover_rgba_8888_hsw+0xd0>
+ .byte 233,122,254,255,255 // jmpq 12d2 <_sk_srcover_rgba_8888_hsw+0x26>
+ .byte 196,3,121,22,68,152,8,2 // vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ .byte 196,1,121,214,4,152 // vmovq %xmm8,(%r8,%r11,4)
+ .byte 233,16,255,255,255 // jmpq 137b <_sk_srcover_rgba_8888_hsw+0xcf>
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,24,2 // vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,24,2 // vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,20,1 // vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,20,1 // vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
- .byte 196,65,121,126,76,153,16 // vmovd %xmm9,0x10(%r9,%rbx,4)
- .byte 196,65,122,127,4,153 // vmovdqu %xmm8,(%r9,%rbx,4)
- .byte 233,219,254,255,255 // jmpq 1394 <_sk_srcover_rgba_8888_hsw+0xd0>
- .byte 15,31,0 // nopl (%rax)
- .byte 9,255 // or %edi,%edi
+ .byte 196,1,121,126,76,152,16 // vmovd %xmm9,0x10(%r8,%r11,4)
+ .byte 196,1,122,127,4,152 // vmovdqu %xmm8,(%r8,%r11,4)
+ .byte 233,220,254,255,255 // jmpq 137b <_sk_srcover_rgba_8888_hsw+0xcf>
+ .byte 144 // nop
+ .byte 11,255 // or %edi,%edi
.byte 255 // (bad)
- .byte 255,86,255 // callq *-0x1(%rsi)
+ .byte 255,88,255 // lcall *-0x1(%rax)
.byte 255 // (bad)
- .byte 255,64,255 // incl -0x1(%rax)
+ .byte 255,66,255 // incl -0x1(%rdx)
.byte 255 // (bad)
- .byte 255,165,255,255,255,145 // jmpq *-0x6e000001(%rbp)
+ .byte 255,167,255,255,255,147 // jmpq *-0x6c000001(%rdi)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 125,255 // jge 14d1 <_sk_srcover_rgba_8888_hsw+0x20d>
+ .byte 127,255 // jg 14b5 <_sk_srcover_rgba_8888_hsw+0x209>
.byte 255 // (bad)
- .byte 255,103,255 // jmpq *-0x1(%rdi)
+ .byte 255,105,255 // ljmp *-0x1(%rcx)
.byte 255 // (bad)
- .byte 255,28,255 // lcall *(%rdi,%rdi,8)
+ .byte 255,30 // lcall *(%rsi)
.byte 255 // (bad)
- .byte 255,162,255,255,255,154 // jmpq *-0x65000001(%rdx)
.byte 255 // (bad)
+ .byte 255,164,255,255,255,156,255 // jmpq *-0x630001(%rdi,%rdi,8)
.byte 255 // (bad)
- .byte 255,214 // callq *%rsi
.byte 255 // (bad)
+ .byte 216,255 // fdivr %st(7),%st
.byte 255 // (bad)
- .byte 255,201 // dec %ecx
+ .byte 255,203 // dec %ebx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 187,255,255,255,173 // mov $0xadffffff,%ebx
+ .byte 189,255,255,255,175 // mov $0xafffffff,%ebp
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -10651,7 +10644,7 @@ HIDDEN _sk_clamp_1_hsw
.globl _sk_clamp_1_hsw
FUNCTION(_sk_clamp_1_hsw)
_sk_clamp_1_hsw:
- .byte 196,98,125,24,5,14,164,2,0 // vbroadcastss 0x2a40e(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,226,163,2,0 // vbroadcastss 0x2a3e2(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,124,93,192 // vminps %ymm8,%ymm0,%ymm0
.byte 196,193,116,93,200 // vminps %ymm8,%ymm1,%ymm1
.byte 196,193,108,93,208 // vminps %ymm8,%ymm2,%ymm2
@@ -10663,7 +10656,7 @@ HIDDEN _sk_clamp_a_hsw
.globl _sk_clamp_a_hsw
FUNCTION(_sk_clamp_a_hsw)
_sk_clamp_a_hsw:
- .byte 196,98,125,24,5,237,163,2,0 // vbroadcastss 0x2a3ed(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,193,163,2,0 // vbroadcastss 0x2a3c1(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,100,93,216 // vminps %ymm8,%ymm3,%ymm3
.byte 197,252,93,195 // vminps %ymm3,%ymm0,%ymm0
.byte 197,244,93,203 // vminps %ymm3,%ymm1,%ymm1
@@ -10675,7 +10668,7 @@ HIDDEN _sk_clamp_a_dst_hsw
.globl _sk_clamp_a_dst_hsw
FUNCTION(_sk_clamp_a_dst_hsw)
_sk_clamp_a_dst_hsw:
- .byte 196,98,125,24,5,207,163,2,0 // vbroadcastss 0x2a3cf(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,163,163,2,0 // vbroadcastss 0x2a3a3(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,68,93,248 // vminps %ymm8,%ymm7,%ymm7
.byte 197,220,93,231 // vminps %ymm7,%ymm4,%ymm4
.byte 197,212,93,239 // vminps %ymm7,%ymm5,%ymm5
@@ -10708,7 +10701,7 @@ HIDDEN _sk_invert_hsw
.globl _sk_invert_hsw
FUNCTION(_sk_invert_hsw)
_sk_invert_hsw:
- .byte 196,98,125,24,5,138,163,2,0 // vbroadcastss 0x2a38a(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,94,163,2,0 // vbroadcastss 0x2a35e(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,188,92,192 // vsubps %ymm0,%ymm8,%ymm0
.byte 197,188,92,201 // vsubps %ymm1,%ymm8,%ymm1
.byte 197,188,92,210 // vsubps %ymm2,%ymm8,%ymm2
@@ -10764,7 +10757,7 @@ FUNCTION(_sk_unpremul_hsw)
_sk_unpremul_hsw:
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 196,65,100,194,200,0 // vcmpeqps %ymm8,%ymm3,%ymm9
- .byte 196,98,125,24,21,26,163,2,0 // vbroadcastss 0x2a31a(%rip),%ymm10 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,21,238,162,2,0 // vbroadcastss 0x2a2ee(%rip),%ymm10 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,44,94,211 // vdivps %ymm3,%ymm10,%ymm10
.byte 196,67,45,74,192,144 // vblendvps %ymm9,%ymm8,%ymm10,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
@@ -10777,16 +10770,16 @@ HIDDEN _sk_from_srgb_hsw
.globl _sk_from_srgb_hsw
FUNCTION(_sk_from_srgb_hsw)
_sk_from_srgb_hsw:
- .byte 196,98,125,24,5,39,163,2,0 // vbroadcastss 0x2a327(%rip),%ymm8 # 2b958 <_sk_overlay_sse2_8bit+0x473>
+ .byte 196,98,125,24,5,251,162,2,0 // vbroadcastss 0x2a2fb(%rip),%ymm8 # 2b910 <_sk_overlay_sse2_8bit+0x473>
.byte 196,65,124,89,200 // vmulps %ymm8,%ymm0,%ymm9
.byte 197,124,89,208 // vmulps %ymm0,%ymm0,%ymm10
- .byte 196,98,125,24,29,25,163,2,0 // vbroadcastss 0x2a319(%rip),%ymm11 # 2b95c <_sk_overlay_sse2_8bit+0x477>
- .byte 196,98,125,24,37,252,162,2,0 // vbroadcastss 0x2a2fc(%rip),%ymm12 # 2b948 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,29,237,162,2,0 // vbroadcastss 0x2a2ed(%rip),%ymm11 # 2b914 <_sk_overlay_sse2_8bit+0x477>
+ .byte 196,98,125,24,37,208,162,2,0 // vbroadcastss 0x2a2d0(%rip),%ymm12 # 2b900 <_sk_overlay_sse2_8bit+0x463>
.byte 196,65,124,40,236 // vmovaps %ymm12,%ymm13
.byte 196,66,125,168,235 // vfmadd213ps %ymm11,%ymm0,%ymm13
- .byte 196,98,125,24,53,1,163,2,0 // vbroadcastss 0x2a301(%rip),%ymm14 # 2b960 <_sk_overlay_sse2_8bit+0x47b>
+ .byte 196,98,125,24,53,213,162,2,0 // vbroadcastss 0x2a2d5(%rip),%ymm14 # 2b918 <_sk_overlay_sse2_8bit+0x47b>
.byte 196,66,45,168,238 // vfmadd213ps %ymm14,%ymm10,%ymm13
- .byte 196,98,125,24,21,247,162,2,0 // vbroadcastss 0x2a2f7(%rip),%ymm10 # 2b964 <_sk_overlay_sse2_8bit+0x47f>
+ .byte 196,98,125,24,21,203,162,2,0 // vbroadcastss 0x2a2cb(%rip),%ymm10 # 2b91c <_sk_overlay_sse2_8bit+0x47f>
.byte 196,193,124,194,194,1 // vcmpltps %ymm10,%ymm0,%ymm0
.byte 196,195,21,74,193,0 // vblendvps %ymm0,%ymm9,%ymm13,%ymm0
.byte 196,65,116,89,200 // vmulps %ymm8,%ymm1,%ymm9
@@ -10809,16 +10802,16 @@ HIDDEN _sk_from_srgb_dst_hsw
.globl _sk_from_srgb_dst_hsw
FUNCTION(_sk_from_srgb_dst_hsw)
_sk_from_srgb_dst_hsw:
- .byte 196,98,125,24,5,143,162,2,0 // vbroadcastss 0x2a28f(%rip),%ymm8 # 2b958 <_sk_overlay_sse2_8bit+0x473>
+ .byte 196,98,125,24,5,99,162,2,0 // vbroadcastss 0x2a263(%rip),%ymm8 # 2b910 <_sk_overlay_sse2_8bit+0x473>
.byte 196,65,92,89,200 // vmulps %ymm8,%ymm4,%ymm9
.byte 197,92,89,212 // vmulps %ymm4,%ymm4,%ymm10
- .byte 196,98,125,24,29,129,162,2,0 // vbroadcastss 0x2a281(%rip),%ymm11 # 2b95c <_sk_overlay_sse2_8bit+0x477>
- .byte 196,98,125,24,37,100,162,2,0 // vbroadcastss 0x2a264(%rip),%ymm12 # 2b948 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,29,85,162,2,0 // vbroadcastss 0x2a255(%rip),%ymm11 # 2b914 <_sk_overlay_sse2_8bit+0x477>
+ .byte 196,98,125,24,37,56,162,2,0 // vbroadcastss 0x2a238(%rip),%ymm12 # 2b900 <_sk_overlay_sse2_8bit+0x463>
.byte 196,65,124,40,236 // vmovaps %ymm12,%ymm13
.byte 196,66,93,168,235 // vfmadd213ps %ymm11,%ymm4,%ymm13
- .byte 196,98,125,24,53,105,162,2,0 // vbroadcastss 0x2a269(%rip),%ymm14 # 2b960 <_sk_overlay_sse2_8bit+0x47b>
+ .byte 196,98,125,24,53,61,162,2,0 // vbroadcastss 0x2a23d(%rip),%ymm14 # 2b918 <_sk_overlay_sse2_8bit+0x47b>
.byte 196,66,45,168,238 // vfmadd213ps %ymm14,%ymm10,%ymm13
- .byte 196,98,125,24,21,95,162,2,0 // vbroadcastss 0x2a25f(%rip),%ymm10 # 2b964 <_sk_overlay_sse2_8bit+0x47f>
+ .byte 196,98,125,24,21,51,162,2,0 // vbroadcastss 0x2a233(%rip),%ymm10 # 2b91c <_sk_overlay_sse2_8bit+0x47f>
.byte 196,193,92,194,226,1 // vcmpltps %ymm10,%ymm4,%ymm4
.byte 196,195,21,74,225,64 // vblendvps %ymm4,%ymm9,%ymm13,%ymm4
.byte 196,65,84,89,200 // vmulps %ymm8,%ymm5,%ymm9
@@ -10842,19 +10835,19 @@ HIDDEN _sk_to_srgb_hsw
FUNCTION(_sk_to_srgb_hsw)
_sk_to_srgb_hsw:
.byte 197,124,82,200 // vrsqrtps %ymm0,%ymm9
- .byte 196,98,125,24,5,3,162,2,0 // vbroadcastss 0x2a203(%rip),%ymm8 # 2b968 <_sk_overlay_sse2_8bit+0x483>
+ .byte 196,98,125,24,5,215,161,2,0 // vbroadcastss 0x2a1d7(%rip),%ymm8 # 2b920 <_sk_overlay_sse2_8bit+0x483>
.byte 196,65,124,89,208 // vmulps %ymm8,%ymm0,%ymm10
- .byte 196,98,125,24,29,249,161,2,0 // vbroadcastss 0x2a1f9(%rip),%ymm11 # 2b96c <_sk_overlay_sse2_8bit+0x487>
- .byte 196,98,125,24,37,244,161,2,0 // vbroadcastss 0x2a1f4(%rip),%ymm12 # 2b970 <_sk_overlay_sse2_8bit+0x48b>
+ .byte 196,98,125,24,29,205,161,2,0 // vbroadcastss 0x2a1cd(%rip),%ymm11 # 2b924 <_sk_overlay_sse2_8bit+0x487>
+ .byte 196,98,125,24,37,200,161,2,0 // vbroadcastss 0x2a1c8(%rip),%ymm12 # 2b928 <_sk_overlay_sse2_8bit+0x48b>
.byte 196,65,124,40,236 // vmovaps %ymm12,%ymm13
.byte 196,66,53,168,235 // vfmadd213ps %ymm11,%ymm9,%ymm13
- .byte 196,98,125,24,53,229,161,2,0 // vbroadcastss 0x2a1e5(%rip),%ymm14 # 2b974 <_sk_overlay_sse2_8bit+0x48f>
+ .byte 196,98,125,24,53,185,161,2,0 // vbroadcastss 0x2a1b9(%rip),%ymm14 # 2b92c <_sk_overlay_sse2_8bit+0x48f>
.byte 196,66,53,168,238 // vfmadd213ps %ymm14,%ymm9,%ymm13
- .byte 196,98,125,24,61,219,161,2,0 // vbroadcastss 0x2a1db(%rip),%ymm15 # 2b978 <_sk_overlay_sse2_8bit+0x493>
+ .byte 196,98,125,24,61,175,161,2,0 // vbroadcastss 0x2a1af(%rip),%ymm15 # 2b930 <_sk_overlay_sse2_8bit+0x493>
.byte 196,65,52,88,207 // vaddps %ymm15,%ymm9,%ymm9
.byte 196,65,124,83,201 // vrcpps %ymm9,%ymm9
.byte 196,65,20,89,201 // vmulps %ymm9,%ymm13,%ymm9
- .byte 196,98,125,24,45,199,161,2,0 // vbroadcastss 0x2a1c7(%rip),%ymm13 # 2b97c <_sk_overlay_sse2_8bit+0x497>
+ .byte 196,98,125,24,45,155,161,2,0 // vbroadcastss 0x2a19b(%rip),%ymm13 # 2b934 <_sk_overlay_sse2_8bit+0x497>
.byte 196,193,124,194,197,1 // vcmpltps %ymm13,%ymm0,%ymm0
.byte 196,195,53,74,194,0 // vblendvps %ymm0,%ymm10,%ymm9,%ymm0
.byte 197,124,82,201 // vrsqrtps %ymm1,%ymm9
@@ -10888,26 +10881,26 @@ _sk_rgb_to_hsl_hsw:
.byte 197,116,93,202 // vminps %ymm2,%ymm1,%ymm9
.byte 196,65,124,93,201 // vminps %ymm9,%ymm0,%ymm9
.byte 196,65,60,92,209 // vsubps %ymm9,%ymm8,%ymm10
- .byte 196,98,125,24,29,226,160,2,0 // vbroadcastss 0x2a0e2(%rip),%ymm11 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,29,182,160,2,0 // vbroadcastss 0x2a0b6(%rip),%ymm11 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,65,36,94,218 // vdivps %ymm10,%ymm11,%ymm11
.byte 197,116,92,226 // vsubps %ymm2,%ymm1,%ymm12
.byte 197,116,194,234,1 // vcmpltps %ymm2,%ymm1,%ymm13
- .byte 196,98,125,24,53,35,161,2,0 // vbroadcastss 0x2a123(%rip),%ymm14 # 2b980 <_sk_overlay_sse2_8bit+0x49b>
+ .byte 196,98,125,24,53,247,160,2,0 // vbroadcastss 0x2a0f7(%rip),%ymm14 # 2b938 <_sk_overlay_sse2_8bit+0x49b>
.byte 196,65,4,87,255 // vxorps %ymm15,%ymm15,%ymm15
.byte 196,67,5,74,238,208 // vblendvps %ymm13,%ymm14,%ymm15,%ymm13
.byte 196,66,37,168,229 // vfmadd213ps %ymm13,%ymm11,%ymm12
.byte 197,236,92,208 // vsubps %ymm0,%ymm2,%ymm2
.byte 197,124,92,233 // vsubps %ymm1,%ymm0,%ymm13
- .byte 196,98,125,24,53,10,161,2,0 // vbroadcastss 0x2a10a(%rip),%ymm14 # 2b988 <_sk_overlay_sse2_8bit+0x4a3>
+ .byte 196,98,125,24,53,222,160,2,0 // vbroadcastss 0x2a0de(%rip),%ymm14 # 2b940 <_sk_overlay_sse2_8bit+0x4a3>
.byte 196,66,37,168,238 // vfmadd213ps %ymm14,%ymm11,%ymm13
- .byte 196,98,125,24,53,248,160,2,0 // vbroadcastss 0x2a0f8(%rip),%ymm14 # 2b984 <_sk_overlay_sse2_8bit+0x49f>
+ .byte 196,98,125,24,53,204,160,2,0 // vbroadcastss 0x2a0cc(%rip),%ymm14 # 2b93c <_sk_overlay_sse2_8bit+0x49f>
.byte 196,194,37,168,214 // vfmadd213ps %ymm14,%ymm11,%ymm2
.byte 197,188,194,201,0 // vcmpeqps %ymm1,%ymm8,%ymm1
.byte 196,227,21,74,202,16 // vblendvps %ymm1,%ymm2,%ymm13,%ymm1
.byte 197,188,194,192,0 // vcmpeqps %ymm0,%ymm8,%ymm0
.byte 196,195,117,74,196,0 // vblendvps %ymm0,%ymm12,%ymm1,%ymm0
.byte 196,193,60,88,201 // vaddps %ymm9,%ymm8,%ymm1
- .byte 196,98,125,24,29,111,160,2,0 // vbroadcastss 0x2a06f(%rip),%ymm11 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,29,67,160,2,0 // vbroadcastss 0x2a043(%rip),%ymm11 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,193,116,89,211 // vmulps %ymm11,%ymm1,%ymm2
.byte 197,36,194,218,1 // vcmpltps %ymm2,%ymm11,%ymm11
.byte 196,65,12,92,224 // vsubps %ymm8,%ymm14,%ymm12
@@ -10917,7 +10910,7 @@ _sk_rgb_to_hsl_hsw:
.byte 197,172,94,201 // vdivps %ymm1,%ymm10,%ymm1
.byte 196,195,125,74,199,128 // vblendvps %ymm8,%ymm15,%ymm0,%ymm0
.byte 196,195,117,74,207,128 // vblendvps %ymm8,%ymm15,%ymm1,%ymm1
- .byte 196,98,125,24,5,158,160,2,0 // vbroadcastss 0x2a09e(%rip),%ymm8 # 2b98c <_sk_overlay_sse2_8bit+0x4a7>
+ .byte 196,98,125,24,5,114,160,2,0 // vbroadcastss 0x2a072(%rip),%ymm8 # 2b944 <_sk_overlay_sse2_8bit+0x4a7>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -10934,30 +10927,30 @@ _sk_hsl_to_rgb_hsw:
.byte 197,252,17,92,36,128 // vmovups %ymm3,-0x80(%rsp)
.byte 197,252,40,233 // vmovaps %ymm1,%ymm5
.byte 197,252,40,224 // vmovaps %ymm0,%ymm4
- .byte 196,98,125,24,5,251,159,2,0 // vbroadcastss 0x29ffb(%rip),%ymm8 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,5,207,159,2,0 // vbroadcastss 0x29fcf(%rip),%ymm8 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,60,194,202,2 // vcmpleps %ymm2,%ymm8,%ymm9
.byte 197,84,89,210 // vmulps %ymm2,%ymm5,%ymm10
.byte 196,65,84,92,218 // vsubps %ymm10,%ymm5,%ymm11
.byte 196,67,45,74,203,144 // vblendvps %ymm9,%ymm11,%ymm10,%ymm9
.byte 197,52,88,210 // vaddps %ymm2,%ymm9,%ymm10
- .byte 196,98,125,24,13,58,160,2,0 // vbroadcastss 0x2a03a(%rip),%ymm9 # 2b984 <_sk_overlay_sse2_8bit+0x49f>
+ .byte 196,98,125,24,13,14,160,2,0 // vbroadcastss 0x2a00e(%rip),%ymm9 # 2b93c <_sk_overlay_sse2_8bit+0x49f>
.byte 196,66,109,170,202 // vfmsub213ps %ymm10,%ymm2,%ymm9
- .byte 196,98,125,24,29,56,160,2,0 // vbroadcastss 0x2a038(%rip),%ymm11 # 2b990 <_sk_overlay_sse2_8bit+0x4ab>
+ .byte 196,98,125,24,29,12,160,2,0 // vbroadcastss 0x2a00c(%rip),%ymm11 # 2b948 <_sk_overlay_sse2_8bit+0x4ab>
.byte 196,65,92,88,219 // vaddps %ymm11,%ymm4,%ymm11
.byte 196,67,125,8,227,1 // vroundps $0x1,%ymm11,%ymm12
.byte 196,65,36,92,252 // vsubps %ymm12,%ymm11,%ymm15
.byte 196,65,44,92,217 // vsubps %ymm9,%ymm10,%ymm11
- .byte 196,98,125,24,45,10,160,2,0 // vbroadcastss 0x2a00a(%rip),%ymm13 # 2b980 <_sk_overlay_sse2_8bit+0x49b>
+ .byte 196,98,125,24,45,222,159,2,0 // vbroadcastss 0x29fde(%rip),%ymm13 # 2b938 <_sk_overlay_sse2_8bit+0x49b>
.byte 196,193,4,89,197 // vmulps %ymm13,%ymm15,%ymm0
- .byte 196,98,125,24,53,4,160,2,0 // vbroadcastss 0x2a004(%rip),%ymm14 # 2b988 <_sk_overlay_sse2_8bit+0x4a3>
+ .byte 196,98,125,24,53,216,159,2,0 // vbroadcastss 0x29fd8(%rip),%ymm14 # 2b940 <_sk_overlay_sse2_8bit+0x4a3>
.byte 197,12,92,224 // vsubps %ymm0,%ymm14,%ymm12
.byte 196,66,37,168,225 // vfmadd213ps %ymm9,%ymm11,%ymm12
- .byte 196,226,125,24,29,254,159,2,0 // vbroadcastss 0x29ffe(%rip),%ymm3 # 2b994 <_sk_overlay_sse2_8bit+0x4af>
+ .byte 196,226,125,24,29,210,159,2,0 // vbroadcastss 0x29fd2(%rip),%ymm3 # 2b94c <_sk_overlay_sse2_8bit+0x4af>
.byte 196,193,100,194,255,2 // vcmpleps %ymm15,%ymm3,%ymm7
.byte 196,195,29,74,249,112 // vblendvps %ymm7,%ymm9,%ymm12,%ymm7
.byte 196,65,60,194,231,2 // vcmpleps %ymm15,%ymm8,%ymm12
.byte 196,227,45,74,255,192 // vblendvps %ymm12,%ymm7,%ymm10,%ymm7
- .byte 196,98,125,24,37,213,159,2,0 // vbroadcastss 0x29fd5(%rip),%ymm12 # 2b98c <_sk_overlay_sse2_8bit+0x4a7>
+ .byte 196,98,125,24,37,169,159,2,0 // vbroadcastss 0x29fa9(%rip),%ymm12 # 2b944 <_sk_overlay_sse2_8bit+0x4a7>
.byte 196,65,28,194,255,2 // vcmpleps %ymm15,%ymm12,%ymm15
.byte 196,194,37,168,193 // vfmadd213ps %ymm9,%ymm11,%ymm0
.byte 196,99,125,74,255,240 // vblendvps %ymm15,%ymm7,%ymm0,%ymm15
@@ -10973,7 +10966,7 @@ _sk_hsl_to_rgb_hsw:
.byte 197,156,194,192,2 // vcmpleps %ymm0,%ymm12,%ymm0
.byte 196,194,37,168,249 // vfmadd213ps %ymm9,%ymm11,%ymm7
.byte 196,227,69,74,201,0 // vblendvps %ymm0,%ymm1,%ymm7,%ymm1
- .byte 196,226,125,24,5,137,159,2,0 // vbroadcastss 0x29f89(%rip),%ymm0 # 2b998 <_sk_overlay_sse2_8bit+0x4b3>
+ .byte 196,226,125,24,5,93,159,2,0 // vbroadcastss 0x29f5d(%rip),%ymm0 # 2b950 <_sk_overlay_sse2_8bit+0x4b3>
.byte 197,220,88,192 // vaddps %ymm0,%ymm4,%ymm0
.byte 196,227,125,8,224,1 // vroundps $0x1,%ymm0,%ymm4
.byte 197,252,92,196 // vsubps %ymm4,%ymm0,%ymm0
@@ -11018,78 +11011,74 @@ HIDDEN _sk_scale_u8_hsw
.globl _sk_scale_u8_hsw
FUNCTION(_sk_scale_u8_hsw)
_sk_scale_u8_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,59 // jne 1b00 <_sk_scale_u8_hsw+0x54>
- .byte 196,66,121,48,4,25 // vpmovzxbw (%r9,%rbx,1),%xmm8
- .byte 197,57,219,5,253,167,2,0 // vpand 0x2a7fd(%rip),%xmm8,%xmm8 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,58 // jne 1ae2 <_sk_scale_u8_hsw+0x52>
+ .byte 196,2,121,48,4,24 // vpmovzxbw (%r8,%r11,1),%xmm8
+ .byte 197,57,219,5,26,168,2,0 // vpand 0x2a81a(%rip),%xmm8,%xmm8 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,66,125,51,192 // vpmovzxwd %xmm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
- .byte 196,98,125,24,13,182,158,2,0 // vbroadcastss 0x29eb6(%rip),%ymm9 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,13,139,158,2,0 // vbroadcastss 0x29e8b(%rip),%ymm9 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
.byte 197,188,89,210 // vmulps %ymm2,%ymm8,%ymm2
.byte 197,188,89,219 // vmulps %ymm3,%ymm8,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,182 // ja 1acb <_sk_scale_u8_hsw+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,124,0,0,0 // lea 0x7c(%rip),%r11 # 1b9c <_sk_scale_u8_hsw+0xf0>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,183 // ja 1aae <_sk_scale_u8_hsw+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,122,0,0,0 // lea 0x7a(%rip),%r10 # 1b7c <_sk_scale_u8_hsw+0xec>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
- .byte 235,151 // jmp 1acb <_sk_scale_u8_hsw+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,152 // jmp 1aae <_sk_scale_u8_hsw+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
.byte 197,57,196,192,2 // vpinsrw $0x2,%eax,%xmm8,%xmm8
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,121,110,200 // vmovd %eax,%xmm9
.byte 196,66,121,48,201 // vpmovzxbw %xmm9,%xmm9
.byte 196,67,57,2,193,1 // vpblendd $0x1,%xmm9,%xmm8,%xmm8
- .byte 233,110,255,255,255 // jmpq 1acb <_sk_scale_u8_hsw+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,111,255,255,255 // jmpq 1aae <_sk_scale_u8_hsw+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
.byte 197,57,196,192,6 // vpinsrw $0x6,%eax,%xmm8,%xmm8
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,57,196,192,5 // vpinsrw $0x5,%eax,%xmm8,%xmm8
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,57,196,192,4 // vpinsrw $0x4,%eax,%xmm8,%xmm8
- .byte 196,65,121,110,12,25 // vmovd (%r9,%rbx,1),%xmm9
+ .byte 196,1,121,110,12,24 // vmovd (%r8,%r11,1),%xmm9
.byte 196,66,121,48,201 // vpmovzxbw %xmm9,%xmm9
.byte 196,67,49,2,192,12 // vpblendd $0xc,%xmm8,%xmm9,%xmm8
- .byte 233,50,255,255,255 // jmpq 1acb <_sk_scale_u8_hsw+0x1f>
- .byte 15,31,0 // nopl (%rax)
- .byte 141 // (bad)
- .byte 255 // (bad)
+ .byte 233,51,255,255,255 // jmpq 1aae <_sk_scale_u8_hsw+0x1e>
+ .byte 144 // nop
+ .byte 143 // (bad)
.byte 255 // (bad)
- .byte 255,168,255,255,255,152 // ljmp *-0x67000001(%rax)
.byte 255 // (bad)
+ .byte 255,170,255,255,255,154 // ljmp *-0x65000001(%rdx)
.byte 255 // (bad)
- .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 233,255,255,255,222 // jmpq ffffffffdf001b8c <_sk_overlay_sse2_8bit+0xffffffffdefd66ef>
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
.byte 255 // (bad)
- .byte 255,209 // callq *%rcx
+ .byte 255,211 // callq *%rbx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,193 // inc %ecx
+ .byte 255,195 // inc %ebx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -11098,32 +11087,31 @@ HIDDEN _sk_scale_565_hsw
.globl _sk_scale_565_hsw
FUNCTION(_sk_scale_565_hsw)
_sk_scale_565_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,162,0,0,0 // jne 1c7a <_sk_scale_565_hsw+0xc2>
- .byte 196,65,122,111,4,89 // vmovdqu (%r9,%rbx,2),%xmm8
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,161,0,0,0 // jne 1c58 <_sk_scale_565_hsw+0xc0>
+ .byte 196,1,122,111,4,88 // vmovdqu (%r8,%r11,2),%xmm8
.byte 196,66,125,51,192 // vpmovzxwd %xmm8,%ymm8
- .byte 196,98,125,88,13,180,157,2,0 // vpbroadcastd 0x29db4(%rip),%ymm9 # 2b9a0 <_sk_overlay_sse2_8bit+0x4bb>
+ .byte 196,98,125,88,13,141,157,2,0 // vpbroadcastd 0x29d8d(%rip),%ymm9 # 2b958 <_sk_overlay_sse2_8bit+0x4bb>
.byte 196,65,61,219,201 // vpand %ymm9,%ymm8,%ymm9
.byte 196,65,124,91,201 // vcvtdq2ps %ymm9,%ymm9
- .byte 196,98,125,24,21,165,157,2,0 // vbroadcastss 0x29da5(%rip),%ymm10 # 2b9a4 <_sk_overlay_sse2_8bit+0x4bf>
+ .byte 196,98,125,24,21,126,157,2,0 // vbroadcastss 0x29d7e(%rip),%ymm10 # 2b95c <_sk_overlay_sse2_8bit+0x4bf>
.byte 196,65,52,89,202 // vmulps %ymm10,%ymm9,%ymm9
- .byte 196,98,125,88,21,155,157,2,0 // vpbroadcastd 0x29d9b(%rip),%ymm10 # 2b9a8 <_sk_overlay_sse2_8bit+0x4c3>
+ .byte 196,98,125,88,21,116,157,2,0 // vpbroadcastd 0x29d74(%rip),%ymm10 # 2b960 <_sk_overlay_sse2_8bit+0x4c3>
.byte 196,65,61,219,210 // vpand %ymm10,%ymm8,%ymm10
.byte 196,65,124,91,210 // vcvtdq2ps %ymm10,%ymm10
- .byte 196,98,125,24,29,140,157,2,0 // vbroadcastss 0x29d8c(%rip),%ymm11 # 2b9ac <_sk_overlay_sse2_8bit+0x4c7>
+ .byte 196,98,125,24,29,101,157,2,0 // vbroadcastss 0x29d65(%rip),%ymm11 # 2b964 <_sk_overlay_sse2_8bit+0x4c7>
.byte 196,65,44,89,211 // vmulps %ymm11,%ymm10,%ymm10
- .byte 196,98,125,88,29,130,157,2,0 // vpbroadcastd 0x29d82(%rip),%ymm11 # 2b9b0 <_sk_overlay_sse2_8bit+0x4cb>
+ .byte 196,98,125,88,29,91,157,2,0 // vpbroadcastd 0x29d5b(%rip),%ymm11 # 2b968 <_sk_overlay_sse2_8bit+0x4cb>
.byte 196,65,61,219,195 // vpand %ymm11,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
- .byte 196,98,125,24,29,115,157,2,0 // vbroadcastss 0x29d73(%rip),%ymm11 # 2b9b4 <_sk_overlay_sse2_8bit+0x4cf>
+ .byte 196,98,125,24,29,76,157,2,0 // vbroadcastss 0x29d4c(%rip),%ymm11 # 2b96c <_sk_overlay_sse2_8bit+0x4cf>
.byte 196,65,60,89,195 // vmulps %ymm11,%ymm8,%ymm8
.byte 197,100,194,223,1 // vcmpltps %ymm7,%ymm3,%ymm11
.byte 196,65,44,93,224 // vminps %ymm8,%ymm10,%ymm12
@@ -11136,49 +11124,50 @@ _sk_scale_565_hsw:
.byte 197,188,89,210 // vmulps %ymm2,%ymm8,%ymm2
.byte 197,164,89,219 // vmulps %ymm3,%ymm11,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,75,255,255,255 // ja 1bde <_sk_scale_565_hsw+0x26>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,102,0,0,0 // lea 0x66(%rip),%r11 # 1d04 <_sk_scale_565_hsw+0x14c>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,76,255,255,255 // ja 1bbd <_sk_scale_565_hsw+0x25>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,100,0,0,0 // lea 0x64(%rip),%r10 # 1ce0 <_sk_scale_565_hsw+0x148>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
- .byte 233,41,255,255,255 // jmpq 1bde <_sk_scale_565_hsw+0x26>
+ .byte 233,42,255,255,255 // jmpq 1bbd <_sk_scale_565_hsw+0x25>
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 196,65,57,196,68,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,121,110,12,89 // vmovd (%r9,%rbx,2),%xmm9
+ .byte 196,1,57,196,68,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,121,110,12,88 // vmovd (%r8,%r11,2),%xmm9
.byte 196,67,57,2,193,1 // vpblendd $0x1,%xmm9,%xmm8,%xmm8
- .byte 233,11,255,255,255 // jmpq 1bde <_sk_scale_565_hsw+0x26>
+ .byte 233,12,255,255,255 // jmpq 1bbd <_sk_scale_565_hsw+0x25>
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 196,65,57,196,68,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,57,196,68,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,57,196,68,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,122,126,12,89 // vmovq (%r9,%rbx,2),%xmm9
+ .byte 196,1,57,196,68,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,57,196,68,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,57,196,68,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,122,126,12,88 // vmovq (%r8,%r11,2),%xmm9
.byte 196,67,49,2,192,12 // vpblendd $0xc,%xmm8,%xmm9,%xmm8
- .byte 233,221,254,255,255 // jmpq 1bde <_sk_scale_565_hsw+0x26>
- .byte 15,31,0 // nopl (%rax)
- .byte 163,255,255,255,190,255,255,255,177 // movabs %eax,0xb1ffffffbeffffff
+ .byte 233,222,254,255,255 // jmpq 1bbd <_sk_scale_565_hsw+0x25>
+ .byte 144 // nop
+ .byte 165 // movsl %ds:(%rsi),%es:(%rdi)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,192 // inc %eax
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
.byte 255 // (bad)
+ .byte 255,179,255,255,255,238 // pushq -0x11000001(%rbx)
.byte 255 // (bad)
- .byte 255,228 // jmpq *%rsp
.byte 255 // (bad)
+ .byte 255,230 // jmpq *%rsi
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
.byte 255 // (bad)
- .byte 255,207 // dec %edi
+ .byte 222,255 // fdivrp %st,%st(7)
+ .byte 255 // (bad)
+ .byte 255,209 // callq *%rcx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -11204,20 +11193,19 @@ HIDDEN _sk_lerp_u8_hsw
.globl _sk_lerp_u8_hsw
FUNCTION(_sk_lerp_u8_hsw)
_sk_lerp_u8_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,79 // jne 1db7 <_sk_lerp_u8_hsw+0x68>
- .byte 196,66,121,48,4,25 // vpmovzxbw (%r9,%rbx,1),%xmm8
- .byte 197,57,219,5,90,165,2,0 // vpand 0x2a55a(%rip),%xmm8,%xmm8 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,78 // jne 1d91 <_sk_lerp_u8_hsw+0x66>
+ .byte 196,2,121,48,4,24 // vpmovzxbw (%r8,%r11,1),%xmm8
+ .byte 197,57,219,5,127,165,2,0 // vpand 0x2a57f(%rip),%xmm8,%xmm8 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,66,125,51,192 // vpmovzxwd %xmm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
- .byte 196,98,125,24,13,19,156,2,0 // vbroadcastss 0x29c13(%rip),%ymm9 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,13,240,155,2,0 // vbroadcastss 0x29bf0(%rip),%ymm9 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
.byte 197,252,92,196 // vsubps %ymm4,%ymm0,%ymm0
.byte 196,226,61,168,196 // vfmadd213ps %ymm4,%ymm8,%ymm0
@@ -11228,58 +11216,54 @@ _sk_lerp_u8_hsw:
.byte 197,228,92,223 // vsubps %ymm7,%ymm3,%ymm3
.byte 196,226,61,168,223 // vfmadd213ps %ymm7,%ymm8,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,162 // ja 1d6e <_sk_lerp_u8_hsw+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,121,0,0,0 // lea 0x79(%rip),%r11 # 1e50 <_sk_lerp_u8_hsw+0x101>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,163 // ja 1d49 <_sk_lerp_u8_hsw+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,123,0,0,0 // lea 0x7b(%rip),%r10 # 1e2c <_sk_lerp_u8_hsw+0x101>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
- .byte 235,131 // jmp 1d6e <_sk_lerp_u8_hsw+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,132 // jmp 1d49 <_sk_lerp_u8_hsw+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
.byte 197,57,196,192,2 // vpinsrw $0x2,%eax,%xmm8,%xmm8
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,121,110,200 // vmovd %eax,%xmm9
.byte 196,66,121,48,201 // vpmovzxbw %xmm9,%xmm9
.byte 196,67,57,2,193,1 // vpblendd $0x1,%xmm9,%xmm8,%xmm8
- .byte 233,90,255,255,255 // jmpq 1d6e <_sk_lerp_u8_hsw+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,91,255,255,255 // jmpq 1d49 <_sk_lerp_u8_hsw+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
.byte 197,57,196,192,6 // vpinsrw $0x6,%eax,%xmm8,%xmm8
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,57,196,192,5 // vpinsrw $0x5,%eax,%xmm8,%xmm8
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,57,196,192,4 // vpinsrw $0x4,%eax,%xmm8,%xmm8
- .byte 196,65,121,110,12,25 // vmovd (%r9,%rbx,1),%xmm9
+ .byte 196,1,121,110,12,24 // vmovd (%r8,%r11,1),%xmm9
.byte 196,66,121,48,201 // vpmovzxbw %xmm9,%xmm9
.byte 196,67,49,2,192,12 // vpblendd $0xc,%xmm8,%xmm9,%xmm8
- .byte 233,30,255,255,255 // jmpq 1d6e <_sk_lerp_u8_hsw+0x1f>
- .byte 144 // nop
- .byte 255 // (bad)
- .byte 255 // (bad)
- .byte 255,171,255,255,255,155 // ljmp *-0x64000001(%rbx)
+ .byte 233,31,255,255,255 // jmpq 1d49 <_sk_lerp_u8_hsw+0x1e>
+ .byte 102,144 // xchg %ax,%ax
+ .byte 142,255 // mov %edi,%?
.byte 255 // (bad)
+ .byte 255,169,255,255,255,153 // ljmp *-0x66000001(%rcx)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 234 // (bad)
.byte 255 // (bad)
+ .byte 232,255,255,255,221 // callq ffffffffde001e3c <_sk_overlay_sse2_8bit+0xffffffffddfd699f>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 223,255 // (bad)
- .byte 255 // (bad)
- .byte 255,212 // callq *%rsp
+ .byte 255,210 // callq *%rdx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255,194 // inc %edx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -11288,32 +11272,31 @@ HIDDEN _sk_lerp_565_hsw
.globl _sk_lerp_565_hsw
FUNCTION(_sk_lerp_565_hsw)
_sk_lerp_565_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,182,0,0,0 // jne 1f42 <_sk_lerp_565_hsw+0xd6>
- .byte 196,65,122,111,4,89 // vmovdqu (%r9,%rbx,2),%xmm8
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,181,0,0,0 // jne 1f1c <_sk_lerp_565_hsw+0xd4>
+ .byte 196,1,122,111,4,88 // vmovdqu (%r8,%r11,2),%xmm8
.byte 196,66,125,51,192 // vpmovzxwd %xmm8,%ymm8
- .byte 196,98,125,88,13,0,155,2,0 // vpbroadcastd 0x29b00(%rip),%ymm9 # 2b9a0 <_sk_overlay_sse2_8bit+0x4bb>
+ .byte 196,98,125,88,13,221,154,2,0 // vpbroadcastd 0x29add(%rip),%ymm9 # 2b958 <_sk_overlay_sse2_8bit+0x4bb>
.byte 196,65,61,219,201 // vpand %ymm9,%ymm8,%ymm9
.byte 196,65,124,91,201 // vcvtdq2ps %ymm9,%ymm9
- .byte 196,98,125,24,21,241,154,2,0 // vbroadcastss 0x29af1(%rip),%ymm10 # 2b9a4 <_sk_overlay_sse2_8bit+0x4bf>
+ .byte 196,98,125,24,21,206,154,2,0 // vbroadcastss 0x29ace(%rip),%ymm10 # 2b95c <_sk_overlay_sse2_8bit+0x4bf>
.byte 196,65,52,89,202 // vmulps %ymm10,%ymm9,%ymm9
- .byte 196,98,125,88,21,231,154,2,0 // vpbroadcastd 0x29ae7(%rip),%ymm10 # 2b9a8 <_sk_overlay_sse2_8bit+0x4c3>
+ .byte 196,98,125,88,21,196,154,2,0 // vpbroadcastd 0x29ac4(%rip),%ymm10 # 2b960 <_sk_overlay_sse2_8bit+0x4c3>
.byte 196,65,61,219,210 // vpand %ymm10,%ymm8,%ymm10
.byte 196,65,124,91,210 // vcvtdq2ps %ymm10,%ymm10
- .byte 196,98,125,24,29,216,154,2,0 // vbroadcastss 0x29ad8(%rip),%ymm11 # 2b9ac <_sk_overlay_sse2_8bit+0x4c7>
+ .byte 196,98,125,24,29,181,154,2,0 // vbroadcastss 0x29ab5(%rip),%ymm11 # 2b964 <_sk_overlay_sse2_8bit+0x4c7>
.byte 196,65,44,89,211 // vmulps %ymm11,%ymm10,%ymm10
- .byte 196,98,125,88,29,206,154,2,0 // vpbroadcastd 0x29ace(%rip),%ymm11 # 2b9b0 <_sk_overlay_sse2_8bit+0x4cb>
+ .byte 196,98,125,88,29,171,154,2,0 // vpbroadcastd 0x29aab(%rip),%ymm11 # 2b968 <_sk_overlay_sse2_8bit+0x4cb>
.byte 196,65,61,219,195 // vpand %ymm11,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
- .byte 196,98,125,24,29,191,154,2,0 // vbroadcastss 0x29abf(%rip),%ymm11 # 2b9b4 <_sk_overlay_sse2_8bit+0x4cf>
+ .byte 196,98,125,24,29,156,154,2,0 // vbroadcastss 0x29a9c(%rip),%ymm11 # 2b96c <_sk_overlay_sse2_8bit+0x4cf>
.byte 196,65,60,89,195 // vmulps %ymm11,%ymm8,%ymm8
.byte 197,100,194,223,1 // vcmpltps %ymm7,%ymm3,%ymm11
.byte 196,65,44,93,224 // vminps %ymm8,%ymm10,%ymm12
@@ -11330,49 +11313,50 @@ _sk_lerp_565_hsw:
.byte 197,228,92,223 // vsubps %ymm7,%ymm3,%ymm3
.byte 196,226,37,168,223 // vfmadd213ps %ymm7,%ymm11,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,55,255,255,255 // ja 1e92 <_sk_lerp_565_hsw+0x26>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,102,0,0,0 // lea 0x66(%rip),%r11 # 1fcc <_sk_lerp_565_hsw+0x160>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,56,255,255,255 // ja 1e6d <_sk_lerp_565_hsw+0x25>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,100,0,0,0 // lea 0x64(%rip),%r10 # 1fa4 <_sk_lerp_565_hsw+0x15c>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
- .byte 233,21,255,255,255 // jmpq 1e92 <_sk_lerp_565_hsw+0x26>
+ .byte 233,22,255,255,255 // jmpq 1e6d <_sk_lerp_565_hsw+0x25>
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 196,65,57,196,68,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,121,110,12,89 // vmovd (%r9,%rbx,2),%xmm9
+ .byte 196,1,57,196,68,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,121,110,12,88 // vmovd (%r8,%r11,2),%xmm9
.byte 196,67,57,2,193,1 // vpblendd $0x1,%xmm9,%xmm8,%xmm8
- .byte 233,247,254,255,255 // jmpq 1e92 <_sk_lerp_565_hsw+0x26>
+ .byte 233,248,254,255,255 // jmpq 1e6d <_sk_lerp_565_hsw+0x25>
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 196,65,57,196,68,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,57,196,68,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,57,196,68,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,122,126,12,89 // vmovq (%r9,%rbx,2),%xmm9
+ .byte 196,1,57,196,68,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,57,196,68,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,57,196,68,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,122,126,12,88 // vmovq (%r8,%r11,2),%xmm9
.byte 196,67,49,2,192,12 // vpblendd $0xc,%xmm8,%xmm9,%xmm8
- .byte 233,201,254,255,255 // jmpq 1e92 <_sk_lerp_565_hsw+0x26>
- .byte 15,31,0 // nopl (%rax)
- .byte 163,255,255,255,190,255,255,255,177 // movabs %eax,0xb1ffffffbeffffff
+ .byte 233,202,254,255,255 // jmpq 1e6d <_sk_lerp_565_hsw+0x25>
+ .byte 144 // nop
+ .byte 165 // movsl %ds:(%rsi),%es:(%rdi)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,192 // inc %eax
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
.byte 255 // (bad)
+ .byte 255,179,255,255,255,238 // pushq -0x11000001(%rbx)
.byte 255 // (bad)
- .byte 255,228 // jmpq *%rsp
.byte 255 // (bad)
+ .byte 255,230 // jmpq *%rsi
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
.byte 255 // (bad)
- .byte 255,207 // dec %edi
+ .byte 222,255 // fdivrp %st,%st(7)
+ .byte 255 // (bad)
+ .byte 255,209 // callq *%rcx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -11382,63 +11366,63 @@ HIDDEN _sk_load_tables_hsw
FUNCTION(_sk_load_tables_hsw)
_sk_load_tables_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 77,133,192 // test %r8,%r8
- .byte 117,103 // jne 2059 <_sk_load_tables_hsw+0x71>
- .byte 196,193,126,111,28,145 // vmovdqu (%r9,%rdx,4),%ymm3
- .byte 197,229,219,13,64,155,2,0 // vpand 0x29b40(%rip),%ymm3,%ymm1 # 2bb40 <_sk_overlay_sse2_8bit+0x65b>
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,103 // jne 2031 <_sk_load_tables_hsw+0x71>
+ .byte 196,193,126,111,28,144 // vmovdqu (%r8,%rdx,4),%ymm3
+ .byte 197,229,219,13,72,155,2,0 // vpand 0x29b48(%rip),%ymm3,%ymm1 # 2bb20 <_sk_overlay_sse2_8bit+0x683>
.byte 196,65,61,118,192 // vpcmpeqd %ymm8,%ymm8,%ymm8
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
- .byte 76,139,80,16 // mov 0x10(%rax),%r10
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 76,139,72,16 // mov 0x10(%rax),%r9
.byte 197,237,118,210 // vpcmpeqd %ymm2,%ymm2,%ymm2
- .byte 196,194,109,146,4,137 // vgatherdps %ymm2,(%r9,%ymm1,4),%ymm0
- .byte 196,226,101,0,21,64,155,2,0 // vpshufb 0x29b40(%rip),%ymm3,%ymm2 # 2bb60 <_sk_overlay_sse2_8bit+0x67b>
+ .byte 196,194,109,146,4,136 // vgatherdps %ymm2,(%r8,%ymm1,4),%ymm0
+ .byte 196,226,101,0,21,72,155,2,0 // vpshufb 0x29b48(%rip),%ymm3,%ymm2 # 2bb40 <_sk_overlay_sse2_8bit+0x6a3>
.byte 196,65,53,118,201 // vpcmpeqd %ymm9,%ymm9,%ymm9
- .byte 196,194,53,146,12,146 // vgatherdps %ymm9,(%r10,%ymm2,4),%ymm1
+ .byte 196,194,53,146,12,145 // vgatherdps %ymm9,(%r9,%ymm2,4),%ymm1
.byte 72,139,64,24 // mov 0x18(%rax),%rax
- .byte 196,98,101,0,13,72,155,2,0 // vpshufb 0x29b48(%rip),%ymm3,%ymm9 # 2bb80 <_sk_overlay_sse2_8bit+0x69b>
+ .byte 196,98,101,0,13,80,155,2,0 // vpshufb 0x29b50(%rip),%ymm3,%ymm9 # 2bb60 <_sk_overlay_sse2_8bit+0x6c3>
.byte 196,162,61,146,20,136 // vgatherdps %ymm8,(%rax,%ymm9,4),%ymm2
.byte 197,229,114,211,24 // vpsrld $0x18,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
- .byte 196,98,125,24,5,76,153,2,0 // vbroadcastss 0x2994c(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,44,153,2,0 // vbroadcastss 0x2992c(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,139 // ja 1ff8 <_sk_load_tables_hsw+0x10>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,140,0,0,0 // lea 0x8c(%rip),%r11 # 2104 <_sk_load_tables_hsw+0x11c>
- .byte 79,99,20,147 // movslq (%r11,%r10,4),%r10
- .byte 77,1,218 // add %r11,%r10
- .byte 65,255,226 // jmpq *%r10
- .byte 196,193,121,110,28,145 // vmovd (%r9,%rdx,4),%xmm3
- .byte 233,107,255,255,255 // jmpq 1ff8 <_sk_load_tables_hsw+0x10>
- .byte 196,193,121,110,68,145,8 // vmovd 0x8(%r9,%rdx,4),%xmm0
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,139 // ja 1fd0 <_sk_load_tables_hsw+0x10>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,140,0,0,0 // lea 0x8c(%rip),%r10 # 20dc <_sk_load_tables_hsw+0x11c>
+ .byte 79,99,12,138 // movslq (%r10,%r9,4),%r9
+ .byte 77,1,209 // add %r10,%r9
+ .byte 65,255,225 // jmpq *%r9
+ .byte 196,193,121,110,28,144 // vmovd (%r8,%rdx,4),%xmm3
+ .byte 233,107,255,255,255 // jmpq 1fd0 <_sk_load_tables_hsw+0x10>
+ .byte 196,193,121,110,68,144,8 // vmovd 0x8(%r8,%rdx,4),%xmm0
.byte 196,226,121,89,192 // vpbroadcastq %xmm0,%xmm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
.byte 196,227,117,2,216,4 // vpblendd $0x4,%ymm0,%ymm1,%ymm3
- .byte 196,193,122,126,4,145 // vmovq (%r9,%rdx,4),%xmm0
+ .byte 196,193,122,126,4,144 // vmovq (%r8,%rdx,4),%xmm0
.byte 196,227,101,2,216,3 // vpblendd $0x3,%ymm0,%ymm3,%ymm3
- .byte 233,68,255,255,255 // jmpq 1ff8 <_sk_load_tables_hsw+0x10>
- .byte 196,193,121,110,68,145,24 // vmovd 0x18(%r9,%rdx,4),%xmm0
+ .byte 233,68,255,255,255 // jmpq 1fd0 <_sk_load_tables_hsw+0x10>
+ .byte 196,193,121,110,68,144,24 // vmovd 0x18(%r8,%rdx,4),%xmm0
.byte 196,226,125,89,192 // vpbroadcastq %xmm0,%ymm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
.byte 196,227,117,2,216,64 // vpblendd $0x40,%ymm0,%ymm1,%ymm3
.byte 196,227,125,57,216,1 // vextracti128 $0x1,%ymm3,%xmm0
- .byte 196,195,121,34,68,145,20,1 // vpinsrd $0x1,0x14(%r9,%rdx,4),%xmm0,%xmm0
+ .byte 196,195,121,34,68,144,20,1 // vpinsrd $0x1,0x14(%r8,%rdx,4),%xmm0,%xmm0
.byte 196,227,101,56,216,1 // vinserti128 $0x1,%xmm0,%ymm3,%ymm3
.byte 196,227,125,57,216,1 // vextracti128 $0x1,%ymm3,%xmm0
- .byte 196,195,121,34,68,145,16,0 // vpinsrd $0x0,0x10(%r9,%rdx,4),%xmm0,%xmm0
+ .byte 196,195,121,34,68,144,16,0 // vpinsrd $0x0,0x10(%r8,%rdx,4),%xmm0,%xmm0
.byte 196,227,101,56,216,1 // vinserti128 $0x1,%xmm0,%ymm3,%ymm3
- .byte 196,193,122,111,4,145 // vmovdqu (%r9,%rdx,4),%xmm0
+ .byte 196,193,122,111,4,144 // vmovdqu (%r8,%rdx,4),%xmm0
.byte 196,227,125,2,219,240 // vpblendd $0xf0,%ymm3,%ymm0,%ymm3
- .byte 233,245,254,255,255 // jmpq 1ff8 <_sk_load_tables_hsw+0x10>
+ .byte 233,245,254,255,255 // jmpq 1fd0 <_sk_load_tables_hsw+0x10>
.byte 144 // nop
- .byte 126,255 // jle 2105 <_sk_load_tables_hsw+0x11d>
+ .byte 126,255 // jle 20dd <_sk_load_tables_hsw+0x11d>
.byte 255 // (bad)
.byte 255,159,255,255,255,137 // lcall *-0x76000001(%rdi)
.byte 255 // (bad)
@@ -11463,14 +11447,14 @@ HIDDEN _sk_load_tables_u16_be_hsw
FUNCTION(_sk_load_tables_u16_be_hsw)
_sk_load_tables_u16_be_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 76,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,201,0,0,0 // jne 21ff <_sk_load_tables_u16_be_hsw+0xdf>
- .byte 196,1,121,16,4,81 // vmovupd (%r9,%r10,2),%xmm8
- .byte 196,129,121,16,84,81,16 // vmovupd 0x10(%r9,%r10,2),%xmm2
- .byte 196,129,121,16,92,81,32 // vmovupd 0x20(%r9,%r10,2),%xmm3
- .byte 196,1,122,111,76,81,48 // vmovdqu 0x30(%r9,%r10,2),%xmm9
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 76,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,201,0,0,0 // jne 21d7 <_sk_load_tables_u16_be_hsw+0xdf>
+ .byte 196,1,121,16,4,72 // vmovupd (%r8,%r9,2),%xmm8
+ .byte 196,129,121,16,84,72,16 // vmovupd 0x10(%r8,%r9,2),%xmm2
+ .byte 196,129,121,16,92,72,32 // vmovupd 0x20(%r8,%r9,2),%xmm3
+ .byte 196,1,122,111,76,72,48 // vmovdqu 0x30(%r8,%r9,2),%xmm9
.byte 197,185,97,194 // vpunpcklwd %xmm2,%xmm8,%xmm0
.byte 197,185,105,210 // vpunpckhwd %xmm2,%xmm8,%xmm2
.byte 196,193,97,97,201 // vpunpcklwd %xmm9,%xmm3,%xmm1
@@ -11482,18 +11466,18 @@ _sk_load_tables_u16_be_hsw:
.byte 197,185,108,200 // vpunpcklqdq %xmm0,%xmm8,%xmm1
.byte 197,185,109,208 // vpunpckhqdq %xmm0,%xmm8,%xmm2
.byte 197,49,108,195 // vpunpcklqdq %xmm3,%xmm9,%xmm8
- .byte 197,121,111,21,73,161,2,0 // vmovdqa 0x2a149(%rip),%xmm10 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 197,121,111,21,113,161,2,0 // vmovdqa 0x2a171(%rip),%xmm10 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,193,113,219,194 // vpand %xmm10,%xmm1,%xmm0
.byte 196,226,125,51,200 // vpmovzxwd %xmm0,%ymm1
.byte 196,65,37,118,219 // vpcmpeqd %ymm11,%ymm11,%ymm11
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
- .byte 76,139,80,16 // mov 0x10(%rax),%r10
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 76,139,72,16 // mov 0x10(%rax),%r9
.byte 196,65,29,118,228 // vpcmpeqd %ymm12,%ymm12,%ymm12
- .byte 196,194,29,146,4,137 // vgatherdps %ymm12,(%r9,%ymm1,4),%ymm0
+ .byte 196,194,29,146,4,136 // vgatherdps %ymm12,(%r8,%ymm1,4),%ymm0
.byte 196,193,105,219,202 // vpand %xmm10,%xmm2,%xmm1
.byte 196,226,125,51,209 // vpmovzxwd %xmm1,%ymm2
.byte 196,65,29,118,228 // vpcmpeqd %ymm12,%ymm12,%ymm12
- .byte 196,194,29,146,12,146 // vgatherdps %ymm12,(%r10,%ymm2,4),%ymm1
+ .byte 196,194,29,146,12,145 // vgatherdps %ymm12,(%r9,%ymm2,4),%ymm1
.byte 72,139,64,24 // mov 0x18(%rax),%rax
.byte 196,193,57,219,210 // vpand %xmm10,%xmm8,%xmm2
.byte 196,98,125,51,194 // vpmovzxwd %xmm2,%ymm8
@@ -11504,50 +11488,50 @@ _sk_load_tables_u16_be_hsw:
.byte 197,185,235,219 // vpor %xmm3,%xmm8,%xmm3
.byte 196,226,125,51,219 // vpmovzxwd %xmm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
- .byte 196,98,125,24,5,194,151,2,0 // vbroadcastss 0x297c2(%rip),%ymm8 # 2b9b8 <_sk_overlay_sse2_8bit+0x4d3>
+ .byte 196,98,125,24,5,162,151,2,0 // vbroadcastss 0x297a2(%rip),%ymm8 # 2b970 <_sk_overlay_sse2_8bit+0x4d3>
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 196,1,123,16,4,81 // vmovsd (%r9,%r10,2),%xmm8
+ .byte 196,1,123,16,4,72 // vmovsd (%r8,%r9,2),%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,85 // je 2265 <_sk_load_tables_u16_be_hsw+0x145>
- .byte 196,1,57,22,68,81,8 // vmovhpd 0x8(%r9,%r10,2),%xmm8,%xmm8
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,72 // jb 2265 <_sk_load_tables_u16_be_hsw+0x145>
- .byte 196,129,123,16,84,81,16 // vmovsd 0x10(%r9,%r10,2),%xmm2
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 116,72 // je 2272 <_sk_load_tables_u16_be_hsw+0x152>
- .byte 196,129,105,22,84,81,24 // vmovhpd 0x18(%r9,%r10,2),%xmm2,%xmm2
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,59 // jb 2272 <_sk_load_tables_u16_be_hsw+0x152>
- .byte 196,129,123,16,92,81,32 // vmovsd 0x20(%r9,%r10,2),%xmm3
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 15,132,9,255,255,255 // je 2151 <_sk_load_tables_u16_be_hsw+0x31>
- .byte 196,129,97,22,92,81,40 // vmovhpd 0x28(%r9,%r10,2),%xmm3,%xmm3
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 15,130,248,254,255,255 // jb 2151 <_sk_load_tables_u16_be_hsw+0x31>
- .byte 196,1,122,126,76,81,48 // vmovq 0x30(%r9,%r10,2),%xmm9
- .byte 233,236,254,255,255 // jmpq 2151 <_sk_load_tables_u16_be_hsw+0x31>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,85 // je 223d <_sk_load_tables_u16_be_hsw+0x145>
+ .byte 196,1,57,22,68,72,8 // vmovhpd 0x8(%r8,%r9,2),%xmm8,%xmm8
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,72 // jb 223d <_sk_load_tables_u16_be_hsw+0x145>
+ .byte 196,129,123,16,84,72,16 // vmovsd 0x10(%r8,%r9,2),%xmm2
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 116,72 // je 224a <_sk_load_tables_u16_be_hsw+0x152>
+ .byte 196,129,105,22,84,72,24 // vmovhpd 0x18(%r8,%r9,2),%xmm2,%xmm2
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,59 // jb 224a <_sk_load_tables_u16_be_hsw+0x152>
+ .byte 196,129,123,16,92,72,32 // vmovsd 0x20(%r8,%r9,2),%xmm3
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 15,132,9,255,255,255 // je 2129 <_sk_load_tables_u16_be_hsw+0x31>
+ .byte 196,129,97,22,92,72,40 // vmovhpd 0x28(%r8,%r9,2),%xmm3,%xmm3
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 15,130,248,254,255,255 // jb 2129 <_sk_load_tables_u16_be_hsw+0x31>
+ .byte 196,1,122,126,76,72,48 // vmovq 0x30(%r8,%r9,2),%xmm9
+ .byte 233,236,254,255,255 // jmpq 2129 <_sk_load_tables_u16_be_hsw+0x31>
.byte 197,225,87,219 // vxorpd %xmm3,%xmm3,%xmm3
.byte 197,233,87,210 // vxorpd %xmm2,%xmm2,%xmm2
- .byte 233,223,254,255,255 // jmpq 2151 <_sk_load_tables_u16_be_hsw+0x31>
+ .byte 233,223,254,255,255 // jmpq 2129 <_sk_load_tables_u16_be_hsw+0x31>
.byte 197,225,87,219 // vxorpd %xmm3,%xmm3,%xmm3
- .byte 233,214,254,255,255 // jmpq 2151 <_sk_load_tables_u16_be_hsw+0x31>
+ .byte 233,214,254,255,255 // jmpq 2129 <_sk_load_tables_u16_be_hsw+0x31>
HIDDEN _sk_load_tables_rgb_u16_be_hsw
.globl _sk_load_tables_rgb_u16_be_hsw
FUNCTION(_sk_load_tables_rgb_u16_be_hsw)
_sk_load_tables_rgb_u16_be_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 76,141,20,82 // lea (%rdx,%rdx,2),%r10
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,193,0,0,0 // jne 234e <_sk_load_tables_rgb_u16_be_hsw+0xd3>
- .byte 196,1,122,111,28,81 // vmovdqu (%r9,%r10,2),%xmm11
- .byte 196,129,122,111,92,81,12 // vmovdqu 0xc(%r9,%r10,2),%xmm3
- .byte 196,129,122,111,84,81,24 // vmovdqu 0x18(%r9,%r10,2),%xmm2
- .byte 196,129,122,111,68,81,32 // vmovdqu 0x20(%r9,%r10,2),%xmm0
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 76,141,12,82 // lea (%rdx,%rdx,2),%r9
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,193,0,0,0 // jne 2326 <_sk_load_tables_rgb_u16_be_hsw+0xd3>
+ .byte 196,1,122,111,28,72 // vmovdqu (%r8,%r9,2),%xmm11
+ .byte 196,129,122,111,92,72,12 // vmovdqu 0xc(%r8,%r9,2),%xmm3
+ .byte 196,129,122,111,84,72,24 // vmovdqu 0x18(%r8,%r9,2),%xmm2
+ .byte 196,129,122,111,68,72,32 // vmovdqu 0x20(%r8,%r9,2),%xmm0
.byte 197,249,115,216,4 // vpsrldq $0x4,%xmm0,%xmm0
.byte 196,193,57,115,219,6 // vpsrldq $0x6,%xmm11,%xmm8
.byte 197,169,115,219,6 // vpsrldq $0x6,%xmm3,%xmm10
@@ -11564,215 +11548,215 @@ _sk_load_tables_rgb_u16_be_hsw:
.byte 197,185,108,211 // vpunpcklqdq %xmm3,%xmm8,%xmm2
.byte 197,185,109,219 // vpunpckhqdq %xmm3,%xmm8,%xmm3
.byte 197,113,108,192 // vpunpcklqdq %xmm0,%xmm1,%xmm8
- .byte 197,121,111,13,216,159,2,0 // vmovdqa 0x29fd8(%rip),%xmm9 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 197,121,111,13,0,160,2,0 // vmovdqa 0x2a000(%rip),%xmm9 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,193,105,219,193 // vpand %xmm9,%xmm2,%xmm0
.byte 196,226,125,51,200 // vpmovzxwd %xmm0,%ymm1
.byte 196,65,45,118,210 // vpcmpeqd %ymm10,%ymm10,%ymm10
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
- .byte 76,139,80,16 // mov 0x10(%rax),%r10
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 76,139,72,16 // mov 0x10(%rax),%r9
.byte 197,237,118,210 // vpcmpeqd %ymm2,%ymm2,%ymm2
- .byte 196,194,109,146,4,137 // vgatherdps %ymm2,(%r9,%ymm1,4),%ymm0
+ .byte 196,194,109,146,4,136 // vgatherdps %ymm2,(%r8,%ymm1,4),%ymm0
.byte 196,193,97,219,201 // vpand %xmm9,%xmm3,%xmm1
.byte 196,226,125,51,209 // vpmovzxwd %xmm1,%ymm2
.byte 197,229,118,219 // vpcmpeqd %ymm3,%ymm3,%ymm3
- .byte 196,194,101,146,12,146 // vgatherdps %ymm3,(%r10,%ymm2,4),%ymm1
+ .byte 196,194,101,146,12,145 // vgatherdps %ymm3,(%r9,%ymm2,4),%ymm1
.byte 72,139,64,24 // mov 0x18(%rax),%rax
.byte 196,193,57,219,209 // vpand %xmm9,%xmm8,%xmm2
.byte 196,226,125,51,218 // vpmovzxwd %xmm2,%ymm3
.byte 196,226,45,146,20,152 // vgatherdps %ymm10,(%rax,%ymm3,4),%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,220,149,2,0 // vbroadcastss 0x295dc(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,188,149,2,0 // vbroadcastss 0x295bc(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 255,224 // jmpq *%rax
- .byte 196,129,121,110,4,81 // vmovd (%r9,%r10,2),%xmm0
- .byte 196,1,121,196,92,81,4,2 // vpinsrw $0x2,0x4(%r9,%r10,2),%xmm0,%xmm11
+ .byte 196,129,121,110,4,72 // vmovd (%r8,%r9,2),%xmm0
+ .byte 196,1,121,196,92,72,4,2 // vpinsrw $0x2,0x4(%r8,%r9,2),%xmm0,%xmm11
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,32 // jne 2387 <_sk_load_tables_rgb_u16_be_hsw+0x10c>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,32 // jne 235f <_sk_load_tables_rgb_u16_be_hsw+0x10c>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
.byte 197,225,239,219 // vpxor %xmm3,%xmm3,%xmm3
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 233,59,255,255,255 // jmpq 22c2 <_sk_load_tables_rgb_u16_be_hsw+0x47>
- .byte 196,129,121,110,68,81,6 // vmovd 0x6(%r9,%r10,2),%xmm0
- .byte 196,1,121,196,68,81,10,2 // vpinsrw $0x2,0xa(%r9,%r10,2),%xmm0,%xmm8
+ .byte 233,59,255,255,255 // jmpq 229a <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ .byte 196,129,121,110,68,72,6 // vmovd 0x6(%r8,%r9,2),%xmm0
+ .byte 196,1,121,196,68,72,10,2 // vpinsrw $0x2,0xa(%r8,%r9,2),%xmm0,%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,49 // jb 23d2 <_sk_load_tables_rgb_u16_be_hsw+0x157>
- .byte 196,129,121,110,68,81,12 // vmovd 0xc(%r9,%r10,2),%xmm0
- .byte 196,129,121,196,92,81,16,2 // vpinsrw $0x2,0x10(%r9,%r10,2),%xmm0,%xmm3
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,49 // jb 23aa <_sk_load_tables_rgb_u16_be_hsw+0x157>
+ .byte 196,129,121,110,68,72,12 // vmovd 0xc(%r8,%r9,2),%xmm0
+ .byte 196,129,121,196,92,72,16,2 // vpinsrw $0x2,0x10(%r8,%r9,2),%xmm0,%xmm3
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 117,50 // jne 23ed <_sk_load_tables_rgb_u16_be_hsw+0x172>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 117,50 // jne 23c5 <_sk_load_tables_rgb_u16_be_hsw+0x172>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
- .byte 233,240,254,255,255 // jmpq 22c2 <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ .byte 233,240,254,255,255 // jmpq 229a <_sk_load_tables_rgb_u16_be_hsw+0x47>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
.byte 197,225,239,219 // vpxor %xmm3,%xmm3,%xmm3
- .byte 233,213,254,255,255 // jmpq 22c2 <_sk_load_tables_rgb_u16_be_hsw+0x47>
- .byte 196,129,121,110,68,81,18 // vmovd 0x12(%r9,%r10,2),%xmm0
- .byte 196,1,121,196,84,81,22,2 // vpinsrw $0x2,0x16(%r9,%r10,2),%xmm0,%xmm10
+ .byte 233,213,254,255,255 // jmpq 229a <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ .byte 196,129,121,110,68,72,18 // vmovd 0x12(%r8,%r9,2),%xmm0
+ .byte 196,1,121,196,84,72,22,2 // vpinsrw $0x2,0x16(%r8,%r9,2),%xmm0,%xmm10
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,40 // jb 242f <_sk_load_tables_rgb_u16_be_hsw+0x1b4>
- .byte 196,129,121,110,68,81,24 // vmovd 0x18(%r9,%r10,2),%xmm0
- .byte 196,129,121,196,84,81,28,2 // vpinsrw $0x2,0x1c(%r9,%r10,2),%xmm0,%xmm2
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,40 // jb 2407 <_sk_load_tables_rgb_u16_be_hsw+0x1b4>
+ .byte 196,129,121,110,68,72,24 // vmovd 0x18(%r8,%r9,2),%xmm0
+ .byte 196,129,121,196,84,72,28,2 // vpinsrw $0x2,0x1c(%r8,%r9,2),%xmm0,%xmm2
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 117,32 // jne 2441 <_sk_load_tables_rgb_u16_be_hsw+0x1c6>
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 117,32 // jne 2419 <_sk_load_tables_rgb_u16_be_hsw+0x1c6>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
- .byte 233,147,254,255,255 // jmpq 22c2 <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ .byte 233,147,254,255,255 // jmpq 229a <_sk_load_tables_rgb_u16_be_hsw+0x47>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
- .byte 233,129,254,255,255 // jmpq 22c2 <_sk_load_tables_rgb_u16_be_hsw+0x47>
- .byte 196,129,121,110,68,81,30 // vmovd 0x1e(%r9,%r10,2),%xmm0
- .byte 196,1,121,196,100,81,34,2 // vpinsrw $0x2,0x22(%r9,%r10,2),%xmm0,%xmm12
+ .byte 233,129,254,255,255 // jmpq 229a <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ .byte 196,129,121,110,68,72,30 // vmovd 0x1e(%r8,%r9,2),%xmm0
+ .byte 196,1,121,196,100,72,34,2 // vpinsrw $0x2,0x22(%r8,%r9,2),%xmm0,%xmm12
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 114,25 // jb 2474 <_sk_load_tables_rgb_u16_be_hsw+0x1f9>
- .byte 196,129,121,110,68,81,36 // vmovd 0x24(%r9,%r10,2),%xmm0
- .byte 196,129,121,196,68,81,40,2 // vpinsrw $0x2,0x28(%r9,%r10,2),%xmm0,%xmm0
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 114,25 // jb 244c <_sk_load_tables_rgb_u16_be_hsw+0x1f9>
+ .byte 196,129,121,110,68,72,36 // vmovd 0x24(%r8,%r9,2),%xmm0
+ .byte 196,129,121,196,68,72,40,2 // vpinsrw $0x2,0x28(%r8,%r9,2),%xmm0,%xmm0
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 233,78,254,255,255 // jmpq 22c2 <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ .byte 233,78,254,255,255 // jmpq 229a <_sk_load_tables_rgb_u16_be_hsw+0x47>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 233,69,254,255,255 // jmpq 22c2 <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ .byte 233,69,254,255,255 // jmpq 229a <_sk_load_tables_rgb_u16_be_hsw+0x47>
HIDDEN _sk_byte_tables_hsw
.globl _sk_byte_tables_hsw
FUNCTION(_sk_byte_tables_hsw)
_sk_byte_tables_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,98,125,24,5,204,148,2,0 // vbroadcastss 0x294cc(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 196,98,125,24,5,172,148,2,0 // vbroadcastss 0x294ac(%rip),%ymm8 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
.byte 197,125,91,200 // vcvtps2dq %ymm0,%ymm9
- .byte 196,65,249,126,201 // vmovq %xmm9,%r9
+ .byte 196,65,249,126,200 // vmovq %xmm9,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 76,139,16 // mov (%rax),%r10
+ .byte 196,131,121,32,4,10,0 // vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm0
+ .byte 196,67,249,22,201,1 // vpextrq $0x1,%xmm9,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,3,121,32,20,2,1 // vpinsrb $0x1,(%r10,%r8,1),%xmm0,%xmm10
+ .byte 69,137,200 // mov %r9d,%r8d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,99,125,57,200,1 // vextracti128 $0x1,%ymm9,%xmm0
+ .byte 71,15,182,4,2 // movzbl (%r10,%r8,1),%r8d
+ .byte 196,67,41,32,200,2 // vpinsrb $0x2,%r8d,%xmm10,%xmm9
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
+ .byte 196,67,49,32,201,3 // vpinsrb $0x3,%r9d,%xmm9,%xmm9
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
+ .byte 196,67,49,32,201,4 // vpinsrb $0x4,%r9d,%xmm9,%xmm9
+ .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 71,15,182,4,2 // movzbl (%r10,%r8,1),%r8d
+ .byte 196,195,49,32,192,5 // vpinsrb $0x5,%r8d,%xmm9,%xmm0
+ .byte 69,137,200 // mov %r9d,%r8d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 71,15,182,4,2 // movzbl (%r10,%r8,1),%r8d
+ .byte 196,195,121,32,192,6 // vpinsrb $0x6,%r8d,%xmm0,%xmm0
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
+ .byte 196,67,121,32,201,7 // vpinsrb $0x7,%r9d,%xmm0,%xmm9
+ .byte 196,193,116,89,200 // vmulps %ymm8,%ymm1,%ymm1
+ .byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
.byte 69,137,202 // mov %r9d,%r10d
- .byte 76,139,24 // mov (%rax),%r11
- .byte 196,131,121,32,4,19,0 // vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm0
- .byte 196,67,249,22,202,1 // vpextrq $0x1,%xmm9,%r10
+ .byte 196,131,121,32,4,16,0 // vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm0
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,3,121,32,20,11,1 // vpinsrb $0x1,(%r11,%r9,1),%xmm0,%xmm10
+ .byte 196,131,121,32,4,8,1 // vpinsrb $0x1,(%r8,%r9,1),%xmm0,%xmm0
.byte 69,137,209 // mov %r10d,%r9d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,99,125,57,200,1 // vextracti128 $0x1,%ymm9,%xmm0
- .byte 71,15,182,12,11 // movzbl (%r11,%r9,1),%r9d
- .byte 196,67,41,32,201,2 // vpinsrb $0x2,%r9d,%xmm10,%xmm9
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 71,15,182,20,19 // movzbl (%r11,%r10,1),%r10d
- .byte 196,67,49,32,202,3 // vpinsrb $0x3,%r10d,%xmm9,%xmm9
+ .byte 196,227,125,57,201,1 // vextracti128 $0x1,%ymm1,%xmm1
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,121,32,193,2 // vpinsrb $0x2,%r9d,%xmm0,%xmm0
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 196,195,121,32,194,3 // vpinsrb $0x3,%r10d,%xmm0,%xmm0
.byte 69,137,202 // mov %r9d,%r10d
- .byte 71,15,182,20,19 // movzbl (%r11,%r10,1),%r10d
- .byte 196,67,49,32,202,4 // vpinsrb $0x4,%r10d,%xmm9,%xmm9
- .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 196,195,121,32,194,4 // vpinsrb $0x4,%r10d,%xmm0,%xmm0
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 71,15,182,12,11 // movzbl (%r11,%r9,1),%r9d
- .byte 196,195,49,32,193,5 // vpinsrb $0x5,%r9d,%xmm9,%xmm0
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,121,32,193,5 // vpinsrb $0x5,%r9d,%xmm0,%xmm0
.byte 69,137,209 // mov %r10d,%r9d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 71,15,182,12,11 // movzbl (%r11,%r9,1),%r9d
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
.byte 196,195,121,32,193,6 // vpinsrb $0x6,%r9d,%xmm0,%xmm0
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
- .byte 71,15,182,20,19 // movzbl (%r11,%r10,1),%r10d
- .byte 196,67,121,32,202,7 // vpinsrb $0x7,%r10d,%xmm0,%xmm9
- .byte 196,193,116,89,200 // vmulps %ymm8,%ymm1,%ymm1
- .byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,131,121,32,4,25,0 // vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm0
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,121,32,4,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm0,%xmm0
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,227,125,57,201,1 // vextracti128 $0x1,%ymm1,%xmm1
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,121,32,194,2 // vpinsrb $0x2,%r10d,%xmm0,%xmm0
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 196,195,121,32,195,3 // vpinsrb $0x3,%r11d,%xmm0,%xmm0
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 196,195,121,32,195,4 // vpinsrb $0x4,%r11d,%xmm0,%xmm0
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,121,32,194,5 // vpinsrb $0x5,%r10d,%xmm0,%xmm0
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,121,32,194,6 // vpinsrb $0x6,%r10d,%xmm0,%xmm0
- .byte 71,15,182,12,25 // movzbl (%r9,%r11,1),%r9d
- .byte 196,195,121,32,201,7 // vpinsrb $0x7,%r9d,%xmm0,%xmm1
- .byte 76,139,72,16 // mov 0x10(%rax),%r9
+ .byte 71,15,182,4,16 // movzbl (%r8,%r10,1),%r8d
+ .byte 196,195,121,32,200,7 // vpinsrb $0x7,%r8d,%xmm0,%xmm1
+ .byte 76,139,64,16 // mov 0x10(%rax),%r8
.byte 196,193,108,89,192 // vmulps %ymm8,%ymm2,%ymm0
.byte 197,253,91,192 // vcvtps2dq %ymm0,%ymm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,131,121,32,20,25,0 // vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm2
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 196,131,121,32,20,16,0 // vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm2
+ .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,131,105,32,20,8,1 // vpinsrb $0x1,(%r8,%r9,1),%xmm2,%xmm2
+ .byte 69,137,209 // mov %r10d,%r9d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,105,32,20,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm2
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,105,32,210,2 // vpinsrb $0x2,%r10d,%xmm2,%xmm2
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 196,195,105,32,211,3 // vpinsrb $0x3,%r11d,%xmm2,%xmm2
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 196,195,105,32,211,4 // vpinsrb $0x4,%r11d,%xmm2,%xmm2
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,105,32,209,2 // vpinsrb $0x2,%r9d,%xmm2,%xmm2
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 196,195,105,32,210,3 // vpinsrb $0x3,%r10d,%xmm2,%xmm2
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 196,195,105,32,210,4 // vpinsrb $0x4,%r10d,%xmm2,%xmm2
+ .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,105,32,193,5 // vpinsrb $0x5,%r9d,%xmm2,%xmm0
+ .byte 69,137,209 // mov %r10d,%r9d
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,121,32,193,6 // vpinsrb $0x6,%r9d,%xmm0,%xmm0
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,105,32,194,5 // vpinsrb $0x5,%r10d,%xmm2,%xmm0
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,121,32,194,6 // vpinsrb $0x6,%r10d,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 71,15,182,12,25 // movzbl (%r9,%r11,1),%r9d
- .byte 196,195,121,32,209,7 // vpinsrb $0x7,%r9d,%xmm0,%xmm2
- .byte 76,139,80,24 // mov 0x18(%rax),%r10
+ .byte 71,15,182,4,16 // movzbl (%r8,%r10,1),%r8d
+ .byte 196,195,121,32,208,7 // vpinsrb $0x7,%r8d,%xmm0,%xmm2
+ .byte 76,139,72,24 // mov 0x18(%rax),%r9
.byte 196,193,100,89,192 // vmulps %ymm8,%ymm3,%ymm0
.byte 197,253,91,192 // vcvtps2dq %ymm0,%ymm0
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 68,137,200 // mov %r9d,%eax
- .byte 196,195,121,32,28,2,0 // vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm3
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 196,195,121,32,28,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm3
.byte 196,227,249,22,192,1 // vpextrq $0x1,%xmm0,%rax
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,131,97,32,28,10,1 // vpinsrb $0x1,(%r10,%r9,1),%xmm3,%xmm3
- .byte 65,137,193 // mov %eax,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,131,97,32,28,1,1 // vpinsrb $0x1,(%r9,%r8,1),%xmm3,%xmm3
+ .byte 65,137,192 // mov %eax,%r8d
.byte 72,193,232,32 // shr $0x20,%rax
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
- .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
- .byte 196,195,97,32,217,2 // vpinsrb $0x2,%r9d,%xmm3,%xmm3
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 65,15,182,4,2 // movzbl (%r10,%rax,1),%eax
+ .byte 71,15,182,4,1 // movzbl (%r9,%r8,1),%r8d
+ .byte 196,195,97,32,216,2 // vpinsrb $0x2,%r8d,%xmm3,%xmm3
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
.byte 196,227,97,32,216,3 // vpinsrb $0x3,%eax,%xmm3,%xmm3
- .byte 68,137,200 // mov %r9d,%eax
- .byte 65,15,182,4,2 // movzbl (%r10,%rax,1),%eax
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
.byte 196,227,97,32,216,4 // vpinsrb $0x4,%eax,%xmm3,%xmm3
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 67,15,182,4,10 // movzbl (%r10,%r9,1),%eax
+ .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 67,15,182,4,1 // movzbl (%r9,%r8,1),%eax
.byte 196,227,97,32,192,5 // vpinsrb $0x5,%eax,%xmm3,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,182,4,2 // movzbl (%r10,%rax,1),%eax
+ .byte 68,137,208 // mov %r10d,%eax
+ .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
.byte 196,227,121,32,216,6 // vpinsrb $0x6,%eax,%xmm0,%xmm3
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,182,4,26 // movzbl (%r10,%r11,1),%eax
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 67,15,182,4,17 // movzbl (%r9,%r10,1),%eax
.byte 196,194,125,49,193 // vpmovzxbd %xmm9,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,5,181,146,2,0 // vbroadcastss 0x292b5(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,149,146,2,0 // vbroadcastss 0x29295(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
.byte 196,226,125,49,201 // vpmovzxbd %xmm1,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
@@ -11792,103 +11776,103 @@ HIDDEN _sk_byte_tables_rgb_hsw
FUNCTION(_sk_byte_tables_rgb_hsw)
_sk_byte_tables_rgb_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,24 // mov 0x18(%rax),%r9d
- .byte 65,255,201 // dec %r9d
- .byte 196,65,121,110,193 // vmovd %r9d,%xmm8
+ .byte 68,139,64,24 // mov 0x18(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 196,65,121,110,192 // vmovd %r8d,%xmm8
.byte 196,66,125,88,192 // vpbroadcastd %xmm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 197,125,91,200 // vcvtps2dq %ymm0,%ymm9
- .byte 196,65,249,126,201 // vmovq %xmm9,%r9
+ .byte 196,65,249,126,200 // vmovq %xmm9,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 76,139,16 // mov (%rax),%r10
+ .byte 196,131,121,32,4,10,0 // vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm0
+ .byte 196,67,249,22,201,1 // vpextrq $0x1,%xmm9,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,3,121,32,20,2,1 // vpinsrb $0x1,(%r10,%r8,1),%xmm0,%xmm10
+ .byte 69,137,200 // mov %r9d,%r8d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,99,125,57,200,1 // vextracti128 $0x1,%ymm9,%xmm0
+ .byte 71,15,182,4,2 // movzbl (%r10,%r8,1),%r8d
+ .byte 196,67,41,32,200,2 // vpinsrb $0x2,%r8d,%xmm10,%xmm9
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
+ .byte 196,67,49,32,201,3 // vpinsrb $0x3,%r9d,%xmm9,%xmm9
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
+ .byte 196,67,49,32,201,4 // vpinsrb $0x4,%r9d,%xmm9,%xmm9
+ .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 71,15,182,4,2 // movzbl (%r10,%r8,1),%r8d
+ .byte 196,195,49,32,192,5 // vpinsrb $0x5,%r8d,%xmm9,%xmm0
+ .byte 69,137,200 // mov %r9d,%r8d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 71,15,182,4,2 // movzbl (%r10,%r8,1),%r8d
+ .byte 196,195,121,32,192,6 // vpinsrb $0x6,%r8d,%xmm0,%xmm0
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
+ .byte 196,67,121,32,201,7 // vpinsrb $0x7,%r9d,%xmm0,%xmm9
+ .byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
+ .byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
.byte 69,137,202 // mov %r9d,%r10d
- .byte 76,139,24 // mov (%rax),%r11
- .byte 196,131,121,32,4,19,0 // vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm0
- .byte 196,67,249,22,202,1 // vpextrq $0x1,%xmm9,%r10
+ .byte 196,131,121,32,4,16,0 // vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm0
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,3,121,32,20,11,1 // vpinsrb $0x1,(%r11,%r9,1),%xmm0,%xmm10
+ .byte 196,131,121,32,4,8,1 // vpinsrb $0x1,(%r8,%r9,1),%xmm0,%xmm0
.byte 69,137,209 // mov %r10d,%r9d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,99,125,57,200,1 // vextracti128 $0x1,%ymm9,%xmm0
- .byte 71,15,182,12,11 // movzbl (%r11,%r9,1),%r9d
- .byte 196,67,41,32,201,2 // vpinsrb $0x2,%r9d,%xmm10,%xmm9
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 71,15,182,20,19 // movzbl (%r11,%r10,1),%r10d
- .byte 196,67,49,32,202,3 // vpinsrb $0x3,%r10d,%xmm9,%xmm9
+ .byte 196,227,125,57,201,1 // vextracti128 $0x1,%ymm1,%xmm1
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,121,32,193,2 // vpinsrb $0x2,%r9d,%xmm0,%xmm0
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 196,195,121,32,194,3 // vpinsrb $0x3,%r10d,%xmm0,%xmm0
.byte 69,137,202 // mov %r9d,%r10d
- .byte 71,15,182,20,19 // movzbl (%r11,%r10,1),%r10d
- .byte 196,67,49,32,202,4 // vpinsrb $0x4,%r10d,%xmm9,%xmm9
- .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 196,195,121,32,194,4 // vpinsrb $0x4,%r10d,%xmm0,%xmm0
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 71,15,182,12,11 // movzbl (%r11,%r9,1),%r9d
- .byte 196,195,49,32,193,5 // vpinsrb $0x5,%r9d,%xmm9,%xmm0
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,121,32,193,5 // vpinsrb $0x5,%r9d,%xmm0,%xmm0
.byte 69,137,209 // mov %r10d,%r9d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 71,15,182,12,11 // movzbl (%r11,%r9,1),%r9d
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
.byte 196,195,121,32,193,6 // vpinsrb $0x6,%r9d,%xmm0,%xmm0
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
- .byte 71,15,182,20,19 // movzbl (%r11,%r10,1),%r10d
- .byte 196,67,121,32,202,7 // vpinsrb $0x7,%r10d,%xmm0,%xmm9
- .byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
- .byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,131,121,32,4,25,0 // vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm0
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,121,32,4,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm0,%xmm0
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,227,125,57,201,1 // vextracti128 $0x1,%ymm1,%xmm1
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,121,32,194,2 // vpinsrb $0x2,%r10d,%xmm0,%xmm0
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 196,195,121,32,195,3 // vpinsrb $0x3,%r11d,%xmm0,%xmm0
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 196,195,121,32,195,4 // vpinsrb $0x4,%r11d,%xmm0,%xmm0
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,121,32,194,5 // vpinsrb $0x5,%r10d,%xmm0,%xmm0
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,121,32,194,6 // vpinsrb $0x6,%r10d,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 71,15,182,12,25 // movzbl (%r9,%r11,1),%r9d
- .byte 196,195,121,32,201,7 // vpinsrb $0x7,%r9d,%xmm0,%xmm1
- .byte 76,139,80,16 // mov 0x10(%rax),%r10
+ .byte 71,15,182,4,16 // movzbl (%r8,%r10,1),%r8d
+ .byte 196,195,121,32,200,7 // vpinsrb $0x7,%r8d,%xmm0,%xmm1
+ .byte 76,139,72,16 // mov 0x10(%rax),%r9
.byte 197,188,89,194 // vmulps %ymm2,%ymm8,%ymm0
.byte 197,253,91,192 // vcvtps2dq %ymm0,%ymm0
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 68,137,200 // mov %r9d,%eax
- .byte 196,195,121,32,20,2,0 // vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm2
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 196,195,121,32,20,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
.byte 196,227,249,22,192,1 // vpextrq $0x1,%xmm0,%rax
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,131,105,32,20,10,1 // vpinsrb $0x1,(%r10,%r9,1),%xmm2,%xmm2
- .byte 65,137,193 // mov %eax,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,131,105,32,20,1,1 // vpinsrb $0x1,(%r9,%r8,1),%xmm2,%xmm2
+ .byte 65,137,192 // mov %eax,%r8d
.byte 72,193,232,32 // shr $0x20,%rax
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
- .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
- .byte 196,195,105,32,209,2 // vpinsrb $0x2,%r9d,%xmm2,%xmm2
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 65,15,182,4,2 // movzbl (%r10,%rax,1),%eax
+ .byte 71,15,182,4,1 // movzbl (%r9,%r8,1),%r8d
+ .byte 196,195,105,32,208,2 // vpinsrb $0x2,%r8d,%xmm2,%xmm2
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
.byte 196,227,105,32,208,3 // vpinsrb $0x3,%eax,%xmm2,%xmm2
- .byte 68,137,200 // mov %r9d,%eax
- .byte 65,15,182,4,2 // movzbl (%r10,%rax,1),%eax
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
.byte 196,227,105,32,208,4 // vpinsrb $0x4,%eax,%xmm2,%xmm2
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 67,15,182,4,10 // movzbl (%r10,%r9,1),%eax
+ .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 67,15,182,4,1 // movzbl (%r9,%r8,1),%eax
.byte 196,227,105,32,192,5 // vpinsrb $0x5,%eax,%xmm2,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,182,4,2 // movzbl (%r10,%rax,1),%eax
+ .byte 68,137,208 // mov %r10d,%eax
+ .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
.byte 196,227,121,32,208,6 // vpinsrb $0x6,%eax,%xmm0,%xmm2
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,182,4,26 // movzbl (%r10,%r11,1),%eax
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 67,15,182,4,17 // movzbl (%r9,%r10,1),%eax
.byte 196,194,125,49,193 // vpmovzxbd %xmm9,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,5,157,144,2,0 // vbroadcastss 0x2909d(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,125,144,2,0 // vbroadcastss 0x2907d(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
.byte 196,226,125,49,201 // vpmovzxbd %xmm1,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
@@ -11905,7 +11889,7 @@ HIDDEN _sk_table_r_hsw
FUNCTION(_sk_table_r_hsw)
_sk_table_r_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
@@ -11914,7 +11898,7 @@ _sk_table_r_hsw:
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 197,125,91,192 // vcvtps2dq %ymm0,%ymm8
.byte 196,65,53,118,201 // vpcmpeqd %ymm9,%ymm9,%ymm9
- .byte 196,130,53,146,4,129 // vgatherdps %ymm9,(%r9,%ymm8,4),%ymm0
+ .byte 196,130,53,146,4,128 // vgatherdps %ymm9,(%r8,%ymm8,4),%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -11923,7 +11907,7 @@ HIDDEN _sk_table_g_hsw
FUNCTION(_sk_table_g_hsw)
_sk_table_g_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
@@ -11932,7 +11916,7 @@ _sk_table_g_hsw:
.byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
.byte 197,125,91,193 // vcvtps2dq %ymm1,%ymm8
.byte 196,65,53,118,201 // vpcmpeqd %ymm9,%ymm9,%ymm9
- .byte 196,130,53,146,12,129 // vgatherdps %ymm9,(%r9,%ymm8,4),%ymm1
+ .byte 196,130,53,146,12,128 // vgatherdps %ymm9,(%r8,%ymm8,4),%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -11941,7 +11925,7 @@ HIDDEN _sk_table_b_hsw
FUNCTION(_sk_table_b_hsw)
_sk_table_b_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
@@ -11950,7 +11934,7 @@ _sk_table_b_hsw:
.byte 197,188,89,210 // vmulps %ymm2,%ymm8,%ymm2
.byte 197,125,91,194 // vcvtps2dq %ymm2,%ymm8
.byte 196,65,53,118,201 // vpcmpeqd %ymm9,%ymm9,%ymm9
- .byte 196,130,53,146,20,129 // vgatherdps %ymm9,(%r9,%ymm8,4),%ymm2
+ .byte 196,130,53,146,20,128 // vgatherdps %ymm9,(%r8,%ymm8,4),%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -11959,7 +11943,7 @@ HIDDEN _sk_table_a_hsw
FUNCTION(_sk_table_a_hsw)
_sk_table_a_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
@@ -11968,7 +11952,7 @@ _sk_table_a_hsw:
.byte 197,188,89,219 // vmulps %ymm3,%ymm8,%ymm3
.byte 197,125,91,195 // vcvtps2dq %ymm3,%ymm8
.byte 196,65,53,118,201 // vpcmpeqd %ymm9,%ymm9,%ymm9
- .byte 196,130,53,146,28,129 // vgatherdps %ymm9,(%r9,%ymm8,4),%ymm3
+ .byte 196,130,53,146,28,128 // vgatherdps %ymm9,(%r8,%ymm8,4),%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -11987,33 +11971,33 @@ _sk_parametric_r_hsw:
.byte 196,66,125,168,211 // vfmadd213ps %ymm11,%ymm0,%ymm10
.byte 196,226,125,24,0 // vbroadcastss (%rax),%ymm0
.byte 196,65,124,91,218 // vcvtdq2ps %ymm10,%ymm11
- .byte 196,98,125,24,37,147,143,2,0 // vbroadcastss 0x28f93(%rip),%ymm12 # 2b9bc <_sk_overlay_sse2_8bit+0x4d7>
- .byte 196,98,125,24,45,142,143,2,0 // vbroadcastss 0x28f8e(%rip),%ymm13 # 2b9c0 <_sk_overlay_sse2_8bit+0x4db>
+ .byte 196,98,125,24,37,115,143,2,0 // vbroadcastss 0x28f73(%rip),%ymm12 # 2b974 <_sk_overlay_sse2_8bit+0x4d7>
+ .byte 196,98,125,24,45,110,143,2,0 // vbroadcastss 0x28f6e(%rip),%ymm13 # 2b978 <_sk_overlay_sse2_8bit+0x4db>
.byte 196,65,44,84,213 // vandps %ymm13,%ymm10,%ymm10
- .byte 196,98,125,24,45,228,142,2,0 // vbroadcastss 0x28ee4(%rip),%ymm13 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,45,196,142,2,0 // vbroadcastss 0x28ec4(%rip),%ymm13 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,44,86,213 // vorps %ymm13,%ymm10,%ymm10
- .byte 196,98,125,24,45,118,143,2,0 // vbroadcastss 0x28f76(%rip),%ymm13 # 2b9c4 <_sk_overlay_sse2_8bit+0x4df>
+ .byte 196,98,125,24,45,86,143,2,0 // vbroadcastss 0x28f56(%rip),%ymm13 # 2b97c <_sk_overlay_sse2_8bit+0x4df>
.byte 196,66,37,184,236 // vfmadd231ps %ymm12,%ymm11,%ymm13
- .byte 196,98,125,24,29,108,143,2,0 // vbroadcastss 0x28f6c(%rip),%ymm11 # 2b9c8 <_sk_overlay_sse2_8bit+0x4e3>
+ .byte 196,98,125,24,29,76,143,2,0 // vbroadcastss 0x28f4c(%rip),%ymm11 # 2b980 <_sk_overlay_sse2_8bit+0x4e3>
.byte 196,66,45,172,221 // vfnmadd213ps %ymm13,%ymm10,%ymm11
- .byte 196,98,125,24,37,98,143,2,0 // vbroadcastss 0x28f62(%rip),%ymm12 # 2b9cc <_sk_overlay_sse2_8bit+0x4e7>
+ .byte 196,98,125,24,37,66,143,2,0 // vbroadcastss 0x28f42(%rip),%ymm12 # 2b984 <_sk_overlay_sse2_8bit+0x4e7>
.byte 196,65,44,88,212 // vaddps %ymm12,%ymm10,%ymm10
- .byte 196,98,125,24,37,88,143,2,0 // vbroadcastss 0x28f58(%rip),%ymm12 # 2b9d0 <_sk_overlay_sse2_8bit+0x4eb>
+ .byte 196,98,125,24,37,56,143,2,0 // vbroadcastss 0x28f38(%rip),%ymm12 # 2b988 <_sk_overlay_sse2_8bit+0x4eb>
.byte 196,65,28,94,210 // vdivps %ymm10,%ymm12,%ymm10
.byte 196,65,36,92,210 // vsubps %ymm10,%ymm11,%ymm10
.byte 196,193,124,89,194 // vmulps %ymm10,%ymm0,%ymm0
.byte 196,99,125,8,208,1 // vroundps $0x1,%ymm0,%ymm10
.byte 196,65,124,92,210 // vsubps %ymm10,%ymm0,%ymm10
- .byte 196,98,125,24,29,57,143,2,0 // vbroadcastss 0x28f39(%rip),%ymm11 # 2b9d4 <_sk_overlay_sse2_8bit+0x4ef>
+ .byte 196,98,125,24,29,25,143,2,0 // vbroadcastss 0x28f19(%rip),%ymm11 # 2b98c <_sk_overlay_sse2_8bit+0x4ef>
.byte 196,193,124,88,195 // vaddps %ymm11,%ymm0,%ymm0
- .byte 196,98,125,24,29,47,143,2,0 // vbroadcastss 0x28f2f(%rip),%ymm11 # 2b9d8 <_sk_overlay_sse2_8bit+0x4f3>
+ .byte 196,98,125,24,29,15,143,2,0 // vbroadcastss 0x28f0f(%rip),%ymm11 # 2b990 <_sk_overlay_sse2_8bit+0x4f3>
.byte 196,98,45,172,216 // vfnmadd213ps %ymm0,%ymm10,%ymm11
- .byte 196,226,125,24,5,37,143,2,0 // vbroadcastss 0x28f25(%rip),%ymm0 # 2b9dc <_sk_overlay_sse2_8bit+0x4f7>
+ .byte 196,226,125,24,5,5,143,2,0 // vbroadcastss 0x28f05(%rip),%ymm0 # 2b994 <_sk_overlay_sse2_8bit+0x4f7>
.byte 196,193,124,92,194 // vsubps %ymm10,%ymm0,%ymm0
- .byte 196,98,125,24,21,27,143,2,0 // vbroadcastss 0x28f1b(%rip),%ymm10 # 2b9e0 <_sk_overlay_sse2_8bit+0x4fb>
+ .byte 196,98,125,24,21,251,142,2,0 // vbroadcastss 0x28efb(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4fb>
.byte 197,172,94,192 // vdivps %ymm0,%ymm10,%ymm0
.byte 197,164,88,192 // vaddps %ymm0,%ymm11,%ymm0
- .byte 196,98,125,24,21,14,143,2,0 // vbroadcastss 0x28f0e(%rip),%ymm10 # 2b9e4 <_sk_overlay_sse2_8bit+0x4ff>
+ .byte 196,98,125,24,21,238,142,2,0 // vbroadcastss 0x28eee(%rip),%ymm10 # 2b99c <_sk_overlay_sse2_8bit+0x4ff>
.byte 196,193,124,89,194 // vmulps %ymm10,%ymm0,%ymm0
.byte 197,253,91,192 // vcvtps2dq %ymm0,%ymm0
.byte 196,98,125,24,80,20 // vbroadcastss 0x14(%rax),%ymm10
@@ -12021,7 +12005,7 @@ _sk_parametric_r_hsw:
.byte 196,195,125,74,193,128 // vblendvps %ymm8,%ymm9,%ymm0,%ymm0
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 196,193,124,95,192 // vmaxps %ymm8,%ymm0,%ymm0
- .byte 196,98,125,24,5,37,142,2,0 // vbroadcastss 0x28e25(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,5,142,2,0 // vbroadcastss 0x28e05(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,124,93,192 // vminps %ymm8,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -12041,33 +12025,33 @@ _sk_parametric_g_hsw:
.byte 196,66,117,168,211 // vfmadd213ps %ymm11,%ymm1,%ymm10
.byte 196,226,125,24,8 // vbroadcastss (%rax),%ymm1
.byte 196,65,124,91,218 // vcvtdq2ps %ymm10,%ymm11
- .byte 196,98,125,24,37,109,142,2,0 // vbroadcastss 0x28e6d(%rip),%ymm12 # 2b9bc <_sk_overlay_sse2_8bit+0x4d7>
- .byte 196,98,125,24,45,104,142,2,0 // vbroadcastss 0x28e68(%rip),%ymm13 # 2b9c0 <_sk_overlay_sse2_8bit+0x4db>
+ .byte 196,98,125,24,37,77,142,2,0 // vbroadcastss 0x28e4d(%rip),%ymm12 # 2b974 <_sk_overlay_sse2_8bit+0x4d7>
+ .byte 196,98,125,24,45,72,142,2,0 // vbroadcastss 0x28e48(%rip),%ymm13 # 2b978 <_sk_overlay_sse2_8bit+0x4db>
.byte 196,65,44,84,213 // vandps %ymm13,%ymm10,%ymm10
- .byte 196,98,125,24,45,190,141,2,0 // vbroadcastss 0x28dbe(%rip),%ymm13 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,45,158,141,2,0 // vbroadcastss 0x28d9e(%rip),%ymm13 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,44,86,213 // vorps %ymm13,%ymm10,%ymm10
- .byte 196,98,125,24,45,80,142,2,0 // vbroadcastss 0x28e50(%rip),%ymm13 # 2b9c4 <_sk_overlay_sse2_8bit+0x4df>
+ .byte 196,98,125,24,45,48,142,2,0 // vbroadcastss 0x28e30(%rip),%ymm13 # 2b97c <_sk_overlay_sse2_8bit+0x4df>
.byte 196,66,37,184,236 // vfmadd231ps %ymm12,%ymm11,%ymm13
- .byte 196,98,125,24,29,70,142,2,0 // vbroadcastss 0x28e46(%rip),%ymm11 # 2b9c8 <_sk_overlay_sse2_8bit+0x4e3>
+ .byte 196,98,125,24,29,38,142,2,0 // vbroadcastss 0x28e26(%rip),%ymm11 # 2b980 <_sk_overlay_sse2_8bit+0x4e3>
.byte 196,66,45,172,221 // vfnmadd213ps %ymm13,%ymm10,%ymm11
- .byte 196,98,125,24,37,60,142,2,0 // vbroadcastss 0x28e3c(%rip),%ymm12 # 2b9cc <_sk_overlay_sse2_8bit+0x4e7>
+ .byte 196,98,125,24,37,28,142,2,0 // vbroadcastss 0x28e1c(%rip),%ymm12 # 2b984 <_sk_overlay_sse2_8bit+0x4e7>
.byte 196,65,44,88,212 // vaddps %ymm12,%ymm10,%ymm10
- .byte 196,98,125,24,37,50,142,2,0 // vbroadcastss 0x28e32(%rip),%ymm12 # 2b9d0 <_sk_overlay_sse2_8bit+0x4eb>
+ .byte 196,98,125,24,37,18,142,2,0 // vbroadcastss 0x28e12(%rip),%ymm12 # 2b988 <_sk_overlay_sse2_8bit+0x4eb>
.byte 196,65,28,94,210 // vdivps %ymm10,%ymm12,%ymm10
.byte 196,65,36,92,210 // vsubps %ymm10,%ymm11,%ymm10
.byte 196,193,116,89,202 // vmulps %ymm10,%ymm1,%ymm1
.byte 196,99,125,8,209,1 // vroundps $0x1,%ymm1,%ymm10
.byte 196,65,116,92,210 // vsubps %ymm10,%ymm1,%ymm10
- .byte 196,98,125,24,29,19,142,2,0 // vbroadcastss 0x28e13(%rip),%ymm11 # 2b9d4 <_sk_overlay_sse2_8bit+0x4ef>
+ .byte 196,98,125,24,29,243,141,2,0 // vbroadcastss 0x28df3(%rip),%ymm11 # 2b98c <_sk_overlay_sse2_8bit+0x4ef>
.byte 196,193,116,88,203 // vaddps %ymm11,%ymm1,%ymm1
- .byte 196,98,125,24,29,9,142,2,0 // vbroadcastss 0x28e09(%rip),%ymm11 # 2b9d8 <_sk_overlay_sse2_8bit+0x4f3>
+ .byte 196,98,125,24,29,233,141,2,0 // vbroadcastss 0x28de9(%rip),%ymm11 # 2b990 <_sk_overlay_sse2_8bit+0x4f3>
.byte 196,98,45,172,217 // vfnmadd213ps %ymm1,%ymm10,%ymm11
- .byte 196,226,125,24,13,255,141,2,0 // vbroadcastss 0x28dff(%rip),%ymm1 # 2b9dc <_sk_overlay_sse2_8bit+0x4f7>
+ .byte 196,226,125,24,13,223,141,2,0 // vbroadcastss 0x28ddf(%rip),%ymm1 # 2b994 <_sk_overlay_sse2_8bit+0x4f7>
.byte 196,193,116,92,202 // vsubps %ymm10,%ymm1,%ymm1
- .byte 196,98,125,24,21,245,141,2,0 // vbroadcastss 0x28df5(%rip),%ymm10 # 2b9e0 <_sk_overlay_sse2_8bit+0x4fb>
+ .byte 196,98,125,24,21,213,141,2,0 // vbroadcastss 0x28dd5(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4fb>
.byte 197,172,94,201 // vdivps %ymm1,%ymm10,%ymm1
.byte 197,164,88,201 // vaddps %ymm1,%ymm11,%ymm1
- .byte 196,98,125,24,21,232,141,2,0 // vbroadcastss 0x28de8(%rip),%ymm10 # 2b9e4 <_sk_overlay_sse2_8bit+0x4ff>
+ .byte 196,98,125,24,21,200,141,2,0 // vbroadcastss 0x28dc8(%rip),%ymm10 # 2b99c <_sk_overlay_sse2_8bit+0x4ff>
.byte 196,193,116,89,202 // vmulps %ymm10,%ymm1,%ymm1
.byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
.byte 196,98,125,24,80,20 // vbroadcastss 0x14(%rax),%ymm10
@@ -12075,7 +12059,7 @@ _sk_parametric_g_hsw:
.byte 196,195,117,74,201,128 // vblendvps %ymm8,%ymm9,%ymm1,%ymm1
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 196,193,116,95,200 // vmaxps %ymm8,%ymm1,%ymm1
- .byte 196,98,125,24,5,255,140,2,0 // vbroadcastss 0x28cff(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,223,140,2,0 // vbroadcastss 0x28cdf(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,116,93,200 // vminps %ymm8,%ymm1,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -12095,33 +12079,33 @@ _sk_parametric_b_hsw:
.byte 196,66,109,168,211 // vfmadd213ps %ymm11,%ymm2,%ymm10
.byte 196,226,125,24,16 // vbroadcastss (%rax),%ymm2
.byte 196,65,124,91,218 // vcvtdq2ps %ymm10,%ymm11
- .byte 196,98,125,24,37,71,141,2,0 // vbroadcastss 0x28d47(%rip),%ymm12 # 2b9bc <_sk_overlay_sse2_8bit+0x4d7>
- .byte 196,98,125,24,45,66,141,2,0 // vbroadcastss 0x28d42(%rip),%ymm13 # 2b9c0 <_sk_overlay_sse2_8bit+0x4db>
+ .byte 196,98,125,24,37,39,141,2,0 // vbroadcastss 0x28d27(%rip),%ymm12 # 2b974 <_sk_overlay_sse2_8bit+0x4d7>
+ .byte 196,98,125,24,45,34,141,2,0 // vbroadcastss 0x28d22(%rip),%ymm13 # 2b978 <_sk_overlay_sse2_8bit+0x4db>
.byte 196,65,44,84,213 // vandps %ymm13,%ymm10,%ymm10
- .byte 196,98,125,24,45,152,140,2,0 // vbroadcastss 0x28c98(%rip),%ymm13 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,45,120,140,2,0 // vbroadcastss 0x28c78(%rip),%ymm13 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,44,86,213 // vorps %ymm13,%ymm10,%ymm10
- .byte 196,98,125,24,45,42,141,2,0 // vbroadcastss 0x28d2a(%rip),%ymm13 # 2b9c4 <_sk_overlay_sse2_8bit+0x4df>
+ .byte 196,98,125,24,45,10,141,2,0 // vbroadcastss 0x28d0a(%rip),%ymm13 # 2b97c <_sk_overlay_sse2_8bit+0x4df>
.byte 196,66,37,184,236 // vfmadd231ps %ymm12,%ymm11,%ymm13
- .byte 196,98,125,24,29,32,141,2,0 // vbroadcastss 0x28d20(%rip),%ymm11 # 2b9c8 <_sk_overlay_sse2_8bit+0x4e3>
+ .byte 196,98,125,24,29,0,141,2,0 // vbroadcastss 0x28d00(%rip),%ymm11 # 2b980 <_sk_overlay_sse2_8bit+0x4e3>
.byte 196,66,45,172,221 // vfnmadd213ps %ymm13,%ymm10,%ymm11
- .byte 196,98,125,24,37,22,141,2,0 // vbroadcastss 0x28d16(%rip),%ymm12 # 2b9cc <_sk_overlay_sse2_8bit+0x4e7>
+ .byte 196,98,125,24,37,246,140,2,0 // vbroadcastss 0x28cf6(%rip),%ymm12 # 2b984 <_sk_overlay_sse2_8bit+0x4e7>
.byte 196,65,44,88,212 // vaddps %ymm12,%ymm10,%ymm10
- .byte 196,98,125,24,37,12,141,2,0 // vbroadcastss 0x28d0c(%rip),%ymm12 # 2b9d0 <_sk_overlay_sse2_8bit+0x4eb>
+ .byte 196,98,125,24,37,236,140,2,0 // vbroadcastss 0x28cec(%rip),%ymm12 # 2b988 <_sk_overlay_sse2_8bit+0x4eb>
.byte 196,65,28,94,210 // vdivps %ymm10,%ymm12,%ymm10
.byte 196,65,36,92,210 // vsubps %ymm10,%ymm11,%ymm10
.byte 196,193,108,89,210 // vmulps %ymm10,%ymm2,%ymm2
.byte 196,99,125,8,210,1 // vroundps $0x1,%ymm2,%ymm10
.byte 196,65,108,92,210 // vsubps %ymm10,%ymm2,%ymm10
- .byte 196,98,125,24,29,237,140,2,0 // vbroadcastss 0x28ced(%rip),%ymm11 # 2b9d4 <_sk_overlay_sse2_8bit+0x4ef>
+ .byte 196,98,125,24,29,205,140,2,0 // vbroadcastss 0x28ccd(%rip),%ymm11 # 2b98c <_sk_overlay_sse2_8bit+0x4ef>
.byte 196,193,108,88,211 // vaddps %ymm11,%ymm2,%ymm2
- .byte 196,98,125,24,29,227,140,2,0 // vbroadcastss 0x28ce3(%rip),%ymm11 # 2b9d8 <_sk_overlay_sse2_8bit+0x4f3>
+ .byte 196,98,125,24,29,195,140,2,0 // vbroadcastss 0x28cc3(%rip),%ymm11 # 2b990 <_sk_overlay_sse2_8bit+0x4f3>
.byte 196,98,45,172,218 // vfnmadd213ps %ymm2,%ymm10,%ymm11
- .byte 196,226,125,24,21,217,140,2,0 // vbroadcastss 0x28cd9(%rip),%ymm2 # 2b9dc <_sk_overlay_sse2_8bit+0x4f7>
+ .byte 196,226,125,24,21,185,140,2,0 // vbroadcastss 0x28cb9(%rip),%ymm2 # 2b994 <_sk_overlay_sse2_8bit+0x4f7>
.byte 196,193,108,92,210 // vsubps %ymm10,%ymm2,%ymm2
- .byte 196,98,125,24,21,207,140,2,0 // vbroadcastss 0x28ccf(%rip),%ymm10 # 2b9e0 <_sk_overlay_sse2_8bit+0x4fb>
+ .byte 196,98,125,24,21,175,140,2,0 // vbroadcastss 0x28caf(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4fb>
.byte 197,172,94,210 // vdivps %ymm2,%ymm10,%ymm2
.byte 197,164,88,210 // vaddps %ymm2,%ymm11,%ymm2
- .byte 196,98,125,24,21,194,140,2,0 // vbroadcastss 0x28cc2(%rip),%ymm10 # 2b9e4 <_sk_overlay_sse2_8bit+0x4ff>
+ .byte 196,98,125,24,21,162,140,2,0 // vbroadcastss 0x28ca2(%rip),%ymm10 # 2b99c <_sk_overlay_sse2_8bit+0x4ff>
.byte 196,193,108,89,210 // vmulps %ymm10,%ymm2,%ymm2
.byte 197,253,91,210 // vcvtps2dq %ymm2,%ymm2
.byte 196,98,125,24,80,20 // vbroadcastss 0x14(%rax),%ymm10
@@ -12129,7 +12113,7 @@ _sk_parametric_b_hsw:
.byte 196,195,109,74,209,128 // vblendvps %ymm8,%ymm9,%ymm2,%ymm2
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 196,193,108,95,208 // vmaxps %ymm8,%ymm2,%ymm2
- .byte 196,98,125,24,5,217,139,2,0 // vbroadcastss 0x28bd9(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,185,139,2,0 // vbroadcastss 0x28bb9(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,108,93,208 // vminps %ymm8,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -12149,33 +12133,33 @@ _sk_parametric_a_hsw:
.byte 196,66,101,168,211 // vfmadd213ps %ymm11,%ymm3,%ymm10
.byte 196,226,125,24,24 // vbroadcastss (%rax),%ymm3
.byte 196,65,124,91,218 // vcvtdq2ps %ymm10,%ymm11
- .byte 196,98,125,24,37,33,140,2,0 // vbroadcastss 0x28c21(%rip),%ymm12 # 2b9bc <_sk_overlay_sse2_8bit+0x4d7>
- .byte 196,98,125,24,45,28,140,2,0 // vbroadcastss 0x28c1c(%rip),%ymm13 # 2b9c0 <_sk_overlay_sse2_8bit+0x4db>
+ .byte 196,98,125,24,37,1,140,2,0 // vbroadcastss 0x28c01(%rip),%ymm12 # 2b974 <_sk_overlay_sse2_8bit+0x4d7>
+ .byte 196,98,125,24,45,252,139,2,0 // vbroadcastss 0x28bfc(%rip),%ymm13 # 2b978 <_sk_overlay_sse2_8bit+0x4db>
.byte 196,65,44,84,213 // vandps %ymm13,%ymm10,%ymm10
- .byte 196,98,125,24,45,114,139,2,0 // vbroadcastss 0x28b72(%rip),%ymm13 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,45,82,139,2,0 // vbroadcastss 0x28b52(%rip),%ymm13 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,44,86,213 // vorps %ymm13,%ymm10,%ymm10
- .byte 196,98,125,24,45,4,140,2,0 // vbroadcastss 0x28c04(%rip),%ymm13 # 2b9c4 <_sk_overlay_sse2_8bit+0x4df>
+ .byte 196,98,125,24,45,228,139,2,0 // vbroadcastss 0x28be4(%rip),%ymm13 # 2b97c <_sk_overlay_sse2_8bit+0x4df>
.byte 196,66,37,184,236 // vfmadd231ps %ymm12,%ymm11,%ymm13
- .byte 196,98,125,24,29,250,139,2,0 // vbroadcastss 0x28bfa(%rip),%ymm11 # 2b9c8 <_sk_overlay_sse2_8bit+0x4e3>
+ .byte 196,98,125,24,29,218,139,2,0 // vbroadcastss 0x28bda(%rip),%ymm11 # 2b980 <_sk_overlay_sse2_8bit+0x4e3>
.byte 196,66,45,172,221 // vfnmadd213ps %ymm13,%ymm10,%ymm11
- .byte 196,98,125,24,37,240,139,2,0 // vbroadcastss 0x28bf0(%rip),%ymm12 # 2b9cc <_sk_overlay_sse2_8bit+0x4e7>
+ .byte 196,98,125,24,37,208,139,2,0 // vbroadcastss 0x28bd0(%rip),%ymm12 # 2b984 <_sk_overlay_sse2_8bit+0x4e7>
.byte 196,65,44,88,212 // vaddps %ymm12,%ymm10,%ymm10
- .byte 196,98,125,24,37,230,139,2,0 // vbroadcastss 0x28be6(%rip),%ymm12 # 2b9d0 <_sk_overlay_sse2_8bit+0x4eb>
+ .byte 196,98,125,24,37,198,139,2,0 // vbroadcastss 0x28bc6(%rip),%ymm12 # 2b988 <_sk_overlay_sse2_8bit+0x4eb>
.byte 196,65,28,94,210 // vdivps %ymm10,%ymm12,%ymm10
.byte 196,65,36,92,210 // vsubps %ymm10,%ymm11,%ymm10
.byte 196,193,100,89,218 // vmulps %ymm10,%ymm3,%ymm3
.byte 196,99,125,8,211,1 // vroundps $0x1,%ymm3,%ymm10
.byte 196,65,100,92,210 // vsubps %ymm10,%ymm3,%ymm10
- .byte 196,98,125,24,29,199,139,2,0 // vbroadcastss 0x28bc7(%rip),%ymm11 # 2b9d4 <_sk_overlay_sse2_8bit+0x4ef>
+ .byte 196,98,125,24,29,167,139,2,0 // vbroadcastss 0x28ba7(%rip),%ymm11 # 2b98c <_sk_overlay_sse2_8bit+0x4ef>
.byte 196,193,100,88,219 // vaddps %ymm11,%ymm3,%ymm3
- .byte 196,98,125,24,29,189,139,2,0 // vbroadcastss 0x28bbd(%rip),%ymm11 # 2b9d8 <_sk_overlay_sse2_8bit+0x4f3>
+ .byte 196,98,125,24,29,157,139,2,0 // vbroadcastss 0x28b9d(%rip),%ymm11 # 2b990 <_sk_overlay_sse2_8bit+0x4f3>
.byte 196,98,45,172,219 // vfnmadd213ps %ymm3,%ymm10,%ymm11
- .byte 196,226,125,24,29,179,139,2,0 // vbroadcastss 0x28bb3(%rip),%ymm3 # 2b9dc <_sk_overlay_sse2_8bit+0x4f7>
+ .byte 196,226,125,24,29,147,139,2,0 // vbroadcastss 0x28b93(%rip),%ymm3 # 2b994 <_sk_overlay_sse2_8bit+0x4f7>
.byte 196,193,100,92,218 // vsubps %ymm10,%ymm3,%ymm3
- .byte 196,98,125,24,21,169,139,2,0 // vbroadcastss 0x28ba9(%rip),%ymm10 # 2b9e0 <_sk_overlay_sse2_8bit+0x4fb>
+ .byte 196,98,125,24,21,137,139,2,0 // vbroadcastss 0x28b89(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4fb>
.byte 197,172,94,219 // vdivps %ymm3,%ymm10,%ymm3
.byte 197,164,88,219 // vaddps %ymm3,%ymm11,%ymm3
- .byte 196,98,125,24,21,156,139,2,0 // vbroadcastss 0x28b9c(%rip),%ymm10 # 2b9e4 <_sk_overlay_sse2_8bit+0x4ff>
+ .byte 196,98,125,24,21,124,139,2,0 // vbroadcastss 0x28b7c(%rip),%ymm10 # 2b99c <_sk_overlay_sse2_8bit+0x4ff>
.byte 196,193,100,89,218 // vmulps %ymm10,%ymm3,%ymm3
.byte 197,253,91,219 // vcvtps2dq %ymm3,%ymm3
.byte 196,98,125,24,80,20 // vbroadcastss 0x14(%rax),%ymm10
@@ -12183,7 +12167,7 @@ _sk_parametric_a_hsw:
.byte 196,195,101,74,217,128 // vblendvps %ymm8,%ymm9,%ymm3,%ymm3
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 196,193,100,95,216 // vmaxps %ymm8,%ymm3,%ymm3
- .byte 196,98,125,24,5,179,138,2,0 // vbroadcastss 0x28ab3(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,147,138,2,0 // vbroadcastss 0x28a93(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,100,93,216 // vminps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -12202,35 +12186,35 @@ _sk_gamma_hsw:
.byte 197,252,40,241 // vmovaps %ymm1,%ymm6
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,124,91,208 // vcvtdq2ps %ymm0,%ymm10
- .byte 196,98,125,24,29,6,139,2,0 // vbroadcastss 0x28b06(%rip),%ymm11 # 2b9bc <_sk_overlay_sse2_8bit+0x4d7>
- .byte 196,226,125,24,45,1,139,2,0 // vbroadcastss 0x28b01(%rip),%ymm5 # 2b9c0 <_sk_overlay_sse2_8bit+0x4db>
+ .byte 196,98,125,24,29,230,138,2,0 // vbroadcastss 0x28ae6(%rip),%ymm11 # 2b974 <_sk_overlay_sse2_8bit+0x4d7>
+ .byte 196,226,125,24,45,225,138,2,0 // vbroadcastss 0x28ae1(%rip),%ymm5 # 2b978 <_sk_overlay_sse2_8bit+0x4db>
.byte 197,124,84,205 // vandps %ymm5,%ymm0,%ymm9
- .byte 196,226,125,24,37,88,138,2,0 // vbroadcastss 0x28a58(%rip),%ymm4 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,226,125,24,37,56,138,2,0 // vbroadcastss 0x28a38(%rip),%ymm4 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,52,86,228 // vorps %ymm4,%ymm9,%ymm12
- .byte 196,98,125,24,45,235,138,2,0 // vbroadcastss 0x28aeb(%rip),%ymm13 # 2b9c4 <_sk_overlay_sse2_8bit+0x4df>
+ .byte 196,98,125,24,45,203,138,2,0 // vbroadcastss 0x28acb(%rip),%ymm13 # 2b97c <_sk_overlay_sse2_8bit+0x4df>
.byte 196,66,37,168,213 // vfmadd213ps %ymm13,%ymm11,%ymm10
- .byte 196,98,125,24,13,225,138,2,0 // vbroadcastss 0x28ae1(%rip),%ymm9 # 2b9c8 <_sk_overlay_sse2_8bit+0x4e3>
+ .byte 196,98,125,24,13,193,138,2,0 // vbroadcastss 0x28ac1(%rip),%ymm9 # 2b980 <_sk_overlay_sse2_8bit+0x4e3>
.byte 196,66,29,188,209 // vfnmadd231ps %ymm9,%ymm12,%ymm10
.byte 197,124,91,246 // vcvtdq2ps %ymm6,%ymm14
.byte 196,66,37,168,245 // vfmadd213ps %ymm13,%ymm11,%ymm14
.byte 197,124,91,255 // vcvtdq2ps %ymm7,%ymm15
.byte 196,66,37,168,253 // vfmadd213ps %ymm13,%ymm11,%ymm15
- .byte 196,98,125,24,29,197,138,2,0 // vbroadcastss 0x28ac5(%rip),%ymm11 # 2b9cc <_sk_overlay_sse2_8bit+0x4e7>
+ .byte 196,98,125,24,29,165,138,2,0 // vbroadcastss 0x28aa5(%rip),%ymm11 # 2b984 <_sk_overlay_sse2_8bit+0x4e7>
.byte 196,65,28,88,227 // vaddps %ymm11,%ymm12,%ymm12
- .byte 196,98,125,24,45,187,138,2,0 // vbroadcastss 0x28abb(%rip),%ymm13 # 2b9d0 <_sk_overlay_sse2_8bit+0x4eb>
+ .byte 196,98,125,24,45,155,138,2,0 // vbroadcastss 0x28a9b(%rip),%ymm13 # 2b988 <_sk_overlay_sse2_8bit+0x4eb>
.byte 196,65,20,94,228 // vdivps %ymm12,%ymm13,%ymm12
.byte 196,65,44,92,212 // vsubps %ymm12,%ymm10,%ymm10
.byte 196,98,125,24,32 // vbroadcastss (%rax),%ymm12
.byte 196,65,44,89,212 // vmulps %ymm12,%ymm10,%ymm10
.byte 196,67,125,8,194,1 // vroundps $0x1,%ymm10,%ymm8
.byte 196,65,44,92,192 // vsubps %ymm8,%ymm10,%ymm8
- .byte 196,226,125,24,21,151,138,2,0 // vbroadcastss 0x28a97(%rip),%ymm2 # 2b9d4 <_sk_overlay_sse2_8bit+0x4ef>
+ .byte 196,226,125,24,21,119,138,2,0 // vbroadcastss 0x28a77(%rip),%ymm2 # 2b98c <_sk_overlay_sse2_8bit+0x4ef>
.byte 197,44,88,210 // vaddps %ymm2,%ymm10,%ymm10
- .byte 196,226,125,24,29,142,138,2,0 // vbroadcastss 0x28a8e(%rip),%ymm3 # 2b9d8 <_sk_overlay_sse2_8bit+0x4f3>
+ .byte 196,226,125,24,29,110,138,2,0 // vbroadcastss 0x28a6e(%rip),%ymm3 # 2b990 <_sk_overlay_sse2_8bit+0x4f3>
.byte 196,98,61,188,211 // vfnmadd231ps %ymm3,%ymm8,%ymm10
- .byte 196,226,125,24,13,132,138,2,0 // vbroadcastss 0x28a84(%rip),%ymm1 # 2b9dc <_sk_overlay_sse2_8bit+0x4f7>
+ .byte 196,226,125,24,13,100,138,2,0 // vbroadcastss 0x28a64(%rip),%ymm1 # 2b994 <_sk_overlay_sse2_8bit+0x4f7>
.byte 196,65,116,92,192 // vsubps %ymm8,%ymm1,%ymm8
- .byte 196,226,125,24,5,122,138,2,0 // vbroadcastss 0x28a7a(%rip),%ymm0 # 2b9e0 <_sk_overlay_sse2_8bit+0x4fb>
+ .byte 196,226,125,24,5,90,138,2,0 // vbroadcastss 0x28a5a(%rip),%ymm0 # 2b998 <_sk_overlay_sse2_8bit+0x4fb>
.byte 196,65,124,94,192 // vdivps %ymm8,%ymm0,%ymm8
.byte 196,65,44,88,192 // vaddps %ymm8,%ymm10,%ymm8
.byte 197,204,84,245 // vandps %ymm5,%ymm6,%ymm6
@@ -12261,7 +12245,7 @@ _sk_gamma_hsw:
.byte 197,244,92,205 // vsubps %ymm5,%ymm1,%ymm1
.byte 197,252,94,193 // vdivps %ymm1,%ymm0,%ymm0
.byte 197,236,88,192 // vaddps %ymm0,%ymm2,%ymm0
- .byte 196,226,125,24,13,235,137,2,0 // vbroadcastss 0x289eb(%rip),%ymm1 # 2b9e4 <_sk_overlay_sse2_8bit+0x4ff>
+ .byte 196,226,125,24,13,203,137,2,0 // vbroadcastss 0x289cb(%rip),%ymm1 # 2b99c <_sk_overlay_sse2_8bit+0x4ff>
.byte 197,188,89,209 // vmulps %ymm1,%ymm8,%ymm2
.byte 197,204,89,217 // vmulps %ymm1,%ymm6,%ymm3
.byte 197,252,89,225 // vmulps %ymm1,%ymm0,%ymm4
@@ -12281,26 +12265,26 @@ HIDDEN _sk_lab_to_xyz_hsw
.globl _sk_lab_to_xyz_hsw
FUNCTION(_sk_lab_to_xyz_hsw)
_sk_lab_to_xyz_hsw:
- .byte 196,98,125,24,5,169,137,2,0 // vbroadcastss 0x289a9(%rip),%ymm8 # 2b9e8 <_sk_overlay_sse2_8bit+0x503>
- .byte 196,98,125,24,13,12,137,2,0 // vbroadcastss 0x2890c(%rip),%ymm9 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
- .byte 196,98,125,24,21,155,137,2,0 // vbroadcastss 0x2899b(%rip),%ymm10 # 2b9ec <_sk_overlay_sse2_8bit+0x507>
+ .byte 196,98,125,24,5,137,137,2,0 // vbroadcastss 0x28989(%rip),%ymm8 # 2b9a0 <_sk_overlay_sse2_8bit+0x503>
+ .byte 196,98,125,24,13,236,136,2,0 // vbroadcastss 0x288ec(%rip),%ymm9 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
+ .byte 196,98,125,24,21,123,137,2,0 // vbroadcastss 0x2897b(%rip),%ymm10 # 2b9a4 <_sk_overlay_sse2_8bit+0x507>
.byte 196,194,53,168,202 // vfmadd213ps %ymm10,%ymm9,%ymm1
.byte 196,194,53,168,210 // vfmadd213ps %ymm10,%ymm9,%ymm2
- .byte 196,98,125,24,13,140,137,2,0 // vbroadcastss 0x2898c(%rip),%ymm9 # 2b9f0 <_sk_overlay_sse2_8bit+0x50b>
+ .byte 196,98,125,24,13,108,137,2,0 // vbroadcastss 0x2896c(%rip),%ymm9 # 2b9a8 <_sk_overlay_sse2_8bit+0x50b>
.byte 196,66,125,184,200 // vfmadd231ps %ymm8,%ymm0,%ymm9
- .byte 196,226,125,24,5,130,137,2,0 // vbroadcastss 0x28982(%rip),%ymm0 # 2b9f4 <_sk_overlay_sse2_8bit+0x50f>
+ .byte 196,226,125,24,5,98,137,2,0 // vbroadcastss 0x28962(%rip),%ymm0 # 2b9ac <_sk_overlay_sse2_8bit+0x50f>
.byte 197,180,89,192 // vmulps %ymm0,%ymm9,%ymm0
- .byte 196,98,125,24,5,121,137,2,0 // vbroadcastss 0x28979(%rip),%ymm8 # 2b9f8 <_sk_overlay_sse2_8bit+0x513>
+ .byte 196,98,125,24,5,89,137,2,0 // vbroadcastss 0x28959(%rip),%ymm8 # 2b9b0 <_sk_overlay_sse2_8bit+0x513>
.byte 196,98,117,168,192 // vfmadd213ps %ymm0,%ymm1,%ymm8
- .byte 196,98,125,24,13,111,137,2,0 // vbroadcastss 0x2896f(%rip),%ymm9 # 2b9fc <_sk_overlay_sse2_8bit+0x517>
+ .byte 196,98,125,24,13,79,137,2,0 // vbroadcastss 0x2894f(%rip),%ymm9 # 2b9b4 <_sk_overlay_sse2_8bit+0x517>
.byte 196,98,109,172,200 // vfnmadd213ps %ymm0,%ymm2,%ymm9
.byte 196,193,60,89,200 // vmulps %ymm8,%ymm8,%ymm1
.byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
- .byte 196,226,125,24,21,92,137,2,0 // vbroadcastss 0x2895c(%rip),%ymm2 # 2ba00 <_sk_overlay_sse2_8bit+0x51b>
+ .byte 196,226,125,24,21,60,137,2,0 // vbroadcastss 0x2893c(%rip),%ymm2 # 2b9b8 <_sk_overlay_sse2_8bit+0x51b>
.byte 197,108,194,209,1 // vcmpltps %ymm1,%ymm2,%ymm10
- .byte 196,98,125,24,29,82,137,2,0 // vbroadcastss 0x28952(%rip),%ymm11 # 2ba04 <_sk_overlay_sse2_8bit+0x51f>
+ .byte 196,98,125,24,29,50,137,2,0 // vbroadcastss 0x28932(%rip),%ymm11 # 2b9bc <_sk_overlay_sse2_8bit+0x51f>
.byte 196,65,60,88,195 // vaddps %ymm11,%ymm8,%ymm8
- .byte 196,98,125,24,37,72,137,2,0 // vbroadcastss 0x28948(%rip),%ymm12 # 2ba08 <_sk_overlay_sse2_8bit+0x523>
+ .byte 196,98,125,24,37,40,137,2,0 // vbroadcastss 0x28928(%rip),%ymm12 # 2b9c0 <_sk_overlay_sse2_8bit+0x523>
.byte 196,65,60,89,196 // vmulps %ymm12,%ymm8,%ymm8
.byte 196,99,61,74,193,160 // vblendvps %ymm10,%ymm1,%ymm8,%ymm8
.byte 197,252,89,200 // vmulps %ymm0,%ymm0,%ymm1
@@ -12315,9 +12299,9 @@ _sk_lab_to_xyz_hsw:
.byte 196,65,52,88,203 // vaddps %ymm11,%ymm9,%ymm9
.byte 196,65,52,89,204 // vmulps %ymm12,%ymm9,%ymm9
.byte 196,227,53,74,208,32 // vblendvps %ymm2,%ymm0,%ymm9,%ymm2
- .byte 196,226,125,24,5,253,136,2,0 // vbroadcastss 0x288fd(%rip),%ymm0 # 2ba0c <_sk_overlay_sse2_8bit+0x527>
+ .byte 196,226,125,24,5,221,136,2,0 // vbroadcastss 0x288dd(%rip),%ymm0 # 2b9c4 <_sk_overlay_sse2_8bit+0x527>
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
- .byte 196,98,125,24,5,244,136,2,0 // vbroadcastss 0x288f4(%rip),%ymm8 # 2ba10 <_sk_overlay_sse2_8bit+0x52b>
+ .byte 196,98,125,24,5,212,136,2,0 // vbroadcastss 0x288d4(%rip),%ymm8 # 2b9c8 <_sk_overlay_sse2_8bit+0x52b>
.byte 196,193,108,89,208 // vmulps %ymm8,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -12326,77 +12310,73 @@ HIDDEN _sk_load_a8_hsw
.globl _sk_load_a8_hsw
FUNCTION(_sk_load_a8_hsw)
_sk_load_a8_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,53 // jne 3173 <_sk_load_a8_hsw+0x4e>
- .byte 196,194,121,48,4,25 // vpmovzxbw (%r9,%rbx,1),%xmm0
- .byte 197,249,219,5,132,145,2,0 // vpand 0x29184(%rip),%xmm0,%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,52 // jne 3149 <_sk_load_a8_hsw+0x4c>
+ .byte 196,130,121,48,4,24 // vpmovzxbw (%r8,%r11,1),%xmm0
+ .byte 197,249,219,5,173,145,2,0 // vpand 0x291ad(%rip),%xmm0,%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,226,125,51,192 // vpmovzxwd %xmm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,62,136,2,0 // vbroadcastss 0x2883e(%rip),%ymm1 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,13,31,136,2,0 // vbroadcastss 0x2881f(%rip),%ymm1 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,252,89,217 // vmulps %ymm1,%ymm0,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,87,192 // vxorps %ymm0,%ymm0,%ymm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 197,236,87,210 // vxorps %ymm2,%ymm2,%ymm2
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,189 // ja 3144 <_sk_load_a8_hsw+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,122,0,0,0 // lea 0x7a(%rip),%r11 # 320c <_sk_load_a8_hsw+0xe7>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,190 // ja 311b <_sk_load_a8_hsw+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,120,0,0,0 // lea 0x78(%rip),%r10 # 31e0 <_sk_load_a8_hsw+0xe3>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,249,110,192 // vmovd %eax,%xmm0
- .byte 235,158 // jmp 3144 <_sk_load_a8_hsw+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,159 // jmp 311b <_sk_load_a8_hsw+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 197,249,196,192,2 // vpinsrw $0x2,%eax,%xmm0,%xmm0
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,249,110,200 // vmovd %eax,%xmm1
.byte 196,226,121,48,201 // vpmovzxbw %xmm1,%xmm1
.byte 196,227,121,2,193,1 // vpblendd $0x1,%xmm1,%xmm0,%xmm0
- .byte 233,118,255,255,255 // jmpq 3144 <_sk_load_a8_hsw+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,119,255,255,255 // jmpq 311b <_sk_load_a8_hsw+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 197,249,196,192,6 // vpinsrw $0x6,%eax,%xmm0,%xmm0
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,249,196,192,5 // vpinsrw $0x5,%eax,%xmm0,%xmm0
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,249,196,192,4 // vpinsrw $0x4,%eax,%xmm0,%xmm0
- .byte 196,193,121,110,12,25 // vmovd (%r9,%rbx,1),%xmm1
+ .byte 196,129,121,110,12,24 // vmovd (%r8,%r11,1),%xmm1
.byte 196,226,121,48,201 // vpmovzxbw %xmm1,%xmm1
.byte 196,227,113,2,192,12 // vpblendd $0xc,%xmm0,%xmm1,%xmm0
- .byte 233,59,255,255,255 // jmpq 3144 <_sk_load_a8_hsw+0x1f>
- .byte 15,31,0 // nopl (%rax)
- .byte 143 // (bad)
- .byte 255 // (bad)
+ .byte 233,60,255,255,255 // jmpq 311b <_sk_load_a8_hsw+0x1e>
+ .byte 144 // nop
+ .byte 145 // xchg %eax,%ecx
.byte 255 // (bad)
- .byte 255,169,255,255,255,154 // ljmp *-0x65000001(%rcx)
.byte 255 // (bad)
+ .byte 255,171,255,255,255,156 // ljmp *-0x63000001(%rbx)
.byte 255 // (bad)
- .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 233,255,255,255,222 // jmpq ffffffffdf0031f0 <_sk_overlay_sse2_8bit+0xffffffffdefd7d53>
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
.byte 255 // (bad)
- .byte 255,209 // callq *%rcx
+ .byte 255,211 // callq *%rbx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,194 // inc %edx
+ .byte 255,196 // inc %esp
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -12405,76 +12385,73 @@ HIDDEN _sk_load_a8_dst_hsw
.globl _sk_load_a8_dst_hsw
FUNCTION(_sk_load_a8_dst_hsw)
_sk_load_a8_dst_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,53 // jne 3276 <_sk_load_a8_dst_hsw+0x4e>
- .byte 196,194,121,48,36,25 // vpmovzxbw (%r9,%rbx,1),%xmm4
- .byte 197,217,219,37,129,144,2,0 // vpand 0x29081(%rip),%xmm4,%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,52 // jne 3248 <_sk_load_a8_dst_hsw+0x4c>
+ .byte 196,130,121,48,36,24 // vpmovzxbw (%r8,%r11,1),%xmm4
+ .byte 197,217,219,37,174,144,2,0 // vpand 0x290ae(%rip),%xmm4,%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,226,125,51,228 // vpmovzxwd %xmm4,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,226,125,24,45,59,135,2,0 // vbroadcastss 0x2873b(%rip),%ymm5 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,45,32,135,2,0 // vbroadcastss 0x28720(%rip),%ymm5 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,220,89,253 // vmulps %ymm5,%ymm4,%ymm7
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,220,87,228 // vxorps %ymm4,%ymm4,%ymm4
.byte 197,212,87,237 // vxorps %ymm5,%ymm5,%ymm5
.byte 197,204,87,246 // vxorps %ymm6,%ymm6,%ymm6
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,189 // ja 3247 <_sk_load_a8_dst_hsw+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,119,0,0,0 // lea 0x77(%rip),%r11 # 330c <_sk_load_a8_dst_hsw+0xe4>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,190 // ja 321a <_sk_load_a8_dst_hsw+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,121,0,0,0 // lea 0x79(%rip),%r10 # 32e0 <_sk_load_a8_dst_hsw+0xe4>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
- .byte 235,158 // jmp 3247 <_sk_load_a8_dst_hsw+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,159 // jmp 321a <_sk_load_a8_dst_hsw+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 197,217,196,224,2 // vpinsrw $0x2,%eax,%xmm4,%xmm4
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,249,110,232 // vmovd %eax,%xmm5
.byte 196,226,121,48,237 // vpmovzxbw %xmm5,%xmm5
.byte 196,227,89,2,229,1 // vpblendd $0x1,%xmm5,%xmm4,%xmm4
- .byte 233,118,255,255,255 // jmpq 3247 <_sk_load_a8_dst_hsw+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,119,255,255,255 // jmpq 321a <_sk_load_a8_dst_hsw+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 197,217,196,224,6 // vpinsrw $0x6,%eax,%xmm4,%xmm4
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,217,196,224,5 // vpinsrw $0x5,%eax,%xmm4,%xmm4
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,217,196,224,4 // vpinsrw $0x4,%eax,%xmm4,%xmm4
- .byte 196,193,121,110,44,25 // vmovd (%r9,%rbx,1),%xmm5
+ .byte 196,129,121,110,44,24 // vmovd (%r8,%r11,1),%xmm5
.byte 196,226,121,48,237 // vpmovzxbw %xmm5,%xmm5
.byte 196,227,81,2,228,12 // vpblendd $0xc,%xmm4,%xmm5,%xmm4
- .byte 233,59,255,255,255 // jmpq 3247 <_sk_load_a8_dst_hsw+0x1f>
- .byte 146 // xchg %eax,%edx
+ .byte 233,60,255,255,255 // jmpq 321a <_sk_load_a8_dst_hsw+0x1e>
+ .byte 102,144 // xchg %ax,%ax
+ .byte 144 // nop
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,172,255,255,255,157,255 // ljmp *-0x620001(%rdi,%rdi,8)
+ .byte 255,170,255,255,255,155 // ljmp *-0x64000001(%rdx)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 234 // (bad)
.byte 255 // (bad)
+ .byte 232,255,255,255,221 // callq ffffffffde0032f0 <_sk_overlay_sse2_8bit+0xffffffffddfd7e53>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 223,255 // (bad)
- .byte 255 // (bad)
- .byte 255,212 // callq *%rsp
+ .byte 255,210 // callq *%rdx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,197 // inc %ebp
+ .byte 255,195 // inc %ebx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -12483,96 +12460,102 @@ HIDDEN _sk_gather_a8_hsw
.globl _sk_gather_a8_hsw
FUNCTION(_sk_gather_a8_hsw)
_sk_gather_a8_hsw:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
.byte 196,226,125,88,80,8 // vpbroadcastd 0x8(%rax),%ymm2
.byte 196,226,109,64,201 // vpmulld %ymm1,%ymm2,%ymm1
.byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
.byte 197,245,254,192 // vpaddd %ymm0,%ymm1,%ymm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,195,121,32,12,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm1
.byte 196,227,249,22,192,1 // vpextrq $0x1,%xmm0,%rax
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,113,32,12,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm1,%xmm1
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,113,32,202,2 // vpinsrb $0x2,%r10d,%xmm1,%xmm1
.byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
- .byte 196,227,113,32,200,3 // vpinsrb $0x3,%eax,%xmm1,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
- .byte 196,227,113,32,200,4 // vpinsrb $0x4,%eax,%xmm1,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 67,15,182,4,17 // movzbl (%r9,%r10,1),%eax
- .byte 196,227,113,32,192,5 // vpinsrb $0x5,%eax,%xmm1,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
+ .byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
+ .byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,193,249,126,199 // vmovq %xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 196,131,121,32,4,24,0 // vpinsrb $0x0,(%r8,%r11,1),%xmm0,%xmm0
+ .byte 196,131,121,32,4,16,1 // vpinsrb $0x1,(%r8,%r10,1),%xmm0,%xmm0
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,121,32,193,2 // vpinsrb $0x2,%r9d,%xmm0,%xmm0
+ .byte 65,15,182,4,0 // movzbl (%r8,%rax,1),%eax
+ .byte 196,227,121,32,192,3 // vpinsrb $0x3,%eax,%xmm0,%xmm0
+ .byte 67,15,182,4,32 // movzbl (%r8,%r12,1),%eax
+ .byte 196,227,121,32,192,4 // vpinsrb $0x4,%eax,%xmm0,%xmm0
+ .byte 67,15,182,4,56 // movzbl (%r8,%r15,1),%eax
+ .byte 196,227,121,32,192,5 // vpinsrb $0x5,%eax,%xmm0,%xmm0
+ .byte 67,15,182,4,48 // movzbl (%r8,%r14,1),%eax
.byte 196,227,121,32,192,6 // vpinsrb $0x6,%eax,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 65,15,182,4,24 // movzbl (%r8,%rbx,1),%eax
.byte 196,227,121,32,192,7 // vpinsrb $0x7,%eax,%xmm0,%xmm0
.byte 196,226,125,49,192 // vpmovzxbd %xmm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,190,133,2,0 // vbroadcastss 0x285be(%rip),%ymm1 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,13,155,133,2,0 // vbroadcastss 0x2859b(%rip),%ymm1 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,252,89,217 // vmulps %ymm1,%ymm0,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,87,192 // vxorps %ymm0,%ymm0,%ymm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 197,237,239,210 // vpxor %ymm2,%ymm2,%ymm2
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_a8_hsw
.globl _sk_store_a8_hsw
FUNCTION(_sk_store_a8_hsw)
_sk_store_a8_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 196,98,125,24,5,69,133,2,0 // vbroadcastss 0x28545(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 196,98,125,24,5,28,133,2,0 // vbroadcastss 0x2851c(%rip),%ymm8 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,65,100,89,192 // vmulps %ymm8,%ymm3,%ymm8
.byte 196,65,125,91,192 // vcvtps2dq %ymm8,%ymm8
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
.byte 196,66,57,43,193 // vpackusdw %xmm9,%xmm8,%xmm8
.byte 196,65,57,103,192 // vpackuswb %xmm8,%xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,11 // jne 3439 <_sk_store_a8_hsw+0x47>
- .byte 196,65,123,17,4,25 // vmovsd %xmm8,(%r9,%rbx,1)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 3419 <_sk_store_a8_hsw+0x45>
+ .byte 196,1,123,17,4,24 // vmovsd %xmm8,(%r8,%r11,1)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,235 // ja 3434 <_sk_store_a8_hsw+0x42>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,236 // ja 3415 <_sk_store_a8_hsw+0x41>
.byte 196,66,121,48,192 // vpmovzxbw %xmm8,%xmm8
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,87,0,0,0 // lea 0x57(%rip),%r11 # 34b0 <_sk_store_a8_hsw+0xbe>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,67,121,20,4,25,0 // vpextrb $0x0,%xmm8,(%r9,%rbx,1)
- .byte 235,201 // jmp 3434 <_sk_store_a8_hsw+0x42>
- .byte 196,67,121,20,68,25,2,4 // vpextrb $0x4,%xmm8,0x2(%r9,%rbx,1)
- .byte 196,98,57,0,5,100,142,2,0 // vpshufb 0x28e64(%rip),%xmm8,%xmm8 # 2c2e0 <_sk_overlay_sse2_8bit+0xdfb>
- .byte 196,67,121,21,4,25,0 // vpextrw $0x0,%xmm8,(%r9,%rbx,1)
- .byte 235,175 // jmp 3434 <_sk_store_a8_hsw+0x42>
- .byte 196,67,121,20,68,25,6,12 // vpextrb $0xc,%xmm8,0x6(%r9,%rbx,1)
- .byte 196,67,121,20,68,25,5,10 // vpextrb $0xa,%xmm8,0x5(%r9,%rbx,1)
- .byte 196,67,121,20,68,25,4,8 // vpextrb $0x8,%xmm8,0x4(%r9,%rbx,1)
- .byte 196,98,57,0,5,74,142,2,0 // vpshufb 0x28e4a(%rip),%xmm8,%xmm8 # 2c2f0 <_sk_overlay_sse2_8bit+0xe0b>
- .byte 196,65,121,126,4,25 // vmovd %xmm8,(%r9,%rbx,1)
- .byte 235,134 // jmp 3434 <_sk_store_a8_hsw+0x42>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,87,0,0,0 // lea 0x57(%rip),%r10 # 3490 <_sk_store_a8_hsw+0xbc>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,3,121,20,4,24,0 // vpextrb $0x0,%xmm8,(%r8,%r11,1)
+ .byte 235,202 // jmp 3415 <_sk_store_a8_hsw+0x41>
+ .byte 196,3,121,20,68,24,2,4 // vpextrb $0x4,%xmm8,0x2(%r8,%r11,1)
+ .byte 196,98,57,0,5,132,142,2,0 // vpshufb 0x28e84(%rip),%xmm8,%xmm8 # 2c2e0 <_sk_overlay_sse2_8bit+0xe43>
+ .byte 196,3,121,21,4,24,0 // vpextrw $0x0,%xmm8,(%r8,%r11,1)
+ .byte 235,176 // jmp 3415 <_sk_store_a8_hsw+0x41>
+ .byte 196,3,121,20,68,24,6,12 // vpextrb $0xc,%xmm8,0x6(%r8,%r11,1)
+ .byte 196,3,121,20,68,24,5,10 // vpextrb $0xa,%xmm8,0x5(%r8,%r11,1)
+ .byte 196,3,121,20,68,24,4,8 // vpextrb $0x8,%xmm8,0x4(%r8,%r11,1)
+ .byte 196,98,57,0,5,106,142,2,0 // vpshufb 0x28e6a(%rip),%xmm8,%xmm8 # 2c2f0 <_sk_overlay_sse2_8bit+0xe53>
+ .byte 196,1,121,126,4,24 // vmovd %xmm8,(%r8,%r11,1)
+ .byte 235,135 // jmp 3415 <_sk_store_a8_hsw+0x41>
.byte 102,144 // xchg %ax,%ax
.byte 178,255 // mov $0xff,%dl
.byte 255 // (bad)
@@ -12598,77 +12581,73 @@ HIDDEN _sk_load_g8_hsw
.globl _sk_load_g8_hsw
FUNCTION(_sk_load_g8_hsw)
_sk_load_g8_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,58 // jne 351f <_sk_load_g8_hsw+0x53>
- .byte 196,194,121,48,4,25 // vpmovzxbw (%r9,%rbx,1),%xmm0
- .byte 197,249,219,5,221,141,2,0 // vpand 0x28ddd(%rip),%xmm0,%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,57 // jne 34fd <_sk_load_g8_hsw+0x51>
+ .byte 196,130,121,48,4,24 // vpmovzxbw (%r8,%r11,1),%xmm0
+ .byte 197,249,219,5,254,141,2,0 // vpand 0x28dfe(%rip),%xmm0,%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,226,125,51,192 // vpmovzxwd %xmm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,151,132,2,0 // vbroadcastss 0x28497(%rip),%ymm1 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,13,112,132,2,0 // vbroadcastss 0x28470(%rip),%ymm1 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,20,132,2,0 // vbroadcastss 0x28414(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,237,131,2,0 // vbroadcastss 0x283ed(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,40,200 // vmovaps %ymm0,%ymm1
.byte 197,252,40,208 // vmovaps %ymm0,%ymm2
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,184 // ja 34eb <_sk_load_g8_hsw+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,122,0,0,0 // lea 0x7a(%rip),%r11 # 35b8 <_sk_load_g8_hsw+0xec>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,185 // ja 34ca <_sk_load_g8_hsw+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,120,0,0,0 // lea 0x78(%rip),%r10 # 3594 <_sk_load_g8_hsw+0xe8>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,249,110,192 // vmovd %eax,%xmm0
- .byte 235,153 // jmp 34eb <_sk_load_g8_hsw+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,154 // jmp 34ca <_sk_load_g8_hsw+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 197,249,196,192,2 // vpinsrw $0x2,%eax,%xmm0,%xmm0
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,249,110,200 // vmovd %eax,%xmm1
.byte 196,226,121,48,201 // vpmovzxbw %xmm1,%xmm1
.byte 196,227,121,2,193,1 // vpblendd $0x1,%xmm1,%xmm0,%xmm0
- .byte 233,113,255,255,255 // jmpq 34eb <_sk_load_g8_hsw+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,114,255,255,255 // jmpq 34ca <_sk_load_g8_hsw+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 197,249,196,192,6 // vpinsrw $0x6,%eax,%xmm0,%xmm0
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,249,196,192,5 // vpinsrw $0x5,%eax,%xmm0,%xmm0
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,249,196,192,4 // vpinsrw $0x4,%eax,%xmm0,%xmm0
- .byte 196,193,121,110,12,25 // vmovd (%r9,%rbx,1),%xmm1
+ .byte 196,129,121,110,12,24 // vmovd (%r8,%r11,1),%xmm1
.byte 196,226,121,48,201 // vpmovzxbw %xmm1,%xmm1
.byte 196,227,113,2,192,12 // vpblendd $0xc,%xmm0,%xmm1,%xmm0
- .byte 233,54,255,255,255 // jmpq 34eb <_sk_load_g8_hsw+0x1f>
- .byte 15,31,0 // nopl (%rax)
- .byte 143 // (bad)
+ .byte 233,55,255,255,255 // jmpq 34ca <_sk_load_g8_hsw+0x1e>
+ .byte 144 // nop
+ .byte 145 // xchg %eax,%ecx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,169,255,255,255,154 // ljmp *-0x65000001(%rcx)
+ .byte 255,171,255,255,255,156 // ljmp *-0x63000001(%rbx)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
+ .byte 233,255,255,255,222 // jmpq ffffffffdf0035a4 <_sk_overlay_sse2_8bit+0xffffffffdefd8107>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
- .byte 255 // (bad)
- .byte 255,209 // callq *%rcx
+ .byte 255,211 // callq *%rbx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,194 // inc %edx
+ .byte 255,196 // inc %esp
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -12677,77 +12656,73 @@ HIDDEN _sk_load_g8_dst_hsw
.globl _sk_load_g8_dst_hsw
FUNCTION(_sk_load_g8_dst_hsw)
_sk_load_g8_dst_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,58 // jne 3627 <_sk_load_g8_dst_hsw+0x53>
- .byte 196,194,121,48,36,25 // vpmovzxbw (%r9,%rbx,1),%xmm4
- .byte 197,217,219,37,213,140,2,0 // vpand 0x28cd5(%rip),%xmm4,%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,57 // jne 3601 <_sk_load_g8_dst_hsw+0x51>
+ .byte 196,130,121,48,36,24 // vpmovzxbw (%r8,%r11,1),%xmm4
+ .byte 197,217,219,37,250,140,2,0 // vpand 0x28cfa(%rip),%xmm4,%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,226,125,51,228 // vpmovzxwd %xmm4,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,226,125,24,45,143,131,2,0 // vbroadcastss 0x2838f(%rip),%ymm5 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,45,108,131,2,0 // vbroadcastss 0x2836c(%rip),%ymm5 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,220,89,229 // vmulps %ymm5,%ymm4,%ymm4
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,61,12,131,2,0 // vbroadcastss 0x2830c(%rip),%ymm7 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,61,233,130,2,0 // vbroadcastss 0x282e9(%rip),%ymm7 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,40,236 // vmovaps %ymm4,%ymm5
.byte 197,252,40,244 // vmovaps %ymm4,%ymm6
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,184 // ja 35f3 <_sk_load_g8_dst_hsw+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,122,0,0,0 // lea 0x7a(%rip),%r11 # 36c0 <_sk_load_g8_dst_hsw+0xec>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,185 // ja 35ce <_sk_load_g8_dst_hsw+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,120,0,0,0 // lea 0x78(%rip),%r10 # 3698 <_sk_load_g8_dst_hsw+0xe8>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
- .byte 235,153 // jmp 35f3 <_sk_load_g8_dst_hsw+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,154 // jmp 35ce <_sk_load_g8_dst_hsw+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 197,217,196,224,2 // vpinsrw $0x2,%eax,%xmm4,%xmm4
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,249,110,232 // vmovd %eax,%xmm5
.byte 196,226,121,48,237 // vpmovzxbw %xmm5,%xmm5
.byte 196,227,89,2,229,1 // vpblendd $0x1,%xmm5,%xmm4,%xmm4
- .byte 233,113,255,255,255 // jmpq 35f3 <_sk_load_g8_dst_hsw+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,114,255,255,255 // jmpq 35ce <_sk_load_g8_dst_hsw+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 197,217,196,224,6 // vpinsrw $0x6,%eax,%xmm4,%xmm4
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,217,196,224,5 // vpinsrw $0x5,%eax,%xmm4,%xmm4
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,217,196,224,4 // vpinsrw $0x4,%eax,%xmm4,%xmm4
- .byte 196,193,121,110,44,25 // vmovd (%r9,%rbx,1),%xmm5
+ .byte 196,129,121,110,44,24 // vmovd (%r8,%r11,1),%xmm5
.byte 196,226,121,48,237 // vpmovzxbw %xmm5,%xmm5
.byte 196,227,81,2,228,12 // vpblendd $0xc,%xmm4,%xmm5,%xmm4
- .byte 233,54,255,255,255 // jmpq 35f3 <_sk_load_g8_dst_hsw+0x1f>
- .byte 15,31,0 // nopl (%rax)
- .byte 143 // (bad)
+ .byte 233,55,255,255,255 // jmpq 35ce <_sk_load_g8_dst_hsw+0x1e>
+ .byte 144 // nop
+ .byte 145 // xchg %eax,%ecx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,169,255,255,255,154 // ljmp *-0x65000001(%rcx)
+ .byte 255,171,255,255,255,156 // ljmp *-0x63000001(%rbx)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
+ .byte 233,255,255,255,222 // jmpq ffffffffdf0036a8 <_sk_overlay_sse2_8bit+0xffffffffdefd820b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
- .byte 255 // (bad)
- .byte 255,209 // callq *%rcx
+ .byte 255,211 // callq *%rbx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,194 // inc %edx
+ .byte 255,196 // inc %esp
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -12756,111 +12731,117 @@ HIDDEN _sk_gather_g8_hsw
.globl _sk_gather_g8_hsw
FUNCTION(_sk_gather_g8_hsw)
_sk_gather_g8_hsw:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
.byte 196,226,125,88,80,8 // vpbroadcastd 0x8(%rax),%ymm2
.byte 196,226,109,64,201 // vpmulld %ymm1,%ymm2,%ymm1
.byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
.byte 197,245,254,192 // vpaddd %ymm0,%ymm1,%ymm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,195,121,32,12,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm1
.byte 196,227,249,22,192,1 // vpextrq $0x1,%xmm0,%rax
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,113,32,12,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm1,%xmm1
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,113,32,202,2 // vpinsrb $0x2,%r10d,%xmm1,%xmm1
.byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
- .byte 196,227,113,32,200,3 // vpinsrb $0x3,%eax,%xmm1,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
- .byte 196,227,113,32,200,4 // vpinsrb $0x4,%eax,%xmm1,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 67,15,182,4,17 // movzbl (%r9,%r10,1),%eax
- .byte 196,227,113,32,192,5 // vpinsrb $0x5,%eax,%xmm1,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
+ .byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
+ .byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,193,249,126,199 // vmovq %xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 196,131,121,32,4,24,0 // vpinsrb $0x0,(%r8,%r11,1),%xmm0,%xmm0
+ .byte 196,131,121,32,4,16,1 // vpinsrb $0x1,(%r8,%r10,1),%xmm0,%xmm0
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,121,32,193,2 // vpinsrb $0x2,%r9d,%xmm0,%xmm0
+ .byte 65,15,182,4,0 // movzbl (%r8,%rax,1),%eax
+ .byte 196,227,121,32,192,3 // vpinsrb $0x3,%eax,%xmm0,%xmm0
+ .byte 67,15,182,4,32 // movzbl (%r8,%r12,1),%eax
+ .byte 196,227,121,32,192,4 // vpinsrb $0x4,%eax,%xmm0,%xmm0
+ .byte 67,15,182,4,56 // movzbl (%r8,%r15,1),%eax
+ .byte 196,227,121,32,192,5 // vpinsrb $0x5,%eax,%xmm0,%xmm0
+ .byte 67,15,182,4,48 // movzbl (%r8,%r14,1),%eax
.byte 196,227,121,32,192,6 // vpinsrb $0x6,%eax,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 65,15,182,4,24 // movzbl (%r8,%rbx,1),%eax
.byte 196,227,121,32,192,7 // vpinsrb $0x7,%eax,%xmm0,%xmm0
.byte 196,226,125,49,192 // vpmovzxbd %xmm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,10,130,2,0 // vbroadcastss 0x2820a(%rip),%ymm1 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,13,227,129,2,0 // vbroadcastss 0x281e3(%rip),%ymm1 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,135,129,2,0 // vbroadcastss 0x28187(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,96,129,2,0 // vbroadcastss 0x28160(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,40,200 // vmovaps %ymm0,%ymm1
.byte 197,252,40,208 // vmovaps %ymm0,%ymm2
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_load_565_hsw
.globl _sk_load_565_hsw
FUNCTION(_sk_load_565_hsw)
_sk_load_565_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,115 // jne 383a <_sk_load_565_hsw+0x8f>
- .byte 196,193,122,111,4,89 // vmovdqu (%r9,%rbx,2),%xmm0
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,114 // jne 381e <_sk_load_565_hsw+0x8d>
+ .byte 196,129,122,111,4,88 // vmovdqu (%r8,%r11,2),%xmm0
.byte 196,226,125,51,208 // vpmovzxwd %xmm0,%ymm2
- .byte 196,226,125,88,5,197,129,2,0 // vpbroadcastd 0x281c5(%rip),%ymm0 # 2b9a0 <_sk_overlay_sse2_8bit+0x4bb>
+ .byte 196,226,125,88,5,152,129,2,0 // vpbroadcastd 0x28198(%rip),%ymm0 # 2b958 <_sk_overlay_sse2_8bit+0x4bb>
.byte 197,237,219,192 // vpand %ymm0,%ymm2,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,184,129,2,0 // vbroadcastss 0x281b8(%rip),%ymm1 # 2b9a4 <_sk_overlay_sse2_8bit+0x4bf>
+ .byte 196,226,125,24,13,139,129,2,0 // vbroadcastss 0x2818b(%rip),%ymm1 # 2b95c <_sk_overlay_sse2_8bit+0x4bf>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
- .byte 196,226,125,88,13,175,129,2,0 // vpbroadcastd 0x281af(%rip),%ymm1 # 2b9a8 <_sk_overlay_sse2_8bit+0x4c3>
+ .byte 196,226,125,88,13,130,129,2,0 // vpbroadcastd 0x28182(%rip),%ymm1 # 2b960 <_sk_overlay_sse2_8bit+0x4c3>
.byte 197,237,219,201 // vpand %ymm1,%ymm2,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
- .byte 196,226,125,24,29,162,129,2,0 // vbroadcastss 0x281a2(%rip),%ymm3 # 2b9ac <_sk_overlay_sse2_8bit+0x4c7>
+ .byte 196,226,125,24,29,117,129,2,0 // vbroadcastss 0x28175(%rip),%ymm3 # 2b964 <_sk_overlay_sse2_8bit+0x4c7>
.byte 197,244,89,203 // vmulps %ymm3,%ymm1,%ymm1
- .byte 196,226,125,88,29,153,129,2,0 // vpbroadcastd 0x28199(%rip),%ymm3 # 2b9b0 <_sk_overlay_sse2_8bit+0x4cb>
+ .byte 196,226,125,88,29,108,129,2,0 // vpbroadcastd 0x2816c(%rip),%ymm3 # 2b968 <_sk_overlay_sse2_8bit+0x4cb>
.byte 197,237,219,211 // vpand %ymm3,%ymm2,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
- .byte 196,226,125,24,29,140,129,2,0 // vbroadcastss 0x2818c(%rip),%ymm3 # 2b9b4 <_sk_overlay_sse2_8bit+0x4cf>
+ .byte 196,226,125,24,29,95,129,2,0 // vbroadcastss 0x2815f(%rip),%ymm3 # 2b96c <_sk_overlay_sse2_8bit+0x4cf>
.byte 197,236,89,211 // vmulps %ymm3,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,241,128,2,0 // vbroadcastss 0x280f1(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
- .byte 91 // pop %rbx
+ .byte 196,226,125,24,29,196,128,2,0 // vbroadcastss 0x280c4(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,123,255,255,255 // ja 37cd <_sk_load_565_hsw+0x22>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,99,0,0,0 // lea 0x63(%rip),%r11 # 38c0 <_sk_load_565_hsw+0x115>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,128 // ja 37b2 <_sk_load_565_hsw+0x21>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,99,0,0,0 // lea 0x63(%rip),%r10 # 38a0 <_sk_load_565_hsw+0x10f>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,249,110,192 // vmovd %eax,%xmm0
- .byte 233,89,255,255,255 // jmpq 37cd <_sk_load_565_hsw+0x22>
+ .byte 233,94,255,255,255 // jmpq 37b2 <_sk_load_565_hsw+0x21>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 196,193,121,196,68,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,110,12,89 // vmovd (%r9,%rbx,2),%xmm1
+ .byte 196,129,121,196,68,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,110,12,88 // vmovd (%r8,%r11,2),%xmm1
.byte 196,227,121,2,193,1 // vpblendd $0x1,%xmm1,%xmm0,%xmm0
- .byte 233,60,255,255,255 // jmpq 37cd <_sk_load_565_hsw+0x22>
+ .byte 233,65,255,255,255 // jmpq 37b2 <_sk_load_565_hsw+0x21>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 196,193,121,196,68,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,196,68,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,196,68,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,122,126,12,89 // vmovq (%r9,%rbx,2),%xmm1
+ .byte 196,129,121,196,68,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,196,68,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,196,68,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,122,126,12,88 // vmovq (%r8,%r11,2),%xmm1
.byte 196,227,113,2,192,12 // vpblendd $0xc,%xmm0,%xmm1,%xmm0
- .byte 233,15,255,255,255 // jmpq 37cd <_sk_load_565_hsw+0x22>
+ .byte 233,20,255,255,255 // jmpq 37b2 <_sk_load_565_hsw+0x21>
.byte 102,144 // xchg %ax,%ax
.byte 166 // cmpsb %es:(%rdi),%ds:(%rsi)
.byte 255 // (bad)
@@ -12885,80 +12866,80 @@ HIDDEN _sk_load_565_dst_hsw
.globl _sk_load_565_dst_hsw
FUNCTION(_sk_load_565_dst_hsw)
_sk_load_565_dst_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,115 // jne 396b <_sk_load_565_dst_hsw+0x8f>
- .byte 196,193,122,111,36,89 // vmovdqu (%r9,%rbx,2),%xmm4
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,114 // jne 3949 <_sk_load_565_dst_hsw+0x8d>
+ .byte 196,129,122,111,36,88 // vmovdqu (%r8,%r11,2),%xmm4
.byte 196,226,125,51,244 // vpmovzxwd %xmm4,%ymm6
- .byte 196,226,125,88,37,148,128,2,0 // vpbroadcastd 0x28094(%rip),%ymm4 # 2b9a0 <_sk_overlay_sse2_8bit+0x4bb>
+ .byte 196,226,125,88,37,109,128,2,0 // vpbroadcastd 0x2806d(%rip),%ymm4 # 2b958 <_sk_overlay_sse2_8bit+0x4bb>
.byte 197,205,219,228 // vpand %ymm4,%ymm6,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,226,125,24,45,135,128,2,0 // vbroadcastss 0x28087(%rip),%ymm5 # 2b9a4 <_sk_overlay_sse2_8bit+0x4bf>
+ .byte 196,226,125,24,45,96,128,2,0 // vbroadcastss 0x28060(%rip),%ymm5 # 2b95c <_sk_overlay_sse2_8bit+0x4bf>
.byte 197,220,89,229 // vmulps %ymm5,%ymm4,%ymm4
- .byte 196,226,125,88,45,126,128,2,0 // vpbroadcastd 0x2807e(%rip),%ymm5 # 2b9a8 <_sk_overlay_sse2_8bit+0x4c3>
+ .byte 196,226,125,88,45,87,128,2,0 // vpbroadcastd 0x28057(%rip),%ymm5 # 2b960 <_sk_overlay_sse2_8bit+0x4c3>
.byte 197,205,219,237 // vpand %ymm5,%ymm6,%ymm5
.byte 197,252,91,237 // vcvtdq2ps %ymm5,%ymm5
- .byte 196,226,125,24,61,113,128,2,0 // vbroadcastss 0x28071(%rip),%ymm7 # 2b9ac <_sk_overlay_sse2_8bit+0x4c7>
+ .byte 196,226,125,24,61,74,128,2,0 // vbroadcastss 0x2804a(%rip),%ymm7 # 2b964 <_sk_overlay_sse2_8bit+0x4c7>
.byte 197,212,89,239 // vmulps %ymm7,%ymm5,%ymm5
- .byte 196,226,125,88,61,104,128,2,0 // vpbroadcastd 0x28068(%rip),%ymm7 # 2b9b0 <_sk_overlay_sse2_8bit+0x4cb>
+ .byte 196,226,125,88,61,65,128,2,0 // vpbroadcastd 0x28041(%rip),%ymm7 # 2b968 <_sk_overlay_sse2_8bit+0x4cb>
.byte 197,205,219,247 // vpand %ymm7,%ymm6,%ymm6
.byte 197,252,91,246 // vcvtdq2ps %ymm6,%ymm6
- .byte 196,226,125,24,61,91,128,2,0 // vbroadcastss 0x2805b(%rip),%ymm7 # 2b9b4 <_sk_overlay_sse2_8bit+0x4cf>
+ .byte 196,226,125,24,61,52,128,2,0 // vbroadcastss 0x28034(%rip),%ymm7 # 2b96c <_sk_overlay_sse2_8bit+0x4cf>
.byte 197,204,89,247 // vmulps %ymm7,%ymm6,%ymm6
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,61,192,127,2,0 // vbroadcastss 0x27fc0(%rip),%ymm7 # 2b928 <_sk_overlay_sse2_8bit+0x443>
- .byte 91 // pop %rbx
+ .byte 196,226,125,24,61,153,127,2,0 // vbroadcastss 0x27f99(%rip),%ymm7 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,123,255,255,255 // ja 38fe <_sk_load_565_dst_hsw+0x22>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,98,0,0,0 // lea 0x62(%rip),%r11 # 39f0 <_sk_load_565_dst_hsw+0x114>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,128 // ja 38dd <_sk_load_565_dst_hsw+0x21>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,100,0,0,0 // lea 0x64(%rip),%r10 # 39cc <_sk_load_565_dst_hsw+0x110>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
- .byte 233,89,255,255,255 // jmpq 38fe <_sk_load_565_dst_hsw+0x22>
+ .byte 233,94,255,255,255 // jmpq 38dd <_sk_load_565_dst_hsw+0x21>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 196,193,89,196,100,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,121,110,44,89 // vmovd (%r9,%rbx,2),%xmm5
+ .byte 196,129,89,196,100,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,121,110,44,88 // vmovd (%r8,%r11,2),%xmm5
.byte 196,227,89,2,229,1 // vpblendd $0x1,%xmm5,%xmm4,%xmm4
- .byte 233,60,255,255,255 // jmpq 38fe <_sk_load_565_dst_hsw+0x22>
+ .byte 233,65,255,255,255 // jmpq 38dd <_sk_load_565_dst_hsw+0x21>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 196,193,89,196,100,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,89,196,100,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,89,196,100,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,122,126,44,89 // vmovq (%r9,%rbx,2),%xmm5
+ .byte 196,129,89,196,100,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,89,196,100,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,89,196,100,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,122,126,44,88 // vmovq (%r8,%r11,2),%xmm5
.byte 196,227,81,2,228,12 // vpblendd $0xc,%xmm4,%xmm5,%xmm4
- .byte 233,15,255,255,255 // jmpq 38fe <_sk_load_565_dst_hsw+0x22>
- .byte 144 // nop
- .byte 167 // cmpsl %es:(%rdi),%ds:(%rsi)
+ .byte 233,20,255,255,255 // jmpq 38dd <_sk_load_565_dst_hsw+0x21>
+ .byte 15,31,0 // nopl (%rax)
+ .byte 165 // movsl %ds:(%rsi),%es:(%rdi)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,193 // inc %ecx
.byte 255 // (bad)
+ .byte 191,255,255,255,179 // mov $0xb3ffffff,%edi
.byte 255 // (bad)
- .byte 255,181,255,255,255,238 // pushq -0x11000001(%rbp)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,230 // jmpq *%rsi
+ .byte 236 // in (%dx),%al
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,228 // jmpq *%rsp
.byte 255 // (bad)
- .byte 222,255 // fdivrp %st,%st(7)
.byte 255 // (bad)
- .byte 255,210 // callq *%rdx
+ .byte 255 // (bad)
+ .byte 220,255 // fdivr %st,%st(7)
+ .byte 255 // (bad)
+ .byte 255,208 // callq *%rax
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -12967,79 +12948,86 @@ HIDDEN _sk_gather_565_hsw
.globl _sk_gather_565_hsw
FUNCTION(_sk_gather_565_hsw)
_sk_gather_565_hsw:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
.byte 196,226,125,88,80,8 // vpbroadcastd 0x8(%rax),%ymm2
.byte 196,226,109,64,201 // vpmulld %ymm1,%ymm2,%ymm1
.byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
.byte 197,245,254,192 // vpaddd %ymm0,%ymm1,%ymm0
+ .byte 196,227,249,22,192,1 // vpextrq $0x1,%xmm0,%rax
+ .byte 65,137,193 // mov %eax,%r9d
+ .byte 72,193,232,32 // shr $0x20,%rax
.byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,249,110,200 // vmovd %eax,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 67,15,183,4,81 // movzwl (%r9,%r10,2),%eax
- .byte 197,241,196,200,1 // vpinsrw $0x1,%eax,%xmm1,%xmm1
- .byte 68,137,216 // mov %r11d,%eax
- .byte 73,193,235,32 // shr $0x20,%r11
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,241,196,200,2 // vpinsrw $0x2,%eax,%xmm1,%xmm1
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
- .byte 197,241,196,200,3 // vpinsrw $0x3,%eax,%xmm1,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,241,196,200,4 // vpinsrw $0x4,%eax,%xmm1,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 67,15,183,4,81 // movzwl (%r9,%r10,2),%eax
- .byte 197,241,196,192,5 // vpinsrw $0x5,%eax,%xmm1,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
+ .byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,193,249,126,199 // vmovq %xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 71,15,183,20,80 // movzwl (%r8,%r10,2),%r10d
+ .byte 71,15,183,28,88 // movzwl (%r8,%r11,2),%r11d
+ .byte 196,193,121,110,195 // vmovd %r11d,%xmm0
+ .byte 196,193,121,196,194,1 // vpinsrw $0x1,%r10d,%xmm0,%xmm0
+ .byte 71,15,183,12,72 // movzwl (%r8,%r9,2),%r9d
+ .byte 196,193,121,196,193,2 // vpinsrw $0x2,%r9d,%xmm0,%xmm0
+ .byte 65,15,183,4,64 // movzwl (%r8,%rax,2),%eax
+ .byte 197,249,196,192,3 // vpinsrw $0x3,%eax,%xmm0,%xmm0
+ .byte 67,15,183,4,96 // movzwl (%r8,%r12,2),%eax
+ .byte 197,249,196,192,4 // vpinsrw $0x4,%eax,%xmm0,%xmm0
+ .byte 67,15,183,4,120 // movzwl (%r8,%r15,2),%eax
+ .byte 197,249,196,192,5 // vpinsrw $0x5,%eax,%xmm0,%xmm0
+ .byte 67,15,183,4,112 // movzwl (%r8,%r14,2),%eax
.byte 197,249,196,192,6 // vpinsrw $0x6,%eax,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 65,15,183,4,88 // movzwl (%r8,%rbx,2),%eax
.byte 197,249,196,192,7 // vpinsrw $0x7,%eax,%xmm0,%xmm0
.byte 196,226,125,51,208 // vpmovzxwd %xmm0,%ymm2
- .byte 196,226,125,88,5,227,126,2,0 // vpbroadcastd 0x27ee3(%rip),%ymm0 # 2b9a0 <_sk_overlay_sse2_8bit+0x4bb>
+ .byte 196,226,125,88,5,181,126,2,0 // vpbroadcastd 0x27eb5(%rip),%ymm0 # 2b958 <_sk_overlay_sse2_8bit+0x4bb>
.byte 197,237,219,192 // vpand %ymm0,%ymm2,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,214,126,2,0 // vbroadcastss 0x27ed6(%rip),%ymm1 # 2b9a4 <_sk_overlay_sse2_8bit+0x4bf>
+ .byte 196,226,125,24,13,168,126,2,0 // vbroadcastss 0x27ea8(%rip),%ymm1 # 2b95c <_sk_overlay_sse2_8bit+0x4bf>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
- .byte 196,226,125,88,13,205,126,2,0 // vpbroadcastd 0x27ecd(%rip),%ymm1 # 2b9a8 <_sk_overlay_sse2_8bit+0x4c3>
+ .byte 196,226,125,88,13,159,126,2,0 // vpbroadcastd 0x27e9f(%rip),%ymm1 # 2b960 <_sk_overlay_sse2_8bit+0x4c3>
.byte 197,237,219,201 // vpand %ymm1,%ymm2,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
- .byte 196,226,125,24,29,192,126,2,0 // vbroadcastss 0x27ec0(%rip),%ymm3 # 2b9ac <_sk_overlay_sse2_8bit+0x4c7>
+ .byte 196,226,125,24,29,146,126,2,0 // vbroadcastss 0x27e92(%rip),%ymm3 # 2b964 <_sk_overlay_sse2_8bit+0x4c7>
.byte 197,244,89,203 // vmulps %ymm3,%ymm1,%ymm1
- .byte 196,226,125,88,29,183,126,2,0 // vpbroadcastd 0x27eb7(%rip),%ymm3 # 2b9b0 <_sk_overlay_sse2_8bit+0x4cb>
+ .byte 196,226,125,88,29,137,126,2,0 // vpbroadcastd 0x27e89(%rip),%ymm3 # 2b968 <_sk_overlay_sse2_8bit+0x4cb>
.byte 197,237,219,211 // vpand %ymm3,%ymm2,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
- .byte 196,226,125,24,29,170,126,2,0 // vbroadcastss 0x27eaa(%rip),%ymm3 # 2b9b4 <_sk_overlay_sse2_8bit+0x4cf>
+ .byte 196,226,125,24,29,124,126,2,0 // vbroadcastss 0x27e7c(%rip),%ymm3 # 2b96c <_sk_overlay_sse2_8bit+0x4cf>
.byte 197,236,89,211 // vmulps %ymm3,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,15,126,2,0 // vbroadcastss 0x27e0f(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,225,125,2,0 // vbroadcastss 0x27de1(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_565_hsw
.globl _sk_store_565_hsw
FUNCTION(_sk_store_565_hsw)
_sk_store_565_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 196,98,125,24,5,217,126,2,0 // vbroadcastss 0x27ed9(%rip),%ymm8 # 2ba14 <_sk_overlay_sse2_8bit+0x52f>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 196,98,125,24,5,165,126,2,0 // vbroadcastss 0x27ea5(%rip),%ymm8 # 2b9cc <_sk_overlay_sse2_8bit+0x52f>
.byte 196,65,124,89,200 // vmulps %ymm8,%ymm0,%ymm9
.byte 196,65,125,91,201 // vcvtps2dq %ymm9,%ymm9
.byte 196,193,53,114,241,11 // vpslld $0xb,%ymm9,%ymm9
- .byte 196,98,125,24,21,196,126,2,0 // vbroadcastss 0x27ec4(%rip),%ymm10 # 2ba18 <_sk_overlay_sse2_8bit+0x533>
+ .byte 196,98,125,24,21,144,126,2,0 // vbroadcastss 0x27e90(%rip),%ymm10 # 2b9d0 <_sk_overlay_sse2_8bit+0x533>
.byte 196,65,116,89,210 // vmulps %ymm10,%ymm1,%ymm10
.byte 196,65,125,91,210 // vcvtps2dq %ymm10,%ymm10
.byte 196,193,45,114,242,5 // vpslld $0x5,%ymm10,%ymm10
@@ -13049,51 +13037,53 @@ _sk_store_565_hsw:
.byte 196,65,53,235,192 // vpor %ymm8,%ymm9,%ymm8
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
.byte 196,66,57,43,193 // vpackusdw %xmm9,%xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,11 // jne 3b93 <_sk_store_565_hsw+0x78>
- .byte 196,65,122,127,4,89 // vmovdqu %xmm8,(%r9,%rbx,2)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 3b7e <_sk_store_565_hsw+0x76>
+ .byte 196,1,122,127,4,88 // vmovdqu %xmm8,(%r8,%r11,2)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,235 // ja 3b8e <_sk_store_565_hsw+0x73>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,66,0,0,0 // lea 0x42(%rip),%r11 # 3bf0 <_sk_store_565_hsw+0xd5>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,67,121,21,4,89,0 // vpextrw $0x0,%xmm8,(%r9,%rbx,2)
- .byte 235,206 // jmp 3b8e <_sk_store_565_hsw+0x73>
- .byte 196,67,121,21,68,89,4,2 // vpextrw $0x2,%xmm8,0x4(%r9,%rbx,2)
- .byte 196,65,121,126,4,89 // vmovd %xmm8,(%r9,%rbx,2)
- .byte 235,190 // jmp 3b8e <_sk_store_565_hsw+0x73>
- .byte 196,67,121,21,68,89,12,6 // vpextrw $0x6,%xmm8,0xc(%r9,%rbx,2)
- .byte 196,67,121,21,68,89,10,5 // vpextrw $0x5,%xmm8,0xa(%r9,%rbx,2)
- .byte 196,67,121,21,68,89,8,4 // vpextrw $0x4,%xmm8,0x8(%r9,%rbx,2)
- .byte 196,65,121,214,4,89 // vmovq %xmm8,(%r9,%rbx,2)
- .byte 235,158 // jmp 3b8e <_sk_store_565_hsw+0x73>
- .byte 199 // (bad)
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,236 // ja 3b7a <_sk_store_565_hsw+0x72>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,67,0,0,0 // lea 0x43(%rip),%r10 # 3bdc <_sk_store_565_hsw+0xd4>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,3,121,21,4,88,0 // vpextrw $0x0,%xmm8,(%r8,%r11,2)
+ .byte 235,207 // jmp 3b7a <_sk_store_565_hsw+0x72>
+ .byte 196,3,121,21,68,88,4,2 // vpextrw $0x2,%xmm8,0x4(%r8,%r11,2)
+ .byte 196,1,121,126,4,88 // vmovd %xmm8,(%r8,%r11,2)
+ .byte 235,191 // jmp 3b7a <_sk_store_565_hsw+0x72>
+ .byte 196,3,121,21,68,88,12,6 // vpextrw $0x6,%xmm8,0xc(%r8,%r11,2)
+ .byte 196,3,121,21,68,88,10,5 // vpextrw $0x5,%xmm8,0xa(%r8,%r11,2)
+ .byte 196,3,121,21,68,88,8,4 // vpextrw $0x4,%xmm8,0x8(%r8,%r11,2)
+ .byte 196,1,121,214,4,88 // vmovq %xmm8,(%r8,%r11,2)
+ .byte 235,159 // jmp 3b7a <_sk_store_565_hsw+0x72>
+ .byte 144 // nop
+ .byte 198 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,215 // callq *%rdi
.byte 255 // (bad)
- .byte 216,255 // fdivr %st(7),%st
.byte 255 // (bad)
- .byte 255,208 // callq *%rax
+ .byte 255,207 // dec %edi
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,247 // push %rdi
.byte 255 // (bad)
- .byte 248 // clc
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,240 // push %rax
+ .byte 239 // out %eax,(%dx)
+ .byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 232,255,255,255,224 // callq ffffffffe1003c08 <_sk_overlay_sse2_8bit+0xffffffffe0fd8723>
.byte 255 // (bad)
+ .byte 223,255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -13101,84 +13091,84 @@ HIDDEN _sk_load_4444_hsw
.globl _sk_load_4444_hsw
FUNCTION(_sk_load_4444_hsw)
_sk_load_4444_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,139,0,0,0 // jne 3cb7 <_sk_load_4444_hsw+0xab>
- .byte 196,193,122,111,4,89 // vmovdqu (%r9,%rbx,2),%xmm0
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,138,0,0,0 // jne 3ca1 <_sk_load_4444_hsw+0xa9>
+ .byte 196,129,122,111,4,88 // vmovdqu (%r8,%r11,2),%xmm0
.byte 196,226,125,51,216 // vpmovzxwd %xmm0,%ymm3
- .byte 196,226,125,88,5,220,125,2,0 // vpbroadcastd 0x27ddc(%rip),%ymm0 # 2ba1c <_sk_overlay_sse2_8bit+0x537>
+ .byte 196,226,125,88,5,169,125,2,0 // vpbroadcastd 0x27da9(%rip),%ymm0 # 2b9d4 <_sk_overlay_sse2_8bit+0x537>
.byte 197,229,219,192 // vpand %ymm0,%ymm3,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,207,125,2,0 // vbroadcastss 0x27dcf(%rip),%ymm1 # 2ba20 <_sk_overlay_sse2_8bit+0x53b>
+ .byte 196,226,125,24,13,156,125,2,0 // vbroadcastss 0x27d9c(%rip),%ymm1 # 2b9d8 <_sk_overlay_sse2_8bit+0x53b>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
- .byte 196,226,125,88,13,198,125,2,0 // vpbroadcastd 0x27dc6(%rip),%ymm1 # 2ba24 <_sk_overlay_sse2_8bit+0x53f>
+ .byte 196,226,125,88,13,147,125,2,0 // vpbroadcastd 0x27d93(%rip),%ymm1 # 2b9dc <_sk_overlay_sse2_8bit+0x53f>
.byte 197,229,219,201 // vpand %ymm1,%ymm3,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
- .byte 196,226,125,24,21,185,125,2,0 // vbroadcastss 0x27db9(%rip),%ymm2 # 2ba28 <_sk_overlay_sse2_8bit+0x543>
+ .byte 196,226,125,24,21,134,125,2,0 // vbroadcastss 0x27d86(%rip),%ymm2 # 2b9e0 <_sk_overlay_sse2_8bit+0x543>
.byte 197,244,89,202 // vmulps %ymm2,%ymm1,%ymm1
- .byte 196,226,125,88,21,176,125,2,0 // vpbroadcastd 0x27db0(%rip),%ymm2 # 2ba2c <_sk_overlay_sse2_8bit+0x547>
+ .byte 196,226,125,88,21,125,125,2,0 // vpbroadcastd 0x27d7d(%rip),%ymm2 # 2b9e4 <_sk_overlay_sse2_8bit+0x547>
.byte 197,229,219,210 // vpand %ymm2,%ymm3,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
- .byte 196,98,125,24,5,163,125,2,0 // vbroadcastss 0x27da3(%rip),%ymm8 # 2ba30 <_sk_overlay_sse2_8bit+0x54b>
+ .byte 196,98,125,24,5,112,125,2,0 // vbroadcastss 0x27d70(%rip),%ymm8 # 2b9e8 <_sk_overlay_sse2_8bit+0x54b>
.byte 196,193,108,89,208 // vmulps %ymm8,%ymm2,%ymm2
- .byte 196,98,125,88,5,153,125,2,0 // vpbroadcastd 0x27d99(%rip),%ymm8 # 2ba34 <_sk_overlay_sse2_8bit+0x54f>
+ .byte 196,98,125,88,5,102,125,2,0 // vpbroadcastd 0x27d66(%rip),%ymm8 # 2b9ec <_sk_overlay_sse2_8bit+0x54f>
.byte 196,193,101,219,216 // vpand %ymm8,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
- .byte 196,98,125,24,5,139,125,2,0 // vbroadcastss 0x27d8b(%rip),%ymm8 # 2ba38 <_sk_overlay_sse2_8bit+0x553>
+ .byte 196,98,125,24,5,88,125,2,0 // vbroadcastss 0x27d58(%rip),%ymm8 # 2b9f0 <_sk_overlay_sse2_8bit+0x553>
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,99,255,255,255 // ja 3c32 <_sk_load_4444_hsw+0x26>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,98,0,0,0 // lea 0x62(%rip),%r11 # 3d3c <_sk_load_4444_hsw+0x130>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,100,255,255,255 // ja 3c1d <_sk_load_4444_hsw+0x25>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,100,0,0,0 // lea 0x64(%rip),%r10 # 3d28 <_sk_load_4444_hsw+0x130>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,249,110,192 // vmovd %eax,%xmm0
- .byte 233,65,255,255,255 // jmpq 3c32 <_sk_load_4444_hsw+0x26>
+ .byte 233,66,255,255,255 // jmpq 3c1d <_sk_load_4444_hsw+0x25>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 196,193,121,196,68,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,110,12,89 // vmovd (%r9,%rbx,2),%xmm1
+ .byte 196,129,121,196,68,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,110,12,88 // vmovd (%r8,%r11,2),%xmm1
.byte 196,227,121,2,193,1 // vpblendd $0x1,%xmm1,%xmm0,%xmm0
- .byte 233,36,255,255,255 // jmpq 3c32 <_sk_load_4444_hsw+0x26>
+ .byte 233,37,255,255,255 // jmpq 3c1d <_sk_load_4444_hsw+0x25>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 196,193,121,196,68,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,196,68,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,196,68,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,122,126,12,89 // vmovq (%r9,%rbx,2),%xmm1
+ .byte 196,129,121,196,68,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,196,68,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,196,68,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,122,126,12,88 // vmovq (%r8,%r11,2),%xmm1
.byte 196,227,113,2,192,12 // vpblendd $0xc,%xmm0,%xmm1,%xmm0
- .byte 233,247,254,255,255 // jmpq 3c32 <_sk_load_4444_hsw+0x26>
- .byte 144 // nop
- .byte 167 // cmpsl %es:(%rdi),%ds:(%rsi)
+ .byte 233,248,254,255,255 // jmpq 3c1d <_sk_load_4444_hsw+0x25>
+ .byte 15,31,0 // nopl (%rax)
+ .byte 165 // movsl %ds:(%rsi),%es:(%rdi)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,193 // inc %ecx
.byte 255 // (bad)
+ .byte 191,255,255,255,179 // mov $0xb3ffffff,%edi
.byte 255 // (bad)
- .byte 255,181,255,255,255,238 // pushq -0x11000001(%rbp)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,230 // jmpq *%rsi
+ .byte 236 // in (%dx),%al
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,228 // jmpq *%rsp
.byte 255 // (bad)
- .byte 222,255 // fdivrp %st,%st(7)
.byte 255 // (bad)
- .byte 255,210 // callq *%rdx
+ .byte 255 // (bad)
+ .byte 220,255 // fdivr %st,%st(7)
+ .byte 255 // (bad)
+ .byte 255,208 // callq *%rax
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -13187,84 +13177,84 @@ HIDDEN _sk_load_4444_dst_hsw
.globl _sk_load_4444_dst_hsw
FUNCTION(_sk_load_4444_dst_hsw)
_sk_load_4444_dst_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,139,0,0,0 // jne 3e03 <_sk_load_4444_dst_hsw+0xab>
- .byte 196,193,122,111,36,89 // vmovdqu (%r9,%rbx,2),%xmm4
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,138,0,0,0 // jne 3ded <_sk_load_4444_dst_hsw+0xa9>
+ .byte 196,129,122,111,36,88 // vmovdqu (%r8,%r11,2),%xmm4
.byte 196,226,125,51,252 // vpmovzxwd %xmm4,%ymm7
- .byte 196,226,125,88,37,144,124,2,0 // vpbroadcastd 0x27c90(%rip),%ymm4 # 2ba1c <_sk_overlay_sse2_8bit+0x537>
+ .byte 196,226,125,88,37,93,124,2,0 // vpbroadcastd 0x27c5d(%rip),%ymm4 # 2b9d4 <_sk_overlay_sse2_8bit+0x537>
.byte 197,197,219,228 // vpand %ymm4,%ymm7,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,226,125,24,45,131,124,2,0 // vbroadcastss 0x27c83(%rip),%ymm5 # 2ba20 <_sk_overlay_sse2_8bit+0x53b>
+ .byte 196,226,125,24,45,80,124,2,0 // vbroadcastss 0x27c50(%rip),%ymm5 # 2b9d8 <_sk_overlay_sse2_8bit+0x53b>
.byte 197,220,89,229 // vmulps %ymm5,%ymm4,%ymm4
- .byte 196,226,125,88,45,122,124,2,0 // vpbroadcastd 0x27c7a(%rip),%ymm5 # 2ba24 <_sk_overlay_sse2_8bit+0x53f>
+ .byte 196,226,125,88,45,71,124,2,0 // vpbroadcastd 0x27c47(%rip),%ymm5 # 2b9dc <_sk_overlay_sse2_8bit+0x53f>
.byte 197,197,219,237 // vpand %ymm5,%ymm7,%ymm5
.byte 197,252,91,237 // vcvtdq2ps %ymm5,%ymm5
- .byte 196,226,125,24,53,109,124,2,0 // vbroadcastss 0x27c6d(%rip),%ymm6 # 2ba28 <_sk_overlay_sse2_8bit+0x543>
+ .byte 196,226,125,24,53,58,124,2,0 // vbroadcastss 0x27c3a(%rip),%ymm6 # 2b9e0 <_sk_overlay_sse2_8bit+0x543>
.byte 197,212,89,238 // vmulps %ymm6,%ymm5,%ymm5
- .byte 196,226,125,88,53,100,124,2,0 // vpbroadcastd 0x27c64(%rip),%ymm6 # 2ba2c <_sk_overlay_sse2_8bit+0x547>
+ .byte 196,226,125,88,53,49,124,2,0 // vpbroadcastd 0x27c31(%rip),%ymm6 # 2b9e4 <_sk_overlay_sse2_8bit+0x547>
.byte 197,197,219,246 // vpand %ymm6,%ymm7,%ymm6
.byte 197,252,91,246 // vcvtdq2ps %ymm6,%ymm6
- .byte 196,98,125,24,5,87,124,2,0 // vbroadcastss 0x27c57(%rip),%ymm8 # 2ba30 <_sk_overlay_sse2_8bit+0x54b>
+ .byte 196,98,125,24,5,36,124,2,0 // vbroadcastss 0x27c24(%rip),%ymm8 # 2b9e8 <_sk_overlay_sse2_8bit+0x54b>
.byte 196,193,76,89,240 // vmulps %ymm8,%ymm6,%ymm6
- .byte 196,98,125,88,5,77,124,2,0 // vpbroadcastd 0x27c4d(%rip),%ymm8 # 2ba34 <_sk_overlay_sse2_8bit+0x54f>
+ .byte 196,98,125,88,5,26,124,2,0 // vpbroadcastd 0x27c1a(%rip),%ymm8 # 2b9ec <_sk_overlay_sse2_8bit+0x54f>
.byte 196,193,69,219,248 // vpand %ymm8,%ymm7,%ymm7
.byte 197,252,91,255 // vcvtdq2ps %ymm7,%ymm7
- .byte 196,98,125,24,5,63,124,2,0 // vbroadcastss 0x27c3f(%rip),%ymm8 # 2ba38 <_sk_overlay_sse2_8bit+0x553>
+ .byte 196,98,125,24,5,12,124,2,0 // vbroadcastss 0x27c0c(%rip),%ymm8 # 2b9f0 <_sk_overlay_sse2_8bit+0x553>
.byte 196,193,68,89,248 // vmulps %ymm8,%ymm7,%ymm7
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,99,255,255,255 // ja 3d7e <_sk_load_4444_dst_hsw+0x26>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,98,0,0,0 // lea 0x62(%rip),%r11 # 3e88 <_sk_load_4444_dst_hsw+0x130>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,100,255,255,255 // ja 3d69 <_sk_load_4444_dst_hsw+0x25>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,100,0,0,0 // lea 0x64(%rip),%r10 # 3e74 <_sk_load_4444_dst_hsw+0x130>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
- .byte 233,65,255,255,255 // jmpq 3d7e <_sk_load_4444_dst_hsw+0x26>
+ .byte 233,66,255,255,255 // jmpq 3d69 <_sk_load_4444_dst_hsw+0x25>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 196,193,89,196,100,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,121,110,44,89 // vmovd (%r9,%rbx,2),%xmm5
+ .byte 196,129,89,196,100,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,121,110,44,88 // vmovd (%r8,%r11,2),%xmm5
.byte 196,227,89,2,229,1 // vpblendd $0x1,%xmm5,%xmm4,%xmm4
- .byte 233,36,255,255,255 // jmpq 3d7e <_sk_load_4444_dst_hsw+0x26>
+ .byte 233,37,255,255,255 // jmpq 3d69 <_sk_load_4444_dst_hsw+0x25>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 196,193,89,196,100,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,89,196,100,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,89,196,100,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,122,126,44,89 // vmovq (%r9,%rbx,2),%xmm5
+ .byte 196,129,89,196,100,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,89,196,100,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,89,196,100,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,122,126,44,88 // vmovq (%r8,%r11,2),%xmm5
.byte 196,227,81,2,228,12 // vpblendd $0xc,%xmm4,%xmm5,%xmm4
- .byte 233,247,254,255,255 // jmpq 3d7e <_sk_load_4444_dst_hsw+0x26>
- .byte 144 // nop
- .byte 167 // cmpsl %es:(%rdi),%ds:(%rsi)
+ .byte 233,248,254,255,255 // jmpq 3d69 <_sk_load_4444_dst_hsw+0x25>
+ .byte 15,31,0 // nopl (%rax)
+ .byte 165 // movsl %ds:(%rsi),%es:(%rdi)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,193 // inc %ecx
.byte 255 // (bad)
+ .byte 191,255,255,255,179 // mov $0xb3ffffff,%edi
.byte 255 // (bad)
- .byte 255,181,255,255,255,238 // pushq -0x11000001(%rbp)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,230 // jmpq *%rsi
+ .byte 236 // in (%dx),%al
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,228 // jmpq *%rsp
.byte 255 // (bad)
- .byte 222,255 // fdivrp %st,%st(7)
.byte 255 // (bad)
- .byte 255,210 // callq *%rdx
+ .byte 255 // (bad)
+ .byte 220,255 // fdivr %st,%st(7)
+ .byte 255 // (bad)
+ .byte 255,208 // callq *%rax
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -13273,79 +13263,86 @@ HIDDEN _sk_gather_4444_hsw
.globl _sk_gather_4444_hsw
FUNCTION(_sk_gather_4444_hsw)
_sk_gather_4444_hsw:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
.byte 196,226,125,88,80,8 // vpbroadcastd 0x8(%rax),%ymm2
.byte 196,226,109,64,201 // vpmulld %ymm1,%ymm2,%ymm1
.byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
.byte 197,245,254,192 // vpaddd %ymm0,%ymm1,%ymm0
+ .byte 196,227,249,22,192,1 // vpextrq $0x1,%xmm0,%rax
+ .byte 65,137,193 // mov %eax,%r9d
+ .byte 72,193,232,32 // shr $0x20,%rax
.byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,249,110,200 // vmovd %eax,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 67,15,183,4,81 // movzwl (%r9,%r10,2),%eax
- .byte 197,241,196,200,1 // vpinsrw $0x1,%eax,%xmm1,%xmm1
- .byte 68,137,216 // mov %r11d,%eax
- .byte 73,193,235,32 // shr $0x20,%r11
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,241,196,200,2 // vpinsrw $0x2,%eax,%xmm1,%xmm1
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
- .byte 197,241,196,200,3 // vpinsrw $0x3,%eax,%xmm1,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,241,196,200,4 // vpinsrw $0x4,%eax,%xmm1,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 67,15,183,4,81 // movzwl (%r9,%r10,2),%eax
- .byte 197,241,196,192,5 // vpinsrw $0x5,%eax,%xmm1,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
+ .byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,193,249,126,199 // vmovq %xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 71,15,183,20,80 // movzwl (%r8,%r10,2),%r10d
+ .byte 71,15,183,28,88 // movzwl (%r8,%r11,2),%r11d
+ .byte 196,193,121,110,195 // vmovd %r11d,%xmm0
+ .byte 196,193,121,196,194,1 // vpinsrw $0x1,%r10d,%xmm0,%xmm0
+ .byte 71,15,183,12,72 // movzwl (%r8,%r9,2),%r9d
+ .byte 196,193,121,196,193,2 // vpinsrw $0x2,%r9d,%xmm0,%xmm0
+ .byte 65,15,183,4,64 // movzwl (%r8,%rax,2),%eax
+ .byte 197,249,196,192,3 // vpinsrw $0x3,%eax,%xmm0,%xmm0
+ .byte 67,15,183,4,96 // movzwl (%r8,%r12,2),%eax
+ .byte 197,249,196,192,4 // vpinsrw $0x4,%eax,%xmm0,%xmm0
+ .byte 67,15,183,4,120 // movzwl (%r8,%r15,2),%eax
+ .byte 197,249,196,192,5 // vpinsrw $0x5,%eax,%xmm0,%xmm0
+ .byte 67,15,183,4,112 // movzwl (%r8,%r14,2),%eax
.byte 197,249,196,192,6 // vpinsrw $0x6,%eax,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 65,15,183,4,88 // movzwl (%r8,%rbx,2),%eax
.byte 197,249,196,192,7 // vpinsrw $0x7,%eax,%xmm0,%xmm0
.byte 196,226,125,51,216 // vpmovzxwd %xmm0,%ymm3
- .byte 196,226,125,88,5,199,122,2,0 // vpbroadcastd 0x27ac7(%rip),%ymm0 # 2ba1c <_sk_overlay_sse2_8bit+0x537>
+ .byte 196,226,125,88,5,137,122,2,0 // vpbroadcastd 0x27a89(%rip),%ymm0 # 2b9d4 <_sk_overlay_sse2_8bit+0x537>
.byte 197,229,219,192 // vpand %ymm0,%ymm3,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,186,122,2,0 // vbroadcastss 0x27aba(%rip),%ymm1 # 2ba20 <_sk_overlay_sse2_8bit+0x53b>
+ .byte 196,226,125,24,13,124,122,2,0 // vbroadcastss 0x27a7c(%rip),%ymm1 # 2b9d8 <_sk_overlay_sse2_8bit+0x53b>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
- .byte 196,226,125,88,13,177,122,2,0 // vpbroadcastd 0x27ab1(%rip),%ymm1 # 2ba24 <_sk_overlay_sse2_8bit+0x53f>
+ .byte 196,226,125,88,13,115,122,2,0 // vpbroadcastd 0x27a73(%rip),%ymm1 # 2b9dc <_sk_overlay_sse2_8bit+0x53f>
.byte 197,229,219,201 // vpand %ymm1,%ymm3,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
- .byte 196,226,125,24,21,164,122,2,0 // vbroadcastss 0x27aa4(%rip),%ymm2 # 2ba28 <_sk_overlay_sse2_8bit+0x543>
+ .byte 196,226,125,24,21,102,122,2,0 // vbroadcastss 0x27a66(%rip),%ymm2 # 2b9e0 <_sk_overlay_sse2_8bit+0x543>
.byte 197,244,89,202 // vmulps %ymm2,%ymm1,%ymm1
- .byte 196,226,125,88,21,155,122,2,0 // vpbroadcastd 0x27a9b(%rip),%ymm2 # 2ba2c <_sk_overlay_sse2_8bit+0x547>
+ .byte 196,226,125,88,21,93,122,2,0 // vpbroadcastd 0x27a5d(%rip),%ymm2 # 2b9e4 <_sk_overlay_sse2_8bit+0x547>
.byte 197,229,219,210 // vpand %ymm2,%ymm3,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
- .byte 196,98,125,24,5,142,122,2,0 // vbroadcastss 0x27a8e(%rip),%ymm8 # 2ba30 <_sk_overlay_sse2_8bit+0x54b>
+ .byte 196,98,125,24,5,80,122,2,0 // vbroadcastss 0x27a50(%rip),%ymm8 # 2b9e8 <_sk_overlay_sse2_8bit+0x54b>
.byte 196,193,108,89,208 // vmulps %ymm8,%ymm2,%ymm2
- .byte 196,98,125,88,5,132,122,2,0 // vpbroadcastd 0x27a84(%rip),%ymm8 # 2ba34 <_sk_overlay_sse2_8bit+0x54f>
+ .byte 196,98,125,88,5,70,122,2,0 // vpbroadcastd 0x27a46(%rip),%ymm8 # 2b9ec <_sk_overlay_sse2_8bit+0x54f>
.byte 196,193,101,219,216 // vpand %ymm8,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
- .byte 196,98,125,24,5,118,122,2,0 // vbroadcastss 0x27a76(%rip),%ymm8 # 2ba38 <_sk_overlay_sse2_8bit+0x553>
+ .byte 196,98,125,24,5,56,122,2,0 // vbroadcastss 0x27a38(%rip),%ymm8 # 2b9f0 <_sk_overlay_sse2_8bit+0x553>
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_4444_hsw
.globl _sk_store_4444_hsw
FUNCTION(_sk_store_4444_hsw)
_sk_store_4444_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 196,98,125,24,5,81,122,2,0 // vbroadcastss 0x27a51(%rip),%ymm8 # 2ba3c <_sk_overlay_sse2_8bit+0x557>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 196,98,125,24,5,13,122,2,0 // vbroadcastss 0x27a0d(%rip),%ymm8 # 2b9f4 <_sk_overlay_sse2_8bit+0x557>
.byte 196,65,124,89,200 // vmulps %ymm8,%ymm0,%ymm9
.byte 196,65,125,91,201 // vcvtps2dq %ymm9,%ymm9
.byte 196,193,53,114,241,12 // vpslld $0xc,%ymm9,%ymm9
@@ -13362,137 +13359,136 @@ _sk_store_4444_hsw:
.byte 196,65,53,235,192 // vpor %ymm8,%ymm9,%ymm8
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
.byte 196,66,57,43,193 // vpackusdw %xmm9,%xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,11 // jne 404f <_sk_store_4444_hsw+0x84>
- .byte 196,65,122,127,4,89 // vmovdqu %xmm8,(%r9,%rbx,2)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 404a <_sk_store_4444_hsw+0x82>
+ .byte 196,1,122,127,4,88 // vmovdqu %xmm8,(%r8,%r11,2)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,235 // ja 404a <_sk_store_4444_hsw+0x7f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,66,0,0,0 // lea 0x42(%rip),%r11 # 40ac <_sk_store_4444_hsw+0xe1>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,67,121,21,4,89,0 // vpextrw $0x0,%xmm8,(%r9,%rbx,2)
- .byte 235,206 // jmp 404a <_sk_store_4444_hsw+0x7f>
- .byte 196,67,121,21,68,89,4,2 // vpextrw $0x2,%xmm8,0x4(%r9,%rbx,2)
- .byte 196,65,121,126,4,89 // vmovd %xmm8,(%r9,%rbx,2)
- .byte 235,190 // jmp 404a <_sk_store_4444_hsw+0x7f>
- .byte 196,67,121,21,68,89,12,6 // vpextrw $0x6,%xmm8,0xc(%r9,%rbx,2)
- .byte 196,67,121,21,68,89,10,5 // vpextrw $0x5,%xmm8,0xa(%r9,%rbx,2)
- .byte 196,67,121,21,68,89,8,4 // vpextrw $0x4,%xmm8,0x8(%r9,%rbx,2)
- .byte 196,65,121,214,4,89 // vmovq %xmm8,(%r9,%rbx,2)
- .byte 235,158 // jmp 404a <_sk_store_4444_hsw+0x7f>
- .byte 199 // (bad)
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,236 // ja 4046 <_sk_store_4444_hsw+0x7e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,67,0,0,0 // lea 0x43(%rip),%r10 # 40a8 <_sk_store_4444_hsw+0xe0>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,3,121,21,4,88,0 // vpextrw $0x0,%xmm8,(%r8,%r11,2)
+ .byte 235,207 // jmp 4046 <_sk_store_4444_hsw+0x7e>
+ .byte 196,3,121,21,68,88,4,2 // vpextrw $0x2,%xmm8,0x4(%r8,%r11,2)
+ .byte 196,1,121,126,4,88 // vmovd %xmm8,(%r8,%r11,2)
+ .byte 235,191 // jmp 4046 <_sk_store_4444_hsw+0x7e>
+ .byte 196,3,121,21,68,88,12,6 // vpextrw $0x6,%xmm8,0xc(%r8,%r11,2)
+ .byte 196,3,121,21,68,88,10,5 // vpextrw $0x5,%xmm8,0xa(%r8,%r11,2)
+ .byte 196,3,121,21,68,88,8,4 // vpextrw $0x4,%xmm8,0x8(%r8,%r11,2)
+ .byte 196,1,121,214,4,88 // vmovq %xmm8,(%r8,%r11,2)
+ .byte 235,159 // jmp 4046 <_sk_store_4444_hsw+0x7e>
+ .byte 144 // nop
+ .byte 198 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,215 // callq *%rdi
.byte 255 // (bad)
- .byte 216,255 // fdivr %st(7),%st
.byte 255 // (bad)
- .byte 255,208 // callq *%rax
+ .byte 255,207 // dec %edi
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,247 // push %rdi
.byte 255 // (bad)
- .byte 248 // clc
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,240 // push %rax
+ .byte 239 // out %eax,(%dx)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
- .byte 232,255,255,255,224 // callq ffffffffe10040c4 <_sk_overlay_sse2_8bit+0xffffffffe0fd8bdf>
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 223,255 // (bad)
+ .byte 255 // (bad)
.byte 255 // .byte 0xff
HIDDEN _sk_load_8888_hsw
.globl _sk_load_8888_hsw
FUNCTION(_sk_load_8888_hsw)
_sk_load_8888_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,87 // jne 413c <_sk_load_8888_hsw+0x74>
- .byte 196,193,126,111,28,153 // vmovdqu (%r9,%rbx,4),%ymm3
- .byte 197,229,219,5,173,122,2,0 // vpand 0x27aad(%rip),%ymm3,%ymm0 # 2bba0 <_sk_overlay_sse2_8bit+0x6bb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,86 // jne 4136 <_sk_load_8888_hsw+0x72>
+ .byte 196,129,126,111,28,152 // vmovdqu (%r8,%r11,4),%ymm3
+ .byte 197,229,219,5,146,122,2,0 // vpand 0x27a92(%rip),%ymm3,%ymm0 # 2bb80 <_sk_overlay_sse2_8bit+0x6e3>
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,5,156,120,2,0 // vbroadcastss 0x2789c(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,89,120,2,0 // vbroadcastss 0x27859(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
- .byte 196,226,101,0,13,178,122,2,0 // vpshufb 0x27ab2(%rip),%ymm3,%ymm1 # 2bbc0 <_sk_overlay_sse2_8bit+0x6db>
+ .byte 196,226,101,0,13,151,122,2,0 // vpshufb 0x27a97(%rip),%ymm3,%ymm1 # 2bba0 <_sk_overlay_sse2_8bit+0x703>
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
.byte 196,193,116,89,200 // vmulps %ymm8,%ymm1,%ymm1
- .byte 196,226,101,0,21,192,122,2,0 // vpshufb 0x27ac0(%rip),%ymm3,%ymm2 # 2bbe0 <_sk_overlay_sse2_8bit+0x6fb>
+ .byte 196,226,101,0,21,165,122,2,0 // vpshufb 0x27aa5(%rip),%ymm3,%ymm2 # 2bbc0 <_sk_overlay_sse2_8bit+0x723>
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
.byte 196,193,108,89,208 // vmulps %ymm8,%ymm2,%ymm2
.byte 197,229,114,211,24 // vpsrld $0x18,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,155 // ja 40eb <_sk_load_8888_hsw+0x23>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,141,0,0,0 // lea 0x8d(%rip),%r11 # 41e8 <_sk_load_8888_hsw+0x120>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,193,121,110,28,153 // vmovd (%r9,%rbx,4),%xmm3
- .byte 233,124,255,255,255 // jmpq 40eb <_sk_load_8888_hsw+0x23>
- .byte 196,193,121,110,68,153,8 // vmovd 0x8(%r9,%rbx,4),%xmm0
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,156 // ja 40e6 <_sk_load_8888_hsw+0x22>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,135,0,0,0 // lea 0x87(%rip),%r10 # 41dc <_sk_load_8888_hsw+0x118>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,129,121,110,28,152 // vmovd (%r8,%r11,4),%xmm3
+ .byte 235,128 // jmp 40e6 <_sk_load_8888_hsw+0x22>
+ .byte 196,129,121,110,68,152,8 // vmovd 0x8(%r8,%r11,4),%xmm0
.byte 196,226,121,89,192 // vpbroadcastq %xmm0,%xmm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
.byte 196,227,117,2,216,4 // vpblendd $0x4,%ymm0,%ymm1,%ymm3
- .byte 196,193,122,126,4,153 // vmovq (%r9,%rbx,4),%xmm0
+ .byte 196,129,122,126,4,152 // vmovq (%r8,%r11,4),%xmm0
.byte 196,227,101,2,216,3 // vpblendd $0x3,%ymm0,%ymm3,%ymm3
- .byte 233,85,255,255,255 // jmpq 40eb <_sk_load_8888_hsw+0x23>
- .byte 196,193,121,110,68,153,24 // vmovd 0x18(%r9,%rbx,4),%xmm0
+ .byte 233,89,255,255,255 // jmpq 40e6 <_sk_load_8888_hsw+0x22>
+ .byte 196,129,121,110,68,152,24 // vmovd 0x18(%r8,%r11,4),%xmm0
.byte 196,226,125,89,192 // vpbroadcastq %xmm0,%ymm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
.byte 196,227,117,2,216,64 // vpblendd $0x40,%ymm0,%ymm1,%ymm3
.byte 196,227,125,57,216,1 // vextracti128 $0x1,%ymm3,%xmm0
- .byte 196,195,121,34,68,153,20,1 // vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm0,%xmm0
+ .byte 196,131,121,34,68,152,20,1 // vpinsrd $0x1,0x14(%r8,%r11,4),%xmm0,%xmm0
.byte 196,227,101,56,216,1 // vinserti128 $0x1,%xmm0,%ymm3,%ymm3
.byte 196,227,125,57,216,1 // vextracti128 $0x1,%ymm3,%xmm0
- .byte 196,195,121,34,68,153,16,0 // vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm0,%xmm0
+ .byte 196,131,121,34,68,152,16,0 // vpinsrd $0x0,0x10(%r8,%r11,4),%xmm0,%xmm0
.byte 196,227,101,56,216,1 // vinserti128 $0x1,%xmm0,%ymm3,%ymm3
- .byte 196,193,122,111,4,153 // vmovdqu (%r9,%rbx,4),%xmm0
+ .byte 196,129,122,111,4,152 // vmovdqu (%r8,%r11,4),%xmm0
.byte 196,227,125,2,219,240 // vpblendd $0xf0,%ymm3,%ymm0,%ymm3
- .byte 233,6,255,255,255 // jmpq 40eb <_sk_load_8888_hsw+0x23>
- .byte 15,31,0 // nopl (%rax)
- .byte 124,255 // jl 41e9 <_sk_load_8888_hsw+0x121>
+ .byte 233,10,255,255,255 // jmpq 40e6 <_sk_load_8888_hsw+0x22>
+ .byte 130 // (bad)
.byte 255 // (bad)
- .byte 255,157,255,255,255,135 // lcall *-0x78000001(%rbp)
.byte 255 // (bad)
+ .byte 255,160,255,255,255,138 // jmpq *-0x75000001(%rax)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
.byte 255 // (bad)
+ .byte 239 // out %eax,(%dx)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 216,255 // fdivr %st(7),%st
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 219,255 // (bad)
.byte 255 // (bad)
+ .byte 255,199 // inc %edi
.byte 255 // (bad)
- .byte 255 // .byte 0xff
- .byte 174 // scas %es:(%rdi),%al
.byte 255 // (bad)
+ .byte 255 // .byte 0xff
+ .byte 177,255 // mov $0xff,%cl
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -13500,85 +13496,82 @@ HIDDEN _sk_load_8888_dst_hsw
.globl _sk_load_8888_dst_hsw
FUNCTION(_sk_load_8888_dst_hsw)
_sk_load_8888_dst_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,87 // jne 4278 <_sk_load_8888_dst_hsw+0x74>
- .byte 196,193,126,111,60,153 // vmovdqu (%r9,%rbx,4),%ymm7
- .byte 197,197,219,37,209,121,2,0 // vpand 0x279d1(%rip),%ymm7,%ymm4 # 2bc00 <_sk_overlay_sse2_8bit+0x71b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,86 // jne 426a <_sk_load_8888_dst_hsw+0x72>
+ .byte 196,129,126,111,60,152 // vmovdqu (%r8,%r11,4),%ymm7
+ .byte 197,197,219,37,190,121,2,0 // vpand 0x279be(%rip),%ymm7,%ymm4 # 2bbe0 <_sk_overlay_sse2_8bit+0x743>
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,98,125,24,5,96,119,2,0 // vbroadcastss 0x27760(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,37,119,2,0 // vbroadcastss 0x27725(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,92,89,224 // vmulps %ymm8,%ymm4,%ymm4
- .byte 196,226,69,0,45,214,121,2,0 // vpshufb 0x279d6(%rip),%ymm7,%ymm5 # 2bc20 <_sk_overlay_sse2_8bit+0x73b>
+ .byte 196,226,69,0,45,195,121,2,0 // vpshufb 0x279c3(%rip),%ymm7,%ymm5 # 2bc00 <_sk_overlay_sse2_8bit+0x763>
.byte 197,252,91,237 // vcvtdq2ps %ymm5,%ymm5
.byte 196,193,84,89,232 // vmulps %ymm8,%ymm5,%ymm5
- .byte 196,226,69,0,53,228,121,2,0 // vpshufb 0x279e4(%rip),%ymm7,%ymm6 # 2bc40 <_sk_overlay_sse2_8bit+0x75b>
+ .byte 196,226,69,0,53,209,121,2,0 // vpshufb 0x279d1(%rip),%ymm7,%ymm6 # 2bc20 <_sk_overlay_sse2_8bit+0x783>
.byte 197,252,91,246 // vcvtdq2ps %ymm6,%ymm6
.byte 196,193,76,89,240 // vmulps %ymm8,%ymm6,%ymm6
.byte 197,197,114,215,24 // vpsrld $0x18,%ymm7,%ymm7
.byte 197,252,91,255 // vcvtdq2ps %ymm7,%ymm7
.byte 196,193,68,89,248 // vmulps %ymm8,%ymm7,%ymm7
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,197,239,255 // vpxor %ymm7,%ymm7,%ymm7
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,155 // ja 4227 <_sk_load_8888_dst_hsw+0x23>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,141,0,0,0 // lea 0x8d(%rip),%r11 # 4324 <_sk_load_8888_dst_hsw+0x120>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,193,121,110,60,153 // vmovd (%r9,%rbx,4),%xmm7
- .byte 233,124,255,255,255 // jmpq 4227 <_sk_load_8888_dst_hsw+0x23>
- .byte 196,193,121,110,100,153,8 // vmovd 0x8(%r9,%rbx,4),%xmm4
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,156 // ja 421a <_sk_load_8888_dst_hsw+0x22>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,135,0,0,0 // lea 0x87(%rip),%r10 # 4310 <_sk_load_8888_dst_hsw+0x118>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,129,121,110,60,152 // vmovd (%r8,%r11,4),%xmm7
+ .byte 235,128 // jmp 421a <_sk_load_8888_dst_hsw+0x22>
+ .byte 196,129,121,110,100,152,8 // vmovd 0x8(%r8,%r11,4),%xmm4
.byte 196,226,121,89,228 // vpbroadcastq %xmm4,%xmm4
.byte 197,213,239,237 // vpxor %ymm5,%ymm5,%ymm5
.byte 196,227,85,2,252,4 // vpblendd $0x4,%ymm4,%ymm5,%ymm7
- .byte 196,193,122,126,36,153 // vmovq (%r9,%rbx,4),%xmm4
+ .byte 196,129,122,126,36,152 // vmovq (%r8,%r11,4),%xmm4
.byte 196,227,69,2,252,3 // vpblendd $0x3,%ymm4,%ymm7,%ymm7
- .byte 233,85,255,255,255 // jmpq 4227 <_sk_load_8888_dst_hsw+0x23>
- .byte 196,193,121,110,100,153,24 // vmovd 0x18(%r9,%rbx,4),%xmm4
+ .byte 233,89,255,255,255 // jmpq 421a <_sk_load_8888_dst_hsw+0x22>
+ .byte 196,129,121,110,100,152,24 // vmovd 0x18(%r8,%r11,4),%xmm4
.byte 196,226,125,89,228 // vpbroadcastq %xmm4,%ymm4
.byte 197,213,239,237 // vpxor %ymm5,%ymm5,%ymm5
.byte 196,227,85,2,252,64 // vpblendd $0x40,%ymm4,%ymm5,%ymm7
.byte 196,227,125,57,252,1 // vextracti128 $0x1,%ymm7,%xmm4
- .byte 196,195,89,34,100,153,20,1 // vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,20,1 // vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
.byte 196,227,69,56,252,1 // vinserti128 $0x1,%xmm4,%ymm7,%ymm7
.byte 196,227,125,57,252,1 // vextracti128 $0x1,%ymm7,%xmm4
- .byte 196,195,89,34,100,153,16,0 // vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,16,0 // vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
.byte 196,227,69,56,252,1 // vinserti128 $0x1,%xmm4,%ymm7,%ymm7
- .byte 196,193,122,111,36,153 // vmovdqu (%r9,%rbx,4),%xmm4
+ .byte 196,129,122,111,36,152 // vmovdqu (%r8,%r11,4),%xmm4
.byte 196,227,93,2,255,240 // vpblendd $0xf0,%ymm7,%ymm4,%ymm7
- .byte 233,6,255,255,255 // jmpq 4227 <_sk_load_8888_dst_hsw+0x23>
- .byte 15,31,0 // nopl (%rax)
- .byte 124,255 // jl 4325 <_sk_load_8888_dst_hsw+0x121>
+ .byte 233,10,255,255,255 // jmpq 421a <_sk_load_8888_dst_hsw+0x22>
+ .byte 130 // (bad)
.byte 255 // (bad)
- .byte 255,157,255,255,255,135 // lcall *-0x78000001(%rbp)
.byte 255 // (bad)
+ .byte 255,160,255,255,255,138 // jmpq *-0x75000001(%rax)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
.byte 255 // (bad)
+ .byte 239 // out %eax,(%dx)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 216,255 // fdivr %st(7),%st
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 219,255 // (bad)
.byte 255 // (bad)
+ .byte 255,199 // inc %edi
.byte 255 // (bad)
- .byte 255 // .byte 0xff
- .byte 174 // scas %es:(%rdi),%al
.byte 255 // (bad)
+ .byte 255 // .byte 0xff
+ .byte 177,255 // mov $0xff,%cl
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -13587,22 +13580,22 @@ HIDDEN _sk_gather_8888_hsw
FUNCTION(_sk_gather_8888_hsw)
_sk_gather_8888_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
.byte 196,226,125,88,80,8 // vpbroadcastd 0x8(%rax),%ymm2
.byte 196,226,109,64,201 // vpmulld %ymm1,%ymm2,%ymm1
.byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
.byte 197,245,254,192 // vpaddd %ymm0,%ymm1,%ymm0
.byte 197,245,118,201 // vpcmpeqd %ymm1,%ymm1,%ymm1
- .byte 196,194,117,144,28,129 // vpgatherdd %ymm1,(%r9,%ymm0,4),%ymm3
- .byte 197,229,219,5,242,120,2,0 // vpand 0x278f2(%rip),%ymm3,%ymm0 # 2bc60 <_sk_overlay_sse2_8bit+0x77b>
+ .byte 196,194,117,144,28,128 // vpgatherdd %ymm1,(%r8,%ymm0,4),%ymm3
+ .byte 197,229,219,5,230,120,2,0 // vpand 0x278e6(%rip),%ymm3,%ymm0 # 2bc40 <_sk_overlay_sse2_8bit+0x7a3>
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,5,33,118,2,0 // vbroadcastss 0x27621(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,237,117,2,0 // vbroadcastss 0x275ed(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
- .byte 196,226,101,0,13,247,120,2,0 // vpshufb 0x278f7(%rip),%ymm3,%ymm1 # 2bc80 <_sk_overlay_sse2_8bit+0x79b>
+ .byte 196,226,101,0,13,235,120,2,0 // vpshufb 0x278eb(%rip),%ymm3,%ymm1 # 2bc60 <_sk_overlay_sse2_8bit+0x7c3>
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
.byte 196,193,116,89,200 // vmulps %ymm8,%ymm1,%ymm1
- .byte 196,226,101,0,21,5,121,2,0 // vpshufb 0x27905(%rip),%ymm3,%ymm2 # 2bca0 <_sk_overlay_sse2_8bit+0x7bb>
+ .byte 196,226,101,0,21,249,120,2,0 // vpshufb 0x278f9(%rip),%ymm3,%ymm2 # 2bc80 <_sk_overlay_sse2_8bit+0x7e3>
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
.byte 196,193,108,89,208 // vmulps %ymm8,%ymm2,%ymm2
.byte 197,229,114,211,24 // vpsrld $0x18,%ymm3,%ymm3
@@ -13615,15 +13608,14 @@ HIDDEN _sk_store_8888_hsw
.globl _sk_store_8888_hsw
FUNCTION(_sk_store_8888_hsw)
_sk_store_8888_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 196,98,125,24,5,125,117,2,0 // vbroadcastss 0x2757d(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 196,98,125,24,5,74,117,2,0 // vbroadcastss 0x2754a(%rip),%ymm8 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,65,124,89,200 // vmulps %ymm8,%ymm0,%ymm9
.byte 196,65,125,91,201 // vcvtps2dq %ymm9,%ymm9
.byte 196,65,116,89,208 // vmulps %ymm8,%ymm1,%ymm10
@@ -13638,50 +13630,52 @@ _sk_store_8888_hsw:
.byte 196,193,61,114,240,24 // vpslld $0x18,%ymm8,%ymm8
.byte 196,65,45,235,192 // vpor %ymm8,%ymm10,%ymm8
.byte 196,65,53,235,192 // vpor %ymm8,%ymm9,%ymm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,11 // jne 4430 <_sk_store_8888_hsw+0x7a>
- .byte 196,65,126,127,4,153 // vmovdqu %ymm8,(%r9,%rbx,4)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 441a <_sk_store_8888_hsw+0x78>
+ .byte 196,1,126,127,4,152 // vmovdqu %ymm8,(%r8,%r11,4)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,235 // ja 442b <_sk_store_8888_hsw+0x75>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,85,0,0,0 // lea 0x55(%rip),%r11 # 44a0 <_sk_store_8888_hsw+0xea>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,121,126,4,153 // vmovd %xmm8,(%r9,%rbx,4)
- .byte 235,207 // jmp 442b <_sk_store_8888_hsw+0x75>
- .byte 196,67,121,22,68,153,8,2 // vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- .byte 196,65,121,214,4,153 // vmovq %xmm8,(%r9,%rbx,4)
- .byte 235,191 // jmp 442b <_sk_store_8888_hsw+0x75>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,236 // ja 4416 <_sk_store_8888_hsw+0x74>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,83,0,0,0 // lea 0x53(%rip),%r10 # 4488 <_sk_store_8888_hsw+0xe6>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,1,121,126,4,152 // vmovd %xmm8,(%r8,%r11,4)
+ .byte 235,208 // jmp 4416 <_sk_store_8888_hsw+0x74>
+ .byte 196,3,121,22,68,152,8,2 // vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ .byte 196,1,121,214,4,152 // vmovq %xmm8,(%r8,%r11,4)
+ .byte 235,192 // jmp 4416 <_sk_store_8888_hsw+0x74>
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,24,2 // vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,24,2 // vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,20,1 // vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,20,1 // vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
- .byte 196,65,121,126,76,153,16 // vmovd %xmm9,0x10(%r9,%rbx,4)
- .byte 196,65,122,127,4,153 // vmovdqu %xmm8,(%r9,%rbx,4)
- .byte 235,142 // jmp 442b <_sk_store_8888_hsw+0x75>
- .byte 15,31,0 // nopl (%rax)
- .byte 180,255 // mov $0xff,%ah
+ .byte 196,1,121,126,76,152,16 // vmovd %xmm9,0x10(%r8,%r11,4)
+ .byte 196,1,122,127,4,152 // vmovdqu %xmm8,(%r8,%r11,4)
+ .byte 235,143 // jmp 4416 <_sk_store_8888_hsw+0x74>
+ .byte 144 // nop
+ .byte 182,255 // mov $0xff,%dh
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255,198 // inc %esi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 188,255,255,255,245 // mov $0xf5ffffff,%esp
+ .byte 190,255,255,255,247 // mov $0xf7ffffff,%esi
+ .byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 234 // (bad)
.byte 255 // (bad)
- .byte 232,255,255,255,218 // callq ffffffffdb0044b4 <_sk_overlay_sse2_8bit+0xffffffffdafd8fcf>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,204 // dec %esp
+ .byte 220,255 // fdivr %st,%st(7)
+ .byte 255 // (bad)
+ .byte 255,206 // dec %esi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -13690,85 +13684,82 @@ HIDDEN _sk_load_bgra_hsw
.globl _sk_load_bgra_hsw
FUNCTION(_sk_load_bgra_hsw)
_sk_load_bgra_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,87 // jne 4530 <_sk_load_bgra_hsw+0x74>
- .byte 196,193,126,111,28,153 // vmovdqu (%r9,%rbx,4),%ymm3
- .byte 197,229,219,5,217,119,2,0 // vpand 0x277d9(%rip),%ymm3,%ymm0 # 2bcc0 <_sk_overlay_sse2_8bit+0x7db>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,86 // jne 4516 <_sk_load_bgra_hsw+0x72>
+ .byte 196,129,126,111,28,152 // vmovdqu (%r8,%r11,4),%ymm3
+ .byte 197,229,219,5,210,119,2,0 // vpand 0x277d2(%rip),%ymm3,%ymm0 # 2bca0 <_sk_overlay_sse2_8bit+0x803>
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,5,168,116,2,0 // vbroadcastss 0x274a8(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,121,116,2,0 // vbroadcastss 0x27479(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,208 // vmulps %ymm8,%ymm0,%ymm2
- .byte 196,226,101,0,5,222,119,2,0 // vpshufb 0x277de(%rip),%ymm3,%ymm0 # 2bce0 <_sk_overlay_sse2_8bit+0x7fb>
+ .byte 196,226,101,0,5,215,119,2,0 // vpshufb 0x277d7(%rip),%ymm3,%ymm0 # 2bcc0 <_sk_overlay_sse2_8bit+0x823>
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
.byte 196,193,124,89,200 // vmulps %ymm8,%ymm0,%ymm1
- .byte 196,226,101,0,5,236,119,2,0 // vpshufb 0x277ec(%rip),%ymm3,%ymm0 # 2bd00 <_sk_overlay_sse2_8bit+0x81b>
+ .byte 196,226,101,0,5,229,119,2,0 // vpshufb 0x277e5(%rip),%ymm3,%ymm0 # 2bce0 <_sk_overlay_sse2_8bit+0x843>
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
.byte 197,229,114,211,24 // vpsrld $0x18,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,155 // ja 44df <_sk_load_bgra_hsw+0x23>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,141,0,0,0 // lea 0x8d(%rip),%r11 # 45dc <_sk_load_bgra_hsw+0x120>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,193,121,110,28,153 // vmovd (%r9,%rbx,4),%xmm3
- .byte 233,124,255,255,255 // jmpq 44df <_sk_load_bgra_hsw+0x23>
- .byte 196,193,121,110,68,153,8 // vmovd 0x8(%r9,%rbx,4),%xmm0
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,156 // ja 44c6 <_sk_load_bgra_hsw+0x22>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,135,0,0,0 // lea 0x87(%rip),%r10 # 45bc <_sk_load_bgra_hsw+0x118>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,129,121,110,28,152 // vmovd (%r8,%r11,4),%xmm3
+ .byte 235,128 // jmp 44c6 <_sk_load_bgra_hsw+0x22>
+ .byte 196,129,121,110,68,152,8 // vmovd 0x8(%r8,%r11,4),%xmm0
.byte 196,226,121,89,192 // vpbroadcastq %xmm0,%xmm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
.byte 196,227,117,2,216,4 // vpblendd $0x4,%ymm0,%ymm1,%ymm3
- .byte 196,193,122,126,4,153 // vmovq (%r9,%rbx,4),%xmm0
+ .byte 196,129,122,126,4,152 // vmovq (%r8,%r11,4),%xmm0
.byte 196,227,101,2,216,3 // vpblendd $0x3,%ymm0,%ymm3,%ymm3
- .byte 233,85,255,255,255 // jmpq 44df <_sk_load_bgra_hsw+0x23>
- .byte 196,193,121,110,68,153,24 // vmovd 0x18(%r9,%rbx,4),%xmm0
+ .byte 233,89,255,255,255 // jmpq 44c6 <_sk_load_bgra_hsw+0x22>
+ .byte 196,129,121,110,68,152,24 // vmovd 0x18(%r8,%r11,4),%xmm0
.byte 196,226,125,89,192 // vpbroadcastq %xmm0,%ymm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
.byte 196,227,117,2,216,64 // vpblendd $0x40,%ymm0,%ymm1,%ymm3
.byte 196,227,125,57,216,1 // vextracti128 $0x1,%ymm3,%xmm0
- .byte 196,195,121,34,68,153,20,1 // vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm0,%xmm0
+ .byte 196,131,121,34,68,152,20,1 // vpinsrd $0x1,0x14(%r8,%r11,4),%xmm0,%xmm0
.byte 196,227,101,56,216,1 // vinserti128 $0x1,%xmm0,%ymm3,%ymm3
.byte 196,227,125,57,216,1 // vextracti128 $0x1,%ymm3,%xmm0
- .byte 196,195,121,34,68,153,16,0 // vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm0,%xmm0
+ .byte 196,131,121,34,68,152,16,0 // vpinsrd $0x0,0x10(%r8,%r11,4),%xmm0,%xmm0
.byte 196,227,101,56,216,1 // vinserti128 $0x1,%xmm0,%ymm3,%ymm3
- .byte 196,193,122,111,4,153 // vmovdqu (%r9,%rbx,4),%xmm0
+ .byte 196,129,122,111,4,152 // vmovdqu (%r8,%r11,4),%xmm0
.byte 196,227,125,2,219,240 // vpblendd $0xf0,%ymm3,%ymm0,%ymm3
- .byte 233,6,255,255,255 // jmpq 44df <_sk_load_bgra_hsw+0x23>
- .byte 15,31,0 // nopl (%rax)
- .byte 124,255 // jl 45dd <_sk_load_bgra_hsw+0x121>
+ .byte 233,10,255,255,255 // jmpq 44c6 <_sk_load_bgra_hsw+0x22>
+ .byte 130 // (bad)
.byte 255 // (bad)
- .byte 255,157,255,255,255,135 // lcall *-0x78000001(%rbp)
.byte 255 // (bad)
+ .byte 255,160,255,255,255,138 // jmpq *-0x75000001(%rax)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
.byte 255 // (bad)
+ .byte 239 // out %eax,(%dx)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 216,255 // fdivr %st(7),%st
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 219,255 // (bad)
.byte 255 // (bad)
+ .byte 255,199 // inc %edi
.byte 255 // (bad)
- .byte 255 // .byte 0xff
- .byte 174 // scas %es:(%rdi),%al
.byte 255 // (bad)
+ .byte 255 // .byte 0xff
+ .byte 177,255 // mov $0xff,%cl
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -13776,85 +13767,82 @@ HIDDEN _sk_load_bgra_dst_hsw
.globl _sk_load_bgra_dst_hsw
FUNCTION(_sk_load_bgra_dst_hsw)
_sk_load_bgra_dst_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,87 // jne 466c <_sk_load_bgra_dst_hsw+0x74>
- .byte 196,193,126,111,60,153 // vmovdqu (%r9,%rbx,4),%ymm7
- .byte 197,197,219,37,253,118,2,0 // vpand 0x276fd(%rip),%ymm7,%ymm4 # 2bd20 <_sk_overlay_sse2_8bit+0x83b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,86 // jne 464a <_sk_load_bgra_dst_hsw+0x72>
+ .byte 196,129,126,111,60,152 // vmovdqu (%r8,%r11,4),%ymm7
+ .byte 197,197,219,37,254,118,2,0 // vpand 0x276fe(%rip),%ymm7,%ymm4 # 2bd00 <_sk_overlay_sse2_8bit+0x863>
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,98,125,24,5,108,115,2,0 // vbroadcastss 0x2736c(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,69,115,2,0 // vbroadcastss 0x27345(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,92,89,240 // vmulps %ymm8,%ymm4,%ymm6
- .byte 196,226,69,0,37,2,119,2,0 // vpshufb 0x27702(%rip),%ymm7,%ymm4 # 2bd40 <_sk_overlay_sse2_8bit+0x85b>
+ .byte 196,226,69,0,37,3,119,2,0 // vpshufb 0x27703(%rip),%ymm7,%ymm4 # 2bd20 <_sk_overlay_sse2_8bit+0x883>
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
.byte 196,193,92,89,232 // vmulps %ymm8,%ymm4,%ymm5
- .byte 196,226,69,0,37,16,119,2,0 // vpshufb 0x27710(%rip),%ymm7,%ymm4 # 2bd60 <_sk_overlay_sse2_8bit+0x87b>
+ .byte 196,226,69,0,37,17,119,2,0 // vpshufb 0x27711(%rip),%ymm7,%ymm4 # 2bd40 <_sk_overlay_sse2_8bit+0x8a3>
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
.byte 196,193,92,89,224 // vmulps %ymm8,%ymm4,%ymm4
.byte 197,197,114,215,24 // vpsrld $0x18,%ymm7,%ymm7
.byte 197,252,91,255 // vcvtdq2ps %ymm7,%ymm7
.byte 196,193,68,89,248 // vmulps %ymm8,%ymm7,%ymm7
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,197,239,255 // vpxor %ymm7,%ymm7,%ymm7
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,155 // ja 461b <_sk_load_bgra_dst_hsw+0x23>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,141,0,0,0 // lea 0x8d(%rip),%r11 # 4718 <_sk_load_bgra_dst_hsw+0x120>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,193,121,110,60,153 // vmovd (%r9,%rbx,4),%xmm7
- .byte 233,124,255,255,255 // jmpq 461b <_sk_load_bgra_dst_hsw+0x23>
- .byte 196,193,121,110,100,153,8 // vmovd 0x8(%r9,%rbx,4),%xmm4
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,156 // ja 45fa <_sk_load_bgra_dst_hsw+0x22>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,135,0,0,0 // lea 0x87(%rip),%r10 # 46f0 <_sk_load_bgra_dst_hsw+0x118>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,129,121,110,60,152 // vmovd (%r8,%r11,4),%xmm7
+ .byte 235,128 // jmp 45fa <_sk_load_bgra_dst_hsw+0x22>
+ .byte 196,129,121,110,100,152,8 // vmovd 0x8(%r8,%r11,4),%xmm4
.byte 196,226,121,89,228 // vpbroadcastq %xmm4,%xmm4
.byte 197,213,239,237 // vpxor %ymm5,%ymm5,%ymm5
.byte 196,227,85,2,252,4 // vpblendd $0x4,%ymm4,%ymm5,%ymm7
- .byte 196,193,122,126,36,153 // vmovq (%r9,%rbx,4),%xmm4
+ .byte 196,129,122,126,36,152 // vmovq (%r8,%r11,4),%xmm4
.byte 196,227,69,2,252,3 // vpblendd $0x3,%ymm4,%ymm7,%ymm7
- .byte 233,85,255,255,255 // jmpq 461b <_sk_load_bgra_dst_hsw+0x23>
- .byte 196,193,121,110,100,153,24 // vmovd 0x18(%r9,%rbx,4),%xmm4
+ .byte 233,89,255,255,255 // jmpq 45fa <_sk_load_bgra_dst_hsw+0x22>
+ .byte 196,129,121,110,100,152,24 // vmovd 0x18(%r8,%r11,4),%xmm4
.byte 196,226,125,89,228 // vpbroadcastq %xmm4,%ymm4
.byte 197,213,239,237 // vpxor %ymm5,%ymm5,%ymm5
.byte 196,227,85,2,252,64 // vpblendd $0x40,%ymm4,%ymm5,%ymm7
.byte 196,227,125,57,252,1 // vextracti128 $0x1,%ymm7,%xmm4
- .byte 196,195,89,34,100,153,20,1 // vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,20,1 // vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
.byte 196,227,69,56,252,1 // vinserti128 $0x1,%xmm4,%ymm7,%ymm7
.byte 196,227,125,57,252,1 // vextracti128 $0x1,%ymm7,%xmm4
- .byte 196,195,89,34,100,153,16,0 // vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,16,0 // vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
.byte 196,227,69,56,252,1 // vinserti128 $0x1,%xmm4,%ymm7,%ymm7
- .byte 196,193,122,111,36,153 // vmovdqu (%r9,%rbx,4),%xmm4
+ .byte 196,129,122,111,36,152 // vmovdqu (%r8,%r11,4),%xmm4
.byte 196,227,93,2,255,240 // vpblendd $0xf0,%ymm7,%ymm4,%ymm7
- .byte 233,6,255,255,255 // jmpq 461b <_sk_load_bgra_dst_hsw+0x23>
- .byte 15,31,0 // nopl (%rax)
- .byte 124,255 // jl 4719 <_sk_load_bgra_dst_hsw+0x121>
+ .byte 233,10,255,255,255 // jmpq 45fa <_sk_load_bgra_dst_hsw+0x22>
+ .byte 130 // (bad)
.byte 255 // (bad)
- .byte 255,157,255,255,255,135 // lcall *-0x78000001(%rbp)
.byte 255 // (bad)
+ .byte 255,160,255,255,255,138 // jmpq *-0x75000001(%rax)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
.byte 255 // (bad)
+ .byte 239 // out %eax,(%dx)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 216,255 // fdivr %st(7),%st
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 219,255 // (bad)
.byte 255 // (bad)
+ .byte 255,199 // inc %edi
.byte 255 // (bad)
- .byte 255 // .byte 0xff
- .byte 174 // scas %es:(%rdi),%al
.byte 255 // (bad)
+ .byte 255 // .byte 0xff
+ .byte 177,255 // mov $0xff,%cl
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -13863,22 +13851,22 @@ HIDDEN _sk_gather_bgra_hsw
FUNCTION(_sk_gather_bgra_hsw)
_sk_gather_bgra_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
.byte 196,226,125,88,80,8 // vpbroadcastd 0x8(%rax),%ymm2
.byte 196,226,109,64,201 // vpmulld %ymm1,%ymm2,%ymm1
.byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
.byte 197,245,254,192 // vpaddd %ymm0,%ymm1,%ymm0
.byte 197,245,118,201 // vpcmpeqd %ymm1,%ymm1,%ymm1
- .byte 196,194,117,144,28,129 // vpgatherdd %ymm1,(%r9,%ymm0,4),%ymm3
- .byte 197,229,219,5,30,118,2,0 // vpand 0x2761e(%rip),%ymm3,%ymm0 # 2bd80 <_sk_overlay_sse2_8bit+0x89b>
+ .byte 196,194,117,144,28,128 // vpgatherdd %ymm1,(%r8,%ymm0,4),%ymm3
+ .byte 197,229,219,5,38,118,2,0 // vpand 0x27626(%rip),%ymm3,%ymm0 # 2bd60 <_sk_overlay_sse2_8bit+0x8c3>
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,5,45,114,2,0 // vbroadcastss 0x2722d(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,13,114,2,0 // vbroadcastss 0x2720d(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,208 // vmulps %ymm8,%ymm0,%ymm2
- .byte 196,226,101,0,5,35,118,2,0 // vpshufb 0x27623(%rip),%ymm3,%ymm0 # 2bda0 <_sk_overlay_sse2_8bit+0x8bb>
+ .byte 196,226,101,0,5,43,118,2,0 // vpshufb 0x2762b(%rip),%ymm3,%ymm0 # 2bd80 <_sk_overlay_sse2_8bit+0x8e3>
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
.byte 196,193,124,89,200 // vmulps %ymm8,%ymm0,%ymm1
- .byte 196,226,101,0,5,49,118,2,0 // vpshufb 0x27631(%rip),%ymm3,%ymm0 # 2bdc0 <_sk_overlay_sse2_8bit+0x8db>
+ .byte 196,226,101,0,5,57,118,2,0 // vpshufb 0x27639(%rip),%ymm3,%ymm0 # 2bda0 <_sk_overlay_sse2_8bit+0x903>
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
.byte 197,229,114,211,24 // vpsrld $0x18,%ymm3,%ymm3
@@ -13891,15 +13879,14 @@ HIDDEN _sk_store_bgra_hsw
.globl _sk_store_bgra_hsw
FUNCTION(_sk_store_bgra_hsw)
_sk_store_bgra_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 196,98,125,24,5,137,113,2,0 // vbroadcastss 0x27189(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 196,98,125,24,5,106,113,2,0 // vbroadcastss 0x2716a(%rip),%ymm8 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,65,108,89,200 // vmulps %ymm8,%ymm2,%ymm9
.byte 196,65,125,91,201 // vcvtps2dq %ymm9,%ymm9
.byte 196,65,116,89,208 // vmulps %ymm8,%ymm1,%ymm10
@@ -13914,50 +13901,52 @@ _sk_store_bgra_hsw:
.byte 196,193,61,114,240,24 // vpslld $0x18,%ymm8,%ymm8
.byte 196,65,45,235,192 // vpor %ymm8,%ymm10,%ymm8
.byte 196,65,53,235,192 // vpor %ymm8,%ymm9,%ymm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,11 // jne 4824 <_sk_store_bgra_hsw+0x7a>
- .byte 196,65,126,127,4,153 // vmovdqu %ymm8,(%r9,%rbx,4)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 47fa <_sk_store_bgra_hsw+0x78>
+ .byte 196,1,126,127,4,152 // vmovdqu %ymm8,(%r8,%r11,4)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,235 // ja 481f <_sk_store_bgra_hsw+0x75>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,85,0,0,0 // lea 0x55(%rip),%r11 # 4894 <_sk_store_bgra_hsw+0xea>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,121,126,4,153 // vmovd %xmm8,(%r9,%rbx,4)
- .byte 235,207 // jmp 481f <_sk_store_bgra_hsw+0x75>
- .byte 196,67,121,22,68,153,8,2 // vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- .byte 196,65,121,214,4,153 // vmovq %xmm8,(%r9,%rbx,4)
- .byte 235,191 // jmp 481f <_sk_store_bgra_hsw+0x75>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,236 // ja 47f6 <_sk_store_bgra_hsw+0x74>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,83,0,0,0 // lea 0x53(%rip),%r10 # 4868 <_sk_store_bgra_hsw+0xe6>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,1,121,126,4,152 // vmovd %xmm8,(%r8,%r11,4)
+ .byte 235,208 // jmp 47f6 <_sk_store_bgra_hsw+0x74>
+ .byte 196,3,121,22,68,152,8,2 // vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ .byte 196,1,121,214,4,152 // vmovq %xmm8,(%r8,%r11,4)
+ .byte 235,192 // jmp 47f6 <_sk_store_bgra_hsw+0x74>
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,24,2 // vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,24,2 // vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,20,1 // vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,20,1 // vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
.byte 196,67,125,57,193,1 // vextracti128 $0x1,%ymm8,%xmm9
- .byte 196,65,121,126,76,153,16 // vmovd %xmm9,0x10(%r9,%rbx,4)
- .byte 196,65,122,127,4,153 // vmovdqu %xmm8,(%r9,%rbx,4)
- .byte 235,142 // jmp 481f <_sk_store_bgra_hsw+0x75>
- .byte 15,31,0 // nopl (%rax)
- .byte 180,255 // mov $0xff,%ah
+ .byte 196,1,121,126,76,152,16 // vmovd %xmm9,0x10(%r8,%r11,4)
+ .byte 196,1,122,127,4,152 // vmovdqu %xmm8,(%r8,%r11,4)
+ .byte 235,143 // jmp 47f6 <_sk_store_bgra_hsw+0x74>
+ .byte 144 // nop
+ .byte 182,255 // mov $0xff,%dh
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255,198 // inc %esi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 188,255,255,255,245 // mov $0xf5ffffff,%esp
+ .byte 190,255,255,255,247 // mov $0xf7ffffff,%esi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 232,255,255,255,218 // callq ffffffffdb0048a8 <_sk_overlay_sse2_8bit+0xffffffffdafd93c3>
+ .byte 234 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,204 // dec %esp
+ .byte 255 // (bad)
+ .byte 220,255 // fdivr %st,%st(7)
+ .byte 255 // (bad)
+ .byte 255,206 // dec %esi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -13967,18 +13956,18 @@ HIDDEN _sk_load_f16_hsw
FUNCTION(_sk_load_f16_hsw)
_sk_load_f16_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 117,101 // jne 4931 <_sk_load_f16_hsw+0x81>
- .byte 196,65,121,16,4,193 // vmovupd (%r9,%rax,8),%xmm8
- .byte 196,193,121,16,84,193,16 // vmovupd 0x10(%r9,%rax,8),%xmm2
- .byte 196,193,121,16,92,193,32 // vmovupd 0x20(%r9,%rax,8),%xmm3
- .byte 196,65,122,111,76,193,48 // vmovdqu 0x30(%r9,%rax,8),%xmm9
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,101 // jne 4905 <_sk_load_f16_hsw+0x81>
+ .byte 196,65,121,16,4,192 // vmovupd (%r8,%rax,8),%xmm8
+ .byte 196,193,121,16,84,192,16 // vmovupd 0x10(%r8,%rax,8),%xmm2
+ .byte 196,193,121,16,92,192,32 // vmovupd 0x20(%r8,%rax,8),%xmm3
+ .byte 196,65,122,111,76,192,48 // vmovdqu 0x30(%r8,%rax,8),%xmm9
.byte 197,185,97,194 // vpunpcklwd %xmm2,%xmm8,%xmm0
.byte 197,185,105,210 // vpunpckhwd %xmm2,%xmm8,%xmm2
.byte 196,193,97,97,201 // vpunpcklwd %xmm9,%xmm3,%xmm1
@@ -13997,50 +13986,50 @@ _sk_load_f16_hsw:
.byte 196,226,125,19,219 // vcvtph2ps %xmm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 196,65,123,16,4,193 // vmovsd (%r9,%rax,8),%xmm8
+ .byte 196,65,123,16,4,192 // vmovsd (%r8,%rax,8),%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,85 // je 4997 <_sk_load_f16_hsw+0xe7>
- .byte 196,65,57,22,68,193,8 // vmovhpd 0x8(%r9,%rax,8),%xmm8,%xmm8
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,72 // jb 4997 <_sk_load_f16_hsw+0xe7>
- .byte 196,193,123,16,84,193,16 // vmovsd 0x10(%r9,%rax,8),%xmm2
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 116,72 // je 49a4 <_sk_load_f16_hsw+0xf4>
- .byte 196,193,105,22,84,193,24 // vmovhpd 0x18(%r9,%rax,8),%xmm2,%xmm2
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,59 // jb 49a4 <_sk_load_f16_hsw+0xf4>
- .byte 196,193,123,16,92,193,32 // vmovsd 0x20(%r9,%rax,8),%xmm3
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 15,132,109,255,255,255 // je 48e7 <_sk_load_f16_hsw+0x37>
- .byte 196,193,97,22,92,193,40 // vmovhpd 0x28(%r9,%rax,8),%xmm3,%xmm3
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 15,130,92,255,255,255 // jb 48e7 <_sk_load_f16_hsw+0x37>
- .byte 196,65,122,126,76,193,48 // vmovq 0x30(%r9,%rax,8),%xmm9
- .byte 233,80,255,255,255 // jmpq 48e7 <_sk_load_f16_hsw+0x37>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,85 // je 496b <_sk_load_f16_hsw+0xe7>
+ .byte 196,65,57,22,68,192,8 // vmovhpd 0x8(%r8,%rax,8),%xmm8,%xmm8
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,72 // jb 496b <_sk_load_f16_hsw+0xe7>
+ .byte 196,193,123,16,84,192,16 // vmovsd 0x10(%r8,%rax,8),%xmm2
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 116,72 // je 4978 <_sk_load_f16_hsw+0xf4>
+ .byte 196,193,105,22,84,192,24 // vmovhpd 0x18(%r8,%rax,8),%xmm2,%xmm2
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,59 // jb 4978 <_sk_load_f16_hsw+0xf4>
+ .byte 196,193,123,16,92,192,32 // vmovsd 0x20(%r8,%rax,8),%xmm3
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 15,132,109,255,255,255 // je 48bb <_sk_load_f16_hsw+0x37>
+ .byte 196,193,97,22,92,192,40 // vmovhpd 0x28(%r8,%rax,8),%xmm3,%xmm3
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 15,130,92,255,255,255 // jb 48bb <_sk_load_f16_hsw+0x37>
+ .byte 196,65,122,126,76,192,48 // vmovq 0x30(%r8,%rax,8),%xmm9
+ .byte 233,80,255,255,255 // jmpq 48bb <_sk_load_f16_hsw+0x37>
.byte 197,225,87,219 // vxorpd %xmm3,%xmm3,%xmm3
.byte 197,233,87,210 // vxorpd %xmm2,%xmm2,%xmm2
- .byte 233,67,255,255,255 // jmpq 48e7 <_sk_load_f16_hsw+0x37>
+ .byte 233,67,255,255,255 // jmpq 48bb <_sk_load_f16_hsw+0x37>
.byte 197,225,87,219 // vxorpd %xmm3,%xmm3,%xmm3
- .byte 233,58,255,255,255 // jmpq 48e7 <_sk_load_f16_hsw+0x37>
+ .byte 233,58,255,255,255 // jmpq 48bb <_sk_load_f16_hsw+0x37>
HIDDEN _sk_load_f16_dst_hsw
.globl _sk_load_f16_dst_hsw
FUNCTION(_sk_load_f16_dst_hsw)
_sk_load_f16_dst_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 117,101 // jne 4a2e <_sk_load_f16_dst_hsw+0x81>
- .byte 196,65,121,16,4,193 // vmovupd (%r9,%rax,8),%xmm8
- .byte 196,193,121,16,116,193,16 // vmovupd 0x10(%r9,%rax,8),%xmm6
- .byte 196,193,121,16,124,193,32 // vmovupd 0x20(%r9,%rax,8),%xmm7
- .byte 196,65,122,111,76,193,48 // vmovdqu 0x30(%r9,%rax,8),%xmm9
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,101 // jne 4a02 <_sk_load_f16_dst_hsw+0x81>
+ .byte 196,65,121,16,4,192 // vmovupd (%r8,%rax,8),%xmm8
+ .byte 196,193,121,16,116,192,16 // vmovupd 0x10(%r8,%rax,8),%xmm6
+ .byte 196,193,121,16,124,192,32 // vmovupd 0x20(%r8,%rax,8),%xmm7
+ .byte 196,65,122,111,76,192,48 // vmovdqu 0x30(%r8,%rax,8),%xmm9
.byte 197,185,97,230 // vpunpcklwd %xmm6,%xmm8,%xmm4
.byte 197,185,105,246 // vpunpckhwd %xmm6,%xmm8,%xmm6
.byte 196,193,65,97,233 // vpunpcklwd %xmm9,%xmm7,%xmm5
@@ -14059,39 +14048,39 @@ _sk_load_f16_dst_hsw:
.byte 196,226,125,19,255 // vcvtph2ps %xmm7,%ymm7
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 196,65,123,16,4,193 // vmovsd (%r9,%rax,8),%xmm8
+ .byte 196,65,123,16,4,192 // vmovsd (%r8,%rax,8),%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,85 // je 4a94 <_sk_load_f16_dst_hsw+0xe7>
- .byte 196,65,57,22,68,193,8 // vmovhpd 0x8(%r9,%rax,8),%xmm8,%xmm8
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,72 // jb 4a94 <_sk_load_f16_dst_hsw+0xe7>
- .byte 196,193,123,16,116,193,16 // vmovsd 0x10(%r9,%rax,8),%xmm6
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 116,72 // je 4aa1 <_sk_load_f16_dst_hsw+0xf4>
- .byte 196,193,73,22,116,193,24 // vmovhpd 0x18(%r9,%rax,8),%xmm6,%xmm6
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,59 // jb 4aa1 <_sk_load_f16_dst_hsw+0xf4>
- .byte 196,193,123,16,124,193,32 // vmovsd 0x20(%r9,%rax,8),%xmm7
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 15,132,109,255,255,255 // je 49e4 <_sk_load_f16_dst_hsw+0x37>
- .byte 196,193,65,22,124,193,40 // vmovhpd 0x28(%r9,%rax,8),%xmm7,%xmm7
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 15,130,92,255,255,255 // jb 49e4 <_sk_load_f16_dst_hsw+0x37>
- .byte 196,65,122,126,76,193,48 // vmovq 0x30(%r9,%rax,8),%xmm9
- .byte 233,80,255,255,255 // jmpq 49e4 <_sk_load_f16_dst_hsw+0x37>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,85 // je 4a68 <_sk_load_f16_dst_hsw+0xe7>
+ .byte 196,65,57,22,68,192,8 // vmovhpd 0x8(%r8,%rax,8),%xmm8,%xmm8
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,72 // jb 4a68 <_sk_load_f16_dst_hsw+0xe7>
+ .byte 196,193,123,16,116,192,16 // vmovsd 0x10(%r8,%rax,8),%xmm6
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 116,72 // je 4a75 <_sk_load_f16_dst_hsw+0xf4>
+ .byte 196,193,73,22,116,192,24 // vmovhpd 0x18(%r8,%rax,8),%xmm6,%xmm6
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,59 // jb 4a75 <_sk_load_f16_dst_hsw+0xf4>
+ .byte 196,193,123,16,124,192,32 // vmovsd 0x20(%r8,%rax,8),%xmm7
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 15,132,109,255,255,255 // je 49b8 <_sk_load_f16_dst_hsw+0x37>
+ .byte 196,193,65,22,124,192,40 // vmovhpd 0x28(%r8,%rax,8),%xmm7,%xmm7
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 15,130,92,255,255,255 // jb 49b8 <_sk_load_f16_dst_hsw+0x37>
+ .byte 196,65,122,126,76,192,48 // vmovq 0x30(%r8,%rax,8),%xmm9
+ .byte 233,80,255,255,255 // jmpq 49b8 <_sk_load_f16_dst_hsw+0x37>
.byte 197,193,87,255 // vxorpd %xmm7,%xmm7,%xmm7
.byte 197,201,87,246 // vxorpd %xmm6,%xmm6,%xmm6
- .byte 233,67,255,255,255 // jmpq 49e4 <_sk_load_f16_dst_hsw+0x37>
+ .byte 233,67,255,255,255 // jmpq 49b8 <_sk_load_f16_dst_hsw+0x37>
.byte 197,193,87,255 // vxorpd %xmm7,%xmm7,%xmm7
- .byte 233,58,255,255,255 // jmpq 49e4 <_sk_load_f16_dst_hsw+0x37>
+ .byte 233,58,255,255,255 // jmpq 49b8 <_sk_load_f16_dst_hsw+0x37>
HIDDEN _sk_gather_f16_hsw
.globl _sk_gather_f16_hsw
FUNCTION(_sk_gather_f16_hsw)
_sk_gather_f16_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
.byte 196,226,125,88,80,8 // vpbroadcastd 0x8(%rax),%ymm2
.byte 196,226,109,64,201 // vpmulld %ymm1,%ymm2,%ymm1
@@ -14099,9 +14088,9 @@ _sk_gather_f16_hsw:
.byte 197,245,254,192 // vpaddd %ymm0,%ymm1,%ymm0
.byte 197,245,118,201 // vpcmpeqd %ymm1,%ymm1,%ymm1
.byte 197,237,118,210 // vpcmpeqd %ymm2,%ymm2,%ymm2
- .byte 196,194,237,144,28,193 // vpgatherdq %ymm2,(%r9,%xmm0,8),%ymm3
+ .byte 196,194,237,144,28,192 // vpgatherdq %ymm2,(%r8,%xmm0,8),%ymm3
.byte 196,227,125,57,192,1 // vextracti128 $0x1,%ymm0,%xmm0
- .byte 196,194,245,144,20,193 // vpgatherdq %ymm1,(%r9,%xmm0,8),%ymm2
+ .byte 196,194,245,144,20,192 // vpgatherdq %ymm1,(%r8,%xmm0,8),%ymm2
.byte 196,227,125,57,216,1 // vextracti128 $0x1,%ymm3,%xmm0
.byte 196,227,125,57,209,1 // vextracti128 $0x1,%ymm2,%xmm1
.byte 197,97,97,192 // vpunpcklwd %xmm0,%xmm3,%xmm8
@@ -14128,11 +14117,11 @@ HIDDEN _sk_store_f16_hsw
FUNCTION(_sk_store_f16_hsw)
_sk_store_f16_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
.byte 196,195,125,29,192,4 // vcvtps2ph $0x4,%ymm0,%xmm8
.byte 196,195,125,29,201,4 // vcvtps2ph $0x4,%ymm1,%xmm9
@@ -14146,51 +14135,51 @@ _sk_store_f16_hsw:
.byte 196,65,25,106,209 // vpunpckhdq %xmm9,%xmm12,%xmm10
.byte 196,65,57,98,205 // vpunpckldq %xmm13,%xmm8,%xmm9
.byte 196,65,57,106,197 // vpunpckhdq %xmm13,%xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,31 // jne 4baf <_sk_store_f16_hsw+0x7b>
- .byte 196,65,120,17,28,193 // vmovups %xmm11,(%r9,%rax,8)
- .byte 196,65,120,17,84,193,16 // vmovups %xmm10,0x10(%r9,%rax,8)
- .byte 196,65,120,17,76,193,32 // vmovups %xmm9,0x20(%r9,%rax,8)
- .byte 196,65,122,127,68,193,48 // vmovdqu %xmm8,0x30(%r9,%rax,8)
- .byte 72,173 // lods %ds:(%rsi),%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,121,214,28,193 // vmovq %xmm11,(%r9,%rax,8)
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,240 // je 4bab <_sk_store_f16_hsw+0x77>
- .byte 196,65,121,23,92,193,8 // vmovhpd %xmm11,0x8(%r9,%rax,8)
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,227 // jb 4bab <_sk_store_f16_hsw+0x77>
- .byte 196,65,121,214,84,193,16 // vmovq %xmm10,0x10(%r9,%rax,8)
- .byte 116,218 // je 4bab <_sk_store_f16_hsw+0x77>
- .byte 196,65,121,23,84,193,24 // vmovhpd %xmm10,0x18(%r9,%rax,8)
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,205 // jb 4bab <_sk_store_f16_hsw+0x77>
- .byte 196,65,121,214,76,193,32 // vmovq %xmm9,0x20(%r9,%rax,8)
- .byte 116,196 // je 4bab <_sk_store_f16_hsw+0x77>
- .byte 196,65,121,23,76,193,40 // vmovhpd %xmm9,0x28(%r9,%rax,8)
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 114,183 // jb 4bab <_sk_store_f16_hsw+0x77>
- .byte 196,65,121,214,68,193,48 // vmovq %xmm8,0x30(%r9,%rax,8)
- .byte 235,174 // jmp 4bab <_sk_store_f16_hsw+0x77>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,31 // jne 4b83 <_sk_store_f16_hsw+0x7b>
+ .byte 196,65,120,17,28,192 // vmovups %xmm11,(%r8,%rax,8)
+ .byte 196,65,120,17,84,192,16 // vmovups %xmm10,0x10(%r8,%rax,8)
+ .byte 196,65,120,17,76,192,32 // vmovups %xmm9,0x20(%r8,%rax,8)
+ .byte 196,65,122,127,68,192,48 // vmovdqu %xmm8,0x30(%r8,%rax,8)
+ .byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,65,121,214,28,192 // vmovq %xmm11,(%r8,%rax,8)
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,240 // je 4b7f <_sk_store_f16_hsw+0x77>
+ .byte 196,65,121,23,92,192,8 // vmovhpd %xmm11,0x8(%r8,%rax,8)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,227 // jb 4b7f <_sk_store_f16_hsw+0x77>
+ .byte 196,65,121,214,84,192,16 // vmovq %xmm10,0x10(%r8,%rax,8)
+ .byte 116,218 // je 4b7f <_sk_store_f16_hsw+0x77>
+ .byte 196,65,121,23,84,192,24 // vmovhpd %xmm10,0x18(%r8,%rax,8)
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,205 // jb 4b7f <_sk_store_f16_hsw+0x77>
+ .byte 196,65,121,214,76,192,32 // vmovq %xmm9,0x20(%r8,%rax,8)
+ .byte 116,196 // je 4b7f <_sk_store_f16_hsw+0x77>
+ .byte 196,65,121,23,76,192,40 // vmovhpd %xmm9,0x28(%r8,%rax,8)
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 114,183 // jb 4b7f <_sk_store_f16_hsw+0x77>
+ .byte 196,65,121,214,68,192,48 // vmovq %xmm8,0x30(%r8,%rax,8)
+ .byte 235,174 // jmp 4b7f <_sk_store_f16_hsw+0x77>
HIDDEN _sk_load_u16_be_hsw
.globl _sk_load_u16_be_hsw
FUNCTION(_sk_load_u16_be_hsw)
_sk_load_u16_be_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,204,0,0,0 // jne 4cf0 <_sk_load_u16_be_hsw+0xf3>
- .byte 196,65,121,16,4,65 // vmovupd (%r9,%rax,2),%xmm8
- .byte 196,193,121,16,84,65,16 // vmovupd 0x10(%r9,%rax,2),%xmm2
- .byte 196,193,121,16,92,65,32 // vmovupd 0x20(%r9,%rax,2),%xmm3
- .byte 196,65,122,111,76,65,48 // vmovdqu 0x30(%r9,%rax,2),%xmm9
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,204,0,0,0 // jne 4cc4 <_sk_load_u16_be_hsw+0xf3>
+ .byte 196,65,121,16,4,64 // vmovupd (%r8,%rax,2),%xmm8
+ .byte 196,193,121,16,84,64,16 // vmovupd 0x10(%r8,%rax,2),%xmm2
+ .byte 196,193,121,16,92,64,32 // vmovupd 0x20(%r8,%rax,2),%xmm3
+ .byte 196,65,122,111,76,64,48 // vmovdqu 0x30(%r8,%rax,2),%xmm9
.byte 197,185,97,194 // vpunpcklwd %xmm2,%xmm8,%xmm0
.byte 197,185,105,210 // vpunpckhwd %xmm2,%xmm8,%xmm2
.byte 196,193,97,97,201 // vpunpcklwd %xmm9,%xmm3,%xmm1
@@ -14205,7 +14194,7 @@ _sk_load_u16_be_hsw:
.byte 197,241,235,192 // vpor %xmm0,%xmm1,%xmm0
.byte 196,226,125,51,192 // vpmovzxwd %xmm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,21,51,109,2,0 // vbroadcastss 0x26d33(%rip),%ymm10 # 2b9b8 <_sk_overlay_sse2_8bit+0x4d3>
+ .byte 196,98,125,24,21,23,109,2,0 // vbroadcastss 0x26d17(%rip),%ymm10 # 2b970 <_sk_overlay_sse2_8bit+0x4d3>
.byte 196,193,124,89,194 // vmulps %ymm10,%ymm0,%ymm0
.byte 197,185,109,202 // vpunpckhqdq %xmm2,%xmm8,%xmm1
.byte 197,233,113,241,8 // vpsllw $0x8,%xmm1,%xmm2
@@ -14230,53 +14219,53 @@ _sk_load_u16_be_hsw:
.byte 196,193,100,89,218 // vmulps %ymm10,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 196,65,123,16,4,65 // vmovsd (%r9,%rax,2),%xmm8
+ .byte 196,65,123,16,4,64 // vmovsd (%r8,%rax,2),%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,85 // je 4d56 <_sk_load_u16_be_hsw+0x159>
- .byte 196,65,57,22,68,65,8 // vmovhpd 0x8(%r9,%rax,2),%xmm8,%xmm8
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,72 // jb 4d56 <_sk_load_u16_be_hsw+0x159>
- .byte 196,193,123,16,84,65,16 // vmovsd 0x10(%r9,%rax,2),%xmm2
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 116,72 // je 4d63 <_sk_load_u16_be_hsw+0x166>
- .byte 196,193,105,22,84,65,24 // vmovhpd 0x18(%r9,%rax,2),%xmm2,%xmm2
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,59 // jb 4d63 <_sk_load_u16_be_hsw+0x166>
- .byte 196,193,123,16,92,65,32 // vmovsd 0x20(%r9,%rax,2),%xmm3
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 15,132,6,255,255,255 // je 4c3f <_sk_load_u16_be_hsw+0x42>
- .byte 196,193,97,22,92,65,40 // vmovhpd 0x28(%r9,%rax,2),%xmm3,%xmm3
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 15,130,245,254,255,255 // jb 4c3f <_sk_load_u16_be_hsw+0x42>
- .byte 196,65,122,126,76,65,48 // vmovq 0x30(%r9,%rax,2),%xmm9
- .byte 233,233,254,255,255 // jmpq 4c3f <_sk_load_u16_be_hsw+0x42>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,85 // je 4d2a <_sk_load_u16_be_hsw+0x159>
+ .byte 196,65,57,22,68,64,8 // vmovhpd 0x8(%r8,%rax,2),%xmm8,%xmm8
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,72 // jb 4d2a <_sk_load_u16_be_hsw+0x159>
+ .byte 196,193,123,16,84,64,16 // vmovsd 0x10(%r8,%rax,2),%xmm2
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 116,72 // je 4d37 <_sk_load_u16_be_hsw+0x166>
+ .byte 196,193,105,22,84,64,24 // vmovhpd 0x18(%r8,%rax,2),%xmm2,%xmm2
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,59 // jb 4d37 <_sk_load_u16_be_hsw+0x166>
+ .byte 196,193,123,16,92,64,32 // vmovsd 0x20(%r8,%rax,2),%xmm3
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 15,132,6,255,255,255 // je 4c13 <_sk_load_u16_be_hsw+0x42>
+ .byte 196,193,97,22,92,64,40 // vmovhpd 0x28(%r8,%rax,2),%xmm3,%xmm3
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 15,130,245,254,255,255 // jb 4c13 <_sk_load_u16_be_hsw+0x42>
+ .byte 196,65,122,126,76,64,48 // vmovq 0x30(%r8,%rax,2),%xmm9
+ .byte 233,233,254,255,255 // jmpq 4c13 <_sk_load_u16_be_hsw+0x42>
.byte 197,225,87,219 // vxorpd %xmm3,%xmm3,%xmm3
.byte 197,233,87,210 // vxorpd %xmm2,%xmm2,%xmm2
- .byte 233,220,254,255,255 // jmpq 4c3f <_sk_load_u16_be_hsw+0x42>
+ .byte 233,220,254,255,255 // jmpq 4c13 <_sk_load_u16_be_hsw+0x42>
.byte 197,225,87,219 // vxorpd %xmm3,%xmm3,%xmm3
- .byte 233,211,254,255,255 // jmpq 4c3f <_sk_load_u16_be_hsw+0x42>
+ .byte 233,211,254,255,255 // jmpq 4c13 <_sk_load_u16_be_hsw+0x42>
HIDDEN _sk_load_rgb_u16_be_hsw
.globl _sk_load_rgb_u16_be_hsw
FUNCTION(_sk_load_rgb_u16_be_hsw)
_sk_load_rgb_u16_be_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,137,208 // mov %rdx,%rax
.byte 72,193,224,32 // shl $0x20,%rax
.byte 72,141,4,64 // lea (%rax,%rax,2),%rax
.byte 72,193,248,32 // sar $0x20,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,203,0,0,0 // jne 4e62 <_sk_load_rgb_u16_be_hsw+0xf6>
- .byte 196,65,122,111,28,65 // vmovdqu (%r9,%rax,2),%xmm11
- .byte 196,193,122,111,92,65,12 // vmovdqu 0xc(%r9,%rax,2),%xmm3
- .byte 196,193,122,111,84,65,24 // vmovdqu 0x18(%r9,%rax,2),%xmm2
- .byte 196,193,122,111,68,65,32 // vmovdqu 0x20(%r9,%rax,2),%xmm0
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,203,0,0,0 // jne 4e36 <_sk_load_rgb_u16_be_hsw+0xf6>
+ .byte 196,65,122,111,28,64 // vmovdqu (%r8,%rax,2),%xmm11
+ .byte 196,193,122,111,92,64,12 // vmovdqu 0xc(%r8,%rax,2),%xmm3
+ .byte 196,193,122,111,84,64,24 // vmovdqu 0x18(%r8,%rax,2),%xmm2
+ .byte 196,193,122,111,68,64,32 // vmovdqu 0x20(%r8,%rax,2),%xmm0
.byte 197,249,115,216,4 // vpsrldq $0x4,%xmm0,%xmm0
.byte 196,193,57,115,219,6 // vpsrldq $0x6,%xmm11,%xmm8
.byte 197,169,115,219,6 // vpsrldq $0x6,%xmm3,%xmm10
@@ -14296,7 +14285,7 @@ _sk_load_rgb_u16_be_hsw:
.byte 197,225,235,192 // vpor %xmm0,%xmm3,%xmm0
.byte 196,226,125,51,192 // vpmovzxwd %xmm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,29,166,107,2,0 // vbroadcastss 0x26ba6(%rip),%ymm3 # 2b9b8 <_sk_overlay_sse2_8bit+0x4d3>
+ .byte 196,226,125,24,29,138,107,2,0 // vbroadcastss 0x26b8a(%rip),%ymm3 # 2b970 <_sk_overlay_sse2_8bit+0x4d3>
.byte 197,252,89,195 // vmulps %ymm3,%ymm0,%ymm0
.byte 197,185,109,201 // vpunpckhqdq %xmm1,%xmm8,%xmm1
.byte 197,233,113,241,8 // vpsllw $0x8,%xmm1,%xmm2
@@ -14313,83 +14302,83 @@ _sk_load_rgb_u16_be_hsw:
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
.byte 197,236,89,211 // vmulps %ymm3,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,200,106,2,0 // vbroadcastss 0x26ac8(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,172,106,2,0 // vbroadcastss 0x26aac(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 255,224 // jmpq *%rax
- .byte 196,193,121,110,4,65 // vmovd (%r9,%rax,2),%xmm0
- .byte 196,65,121,196,92,65,4,2 // vpinsrw $0x2,0x4(%r9,%rax,2),%xmm0,%xmm11
+ .byte 196,193,121,110,4,64 // vmovd (%r8,%rax,2),%xmm0
+ .byte 196,65,121,196,92,64,4,2 // vpinsrw $0x2,0x4(%r8,%rax,2),%xmm0,%xmm11
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,32 // jne 4e9b <_sk_load_rgb_u16_be_hsw+0x12f>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,32 // jne 4e6f <_sk_load_rgb_u16_be_hsw+0x12f>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
.byte 197,225,239,219 // vpxor %xmm3,%xmm3,%xmm3
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 233,49,255,255,255 // jmpq 4dcc <_sk_load_rgb_u16_be_hsw+0x60>
- .byte 196,193,121,110,68,65,6 // vmovd 0x6(%r9,%rax,2),%xmm0
- .byte 196,65,121,196,68,65,10,2 // vpinsrw $0x2,0xa(%r9,%rax,2),%xmm0,%xmm8
+ .byte 233,49,255,255,255 // jmpq 4da0 <_sk_load_rgb_u16_be_hsw+0x60>
+ .byte 196,193,121,110,68,64,6 // vmovd 0x6(%r8,%rax,2),%xmm0
+ .byte 196,65,121,196,68,64,10,2 // vpinsrw $0x2,0xa(%r8,%rax,2),%xmm0,%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,49 // jb 4ee6 <_sk_load_rgb_u16_be_hsw+0x17a>
- .byte 196,193,121,110,68,65,12 // vmovd 0xc(%r9,%rax,2),%xmm0
- .byte 196,193,121,196,92,65,16,2 // vpinsrw $0x2,0x10(%r9,%rax,2),%xmm0,%xmm3
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,49 // jb 4eba <_sk_load_rgb_u16_be_hsw+0x17a>
+ .byte 196,193,121,110,68,64,12 // vmovd 0xc(%r8,%rax,2),%xmm0
+ .byte 196,193,121,196,92,64,16,2 // vpinsrw $0x2,0x10(%r8,%rax,2),%xmm0,%xmm3
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 117,50 // jne 4f01 <_sk_load_rgb_u16_be_hsw+0x195>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 117,50 // jne 4ed5 <_sk_load_rgb_u16_be_hsw+0x195>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
- .byte 233,230,254,255,255 // jmpq 4dcc <_sk_load_rgb_u16_be_hsw+0x60>
+ .byte 233,230,254,255,255 // jmpq 4da0 <_sk_load_rgb_u16_be_hsw+0x60>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
.byte 197,225,239,219 // vpxor %xmm3,%xmm3,%xmm3
- .byte 233,203,254,255,255 // jmpq 4dcc <_sk_load_rgb_u16_be_hsw+0x60>
- .byte 196,193,121,110,68,65,18 // vmovd 0x12(%r9,%rax,2),%xmm0
- .byte 196,65,121,196,84,65,22,2 // vpinsrw $0x2,0x16(%r9,%rax,2),%xmm0,%xmm10
+ .byte 233,203,254,255,255 // jmpq 4da0 <_sk_load_rgb_u16_be_hsw+0x60>
+ .byte 196,193,121,110,68,64,18 // vmovd 0x12(%r8,%rax,2),%xmm0
+ .byte 196,65,121,196,84,64,22,2 // vpinsrw $0x2,0x16(%r8,%rax,2),%xmm0,%xmm10
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,40 // jb 4f43 <_sk_load_rgb_u16_be_hsw+0x1d7>
- .byte 196,193,121,110,68,65,24 // vmovd 0x18(%r9,%rax,2),%xmm0
- .byte 196,193,121,196,84,65,28,2 // vpinsrw $0x2,0x1c(%r9,%rax,2),%xmm0,%xmm2
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,40 // jb 4f17 <_sk_load_rgb_u16_be_hsw+0x1d7>
+ .byte 196,193,121,110,68,64,24 // vmovd 0x18(%r8,%rax,2),%xmm0
+ .byte 196,193,121,196,84,64,28,2 // vpinsrw $0x2,0x1c(%r8,%rax,2),%xmm0,%xmm2
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 117,32 // jne 4f55 <_sk_load_rgb_u16_be_hsw+0x1e9>
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 117,32 // jne 4f29 <_sk_load_rgb_u16_be_hsw+0x1e9>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
- .byte 233,137,254,255,255 // jmpq 4dcc <_sk_load_rgb_u16_be_hsw+0x60>
+ .byte 233,137,254,255,255 // jmpq 4da0 <_sk_load_rgb_u16_be_hsw+0x60>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
- .byte 233,119,254,255,255 // jmpq 4dcc <_sk_load_rgb_u16_be_hsw+0x60>
- .byte 196,193,121,110,68,65,30 // vmovd 0x1e(%r9,%rax,2),%xmm0
- .byte 196,65,121,196,100,65,34,2 // vpinsrw $0x2,0x22(%r9,%rax,2),%xmm0,%xmm12
+ .byte 233,119,254,255,255 // jmpq 4da0 <_sk_load_rgb_u16_be_hsw+0x60>
+ .byte 196,193,121,110,68,64,30 // vmovd 0x1e(%r8,%rax,2),%xmm0
+ .byte 196,65,121,196,100,64,34,2 // vpinsrw $0x2,0x22(%r8,%rax,2),%xmm0,%xmm12
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 114,25 // jb 4f88 <_sk_load_rgb_u16_be_hsw+0x21c>
- .byte 196,193,121,110,68,65,36 // vmovd 0x24(%r9,%rax,2),%xmm0
- .byte 196,193,121,196,68,65,40,2 // vpinsrw $0x2,0x28(%r9,%rax,2),%xmm0,%xmm0
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 114,25 // jb 4f5c <_sk_load_rgb_u16_be_hsw+0x21c>
+ .byte 196,193,121,110,68,64,36 // vmovd 0x24(%r8,%rax,2),%xmm0
+ .byte 196,193,121,196,68,64,40,2 // vpinsrw $0x2,0x28(%r8,%rax,2),%xmm0,%xmm0
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 233,68,254,255,255 // jmpq 4dcc <_sk_load_rgb_u16_be_hsw+0x60>
+ .byte 233,68,254,255,255 // jmpq 4da0 <_sk_load_rgb_u16_be_hsw+0x60>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 233,59,254,255,255 // jmpq 4dcc <_sk_load_rgb_u16_be_hsw+0x60>
+ .byte 233,59,254,255,255 // jmpq 4da0 <_sk_load_rgb_u16_be_hsw+0x60>
HIDDEN _sk_store_u16_be_hsw
.globl _sk_store_u16_be_hsw
FUNCTION(_sk_store_u16_be_hsw)
_sk_store_u16_be_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 196,98,125,24,5,136,106,2,0 // vbroadcastss 0x26a88(%rip),%ymm8 # 2ba40 <_sk_overlay_sse2_8bit+0x55b>
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 196,98,125,24,5,108,106,2,0 // vbroadcastss 0x26a6c(%rip),%ymm8 # 2b9f8 <_sk_overlay_sse2_8bit+0x55b>
.byte 196,65,124,89,200 // vmulps %ymm8,%ymm0,%ymm9
.byte 196,65,125,91,201 // vcvtps2dq %ymm9,%ymm9
.byte 196,67,125,25,202,1 // vextractf128 $0x1,%ymm9,%xmm10
@@ -14426,32 +14415,32 @@ _sk_store_u16_be_hsw:
.byte 196,65,25,106,209 // vpunpckhdq %xmm9,%xmm12,%xmm10
.byte 196,65,17,98,200 // vpunpckldq %xmm8,%xmm13,%xmm9
.byte 196,65,17,106,192 // vpunpckhdq %xmm8,%xmm13,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,31 // jne 509c <_sk_store_u16_be_hsw+0x10b>
- .byte 196,65,120,17,28,65 // vmovups %xmm11,(%r9,%rax,2)
- .byte 196,65,120,17,84,65,16 // vmovups %xmm10,0x10(%r9,%rax,2)
- .byte 196,65,120,17,76,65,32 // vmovups %xmm9,0x20(%r9,%rax,2)
- .byte 196,65,122,127,68,65,48 // vmovdqu %xmm8,0x30(%r9,%rax,2)
- .byte 72,173 // lods %ds:(%rsi),%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,121,214,28,65 // vmovq %xmm11,(%r9,%rax,2)
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,240 // je 5098 <_sk_store_u16_be_hsw+0x107>
- .byte 196,65,121,23,92,65,8 // vmovhpd %xmm11,0x8(%r9,%rax,2)
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,227 // jb 5098 <_sk_store_u16_be_hsw+0x107>
- .byte 196,65,121,214,84,65,16 // vmovq %xmm10,0x10(%r9,%rax,2)
- .byte 116,218 // je 5098 <_sk_store_u16_be_hsw+0x107>
- .byte 196,65,121,23,84,65,24 // vmovhpd %xmm10,0x18(%r9,%rax,2)
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,205 // jb 5098 <_sk_store_u16_be_hsw+0x107>
- .byte 196,65,121,214,76,65,32 // vmovq %xmm9,0x20(%r9,%rax,2)
- .byte 116,196 // je 5098 <_sk_store_u16_be_hsw+0x107>
- .byte 196,65,121,23,76,65,40 // vmovhpd %xmm9,0x28(%r9,%rax,2)
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 114,183 // jb 5098 <_sk_store_u16_be_hsw+0x107>
- .byte 196,65,121,214,68,65,48 // vmovq %xmm8,0x30(%r9,%rax,2)
- .byte 235,174 // jmp 5098 <_sk_store_u16_be_hsw+0x107>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,31 // jne 5070 <_sk_store_u16_be_hsw+0x10b>
+ .byte 196,65,120,17,28,64 // vmovups %xmm11,(%r8,%rax,2)
+ .byte 196,65,120,17,84,64,16 // vmovups %xmm10,0x10(%r8,%rax,2)
+ .byte 196,65,120,17,76,64,32 // vmovups %xmm9,0x20(%r8,%rax,2)
+ .byte 196,65,122,127,68,64,48 // vmovdqu %xmm8,0x30(%r8,%rax,2)
+ .byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,65,121,214,28,64 // vmovq %xmm11,(%r8,%rax,2)
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,240 // je 506c <_sk_store_u16_be_hsw+0x107>
+ .byte 196,65,121,23,92,64,8 // vmovhpd %xmm11,0x8(%r8,%rax,2)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,227 // jb 506c <_sk_store_u16_be_hsw+0x107>
+ .byte 196,65,121,214,84,64,16 // vmovq %xmm10,0x10(%r8,%rax,2)
+ .byte 116,218 // je 506c <_sk_store_u16_be_hsw+0x107>
+ .byte 196,65,121,23,84,64,24 // vmovhpd %xmm10,0x18(%r8,%rax,2)
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,205 // jb 506c <_sk_store_u16_be_hsw+0x107>
+ .byte 196,65,121,214,76,64,32 // vmovq %xmm9,0x20(%r8,%rax,2)
+ .byte 116,196 // je 506c <_sk_store_u16_be_hsw+0x107>
+ .byte 196,65,121,23,76,64,40 // vmovhpd %xmm9,0x28(%r8,%rax,2)
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 114,183 // jb 506c <_sk_store_u16_be_hsw+0x107>
+ .byte 196,65,121,214,68,64,48 // vmovq %xmm8,0x30(%r8,%rax,2)
+ .byte 235,174 // jmp 506c <_sk_store_u16_be_hsw+0x107>
HIDDEN _sk_load_f32_hsw
.globl _sk_load_f32_hsw
@@ -14459,23 +14448,23 @@ FUNCTION(_sk_load_f32_hsw)
_sk_load_f32_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,253,87,192 // vxorpd %ymm0,%ymm0,%ymm0
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 15,135,97,1,0,0 // ja 525b <_sk_load_f32_hsw+0x171>
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 15,135,97,1,0,0 // ja 522f <_sk_load_f32_hsw+0x171>
.byte 72,131,236,24 // sub $0x18,%rsp
.byte 197,253,17,100,36,128 // vmovupd %ymm4,-0x80(%rsp)
.byte 197,253,17,108,36,160 // vmovupd %ymm5,-0x60(%rsp)
.byte 197,253,17,116,36,192 // vmovupd %ymm6,-0x40(%rsp)
.byte 197,253,17,124,36,224 // vmovupd %ymm7,-0x20(%rsp)
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 77,99,210 // movslq %r10d,%r10
- .byte 76,141,29,50,1,0,0 // lea 0x132(%rip),%r11 # 526c <_sk_load_f32_hsw+0x182>
- .byte 75,99,4,131 // movslq (%r11,%r8,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 77,99,201 // movslq %r9d,%r9
+ .byte 76,141,21,50,1,0,0 // lea 0x132(%rip),%r10 # 5240 <_sk_load_f32_hsw+0x182>
+ .byte 73,99,4,186 // movslq (%r10,%rdi,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 197,221,87,228 // vxorpd %ymm4,%ymm4,%ymm4
.byte 196,65,53,87,201 // vxorpd %ymm9,%ymm9,%ymm9
.byte 197,237,87,210 // vxorpd %ymm2,%ymm2,%ymm2
@@ -14492,31 +14481,31 @@ _sk_load_f32_hsw:
.byte 196,65,45,87,210 // vxorpd %ymm10,%ymm10,%ymm10
.byte 197,197,87,255 // vxorpd %ymm7,%ymm7,%ymm7
.byte 255,224 // jmpq *%rax
- .byte 196,129,121,16,68,145,112 // vmovupd 0x70(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,112 // vmovupd 0x70(%r8,%r9,4),%xmm0
.byte 196,227,125,6,192,40 // vperm2f128 $0x28,%ymm0,%ymm0,%ymm0
- .byte 196,129,121,16,76,145,96 // vmovupd 0x60(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,96 // vmovupd 0x60(%r8,%r9,4),%xmm1
.byte 196,227,125,6,225,40 // vperm2f128 $0x28,%ymm1,%ymm0,%ymm4
- .byte 196,129,121,16,76,145,80 // vmovupd 0x50(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,80 // vmovupd 0x50(%r8,%r9,4),%xmm1
.byte 196,227,125,6,209,40 // vperm2f128 $0x28,%ymm1,%ymm0,%ymm2
.byte 197,125,40,204 // vmovapd %ymm4,%ymm9
- .byte 196,129,121,16,76,145,64 // vmovupd 0x40(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,64 // vmovupd 0x40(%r8,%r9,4),%xmm1
.byte 196,99,125,6,193,40 // vperm2f128 $0x28,%ymm1,%ymm0,%ymm8
.byte 196,65,125,40,217 // vmovapd %ymm9,%ymm11
.byte 197,125,40,226 // vmovapd %ymm2,%ymm12
- .byte 196,129,121,16,76,145,48 // vmovupd 0x30(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,48 // vmovupd 0x30(%r8,%r9,4),%xmm1
.byte 196,227,117,13,192,12 // vblendpd $0xc,%ymm0,%ymm1,%ymm0
.byte 196,65,125,40,243 // vmovapd %ymm11,%ymm14
.byte 197,125,41,230 // vmovapd %ymm12,%ymm6
.byte 196,65,125,40,248 // vmovapd %ymm8,%ymm15
- .byte 196,129,121,16,76,145,32 // vmovupd 0x20(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,32 // vmovupd 0x20(%r8,%r9,4),%xmm1
.byte 196,195,117,13,206,12 // vblendpd $0xc,%ymm14,%ymm1,%ymm1
.byte 197,125,40,238 // vmovapd %ymm6,%ymm13
.byte 197,125,41,253 // vmovapd %ymm15,%ymm5
- .byte 196,129,121,16,84,145,16 // vmovupd 0x10(%r9,%r10,4),%xmm2
+ .byte 196,129,121,16,84,136,16 // vmovupd 0x10(%r8,%r9,4),%xmm2
.byte 196,67,109,13,213,12 // vblendpd $0xc,%ymm13,%ymm2,%ymm10
.byte 197,253,40,217 // vmovapd %ymm1,%ymm3
.byte 197,253,40,253 // vmovapd %ymm5,%ymm7
- .byte 196,129,121,16,12,145 // vmovupd (%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,12,136 // vmovupd (%r8,%r9,4),%xmm1
.byte 196,227,117,13,207,12 // vblendpd $0xc,%ymm7,%ymm1,%ymm1
.byte 197,252,16,124,36,224 // vmovups -0x20(%rsp),%ymm7
.byte 197,252,16,116,36,192 // vmovups -0x40(%rsp),%ymm6
@@ -14536,7 +14525,7 @@ _sk_load_f32_hsw:
.byte 197,229,87,219 // vxorpd %ymm3,%ymm3,%ymm3
.byte 196,65,45,87,210 // vxorpd %ymm10,%ymm10,%ymm10
.byte 197,245,87,201 // vxorpd %ymm1,%ymm1,%ymm1
- .byte 235,203 // jmp 5235 <_sk_load_f32_hsw+0x14b>
+ .byte 235,203 // jmp 5209 <_sk_load_f32_hsw+0x14b>
.byte 102,144 // xchg %ax,%ax
.byte 27,255 // sbb %edi,%edi
.byte 255 // (bad)
@@ -14548,7 +14537,7 @@ _sk_load_f32_hsw:
.byte 255,92,255,255 // lcall *-0x1(%rdi,%rdi,8)
.byte 255,70,255 // incl -0x1(%rsi)
.byte 255 // (bad)
- .byte 255,53,255,255,255,40 // pushq 0x28ffffff(%rip) # 29005288 <_sk_overlay_sse2_8bit+0x28fd9da3>
+ .byte 255,53,255,255,255,40 // pushq 0x28ffffff(%rip) # 2900525c <_sk_overlay_sse2_8bit+0x28fd9dbf>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -14559,23 +14548,23 @@ FUNCTION(_sk_load_f32_dst_hsw)
_sk_load_f32_dst_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,221,87,228 // vxorpd %ymm4,%ymm4,%ymm4
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 15,135,97,1,0,0 // ja 53fd <_sk_load_f32_dst_hsw+0x171>
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 15,135,97,1,0,0 // ja 53d1 <_sk_load_f32_dst_hsw+0x171>
.byte 72,131,236,24 // sub $0x18,%rsp
.byte 197,253,17,68,36,128 // vmovupd %ymm0,-0x80(%rsp)
.byte 197,253,17,76,36,160 // vmovupd %ymm1,-0x60(%rsp)
.byte 197,253,17,84,36,192 // vmovupd %ymm2,-0x40(%rsp)
.byte 197,253,17,92,36,224 // vmovupd %ymm3,-0x20(%rsp)
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 77,99,210 // movslq %r10d,%r10
- .byte 76,141,29,48,1,0,0 // lea 0x130(%rip),%r11 # 540c <_sk_load_f32_dst_hsw+0x180>
- .byte 75,99,4,131 // movslq (%r11,%r8,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 77,99,201 // movslq %r9d,%r9
+ .byte 76,141,21,48,1,0,0 // lea 0x130(%rip),%r10 # 53e0 <_sk_load_f32_dst_hsw+0x180>
+ .byte 73,99,4,186 // movslq (%r10,%rdi,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 197,253,87,192 // vxorpd %ymm0,%ymm0,%ymm0
.byte 196,65,53,87,201 // vxorpd %ymm9,%ymm9,%ymm9
.byte 197,205,87,246 // vxorpd %ymm6,%ymm6,%ymm6
@@ -14592,31 +14581,31 @@ _sk_load_f32_dst_hsw:
.byte 196,65,45,87,210 // vxorpd %ymm10,%ymm10,%ymm10
.byte 197,229,87,219 // vxorpd %ymm3,%ymm3,%ymm3
.byte 255,224 // jmpq *%rax
- .byte 196,129,121,16,68,145,112 // vmovupd 0x70(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,112 // vmovupd 0x70(%r8,%r9,4),%xmm0
.byte 196,227,125,6,224,40 // vperm2f128 $0x28,%ymm0,%ymm0,%ymm4
- .byte 196,129,121,16,68,145,96 // vmovupd 0x60(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,96 // vmovupd 0x60(%r8,%r9,4),%xmm0
.byte 196,227,125,6,192,40 // vperm2f128 $0x28,%ymm0,%ymm0,%ymm0
- .byte 196,129,121,16,76,145,80 // vmovupd 0x50(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,80 // vmovupd 0x50(%r8,%r9,4),%xmm1
.byte 196,227,125,6,241,40 // vperm2f128 $0x28,%ymm1,%ymm0,%ymm6
.byte 197,125,40,200 // vmovapd %ymm0,%ymm9
- .byte 196,129,121,16,68,145,64 // vmovupd 0x40(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,64 // vmovupd 0x40(%r8,%r9,4),%xmm0
.byte 196,99,125,6,192,40 // vperm2f128 $0x28,%ymm0,%ymm0,%ymm8
.byte 196,65,125,40,217 // vmovapd %ymm9,%ymm11
.byte 197,125,40,230 // vmovapd %ymm6,%ymm12
- .byte 196,129,121,16,68,145,48 // vmovupd 0x30(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,48 // vmovupd 0x30(%r8,%r9,4),%xmm0
.byte 196,227,125,13,228,12 // vblendpd $0xc,%ymm4,%ymm0,%ymm4
.byte 196,65,125,40,243 // vmovapd %ymm11,%ymm14
.byte 197,125,41,226 // vmovapd %ymm12,%ymm2
.byte 196,65,125,40,248 // vmovapd %ymm8,%ymm15
- .byte 196,129,121,16,68,145,32 // vmovupd 0x20(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,32 // vmovupd 0x20(%r8,%r9,4),%xmm0
.byte 196,195,125,13,238,12 // vblendpd $0xc,%ymm14,%ymm0,%ymm5
.byte 197,125,40,234 // vmovapd %ymm2,%ymm13
.byte 197,125,41,249 // vmovapd %ymm15,%ymm1
- .byte 196,129,121,16,68,145,16 // vmovupd 0x10(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,16 // vmovupd 0x10(%r8,%r9,4),%xmm0
.byte 196,67,125,13,213,12 // vblendpd $0xc,%ymm13,%ymm0,%ymm10
.byte 197,253,40,253 // vmovapd %ymm5,%ymm7
.byte 197,253,40,217 // vmovapd %ymm1,%ymm3
- .byte 196,129,121,16,4,145 // vmovupd (%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,4,136 // vmovupd (%r8,%r9,4),%xmm0
.byte 196,227,125,13,235,12 // vblendpd $0xc,%ymm3,%ymm0,%ymm5
.byte 197,252,16,92,36,224 // vmovups -0x20(%rsp),%ymm3
.byte 197,252,16,84,36,192 // vmovups -0x40(%rsp),%ymm2
@@ -14636,7 +14625,7 @@ _sk_load_f32_dst_hsw:
.byte 197,197,87,255 // vxorpd %ymm7,%ymm7,%ymm7
.byte 196,65,45,87,210 // vxorpd %ymm10,%ymm10,%ymm10
.byte 197,213,87,237 // vxorpd %ymm5,%ymm5,%ymm5
- .byte 235,203 // jmp 53d7 <_sk_load_f32_dst_hsw+0x14b>
+ .byte 235,203 // jmp 53ab <_sk_load_f32_dst_hsw+0x14b>
.byte 29,255,255,255,163 // sbb $0xa3ffffff,%eax
.byte 255 // (bad)
.byte 255 // (bad)
@@ -14660,13 +14649,13 @@ HIDDEN _sk_store_f32_hsw
FUNCTION(_sk_store_f32_hsw)
_sk_store_f32_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
.byte 197,124,20,193 // vunpcklps %ymm1,%ymm0,%ymm8
.byte 197,124,21,217 // vunpckhps %ymm1,%ymm0,%ymm11
.byte 197,108,20,203 // vunpcklps %ymm3,%ymm2,%ymm9
@@ -14675,36 +14664,36 @@ _sk_store_f32_hsw:
.byte 196,65,61,21,201 // vunpckhpd %ymm9,%ymm8,%ymm9
.byte 196,65,37,20,196 // vunpcklpd %ymm12,%ymm11,%ymm8
.byte 196,65,37,21,220 // vunpckhpd %ymm12,%ymm11,%ymm11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,55 // jne 54ab <_sk_store_f32_hsw+0x7f>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,55 // jne 547f <_sk_store_f32_hsw+0x7f>
.byte 196,67,45,24,225,1 // vinsertf128 $0x1,%xmm9,%ymm10,%ymm12
.byte 196,67,61,24,235,1 // vinsertf128 $0x1,%xmm11,%ymm8,%ymm13
.byte 196,67,45,6,201,49 // vperm2f128 $0x31,%ymm9,%ymm10,%ymm9
.byte 196,67,61,6,195,49 // vperm2f128 $0x31,%ymm11,%ymm8,%ymm8
- .byte 196,65,125,17,36,129 // vmovupd %ymm12,(%r9,%rax,4)
- .byte 196,65,125,17,108,129,32 // vmovupd %ymm13,0x20(%r9,%rax,4)
- .byte 196,65,125,17,76,129,64 // vmovupd %ymm9,0x40(%r9,%rax,4)
- .byte 196,65,125,17,68,129,96 // vmovupd %ymm8,0x60(%r9,%rax,4)
- .byte 72,173 // lods %ds:(%rsi),%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,121,17,20,129 // vmovupd %xmm10,(%r9,%rax,4)
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,240 // je 54a7 <_sk_store_f32_hsw+0x7b>
- .byte 196,65,121,17,76,129,16 // vmovupd %xmm9,0x10(%r9,%rax,4)
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,227 // jb 54a7 <_sk_store_f32_hsw+0x7b>
- .byte 196,65,121,17,68,129,32 // vmovupd %xmm8,0x20(%r9,%rax,4)
- .byte 116,218 // je 54a7 <_sk_store_f32_hsw+0x7b>
- .byte 196,65,121,17,92,129,48 // vmovupd %xmm11,0x30(%r9,%rax,4)
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,205 // jb 54a7 <_sk_store_f32_hsw+0x7b>
- .byte 196,67,125,25,84,129,64,1 // vextractf128 $0x1,%ymm10,0x40(%r9,%rax,4)
- .byte 116,195 // je 54a7 <_sk_store_f32_hsw+0x7b>
- .byte 196,67,125,25,76,129,80,1 // vextractf128 $0x1,%ymm9,0x50(%r9,%rax,4)
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 114,181 // jb 54a7 <_sk_store_f32_hsw+0x7b>
- .byte 196,67,125,25,68,129,96,1 // vextractf128 $0x1,%ymm8,0x60(%r9,%rax,4)
- .byte 235,171 // jmp 54a7 <_sk_store_f32_hsw+0x7b>
+ .byte 196,65,125,17,36,128 // vmovupd %ymm12,(%r8,%rax,4)
+ .byte 196,65,125,17,108,128,32 // vmovupd %ymm13,0x20(%r8,%rax,4)
+ .byte 196,65,125,17,76,128,64 // vmovupd %ymm9,0x40(%r8,%rax,4)
+ .byte 196,65,125,17,68,128,96 // vmovupd %ymm8,0x60(%r8,%rax,4)
+ .byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,65,121,17,20,128 // vmovupd %xmm10,(%r8,%rax,4)
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,240 // je 547b <_sk_store_f32_hsw+0x7b>
+ .byte 196,65,121,17,76,128,16 // vmovupd %xmm9,0x10(%r8,%rax,4)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,227 // jb 547b <_sk_store_f32_hsw+0x7b>
+ .byte 196,65,121,17,68,128,32 // vmovupd %xmm8,0x20(%r8,%rax,4)
+ .byte 116,218 // je 547b <_sk_store_f32_hsw+0x7b>
+ .byte 196,65,121,17,92,128,48 // vmovupd %xmm11,0x30(%r8,%rax,4)
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,205 // jb 547b <_sk_store_f32_hsw+0x7b>
+ .byte 196,67,125,25,84,128,64,1 // vextractf128 $0x1,%ymm10,0x40(%r8,%rax,4)
+ .byte 116,195 // je 547b <_sk_store_f32_hsw+0x7b>
+ .byte 196,67,125,25,76,128,80,1 // vextractf128 $0x1,%ymm9,0x50(%r8,%rax,4)
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 114,181 // jb 547b <_sk_store_f32_hsw+0x7b>
+ .byte 196,67,125,25,68,128,96,1 // vextractf128 $0x1,%ymm8,0x60(%r8,%rax,4)
+ .byte 235,171 // jmp 547b <_sk_store_f32_hsw+0x7b>
HIDDEN _sk_clamp_x_hsw
.globl _sk_clamp_x_hsw
@@ -14781,7 +14770,7 @@ _sk_mirror_x_hsw:
.byte 196,65,124,92,218 // vsubps %ymm10,%ymm0,%ymm11
.byte 196,193,58,88,192 // vaddss %xmm8,%xmm8,%xmm0
.byte 196,98,125,24,192 // vbroadcastss %xmm0,%ymm8
- .byte 197,178,89,5,75,99,2,0 // vmulss 0x2634b(%rip),%xmm9,%xmm0 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 197,178,89,5,47,99,2,0 // vmulss 0x2632f(%rip),%xmm9,%xmm0 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,226,125,24,192 // vbroadcastss %xmm0,%ymm0
.byte 197,164,89,192 // vmulps %ymm0,%ymm11,%ymm0
.byte 196,227,125,8,192,1 // vroundps $0x1,%ymm0,%ymm0
@@ -14808,7 +14797,7 @@ _sk_mirror_y_hsw:
.byte 196,65,116,92,218 // vsubps %ymm10,%ymm1,%ymm11
.byte 196,193,58,88,200 // vaddss %xmm8,%xmm8,%xmm1
.byte 196,98,125,24,193 // vbroadcastss %xmm1,%ymm8
- .byte 197,178,89,13,231,98,2,0 // vmulss 0x262e7(%rip),%xmm9,%xmm1 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 197,178,89,13,203,98,2,0 // vmulss 0x262cb(%rip),%xmm9,%xmm1 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,226,125,24,201 // vbroadcastss %xmm1,%ymm1
.byte 197,164,89,201 // vmulps %ymm1,%ymm11,%ymm1
.byte 196,227,125,8,201,1 // vroundps $0x1,%ymm1,%ymm1
@@ -14830,7 +14819,7 @@ FUNCTION(_sk_clamp_x_1_hsw)
_sk_clamp_x_1_hsw:
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 197,188,95,192 // vmaxps %ymm0,%ymm8,%ymm0
- .byte 196,98,125,24,5,156,98,2,0 // vbroadcastss 0x2629c(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,128,98,2,0 // vbroadcastss 0x26280(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,124,93,192 // vminps %ymm8,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -14848,9 +14837,9 @@ HIDDEN _sk_mirror_x_1_hsw
.globl _sk_mirror_x_1_hsw
FUNCTION(_sk_mirror_x_1_hsw)
_sk_mirror_x_1_hsw:
- .byte 196,98,125,24,5,147,98,2,0 // vbroadcastss 0x26293(%rip),%ymm8 # 2b940 <_sk_overlay_sse2_8bit+0x45b>
+ .byte 196,98,125,24,5,119,98,2,0 // vbroadcastss 0x26277(%rip),%ymm8 # 2b8f8 <_sk_overlay_sse2_8bit+0x45b>
.byte 196,193,124,88,192 // vaddps %ymm8,%ymm0,%ymm0
- .byte 196,98,125,24,13,105,98,2,0 // vbroadcastss 0x26269(%rip),%ymm9 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,13,77,98,2,0 // vbroadcastss 0x2624d(%rip),%ymm9 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,124,89,201 // vmulps %ymm9,%ymm0,%ymm9
.byte 196,67,125,8,201,1 // vroundps $0x1,%ymm9,%ymm9
.byte 196,65,52,88,201 // vaddps %ymm9,%ymm9,%ymm9
@@ -14866,11 +14855,11 @@ HIDDEN _sk_luminance_to_alpha_hsw
.globl _sk_luminance_to_alpha_hsw
FUNCTION(_sk_luminance_to_alpha_hsw)
_sk_luminance_to_alpha_hsw:
- .byte 196,226,125,24,29,85,99,2,0 // vbroadcastss 0x26355(%rip),%ymm3 # 2ba44 <_sk_overlay_sse2_8bit+0x55f>
- .byte 196,98,125,24,5,80,99,2,0 // vbroadcastss 0x26350(%rip),%ymm8 # 2ba48 <_sk_overlay_sse2_8bit+0x563>
+ .byte 196,226,125,24,29,57,99,2,0 // vbroadcastss 0x26339(%rip),%ymm3 # 2b9fc <_sk_overlay_sse2_8bit+0x55f>
+ .byte 196,98,125,24,5,52,99,2,0 // vbroadcastss 0x26334(%rip),%ymm8 # 2ba00 <_sk_overlay_sse2_8bit+0x563>
.byte 196,193,116,89,200 // vmulps %ymm8,%ymm1,%ymm1
.byte 196,226,125,184,203 // vfmadd231ps %ymm3,%ymm0,%ymm1
- .byte 196,226,125,24,29,65,99,2,0 // vbroadcastss 0x26341(%rip),%ymm3 # 2ba4c <_sk_overlay_sse2_8bit+0x567>
+ .byte 196,226,125,24,29,37,99,2,0 // vbroadcastss 0x26325(%rip),%ymm3 # 2ba04 <_sk_overlay_sse2_8bit+0x567>
.byte 196,226,109,168,217 // vfmadd213ps %ymm1,%ymm2,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,87,192 // vxorps %ymm0,%ymm0,%ymm0
@@ -15064,63 +15053,62 @@ HIDDEN _sk_evenly_spaced_gradient_hsw
.globl _sk_evenly_spaced_gradient_hsw
FUNCTION(_sk_evenly_spaced_gradient_hsw)
_sk_evenly_spaced_gradient_hsw:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,16 // mov (%rax),%r10
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
+ .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 77,137,202 // mov %r9,%r10
+ .byte 73,255,202 // dec %r10
+ .byte 120,7 // js 59d7 <_sk_evenly_spaced_gradient_hsw+0x18>
+ .byte 196,193,242,42,202 // vcvtsi2ss %r10,%xmm1,%xmm1
+ .byte 235,22 // jmp 59ed <_sk_evenly_spaced_gradient_hsw+0x2e>
.byte 77,137,211 // mov %r10,%r11
- .byte 73,255,203 // dec %r11
- .byte 120,7 // js 5a04 <_sk_evenly_spaced_gradient_hsw+0x19>
- .byte 196,193,242,42,203 // vcvtsi2ss %r11,%xmm1,%xmm1
- .byte 235,22 // jmp 5a1a <_sk_evenly_spaced_gradient_hsw+0x2f>
- .byte 76,137,219 // mov %r11,%rbx
- .byte 72,209,235 // shr %rbx
- .byte 65,131,227,1 // and $0x1,%r11d
- .byte 73,9,219 // or %rbx,%r11
- .byte 196,193,242,42,203 // vcvtsi2ss %r11,%xmm1,%xmm1
+ .byte 73,209,235 // shr %r11
+ .byte 65,131,226,1 // and $0x1,%r10d
+ .byte 77,9,218 // or %r11,%r10
+ .byte 196,193,242,42,202 // vcvtsi2ss %r10,%xmm1,%xmm1
.byte 197,242,88,201 // vaddss %xmm1,%xmm1,%xmm1
.byte 196,226,125,24,201 // vbroadcastss %xmm1,%ymm1
.byte 197,244,89,200 // vmulps %ymm0,%ymm1,%ymm1
.byte 197,126,91,217 // vcvttps2dq %ymm1,%ymm11
- .byte 73,131,250,8 // cmp $0x8,%r10
- .byte 119,70 // ja 5a73 <_sk_evenly_spaced_gradient_hsw+0x88>
- .byte 196,66,37,22,1 // vpermps (%r9),%ymm11,%ymm8
- .byte 72,139,88,40 // mov 0x28(%rax),%rbx
- .byte 196,98,37,22,11 // vpermps (%rbx),%ymm11,%ymm9
- .byte 72,139,88,16 // mov 0x10(%rax),%rbx
+ .byte 73,131,249,8 // cmp $0x8,%r9
+ .byte 119,70 // ja 5a46 <_sk_evenly_spaced_gradient_hsw+0x87>
+ .byte 196,66,37,22,0 // vpermps (%r8),%ymm11,%ymm8
+ .byte 76,139,64,40 // mov 0x28(%rax),%r8
+ .byte 196,66,37,22,8 // vpermps (%r8),%ymm11,%ymm9
+ .byte 76,139,64,16 // mov 0x10(%rax),%r8
.byte 76,139,72,24 // mov 0x18(%rax),%r9
- .byte 196,226,37,22,11 // vpermps (%rbx),%ymm11,%ymm1
- .byte 72,139,88,48 // mov 0x30(%rax),%rbx
- .byte 196,98,37,22,19 // vpermps (%rbx),%ymm11,%ymm10
+ .byte 196,194,37,22,8 // vpermps (%r8),%ymm11,%ymm1
+ .byte 76,139,64,48 // mov 0x30(%rax),%r8
+ .byte 196,66,37,22,16 // vpermps (%r8),%ymm11,%ymm10
.byte 196,194,37,22,17 // vpermps (%r9),%ymm11,%ymm2
- .byte 72,139,88,56 // mov 0x38(%rax),%rbx
- .byte 196,98,37,22,35 // vpermps (%rbx),%ymm11,%ymm12
- .byte 72,139,88,32 // mov 0x20(%rax),%rbx
- .byte 196,226,37,22,27 // vpermps (%rbx),%ymm11,%ymm3
+ .byte 76,139,64,56 // mov 0x38(%rax),%r8
+ .byte 196,66,37,22,32 // vpermps (%r8),%ymm11,%ymm12
+ .byte 76,139,64,32 // mov 0x20(%rax),%r8
+ .byte 196,194,37,22,24 // vpermps (%r8),%ymm11,%ymm3
.byte 72,139,64,64 // mov 0x40(%rax),%rax
.byte 196,98,37,22,40 // vpermps (%rax),%ymm11,%ymm13
- .byte 235,110 // jmp 5ae1 <_sk_evenly_spaced_gradient_hsw+0xf6>
+ .byte 235,110 // jmp 5ab4 <_sk_evenly_spaced_gradient_hsw+0xf5>
.byte 196,65,13,118,246 // vpcmpeqd %ymm14,%ymm14,%ymm14
.byte 197,245,118,201 // vpcmpeqd %ymm1,%ymm1,%ymm1
- .byte 196,2,117,146,4,153 // vgatherdps %ymm1,(%r9,%ymm11,4),%ymm8
- .byte 72,139,88,40 // mov 0x28(%rax),%rbx
+ .byte 196,2,117,146,4,152 // vgatherdps %ymm1,(%r8,%ymm11,4),%ymm8
+ .byte 76,139,64,40 // mov 0x28(%rax),%r8
.byte 197,245,118,201 // vpcmpeqd %ymm1,%ymm1,%ymm1
- .byte 196,34,117,146,12,155 // vgatherdps %ymm1,(%rbx,%ymm11,4),%ymm9
- .byte 72,139,88,16 // mov 0x10(%rax),%rbx
+ .byte 196,2,117,146,12,152 // vgatherdps %ymm1,(%r8,%ymm11,4),%ymm9
+ .byte 76,139,64,16 // mov 0x10(%rax),%r8
.byte 76,139,72,24 // mov 0x18(%rax),%r9
.byte 197,237,118,210 // vpcmpeqd %ymm2,%ymm2,%ymm2
- .byte 196,162,109,146,12,155 // vgatherdps %ymm2,(%rbx,%ymm11,4),%ymm1
- .byte 72,139,88,48 // mov 0x30(%rax),%rbx
+ .byte 196,130,109,146,12,152 // vgatherdps %ymm2,(%r8,%ymm11,4),%ymm1
+ .byte 76,139,64,48 // mov 0x30(%rax),%r8
.byte 197,237,118,210 // vpcmpeqd %ymm2,%ymm2,%ymm2
- .byte 196,34,109,146,20,155 // vgatherdps %ymm2,(%rbx,%ymm11,4),%ymm10
+ .byte 196,2,109,146,20,152 // vgatherdps %ymm2,(%r8,%ymm11,4),%ymm10
.byte 197,229,118,219 // vpcmpeqd %ymm3,%ymm3,%ymm3
.byte 196,130,101,146,20,153 // vgatherdps %ymm3,(%r9,%ymm11,4),%ymm2
- .byte 72,139,88,56 // mov 0x38(%rax),%rbx
+ .byte 76,139,64,56 // mov 0x38(%rax),%r8
.byte 197,229,118,219 // vpcmpeqd %ymm3,%ymm3,%ymm3
- .byte 196,34,101,146,36,155 // vgatherdps %ymm3,(%rbx,%ymm11,4),%ymm12
- .byte 72,139,88,32 // mov 0x20(%rax),%rbx
+ .byte 196,2,101,146,36,152 // vgatherdps %ymm3,(%r8,%ymm11,4),%ymm12
+ .byte 76,139,64,32 // mov 0x20(%rax),%r8
.byte 196,65,21,118,237 // vpcmpeqd %ymm13,%ymm13,%ymm13
- .byte 196,162,21,146,28,155 // vgatherdps %ymm13,(%rbx,%ymm11,4),%ymm3
+ .byte 196,130,21,146,28,152 // vgatherdps %ymm13,(%r8,%ymm11,4),%ymm3
.byte 72,139,64,64 // mov 0x40(%rax),%rax
.byte 196,34,13,146,44,152 // vgatherdps %ymm14,(%rax,%ymm11,4),%ymm13
.byte 196,66,125,168,193 // vfmadd213ps %ymm9,%ymm0,%ymm8
@@ -15129,21 +15117,20 @@ _sk_evenly_spaced_gradient_hsw:
.byte 196,194,125,168,221 // vfmadd213ps %ymm13,%ymm0,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,124,41,192 // vmovaps %ymm8,%ymm0
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_gauss_a_to_rgba_hsw
.globl _sk_gauss_a_to_rgba_hsw
FUNCTION(_sk_gauss_a_to_rgba_hsw)
_sk_gauss_a_to_rgba_hsw:
- .byte 196,226,125,24,5,73,95,2,0 // vbroadcastss 0x25f49(%rip),%ymm0 # 2ba50 <_sk_overlay_sse2_8bit+0x56b>
- .byte 196,226,125,24,13,68,95,2,0 // vbroadcastss 0x25f44(%rip),%ymm1 # 2ba54 <_sk_overlay_sse2_8bit+0x56f>
+ .byte 196,226,125,24,5,47,95,2,0 // vbroadcastss 0x25f2f(%rip),%ymm0 # 2ba08 <_sk_overlay_sse2_8bit+0x56b>
+ .byte 196,226,125,24,13,42,95,2,0 // vbroadcastss 0x25f2a(%rip),%ymm1 # 2ba0c <_sk_overlay_sse2_8bit+0x56f>
.byte 196,226,101,168,200 // vfmadd213ps %ymm0,%ymm3,%ymm1
- .byte 196,226,125,24,5,58,95,2,0 // vbroadcastss 0x25f3a(%rip),%ymm0 # 2ba58 <_sk_overlay_sse2_8bit+0x573>
+ .byte 196,226,125,24,5,32,95,2,0 // vbroadcastss 0x25f20(%rip),%ymm0 # 2ba10 <_sk_overlay_sse2_8bit+0x573>
.byte 196,226,101,184,193 // vfmadd231ps %ymm1,%ymm3,%ymm0
- .byte 196,226,125,24,13,48,95,2,0 // vbroadcastss 0x25f30(%rip),%ymm1 # 2ba5c <_sk_overlay_sse2_8bit+0x577>
+ .byte 196,226,125,24,13,22,95,2,0 // vbroadcastss 0x25f16(%rip),%ymm1 # 2ba14 <_sk_overlay_sse2_8bit+0x577>
.byte 196,226,101,184,200 // vfmadd231ps %ymm0,%ymm3,%ymm1
- .byte 196,226,125,24,5,38,95,2,0 // vbroadcastss 0x25f26(%rip),%ymm0 # 2ba60 <_sk_overlay_sse2_8bit+0x57b>
+ .byte 196,226,125,24,5,12,95,2,0 // vbroadcastss 0x25f0c(%rip),%ymm0 # 2ba18 <_sk_overlay_sse2_8bit+0x57b>
.byte 196,226,101,184,193 // vfmadd231ps %ymm1,%ymm3,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,40,200 // vmovaps %ymm0,%ymm1
@@ -15156,63 +15143,63 @@ HIDDEN _sk_gradient_hsw
FUNCTION(_sk_gradient_hsw)
_sk_gradient_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 73,131,249,1 // cmp $0x1,%r9
- .byte 15,134,180,0,0,0 // jbe 5c12 <_sk_gradient_hsw+0xc3>
- .byte 76,139,80,72 // mov 0x48(%rax),%r10
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 73,131,248,1 // cmp $0x1,%r8
+ .byte 15,134,180,0,0,0 // jbe 5be4 <_sk_gradient_hsw+0xc3>
+ .byte 76,139,72,72 // mov 0x48(%rax),%r9
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
- .byte 65,187,1,0,0,0 // mov $0x1,%r11d
- .byte 196,226,125,24,21,183,93,2,0 // vbroadcastss 0x25db7(%rip),%ymm2 # 2b92c <_sk_overlay_sse2_8bit+0x447>
+ .byte 65,186,1,0,0,0 // mov $0x1,%r10d
+ .byte 196,226,125,24,21,157,93,2,0 // vbroadcastss 0x25d9d(%rip),%ymm2 # 2b8e4 <_sk_overlay_sse2_8bit+0x447>
.byte 196,65,53,239,201 // vpxor %ymm9,%ymm9,%ymm9
- .byte 196,130,125,24,28,154 // vbroadcastss (%r10,%r11,4),%ymm3
+ .byte 196,130,125,24,28,145 // vbroadcastss (%r9,%r10,4),%ymm3
.byte 197,228,194,216,2 // vcmpleps %ymm0,%ymm3,%ymm3
.byte 196,227,117,74,218,48 // vblendvps %ymm3,%ymm2,%ymm1,%ymm3
.byte 196,65,101,254,201 // vpaddd %ymm9,%ymm3,%ymm9
- .byte 73,255,195 // inc %r11
- .byte 77,57,217 // cmp %r11,%r9
- .byte 117,226 // jne 5b7a <_sk_gradient_hsw+0x2b>
- .byte 76,139,80,8 // mov 0x8(%rax),%r10
- .byte 73,131,249,8 // cmp $0x8,%r9
- .byte 118,121 // jbe 5c1b <_sk_gradient_hsw+0xcc>
+ .byte 73,255,194 // inc %r10
+ .byte 77,57,208 // cmp %r10,%r8
+ .byte 117,226 // jne 5b4c <_sk_gradient_hsw+0x2b>
+ .byte 76,139,72,8 // mov 0x8(%rax),%r9
+ .byte 73,131,248,8 // cmp $0x8,%r8
+ .byte 118,121 // jbe 5bed <_sk_gradient_hsw+0xcc>
.byte 196,65,13,118,246 // vpcmpeqd %ymm14,%ymm14,%ymm14
.byte 197,245,118,201 // vpcmpeqd %ymm1,%ymm1,%ymm1
- .byte 196,2,117,146,4,138 // vgatherdps %ymm1,(%r10,%ymm9,4),%ymm8
- .byte 76,139,72,40 // mov 0x28(%rax),%r9
+ .byte 196,2,117,146,4,137 // vgatherdps %ymm1,(%r9,%ymm9,4),%ymm8
+ .byte 76,139,64,40 // mov 0x28(%rax),%r8
.byte 197,245,118,201 // vpcmpeqd %ymm1,%ymm1,%ymm1
- .byte 196,2,117,146,20,137 // vgatherdps %ymm1,(%r9,%ymm9,4),%ymm10
- .byte 76,139,72,16 // mov 0x10(%rax),%r9
- .byte 76,139,80,24 // mov 0x18(%rax),%r10
+ .byte 196,2,117,146,20,136 // vgatherdps %ymm1,(%r8,%ymm9,4),%ymm10
+ .byte 76,139,64,16 // mov 0x10(%rax),%r8
+ .byte 76,139,72,24 // mov 0x18(%rax),%r9
.byte 197,237,118,210 // vpcmpeqd %ymm2,%ymm2,%ymm2
- .byte 196,130,109,146,12,137 // vgatherdps %ymm2,(%r9,%ymm9,4),%ymm1
- .byte 76,139,72,48 // mov 0x30(%rax),%r9
+ .byte 196,130,109,146,12,136 // vgatherdps %ymm2,(%r8,%ymm9,4),%ymm1
+ .byte 76,139,64,48 // mov 0x30(%rax),%r8
.byte 197,237,118,210 // vpcmpeqd %ymm2,%ymm2,%ymm2
- .byte 196,2,109,146,28,137 // vgatherdps %ymm2,(%r9,%ymm9,4),%ymm11
+ .byte 196,2,109,146,28,136 // vgatherdps %ymm2,(%r8,%ymm9,4),%ymm11
.byte 197,229,118,219 // vpcmpeqd %ymm3,%ymm3,%ymm3
- .byte 196,130,101,146,20,138 // vgatherdps %ymm3,(%r10,%ymm9,4),%ymm2
- .byte 76,139,72,56 // mov 0x38(%rax),%r9
+ .byte 196,130,101,146,20,137 // vgatherdps %ymm3,(%r9,%ymm9,4),%ymm2
+ .byte 76,139,64,56 // mov 0x38(%rax),%r8
.byte 197,229,118,219 // vpcmpeqd %ymm3,%ymm3,%ymm3
- .byte 196,2,101,146,36,137 // vgatherdps %ymm3,(%r9,%ymm9,4),%ymm12
- .byte 76,139,72,32 // mov 0x20(%rax),%r9
+ .byte 196,2,101,146,36,136 // vgatherdps %ymm3,(%r8,%ymm9,4),%ymm12
+ .byte 76,139,64,32 // mov 0x20(%rax),%r8
.byte 196,65,21,118,237 // vpcmpeqd %ymm13,%ymm13,%ymm13
- .byte 196,130,21,146,28,137 // vgatherdps %ymm13,(%r9,%ymm9,4),%ymm3
+ .byte 196,130,21,146,28,136 // vgatherdps %ymm13,(%r8,%ymm9,4),%ymm3
.byte 72,139,64,64 // mov 0x40(%rax),%rax
.byte 196,34,13,146,44,136 // vgatherdps %ymm14,(%rax,%ymm9,4),%ymm13
- .byte 235,77 // jmp 5c5f <_sk_gradient_hsw+0x110>
- .byte 76,139,80,8 // mov 0x8(%rax),%r10
+ .byte 235,77 // jmp 5c31 <_sk_gradient_hsw+0x110>
+ .byte 76,139,72,8 // mov 0x8(%rax),%r9
.byte 196,65,52,87,201 // vxorps %ymm9,%ymm9,%ymm9
- .byte 196,66,53,22,2 // vpermps (%r10),%ymm9,%ymm8
- .byte 76,139,72,40 // mov 0x28(%rax),%r9
- .byte 196,66,53,22,17 // vpermps (%r9),%ymm9,%ymm10
- .byte 76,139,72,16 // mov 0x10(%rax),%r9
- .byte 76,139,80,24 // mov 0x18(%rax),%r10
- .byte 196,194,53,22,9 // vpermps (%r9),%ymm9,%ymm1
- .byte 76,139,72,48 // mov 0x30(%rax),%r9
- .byte 196,66,53,22,25 // vpermps (%r9),%ymm9,%ymm11
- .byte 196,194,53,22,18 // vpermps (%r10),%ymm9,%ymm2
- .byte 76,139,72,56 // mov 0x38(%rax),%r9
- .byte 196,66,53,22,33 // vpermps (%r9),%ymm9,%ymm12
- .byte 76,139,72,32 // mov 0x20(%rax),%r9
- .byte 196,194,53,22,25 // vpermps (%r9),%ymm9,%ymm3
+ .byte 196,66,53,22,1 // vpermps (%r9),%ymm9,%ymm8
+ .byte 76,139,64,40 // mov 0x28(%rax),%r8
+ .byte 196,66,53,22,16 // vpermps (%r8),%ymm9,%ymm10
+ .byte 76,139,64,16 // mov 0x10(%rax),%r8
+ .byte 76,139,72,24 // mov 0x18(%rax),%r9
+ .byte 196,194,53,22,8 // vpermps (%r8),%ymm9,%ymm1
+ .byte 76,139,64,48 // mov 0x30(%rax),%r8
+ .byte 196,66,53,22,24 // vpermps (%r8),%ymm9,%ymm11
+ .byte 196,194,53,22,17 // vpermps (%r9),%ymm9,%ymm2
+ .byte 76,139,64,56 // mov 0x38(%rax),%r8
+ .byte 196,66,53,22,32 // vpermps (%r8),%ymm9,%ymm12
+ .byte 76,139,64,32 // mov 0x20(%rax),%r8
+ .byte 196,194,53,22,24 // vpermps (%r8),%ymm9,%ymm3
.byte 72,139,64,64 // mov 0x40(%rax),%rax
.byte 196,98,53,22,40 // vpermps (%rax),%ymm9,%ymm13
.byte 196,66,125,168,194 // vfmadd213ps %ymm10,%ymm0,%ymm8
@@ -15257,24 +15244,24 @@ _sk_xy_to_unit_angle_hsw:
.byte 196,65,52,95,226 // vmaxps %ymm10,%ymm9,%ymm12
.byte 196,65,36,94,220 // vdivps %ymm12,%ymm11,%ymm11
.byte 196,65,36,89,227 // vmulps %ymm11,%ymm11,%ymm12
- .byte 196,98,125,24,45,106,93,2,0 // vbroadcastss 0x25d6a(%rip),%ymm13 # 2ba64 <_sk_overlay_sse2_8bit+0x57f>
- .byte 196,98,125,24,53,101,93,2,0 // vbroadcastss 0x25d65(%rip),%ymm14 # 2ba68 <_sk_overlay_sse2_8bit+0x583>
+ .byte 196,98,125,24,45,80,93,2,0 // vbroadcastss 0x25d50(%rip),%ymm13 # 2ba1c <_sk_overlay_sse2_8bit+0x57f>
+ .byte 196,98,125,24,53,75,93,2,0 // vbroadcastss 0x25d4b(%rip),%ymm14 # 2ba20 <_sk_overlay_sse2_8bit+0x583>
.byte 196,66,29,184,245 // vfmadd231ps %ymm13,%ymm12,%ymm14
- .byte 196,98,125,24,45,91,93,2,0 // vbroadcastss 0x25d5b(%rip),%ymm13 # 2ba6c <_sk_overlay_sse2_8bit+0x587>
+ .byte 196,98,125,24,45,65,93,2,0 // vbroadcastss 0x25d41(%rip),%ymm13 # 2ba24 <_sk_overlay_sse2_8bit+0x587>
.byte 196,66,29,184,238 // vfmadd231ps %ymm14,%ymm12,%ymm13
- .byte 196,98,125,24,53,81,93,2,0 // vbroadcastss 0x25d51(%rip),%ymm14 # 2ba70 <_sk_overlay_sse2_8bit+0x58b>
+ .byte 196,98,125,24,53,55,93,2,0 // vbroadcastss 0x25d37(%rip),%ymm14 # 2ba28 <_sk_overlay_sse2_8bit+0x58b>
.byte 196,66,29,184,245 // vfmadd231ps %ymm13,%ymm12,%ymm14
.byte 196,65,36,89,222 // vmulps %ymm14,%ymm11,%ymm11
.byte 196,65,52,194,202,1 // vcmpltps %ymm10,%ymm9,%ymm9
- .byte 196,98,125,24,21,60,93,2,0 // vbroadcastss 0x25d3c(%rip),%ymm10 # 2ba74 <_sk_overlay_sse2_8bit+0x58f>
+ .byte 196,98,125,24,21,34,93,2,0 // vbroadcastss 0x25d22(%rip),%ymm10 # 2ba2c <_sk_overlay_sse2_8bit+0x58f>
.byte 196,65,44,92,211 // vsubps %ymm11,%ymm10,%ymm10
.byte 196,67,37,74,202,144 // vblendvps %ymm9,%ymm10,%ymm11,%ymm9
.byte 196,193,124,194,192,1 // vcmpltps %ymm8,%ymm0,%ymm0
- .byte 196,98,125,24,21,210,91,2,0 // vbroadcastss 0x25bd2(%rip),%ymm10 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,21,184,91,2,0 // vbroadcastss 0x25bb8(%rip),%ymm10 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,44,92,209 // vsubps %ymm9,%ymm10,%ymm10
.byte 196,195,53,74,194,0 // vblendvps %ymm0,%ymm10,%ymm9,%ymm0
.byte 196,65,116,194,200,1 // vcmpltps %ymm8,%ymm1,%ymm9
- .byte 196,98,125,24,21,188,91,2,0 // vbroadcastss 0x25bbc(%rip),%ymm10 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,21,162,91,2,0 // vbroadcastss 0x25ba2(%rip),%ymm10 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,44,92,208 // vsubps %ymm0,%ymm10,%ymm10
.byte 196,195,125,74,194,144 // vblendvps %ymm9,%ymm10,%ymm0,%ymm0
.byte 196,65,124,194,200,3 // vcmpunordps %ymm8,%ymm0,%ymm9
@@ -15302,23 +15289,23 @@ _sk_xy_to_2pt_conical_quadratic_max_hsw:
.byte 197,50,89,80,44 // vmulss 0x2c(%rax),%xmm9,%xmm10
.byte 196,66,125,24,210 // vbroadcastss %xmm10,%ymm10
.byte 197,44,88,208 // vaddps %ymm0,%ymm10,%ymm10
- .byte 196,98,125,24,29,188,92,2,0 // vbroadcastss 0x25cbc(%rip),%ymm11 # 2ba78 <_sk_overlay_sse2_8bit+0x593>
+ .byte 196,98,125,24,29,162,92,2,0 // vbroadcastss 0x25ca2(%rip),%ymm11 # 2ba30 <_sk_overlay_sse2_8bit+0x593>
.byte 196,65,44,89,211 // vmulps %ymm11,%ymm10,%ymm10
.byte 197,116,89,217 // vmulps %ymm1,%ymm1,%ymm11
.byte 196,98,125,184,216 // vfmadd231ps %ymm0,%ymm0,%ymm11
.byte 196,193,50,89,193 // vmulss %xmm9,%xmm9,%xmm0
.byte 196,226,125,24,192 // vbroadcastss %xmm0,%ymm0
.byte 197,164,92,192 // vsubps %ymm0,%ymm11,%ymm0
- .byte 196,98,125,24,13,155,92,2,0 // vbroadcastss 0x25c9b(%rip),%ymm9 # 2ba7c <_sk_overlay_sse2_8bit+0x597>
+ .byte 196,98,125,24,13,129,92,2,0 // vbroadcastss 0x25c81(%rip),%ymm9 # 2ba34 <_sk_overlay_sse2_8bit+0x597>
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 196,194,45,184,194 // vfmadd231ps %ymm10,%ymm10,%ymm0
.byte 197,252,81,192 // vsqrtps %ymm0,%ymm0
.byte 196,98,125,24,64,36 // vbroadcastss 0x24(%rax),%ymm8
- .byte 196,98,125,24,13,126,92,2,0 // vbroadcastss 0x25c7e(%rip),%ymm9 # 2ba80 <_sk_overlay_sse2_8bit+0x59b>
+ .byte 196,98,125,24,13,100,92,2,0 // vbroadcastss 0x25c64(%rip),%ymm9 # 2ba38 <_sk_overlay_sse2_8bit+0x59b>
.byte 196,65,44,87,201 // vxorps %ymm9,%ymm10,%ymm9
.byte 196,65,124,92,210 // vsubps %ymm10,%ymm0,%ymm10
- .byte 196,98,125,24,29,15,91,2,0 // vbroadcastss 0x25b0f(%rip),%ymm11 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,29,245,90,2,0 // vbroadcastss 0x25af5(%rip),%ymm11 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,60,89,195 // vmulps %ymm11,%ymm8,%ymm8
.byte 196,65,44,89,208 // vmulps %ymm8,%ymm10,%ymm10
.byte 197,180,92,192 // vsubps %ymm0,%ymm9,%ymm0
@@ -15337,23 +15324,23 @@ _sk_xy_to_2pt_conical_quadratic_min_hsw:
.byte 197,50,89,80,44 // vmulss 0x2c(%rax),%xmm9,%xmm10
.byte 196,66,125,24,210 // vbroadcastss %xmm10,%ymm10
.byte 197,44,88,208 // vaddps %ymm0,%ymm10,%ymm10
- .byte 196,98,125,24,29,36,92,2,0 // vbroadcastss 0x25c24(%rip),%ymm11 # 2ba78 <_sk_overlay_sse2_8bit+0x593>
+ .byte 196,98,125,24,29,10,92,2,0 // vbroadcastss 0x25c0a(%rip),%ymm11 # 2ba30 <_sk_overlay_sse2_8bit+0x593>
.byte 196,65,44,89,211 // vmulps %ymm11,%ymm10,%ymm10
.byte 197,116,89,217 // vmulps %ymm1,%ymm1,%ymm11
.byte 196,98,125,184,216 // vfmadd231ps %ymm0,%ymm0,%ymm11
.byte 196,193,50,89,193 // vmulss %xmm9,%xmm9,%xmm0
.byte 196,226,125,24,192 // vbroadcastss %xmm0,%ymm0
.byte 197,164,92,192 // vsubps %ymm0,%ymm11,%ymm0
- .byte 196,98,125,24,13,3,92,2,0 // vbroadcastss 0x25c03(%rip),%ymm9 # 2ba7c <_sk_overlay_sse2_8bit+0x597>
+ .byte 196,98,125,24,13,233,91,2,0 // vbroadcastss 0x25be9(%rip),%ymm9 # 2ba34 <_sk_overlay_sse2_8bit+0x597>
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 196,194,45,184,194 // vfmadd231ps %ymm10,%ymm10,%ymm0
.byte 197,252,81,192 // vsqrtps %ymm0,%ymm0
.byte 196,98,125,24,64,36 // vbroadcastss 0x24(%rax),%ymm8
- .byte 196,98,125,24,13,230,91,2,0 // vbroadcastss 0x25be6(%rip),%ymm9 # 2ba80 <_sk_overlay_sse2_8bit+0x59b>
+ .byte 196,98,125,24,13,204,91,2,0 // vbroadcastss 0x25bcc(%rip),%ymm9 # 2ba38 <_sk_overlay_sse2_8bit+0x59b>
.byte 196,65,44,87,201 // vxorps %ymm9,%ymm10,%ymm9
.byte 196,65,124,92,210 // vsubps %ymm10,%ymm0,%ymm10
- .byte 196,98,125,24,29,119,90,2,0 // vbroadcastss 0x25a77(%rip),%ymm11 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,29,93,90,2,0 // vbroadcastss 0x25a5d(%rip),%ymm11 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,60,89,195 // vmulps %ymm11,%ymm8,%ymm8
.byte 196,65,44,89,208 // vmulps %ymm8,%ymm10,%ymm10
.byte 197,180,92,192 // vsubps %ymm0,%ymm9,%ymm0
@@ -15371,14 +15358,14 @@ _sk_xy_to_2pt_conical_linear_hsw:
.byte 197,58,89,72,44 // vmulss 0x2c(%rax),%xmm8,%xmm9
.byte 196,66,125,24,201 // vbroadcastss %xmm9,%ymm9
.byte 197,52,88,200 // vaddps %ymm0,%ymm9,%ymm9
- .byte 196,98,125,24,21,146,91,2,0 // vbroadcastss 0x25b92(%rip),%ymm10 # 2ba78 <_sk_overlay_sse2_8bit+0x593>
+ .byte 196,98,125,24,21,120,91,2,0 // vbroadcastss 0x25b78(%rip),%ymm10 # 2ba30 <_sk_overlay_sse2_8bit+0x593>
.byte 196,65,52,89,202 // vmulps %ymm10,%ymm9,%ymm9
.byte 197,116,89,209 // vmulps %ymm1,%ymm1,%ymm10
.byte 196,98,125,184,208 // vfmadd231ps %ymm0,%ymm0,%ymm10
.byte 196,193,58,89,192 // vmulss %xmm8,%xmm8,%xmm0
.byte 196,226,125,24,192 // vbroadcastss %xmm0,%ymm0
.byte 197,172,92,192 // vsubps %ymm0,%ymm10,%ymm0
- .byte 196,98,125,24,5,117,91,2,0 // vbroadcastss 0x25b75(%rip),%ymm8 # 2ba80 <_sk_overlay_sse2_8bit+0x59b>
+ .byte 196,98,125,24,5,91,91,2,0 // vbroadcastss 0x25b5b(%rip),%ymm8 # 2ba38 <_sk_overlay_sse2_8bit+0x59b>
.byte 196,193,124,87,192 // vxorps %ymm8,%ymm0,%ymm0
.byte 196,193,124,94,193 // vdivps %ymm9,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -15418,7 +15405,7 @@ HIDDEN _sk_save_xy_hsw
FUNCTION(_sk_save_xy_hsw)
_sk_save_xy_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,98,125,24,5,181,89,2,0 // vbroadcastss 0x259b5(%rip),%ymm8 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,5,155,89,2,0 // vbroadcastss 0x2599b(%rip),%ymm8 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,124,88,200 // vaddps %ymm8,%ymm0,%ymm9
.byte 196,67,125,8,209,1 // vroundps $0x1,%ymm9,%ymm10
.byte 196,65,52,92,202 // vsubps %ymm10,%ymm9,%ymm9
@@ -15452,9 +15439,9 @@ HIDDEN _sk_bilinear_nx_hsw
FUNCTION(_sk_bilinear_nx_hsw)
_sk_bilinear_nx_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,165,90,2,0 // vbroadcastss 0x25aa5(%rip),%ymm0 # 2ba84 <_sk_overlay_sse2_8bit+0x59f>
+ .byte 196,226,125,24,5,139,90,2,0 // vbroadcastss 0x25a8b(%rip),%ymm0 # 2ba3c <_sk_overlay_sse2_8bit+0x59f>
.byte 197,252,88,0 // vaddps (%rax),%ymm0,%ymm0
- .byte 196,98,125,24,5,60,89,2,0 // vbroadcastss 0x2593c(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,34,89,2,0 // vbroadcastss 0x25922(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,64 // vsubps 0x40(%rax),%ymm8,%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -15465,7 +15452,7 @@ HIDDEN _sk_bilinear_px_hsw
FUNCTION(_sk_bilinear_px_hsw)
_sk_bilinear_px_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,28,89,2,0 // vbroadcastss 0x2591c(%rip),%ymm0 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,226,125,24,5,2,89,2,0 // vbroadcastss 0x25902(%rip),%ymm0 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,252,88,0 // vaddps (%rax),%ymm0,%ymm0
.byte 197,124,16,64,64 // vmovups 0x40(%rax),%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
@@ -15477,9 +15464,9 @@ HIDDEN _sk_bilinear_ny_hsw
FUNCTION(_sk_bilinear_ny_hsw)
_sk_bilinear_ny_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,13,92,90,2,0 // vbroadcastss 0x25a5c(%rip),%ymm1 # 2ba84 <_sk_overlay_sse2_8bit+0x59f>
+ .byte 196,226,125,24,13,66,90,2,0 // vbroadcastss 0x25a42(%rip),%ymm1 # 2ba3c <_sk_overlay_sse2_8bit+0x59f>
.byte 197,244,88,72,32 // vaddps 0x20(%rax),%ymm1,%ymm1
- .byte 196,98,125,24,5,242,88,2,0 // vbroadcastss 0x258f2(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,216,88,2,0 // vbroadcastss 0x258d8(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,96 // vsubps 0x60(%rax),%ymm8,%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -15490,7 +15477,7 @@ HIDDEN _sk_bilinear_py_hsw
FUNCTION(_sk_bilinear_py_hsw)
_sk_bilinear_py_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,13,210,88,2,0 // vbroadcastss 0x258d2(%rip),%ymm1 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,226,125,24,13,184,88,2,0 // vbroadcastss 0x258b8(%rip),%ymm1 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,244,88,72,32 // vaddps 0x20(%rax),%ymm1,%ymm1
.byte 197,124,16,64,96 // vmovups 0x60(%rax),%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
@@ -15502,13 +15489,13 @@ HIDDEN _sk_bicubic_n3x_hsw
FUNCTION(_sk_bicubic_n3x_hsw)
_sk_bicubic_n3x_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,21,90,2,0 // vbroadcastss 0x25a15(%rip),%ymm0 # 2ba88 <_sk_overlay_sse2_8bit+0x5a3>
+ .byte 196,226,125,24,5,251,89,2,0 // vbroadcastss 0x259fb(%rip),%ymm0 # 2ba40 <_sk_overlay_sse2_8bit+0x5a3>
.byte 197,252,88,0 // vaddps (%rax),%ymm0,%ymm0
- .byte 196,98,125,24,5,168,88,2,0 // vbroadcastss 0x258a8(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,142,88,2,0 // vbroadcastss 0x2588e(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,64 // vsubps 0x40(%rax),%ymm8,%ymm8
.byte 196,65,60,89,200 // vmulps %ymm8,%ymm8,%ymm9
- .byte 196,98,125,24,21,5,89,2,0 // vbroadcastss 0x25905(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4b3>
- .byte 196,98,125,24,29,240,89,2,0 // vbroadcastss 0x259f0(%rip),%ymm11 # 2ba8c <_sk_overlay_sse2_8bit+0x5a7>
+ .byte 196,98,125,24,21,235,88,2,0 // vbroadcastss 0x258eb(%rip),%ymm10 # 2b950 <_sk_overlay_sse2_8bit+0x4b3>
+ .byte 196,98,125,24,29,214,89,2,0 // vbroadcastss 0x259d6(%rip),%ymm11 # 2ba44 <_sk_overlay_sse2_8bit+0x5a7>
.byte 196,66,61,168,218 // vfmadd213ps %ymm10,%ymm8,%ymm11
.byte 196,65,36,89,193 // vmulps %ymm9,%ymm11,%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
@@ -15520,16 +15507,16 @@ HIDDEN _sk_bicubic_n1x_hsw
FUNCTION(_sk_bicubic_n1x_hsw)
_sk_bicubic_n1x_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,199,89,2,0 // vbroadcastss 0x259c7(%rip),%ymm0 # 2ba84 <_sk_overlay_sse2_8bit+0x59f>
+ .byte 196,226,125,24,5,173,89,2,0 // vbroadcastss 0x259ad(%rip),%ymm0 # 2ba3c <_sk_overlay_sse2_8bit+0x59f>
.byte 197,252,88,0 // vaddps (%rax),%ymm0,%ymm0
- .byte 196,98,125,24,5,94,88,2,0 // vbroadcastss 0x2585e(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,68,88,2,0 // vbroadcastss 0x25844(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,64 // vsubps 0x40(%rax),%ymm8,%ymm8
- .byte 196,98,125,24,13,184,89,2,0 // vbroadcastss 0x259b8(%rip),%ymm9 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
- .byte 196,98,125,24,21,179,89,2,0 // vbroadcastss 0x259b3(%rip),%ymm10 # 2ba94 <_sk_overlay_sse2_8bit+0x5af>
+ .byte 196,98,125,24,13,158,89,2,0 // vbroadcastss 0x2599e(%rip),%ymm9 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,98,125,24,21,153,89,2,0 // vbroadcastss 0x25999(%rip),%ymm10 # 2ba4c <_sk_overlay_sse2_8bit+0x5af>
.byte 196,66,61,168,209 // vfmadd213ps %ymm9,%ymm8,%ymm10
- .byte 196,98,125,24,13,53,88,2,0 // vbroadcastss 0x25835(%rip),%ymm9 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,13,27,88,2,0 // vbroadcastss 0x2581b(%rip),%ymm9 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,66,61,184,202 // vfmadd231ps %ymm10,%ymm8,%ymm9
- .byte 196,98,125,24,21,155,89,2,0 // vbroadcastss 0x2599b(%rip),%ymm10 # 2ba98 <_sk_overlay_sse2_8bit+0x5b3>
+ .byte 196,98,125,24,21,129,89,2,0 // vbroadcastss 0x25981(%rip),%ymm10 # 2ba50 <_sk_overlay_sse2_8bit+0x5b3>
.byte 196,66,61,184,209 // vfmadd231ps %ymm9,%ymm8,%ymm10
.byte 197,124,17,144,128,0,0,0 // vmovups %ymm10,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -15540,14 +15527,14 @@ HIDDEN _sk_bicubic_p1x_hsw
FUNCTION(_sk_bicubic_p1x_hsw)
_sk_bicubic_p1x_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,98,125,24,5,11,88,2,0 // vbroadcastss 0x2580b(%rip),%ymm8 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,5,241,87,2,0 // vbroadcastss 0x257f1(%rip),%ymm8 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,188,88,0 // vaddps (%rax),%ymm8,%ymm0
.byte 197,124,16,72,64 // vmovups 0x40(%rax),%ymm9
- .byte 196,98,125,24,21,101,89,2,0 // vbroadcastss 0x25965(%rip),%ymm10 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
- .byte 196,98,125,24,29,96,89,2,0 // vbroadcastss 0x25960(%rip),%ymm11 # 2ba94 <_sk_overlay_sse2_8bit+0x5af>
+ .byte 196,98,125,24,21,75,89,2,0 // vbroadcastss 0x2594b(%rip),%ymm10 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,98,125,24,29,70,89,2,0 // vbroadcastss 0x25946(%rip),%ymm11 # 2ba4c <_sk_overlay_sse2_8bit+0x5af>
.byte 196,66,53,168,218 // vfmadd213ps %ymm10,%ymm9,%ymm11
.byte 196,66,53,168,216 // vfmadd213ps %ymm8,%ymm9,%ymm11
- .byte 196,98,125,24,5,81,89,2,0 // vbroadcastss 0x25951(%rip),%ymm8 # 2ba98 <_sk_overlay_sse2_8bit+0x5b3>
+ .byte 196,98,125,24,5,55,89,2,0 // vbroadcastss 0x25937(%rip),%ymm8 # 2ba50 <_sk_overlay_sse2_8bit+0x5b3>
.byte 196,66,53,184,195 // vfmadd231ps %ymm11,%ymm9,%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -15558,12 +15545,12 @@ HIDDEN _sk_bicubic_p3x_hsw
FUNCTION(_sk_bicubic_p3x_hsw)
_sk_bicubic_p3x_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,45,89,2,0 // vbroadcastss 0x2592d(%rip),%ymm0 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,226,125,24,5,19,89,2,0 // vbroadcastss 0x25913(%rip),%ymm0 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
.byte 197,252,88,0 // vaddps (%rax),%ymm0,%ymm0
.byte 197,124,16,64,64 // vmovups 0x40(%rax),%ymm8
.byte 196,65,60,89,200 // vmulps %ymm8,%ymm8,%ymm9
- .byte 196,98,125,24,21,30,88,2,0 // vbroadcastss 0x2581e(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4b3>
- .byte 196,98,125,24,29,9,89,2,0 // vbroadcastss 0x25909(%rip),%ymm11 # 2ba8c <_sk_overlay_sse2_8bit+0x5a7>
+ .byte 196,98,125,24,21,4,88,2,0 // vbroadcastss 0x25804(%rip),%ymm10 # 2b950 <_sk_overlay_sse2_8bit+0x4b3>
+ .byte 196,98,125,24,29,239,88,2,0 // vbroadcastss 0x258ef(%rip),%ymm11 # 2ba44 <_sk_overlay_sse2_8bit+0x5a7>
.byte 196,66,61,168,218 // vfmadd213ps %ymm10,%ymm8,%ymm11
.byte 196,65,52,89,195 // vmulps %ymm11,%ymm9,%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
@@ -15575,13 +15562,13 @@ HIDDEN _sk_bicubic_n3y_hsw
FUNCTION(_sk_bicubic_n3y_hsw)
_sk_bicubic_n3y_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,13,228,88,2,0 // vbroadcastss 0x258e4(%rip),%ymm1 # 2ba88 <_sk_overlay_sse2_8bit+0x5a3>
+ .byte 196,226,125,24,13,202,88,2,0 // vbroadcastss 0x258ca(%rip),%ymm1 # 2ba40 <_sk_overlay_sse2_8bit+0x5a3>
.byte 197,244,88,72,32 // vaddps 0x20(%rax),%ymm1,%ymm1
- .byte 196,98,125,24,5,118,87,2,0 // vbroadcastss 0x25776(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,92,87,2,0 // vbroadcastss 0x2575c(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,96 // vsubps 0x60(%rax),%ymm8,%ymm8
.byte 196,65,60,89,200 // vmulps %ymm8,%ymm8,%ymm9
- .byte 196,98,125,24,21,211,87,2,0 // vbroadcastss 0x257d3(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4b3>
- .byte 196,98,125,24,29,190,88,2,0 // vbroadcastss 0x258be(%rip),%ymm11 # 2ba8c <_sk_overlay_sse2_8bit+0x5a7>
+ .byte 196,98,125,24,21,185,87,2,0 // vbroadcastss 0x257b9(%rip),%ymm10 # 2b950 <_sk_overlay_sse2_8bit+0x4b3>
+ .byte 196,98,125,24,29,164,88,2,0 // vbroadcastss 0x258a4(%rip),%ymm11 # 2ba44 <_sk_overlay_sse2_8bit+0x5a7>
.byte 196,66,61,168,218 // vfmadd213ps %ymm10,%ymm8,%ymm11
.byte 196,65,36,89,193 // vmulps %ymm9,%ymm11,%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
@@ -15593,16 +15580,16 @@ HIDDEN _sk_bicubic_n1y_hsw
FUNCTION(_sk_bicubic_n1y_hsw)
_sk_bicubic_n1y_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,13,149,88,2,0 // vbroadcastss 0x25895(%rip),%ymm1 # 2ba84 <_sk_overlay_sse2_8bit+0x59f>
+ .byte 196,226,125,24,13,123,88,2,0 // vbroadcastss 0x2587b(%rip),%ymm1 # 2ba3c <_sk_overlay_sse2_8bit+0x59f>
.byte 197,244,88,72,32 // vaddps 0x20(%rax),%ymm1,%ymm1
- .byte 196,98,125,24,5,43,87,2,0 // vbroadcastss 0x2572b(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,17,87,2,0 // vbroadcastss 0x25711(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,96 // vsubps 0x60(%rax),%ymm8,%ymm8
- .byte 196,98,125,24,13,133,88,2,0 // vbroadcastss 0x25885(%rip),%ymm9 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
- .byte 196,98,125,24,21,128,88,2,0 // vbroadcastss 0x25880(%rip),%ymm10 # 2ba94 <_sk_overlay_sse2_8bit+0x5af>
+ .byte 196,98,125,24,13,107,88,2,0 // vbroadcastss 0x2586b(%rip),%ymm9 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,98,125,24,21,102,88,2,0 // vbroadcastss 0x25866(%rip),%ymm10 # 2ba4c <_sk_overlay_sse2_8bit+0x5af>
.byte 196,66,61,168,209 // vfmadd213ps %ymm9,%ymm8,%ymm10
- .byte 196,98,125,24,13,2,87,2,0 // vbroadcastss 0x25702(%rip),%ymm9 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,13,232,86,2,0 // vbroadcastss 0x256e8(%rip),%ymm9 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,66,61,184,202 // vfmadd231ps %ymm10,%ymm8,%ymm9
- .byte 196,98,125,24,21,104,88,2,0 // vbroadcastss 0x25868(%rip),%ymm10 # 2ba98 <_sk_overlay_sse2_8bit+0x5b3>
+ .byte 196,98,125,24,21,78,88,2,0 // vbroadcastss 0x2584e(%rip),%ymm10 # 2ba50 <_sk_overlay_sse2_8bit+0x5b3>
.byte 196,66,61,184,209 // vfmadd231ps %ymm9,%ymm8,%ymm10
.byte 197,124,17,144,160,0,0,0 // vmovups %ymm10,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -15613,14 +15600,14 @@ HIDDEN _sk_bicubic_p1y_hsw
FUNCTION(_sk_bicubic_p1y_hsw)
_sk_bicubic_p1y_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,98,125,24,5,216,86,2,0 // vbroadcastss 0x256d8(%rip),%ymm8 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,5,190,86,2,0 // vbroadcastss 0x256be(%rip),%ymm8 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,188,88,72,32 // vaddps 0x20(%rax),%ymm8,%ymm1
.byte 197,124,16,72,96 // vmovups 0x60(%rax),%ymm9
- .byte 196,98,125,24,21,49,88,2,0 // vbroadcastss 0x25831(%rip),%ymm10 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
- .byte 196,98,125,24,29,44,88,2,0 // vbroadcastss 0x2582c(%rip),%ymm11 # 2ba94 <_sk_overlay_sse2_8bit+0x5af>
+ .byte 196,98,125,24,21,23,88,2,0 // vbroadcastss 0x25817(%rip),%ymm10 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,98,125,24,29,18,88,2,0 // vbroadcastss 0x25812(%rip),%ymm11 # 2ba4c <_sk_overlay_sse2_8bit+0x5af>
.byte 196,66,53,168,218 // vfmadd213ps %ymm10,%ymm9,%ymm11
.byte 196,66,53,168,216 // vfmadd213ps %ymm8,%ymm9,%ymm11
- .byte 196,98,125,24,5,29,88,2,0 // vbroadcastss 0x2581d(%rip),%ymm8 # 2ba98 <_sk_overlay_sse2_8bit+0x5b3>
+ .byte 196,98,125,24,5,3,88,2,0 // vbroadcastss 0x25803(%rip),%ymm8 # 2ba50 <_sk_overlay_sse2_8bit+0x5b3>
.byte 196,66,53,184,195 // vfmadd231ps %ymm11,%ymm9,%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -15631,12 +15618,12 @@ HIDDEN _sk_bicubic_p3y_hsw
FUNCTION(_sk_bicubic_p3y_hsw)
_sk_bicubic_p3y_hsw:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,13,249,87,2,0 // vbroadcastss 0x257f9(%rip),%ymm1 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,226,125,24,13,223,87,2,0 // vbroadcastss 0x257df(%rip),%ymm1 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
.byte 197,244,88,72,32 // vaddps 0x20(%rax),%ymm1,%ymm1
.byte 197,124,16,64,96 // vmovups 0x60(%rax),%ymm8
.byte 196,65,60,89,200 // vmulps %ymm8,%ymm8,%ymm9
- .byte 196,98,125,24,21,233,86,2,0 // vbroadcastss 0x256e9(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4b3>
- .byte 196,98,125,24,29,212,87,2,0 // vbroadcastss 0x257d4(%rip),%ymm11 # 2ba8c <_sk_overlay_sse2_8bit+0x5a7>
+ .byte 196,98,125,24,21,207,86,2,0 // vbroadcastss 0x256cf(%rip),%ymm10 # 2b950 <_sk_overlay_sse2_8bit+0x4b3>
+ .byte 196,98,125,24,29,186,87,2,0 // vbroadcastss 0x257ba(%rip),%ymm11 # 2ba44 <_sk_overlay_sse2_8bit+0x5a7>
.byte 196,66,61,168,218 // vfmadd213ps %ymm10,%ymm8,%ymm11
.byte 196,65,52,89,195 // vmulps %ymm11,%ymm9,%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
@@ -15655,18 +15642,17 @@ _sk_callback_hsw:
.byte 65,84 // push %r12
.byte 83 // push %rbx
.byte 72,131,228,224 // and $0xffffffffffffffe0,%rsp
- .byte 72,129,236,192,0,0,0 // sub $0xc0,%rsp
- .byte 197,252,41,188,36,128,0,0,0 // vmovaps %ymm7,0x80(%rsp)
- .byte 197,252,41,116,36,96 // vmovaps %ymm6,0x60(%rsp)
- .byte 197,252,41,108,36,64 // vmovaps %ymm5,0x40(%rsp)
- .byte 197,252,41,100,36,32 // vmovaps %ymm4,0x20(%rsp)
- .byte 76,137,195 // mov %r8,%rbx
- .byte 72,137,76,36,24 // mov %rcx,0x18(%rsp)
+ .byte 72,129,236,160,0,0,0 // sub $0xa0,%rsp
+ .byte 197,252,41,124,36,96 // vmovaps %ymm7,0x60(%rsp)
+ .byte 197,252,41,116,36,64 // vmovaps %ymm6,0x40(%rsp)
+ .byte 197,252,41,108,36,32 // vmovaps %ymm5,0x20(%rsp)
+ .byte 197,252,41,36,36 // vmovaps %ymm4,(%rsp)
+ .byte 73,137,206 // mov %rcx,%r14
.byte 73,137,215 // mov %rdx,%r15
- .byte 73,137,252 // mov %rdi,%r12
+ .byte 73,137,253 // mov %rdi,%r13
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 73,137,198 // mov %rax,%r14
- .byte 73,137,245 // mov %rsi,%r13
+ .byte 72,137,195 // mov %rax,%rbx
+ .byte 73,137,244 // mov %rsi,%r12
.byte 197,252,20,225 // vunpcklps %ymm1,%ymm0,%ymm4
.byte 197,252,21,193 // vunpckhps %ymm1,%ymm0,%ymm0
.byte 197,236,20,203 // vunpcklps %ymm3,%ymm2,%ymm1
@@ -15679,17 +15665,17 @@ _sk_callback_hsw:
.byte 196,227,93,24,232,1 // vinsertf128 $0x1,%xmm0,%ymm4,%ymm5
.byte 196,227,101,6,201,49 // vperm2f128 $0x31,%ymm1,%ymm3,%ymm1
.byte 196,227,93,6,192,49 // vperm2f128 $0x31,%ymm0,%ymm4,%ymm0
- .byte 196,193,125,17,86,8 // vmovupd %ymm2,0x8(%r14)
- .byte 196,193,125,17,110,40 // vmovupd %ymm5,0x28(%r14)
- .byte 196,193,125,17,78,72 // vmovupd %ymm1,0x48(%r14)
- .byte 196,193,125,17,70,104 // vmovupd %ymm0,0x68(%r14)
- .byte 72,133,219 // test %rbx,%rbx
+ .byte 197,253,17,83,8 // vmovupd %ymm2,0x8(%rbx)
+ .byte 197,253,17,107,40 // vmovupd %ymm5,0x28(%rbx)
+ .byte 197,253,17,75,72 // vmovupd %ymm1,0x48(%rbx)
+ .byte 197,253,17,67,104 // vmovupd %ymm0,0x68(%rbx)
+ .byte 77,133,237 // test %r13,%r13
.byte 190,8,0,0,0 // mov $0x8,%esi
- .byte 15,69,243 // cmovne %ebx,%esi
- .byte 76,137,247 // mov %r14,%rdi
+ .byte 65,15,69,245 // cmovne %r13d,%esi
+ .byte 72,137,223 // mov %rbx,%rdi
.byte 197,248,119 // vzeroupper
- .byte 65,255,22 // callq *(%r14)
- .byte 73,139,134,136,0,0,0 // mov 0x88(%r14),%rax
+ .byte 255,19 // callq *(%rbx)
+ .byte 72,139,131,136,0,0,0 // mov 0x88(%rbx),%rax
.byte 197,248,16,0 // vmovups (%rax),%xmm0
.byte 197,248,16,72,16 // vmovups 0x10(%rax),%xmm1
.byte 197,248,16,80,32 // vmovups 0x20(%rax),%xmm2
@@ -15706,16 +15692,15 @@ _sk_callback_hsw:
.byte 197,221,21,201 // vunpckhpd %ymm1,%ymm4,%ymm1
.byte 197,213,20,211 // vunpcklpd %ymm3,%ymm5,%ymm2
.byte 197,213,21,219 // vunpckhpd %ymm3,%ymm5,%ymm3
- .byte 76,137,238 // mov %r13,%rsi
+ .byte 76,137,230 // mov %r12,%rsi
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,137,231 // mov %r12,%rdi
+ .byte 76,137,239 // mov %r13,%rdi
.byte 76,137,250 // mov %r15,%rdx
- .byte 72,139,76,36,24 // mov 0x18(%rsp),%rcx
- .byte 73,137,216 // mov %rbx,%r8
- .byte 197,252,40,100,36,32 // vmovaps 0x20(%rsp),%ymm4
- .byte 197,252,40,108,36,64 // vmovaps 0x40(%rsp),%ymm5
- .byte 197,252,40,116,36,96 // vmovaps 0x60(%rsp),%ymm6
- .byte 197,252,40,188,36,128,0,0,0 // vmovaps 0x80(%rsp),%ymm7
+ .byte 76,137,241 // mov %r14,%rcx
+ .byte 197,252,40,36,36 // vmovaps (%rsp),%ymm4
+ .byte 197,252,40,108,36,32 // vmovaps 0x20(%rsp),%ymm5
+ .byte 197,252,40,116,36,64 // vmovaps 0x40(%rsp),%ymm6
+ .byte 197,252,40,124,36,96 // vmovaps 0x60(%rsp),%ymm7
.byte 72,141,101,216 // lea -0x28(%rbp),%rsp
.byte 91 // pop %rbx
.byte 65,92 // pop %r12
@@ -15736,21 +15721,21 @@ _sk_clut_3D_hsw:
.byte 197,252,17,164,36,64,1,0,0 // vmovups %ymm4,0x140(%rsp)
.byte 197,252,17,156,36,32,1,0,0 // vmovups %ymm3,0x120(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,16 // mov 0x10(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 196,193,121,110,218 // vmovd %r10d,%xmm3
+ .byte 68,139,64,16 // mov 0x10(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 196,193,121,110,217 // vmovd %r9d,%xmm3
.byte 196,226,125,88,219 // vpbroadcastd %xmm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 197,228,89,210 // vmulps %ymm2,%ymm3,%ymm2
.byte 197,252,17,84,36,224 // vmovups %ymm2,-0x20(%rsp)
.byte 197,254,91,234 // vcvttps2dq %ymm2,%ymm5
- .byte 196,193,121,110,209 // vmovd %r9d,%xmm2
- .byte 196,193,121,110,217 // vmovd %r9d,%xmm3
+ .byte 196,193,121,110,208 // vmovd %r8d,%xmm2
+ .byte 196,193,121,110,216 // vmovd %r8d,%xmm3
.byte 196,226,125,88,219 // vpbroadcastd %xmm3,%ymm3
.byte 197,254,127,92,36,128 // vmovdqu %ymm3,-0x80(%rsp)
- .byte 68,139,72,12 // mov 0xc(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 196,193,121,110,226 // vmovd %r10d,%xmm4
+ .byte 68,139,64,12 // mov 0xc(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 196,193,121,110,225 // vmovd %r9d,%xmm4
.byte 196,226,125,88,228 // vpbroadcastd %xmm4,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
.byte 197,220,89,201 // vmulps %ymm1,%ymm4,%ymm1
@@ -15762,12 +15747,12 @@ _sk_clut_3D_hsw:
.byte 197,117,254,229 // vpaddd %ymm5,%ymm1,%ymm12
.byte 197,125,111,205 // vmovdqa %ymm5,%ymm9
.byte 197,126,127,140,36,224,0,0,0 // vmovdqu %ymm9,0xe0(%rsp)
- .byte 196,193,121,110,201 // vmovd %r9d,%xmm1
+ .byte 196,193,121,110,200 // vmovd %r8d,%xmm1
.byte 196,226,117,64,202 // vpmulld %ymm2,%ymm1,%ymm1
.byte 196,226,125,88,233 // vpbroadcastd %xmm1,%ymm5
- .byte 68,139,72,8 // mov 0x8(%rax),%r9d
- .byte 65,255,201 // dec %r9d
- .byte 196,193,121,110,201 // vmovd %r9d,%xmm1
+ .byte 68,139,64,8 // mov 0x8(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 196,193,121,110,200 // vmovd %r8d,%xmm1
.byte 196,226,125,88,201 // vpbroadcastd %xmm1,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
.byte 197,244,89,192 // vmulps %ymm0,%ymm1,%ymm0
@@ -15776,19 +15761,19 @@ _sk_clut_3D_hsw:
.byte 197,254,127,76,36,160 // vmovdqu %ymm1,-0x60(%rsp)
.byte 72,139,0 // mov (%rax),%rax
.byte 196,193,117,254,204 // vpaddd %ymm12,%ymm1,%ymm1
- .byte 196,226,125,88,61,145,85,2,0 // vpbroadcastd 0x25591(%rip),%ymm7 # 2baa0 <_sk_overlay_sse2_8bit+0x5bb>
+ .byte 196,226,125,88,61,141,85,2,0 // vpbroadcastd 0x2558d(%rip),%ymm7 # 2ba58 <_sk_overlay_sse2_8bit+0x5bb>
.byte 196,226,117,64,207 // vpmulld %ymm7,%ymm1,%ymm1
.byte 197,205,118,246 // vpcmpeqd %ymm6,%ymm6,%ymm6
.byte 196,98,77,146,4,136 // vgatherdps %ymm6,(%rax,%ymm1,4),%ymm8
- .byte 196,98,125,88,21,5,84,2,0 // vpbroadcastd 0x25405(%rip),%ymm10 # 2b92c <_sk_overlay_sse2_8bit+0x447>
+ .byte 196,98,125,88,21,1,84,2,0 // vpbroadcastd 0x25401(%rip),%ymm10 # 2b8e4 <_sk_overlay_sse2_8bit+0x447>
.byte 196,193,117,254,242 // vpaddd %ymm10,%ymm1,%ymm6
.byte 196,65,37,118,219 // vpcmpeqd %ymm11,%ymm11,%ymm11
.byte 196,226,37,146,28,176 // vgatherdps %ymm11,(%rax,%ymm6,4),%ymm3
- .byte 196,98,125,88,29,244,83,2,0 // vpbroadcastd 0x253f4(%rip),%ymm11 # 2b934 <_sk_overlay_sse2_8bit+0x44f>
+ .byte 196,98,125,88,29,240,83,2,0 // vpbroadcastd 0x253f0(%rip),%ymm11 # 2b8ec <_sk_overlay_sse2_8bit+0x44f>
.byte 196,193,117,254,203 // vpaddd %ymm11,%ymm1,%ymm1
.byte 197,205,118,246 // vpcmpeqd %ymm6,%ymm6,%ymm6
.byte 196,226,77,146,36,136 // vgatherdps %ymm6,(%rax,%ymm1,4),%ymm4
- .byte 196,98,125,24,45,68,85,2,0 // vbroadcastss 0x25544(%rip),%ymm13 # 2ba9c <_sk_overlay_sse2_8bit+0x5b7>
+ .byte 196,98,125,24,45,64,85,2,0 // vbroadcastss 0x25540(%rip),%ymm13 # 2ba54 <_sk_overlay_sse2_8bit+0x5b7>
.byte 196,193,124,88,245 // vaddps %ymm13,%ymm0,%ymm6
.byte 197,254,91,246 // vcvttps2dq %ymm6,%ymm6
.byte 196,226,77,64,205 // vpmulld %ymm5,%ymm6,%ymm1
@@ -15953,22 +15938,22 @@ _sk_clut_4D_hsw:
.byte 197,252,17,172,36,64,3,0,0 // vmovups %ymm5,0x340(%rsp)
.byte 197,252,17,164,36,32,3,0,0 // vmovups %ymm4,0x320(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,20 // mov 0x14(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 196,193,121,110,226 // vmovd %r10d,%xmm4
+ .byte 68,139,64,20 // mov 0x14(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 196,193,121,110,225 // vmovd %r9d,%xmm4
.byte 196,226,125,88,228 // vpbroadcastd %xmm4,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
.byte 197,220,89,219 // vmulps %ymm3,%ymm4,%ymm3
.byte 197,252,17,156,36,160,0,0,0 // vmovups %ymm3,0xa0(%rsp)
.byte 197,254,91,243 // vcvttps2dq %ymm3,%ymm6
.byte 197,254,127,180,36,128,0,0,0 // vmovdqu %ymm6,0x80(%rsp)
- .byte 196,193,121,110,225 // vmovd %r9d,%xmm4
- .byte 196,193,121,110,217 // vmovd %r9d,%xmm3
+ .byte 196,193,121,110,224 // vmovd %r8d,%xmm4
+ .byte 196,193,121,110,216 // vmovd %r8d,%xmm3
.byte 196,226,125,88,219 // vpbroadcastd %xmm3,%ymm3
.byte 197,254,127,92,36,192 // vmovdqu %ymm3,-0x40(%rsp)
- .byte 68,139,72,16 // mov 0x10(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 196,193,121,110,234 // vmovd %r10d,%xmm5
+ .byte 68,139,64,16 // mov 0x10(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 196,193,121,110,233 // vmovd %r9d,%xmm5
.byte 196,226,125,88,237 // vpbroadcastd %xmm5,%ymm5
.byte 197,252,91,237 // vcvtdq2ps %ymm5,%ymm5
.byte 197,212,89,210 // vmulps %ymm2,%ymm5,%ymm2
@@ -15979,21 +15964,21 @@ _sk_clut_4D_hsw:
.byte 197,254,127,84,36,224 // vmovdqu %ymm2,-0x20(%rsp)
.byte 197,237,254,222 // vpaddd %ymm6,%ymm2,%ymm3
.byte 197,254,127,28,36 // vmovdqu %ymm3,(%rsp)
- .byte 196,193,121,110,233 // vmovd %r9d,%xmm5
+ .byte 196,193,121,110,232 // vmovd %r8d,%xmm5
.byte 196,226,85,64,236 // vpmulld %ymm4,%ymm5,%ymm5
.byte 196,226,125,88,253 // vpbroadcastd %xmm5,%ymm7
.byte 197,254,127,124,36,32 // vmovdqu %ymm7,0x20(%rsp)
- .byte 68,139,72,12 // mov 0xc(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 196,193,121,110,242 // vmovd %r10d,%xmm6
+ .byte 68,139,64,12 // mov 0xc(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 196,193,121,110,241 // vmovd %r9d,%xmm6
.byte 196,226,125,88,246 // vpbroadcastd %xmm6,%ymm6
.byte 197,252,91,246 // vcvtdq2ps %ymm6,%ymm6
.byte 197,204,89,225 // vmulps %ymm1,%ymm6,%ymm4
- .byte 196,193,121,110,201 // vmovd %r9d,%xmm1
+ .byte 196,193,121,110,200 // vmovd %r8d,%xmm1
.byte 196,226,117,64,205 // vpmulld %ymm5,%ymm1,%ymm1
- .byte 68,139,72,8 // mov 0x8(%rax),%r9d
- .byte 65,255,201 // dec %r9d
- .byte 196,193,121,110,233 // vmovd %r9d,%xmm5
+ .byte 68,139,64,8 // mov 0x8(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 196,193,121,110,232 // vmovd %r8d,%xmm5
.byte 196,226,125,88,237 // vpbroadcastd %xmm5,%ymm5
.byte 197,252,91,237 // vcvtdq2ps %ymm5,%ymm5
.byte 197,212,89,232 // vmulps %ymm0,%ymm5,%ymm5
@@ -16008,19 +15993,19 @@ _sk_clut_4D_hsw:
.byte 197,126,91,245 // vcvttps2dq %ymm5,%ymm14
.byte 196,98,13,64,233 // vpmulld %ymm1,%ymm14,%ymm13
.byte 197,149,254,198 // vpaddd %ymm6,%ymm13,%ymm0
- .byte 196,98,125,88,21,218,80,2,0 // vpbroadcastd 0x250da(%rip),%ymm10 # 2baa0 <_sk_overlay_sse2_8bit+0x5bb>
+ .byte 196,98,125,88,21,214,80,2,0 // vpbroadcastd 0x250d6(%rip),%ymm10 # 2ba58 <_sk_overlay_sse2_8bit+0x5bb>
.byte 196,194,125,64,194 // vpmulld %ymm10,%ymm0,%ymm0
.byte 196,65,61,118,192 // vpcmpeqd %ymm8,%ymm8,%ymm8
.byte 196,98,61,146,60,128 // vgatherdps %ymm8,(%rax,%ymm0,4),%ymm15
- .byte 196,98,125,88,29,77,79,2,0 // vpbroadcastd 0x24f4d(%rip),%ymm11 # 2b92c <_sk_overlay_sse2_8bit+0x447>
+ .byte 196,98,125,88,29,73,79,2,0 // vpbroadcastd 0x24f49(%rip),%ymm11 # 2b8e4 <_sk_overlay_sse2_8bit+0x447>
.byte 196,65,125,254,195 // vpaddd %ymm11,%ymm0,%ymm8
.byte 196,65,53,118,201 // vpcmpeqd %ymm9,%ymm9,%ymm9
.byte 196,162,53,146,20,128 // vgatherdps %ymm9,(%rax,%ymm8,4),%ymm2
- .byte 196,98,125,88,37,60,79,2,0 // vpbroadcastd 0x24f3c(%rip),%ymm12 # 2b934 <_sk_overlay_sse2_8bit+0x44f>
+ .byte 196,98,125,88,37,56,79,2,0 // vpbroadcastd 0x24f38(%rip),%ymm12 # 2b8ec <_sk_overlay_sse2_8bit+0x44f>
.byte 196,193,125,254,196 // vpaddd %ymm12,%ymm0,%ymm0
.byte 196,65,61,118,192 // vpcmpeqd %ymm8,%ymm8,%ymm8
.byte 196,226,61,146,60,128 // vgatherdps %ymm8,(%rax,%ymm0,4),%ymm7
- .byte 196,98,125,24,13,139,80,2,0 // vbroadcastss 0x2508b(%rip),%ymm9 # 2ba9c <_sk_overlay_sse2_8bit+0x5b7>
+ .byte 196,98,125,24,13,135,80,2,0 // vbroadcastss 0x25087(%rip),%ymm9 # 2ba54 <_sk_overlay_sse2_8bit+0x5b7>
.byte 196,65,84,88,193 // vaddps %ymm9,%ymm5,%ymm8
.byte 196,65,126,91,192 // vcvttps2dq %ymm8,%ymm8
.byte 196,226,61,64,193 // vpmulld %ymm1,%ymm8,%ymm0
@@ -16345,7 +16330,7 @@ _sk_clut_4D_hsw:
.byte 197,196,92,214 // vsubps %ymm6,%ymm7,%ymm2
.byte 196,226,61,168,214 // vfmadd213ps %ymm6,%ymm8,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,57,72,2,0 // vbroadcastss 0x24839(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,53,72,2,0 // vbroadcastss 0x24835(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,16,164,36,32,3,0,0 // vmovups 0x320(%rsp),%ymm4
.byte 197,252,16,172,36,64,3,0,0 // vmovups 0x340(%rsp),%ymm5
.byte 197,252,16,180,36,96,3,0,0 // vmovups 0x360(%rsp),%ymm6
@@ -16364,53 +16349,44 @@ _sk_start_pipeline_avx:
.byte 65,85 // push %r13
.byte 65,84 // push %r12
.byte 83 // push %rbx
- .byte 72,131,236,40 // sub $0x28,%rsp
- .byte 72,137,211 // mov %rdx,%rbx
- .byte 73,137,246 // mov %rsi,%r14
+ .byte 72,131,236,24 // sub $0x18,%rsp
+ .byte 73,137,215 // mov %rdx,%r15
+ .byte 72,137,243 // mov %rsi,%rbx
.byte 72,137,125,208 // mov %rdi,-0x30(%rbp)
.byte 76,137,198 // mov %r8,%rsi
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 72,137,194 // mov %rax,%rdx
- .byte 72,137,77,176 // mov %rcx,-0x50(%rbp)
- .byte 73,57,206 // cmp %rcx,%r14
- .byte 115,117 // jae 71bd <_sk_start_pipeline_avx+0xa1>
+ .byte 73,137,197 // mov %rax,%r13
+ .byte 73,137,246 // mov %rsi,%r14
+ .byte 72,137,77,192 // mov %rcx,-0x40(%rbp)
+ .byte 72,57,203 // cmp %rcx,%rbx
+ .byte 115,83 // jae 715a <_sk_start_pipeline_avx+0x82>
.byte 72,139,69,208 // mov -0x30(%rbp),%rax
.byte 72,141,64,8 // lea 0x8(%rax),%rax
- .byte 72,137,69,184 // mov %rax,-0x48(%rbp)
- .byte 76,137,77,192 // mov %r9,-0x40(%rbp)
- .byte 72,137,85,200 // mov %rdx,-0x38(%rbp)
- .byte 73,137,221 // mov %rbx,%r13
- .byte 73,137,244 // mov %rsi,%r12
+ .byte 72,137,69,200 // mov %rax,-0x38(%rbp)
.byte 72,139,85,208 // mov -0x30(%rbp),%rdx
- .byte 72,57,93,184 // cmp %rbx,-0x48(%rbp)
- .byte 119,45 // ja 7199 <_sk_start_pipeline_avx+0x7d>
- .byte 76,139,125,208 // mov -0x30(%rbp),%r15
- .byte 69,49,192 // xor %r8d,%r8d
- .byte 76,137,207 // mov %r9,%rdi
- .byte 76,137,230 // mov %r12,%rsi
- .byte 76,137,250 // mov %r15,%rdx
- .byte 76,137,241 // mov %r14,%rcx
- .byte 255,85,200 // callq *-0x38(%rbp)
- .byte 76,137,235 // mov %r13,%rbx
- .byte 76,139,77,192 // mov -0x40(%rbp),%r9
- .byte 73,141,87,8 // lea 0x8(%r15),%rdx
- .byte 73,131,199,16 // add $0x10,%r15
- .byte 73,57,223 // cmp %rbx,%r15
- .byte 73,137,215 // mov %rdx,%r15
- .byte 118,215 // jbe 7170 <_sk_start_pipeline_avx+0x54>
- .byte 73,137,216 // mov %rbx,%r8
- .byte 73,41,208 // sub %rdx,%r8
- .byte 116,19 // je 71b4 <_sk_start_pipeline_avx+0x98>
- .byte 76,137,207 // mov %r9,%rdi
- .byte 76,137,230 // mov %r12,%rsi
- .byte 76,137,241 // mov %r14,%rcx
- .byte 255,85,200 // callq *-0x38(%rbp)
- .byte 76,137,235 // mov %r13,%rbx
- .byte 76,139,77,192 // mov -0x40(%rbp),%r9
- .byte 73,255,198 // inc %r14
- .byte 76,59,117,176 // cmp -0x50(%rbp),%r14
- .byte 117,165 // jne 7162 <_sk_start_pipeline_avx+0x46>
- .byte 72,131,196,40 // add $0x28,%rsp
+ .byte 76,57,125,200 // cmp %r15,-0x38(%rbp)
+ .byte 119,35 // ja 7140 <_sk_start_pipeline_avx+0x68>
+ .byte 76,139,101,208 // mov -0x30(%rbp),%r12
+ .byte 49,255 // xor %edi,%edi
+ .byte 76,137,246 // mov %r14,%rsi
+ .byte 76,137,226 // mov %r12,%rdx
+ .byte 72,137,217 // mov %rbx,%rcx
+ .byte 65,255,213 // callq *%r13
+ .byte 73,141,84,36,8 // lea 0x8(%r12),%rdx
+ .byte 73,131,196,16 // add $0x10,%r12
+ .byte 77,57,252 // cmp %r15,%r12
+ .byte 73,137,212 // mov %rdx,%r12
+ .byte 118,225 // jbe 7121 <_sk_start_pipeline_avx+0x49>
+ .byte 76,137,255 // mov %r15,%rdi
+ .byte 72,41,215 // sub %rdx,%rdi
+ .byte 116,9 // je 7151 <_sk_start_pipeline_avx+0x79>
+ .byte 76,137,246 // mov %r14,%rsi
+ .byte 72,137,217 // mov %rbx,%rcx
+ .byte 65,255,213 // callq *%r13
+ .byte 72,255,195 // inc %rbx
+ .byte 72,59,93,192 // cmp -0x40(%rbp),%rbx
+ .byte 117,185 // jne 7113 <_sk_start_pipeline_avx+0x3b>
+ .byte 72,131,196,24 // add $0x18,%rsp
.byte 91 // pop %rbx
.byte 65,92 // pop %r12
.byte 65,93 // pop %r13
@@ -16434,16 +16410,16 @@ _sk_seed_shader_avx:
.byte 197,249,112,192,0 // vpshufd $0x0,%xmm0,%xmm0
.byte 196,227,125,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,56,71,2,0 // vbroadcastss 0x24738(%rip),%ymm1 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,226,125,24,13,83,71,2,0 // vbroadcastss 0x24753(%rip),%ymm1 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,252,88,193 // vaddps %ymm1,%ymm0,%ymm0
- .byte 197,252,88,7 // vaddps (%rdi),%ymm0,%ymm0
+ .byte 197,252,88,5,43,76,2,0 // vaddps 0x24c2b(%rip),%ymm0,%ymm0 # 2bdc0 <_sk_overlay_sse2_8bit+0x923>
.byte 197,249,110,209 // vmovd %ecx,%xmm2
.byte 197,249,112,210,0 // vpshufd $0x0,%xmm2,%xmm2
.byte 196,227,109,24,210,1 // vinsertf128 $0x1,%xmm2,%ymm2,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
.byte 197,236,88,201 // vaddps %ymm1,%ymm2,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,21,18,71,2,0 // vbroadcastss 0x24712(%rip),%ymm2 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,21,41,71,2,0 // vbroadcastss 0x24729(%rip),%ymm2 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,228,87,219 // vxorps %ymm3,%ymm3,%ymm3
.byte 197,220,87,228 // vxorps %ymm4,%ymm4,%ymm4
.byte 197,212,87,237 // vxorps %ymm5,%ymm5,%ymm5
@@ -16456,18 +16432,16 @@ HIDDEN _sk_dither_avx
FUNCTION(_sk_dither_avx)
_sk_dither_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 197,124,16,71,32 // vmovups 0x20(%rdi),%ymm8
- .byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
- .byte 197,121,110,210 // vmovd %edx,%xmm10
- .byte 196,65,121,112,210,0 // vpshufd $0x0,%xmm10,%xmm10
- .byte 196,65,49,254,202 // vpaddd %xmm10,%xmm9,%xmm9
- .byte 196,65,57,254,194 // vpaddd %xmm10,%xmm8,%xmm8
- .byte 196,67,61,24,193,1 // vinsertf128 $0x1,%xmm9,%ymm8,%ymm8
+ .byte 197,121,110,194 // vmovd %edx,%xmm8
+ .byte 196,65,121,112,192,0 // vpshufd $0x0,%xmm8,%xmm8
+ .byte 197,57,254,13,31,81,2,0 // vpaddd 0x2511f(%rip),%xmm8,%xmm9 # 2c300 <_sk_overlay_sse2_8bit+0xe63>
+ .byte 197,57,254,5,39,81,2,0 // vpaddd 0x25127(%rip),%xmm8,%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe73>
+ .byte 196,67,53,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm9,%ymm8
.byte 197,121,110,201 // vmovd %ecx,%xmm9
.byte 196,65,121,112,201,0 // vpshufd $0x0,%xmm9,%xmm9
.byte 196,67,53,24,201,1 // vinsertf128 $0x1,%xmm9,%ymm9,%ymm9
.byte 196,65,52,87,208 // vxorps %ymm8,%ymm9,%ymm10
- .byte 196,98,125,24,29,187,70,2,0 // vbroadcastss 0x246bb(%rip),%ymm11 # 2b92c <_sk_overlay_sse2_8bit+0x447>
+ .byte 196,98,125,24,29,215,70,2,0 // vbroadcastss 0x246d7(%rip),%ymm11 # 2b8e4 <_sk_overlay_sse2_8bit+0x447>
.byte 196,65,44,84,203 // vandps %ymm11,%ymm10,%ymm9
.byte 196,193,25,114,241,5 // vpslld $0x5,%xmm9,%xmm12
.byte 196,67,125,25,201,1 // vextractf128 $0x1,%ymm9,%xmm9
@@ -16478,8 +16452,8 @@ _sk_dither_avx:
.byte 196,67,125,25,219,1 // vextractf128 $0x1,%ymm11,%xmm11
.byte 196,193,33,114,243,4 // vpslld $0x4,%xmm11,%xmm11
.byte 196,67,29,24,219,1 // vinsertf128 $0x1,%xmm11,%ymm12,%ymm11
- .byte 196,98,125,24,37,124,70,2,0 // vbroadcastss 0x2467c(%rip),%ymm12 # 2b930 <_sk_overlay_sse2_8bit+0x44b>
- .byte 196,98,125,24,45,119,70,2,0 // vbroadcastss 0x24677(%rip),%ymm13 # 2b934 <_sk_overlay_sse2_8bit+0x44f>
+ .byte 196,98,125,24,37,152,70,2,0 // vbroadcastss 0x24698(%rip),%ymm12 # 2b8e8 <_sk_overlay_sse2_8bit+0x44b>
+ .byte 196,98,125,24,45,147,70,2,0 // vbroadcastss 0x24693(%rip),%ymm13 # 2b8ec <_sk_overlay_sse2_8bit+0x44f>
.byte 196,65,44,84,245 // vandps %ymm13,%ymm10,%ymm14
.byte 196,193,1,114,246,2 // vpslld $0x2,%xmm14,%xmm15
.byte 196,67,125,25,246,1 // vextractf128 $0x1,%ymm14,%xmm14
@@ -16506,12 +16480,12 @@ _sk_dither_avx:
.byte 196,65,60,86,193 // vorps %ymm9,%ymm8,%ymm8
.byte 196,65,60,86,194 // vorps %ymm10,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
- .byte 196,98,125,24,13,226,69,2,0 // vbroadcastss 0x245e2(%rip),%ymm9 # 2b938 <_sk_overlay_sse2_8bit+0x453>
+ .byte 196,98,125,24,13,254,69,2,0 // vbroadcastss 0x245fe(%rip),%ymm9 # 2b8f0 <_sk_overlay_sse2_8bit+0x453>
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
- .byte 196,98,125,24,13,216,69,2,0 // vbroadcastss 0x245d8(%rip),%ymm9 # 2b93c <_sk_overlay_sse2_8bit+0x457>
+ .byte 196,98,125,24,13,244,69,2,0 // vbroadcastss 0x245f4(%rip),%ymm9 # 2b8f4 <_sk_overlay_sse2_8bit+0x457>
.byte 196,65,60,88,193 // vaddps %ymm9,%ymm8,%ymm8
.byte 196,98,125,24,8 // vbroadcastss (%rax),%ymm9
- .byte 196,65,52,89,192 // vmulps %ymm8,%ymm9,%ymm8
+ .byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
.byte 197,188,88,192 // vaddps %ymm0,%ymm8,%ymm0
.byte 197,188,88,201 // vaddps %ymm1,%ymm8,%ymm1
.byte 197,188,88,210 // vaddps %ymm2,%ymm8,%ymm2
@@ -16542,7 +16516,7 @@ HIDDEN _sk_black_color_avx
FUNCTION(_sk_black_color_avx)
_sk_black_color_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,96,69,2,0 // vbroadcastss 0x24560(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,124,69,2,0 // vbroadcastss 0x2457c(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,87,192 // vxorps %ymm0,%ymm0,%ymm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 197,236,87,210 // vxorps %ymm2,%ymm2,%ymm2
@@ -16553,7 +16527,7 @@ HIDDEN _sk_white_color_avx
FUNCTION(_sk_white_color_avx)
_sk_white_color_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,71,69,2,0 // vbroadcastss 0x24547(%rip),%ymm0 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,5,99,69,2,0 // vbroadcastss 0x24563(%rip),%ymm0 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,40,200 // vmovaps %ymm0,%ymm1
.byte 197,252,40,208 // vmovaps %ymm0,%ymm2
.byte 197,252,40,216 // vmovaps %ymm0,%ymm3
@@ -16599,7 +16573,7 @@ HIDDEN _sk_srcatop_avx
FUNCTION(_sk_srcatop_avx)
_sk_srcatop_avx:
.byte 197,252,89,199 // vmulps %ymm7,%ymm0,%ymm0
- .byte 196,98,125,24,5,230,68,2,0 // vbroadcastss 0x244e6(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,2,69,2,0 // vbroadcastss 0x24502(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 197,60,89,204 // vmulps %ymm4,%ymm8,%ymm9
.byte 197,180,88,192 // vaddps %ymm0,%ymm9,%ymm0
@@ -16620,7 +16594,7 @@ HIDDEN _sk_dstatop_avx
FUNCTION(_sk_dstatop_avx)
_sk_dstatop_avx:
.byte 197,100,89,196 // vmulps %ymm4,%ymm3,%ymm8
- .byte 196,98,125,24,13,164,68,2,0 // vbroadcastss 0x244a4(%rip),%ymm9 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,13,192,68,2,0 // vbroadcastss 0x244c0(%rip),%ymm9 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,52,92,207 // vsubps %ymm7,%ymm9,%ymm9
.byte 197,180,89,192 // vmulps %ymm0,%ymm9,%ymm0
.byte 197,188,88,192 // vaddps %ymm0,%ymm8,%ymm0
@@ -16662,7 +16636,7 @@ HIDDEN _sk_srcout_avx
.globl _sk_srcout_avx
FUNCTION(_sk_srcout_avx)
_sk_srcout_avx:
- .byte 196,98,125,24,5,63,68,2,0 // vbroadcastss 0x2443f(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,91,68,2,0 // vbroadcastss 0x2445b(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,199 // vsubps %ymm7,%ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
@@ -16675,7 +16649,7 @@ HIDDEN _sk_dstout_avx
.globl _sk_dstout_avx
FUNCTION(_sk_dstout_avx)
_sk_dstout_avx:
- .byte 196,226,125,24,5,30,68,2,0 // vbroadcastss 0x2441e(%rip),%ymm0 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,5,58,68,2,0 // vbroadcastss 0x2443a(%rip),%ymm0 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,92,219 // vsubps %ymm3,%ymm0,%ymm3
.byte 197,228,89,196 // vmulps %ymm4,%ymm3,%ymm0
.byte 197,228,89,205 // vmulps %ymm5,%ymm3,%ymm1
@@ -16688,7 +16662,7 @@ HIDDEN _sk_srcover_avx
.globl _sk_srcover_avx
FUNCTION(_sk_srcover_avx)
_sk_srcover_avx:
- .byte 196,98,125,24,5,253,67,2,0 // vbroadcastss 0x243fd(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,25,68,2,0 // vbroadcastss 0x24419(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 197,60,89,204 // vmulps %ymm4,%ymm8,%ymm9
.byte 197,180,88,192 // vaddps %ymm0,%ymm9,%ymm0
@@ -16705,7 +16679,7 @@ HIDDEN _sk_dstover_avx
.globl _sk_dstover_avx
FUNCTION(_sk_dstover_avx)
_sk_dstover_avx:
- .byte 196,98,125,24,5,204,67,2,0 // vbroadcastss 0x243cc(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,232,67,2,0 // vbroadcastss 0x243e8(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,199 // vsubps %ymm7,%ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 197,252,88,196 // vaddps %ymm4,%ymm0,%ymm0
@@ -16733,7 +16707,7 @@ HIDDEN _sk_multiply_avx
.globl _sk_multiply_avx
FUNCTION(_sk_multiply_avx)
_sk_multiply_avx:
- .byte 196,98,125,24,5,135,67,2,0 // vbroadcastss 0x24387(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,163,67,2,0 // vbroadcastss 0x243a3(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,207 // vsubps %ymm7,%ymm8,%ymm9
.byte 197,52,89,208 // vmulps %ymm0,%ymm9,%ymm10
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
@@ -16764,7 +16738,7 @@ HIDDEN _sk_plus__avx
FUNCTION(_sk_plus__avx)
_sk_plus__avx:
.byte 197,252,88,196 // vaddps %ymm4,%ymm0,%ymm0
- .byte 196,98,125,24,5,22,67,2,0 // vbroadcastss 0x24316(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,50,67,2,0 // vbroadcastss 0x24332(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,124,93,192 // vminps %ymm8,%ymm0,%ymm0
.byte 197,244,88,205 // vaddps %ymm5,%ymm1,%ymm1
.byte 196,193,116,93,200 // vminps %ymm8,%ymm1,%ymm1
@@ -16798,7 +16772,7 @@ HIDDEN _sk_xor__avx
.globl _sk_xor__avx
FUNCTION(_sk_xor__avx)
_sk_xor__avx:
- .byte 196,98,125,24,5,181,66,2,0 // vbroadcastss 0x242b5(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,209,66,2,0 // vbroadcastss 0x242d1(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,207 // vsubps %ymm7,%ymm8,%ymm9
.byte 197,180,89,192 // vmulps %ymm0,%ymm9,%ymm0
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
@@ -16835,7 +16809,7 @@ _sk_darken_avx:
.byte 197,100,89,206 // vmulps %ymm6,%ymm3,%ymm9
.byte 196,193,108,95,209 // vmaxps %ymm9,%ymm2,%ymm2
.byte 197,188,92,210 // vsubps %ymm2,%ymm8,%ymm2
- .byte 196,98,125,24,5,49,66,2,0 // vbroadcastss 0x24231(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,77,66,2,0 // vbroadcastss 0x2424d(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 197,60,89,199 // vmulps %ymm7,%ymm8,%ymm8
.byte 197,188,88,219 // vaddps %ymm3,%ymm8,%ymm3
@@ -16861,7 +16835,7 @@ _sk_lighten_avx:
.byte 197,100,89,206 // vmulps %ymm6,%ymm3,%ymm9
.byte 196,193,108,93,209 // vminps %ymm9,%ymm2,%ymm2
.byte 197,188,92,210 // vsubps %ymm2,%ymm8,%ymm2
- .byte 196,98,125,24,5,217,65,2,0 // vbroadcastss 0x241d9(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,245,65,2,0 // vbroadcastss 0x241f5(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 197,60,89,199 // vmulps %ymm7,%ymm8,%ymm8
.byte 197,188,88,219 // vaddps %ymm3,%ymm8,%ymm3
@@ -16890,7 +16864,7 @@ _sk_difference_avx:
.byte 196,193,108,93,209 // vminps %ymm9,%ymm2,%ymm2
.byte 197,236,88,210 // vaddps %ymm2,%ymm2,%ymm2
.byte 197,188,92,210 // vsubps %ymm2,%ymm8,%ymm2
- .byte 196,98,125,24,5,117,65,2,0 // vbroadcastss 0x24175(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,145,65,2,0 // vbroadcastss 0x24191(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 197,60,89,199 // vmulps %ymm7,%ymm8,%ymm8
.byte 197,188,88,219 // vaddps %ymm3,%ymm8,%ymm3
@@ -16913,7 +16887,7 @@ _sk_exclusion_avx:
.byte 197,236,89,214 // vmulps %ymm6,%ymm2,%ymm2
.byte 197,236,88,210 // vaddps %ymm2,%ymm2,%ymm2
.byte 197,188,92,210 // vsubps %ymm2,%ymm8,%ymm2
- .byte 196,98,125,24,5,44,65,2,0 // vbroadcastss 0x2412c(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,72,65,2,0 // vbroadcastss 0x24148(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
.byte 197,60,89,199 // vmulps %ymm7,%ymm8,%ymm8
.byte 197,188,88,219 // vaddps %ymm3,%ymm8,%ymm3
@@ -16924,7 +16898,7 @@ HIDDEN _sk_colorburn_avx
.globl _sk_colorburn_avx
FUNCTION(_sk_colorburn_avx)
_sk_colorburn_avx:
- .byte 196,98,125,24,5,19,65,2,0 // vbroadcastss 0x24113(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,47,65,2,0 // vbroadcastss 0x2412f(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,207 // vsubps %ymm7,%ymm8,%ymm9
.byte 197,52,89,216 // vmulps %ymm0,%ymm9,%ymm11
.byte 196,65,44,87,210 // vxorps %ymm10,%ymm10,%ymm10
@@ -16986,7 +16960,7 @@ HIDDEN _sk_colordodge_avx
FUNCTION(_sk_colordodge_avx)
_sk_colordodge_avx:
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
- .byte 196,98,125,24,13,23,64,2,0 // vbroadcastss 0x24017(%rip),%ymm9 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,13,51,64,2,0 // vbroadcastss 0x24033(%rip),%ymm9 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,52,92,215 // vsubps %ymm7,%ymm9,%ymm10
.byte 197,44,89,216 // vmulps %ymm0,%ymm10,%ymm11
.byte 197,52,92,203 // vsubps %ymm3,%ymm9,%ymm9
@@ -17043,7 +17017,7 @@ HIDDEN _sk_hardlight_avx
.globl _sk_hardlight_avx
FUNCTION(_sk_hardlight_avx)
_sk_hardlight_avx:
- .byte 196,98,125,24,5,34,63,2,0 // vbroadcastss 0x23f22(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,62,63,2,0 // vbroadcastss 0x23f3e(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,215 // vsubps %ymm7,%ymm8,%ymm10
.byte 197,44,89,200 // vmulps %ymm0,%ymm10,%ymm9
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
@@ -17098,7 +17072,7 @@ HIDDEN _sk_overlay_avx
.globl _sk_overlay_avx
FUNCTION(_sk_overlay_avx)
_sk_overlay_avx:
- .byte 196,98,125,24,5,71,62,2,0 // vbroadcastss 0x23e47(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,99,62,2,0 // vbroadcastss 0x23e63(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,215 // vsubps %ymm7,%ymm8,%ymm10
.byte 197,44,89,200 // vmulps %ymm0,%ymm10,%ymm9
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
@@ -17164,10 +17138,10 @@ _sk_softlight_avx:
.byte 196,65,60,88,192 // vaddps %ymm8,%ymm8,%ymm8
.byte 196,65,60,89,216 // vmulps %ymm8,%ymm8,%ymm11
.byte 196,65,60,88,195 // vaddps %ymm11,%ymm8,%ymm8
- .byte 196,98,125,24,29,78,61,2,0 // vbroadcastss 0x23d4e(%rip),%ymm11 # 2b940 <_sk_overlay_sse2_8bit+0x45b>
+ .byte 196,98,125,24,29,106,61,2,0 // vbroadcastss 0x23d6a(%rip),%ymm11 # 2b8f8 <_sk_overlay_sse2_8bit+0x45b>
.byte 196,65,28,88,235 // vaddps %ymm11,%ymm12,%ymm13
.byte 196,65,20,89,192 // vmulps %ymm8,%ymm13,%ymm8
- .byte 196,98,125,24,45,63,61,2,0 // vbroadcastss 0x23d3f(%rip),%ymm13 # 2b944 <_sk_overlay_sse2_8bit+0x45f>
+ .byte 196,98,125,24,45,91,61,2,0 // vbroadcastss 0x23d5b(%rip),%ymm13 # 2b8fc <_sk_overlay_sse2_8bit+0x45f>
.byte 196,65,28,89,245 // vmulps %ymm13,%ymm12,%ymm14
.byte 196,65,12,88,192 // vaddps %ymm8,%ymm14,%ymm8
.byte 196,65,124,82,244 // vrsqrtps %ymm12,%ymm14
@@ -17178,7 +17152,7 @@ _sk_softlight_avx:
.byte 197,4,194,255,2 // vcmpleps %ymm7,%ymm15,%ymm15
.byte 196,67,13,74,240,240 // vblendvps %ymm15,%ymm8,%ymm14,%ymm14
.byte 197,116,88,249 // vaddps %ymm1,%ymm1,%ymm15
- .byte 196,98,125,24,5,233,60,2,0 // vbroadcastss 0x23ce9(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,5,61,2,0 // vbroadcastss 0x23d05(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,65,60,92,228 // vsubps %ymm12,%ymm8,%ymm12
.byte 197,132,92,195 // vsubps %ymm3,%ymm15,%ymm0
.byte 196,65,124,89,228 // vmulps %ymm12,%ymm0,%ymm12
@@ -17305,12 +17279,12 @@ _sk_hue_avx:
.byte 196,65,28,89,219 // vmulps %ymm11,%ymm12,%ymm11
.byte 196,65,36,94,222 // vdivps %ymm14,%ymm11,%ymm11
.byte 196,67,37,74,224,240 // vblendvps %ymm15,%ymm8,%ymm11,%ymm12
- .byte 196,98,125,24,53,204,58,2,0 // vbroadcastss 0x23acc(%rip),%ymm14 # 2b948 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,53,232,58,2,0 // vbroadcastss 0x23ae8(%rip),%ymm14 # 2b900 <_sk_overlay_sse2_8bit+0x463>
.byte 196,65,92,89,222 // vmulps %ymm14,%ymm4,%ymm11
- .byte 196,98,125,24,61,194,58,2,0 // vbroadcastss 0x23ac2(%rip),%ymm15 # 2b94c <_sk_overlay_sse2_8bit+0x467>
+ .byte 196,98,125,24,61,222,58,2,0 // vbroadcastss 0x23ade(%rip),%ymm15 # 2b904 <_sk_overlay_sse2_8bit+0x467>
.byte 196,65,84,89,239 // vmulps %ymm15,%ymm5,%ymm13
.byte 196,65,36,88,221 // vaddps %ymm13,%ymm11,%ymm11
- .byte 196,226,125,24,5,179,58,2,0 // vbroadcastss 0x23ab3(%rip),%ymm0 # 2b950 <_sk_overlay_sse2_8bit+0x46b>
+ .byte 196,226,125,24,5,207,58,2,0 // vbroadcastss 0x23acf(%rip),%ymm0 # 2b908 <_sk_overlay_sse2_8bit+0x46b>
.byte 197,76,89,232 // vmulps %ymm0,%ymm6,%ymm13
.byte 196,65,36,88,221 // vaddps %ymm13,%ymm11,%ymm11
.byte 196,65,52,89,238 // vmulps %ymm14,%ymm9,%ymm13
@@ -17371,7 +17345,7 @@ _sk_hue_avx:
.byte 196,65,36,95,208 // vmaxps %ymm8,%ymm11,%ymm10
.byte 196,195,109,74,209,240 // vblendvps %ymm15,%ymm9,%ymm2,%ymm2
.byte 196,193,108,95,208 // vmaxps %ymm8,%ymm2,%ymm2
- .byte 196,98,125,24,5,96,57,2,0 // vbroadcastss 0x23960(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,124,57,2,0 // vbroadcastss 0x2397c(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,207 // vsubps %ymm7,%ymm8,%ymm9
.byte 197,180,89,201 // vmulps %ymm1,%ymm9,%ymm1
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
@@ -17428,12 +17402,12 @@ _sk_saturation_avx:
.byte 196,65,28,89,219 // vmulps %ymm11,%ymm12,%ymm11
.byte 196,65,36,94,222 // vdivps %ymm14,%ymm11,%ymm11
.byte 196,67,37,74,224,240 // vblendvps %ymm15,%ymm8,%ymm11,%ymm12
- .byte 196,98,125,24,53,138,56,2,0 // vbroadcastss 0x2388a(%rip),%ymm14 # 2b948 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,53,166,56,2,0 // vbroadcastss 0x238a6(%rip),%ymm14 # 2b900 <_sk_overlay_sse2_8bit+0x463>
.byte 196,65,92,89,222 // vmulps %ymm14,%ymm4,%ymm11
- .byte 196,98,125,24,61,128,56,2,0 // vbroadcastss 0x23880(%rip),%ymm15 # 2b94c <_sk_overlay_sse2_8bit+0x467>
+ .byte 196,98,125,24,61,156,56,2,0 // vbroadcastss 0x2389c(%rip),%ymm15 # 2b904 <_sk_overlay_sse2_8bit+0x467>
.byte 196,65,84,89,239 // vmulps %ymm15,%ymm5,%ymm13
.byte 196,65,36,88,221 // vaddps %ymm13,%ymm11,%ymm11
- .byte 196,226,125,24,5,113,56,2,0 // vbroadcastss 0x23871(%rip),%ymm0 # 2b950 <_sk_overlay_sse2_8bit+0x46b>
+ .byte 196,226,125,24,5,141,56,2,0 // vbroadcastss 0x2388d(%rip),%ymm0 # 2b908 <_sk_overlay_sse2_8bit+0x46b>
.byte 197,76,89,232 // vmulps %ymm0,%ymm6,%ymm13
.byte 196,65,36,88,221 // vaddps %ymm13,%ymm11,%ymm11
.byte 196,65,52,89,238 // vmulps %ymm14,%ymm9,%ymm13
@@ -17494,7 +17468,7 @@ _sk_saturation_avx:
.byte 196,65,36,95,208 // vmaxps %ymm8,%ymm11,%ymm10
.byte 196,195,109,74,209,240 // vblendvps %ymm15,%ymm9,%ymm2,%ymm2
.byte 196,193,108,95,208 // vmaxps %ymm8,%ymm2,%ymm2
- .byte 196,98,125,24,5,30,55,2,0 // vbroadcastss 0x2371e(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,58,55,2,0 // vbroadcastss 0x2373a(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,207 // vsubps %ymm7,%ymm8,%ymm9
.byte 197,180,89,201 // vmulps %ymm1,%ymm9,%ymm1
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
@@ -17523,12 +17497,12 @@ _sk_color_avx:
.byte 197,252,17,68,36,168 // vmovups %ymm0,-0x58(%rsp)
.byte 197,124,89,199 // vmulps %ymm7,%ymm0,%ymm8
.byte 197,116,89,207 // vmulps %ymm7,%ymm1,%ymm9
- .byte 196,98,125,24,45,208,54,2,0 // vbroadcastss 0x236d0(%rip),%ymm13 # 2b948 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,45,236,54,2,0 // vbroadcastss 0x236ec(%rip),%ymm13 # 2b900 <_sk_overlay_sse2_8bit+0x463>
.byte 196,65,92,89,213 // vmulps %ymm13,%ymm4,%ymm10
- .byte 196,98,125,24,53,198,54,2,0 // vbroadcastss 0x236c6(%rip),%ymm14 # 2b94c <_sk_overlay_sse2_8bit+0x467>
+ .byte 196,98,125,24,53,226,54,2,0 // vbroadcastss 0x236e2(%rip),%ymm14 # 2b904 <_sk_overlay_sse2_8bit+0x467>
.byte 196,65,84,89,222 // vmulps %ymm14,%ymm5,%ymm11
.byte 196,65,44,88,211 // vaddps %ymm11,%ymm10,%ymm10
- .byte 196,98,125,24,61,183,54,2,0 // vbroadcastss 0x236b7(%rip),%ymm15 # 2b950 <_sk_overlay_sse2_8bit+0x46b>
+ .byte 196,98,125,24,61,211,54,2,0 // vbroadcastss 0x236d3(%rip),%ymm15 # 2b908 <_sk_overlay_sse2_8bit+0x46b>
.byte 196,65,76,89,223 // vmulps %ymm15,%ymm6,%ymm11
.byte 196,193,44,88,195 // vaddps %ymm11,%ymm10,%ymm0
.byte 196,65,60,89,221 // vmulps %ymm13,%ymm8,%ymm11
@@ -17591,7 +17565,7 @@ _sk_color_avx:
.byte 196,65,44,95,207 // vmaxps %ymm15,%ymm10,%ymm9
.byte 196,195,37,74,192,0 // vblendvps %ymm0,%ymm8,%ymm11,%ymm0
.byte 196,65,124,95,199 // vmaxps %ymm15,%ymm0,%ymm8
- .byte 196,226,125,24,5,82,53,2,0 // vbroadcastss 0x23552(%rip),%ymm0 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,5,110,53,2,0 // vbroadcastss 0x2356e(%rip),%ymm0 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,124,92,215 // vsubps %ymm7,%ymm0,%ymm10
.byte 197,172,89,84,36,168 // vmulps -0x58(%rsp),%ymm10,%ymm2
.byte 197,124,92,219 // vsubps %ymm3,%ymm0,%ymm11
@@ -17621,12 +17595,12 @@ _sk_luminosity_avx:
.byte 197,252,40,208 // vmovaps %ymm0,%ymm2
.byte 197,100,89,196 // vmulps %ymm4,%ymm3,%ymm8
.byte 197,100,89,205 // vmulps %ymm5,%ymm3,%ymm9
- .byte 196,98,125,24,45,0,53,2,0 // vbroadcastss 0x23500(%rip),%ymm13 # 2b948 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,45,28,53,2,0 // vbroadcastss 0x2351c(%rip),%ymm13 # 2b900 <_sk_overlay_sse2_8bit+0x463>
.byte 196,65,108,89,213 // vmulps %ymm13,%ymm2,%ymm10
- .byte 196,98,125,24,53,246,52,2,0 // vbroadcastss 0x234f6(%rip),%ymm14 # 2b94c <_sk_overlay_sse2_8bit+0x467>
+ .byte 196,98,125,24,53,18,53,2,0 // vbroadcastss 0x23512(%rip),%ymm14 # 2b904 <_sk_overlay_sse2_8bit+0x467>
.byte 196,65,116,89,222 // vmulps %ymm14,%ymm1,%ymm11
.byte 196,65,44,88,211 // vaddps %ymm11,%ymm10,%ymm10
- .byte 196,98,125,24,61,231,52,2,0 // vbroadcastss 0x234e7(%rip),%ymm15 # 2b950 <_sk_overlay_sse2_8bit+0x46b>
+ .byte 196,98,125,24,61,3,53,2,0 // vbroadcastss 0x23503(%rip),%ymm15 # 2b908 <_sk_overlay_sse2_8bit+0x46b>
.byte 196,65,28,89,223 // vmulps %ymm15,%ymm12,%ymm11
.byte 196,193,44,88,195 // vaddps %ymm11,%ymm10,%ymm0
.byte 196,65,60,89,221 // vmulps %ymm13,%ymm8,%ymm11
@@ -17689,7 +17663,7 @@ _sk_luminosity_avx:
.byte 196,65,44,95,207 // vmaxps %ymm15,%ymm10,%ymm9
.byte 196,195,37,74,192,0 // vblendvps %ymm0,%ymm8,%ymm11,%ymm0
.byte 196,65,124,95,199 // vmaxps %ymm15,%ymm0,%ymm8
- .byte 196,226,125,24,5,130,51,2,0 // vbroadcastss 0x23382(%rip),%ymm0 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,5,158,51,2,0 // vbroadcastss 0x2339e(%rip),%ymm0 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,124,92,215 // vsubps %ymm7,%ymm0,%ymm10
.byte 197,172,89,210 // vmulps %ymm2,%ymm10,%ymm2
.byte 197,124,92,219 // vsubps %ymm3,%ymm0,%ymm11
@@ -17713,18 +17687,17 @@ HIDDEN _sk_srcover_rgba_8888_avx
.globl _sk_srcover_rgba_8888_avx
FUNCTION(_sk_srcover_rgba_8888_avx)
_sk_srcover_rgba_8888_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,43,1,0,0 // jne 873d <_sk_srcover_rgba_8888_avx+0x14c>
- .byte 196,65,125,16,4,153 // vmovupd (%r9,%rbx,4),%ymm8
- .byte 197,125,40,13,192,55,2,0 // vmovapd 0x237c0(%rip),%ymm9 # 2bde0 <_sk_overlay_sse2_8bit+0x8fb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,42,1,0,0 // jne 86d7 <_sk_srcover_rgba_8888_avx+0x14a>
+ .byte 196,1,125,16,4,152 // vmovupd (%r8,%r11,4),%ymm8
+ .byte 197,125,40,13,37,56,2,0 // vmovapd 0x23825(%rip),%ymm9 # 2bde0 <_sk_overlay_sse2_8bit+0x943>
.byte 196,193,61,84,225 // vandpd %ymm9,%ymm8,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
.byte 196,193,81,114,208,8 // vpsrld $0x8,%xmm8,%xmm5
@@ -17742,9 +17715,9 @@ _sk_srcover_rgba_8888_avx:
.byte 197,193,114,215,24 // vpsrld $0x18,%xmm7,%xmm7
.byte 196,227,61,24,255,1 // vinsertf128 $0x1,%xmm7,%ymm8,%ymm7
.byte 197,252,91,255 // vcvtdq2ps %ymm7,%ymm7
- .byte 196,98,125,24,5,167,50,2,0 // vbroadcastss 0x232a7(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,196,50,2,0 // vbroadcastss 0x232c4(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,195 // vsubps %ymm3,%ymm8,%ymm8
- .byte 196,98,125,24,13,198,50,2,0 // vbroadcastss 0x232c6(%rip),%ymm9 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 196,98,125,24,13,227,50,2,0 // vbroadcastss 0x232e3(%rip),%ymm9 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,193,124,89,193 // vmulps %ymm9,%ymm0,%ymm0
.byte 197,60,89,212 // vmulps %ymm4,%ymm8,%ymm10
.byte 196,193,124,88,194 // vaddps %ymm10,%ymm0,%ymm0
@@ -17776,95 +17749,98 @@ _sk_srcover_rgba_8888_avx:
.byte 196,67,37,24,210,1 // vinsertf128 $0x1,%xmm10,%ymm11,%ymm10
.byte 196,65,53,86,202 // vorpd %ymm10,%ymm9,%ymm9
.byte 196,65,61,86,193 // vorpd %ymm9,%ymm8,%ymm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,67 // jne 8775 <_sk_srcover_rgba_8888_avx+0x184>
- .byte 196,65,124,17,4,153 // vmovups %ymm8,(%r9,%rbx,4)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,66 // jne 870f <_sk_srcover_rgba_8888_avx+0x182>
+ .byte 196,1,124,17,4,152 // vmovups %ymm8,(%r8,%r11,4)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,194,254,255,255 // ja 8618 <_sk_srcover_rgba_8888_avx+0x27>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,3,1,0,0 // lea 0x103(%rip),%r11 # 8864 <_sk_srcover_rgba_8888_avx+0x273>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,122,16,4,153 // vmovss (%r9,%rbx,4),%xmm8
- .byte 233,163,254,255,255 // jmpq 8618 <_sk_srcover_rgba_8888_avx+0x27>
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,179 // ja 8738 <_sk_srcover_rgba_8888_avx+0x147>
- .byte 65,15,182,194 // movzbl %r10b,%eax
- .byte 76,141,21,240,0,0,0 // lea 0xf0(%rip),%r10 # 8880 <_sk_srcover_rgba_8888_avx+0x28f>
- .byte 73,99,4,130 // movslq (%r10,%rax,4),%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,195,254,255,255 // ja 85b3 <_sk_srcover_rgba_8888_avx+0x26>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,5,1,0,0 // lea 0x105(%rip),%r10 # 8800 <_sk_srcover_rgba_8888_avx+0x273>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
.byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 196,65,121,126,4,153 // vmovd %xmm8,(%r9,%rbx,4)
- .byte 235,151 // jmp 8738 <_sk_srcover_rgba_8888_avx+0x147>
- .byte 196,193,121,110,100,153,8 // vmovd 0x8(%r9,%rbx,4),%xmm4
+ .byte 196,1,122,16,4,152 // vmovss (%r8,%r11,4),%xmm8
+ .byte 233,164,254,255,255 // jmpq 85b3 <_sk_srcover_rgba_8888_avx+0x26>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,180 // ja 86d3 <_sk_srcover_rgba_8888_avx+0x146>
+ .byte 65,15,182,193 // movzbl %r9b,%eax
+ .byte 76,141,13,242,0,0,0 // lea 0xf2(%rip),%r9 # 881c <_sk_srcover_rgba_8888_avx+0x28f>
+ .byte 73,99,4,129 // movslq (%r9,%rax,4),%rax
+ .byte 76,1,200 // add %r9,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,1,121,126,4,152 // vmovd %xmm8,(%r8,%r11,4)
+ .byte 235,152 // jmp 86d3 <_sk_srcover_rgba_8888_avx+0x146>
+ .byte 196,129,121,110,100,152,8 // vmovd 0x8(%r8,%r11,4),%xmm4
.byte 197,249,112,228,68 // vpshufd $0x44,%xmm4,%xmm4
.byte 197,212,87,237 // vxorps %ymm5,%ymm5,%ymm5
.byte 196,99,85,12,196,4 // vblendps $0x4,%ymm4,%ymm5,%ymm8
- .byte 196,193,123,16,36,153 // vmovsd (%r9,%rbx,4),%xmm4
+ .byte 196,129,123,16,36,152 // vmovsd (%r8,%r11,4),%xmm4
.byte 196,99,61,13,196,1 // vblendpd $0x1,%ymm4,%ymm8,%ymm8
- .byte 233,80,254,255,255 // jmpq 8618 <_sk_srcover_rgba_8888_avx+0x27>
- .byte 196,193,121,110,100,153,24 // vmovd 0x18(%r9,%rbx,4),%xmm4
+ .byte 233,81,254,255,255 // jmpq 85b3 <_sk_srcover_rgba_8888_avx+0x26>
+ .byte 196,129,121,110,100,152,24 // vmovd 0x18(%r8,%r11,4),%xmm4
.byte 197,249,112,228,68 // vpshufd $0x44,%xmm4,%xmm4
.byte 196,227,125,24,228,1 // vinsertf128 $0x1,%xmm4,%ymm0,%ymm4
.byte 197,212,87,237 // vxorps %ymm5,%ymm5,%ymm5
.byte 196,99,85,12,196,64 // vblendps $0x40,%ymm4,%ymm5,%ymm8
.byte 196,99,125,25,196,1 // vextractf128 $0x1,%ymm8,%xmm4
- .byte 196,195,89,34,100,153,20,1 // vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,20,1 // vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
.byte 196,99,61,24,196,1 // vinsertf128 $0x1,%xmm4,%ymm8,%ymm8
.byte 196,99,125,25,196,1 // vextractf128 $0x1,%ymm8,%xmm4
- .byte 196,195,89,34,100,153,16,0 // vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,16,0 // vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
.byte 196,99,61,24,196,1 // vinsertf128 $0x1,%xmm4,%ymm8,%ymm8
- .byte 196,193,121,16,36,153 // vmovupd (%r9,%rbx,4),%xmm4
+ .byte 196,129,121,16,36,152 // vmovupd (%r8,%r11,4),%xmm4
.byte 196,67,93,13,192,12 // vblendpd $0xc,%ymm8,%ymm4,%ymm8
- .byte 233,251,253,255,255 // jmpq 8618 <_sk_srcover_rgba_8888_avx+0x27>
- .byte 196,67,121,22,68,153,8,2 // vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- .byte 196,65,121,214,4,153 // vmovq %xmm8,(%r9,%rbx,4)
- .byte 233,8,255,255,255 // jmpq 8738 <_sk_srcover_rgba_8888_avx+0x147>
+ .byte 233,252,253,255,255 // jmpq 85b3 <_sk_srcover_rgba_8888_avx+0x26>
+ .byte 196,3,121,22,68,152,8,2 // vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ .byte 196,1,121,214,4,152 // vmovq %xmm8,(%r8,%r11,4)
+ .byte 233,9,255,255,255 // jmpq 86d3 <_sk_srcover_rgba_8888_avx+0x146>
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,24,2 // vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,24,2 // vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,20,1 // vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,20,1 // vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
- .byte 196,65,122,17,76,153,16 // vmovss %xmm9,0x10(%r9,%rbx,4)
- .byte 196,65,121,17,4,153 // vmovupd %xmm8,(%r9,%rbx,4)
- .byte 233,212,254,255,255 // jmpq 8738 <_sk_srcover_rgba_8888_avx+0x147>
- .byte 6 // (bad)
+ .byte 196,1,122,17,76,152,16 // vmovss %xmm9,0x10(%r8,%r11,4)
+ .byte 196,1,121,17,4,152 // vmovupd %xmm8,(%r8,%r11,4)
+ .byte 233,213,254,255,255 // jmpq 86d3 <_sk_srcover_rgba_8888_avx+0x146>
+ .byte 102,144 // xchg %ax,%ax
+ .byte 4,255 // add $0xff,%al
+ .byte 255 // (bad)
+ .byte 255,81,255 // callq *-0x1(%rcx)
+ .byte 255 // (bad)
.byte 255 // (bad)
+ .byte 59,255 // cmp %edi,%edi
.byte 255 // (bad)
- .byte 255,83,255 // callq *-0x1(%rbx)
+ .byte 255,166,255,255,255,146 // jmpq *-0x6d000001(%rsi)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 61,255,255,255,168 // cmp $0xa8ffffff,%eax
.byte 255 // (bad)
+ .byte 126,255 // jle 8815 <_sk_srcover_rgba_8888_avx+0x288>
.byte 255 // (bad)
- .byte 255,148,255,255,255,128,255 // callq *-0x7f0001(%rdi,%rdi,8)
+ .byte 255,98,255 // jmpq *-0x1(%rdx)
.byte 255 // (bad)
- .byte 255,100,255,255 // jmpq *-0x1(%rdi,%rdi,8)
- .byte 255,25 // lcall *(%rcx)
+ .byte 255,23 // callq *(%rdi)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,165,255,255,255,157 // jmpq *-0x62000001(%rbp)
+ .byte 255,163,255,255,255,155 // jmpq *-0x64000001(%rbx)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,215 // callq *%rdi
.byte 255 // (bad)
- .byte 217,255 // fcos
.byte 255 // (bad)
- .byte 255,204 // dec %esp
+ .byte 255,202 // dec %edx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 190,255,255,255,176 // mov $0xb0ffffff,%esi
+ .byte 188,255,255,255,174 // mov $0xaeffffff,%esp
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -17885,7 +17861,7 @@ HIDDEN _sk_clamp_1_avx
.globl _sk_clamp_1_avx
FUNCTION(_sk_clamp_1_avx)
_sk_clamp_1_avx:
- .byte 196,98,125,24,5,102,48,2,0 // vbroadcastss 0x23066(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,130,48,2,0 // vbroadcastss 0x23082(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,124,93,192 // vminps %ymm8,%ymm0,%ymm0
.byte 196,193,116,93,200 // vminps %ymm8,%ymm1,%ymm1
.byte 196,193,108,93,208 // vminps %ymm8,%ymm2,%ymm2
@@ -17897,7 +17873,7 @@ HIDDEN _sk_clamp_a_avx
.globl _sk_clamp_a_avx
FUNCTION(_sk_clamp_a_avx)
_sk_clamp_a_avx:
- .byte 196,98,125,24,5,69,48,2,0 // vbroadcastss 0x23045(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,97,48,2,0 // vbroadcastss 0x23061(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,100,93,216 // vminps %ymm8,%ymm3,%ymm3
.byte 197,252,93,195 // vminps %ymm3,%ymm0,%ymm0
.byte 197,244,93,203 // vminps %ymm3,%ymm1,%ymm1
@@ -17909,7 +17885,7 @@ HIDDEN _sk_clamp_a_dst_avx
.globl _sk_clamp_a_dst_avx
FUNCTION(_sk_clamp_a_dst_avx)
_sk_clamp_a_dst_avx:
- .byte 196,98,125,24,5,39,48,2,0 // vbroadcastss 0x23027(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,67,48,2,0 // vbroadcastss 0x23043(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,68,93,248 // vminps %ymm8,%ymm7,%ymm7
.byte 197,220,93,231 // vminps %ymm7,%ymm4,%ymm4
.byte 197,212,93,239 // vminps %ymm7,%ymm5,%ymm5
@@ -17942,7 +17918,7 @@ HIDDEN _sk_invert_avx
.globl _sk_invert_avx
FUNCTION(_sk_invert_avx)
_sk_invert_avx:
- .byte 196,98,125,24,5,226,47,2,0 // vbroadcastss 0x22fe2(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,254,47,2,0 // vbroadcastss 0x22ffe(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,188,92,192 // vsubps %ymm0,%ymm8,%ymm0
.byte 197,188,92,201 // vsubps %ymm1,%ymm8,%ymm1
.byte 197,188,92,210 // vsubps %ymm2,%ymm8,%ymm2
@@ -17998,7 +17974,7 @@ FUNCTION(_sk_unpremul_avx)
_sk_unpremul_avx:
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 196,65,100,194,200,0 // vcmpeqps %ymm8,%ymm3,%ymm9
- .byte 196,98,125,24,21,114,47,2,0 // vbroadcastss 0x22f72(%rip),%ymm10 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,21,142,47,2,0 // vbroadcastss 0x22f8e(%rip),%ymm10 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,44,94,211 // vdivps %ymm3,%ymm10,%ymm10
.byte 196,67,45,74,192,144 // vblendvps %ymm9,%ymm8,%ymm10,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
@@ -18011,17 +17987,17 @@ HIDDEN _sk_from_srgb_avx
.globl _sk_from_srgb_avx
FUNCTION(_sk_from_srgb_avx)
_sk_from_srgb_avx:
- .byte 196,98,125,24,5,127,47,2,0 // vbroadcastss 0x22f7f(%rip),%ymm8 # 2b958 <_sk_overlay_sse2_8bit+0x473>
+ .byte 196,98,125,24,5,155,47,2,0 // vbroadcastss 0x22f9b(%rip),%ymm8 # 2b910 <_sk_overlay_sse2_8bit+0x473>
.byte 196,65,124,89,200 // vmulps %ymm8,%ymm0,%ymm9
.byte 197,124,89,208 // vmulps %ymm0,%ymm0,%ymm10
- .byte 196,98,125,24,29,93,47,2,0 // vbroadcastss 0x22f5d(%rip),%ymm11 # 2b948 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,29,121,47,2,0 // vbroadcastss 0x22f79(%rip),%ymm11 # 2b900 <_sk_overlay_sse2_8bit+0x463>
.byte 196,65,124,89,227 // vmulps %ymm11,%ymm0,%ymm12
- .byte 196,98,125,24,45,99,47,2,0 // vbroadcastss 0x22f63(%rip),%ymm13 # 2b95c <_sk_overlay_sse2_8bit+0x477>
+ .byte 196,98,125,24,45,127,47,2,0 // vbroadcastss 0x22f7f(%rip),%ymm13 # 2b914 <_sk_overlay_sse2_8bit+0x477>
.byte 196,65,28,88,229 // vaddps %ymm13,%ymm12,%ymm12
.byte 196,65,44,89,212 // vmulps %ymm12,%ymm10,%ymm10
- .byte 196,98,125,24,37,84,47,2,0 // vbroadcastss 0x22f54(%rip),%ymm12 # 2b960 <_sk_overlay_sse2_8bit+0x47b>
+ .byte 196,98,125,24,37,112,47,2,0 // vbroadcastss 0x22f70(%rip),%ymm12 # 2b918 <_sk_overlay_sse2_8bit+0x47b>
.byte 196,65,44,88,212 // vaddps %ymm12,%ymm10,%ymm10
- .byte 196,98,125,24,53,74,47,2,0 // vbroadcastss 0x22f4a(%rip),%ymm14 # 2b964 <_sk_overlay_sse2_8bit+0x47f>
+ .byte 196,98,125,24,53,102,47,2,0 // vbroadcastss 0x22f66(%rip),%ymm14 # 2b91c <_sk_overlay_sse2_8bit+0x47f>
.byte 196,193,124,194,198,1 // vcmpltps %ymm14,%ymm0,%ymm0
.byte 196,195,45,74,193,0 // vblendvps %ymm0,%ymm9,%ymm10,%ymm0
.byte 196,65,116,89,200 // vmulps %ymm8,%ymm1,%ymm9
@@ -18047,17 +18023,17 @@ HIDDEN _sk_from_srgb_dst_avx
.globl _sk_from_srgb_dst_avx
FUNCTION(_sk_from_srgb_dst_avx)
_sk_from_srgb_dst_avx:
- .byte 196,98,125,24,5,211,46,2,0 // vbroadcastss 0x22ed3(%rip),%ymm8 # 2b958 <_sk_overlay_sse2_8bit+0x473>
+ .byte 196,98,125,24,5,239,46,2,0 // vbroadcastss 0x22eef(%rip),%ymm8 # 2b910 <_sk_overlay_sse2_8bit+0x473>
.byte 196,65,92,89,200 // vmulps %ymm8,%ymm4,%ymm9
.byte 197,92,89,212 // vmulps %ymm4,%ymm4,%ymm10
- .byte 196,98,125,24,29,177,46,2,0 // vbroadcastss 0x22eb1(%rip),%ymm11 # 2b948 <_sk_overlay_sse2_8bit+0x463>
+ .byte 196,98,125,24,29,205,46,2,0 // vbroadcastss 0x22ecd(%rip),%ymm11 # 2b900 <_sk_overlay_sse2_8bit+0x463>
.byte 196,65,92,89,227 // vmulps %ymm11,%ymm4,%ymm12
- .byte 196,98,125,24,45,183,46,2,0 // vbroadcastss 0x22eb7(%rip),%ymm13 # 2b95c <_sk_overlay_sse2_8bit+0x477>
+ .byte 196,98,125,24,45,211,46,2,0 // vbroadcastss 0x22ed3(%rip),%ymm13 # 2b914 <_sk_overlay_sse2_8bit+0x477>
.byte 196,65,28,88,229 // vaddps %ymm13,%ymm12,%ymm12
.byte 196,65,44,89,212 // vmulps %ymm12,%ymm10,%ymm10
- .byte 196,98,125,24,37,168,46,2,0 // vbroadcastss 0x22ea8(%rip),%ymm12 # 2b960 <_sk_overlay_sse2_8bit+0x47b>
+ .byte 196,98,125,24,37,196,46,2,0 // vbroadcastss 0x22ec4(%rip),%ymm12 # 2b918 <_sk_overlay_sse2_8bit+0x47b>
.byte 196,65,44,88,212 // vaddps %ymm12,%ymm10,%ymm10
- .byte 196,98,125,24,53,158,46,2,0 // vbroadcastss 0x22e9e(%rip),%ymm14 # 2b964 <_sk_overlay_sse2_8bit+0x47f>
+ .byte 196,98,125,24,53,186,46,2,0 // vbroadcastss 0x22eba(%rip),%ymm14 # 2b91c <_sk_overlay_sse2_8bit+0x47f>
.byte 196,193,92,194,230,1 // vcmpltps %ymm14,%ymm4,%ymm4
.byte 196,195,45,74,225,64 // vblendvps %ymm4,%ymm9,%ymm10,%ymm4
.byte 196,65,84,89,200 // vmulps %ymm8,%ymm5,%ymm9
@@ -18084,20 +18060,20 @@ HIDDEN _sk_to_srgb_avx
FUNCTION(_sk_to_srgb_avx)
_sk_to_srgb_avx:
.byte 197,124,82,200 // vrsqrtps %ymm0,%ymm9
- .byte 196,98,125,24,5,51,46,2,0 // vbroadcastss 0x22e33(%rip),%ymm8 # 2b968 <_sk_overlay_sse2_8bit+0x483>
+ .byte 196,98,125,24,5,79,46,2,0 // vbroadcastss 0x22e4f(%rip),%ymm8 # 2b920 <_sk_overlay_sse2_8bit+0x483>
.byte 196,65,124,89,208 // vmulps %ymm8,%ymm0,%ymm10
- .byte 196,98,125,24,29,45,46,2,0 // vbroadcastss 0x22e2d(%rip),%ymm11 # 2b970 <_sk_overlay_sse2_8bit+0x48b>
+ .byte 196,98,125,24,29,73,46,2,0 // vbroadcastss 0x22e49(%rip),%ymm11 # 2b928 <_sk_overlay_sse2_8bit+0x48b>
.byte 196,65,52,89,227 // vmulps %ymm11,%ymm9,%ymm12
- .byte 196,98,125,24,45,27,46,2,0 // vbroadcastss 0x22e1b(%rip),%ymm13 # 2b96c <_sk_overlay_sse2_8bit+0x487>
+ .byte 196,98,125,24,45,55,46,2,0 // vbroadcastss 0x22e37(%rip),%ymm13 # 2b924 <_sk_overlay_sse2_8bit+0x487>
.byte 196,65,28,88,229 // vaddps %ymm13,%ymm12,%ymm12
.byte 196,65,52,89,228 // vmulps %ymm12,%ymm9,%ymm12
- .byte 196,98,125,24,53,16,46,2,0 // vbroadcastss 0x22e10(%rip),%ymm14 # 2b974 <_sk_overlay_sse2_8bit+0x48f>
+ .byte 196,98,125,24,53,44,46,2,0 // vbroadcastss 0x22e2c(%rip),%ymm14 # 2b92c <_sk_overlay_sse2_8bit+0x48f>
.byte 196,65,28,88,230 // vaddps %ymm14,%ymm12,%ymm12
- .byte 196,98,125,24,61,6,46,2,0 // vbroadcastss 0x22e06(%rip),%ymm15 # 2b978 <_sk_overlay_sse2_8bit+0x493>
+ .byte 196,98,125,24,61,34,46,2,0 // vbroadcastss 0x22e22(%rip),%ymm15 # 2b930 <_sk_overlay_sse2_8bit+0x493>
.byte 196,65,52,88,207 // vaddps %ymm15,%ymm9,%ymm9
.byte 196,65,124,83,201 // vrcpps %ymm9,%ymm9
.byte 196,65,52,89,204 // vmulps %ymm12,%ymm9,%ymm9
- .byte 196,98,125,24,37,242,45,2,0 // vbroadcastss 0x22df2(%rip),%ymm12 # 2b97c <_sk_overlay_sse2_8bit+0x497>
+ .byte 196,98,125,24,37,14,46,2,0 // vbroadcastss 0x22e0e(%rip),%ymm12 # 2b934 <_sk_overlay_sse2_8bit+0x497>
.byte 196,193,124,194,196,1 // vcmpltps %ymm12,%ymm0,%ymm0
.byte 196,195,53,74,194,0 // vblendvps %ymm0,%ymm10,%ymm9,%ymm0
.byte 197,124,82,201 // vrsqrtps %ymm1,%ymm9
@@ -18134,7 +18110,7 @@ _sk_rgb_to_hsl_avx:
.byte 197,116,93,202 // vminps %ymm2,%ymm1,%ymm9
.byte 196,65,124,93,201 // vminps %ymm9,%ymm0,%ymm9
.byte 196,65,60,92,209 // vsubps %ymm9,%ymm8,%ymm10
- .byte 196,98,125,24,29,254,44,2,0 // vbroadcastss 0x22cfe(%rip),%ymm11 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,29,26,45,2,0 // vbroadcastss 0x22d1a(%rip),%ymm11 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,65,36,94,218 // vdivps %ymm10,%ymm11,%ymm11
.byte 197,116,92,226 // vsubps %ymm2,%ymm1,%ymm12
.byte 196,65,28,89,227 // vmulps %ymm11,%ymm12,%ymm12
@@ -18144,19 +18120,19 @@ _sk_rgb_to_hsl_avx:
.byte 196,193,108,89,211 // vmulps %ymm11,%ymm2,%ymm2
.byte 197,252,92,201 // vsubps %ymm1,%ymm0,%ymm1
.byte 196,193,116,89,203 // vmulps %ymm11,%ymm1,%ymm1
- .byte 196,98,125,24,29,43,45,2,0 // vbroadcastss 0x22d2b(%rip),%ymm11 # 2b988 <_sk_overlay_sse2_8bit+0x4a3>
+ .byte 196,98,125,24,29,71,45,2,0 // vbroadcastss 0x22d47(%rip),%ymm11 # 2b940 <_sk_overlay_sse2_8bit+0x4a3>
.byte 196,193,116,88,203 // vaddps %ymm11,%ymm1,%ymm1
- .byte 196,98,125,24,29,25,45,2,0 // vbroadcastss 0x22d19(%rip),%ymm11 # 2b984 <_sk_overlay_sse2_8bit+0x49f>
+ .byte 196,98,125,24,29,53,45,2,0 // vbroadcastss 0x22d35(%rip),%ymm11 # 2b93c <_sk_overlay_sse2_8bit+0x49f>
.byte 196,193,108,88,211 // vaddps %ymm11,%ymm2,%ymm2
.byte 196,227,117,74,202,224 // vblendvps %ymm14,%ymm2,%ymm1,%ymm1
- .byte 196,226,125,24,21,1,45,2,0 // vbroadcastss 0x22d01(%rip),%ymm2 # 2b980 <_sk_overlay_sse2_8bit+0x49b>
+ .byte 196,226,125,24,21,29,45,2,0 // vbroadcastss 0x22d1d(%rip),%ymm2 # 2b938 <_sk_overlay_sse2_8bit+0x49b>
.byte 196,65,12,87,246 // vxorps %ymm14,%ymm14,%ymm14
.byte 196,227,13,74,210,208 // vblendvps %ymm13,%ymm2,%ymm14,%ymm2
.byte 197,188,194,192,0 // vcmpeqps %ymm0,%ymm8,%ymm0
.byte 196,193,108,88,212 // vaddps %ymm12,%ymm2,%ymm2
.byte 196,227,117,74,194,0 // vblendvps %ymm0,%ymm2,%ymm1,%ymm0
.byte 196,193,60,88,201 // vaddps %ymm9,%ymm8,%ymm1
- .byte 196,98,125,24,37,124,44,2,0 // vbroadcastss 0x22c7c(%rip),%ymm12 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,37,152,44,2,0 // vbroadcastss 0x22c98(%rip),%ymm12 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,193,116,89,212 // vmulps %ymm12,%ymm1,%ymm2
.byte 197,28,194,226,1 // vcmpltps %ymm2,%ymm12,%ymm12
.byte 196,65,36,92,216 // vsubps %ymm8,%ymm11,%ymm11
@@ -18166,7 +18142,7 @@ _sk_rgb_to_hsl_avx:
.byte 197,172,94,201 // vdivps %ymm1,%ymm10,%ymm1
.byte 196,195,125,74,198,128 // vblendvps %ymm8,%ymm14,%ymm0,%ymm0
.byte 196,195,117,74,206,128 // vblendvps %ymm8,%ymm14,%ymm1,%ymm1
- .byte 196,98,125,24,5,171,44,2,0 // vbroadcastss 0x22cab(%rip),%ymm8 # 2b98c <_sk_overlay_sse2_8bit+0x4a7>
+ .byte 196,98,125,24,5,199,44,2,0 // vbroadcastss 0x22cc7(%rip),%ymm8 # 2b944 <_sk_overlay_sse2_8bit+0x4a7>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -18183,7 +18159,7 @@ _sk_hsl_to_rgb_avx:
.byte 197,252,17,92,36,128 // vmovups %ymm3,-0x80(%rsp)
.byte 197,252,40,225 // vmovaps %ymm1,%ymm4
.byte 197,252,40,216 // vmovaps %ymm0,%ymm3
- .byte 196,98,125,24,5,8,44,2,0 // vbroadcastss 0x22c08(%rip),%ymm8 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,5,36,44,2,0 // vbroadcastss 0x22c24(%rip),%ymm8 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,60,194,202,2 // vcmpleps %ymm2,%ymm8,%ymm9
.byte 197,92,89,210 // vmulps %ymm2,%ymm4,%ymm10
.byte 196,65,92,92,218 // vsubps %ymm10,%ymm4,%ymm11
@@ -18191,23 +18167,23 @@ _sk_hsl_to_rgb_avx:
.byte 197,52,88,210 // vaddps %ymm2,%ymm9,%ymm10
.byte 197,108,88,202 // vaddps %ymm2,%ymm2,%ymm9
.byte 196,65,52,92,202 // vsubps %ymm10,%ymm9,%ymm9
- .byte 196,98,125,24,29,74,44,2,0 // vbroadcastss 0x22c4a(%rip),%ymm11 # 2b990 <_sk_overlay_sse2_8bit+0x4ab>
+ .byte 196,98,125,24,29,102,44,2,0 // vbroadcastss 0x22c66(%rip),%ymm11 # 2b948 <_sk_overlay_sse2_8bit+0x4ab>
.byte 196,65,100,88,219 // vaddps %ymm11,%ymm3,%ymm11
.byte 196,67,125,8,227,1 // vroundps $0x1,%ymm11,%ymm12
.byte 196,65,36,92,252 // vsubps %ymm12,%ymm11,%ymm15
.byte 196,65,44,92,217 // vsubps %ymm9,%ymm10,%ymm11
- .byte 196,98,125,24,37,28,44,2,0 // vbroadcastss 0x22c1c(%rip),%ymm12 # 2b980 <_sk_overlay_sse2_8bit+0x49b>
+ .byte 196,98,125,24,37,56,44,2,0 // vbroadcastss 0x22c38(%rip),%ymm12 # 2b938 <_sk_overlay_sse2_8bit+0x49b>
.byte 196,193,4,89,196 // vmulps %ymm12,%ymm15,%ymm0
- .byte 196,98,125,24,45,22,44,2,0 // vbroadcastss 0x22c16(%rip),%ymm13 # 2b988 <_sk_overlay_sse2_8bit+0x4a3>
+ .byte 196,98,125,24,45,50,44,2,0 // vbroadcastss 0x22c32(%rip),%ymm13 # 2b940 <_sk_overlay_sse2_8bit+0x4a3>
.byte 197,20,92,240 // vsubps %ymm0,%ymm13,%ymm14
.byte 196,65,36,89,246 // vmulps %ymm14,%ymm11,%ymm14
.byte 196,65,52,88,246 // vaddps %ymm14,%ymm9,%ymm14
- .byte 196,226,125,24,13,11,44,2,0 // vbroadcastss 0x22c0b(%rip),%ymm1 # 2b994 <_sk_overlay_sse2_8bit+0x4af>
+ .byte 196,226,125,24,13,39,44,2,0 // vbroadcastss 0x22c27(%rip),%ymm1 # 2b94c <_sk_overlay_sse2_8bit+0x4af>
.byte 196,193,116,194,255,2 // vcmpleps %ymm15,%ymm1,%ymm7
.byte 196,195,13,74,249,112 // vblendvps %ymm7,%ymm9,%ymm14,%ymm7
.byte 196,65,60,194,247,2 // vcmpleps %ymm15,%ymm8,%ymm14
.byte 196,227,45,74,255,224 // vblendvps %ymm14,%ymm7,%ymm10,%ymm7
- .byte 196,98,125,24,53,226,43,2,0 // vbroadcastss 0x22be2(%rip),%ymm14 # 2b98c <_sk_overlay_sse2_8bit+0x4a7>
+ .byte 196,98,125,24,53,254,43,2,0 // vbroadcastss 0x22bfe(%rip),%ymm14 # 2b944 <_sk_overlay_sse2_8bit+0x4a7>
.byte 196,65,12,194,255,2 // vcmpleps %ymm15,%ymm14,%ymm15
.byte 196,193,124,89,195 // vmulps %ymm11,%ymm0,%ymm0
.byte 197,180,88,192 // vaddps %ymm0,%ymm9,%ymm0
@@ -18226,7 +18202,7 @@ _sk_hsl_to_rgb_avx:
.byte 197,164,89,247 // vmulps %ymm7,%ymm11,%ymm6
.byte 197,180,88,246 // vaddps %ymm6,%ymm9,%ymm6
.byte 196,227,77,74,237,0 // vblendvps %ymm0,%ymm5,%ymm6,%ymm5
- .byte 196,226,125,24,5,140,43,2,0 // vbroadcastss 0x22b8c(%rip),%ymm0 # 2b998 <_sk_overlay_sse2_8bit+0x4b3>
+ .byte 196,226,125,24,5,168,43,2,0 // vbroadcastss 0x22ba8(%rip),%ymm0 # 2b950 <_sk_overlay_sse2_8bit+0x4b3>
.byte 197,228,88,192 // vaddps %ymm0,%ymm3,%ymm0
.byte 196,227,125,8,216,1 // vroundps $0x1,%ymm0,%ymm3
.byte 197,252,92,195 // vsubps %ymm3,%ymm0,%ymm0
@@ -18273,81 +18249,76 @@ HIDDEN _sk_scale_u8_avx
.globl _sk_scale_u8_avx
FUNCTION(_sk_scale_u8_avx)
_sk_scale_u8_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,75 // jne 8f13 <_sk_scale_u8_avx+0x64>
- .byte 196,66,121,48,4,25 // vpmovzxbw (%r9,%rbx,1),%xmm8
- .byte 197,57,219,5,250,51,2,0 // vpand 0x233fa(%rip),%xmm8,%xmm8 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,74 // jne 8ead <_sk_scale_u8_avx+0x62>
+ .byte 196,2,121,48,4,24 // vpmovzxbw (%r8,%r11,1),%xmm8
+ .byte 197,57,219,5,95,52,2,0 // vpand 0x2345f(%rip),%xmm8,%xmm8 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
.byte 196,65,57,105,201 // vpunpckhwd %xmm9,%xmm8,%xmm9
.byte 196,66,121,51,192 // vpmovzxwd %xmm8,%xmm8
.byte 196,67,61,24,193,1 // vinsertf128 $0x1,%xmm9,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
- .byte 196,98,125,24,13,163,42,2,0 // vbroadcastss 0x22aa3(%rip),%ymm9 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,13,192,42,2,0 // vbroadcastss 0x22ac0(%rip),%ymm9 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
.byte 197,188,89,210 // vmulps %ymm2,%ymm8,%ymm2
.byte 197,188,89,219 // vmulps %ymm3,%ymm8,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,166 // ja 8ece <_sk_scale_u8_avx+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,121,0,0,0 // lea 0x79(%rip),%r11 # 8fac <_sk_scale_u8_avx+0xfd>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,167 // ja 8e69 <_sk_scale_u8_avx+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,123,0,0,0 // lea 0x7b(%rip),%r10 # 8f48 <_sk_scale_u8_avx+0xfd>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
- .byte 235,135 // jmp 8ece <_sk_scale_u8_avx+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,136 // jmp 8e69 <_sk_scale_u8_avx+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
.byte 197,57,196,192,2 // vpinsrw $0x2,%eax,%xmm8,%xmm8
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,121,110,200 // vmovd %eax,%xmm9
.byte 196,66,121,48,201 // vpmovzxbw %xmm9,%xmm9
.byte 196,67,57,14,193,3 // vpblendw $0x3,%xmm9,%xmm8,%xmm8
- .byte 233,94,255,255,255 // jmpq 8ece <_sk_scale_u8_avx+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,95,255,255,255 // jmpq 8e69 <_sk_scale_u8_avx+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
.byte 197,57,196,192,6 // vpinsrw $0x6,%eax,%xmm8,%xmm8
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,57,196,192,5 // vpinsrw $0x5,%eax,%xmm8,%xmm8
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,57,196,192,4 // vpinsrw $0x4,%eax,%xmm8,%xmm8
- .byte 196,65,121,110,12,25 // vmovd (%r9,%rbx,1),%xmm9
+ .byte 196,1,121,110,12,24 // vmovd (%r8,%r11,1),%xmm9
.byte 196,66,121,48,201 // vpmovzxbw %xmm9,%xmm9
.byte 196,67,49,14,192,240 // vpblendw $0xf0,%xmm8,%xmm9,%xmm8
- .byte 233,34,255,255,255 // jmpq 8ece <_sk_scale_u8_avx+0x1f>
- .byte 144 // nop
- .byte 255 // (bad)
+ .byte 233,35,255,255,255 // jmpq 8e69 <_sk_scale_u8_avx+0x1e>
+ .byte 102,144 // xchg %ax,%ax
+ .byte 142,255 // mov %edi,%?
.byte 255 // (bad)
- .byte 255,171,255,255,255,155 // ljmp *-0x64000001(%rbx)
+ .byte 255,169,255,255,255,153 // ljmp *-0x66000001(%rcx)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 234 // (bad)
+ .byte 232,255,255,255,221 // callq ffffffffde008f58 <_sk_overlay_sse2_8bit+0xffffffffddfddabb>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255 // (bad)
- .byte 223,255 // (bad)
- .byte 255 // (bad)
- .byte 255,212 // callq *%rsp
+ .byte 255,210 // callq *%rdx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255,194 // inc %edx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -18356,35 +18327,34 @@ HIDDEN _sk_scale_565_avx
.globl _sk_scale_565_avx
FUNCTION(_sk_scale_565_avx)
_sk_scale_565_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,178,0,0,0 // jne 909a <_sk_scale_565_avx+0xd2>
- .byte 196,65,122,111,4,89 // vmovdqu (%r9,%rbx,2),%xmm8
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,177,0,0,0 // jne 9034 <_sk_scale_565_avx+0xd0>
+ .byte 196,1,122,111,4,88 // vmovdqu (%r8,%r11,2),%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
.byte 196,65,57,105,201 // vpunpckhwd %xmm9,%xmm8,%xmm9
.byte 196,66,121,51,192 // vpmovzxwd %xmm8,%xmm8
.byte 196,67,61,24,193,1 // vinsertf128 $0x1,%xmm9,%ymm8,%ymm8
- .byte 196,98,125,24,13,148,41,2,0 // vbroadcastss 0x22994(%rip),%ymm9 # 2b9a0 <_sk_overlay_sse2_8bit+0x4bb>
+ .byte 196,98,125,24,13,177,41,2,0 // vbroadcastss 0x229b1(%rip),%ymm9 # 2b958 <_sk_overlay_sse2_8bit+0x4bb>
.byte 196,65,60,84,201 // vandps %ymm9,%ymm8,%ymm9
.byte 196,65,124,91,201 // vcvtdq2ps %ymm9,%ymm9
- .byte 196,98,125,24,21,133,41,2,0 // vbroadcastss 0x22985(%rip),%ymm10 # 2b9a4 <_sk_overlay_sse2_8bit+0x4bf>
+ .byte 196,98,125,24,21,162,41,2,0 // vbroadcastss 0x229a2(%rip),%ymm10 # 2b95c <_sk_overlay_sse2_8bit+0x4bf>
.byte 196,65,52,89,202 // vmulps %ymm10,%ymm9,%ymm9
- .byte 196,98,125,24,21,123,41,2,0 // vbroadcastss 0x2297b(%rip),%ymm10 # 2b9a8 <_sk_overlay_sse2_8bit+0x4c3>
+ .byte 196,98,125,24,21,152,41,2,0 // vbroadcastss 0x22998(%rip),%ymm10 # 2b960 <_sk_overlay_sse2_8bit+0x4c3>
.byte 196,65,60,84,210 // vandps %ymm10,%ymm8,%ymm10
.byte 196,65,124,91,210 // vcvtdq2ps %ymm10,%ymm10
- .byte 196,98,125,24,29,108,41,2,0 // vbroadcastss 0x2296c(%rip),%ymm11 # 2b9ac <_sk_overlay_sse2_8bit+0x4c7>
+ .byte 196,98,125,24,29,137,41,2,0 // vbroadcastss 0x22989(%rip),%ymm11 # 2b964 <_sk_overlay_sse2_8bit+0x4c7>
.byte 196,65,44,89,211 // vmulps %ymm11,%ymm10,%ymm10
- .byte 196,98,125,24,29,98,41,2,0 // vbroadcastss 0x22962(%rip),%ymm11 # 2b9b0 <_sk_overlay_sse2_8bit+0x4cb>
+ .byte 196,98,125,24,29,127,41,2,0 // vbroadcastss 0x2297f(%rip),%ymm11 # 2b968 <_sk_overlay_sse2_8bit+0x4cb>
.byte 196,65,60,84,195 // vandps %ymm11,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
- .byte 196,98,125,24,29,83,41,2,0 // vbroadcastss 0x22953(%rip),%ymm11 # 2b9b4 <_sk_overlay_sse2_8bit+0x4cf>
+ .byte 196,98,125,24,29,112,41,2,0 // vbroadcastss 0x22970(%rip),%ymm11 # 2b96c <_sk_overlay_sse2_8bit+0x4cf>
.byte 196,65,60,89,195 // vmulps %ymm11,%ymm8,%ymm8
.byte 197,100,194,223,1 // vcmpltps %ymm7,%ymm3,%ymm11
.byte 196,65,44,93,224 // vminps %ymm8,%ymm10,%ymm12
@@ -18397,49 +18367,50 @@ _sk_scale_565_avx:
.byte 197,188,89,210 // vmulps %ymm2,%ymm8,%ymm2
.byte 197,164,89,219 // vmulps %ymm3,%ymm11,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,59,255,255,255 // ja 8fee <_sk_scale_565_avx+0x26>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,102,0,0,0 // lea 0x66(%rip),%r11 # 9124 <_sk_scale_565_avx+0x15c>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,60,255,255,255 // ja 8f89 <_sk_scale_565_avx+0x25>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,100,0,0,0 // lea 0x64(%rip),%r10 # 90bc <_sk_scale_565_avx+0x158>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
- .byte 233,25,255,255,255 // jmpq 8fee <_sk_scale_565_avx+0x26>
+ .byte 233,26,255,255,255 // jmpq 8f89 <_sk_scale_565_avx+0x25>
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 196,65,57,196,68,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,121,110,12,89 // vmovd (%r9,%rbx,2),%xmm9
+ .byte 196,1,57,196,68,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,121,110,12,88 // vmovd (%r8,%r11,2),%xmm9
.byte 196,67,57,14,193,3 // vpblendw $0x3,%xmm9,%xmm8,%xmm8
- .byte 233,251,254,255,255 // jmpq 8fee <_sk_scale_565_avx+0x26>
+ .byte 233,252,254,255,255 // jmpq 8f89 <_sk_scale_565_avx+0x25>
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 196,65,57,196,68,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,57,196,68,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,57,196,68,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,122,126,12,89 // vmovq (%r9,%rbx,2),%xmm9
+ .byte 196,1,57,196,68,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,57,196,68,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,57,196,68,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,122,126,12,88 // vmovq (%r8,%r11,2),%xmm9
.byte 196,67,49,14,192,240 // vpblendw $0xf0,%xmm8,%xmm9,%xmm8
- .byte 233,205,254,255,255 // jmpq 8fee <_sk_scale_565_avx+0x26>
- .byte 15,31,0 // nopl (%rax)
- .byte 163,255,255,255,190,255,255,255,177 // movabs %eax,0xb1ffffffbeffffff
+ .byte 233,206,254,255,255 // jmpq 8f89 <_sk_scale_565_avx+0x25>
+ .byte 144 // nop
+ .byte 165 // movsl %ds:(%rsi),%es:(%rdi)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,192 // inc %eax
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
.byte 255 // (bad)
+ .byte 255,179,255,255,255,238 // pushq -0x11000001(%rbx)
.byte 255 // (bad)
- .byte 255,228 // jmpq *%rsp
.byte 255 // (bad)
+ .byte 255,230 // jmpq *%rsi
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
.byte 255 // (bad)
- .byte 255,207 // dec %edi
+ .byte 222,255 // fdivrp %st,%st(7)
+ .byte 255 // (bad)
+ .byte 255,209 // callq *%rcx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -18469,23 +18440,22 @@ HIDDEN _sk_lerp_u8_avx
.globl _sk_lerp_u8_avx
FUNCTION(_sk_lerp_u8_avx)
_sk_lerp_u8_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,111 // jne 9207 <_sk_lerp_u8_avx+0x88>
- .byte 196,66,121,48,4,25 // vpmovzxbw (%r9,%rbx,1),%xmm8
- .byte 197,57,219,5,42,49,2,0 // vpand 0x2312a(%rip),%xmm8,%xmm8 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,110 // jne 919d <_sk_lerp_u8_avx+0x86>
+ .byte 196,2,121,48,4,24 // vpmovzxbw (%r8,%r11,1),%xmm8
+ .byte 197,57,219,5,147,49,2,0 // vpand 0x23193(%rip),%xmm8,%xmm8 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
.byte 196,65,57,105,201 // vpunpckhwd %xmm9,%xmm8,%xmm9
.byte 196,66,121,51,192 // vpmovzxwd %xmm8,%xmm8
.byte 196,67,61,24,193,1 // vinsertf128 $0x1,%xmm9,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
- .byte 196,98,125,24,13,211,39,2,0 // vbroadcastss 0x227d3(%rip),%ymm9 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,13,244,39,2,0 // vbroadcastss 0x227f4(%rip),%ymm9 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
.byte 197,252,92,196 // vsubps %ymm4,%ymm0,%ymm0
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
@@ -18500,55 +18470,56 @@ _sk_lerp_u8_avx:
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 197,228,88,223 // vaddps %ymm7,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,130 // ja 919e <_sk_lerp_u8_avx+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,125,0,0,0 // lea 0x7d(%rip),%r11 # 92a4 <_sk_lerp_u8_avx+0x125>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,131 // ja 9135 <_sk_lerp_u8_avx+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,127,0,0,0 // lea 0x7f(%rip),%r10 # 923c <_sk_lerp_u8_avx+0x125>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
- .byte 233,96,255,255,255 // jmpq 919e <_sk_lerp_u8_avx+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 233,97,255,255,255 // jmpq 9135 <_sk_lerp_u8_avx+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
.byte 197,57,196,192,2 // vpinsrw $0x2,%eax,%xmm8,%xmm8
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,121,110,200 // vmovd %eax,%xmm9
.byte 196,66,121,48,201 // vpmovzxbw %xmm9,%xmm9
.byte 196,67,57,14,193,3 // vpblendw $0x3,%xmm9,%xmm8,%xmm8
- .byte 233,55,255,255,255 // jmpq 919e <_sk_lerp_u8_avx+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,56,255,255,255 // jmpq 9135 <_sk_lerp_u8_avx+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
.byte 197,57,196,192,6 // vpinsrw $0x6,%eax,%xmm8,%xmm8
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,57,196,192,5 // vpinsrw $0x5,%eax,%xmm8,%xmm8
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,57,196,192,4 // vpinsrw $0x4,%eax,%xmm8,%xmm8
- .byte 196,65,121,110,12,25 // vmovd (%r9,%rbx,1),%xmm9
+ .byte 196,1,121,110,12,24 // vmovd (%r8,%r11,1),%xmm9
.byte 196,66,121,48,201 // vpmovzxbw %xmm9,%xmm9
.byte 196,67,49,14,192,240 // vpblendw $0xf0,%xmm8,%xmm9,%xmm8
- .byte 233,251,254,255,255 // jmpq 919e <_sk_lerp_u8_avx+0x1f>
- .byte 144 // nop
- .byte 140,255 // mov %?,%edi
+ .byte 233,252,254,255,255 // jmpq 9135 <_sk_lerp_u8_avx+0x1e>
+ .byte 15,31,0 // nopl (%rax)
+ .byte 138,255 // mov %bh,%bh
.byte 255 // (bad)
- .byte 255,170,255,255,255,154 // ljmp *-0x65000001(%rdx)
+ .byte 255,168,255,255,255,152 // ljmp *-0x67000001(%rax)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
- .byte 233,255,255,255,222 // jmpq ffffffffdf0092b4 <_sk_overlay_sse2_8bit+0xffffffffdefdddcf>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,211 // callq *%rbx
+ .byte 220,255 // fdivr %st,%st(7)
.byte 255 // (bad)
+ .byte 255,209 // callq *%rcx
.byte 255 // (bad)
- .byte 255,195 // inc %ebx
+ .byte 255 // (bad)
+ .byte 255,193 // inc %ecx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -18557,35 +18528,34 @@ HIDDEN _sk_lerp_565_avx
.globl _sk_lerp_565_avx
FUNCTION(_sk_lerp_565_avx)
_sk_lerp_565_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,214,0,0,0 // jne 93b6 <_sk_lerp_565_avx+0xf6>
- .byte 196,65,122,111,4,89 // vmovdqu (%r9,%rbx,2),%xmm8
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,213,0,0,0 // jne 934c <_sk_lerp_565_avx+0xf4>
+ .byte 196,1,122,111,4,88 // vmovdqu (%r8,%r11,2),%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
.byte 196,65,57,105,201 // vpunpckhwd %xmm9,%xmm8,%xmm9
.byte 196,66,121,51,192 // vpmovzxwd %xmm8,%xmm8
.byte 196,67,61,24,193,1 // vinsertf128 $0x1,%xmm9,%ymm8,%ymm8
- .byte 196,98,125,24,13,156,38,2,0 // vbroadcastss 0x2269c(%rip),%ymm9 # 2b9a0 <_sk_overlay_sse2_8bit+0x4bb>
+ .byte 196,98,125,24,13,189,38,2,0 // vbroadcastss 0x226bd(%rip),%ymm9 # 2b958 <_sk_overlay_sse2_8bit+0x4bb>
.byte 196,65,60,84,201 // vandps %ymm9,%ymm8,%ymm9
.byte 196,65,124,91,201 // vcvtdq2ps %ymm9,%ymm9
- .byte 196,98,125,24,21,141,38,2,0 // vbroadcastss 0x2268d(%rip),%ymm10 # 2b9a4 <_sk_overlay_sse2_8bit+0x4bf>
+ .byte 196,98,125,24,21,174,38,2,0 // vbroadcastss 0x226ae(%rip),%ymm10 # 2b95c <_sk_overlay_sse2_8bit+0x4bf>
.byte 196,65,52,89,202 // vmulps %ymm10,%ymm9,%ymm9
- .byte 196,98,125,24,21,131,38,2,0 // vbroadcastss 0x22683(%rip),%ymm10 # 2b9a8 <_sk_overlay_sse2_8bit+0x4c3>
+ .byte 196,98,125,24,21,164,38,2,0 // vbroadcastss 0x226a4(%rip),%ymm10 # 2b960 <_sk_overlay_sse2_8bit+0x4c3>
.byte 196,65,60,84,210 // vandps %ymm10,%ymm8,%ymm10
.byte 196,65,124,91,210 // vcvtdq2ps %ymm10,%ymm10
- .byte 196,98,125,24,29,116,38,2,0 // vbroadcastss 0x22674(%rip),%ymm11 # 2b9ac <_sk_overlay_sse2_8bit+0x4c7>
+ .byte 196,98,125,24,29,149,38,2,0 // vbroadcastss 0x22695(%rip),%ymm11 # 2b964 <_sk_overlay_sse2_8bit+0x4c7>
.byte 196,65,44,89,211 // vmulps %ymm11,%ymm10,%ymm10
- .byte 196,98,125,24,29,106,38,2,0 // vbroadcastss 0x2266a(%rip),%ymm11 # 2b9b0 <_sk_overlay_sse2_8bit+0x4cb>
+ .byte 196,98,125,24,29,139,38,2,0 // vbroadcastss 0x2268b(%rip),%ymm11 # 2b968 <_sk_overlay_sse2_8bit+0x4cb>
.byte 196,65,60,84,195 // vandps %ymm11,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
- .byte 196,98,125,24,29,91,38,2,0 // vbroadcastss 0x2265b(%rip),%ymm11 # 2b9b4 <_sk_overlay_sse2_8bit+0x4cf>
+ .byte 196,98,125,24,29,124,38,2,0 // vbroadcastss 0x2267c(%rip),%ymm11 # 2b96c <_sk_overlay_sse2_8bit+0x4cf>
.byte 196,65,60,89,195 // vmulps %ymm11,%ymm8,%ymm8
.byte 197,100,194,223,1 // vcmpltps %ymm7,%ymm3,%ymm11
.byte 196,65,44,93,224 // vminps %ymm8,%ymm10,%ymm12
@@ -18606,49 +18576,50 @@ _sk_lerp_565_avx:
.byte 196,193,100,89,219 // vmulps %ymm11,%ymm3,%ymm3
.byte 197,228,88,223 // vaddps %ymm7,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,23,255,255,255 // ja 92e6 <_sk_lerp_565_avx+0x26>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,102,0,0,0 // lea 0x66(%rip),%r11 # 9440 <_sk_lerp_565_avx+0x180>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,24,255,255,255 // ja 927d <_sk_lerp_565_avx+0x25>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,100,0,0,0 // lea 0x64(%rip),%r10 # 93d4 <_sk_lerp_565_avx+0x17c>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
- .byte 233,245,254,255,255 // jmpq 92e6 <_sk_lerp_565_avx+0x26>
+ .byte 233,246,254,255,255 // jmpq 927d <_sk_lerp_565_avx+0x25>
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 196,65,57,196,68,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,121,110,12,89 // vmovd (%r9,%rbx,2),%xmm9
+ .byte 196,1,57,196,68,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,121,110,12,88 // vmovd (%r8,%r11,2),%xmm9
.byte 196,67,57,14,193,3 // vpblendw $0x3,%xmm9,%xmm8,%xmm8
- .byte 233,215,254,255,255 // jmpq 92e6 <_sk_lerp_565_avx+0x26>
+ .byte 233,216,254,255,255 // jmpq 927d <_sk_lerp_565_avx+0x25>
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 196,65,57,196,68,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,57,196,68,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,57,196,68,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm8,%xmm8
- .byte 196,65,122,126,12,89 // vmovq (%r9,%rbx,2),%xmm9
+ .byte 196,1,57,196,68,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,57,196,68,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,57,196,68,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm8,%xmm8
+ .byte 196,1,122,126,12,88 // vmovq (%r8,%r11,2),%xmm9
.byte 196,67,49,14,192,240 // vpblendw $0xf0,%xmm8,%xmm9,%xmm8
- .byte 233,169,254,255,255 // jmpq 92e6 <_sk_lerp_565_avx+0x26>
- .byte 15,31,0 // nopl (%rax)
- .byte 163,255,255,255,190,255,255,255,177 // movabs %eax,0xb1ffffffbeffffff
+ .byte 233,170,254,255,255 // jmpq 927d <_sk_lerp_565_avx+0x25>
+ .byte 144 // nop
+ .byte 165 // movsl %ds:(%rsi),%es:(%rdi)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,192 // inc %eax
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
.byte 255 // (bad)
+ .byte 255,179,255,255,255,238 // pushq -0x11000001(%rbx)
.byte 255 // (bad)
- .byte 255,228 // jmpq *%rsp
.byte 255 // (bad)
+ .byte 255,230 // jmpq *%rsi
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
.byte 255 // (bad)
- .byte 255,207 // dec %edi
+ .byte 222,255 // fdivrp %st,%st(7)
+ .byte 255 // (bad)
+ .byte 255,209 // callq *%rcx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -18659,91 +18630,91 @@ FUNCTION(_sk_load_tables_avx)
_sk_load_tables_avx:
.byte 197,252,17,124,36,200 // vmovups %ymm7,-0x38(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,4,2,0,0 // jne 9674 <_sk_load_tables_avx+0x218>
- .byte 196,65,125,16,20,145 // vmovupd (%r9,%rdx,4),%ymm10
- .byte 197,125,40,13,130,41,2,0 // vmovapd 0x22982(%rip),%ymm9 # 2be00 <_sk_overlay_sse2_8bit+0x91b>
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,4,2,0,0 // jne 9608 <_sk_load_tables_avx+0x218>
+ .byte 196,65,125,16,20,144 // vmovupd (%r8,%rdx,4),%ymm10
+ .byte 197,125,40,13,238,41,2,0 // vmovapd 0x229ee(%rip),%ymm9 # 2be00 <_sk_overlay_sse2_8bit+0x963>
.byte 196,193,45,84,201 // vandpd %ymm9,%ymm10,%ymm1
.byte 196,227,125,25,200,1 // vextractf128 $0x1,%ymm1,%xmm0
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 76,139,88,8 // mov 0x8(%rax),%r11
- .byte 196,129,122,16,20,147 // vmovss (%r11,%r10,4),%xmm2
- .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 76,139,80,8 // mov 0x8(%rax),%r10
+ .byte 196,129,122,16,20,138 // vmovss (%r10,%r9,4),%xmm2
+ .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,131,105,33,4,130,16 // vinsertps $0x10,(%r10,%r8,4),%xmm2,%xmm0
+ .byte 69,137,200 // mov %r9d,%r8d
+ .byte 196,131,121,33,4,130,32 // vinsertps $0x20,(%r10,%r8,4),%xmm0,%xmm0
+ .byte 196,193,249,126,200 // vmovq %xmm1,%r8
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,131,105,33,4,139,16 // vinsertps $0x10,(%r11,%r9,4),%xmm2,%xmm0
- .byte 69,137,209 // mov %r10d,%r9d
- .byte 196,131,121,33,4,139,32 // vinsertps $0x20,(%r11,%r9,4),%xmm0,%xmm0
- .byte 196,193,249,126,201 // vmovq %xmm1,%r9
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,121,33,4,147,48 // vinsertps $0x30,(%r11,%r10,4),%xmm0,%xmm8
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 196,129,122,16,20,147 // vmovss (%r11,%r10,4),%xmm2
- .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
+ .byte 196,3,121,33,4,138,48 // vinsertps $0x30,(%r10,%r9,4),%xmm0,%xmm8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 196,129,122,16,20,138 // vmovss (%r10,%r9,4),%xmm2
+ .byte 196,195,249,22,201,1 // vpextrq $0x1,%xmm1,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,131,105,33,12,130,16 // vinsertps $0x10,(%r10,%r8,4),%xmm2,%xmm1
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,131,105,33,12,139,16 // vinsertps $0x10,(%r11,%r9,4),%xmm2,%xmm1
- .byte 69,137,209 // mov %r10d,%r9d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,113,33,12,139,32 // vinsertps $0x20,(%r11,%r9,4),%xmm1,%xmm1
- .byte 76,139,72,16 // mov 0x10(%rax),%r9
- .byte 196,3,113,33,36,147,48 // vinsertps $0x30,(%r11,%r10,4),%xmm1,%xmm12
+ .byte 196,131,113,33,12,130,32 // vinsertps $0x20,(%r10,%r8,4),%xmm1,%xmm1
+ .byte 76,139,64,16 // mov 0x10(%rax),%r8
+ .byte 196,3,113,33,36,138,48 // vinsertps $0x30,(%r10,%r9,4),%xmm1,%xmm12
.byte 196,193,105,114,210,8 // vpsrld $0x8,%xmm10,%xmm2
.byte 196,67,125,25,213,1 // vextractf128 $0x1,%ymm10,%xmm13
.byte 196,193,121,114,213,8 // vpsrld $0x8,%xmm13,%xmm0
.byte 196,227,109,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm2,%ymm0
.byte 196,193,125,84,209 // vandpd %ymm9,%ymm0,%ymm2
.byte 196,227,125,25,208,1 // vextractf128 $0x1,%ymm2,%xmm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,129,122,16,12,153 // vmovss (%r9,%r11,4),%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,113,33,52,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm1,%xmm14
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 196,129,122,16,28,145 // vmovss (%r9,%r10,4),%xmm3
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,129,122,16,12,153 // vmovss (%r9,%r11,4),%xmm1
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,129,122,16,4,153 // vmovss (%r9,%r11,4),%xmm0
- .byte 196,195,249,22,211,1 // vpextrq $0x1,%xmm2,%r11
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 196,129,122,16,12,144 // vmovss (%r8,%r10,4),%xmm1
+ .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,3,113,33,52,136,16 // vinsertps $0x10,(%r8,%r9,4),%xmm1,%xmm14
+ .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,129,122,16,28,136 // vmovss (%r8,%r9,4),%xmm3
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,121,33,28,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm0,%xmm11
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 196,1,122,16,60,145 // vmovss (%r9,%r10,4),%xmm15
+ .byte 196,129,122,16,12,144 // vmovss (%r8,%r10,4),%xmm1
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 196,129,122,16,4,144 // vmovss (%r8,%r10,4),%xmm0
+ .byte 196,195,249,22,210,1 // vpextrq $0x1,%xmm2,%r10
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,3,121,33,28,136,16 // vinsertps $0x10,(%r8,%r9,4),%xmm0,%xmm11
+ .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,1,122,16,60,136 // vmovss (%r8,%r9,4),%xmm15
.byte 196,195,29,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm12,%ymm0
- .byte 73,193,235,32 // shr $0x20,%r11
+ .byte 73,193,234,32 // shr $0x20,%r10
.byte 196,227,9,33,219,32 // vinsertps $0x20,%xmm3,%xmm14,%xmm3
.byte 196,227,97,33,249,48 // vinsertps $0x30,%xmm1,%xmm3,%xmm7
- .byte 196,1,122,16,52,153 // vmovss (%r9,%r11,4),%xmm14
- .byte 76,139,80,24 // mov 0x18(%rax),%r10
+ .byte 196,1,122,16,52,144 // vmovss (%r8,%r10,4),%xmm14
+ .byte 76,139,72,24 // mov 0x18(%rax),%r9
.byte 196,193,97,114,210,16 // vpsrld $0x10,%xmm10,%xmm3
.byte 196,193,105,114,213,16 // vpsrld $0x10,%xmm13,%xmm2
.byte 196,227,101,24,210,1 // vinsertf128 $0x1,%xmm2,%ymm3,%ymm2
.byte 196,65,109,84,201 // vandpd %ymm9,%ymm2,%ymm9
.byte 196,99,125,25,202,1 // vextractf128 $0x1,%ymm9,%xmm2
- .byte 196,193,249,126,209 // vmovq %xmm2,%r9
- .byte 68,137,200 // mov %r9d,%eax
- .byte 196,193,122,16,28,130 // vmovss (%r10,%rax,4),%xmm3
- .byte 196,195,249,22,211,1 // vpextrq $0x1,%xmm2,%r11
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,3,97,33,36,138,16 // vinsertps $0x10,(%r10,%r9,4),%xmm3,%xmm12
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,193,122,16,28,130 // vmovss (%r10,%rax,4),%xmm3
- .byte 196,65,249,126,201 // vmovq %xmm9,%r9
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,129,122,16,20,154 // vmovss (%r10,%r11,4),%xmm2
- .byte 68,137,200 // mov %r9d,%eax
- .byte 196,193,122,16,12,130 // vmovss (%r10,%rax,4),%xmm1
- .byte 196,67,249,22,203,1 // vpextrq $0x1,%xmm9,%r11
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,3,113,33,12,138,16 // vinsertps $0x10,(%r10,%r9,4),%xmm1,%xmm9
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,65,122,16,4,130 // vmovss (%r10,%rax,4),%xmm8
+ .byte 196,193,249,126,208 // vmovq %xmm2,%r8
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 196,193,122,16,28,129 // vmovss (%r9,%rax,4),%xmm3
+ .byte 196,195,249,22,210,1 // vpextrq $0x1,%xmm2,%r10
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,3,97,33,36,129,16 // vinsertps $0x10,(%r9,%r8,4),%xmm3,%xmm12
+ .byte 68,137,208 // mov %r10d,%eax
+ .byte 196,193,122,16,28,129 // vmovss (%r9,%rax,4),%xmm3
+ .byte 196,65,249,126,200 // vmovq %xmm9,%r8
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,129,122,16,20,145 // vmovss (%r9,%r10,4),%xmm2
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 196,193,122,16,12,129 // vmovss (%r9,%rax,4),%xmm1
+ .byte 196,67,249,22,202,1 // vpextrq $0x1,%xmm9,%r10
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,3,113,33,12,129,16 // vinsertps $0x10,(%r9,%r8,4),%xmm1,%xmm9
+ .byte 68,137,208 // mov %r10d,%eax
+ .byte 196,65,122,16,4,129 // vmovss (%r9,%rax,4),%xmm8
.byte 196,195,33,33,207,32 // vinsertps $0x20,%xmm15,%xmm11,%xmm1
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,1,122,16,28,154 // vmovss (%r10,%r11,4),%xmm11
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,1,122,16,28,145 // vmovss (%r9,%r10,4),%xmm11
.byte 196,195,113,33,206,48 // vinsertps $0x30,%xmm14,%xmm1,%xmm1
.byte 196,227,117,24,207,1 // vinsertf128 $0x1,%xmm7,%ymm1,%ymm1
.byte 196,227,25,33,219,32 // vinsertps $0x20,%xmm3,%xmm12,%xmm3
@@ -18755,47 +18726,47 @@ _sk_load_tables_avx:
.byte 196,193,65,114,213,24 // vpsrld $0x18,%xmm13,%xmm7
.byte 196,227,101,24,223,1 // vinsertf128 $0x1,%xmm7,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
- .byte 196,226,125,24,61,54,35,2,0 // vbroadcastss 0x22336(%rip),%ymm7 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,61,90,35,2,0 // vbroadcastss 0x2235a(%rip),%ymm7 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,228,89,223 // vmulps %ymm7,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,16,124,36,200 // vmovups -0x38(%rsp),%ymm7
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,44,87,210 // vxorps %ymm10,%ymm10,%ymm10
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,233,253,255,255 // ja 9476 <_sk_load_tables_avx+0x1a>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,148,0,0,0 // lea 0x94(%rip),%r11 # 972c <_sk_load_tables_avx+0x2d0>
- .byte 79,99,20,147 // movslq (%r11,%r10,4),%r10
- .byte 77,1,218 // add %r11,%r10
- .byte 65,255,226 // jmpq *%r10
- .byte 196,65,122,16,20,145 // vmovss (%r9,%rdx,4),%xmm10
- .byte 233,201,253,255,255 // jmpq 9476 <_sk_load_tables_avx+0x1a>
- .byte 196,193,121,110,68,145,8 // vmovd 0x8(%r9,%rdx,4),%xmm0
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,233,253,255,255 // ja 940a <_sk_load_tables_avx+0x1a>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,148,0,0,0 // lea 0x94(%rip),%r10 # 96c0 <_sk_load_tables_avx+0x2d0>
+ .byte 79,99,12,138 // movslq (%r10,%r9,4),%r9
+ .byte 77,1,209 // add %r10,%r9
+ .byte 65,255,225 // jmpq *%r9
+ .byte 196,65,122,16,20,144 // vmovss (%r8,%rdx,4),%xmm10
+ .byte 233,201,253,255,255 // jmpq 940a <_sk_load_tables_avx+0x1a>
+ .byte 196,193,121,110,68,144,8 // vmovd 0x8(%r8,%rdx,4),%xmm0
.byte 197,249,112,192,68 // vpshufd $0x44,%xmm0,%xmm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 196,99,117,12,208,4 // vblendps $0x4,%ymm0,%ymm1,%ymm10
- .byte 196,193,123,16,4,145 // vmovsd (%r9,%rdx,4),%xmm0
+ .byte 196,193,123,16,4,144 // vmovsd (%r8,%rdx,4),%xmm0
.byte 196,99,45,13,208,1 // vblendpd $0x1,%ymm0,%ymm10,%ymm10
- .byte 233,162,253,255,255 // jmpq 9476 <_sk_load_tables_avx+0x1a>
- .byte 196,193,121,110,68,145,24 // vmovd 0x18(%r9,%rdx,4),%xmm0
+ .byte 233,162,253,255,255 // jmpq 940a <_sk_load_tables_avx+0x1a>
+ .byte 196,193,121,110,68,144,24 // vmovd 0x18(%r8,%rdx,4),%xmm0
.byte 197,249,112,192,68 // vpshufd $0x44,%xmm0,%xmm0
.byte 196,227,125,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 196,99,117,12,208,64 // vblendps $0x40,%ymm0,%ymm1,%ymm10
.byte 196,99,125,25,208,1 // vextractf128 $0x1,%ymm10,%xmm0
- .byte 196,195,121,34,68,145,20,1 // vpinsrd $0x1,0x14(%r9,%rdx,4),%xmm0,%xmm0
+ .byte 196,195,121,34,68,144,20,1 // vpinsrd $0x1,0x14(%r8,%rdx,4),%xmm0,%xmm0
.byte 196,99,45,24,208,1 // vinsertf128 $0x1,%xmm0,%ymm10,%ymm10
.byte 196,99,125,25,208,1 // vextractf128 $0x1,%ymm10,%xmm0
- .byte 196,195,121,34,68,145,16,0 // vpinsrd $0x0,0x10(%r9,%rdx,4),%xmm0,%xmm0
+ .byte 196,195,121,34,68,144,16,0 // vpinsrd $0x0,0x10(%r8,%rdx,4),%xmm0,%xmm0
.byte 196,99,45,24,208,1 // vinsertf128 $0x1,%xmm0,%ymm10,%ymm10
- .byte 196,193,121,16,4,145 // vmovupd (%r9,%rdx,4),%xmm0
+ .byte 196,193,121,16,4,144 // vmovupd (%r8,%rdx,4),%xmm0
.byte 196,67,125,13,210,12 // vblendpd $0xc,%ymm10,%ymm0,%ymm10
- .byte 233,77,253,255,255 // jmpq 9476 <_sk_load_tables_avx+0x1a>
+ .byte 233,77,253,255,255 // jmpq 940a <_sk_load_tables_avx+0x1a>
.byte 15,31,0 // nopl (%rax)
- .byte 118,255 // jbe 972d <_sk_load_tables_avx+0x2d1>
+ .byte 118,255 // jbe 96c1 <_sk_load_tables_avx+0x2d1>
.byte 255 // (bad)
.byte 255,151,255,255,255,129 // callq *-0x7e000001(%rdi)
.byte 255 // (bad)
@@ -18820,15 +18791,15 @@ HIDDEN _sk_load_tables_u16_be_avx
FUNCTION(_sk_load_tables_u16_be_avx)
_sk_load_tables_u16_be_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 76,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10
- .byte 77,133,192 // test %r8,%r8
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 76,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9
+ .byte 72,133,255 // test %rdi,%rdi
.byte 197,252,17,124,36,200 // vmovups %ymm7,-0x38(%rsp)
- .byte 15,133,84,2,0,0 // jne 99b8 <_sk_load_tables_u16_be_avx+0x270>
- .byte 196,1,121,16,4,81 // vmovupd (%r9,%r10,2),%xmm8
- .byte 196,129,121,16,84,81,16 // vmovupd 0x10(%r9,%r10,2),%xmm2
- .byte 196,129,121,16,92,81,32 // vmovupd 0x20(%r9,%r10,2),%xmm3
- .byte 196,1,122,111,76,81,48 // vmovdqu 0x30(%r9,%r10,2),%xmm9
+ .byte 15,133,84,2,0,0 // jne 994c <_sk_load_tables_u16_be_avx+0x270>
+ .byte 196,1,121,16,4,72 // vmovupd (%r8,%r9,2),%xmm8
+ .byte 196,129,121,16,84,72,16 // vmovupd 0x10(%r8,%r9,2),%xmm2
+ .byte 196,129,121,16,92,72,32 // vmovupd 0x20(%r8,%r9,2),%xmm3
+ .byte 196,1,122,111,76,72,48 // vmovdqu 0x30(%r8,%r9,2),%xmm9
.byte 197,185,97,194 // vpunpcklwd %xmm2,%xmm8,%xmm0
.byte 197,185,105,210 // vpunpckhwd %xmm2,%xmm8,%xmm2
.byte 196,193,97,97,201 // vpunpcklwd %xmm9,%xmm3,%xmm1
@@ -18839,90 +18810,90 @@ _sk_load_tables_u16_be_avx:
.byte 197,113,105,219 // vpunpckhwd %xmm3,%xmm1,%xmm11
.byte 197,177,108,200 // vpunpcklqdq %xmm0,%xmm9,%xmm1
.byte 197,49,109,224 // vpunpckhqdq %xmm0,%xmm9,%xmm12
- .byte 197,121,111,21,31,43,2,0 // vmovdqa 0x22b1f(%rip),%xmm10 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 197,121,111,21,139,43,2,0 // vmovdqa 0x22b8b(%rip),%xmm10 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,193,113,219,202 // vpand %xmm10,%xmm1,%xmm1
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
.byte 196,193,113,105,209 // vpunpckhwd %xmm9,%xmm1,%xmm2
- .byte 196,193,249,126,209 // vmovq %xmm2,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 76,139,88,8 // mov 0x8(%rax),%r11
- .byte 196,129,122,16,28,147 // vmovss (%r11,%r10,4),%xmm3
- .byte 196,195,249,22,210,1 // vpextrq $0x1,%xmm2,%r10
+ .byte 196,193,249,126,208 // vmovq %xmm2,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 76,139,80,8 // mov 0x8(%rax),%r10
+ .byte 196,129,122,16,28,138 // vmovss (%r10,%r9,4),%xmm3
+ .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,3,97,33,44,130,16 // vinsertps $0x10,(%r10,%r8,4),%xmm3,%xmm13
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,3,97,33,44,139,16 // vinsertps $0x10,(%r11,%r9,4),%xmm3,%xmm13
- .byte 69,137,209 // mov %r10d,%r9d
- .byte 73,193,234,32 // shr $0x20,%r10
.byte 196,226,121,51,201 // vpmovzxwd %xmm1,%xmm1
- .byte 196,129,122,16,28,139 // vmovss (%r11,%r9,4),%xmm3
- .byte 196,193,249,126,201 // vmovq %xmm1,%r9
- .byte 196,129,122,16,4,147 // vmovss (%r11,%r10,4),%xmm0
- .byte 69,137,202 // mov %r9d,%r10d
+ .byte 196,129,122,16,28,130 // vmovss (%r10,%r8,4),%xmm3
+ .byte 196,193,249,126,200 // vmovq %xmm1,%r8
+ .byte 196,129,122,16,4,138 // vmovss (%r10,%r9,4),%xmm0
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 73,193,232,30 // shr $0x1e,%r8
+ .byte 196,129,122,16,20,138 // vmovss (%r10,%r9,4),%xmm2
+ .byte 196,195,249,22,201,1 // vpextrq $0x1,%xmm1,%r9
+ .byte 196,131,105,33,12,2,16 // vinsertps $0x10,(%r10,%r8,1),%xmm2,%xmm1
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 73,193,233,30 // shr $0x1e,%r9
- .byte 196,129,122,16,20,147 // vmovss (%r11,%r10,4),%xmm2
- .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
- .byte 196,131,105,33,12,11,16 // vinsertps $0x10,(%r11,%r9,1),%xmm2,%xmm1
- .byte 69,137,209 // mov %r10d,%r9d
- .byte 73,193,234,30 // shr $0x1e,%r10
- .byte 196,129,122,16,20,139 // vmovss (%r11,%r9,4),%xmm2
- .byte 76,139,72,16 // mov 0x10(%rax),%r9
+ .byte 196,129,122,16,20,130 // vmovss (%r10,%r8,4),%xmm2
+ .byte 76,139,64,16 // mov 0x10(%rax),%r8
.byte 196,227,17,33,219,32 // vinsertps $0x20,%xmm3,%xmm13,%xmm3
.byte 196,99,97,33,232,48 // vinsertps $0x30,%xmm0,%xmm3,%xmm13
.byte 196,99,113,33,242,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm14
- .byte 196,1,122,16,60,19 // vmovss (%r11,%r10,1),%xmm15
+ .byte 196,1,122,16,60,10 // vmovss (%r10,%r9,1),%xmm15
.byte 196,193,25,219,210 // vpand %xmm10,%xmm12,%xmm2
.byte 196,193,105,105,193 // vpunpckhwd %xmm9,%xmm2,%xmm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,129,122,16,12,153 // vmovss (%r9,%r11,4),%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 196,129,122,16,12,144 // vmovss (%r8,%r10,4),%xmm1
+ .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,3,113,33,36,136,16 // vinsertps $0x10,(%r8,%r9,4),%xmm1,%xmm12
+ .byte 69,137,209 // mov %r10d,%r9d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,113,33,36,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm1,%xmm12
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
.byte 196,226,121,51,194 // vpmovzxwd %xmm2,%xmm0
- .byte 196,129,122,16,20,145 // vmovss (%r9,%r10,4),%xmm2
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 196,129,122,16,28,153 // vmovss (%r9,%r11,4),%xmm3
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 73,193,234,30 // shr $0x1e,%r10
- .byte 196,129,122,16,12,153 // vmovss (%r9,%r11,4),%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 196,131,113,33,12,17,16 // vinsertps $0x10,(%r9,%r10,1),%xmm1,%xmm1
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 196,129,122,16,60,145 // vmovss (%r9,%r10,4),%xmm7
+ .byte 196,129,122,16,20,136 // vmovss (%r8,%r9,4),%xmm2
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 196,129,122,16,28,144 // vmovss (%r8,%r10,4),%xmm3
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 73,193,233,30 // shr $0x1e,%r9
+ .byte 196,129,122,16,12,144 // vmovss (%r8,%r10,4),%xmm1
+ .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 196,131,113,33,12,8,16 // vinsertps $0x10,(%r8,%r9,1),%xmm1,%xmm1
+ .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,129,122,16,60,136 // vmovss (%r8,%r9,4),%xmm7
.byte 196,195,9,33,199,48 // vinsertps $0x30,%xmm15,%xmm14,%xmm0
.byte 196,65,57,108,243 // vpunpcklqdq %xmm11,%xmm8,%xmm14
.byte 196,195,125,24,197,1 // vinsertf128 $0x1,%xmm13,%ymm0,%ymm0
- .byte 73,193,235,30 // shr $0x1e,%r11
+ .byte 73,193,234,30 // shr $0x1e,%r10
.byte 196,227,25,33,210,32 // vinsertps $0x20,%xmm2,%xmm12,%xmm2
.byte 196,227,105,33,219,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm3
.byte 196,99,113,33,239,32 // vinsertps $0x20,%xmm7,%xmm1,%xmm13
- .byte 196,1,122,16,60,25 // vmovss (%r9,%r11,1),%xmm15
- .byte 76,139,80,24 // mov 0x18(%rax),%r10
+ .byte 196,1,122,16,60,16 // vmovss (%r8,%r10,1),%xmm15
+ .byte 76,139,72,24 // mov 0x18(%rax),%r9
.byte 196,193,9,219,250 // vpand %xmm10,%xmm14,%xmm7
.byte 196,193,65,105,209 // vpunpckhwd %xmm9,%xmm7,%xmm2
- .byte 196,193,249,126,209 // vmovq %xmm2,%r9
- .byte 68,137,200 // mov %r9d,%eax
- .byte 196,193,122,16,12,130 // vmovss (%r10,%rax,4),%xmm1
+ .byte 196,193,249,126,208 // vmovq %xmm2,%r8
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 196,193,122,16,12,129 // vmovss (%r9,%rax,4),%xmm1
.byte 196,227,249,22,208,1 // vpextrq $0x1,%xmm2,%rax
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,3,113,33,20,138,16 // vinsertps $0x10,(%r10,%r9,4),%xmm1,%xmm10
- .byte 65,137,193 // mov %eax,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,3,113,33,20,129,16 // vinsertps $0x10,(%r9,%r8,4),%xmm1,%xmm10
+ .byte 65,137,192 // mov %eax,%r8d
.byte 72,193,232,32 // shr $0x20,%rax
.byte 196,226,121,51,207 // vpmovzxwd %xmm7,%xmm1
- .byte 196,1,122,16,52,138 // vmovss (%r10,%r9,4),%xmm14
- .byte 196,193,249,126,201 // vmovq %xmm1,%r9
- .byte 196,65,122,16,36,130 // vmovss (%r10,%rax,4),%xmm12
- .byte 68,137,200 // mov %r9d,%eax
- .byte 73,193,233,30 // shr $0x1e,%r9
- .byte 196,193,122,16,20,130 // vmovss (%r10,%rax,4),%xmm2
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 196,131,105,33,20,10,16 // vinsertps $0x10,(%r10,%r9,1),%xmm2,%xmm2
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,193,122,16,60,130 // vmovss (%r10,%rax,4),%xmm7
+ .byte 196,1,122,16,52,129 // vmovss (%r9,%r8,4),%xmm14
+ .byte 196,193,249,126,200 // vmovq %xmm1,%r8
+ .byte 196,65,122,16,36,129 // vmovss (%r9,%rax,4),%xmm12
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 73,193,232,30 // shr $0x1e,%r8
+ .byte 196,193,122,16,20,129 // vmovss (%r9,%rax,4),%xmm2
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
+ .byte 196,131,105,33,20,1,16 // vinsertps $0x10,(%r9,%r8,1),%xmm2,%xmm2
+ .byte 68,137,208 // mov %r10d,%eax
+ .byte 196,193,122,16,60,129 // vmovss (%r9,%rax,4),%xmm7
.byte 196,195,17,33,207,48 // vinsertps $0x30,%xmm15,%xmm13,%xmm1
- .byte 73,193,235,30 // shr $0x1e,%r11
- .byte 196,1,122,16,44,26 // vmovss (%r10,%r11,1),%xmm13
+ .byte 73,193,234,30 // shr $0x1e,%r10
+ .byte 196,1,122,16,44,17 // vmovss (%r9,%r10,1),%xmm13
.byte 196,227,117,24,203,1 // vinsertf128 $0x1,%xmm3,%ymm1,%ymm1
.byte 196,195,41,33,222,32 // vinsertps $0x20,%xmm14,%xmm10,%xmm3
.byte 196,195,97,33,220,48 // vinsertps $0x30,%xmm12,%xmm3,%xmm3
@@ -18937,53 +18908,53 @@ _sk_load_tables_u16_be_avx:
.byte 196,226,121,51,219 // vpmovzxwd %xmm3,%xmm3
.byte 196,227,101,24,223,1 // vinsertf128 $0x1,%xmm7,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
- .byte 196,226,125,24,61,14,32,2,0 // vbroadcastss 0x2200e(%rip),%ymm7 # 2b9b8 <_sk_overlay_sse2_8bit+0x4d3>
+ .byte 196,226,125,24,61,50,32,2,0 // vbroadcastss 0x22032(%rip),%ymm7 # 2b970 <_sk_overlay_sse2_8bit+0x4d3>
.byte 197,228,89,223 // vmulps %ymm7,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,16,124,36,200 // vmovups -0x38(%rsp),%ymm7
.byte 255,224 // jmpq *%rax
- .byte 196,1,123,16,4,81 // vmovsd (%r9,%r10,2),%xmm8
+ .byte 196,1,123,16,4,72 // vmovsd (%r8,%r9,2),%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,85 // je 9a1e <_sk_load_tables_u16_be_avx+0x2d6>
- .byte 196,1,57,22,68,81,8 // vmovhpd 0x8(%r9,%r10,2),%xmm8,%xmm8
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,72 // jb 9a1e <_sk_load_tables_u16_be_avx+0x2d6>
- .byte 196,129,123,16,84,81,16 // vmovsd 0x10(%r9,%r10,2),%xmm2
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 116,72 // je 9a2b <_sk_load_tables_u16_be_avx+0x2e3>
- .byte 196,129,105,22,84,81,24 // vmovhpd 0x18(%r9,%r10,2),%xmm2,%xmm2
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,59 // jb 9a2b <_sk_load_tables_u16_be_avx+0x2e3>
- .byte 196,129,123,16,92,81,32 // vmovsd 0x20(%r9,%r10,2),%xmm3
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 15,132,126,253,255,255 // je 977f <_sk_load_tables_u16_be_avx+0x37>
- .byte 196,129,97,22,92,81,40 // vmovhpd 0x28(%r9,%r10,2),%xmm3,%xmm3
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 15,130,109,253,255,255 // jb 977f <_sk_load_tables_u16_be_avx+0x37>
- .byte 196,1,122,126,76,81,48 // vmovq 0x30(%r9,%r10,2),%xmm9
- .byte 233,97,253,255,255 // jmpq 977f <_sk_load_tables_u16_be_avx+0x37>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,85 // je 99b2 <_sk_load_tables_u16_be_avx+0x2d6>
+ .byte 196,1,57,22,68,72,8 // vmovhpd 0x8(%r8,%r9,2),%xmm8,%xmm8
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,72 // jb 99b2 <_sk_load_tables_u16_be_avx+0x2d6>
+ .byte 196,129,123,16,84,72,16 // vmovsd 0x10(%r8,%r9,2),%xmm2
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 116,72 // je 99bf <_sk_load_tables_u16_be_avx+0x2e3>
+ .byte 196,129,105,22,84,72,24 // vmovhpd 0x18(%r8,%r9,2),%xmm2,%xmm2
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,59 // jb 99bf <_sk_load_tables_u16_be_avx+0x2e3>
+ .byte 196,129,123,16,92,72,32 // vmovsd 0x20(%r8,%r9,2),%xmm3
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 15,132,126,253,255,255 // je 9713 <_sk_load_tables_u16_be_avx+0x37>
+ .byte 196,129,97,22,92,72,40 // vmovhpd 0x28(%r8,%r9,2),%xmm3,%xmm3
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 15,130,109,253,255,255 // jb 9713 <_sk_load_tables_u16_be_avx+0x37>
+ .byte 196,1,122,126,76,72,48 // vmovq 0x30(%r8,%r9,2),%xmm9
+ .byte 233,97,253,255,255 // jmpq 9713 <_sk_load_tables_u16_be_avx+0x37>
.byte 197,225,87,219 // vxorpd %xmm3,%xmm3,%xmm3
.byte 197,233,87,210 // vxorpd %xmm2,%xmm2,%xmm2
- .byte 233,84,253,255,255 // jmpq 977f <_sk_load_tables_u16_be_avx+0x37>
+ .byte 233,84,253,255,255 // jmpq 9713 <_sk_load_tables_u16_be_avx+0x37>
.byte 197,225,87,219 // vxorpd %xmm3,%xmm3,%xmm3
- .byte 233,75,253,255,255 // jmpq 977f <_sk_load_tables_u16_be_avx+0x37>
+ .byte 233,75,253,255,255 // jmpq 9713 <_sk_load_tables_u16_be_avx+0x37>
HIDDEN _sk_load_tables_rgb_u16_be_avx
.globl _sk_load_tables_rgb_u16_be_avx
FUNCTION(_sk_load_tables_rgb_u16_be_avx)
_sk_load_tables_rgb_u16_be_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 76,141,20,82 // lea (%rdx,%rdx,2),%r10
- .byte 77,133,192 // test %r8,%r8
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 76,141,12,82 // lea (%rdx,%rdx,2),%r9
+ .byte 72,133,255 // test %rdi,%rdi
.byte 197,252,17,124,36,200 // vmovups %ymm7,-0x38(%rsp)
.byte 197,252,17,116,36,168 // vmovups %ymm6,-0x58(%rsp)
- .byte 15,133,72,2,0,0 // jne 9c9a <_sk_load_tables_rgb_u16_be_avx+0x266>
- .byte 196,1,122,111,28,81 // vmovdqu (%r9,%r10,2),%xmm11
- .byte 196,129,122,111,92,81,12 // vmovdqu 0xc(%r9,%r10,2),%xmm3
- .byte 196,129,122,111,84,81,24 // vmovdqu 0x18(%r9,%r10,2),%xmm2
- .byte 196,129,122,111,68,81,32 // vmovdqu 0x20(%r9,%r10,2),%xmm0
+ .byte 15,133,72,2,0,0 // jne 9c2e <_sk_load_tables_rgb_u16_be_avx+0x266>
+ .byte 196,1,122,111,28,72 // vmovdqu (%r8,%r9,2),%xmm11
+ .byte 196,129,122,111,92,72,12 // vmovdqu 0xc(%r8,%r9,2),%xmm3
+ .byte 196,129,122,111,84,72,24 // vmovdqu 0x18(%r8,%r9,2),%xmm2
+ .byte 196,129,122,111,68,72,32 // vmovdqu 0x20(%r8,%r9,2),%xmm0
.byte 197,249,115,216,4 // vpsrldq $0x4,%xmm0,%xmm0
.byte 196,193,57,115,219,6 // vpsrldq $0x6,%xmm11,%xmm8
.byte 197,169,115,219,6 // vpsrldq $0x6,%xmm3,%xmm10
@@ -19000,86 +18971,86 @@ _sk_load_tables_rgb_u16_be_avx:
.byte 197,185,108,211 // vpunpcklqdq %xmm3,%xmm8,%xmm2
.byte 197,57,109,219 // vpunpckhqdq %xmm3,%xmm8,%xmm11
.byte 197,113,108,192 // vpunpcklqdq %xmm0,%xmm1,%xmm8
- .byte 197,121,111,13,19,40,2,0 // vmovdqa 0x22813(%rip),%xmm9 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 197,121,111,13,127,40,2,0 // vmovdqa 0x2287f(%rip),%xmm9 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 196,193,105,219,193 // vpand %xmm9,%xmm2,%xmm0
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
.byte 196,193,121,105,202 // vpunpckhwd %xmm10,%xmm0,%xmm1
- .byte 196,193,249,126,201 // vmovq %xmm1,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 76,139,88,8 // mov 0x8(%rax),%r11
- .byte 196,129,122,16,20,147 // vmovss (%r11,%r10,4),%xmm2
- .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
+ .byte 196,193,249,126,200 // vmovq %xmm1,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 76,139,80,8 // mov 0x8(%rax),%r10
+ .byte 196,129,122,16,20,138 // vmovss (%r10,%r9,4),%xmm2
+ .byte 196,195,249,22,201,1 // vpextrq $0x1,%xmm1,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,3,105,33,36,130,16 // vinsertps $0x10,(%r10,%r8,4),%xmm2,%xmm12
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,3,105,33,36,139,16 // vinsertps $0x10,(%r11,%r9,4),%xmm2,%xmm12
- .byte 69,137,209 // mov %r10d,%r9d
- .byte 73,193,234,32 // shr $0x20,%r10
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
- .byte 196,129,122,16,20,139 // vmovss (%r11,%r9,4),%xmm2
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 196,129,122,16,12,147 // vmovss (%r11,%r10,4),%xmm1
- .byte 69,137,202 // mov %r9d,%r10d
+ .byte 196,129,122,16,20,130 // vmovss (%r10,%r8,4),%xmm2
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 196,129,122,16,12,138 // vmovss (%r10,%r9,4),%xmm1
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 73,193,232,30 // shr $0x1e,%r8
+ .byte 196,129,122,16,28,138 // vmovss (%r10,%r9,4),%xmm3
+ .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
+ .byte 196,131,97,33,28,2,16 // vinsertps $0x10,(%r10,%r8,1),%xmm3,%xmm3
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 73,193,233,30 // shr $0x1e,%r9
- .byte 196,129,122,16,28,147 // vmovss (%r11,%r10,4),%xmm3
- .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
- .byte 196,131,97,33,28,11,16 // vinsertps $0x10,(%r11,%r9,1),%xmm3,%xmm3
- .byte 69,137,209 // mov %r10d,%r9d
- .byte 73,193,234,30 // shr $0x1e,%r10
- .byte 196,129,122,16,4,139 // vmovss (%r11,%r9,4),%xmm0
- .byte 76,139,72,16 // mov 0x10(%rax),%r9
+ .byte 196,129,122,16,4,130 // vmovss (%r10,%r8,4),%xmm0
+ .byte 76,139,64,16 // mov 0x10(%rax),%r8
.byte 196,227,25,33,210,32 // vinsertps $0x20,%xmm2,%xmm12,%xmm2
.byte 196,227,105,33,201,48 // vinsertps $0x30,%xmm1,%xmm2,%xmm1
- .byte 196,129,122,16,20,19 // vmovss (%r11,%r10,1),%xmm2
+ .byte 196,129,122,16,20,10 // vmovss (%r10,%r9,1),%xmm2
.byte 196,65,33,219,225 // vpand %xmm9,%xmm11,%xmm12
.byte 196,65,25,105,218 // vpunpckhwd %xmm10,%xmm12,%xmm11
- .byte 196,65,249,126,218 // vmovq %xmm11,%r10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,1,122,16,44,153 // vmovss (%r9,%r11,4),%xmm13
- .byte 196,67,249,22,219,1 // vpextrq $0x1,%xmm11,%r11
+ .byte 196,65,249,126,217 // vmovq %xmm11,%r9
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 196,1,122,16,44,144 // vmovss (%r8,%r10,4),%xmm13
+ .byte 196,67,249,22,218,1 // vpextrq $0x1,%xmm11,%r10
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,3,17,33,28,136,16 // vinsertps $0x10,(%r8,%r9,4),%xmm13,%xmm11
+ .byte 69,137,209 // mov %r10d,%r9d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,17,33,28,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm13,%xmm11
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
.byte 196,66,121,51,244 // vpmovzxwd %xmm12,%xmm14
- .byte 196,1,122,16,44,145 // vmovss (%r9,%r10,4),%xmm13
- .byte 196,65,249,126,242 // vmovq %xmm14,%r10
- .byte 196,1,122,16,36,153 // vmovss (%r9,%r11,4),%xmm12
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 73,193,234,30 // shr $0x1e,%r10
- .byte 196,1,122,16,60,153 // vmovss (%r9,%r11,4),%xmm15
- .byte 196,67,249,22,243,1 // vpextrq $0x1,%xmm14,%r11
- .byte 196,3,1,33,52,17,16 // vinsertps $0x10,(%r9,%r10,1),%xmm15,%xmm14
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 196,1,122,16,60,145 // vmovss (%r9,%r10,4),%xmm15
+ .byte 196,1,122,16,44,136 // vmovss (%r8,%r9,4),%xmm13
+ .byte 196,65,249,126,241 // vmovq %xmm14,%r9
+ .byte 196,1,122,16,36,144 // vmovss (%r8,%r10,4),%xmm12
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 73,193,233,30 // shr $0x1e,%r9
+ .byte 196,1,122,16,60,144 // vmovss (%r8,%r10,4),%xmm15
+ .byte 196,67,249,22,242,1 // vpextrq $0x1,%xmm14,%r10
+ .byte 196,3,1,33,52,8,16 // vinsertps $0x10,(%r8,%r9,1),%xmm15,%xmm14
+ .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,1,122,16,60,136 // vmovss (%r8,%r9,4),%xmm15
.byte 196,227,97,33,192,32 // vinsertps $0x20,%xmm0,%xmm3,%xmm0
.byte 196,227,121,33,194,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm0
.byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
- .byte 73,193,235,30 // shr $0x1e,%r11
- .byte 196,129,122,16,52,25 // vmovss (%r9,%r11,1),%xmm6
- .byte 76,139,80,24 // mov 0x18(%rax),%r10
+ .byte 73,193,234,30 // shr $0x1e,%r10
+ .byte 196,129,122,16,52,16 // vmovss (%r8,%r10,1),%xmm6
+ .byte 76,139,72,24 // mov 0x18(%rax),%r9
.byte 196,65,57,219,193 // vpand %xmm9,%xmm8,%xmm8
.byte 196,193,57,105,210 // vpunpckhwd %xmm10,%xmm8,%xmm2
- .byte 196,193,249,126,209 // vmovq %xmm2,%r9
- .byte 68,137,200 // mov %r9d,%eax
- .byte 196,193,122,16,12,130 // vmovss (%r10,%rax,4),%xmm1
+ .byte 196,193,249,126,208 // vmovq %xmm2,%r8
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 196,193,122,16,12,129 // vmovss (%r9,%rax,4),%xmm1
.byte 196,227,249,22,208,1 // vpextrq $0x1,%xmm2,%rax
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,3,113,33,12,138,16 // vinsertps $0x10,(%r10,%r9,4),%xmm1,%xmm9
- .byte 65,137,193 // mov %eax,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,3,113,33,12,129,16 // vinsertps $0x10,(%r9,%r8,4),%xmm1,%xmm9
+ .byte 65,137,192 // mov %eax,%r8d
.byte 72,193,232,32 // shr $0x20,%rax
.byte 196,194,121,51,200 // vpmovzxwd %xmm8,%xmm1
- .byte 196,1,122,16,4,138 // vmovss (%r10,%r9,4),%xmm8
- .byte 196,193,249,126,201 // vmovq %xmm1,%r9
- .byte 196,65,122,16,20,130 // vmovss (%r10,%rax,4),%xmm10
- .byte 68,137,200 // mov %r9d,%eax
- .byte 73,193,233,30 // shr $0x1e,%r9
- .byte 196,193,122,16,20,130 // vmovss (%r10,%rax,4),%xmm2
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 196,131,105,33,20,10,16 // vinsertps $0x10,(%r10,%r9,1),%xmm2,%xmm2
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,193,122,16,60,130 // vmovss (%r10,%rax,4),%xmm7
+ .byte 196,1,122,16,4,129 // vmovss (%r9,%r8,4),%xmm8
+ .byte 196,193,249,126,200 // vmovq %xmm1,%r8
+ .byte 196,65,122,16,20,129 // vmovss (%r9,%rax,4),%xmm10
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 73,193,232,30 // shr $0x1e,%r8
+ .byte 196,193,122,16,20,129 // vmovss (%r9,%rax,4),%xmm2
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
+ .byte 196,131,105,33,20,1,16 // vinsertps $0x10,(%r9,%r8,1),%xmm2,%xmm2
+ .byte 68,137,208 // mov %r10d,%eax
+ .byte 196,193,122,16,60,129 // vmovss (%r9,%rax,4),%xmm7
.byte 196,195,33,33,205,32 // vinsertps $0x20,%xmm13,%xmm11,%xmm1
- .byte 73,193,235,30 // shr $0x1e,%r11
- .byte 196,1,122,16,28,26 // vmovss (%r10,%r11,1),%xmm11
+ .byte 73,193,234,30 // shr $0x1e,%r10
+ .byte 196,1,122,16,28,17 // vmovss (%r9,%r10,1),%xmm11
.byte 196,195,113,33,204,48 // vinsertps $0x30,%xmm12,%xmm1,%xmm1
.byte 196,195,9,33,223,32 // vinsertps $0x20,%xmm15,%xmm14,%xmm3
.byte 196,227,97,33,222,48 // vinsertps $0x30,%xmm6,%xmm3,%xmm3
@@ -19090,189 +19061,189 @@ _sk_load_tables_rgb_u16_be_avx:
.byte 196,195,105,33,211,48 // vinsertps $0x30,%xmm11,%xmm2,%xmm2
.byte 196,227,109,24,211,1 // vinsertf128 $0x1,%xmm3,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,156,28,2,0 // vbroadcastss 0x21c9c(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,192,28,2,0 // vbroadcastss 0x21cc0(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,16,116,36,168 // vmovups -0x58(%rsp),%ymm6
.byte 197,252,16,124,36,200 // vmovups -0x38(%rsp),%ymm7
.byte 255,224 // jmpq *%rax
- .byte 196,129,121,110,4,81 // vmovd (%r9,%r10,2),%xmm0
- .byte 196,1,121,196,92,81,4,2 // vpinsrw $0x2,0x4(%r9,%r10,2),%xmm0,%xmm11
+ .byte 196,129,121,110,4,72 // vmovd (%r8,%r9,2),%xmm0
+ .byte 196,1,121,196,92,72,4,2 // vpinsrw $0x2,0x4(%r8,%r9,2),%xmm0,%xmm11
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,32 // jne 9cd3 <_sk_load_tables_rgb_u16_be_avx+0x29f>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,32 // jne 9c67 <_sk_load_tables_rgb_u16_be_avx+0x29f>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
.byte 197,225,239,219 // vpxor %xmm3,%xmm3,%xmm3
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
- .byte 233,180,253,255,255 // jmpq 9a87 <_sk_load_tables_rgb_u16_be_avx+0x53>
- .byte 196,129,121,110,68,81,6 // vmovd 0x6(%r9,%r10,2),%xmm0
- .byte 196,1,121,196,68,81,10,2 // vpinsrw $0x2,0xa(%r9,%r10,2),%xmm0,%xmm8
+ .byte 233,180,253,255,255 // jmpq 9a1b <_sk_load_tables_rgb_u16_be_avx+0x53>
+ .byte 196,129,121,110,68,72,6 // vmovd 0x6(%r8,%r9,2),%xmm0
+ .byte 196,1,121,196,68,72,10,2 // vpinsrw $0x2,0xa(%r8,%r9,2),%xmm0,%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,49 // jb 9d1e <_sk_load_tables_rgb_u16_be_avx+0x2ea>
- .byte 196,129,121,110,68,81,12 // vmovd 0xc(%r9,%r10,2),%xmm0
- .byte 196,129,121,196,92,81,16,2 // vpinsrw $0x2,0x10(%r9,%r10,2),%xmm0,%xmm3
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,49 // jb 9cb2 <_sk_load_tables_rgb_u16_be_avx+0x2ea>
+ .byte 196,129,121,110,68,72,12 // vmovd 0xc(%r8,%r9,2),%xmm0
+ .byte 196,129,121,196,92,72,16,2 // vpinsrw $0x2,0x10(%r8,%r9,2),%xmm0,%xmm3
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 117,50 // jne 9d39 <_sk_load_tables_rgb_u16_be_avx+0x305>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 117,50 // jne 9ccd <_sk_load_tables_rgb_u16_be_avx+0x305>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
- .byte 233,105,253,255,255 // jmpq 9a87 <_sk_load_tables_rgb_u16_be_avx+0x53>
+ .byte 233,105,253,255,255 // jmpq 9a1b <_sk_load_tables_rgb_u16_be_avx+0x53>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
.byte 197,225,239,219 // vpxor %xmm3,%xmm3,%xmm3
- .byte 233,78,253,255,255 // jmpq 9a87 <_sk_load_tables_rgb_u16_be_avx+0x53>
- .byte 196,129,121,110,68,81,18 // vmovd 0x12(%r9,%r10,2),%xmm0
- .byte 196,1,121,196,84,81,22,2 // vpinsrw $0x2,0x16(%r9,%r10,2),%xmm0,%xmm10
+ .byte 233,78,253,255,255 // jmpq 9a1b <_sk_load_tables_rgb_u16_be_avx+0x53>
+ .byte 196,129,121,110,68,72,18 // vmovd 0x12(%r8,%r9,2),%xmm0
+ .byte 196,1,121,196,84,72,22,2 // vpinsrw $0x2,0x16(%r8,%r9,2),%xmm0,%xmm10
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,40 // jb 9d7b <_sk_load_tables_rgb_u16_be_avx+0x347>
- .byte 196,129,121,110,68,81,24 // vmovd 0x18(%r9,%r10,2),%xmm0
- .byte 196,129,121,196,84,81,28,2 // vpinsrw $0x2,0x1c(%r9,%r10,2),%xmm0,%xmm2
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,40 // jb 9d0f <_sk_load_tables_rgb_u16_be_avx+0x347>
+ .byte 196,129,121,110,68,72,24 // vmovd 0x18(%r8,%r9,2),%xmm0
+ .byte 196,129,121,196,84,72,28,2 // vpinsrw $0x2,0x1c(%r8,%r9,2),%xmm0,%xmm2
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 117,32 // jne 9d8d <_sk_load_tables_rgb_u16_be_avx+0x359>
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 117,32 // jne 9d21 <_sk_load_tables_rgb_u16_be_avx+0x359>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
- .byte 233,12,253,255,255 // jmpq 9a87 <_sk_load_tables_rgb_u16_be_avx+0x53>
+ .byte 233,12,253,255,255 // jmpq 9a1b <_sk_load_tables_rgb_u16_be_avx+0x53>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
- .byte 233,250,252,255,255 // jmpq 9a87 <_sk_load_tables_rgb_u16_be_avx+0x53>
- .byte 196,129,121,110,68,81,30 // vmovd 0x1e(%r9,%r10,2),%xmm0
- .byte 196,1,121,196,100,81,34,2 // vpinsrw $0x2,0x22(%r9,%r10,2),%xmm0,%xmm12
+ .byte 233,250,252,255,255 // jmpq 9a1b <_sk_load_tables_rgb_u16_be_avx+0x53>
+ .byte 196,129,121,110,68,72,30 // vmovd 0x1e(%r8,%r9,2),%xmm0
+ .byte 196,1,121,196,100,72,34,2 // vpinsrw $0x2,0x22(%r8,%r9,2),%xmm0,%xmm12
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 114,25 // jb 9dc0 <_sk_load_tables_rgb_u16_be_avx+0x38c>
- .byte 196,129,121,110,68,81,36 // vmovd 0x24(%r9,%r10,2),%xmm0
- .byte 196,129,121,196,68,81,40,2 // vpinsrw $0x2,0x28(%r9,%r10,2),%xmm0,%xmm0
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 114,25 // jb 9d54 <_sk_load_tables_rgb_u16_be_avx+0x38c>
+ .byte 196,129,121,110,68,72,36 // vmovd 0x24(%r8,%r9,2),%xmm0
+ .byte 196,129,121,196,68,72,40,2 // vpinsrw $0x2,0x28(%r8,%r9,2),%xmm0,%xmm0
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 233,199,252,255,255 // jmpq 9a87 <_sk_load_tables_rgb_u16_be_avx+0x53>
+ .byte 233,199,252,255,255 // jmpq 9a1b <_sk_load_tables_rgb_u16_be_avx+0x53>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 233,190,252,255,255 // jmpq 9a87 <_sk_load_tables_rgb_u16_be_avx+0x53>
+ .byte 233,190,252,255,255 // jmpq 9a1b <_sk_load_tables_rgb_u16_be_avx+0x53>
HIDDEN _sk_byte_tables_avx
.globl _sk_byte_tables_avx
FUNCTION(_sk_byte_tables_avx)
_sk_byte_tables_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,98,125,24,5,128,27,2,0 // vbroadcastss 0x21b80(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 196,98,125,24,5,164,27,2,0 // vbroadcastss 0x21ba4(%rip),%ymm8 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
.byte 197,125,91,200 // vcvtps2dq %ymm0,%ymm9
- .byte 196,65,249,126,201 // vmovq %xmm9,%r9
+ .byte 196,65,249,126,200 // vmovq %xmm9,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 76,139,16 // mov (%rax),%r10
+ .byte 196,131,121,32,4,10,0 // vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm0
+ .byte 196,67,249,22,201,1 // vpextrq $0x1,%xmm9,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,3,121,32,20,2,1 // vpinsrb $0x1,(%r10,%r8,1),%xmm0,%xmm10
+ .byte 69,137,200 // mov %r9d,%r8d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,99,125,25,200,1 // vextractf128 $0x1,%ymm9,%xmm0
+ .byte 71,15,182,4,2 // movzbl (%r10,%r8,1),%r8d
+ .byte 196,67,41,32,200,2 // vpinsrb $0x2,%r8d,%xmm10,%xmm9
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
+ .byte 196,67,49,32,201,3 // vpinsrb $0x3,%r9d,%xmm9,%xmm9
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 196,3,121,32,20,10,0 // vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm10
+ .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,131,41,32,4,2,1 // vpinsrb $0x1,(%r10,%r8,1),%xmm10,%xmm0
+ .byte 69,137,200 // mov %r9d,%r8d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 71,15,182,4,2 // movzbl (%r10,%r8,1),%r8d
+ .byte 196,195,121,32,192,2 // vpinsrb $0x2,%r8d,%xmm0,%xmm0
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
+ .byte 196,67,121,32,209,3 // vpinsrb $0x3,%r9d,%xmm0,%xmm10
+ .byte 196,193,116,89,192 // vmulps %ymm8,%ymm1,%ymm0
+ .byte 197,253,91,192 // vcvtps2dq %ymm0,%ymm0
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 69,137,202 // mov %r9d,%r10d
- .byte 76,139,24 // mov (%rax),%r11
- .byte 196,131,121,32,4,19,0 // vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm0
- .byte 196,67,249,22,202,1 // vpextrq $0x1,%xmm9,%r10
+ .byte 196,131,121,32,12,16,0 // vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm1
+ .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,3,121,32,20,11,1 // vpinsrb $0x1,(%r11,%r9,1),%xmm0,%xmm10
+ .byte 196,131,113,32,12,8,1 // vpinsrb $0x1,(%r8,%r9,1),%xmm1,%xmm1
.byte 69,137,209 // mov %r10d,%r9d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,99,125,25,200,1 // vextractf128 $0x1,%ymm9,%xmm0
- .byte 71,15,182,12,11 // movzbl (%r11,%r9,1),%r9d
- .byte 196,67,41,32,201,2 // vpinsrb $0x2,%r9d,%xmm10,%xmm9
+ .byte 196,227,125,25,192,1 // vextractf128 $0x1,%ymm0,%xmm0
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,113,32,201,2 // vpinsrb $0x2,%r9d,%xmm1,%xmm1
.byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 71,15,182,20,19 // movzbl (%r11,%r10,1),%r10d
- .byte 196,67,49,32,202,3 // vpinsrb $0x3,%r10d,%xmm9,%xmm9
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 196,67,113,32,226,3 // vpinsrb $0x3,%r10d,%xmm1,%xmm12
.byte 69,137,202 // mov %r9d,%r10d
- .byte 196,3,121,32,20,19,0 // vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm10
+ .byte 196,131,121,32,12,16,0 // vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm1
.byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,131,41,32,4,11,1 // vpinsrb $0x1,(%r11,%r9,1),%xmm10,%xmm0
+ .byte 196,131,113,32,4,8,1 // vpinsrb $0x1,(%r8,%r9,1),%xmm1,%xmm0
.byte 69,137,209 // mov %r10d,%r9d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 71,15,182,12,11 // movzbl (%r11,%r9,1),%r9d
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
.byte 196,195,121,32,193,2 // vpinsrb $0x2,%r9d,%xmm0,%xmm0
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
- .byte 71,15,182,20,19 // movzbl (%r11,%r10,1),%r10d
- .byte 196,67,121,32,210,3 // vpinsrb $0x3,%r10d,%xmm0,%xmm10
- .byte 196,193,116,89,192 // vmulps %ymm8,%ymm1,%ymm0
- .byte 197,253,91,192 // vcvtps2dq %ymm0,%ymm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,131,121,32,12,25,0 // vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,113,32,12,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm1,%xmm1
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,227,125,25,192,1 // vextractf128 $0x1,%ymm0,%xmm0
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,113,32,202,2 // vpinsrb $0x2,%r10d,%xmm1,%xmm1
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 196,67,113,32,227,3 // vpinsrb $0x3,%r11d,%xmm1,%xmm12
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,131,121,32,12,25,0 // vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,113,32,4,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm1,%xmm0
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,121,32,194,2 // vpinsrb $0x2,%r10d,%xmm0,%xmm0
- .byte 71,15,182,12,25 // movzbl (%r9,%r11,1),%r9d
- .byte 196,67,121,32,233,3 // vpinsrb $0x3,%r9d,%xmm0,%xmm13
- .byte 76,139,72,16 // mov 0x10(%rax),%r9
+ .byte 71,15,182,4,16 // movzbl (%r8,%r10,1),%r8d
+ .byte 196,67,121,32,232,3 // vpinsrb $0x3,%r8d,%xmm0,%xmm13
+ .byte 76,139,64,16 // mov 0x10(%rax),%r8
.byte 196,193,108,89,200 // vmulps %ymm8,%ymm2,%ymm1
.byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,131,121,32,20,25,0 // vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm2
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 196,131,121,32,20,16,0 // vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm2
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,131,105,32,20,8,1 // vpinsrb $0x1,(%r8,%r9,1),%xmm2,%xmm2
+ .byte 69,137,209 // mov %r10d,%r9d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,105,32,20,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm2
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
.byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,105,32,210,2 // vpinsrb $0x2,%r10d,%xmm2,%xmm2
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 196,67,105,32,219,3 // vpinsrb $0x3,%r11d,%xmm2,%xmm11
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,131,121,32,20,25,0 // vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm2
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,105,32,209,2 // vpinsrb $0x2,%r9d,%xmm2,%xmm2
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 196,67,105,32,218,3 // vpinsrb $0x3,%r10d,%xmm2,%xmm11
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 196,131,121,32,20,16,0 // vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm2
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,131,105,32,12,8,1 // vpinsrb $0x1,(%r8,%r9,1),%xmm2,%xmm1
+ .byte 69,137,209 // mov %r10d,%r9d
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,113,32,201,2 // vpinsrb $0x2,%r9d,%xmm1,%xmm1
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,105,32,12,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm1
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,113,32,202,2 // vpinsrb $0x2,%r10d,%xmm1,%xmm1
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 71,15,182,12,25 // movzbl (%r9,%r11,1),%r9d
- .byte 196,67,113,32,241,3 // vpinsrb $0x3,%r9d,%xmm1,%xmm14
- .byte 76,139,80,24 // mov 0x18(%rax),%r10
+ .byte 71,15,182,4,16 // movzbl (%r8,%r10,1),%r8d
+ .byte 196,67,113,32,240,3 // vpinsrb $0x3,%r8d,%xmm1,%xmm14
+ .byte 76,139,72,24 // mov 0x18(%rax),%r9
.byte 196,193,100,89,200 // vmulps %ymm8,%ymm3,%ymm1
.byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
- .byte 196,193,249,126,201 // vmovq %xmm1,%r9
- .byte 68,137,200 // mov %r9d,%eax
- .byte 196,195,121,32,28,2,0 // vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm3
+ .byte 196,193,249,126,200 // vmovq %xmm1,%r8
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 196,195,121,32,28,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm3
.byte 196,227,249,22,200,1 // vpextrq $0x1,%xmm1,%rax
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,131,97,32,28,10,1 // vpinsrb $0x1,(%r10,%r9,1),%xmm3,%xmm3
- .byte 65,137,193 // mov %eax,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,131,97,32,28,1,1 // vpinsrb $0x1,(%r9,%r8,1),%xmm3,%xmm3
+ .byte 65,137,192 // mov %eax,%r8d
.byte 72,193,232,32 // shr $0x20,%rax
.byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
- .byte 196,195,97,32,217,2 // vpinsrb $0x2,%r9d,%xmm3,%xmm3
- .byte 196,193,249,126,201 // vmovq %xmm1,%r9
- .byte 65,15,182,4,2 // movzbl (%r10,%rax,1),%eax
+ .byte 71,15,182,4,1 // movzbl (%r9,%r8,1),%r8d
+ .byte 196,195,97,32,216,2 // vpinsrb $0x2,%r8d,%xmm3,%xmm3
+ .byte 196,193,249,126,200 // vmovq %xmm1,%r8
+ .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
.byte 196,99,97,32,192,3 // vpinsrb $0x3,%eax,%xmm3,%xmm8
- .byte 68,137,200 // mov %r9d,%eax
- .byte 196,195,121,32,4,2,0 // vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm0
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,131,121,32,4,10,1 // vpinsrb $0x1,(%r10,%r9,1),%xmm0,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,182,4,2 // movzbl (%r10,%rax,1),%eax
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 196,195,121,32,4,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm0
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,131,121,32,4,1,1 // vpinsrb $0x1,(%r9,%r8,1),%xmm0,%xmm0
+ .byte 68,137,208 // mov %r10d,%eax
+ .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
.byte 196,99,121,32,248,2 // vpinsrb $0x2,%eax,%xmm0,%xmm15
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,182,4,26 // movzbl (%r10,%r11,1),%eax
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 67,15,182,4,17 // movzbl (%r9,%r10,1),%eax
.byte 196,194,121,49,193 // vpmovzxbd %xmm9,%xmm0
.byte 196,194,121,49,202 // vpmovzxbd %xmm10,%xmm1
.byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
@@ -19280,7 +19251,7 @@ _sk_byte_tables_avx:
.byte 196,194,121,49,204 // vpmovzxbd %xmm12,%xmm1
.byte 196,194,121,49,213 // vpmovzxbd %xmm13,%xmm2
.byte 196,227,117,24,202,1 // vinsertf128 $0x1,%xmm2,%ymm1,%ymm1
- .byte 196,98,125,24,13,110,25,2,0 // vbroadcastss 0x2196e(%rip),%ymm9 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,13,146,25,2,0 // vbroadcastss 0x21992(%rip),%ymm9 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,193 // vmulps %ymm9,%ymm0,%ymm0
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
.byte 196,193,116,89,201 // vmulps %ymm9,%ymm1,%ymm1
@@ -19303,100 +19274,100 @@ HIDDEN _sk_byte_tables_rgb_avx
FUNCTION(_sk_byte_tables_rgb_avx)
_sk_byte_tables_rgb_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,24 // mov 0x18(%rax),%r9d
- .byte 65,255,201 // dec %r9d
- .byte 196,65,121,110,193 // vmovd %r9d,%xmm8
+ .byte 68,139,64,24 // mov 0x18(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 196,65,121,110,192 // vmovd %r8d,%xmm8
.byte 196,65,121,112,192,0 // vpshufd $0x0,%xmm8,%xmm8
.byte 196,67,61,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 197,125,91,200 // vcvtps2dq %ymm0,%ymm9
- .byte 196,65,249,126,201 // vmovq %xmm9,%r9
+ .byte 196,65,249,126,200 // vmovq %xmm9,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 76,139,16 // mov (%rax),%r10
+ .byte 196,131,121,32,4,10,0 // vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm0
+ .byte 196,67,249,22,201,1 // vpextrq $0x1,%xmm9,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,3,121,32,20,2,1 // vpinsrb $0x1,(%r10,%r8,1),%xmm0,%xmm10
+ .byte 69,137,200 // mov %r9d,%r8d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,99,125,25,200,1 // vextractf128 $0x1,%ymm9,%xmm0
+ .byte 71,15,182,4,2 // movzbl (%r10,%r8,1),%r8d
+ .byte 196,67,41,32,200,2 // vpinsrb $0x2,%r8d,%xmm10,%xmm9
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
+ .byte 196,67,49,32,201,3 // vpinsrb $0x3,%r9d,%xmm9,%xmm9
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 196,3,121,32,20,10,0 // vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm10
+ .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,131,41,32,4,2,1 // vpinsrb $0x1,(%r10,%r8,1),%xmm10,%xmm0
+ .byte 69,137,200 // mov %r9d,%r8d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 71,15,182,4,2 // movzbl (%r10,%r8,1),%r8d
+ .byte 196,195,121,32,192,2 // vpinsrb $0x2,%r8d,%xmm0,%xmm0
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
+ .byte 196,67,121,32,217,3 // vpinsrb $0x3,%r9d,%xmm0,%xmm11
+ .byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
+ .byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
.byte 69,137,202 // mov %r9d,%r10d
- .byte 76,139,24 // mov (%rax),%r11
- .byte 196,131,121,32,4,19,0 // vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm0
- .byte 196,67,249,22,202,1 // vpextrq $0x1,%xmm9,%r10
+ .byte 196,131,121,32,4,16,0 // vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm0
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,3,121,32,20,11,1 // vpinsrb $0x1,(%r11,%r9,1),%xmm0,%xmm10
+ .byte 196,131,121,32,4,8,1 // vpinsrb $0x1,(%r8,%r9,1),%xmm0,%xmm0
.byte 69,137,209 // mov %r10d,%r9d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,99,125,25,200,1 // vextractf128 $0x1,%ymm9,%xmm0
- .byte 71,15,182,12,11 // movzbl (%r11,%r9,1),%r9d
- .byte 196,67,41,32,201,2 // vpinsrb $0x2,%r9d,%xmm10,%xmm9
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 71,15,182,20,19 // movzbl (%r11,%r10,1),%r10d
- .byte 196,67,49,32,202,3 // vpinsrb $0x3,%r10d,%xmm9,%xmm9
+ .byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 196,195,121,32,193,2 // vpinsrb $0x2,%r9d,%xmm0,%xmm0
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 196,67,121,32,210,3 // vpinsrb $0x3,%r10d,%xmm0,%xmm10
.byte 69,137,202 // mov %r9d,%r10d
- .byte 196,3,121,32,20,19,0 // vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm10
- .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 196,131,121,32,4,16,0 // vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm0
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,131,41,32,4,11,1 // vpinsrb $0x1,(%r11,%r9,1),%xmm10,%xmm0
+ .byte 196,131,121,32,4,8,1 // vpinsrb $0x1,(%r8,%r9,1),%xmm0,%xmm0
.byte 69,137,209 // mov %r10d,%r9d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 71,15,182,12,11 // movzbl (%r11,%r9,1),%r9d
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
.byte 196,195,121,32,193,2 // vpinsrb $0x2,%r9d,%xmm0,%xmm0
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
- .byte 71,15,182,20,19 // movzbl (%r11,%r10,1),%r10d
- .byte 196,67,121,32,218,3 // vpinsrb $0x3,%r10d,%xmm0,%xmm11
- .byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
- .byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,131,121,32,4,25,0 // vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm0
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,121,32,4,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm0,%xmm0
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,121,32,194,2 // vpinsrb $0x2,%r10d,%xmm0,%xmm0
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 196,67,121,32,211,3 // vpinsrb $0x3,%r11d,%xmm0,%xmm10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 196,131,121,32,4,25,0 // vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm0
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,121,32,4,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm0,%xmm0
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 196,195,121,32,194,2 // vpinsrb $0x2,%r10d,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 71,15,182,12,25 // movzbl (%r9,%r11,1),%r9d
- .byte 196,67,121,32,225,3 // vpinsrb $0x3,%r9d,%xmm0,%xmm12
- .byte 76,139,80,16 // mov 0x10(%rax),%r10
+ .byte 71,15,182,4,16 // movzbl (%r8,%r10,1),%r8d
+ .byte 196,67,121,32,224,3 // vpinsrb $0x3,%r8d,%xmm0,%xmm12
+ .byte 76,139,72,16 // mov 0x10(%rax),%r9
.byte 197,188,89,194 // vmulps %ymm2,%ymm8,%ymm0
.byte 197,253,91,192 // vcvtps2dq %ymm0,%ymm0
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 68,137,200 // mov %r9d,%eax
- .byte 196,195,121,32,20,2,0 // vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm2
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 196,195,121,32,20,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
.byte 196,227,249,22,192,1 // vpextrq $0x1,%xmm0,%rax
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,131,105,32,20,10,1 // vpinsrb $0x1,(%r10,%r9,1),%xmm2,%xmm2
- .byte 65,137,193 // mov %eax,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,131,105,32,20,1,1 // vpinsrb $0x1,(%r9,%r8,1),%xmm2,%xmm2
+ .byte 65,137,192 // mov %eax,%r8d
.byte 72,193,232,32 // shr $0x20,%rax
.byte 196,227,125,25,192,1 // vextractf128 $0x1,%ymm0,%xmm0
- .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
- .byte 196,195,105,32,209,2 // vpinsrb $0x2,%r9d,%xmm2,%xmm2
- .byte 196,193,249,126,193 // vmovq %xmm0,%r9
- .byte 65,15,182,4,2 // movzbl (%r10,%rax,1),%eax
+ .byte 71,15,182,4,1 // movzbl (%r9,%r8,1),%r8d
+ .byte 196,195,105,32,208,2 // vpinsrb $0x2,%r8d,%xmm2,%xmm2
+ .byte 196,193,249,126,192 // vmovq %xmm0,%r8
+ .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
.byte 196,99,105,32,192,3 // vpinsrb $0x3,%eax,%xmm2,%xmm8
- .byte 68,137,200 // mov %r9d,%eax
- .byte 196,195,121,32,12,2,0 // vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,131,113,32,4,10,1 // vpinsrb $0x1,(%r10,%r9,1),%xmm1,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,182,4,2 // movzbl (%r10,%rax,1),%eax
+ .byte 68,137,192 // mov %r8d,%eax
+ .byte 196,195,121,32,12,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm1
+ .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,131,113,32,4,1,1 // vpinsrb $0x1,(%r9,%r8,1),%xmm1,%xmm0
+ .byte 68,137,208 // mov %r10d,%eax
+ .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
.byte 196,99,121,32,232,2 // vpinsrb $0x2,%eax,%xmm0,%xmm13
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,182,4,26 // movzbl (%r10,%r11,1),%eax
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 67,15,182,4,17 // movzbl (%r9,%r10,1),%eax
.byte 196,194,121,49,193 // vpmovzxbd %xmm9,%xmm0
.byte 196,194,121,49,203 // vpmovzxbd %xmm11,%xmm1
.byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,13,75,23,2,0 // vbroadcastss 0x2174b(%rip),%ymm9 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,13,111,23,2,0 // vbroadcastss 0x2176f(%rip),%ymm9 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,193 // vmulps %ymm9,%ymm0,%ymm0
.byte 196,194,121,49,202 // vpmovzxbd %xmm10,%xmm1
.byte 196,194,121,49,212 // vpmovzxbd %xmm12,%xmm2
@@ -19416,8 +19387,12 @@ HIDDEN _sk_table_r_avx
.globl _sk_table_r_avx
FUNCTION(_sk_table_r_avx)
_sk_table_r_avx:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
@@ -19425,42 +19400,50 @@ _sk_table_r_avx:
.byte 196,67,61,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
- .byte 197,125,91,192 // vcvtps2dq %ymm0,%ymm8
- .byte 196,99,125,25,192,1 // vextractf128 $0x1,%ymm8,%xmm0
+ .byte 197,253,91,192 // vcvtps2dq %ymm0,%ymm0
+ .byte 196,227,249,22,192,1 // vpextrq $0x1,%xmm0,%rax
+ .byte 65,137,193 // mov %eax,%r9d
+ .byte 72,193,232,32 // shr $0x20,%rax
.byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,65,122,16,12,129 // vmovss (%r9,%rax,4),%xmm9
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,49,33,12,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm9,%xmm9
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,65,122,16,20,129 // vmovss (%r9,%rax,4),%xmm10
- .byte 196,65,249,126,194 // vmovq %xmm8,%r10
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,1,122,16,28,153 // vmovss (%r9,%r11,4),%xmm11
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,193,122,16,4,129 // vmovss (%r9,%rax,4),%xmm0
- .byte 196,67,249,22,195,1 // vpextrq $0x1,%xmm8,%r11
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,121,33,4,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm0,%xmm8
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,65,122,16,36,129 // vmovss (%r9,%rax,4),%xmm12
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,1,122,16,44,153 // vmovss (%r9,%r11,4),%xmm13
- .byte 196,195,49,33,194,32 // vinsertps $0x20,%xmm10,%xmm9,%xmm0
- .byte 196,67,121,33,203,48 // vinsertps $0x30,%xmm11,%xmm0,%xmm9
- .byte 196,195,57,33,196,32 // vinsertps $0x20,%xmm12,%xmm8,%xmm0
- .byte 196,195,121,33,197,48 // vinsertps $0x30,%xmm13,%xmm0,%xmm0
- .byte 196,195,125,24,193,1 // vinsertf128 $0x1,%xmm9,%ymm0,%ymm0
+ .byte 196,227,125,25,192,1 // vextractf128 $0x1,%ymm0,%xmm0
+ .byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,193,249,126,199 // vmovq %xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 196,129,122,16,4,160 // vmovss (%r8,%r12,4),%xmm0
+ .byte 196,3,121,33,4,184,16 // vinsertps $0x10,(%r8,%r15,4),%xmm0,%xmm8
+ .byte 196,129,122,16,4,176 // vmovss (%r8,%r14,4),%xmm0
+ .byte 196,99,57,33,192,32 // vinsertps $0x20,%xmm0,%xmm8,%xmm8
+ .byte 196,193,122,16,4,152 // vmovss (%r8,%rbx,4),%xmm0
+ .byte 196,99,57,33,192,48 // vinsertps $0x30,%xmm0,%xmm8,%xmm8
+ .byte 196,129,122,16,4,152 // vmovss (%r8,%r11,4),%xmm0
+ .byte 196,3,121,33,12,144,16 // vinsertps $0x10,(%r8,%r10,4),%xmm0,%xmm9
+ .byte 196,129,122,16,4,136 // vmovss (%r8,%r9,4),%xmm0
+ .byte 196,99,49,33,200,32 // vinsertps $0x20,%xmm0,%xmm9,%xmm9
+ .byte 196,193,122,16,4,128 // vmovss (%r8,%rax,4),%xmm0
+ .byte 196,227,49,33,192,48 // vinsertps $0x30,%xmm0,%xmm9,%xmm0
+ .byte 196,195,125,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_table_g_avx
.globl _sk_table_g_avx
FUNCTION(_sk_table_g_avx)
_sk_table_g_avx:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
@@ -19468,42 +19451,50 @@ _sk_table_g_avx:
.byte 196,67,61,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
.byte 197,188,89,201 // vmulps %ymm1,%ymm8,%ymm1
- .byte 197,125,91,193 // vcvtps2dq %ymm1,%ymm8
- .byte 196,99,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm1
+ .byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
+ .byte 196,227,249,22,200,1 // vpextrq $0x1,%xmm1,%rax
+ .byte 65,137,193 // mov %eax,%r9d
+ .byte 72,193,232,32 // shr $0x20,%rax
.byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,65,122,16,12,129 // vmovss (%r9,%rax,4),%xmm9
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,49,33,12,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm9,%xmm9
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,65,122,16,20,129 // vmovss (%r9,%rax,4),%xmm10
- .byte 196,65,249,126,194 // vmovq %xmm8,%r10
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,1,122,16,28,153 // vmovss (%r9,%r11,4),%xmm11
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,193,122,16,12,129 // vmovss (%r9,%rax,4),%xmm1
- .byte 196,67,249,22,195,1 // vpextrq $0x1,%xmm8,%r11
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,113,33,4,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm1,%xmm8
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,65,122,16,36,129 // vmovss (%r9,%rax,4),%xmm12
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,1,122,16,44,153 // vmovss (%r9,%r11,4),%xmm13
- .byte 196,195,49,33,202,32 // vinsertps $0x20,%xmm10,%xmm9,%xmm1
- .byte 196,67,113,33,203,48 // vinsertps $0x30,%xmm11,%xmm1,%xmm9
- .byte 196,195,57,33,204,32 // vinsertps $0x20,%xmm12,%xmm8,%xmm1
- .byte 196,195,113,33,205,48 // vinsertps $0x30,%xmm13,%xmm1,%xmm1
- .byte 196,195,117,24,201,1 // vinsertf128 $0x1,%xmm9,%ymm1,%ymm1
+ .byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
+ .byte 196,227,249,22,203,1 // vpextrq $0x1,%xmm1,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,193,249,126,207 // vmovq %xmm1,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 196,129,122,16,12,160 // vmovss (%r8,%r12,4),%xmm1
+ .byte 196,3,113,33,4,184,16 // vinsertps $0x10,(%r8,%r15,4),%xmm1,%xmm8
+ .byte 196,129,122,16,12,176 // vmovss (%r8,%r14,4),%xmm1
+ .byte 196,99,57,33,193,32 // vinsertps $0x20,%xmm1,%xmm8,%xmm8
+ .byte 196,193,122,16,12,152 // vmovss (%r8,%rbx,4),%xmm1
+ .byte 196,99,57,33,193,48 // vinsertps $0x30,%xmm1,%xmm8,%xmm8
+ .byte 196,129,122,16,12,152 // vmovss (%r8,%r11,4),%xmm1
+ .byte 196,3,113,33,12,144,16 // vinsertps $0x10,(%r8,%r10,4),%xmm1,%xmm9
+ .byte 196,129,122,16,12,136 // vmovss (%r8,%r9,4),%xmm1
+ .byte 196,99,49,33,201,32 // vinsertps $0x20,%xmm1,%xmm9,%xmm9
+ .byte 196,193,122,16,12,128 // vmovss (%r8,%rax,4),%xmm1
+ .byte 196,227,49,33,201,48 // vinsertps $0x30,%xmm1,%xmm9,%xmm1
+ .byte 196,195,117,24,200,1 // vinsertf128 $0x1,%xmm8,%ymm1,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_table_b_avx
.globl _sk_table_b_avx
FUNCTION(_sk_table_b_avx)
_sk_table_b_avx:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
@@ -19511,42 +19502,50 @@ _sk_table_b_avx:
.byte 196,67,61,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
.byte 197,188,89,210 // vmulps %ymm2,%ymm8,%ymm2
- .byte 197,125,91,194 // vcvtps2dq %ymm2,%ymm8
- .byte 196,99,125,25,194,1 // vextractf128 $0x1,%ymm8,%xmm2
+ .byte 197,253,91,210 // vcvtps2dq %ymm2,%ymm2
+ .byte 196,227,249,22,208,1 // vpextrq $0x1,%xmm2,%rax
+ .byte 65,137,193 // mov %eax,%r9d
+ .byte 72,193,232,32 // shr $0x20,%rax
.byte 196,193,249,126,210 // vmovq %xmm2,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,65,122,16,12,129 // vmovss (%r9,%rax,4),%xmm9
- .byte 196,195,249,22,211,1 // vpextrq $0x1,%xmm2,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,49,33,12,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm9,%xmm9
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,65,122,16,20,129 // vmovss (%r9,%rax,4),%xmm10
- .byte 196,65,249,126,194 // vmovq %xmm8,%r10
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,1,122,16,28,153 // vmovss (%r9,%r11,4),%xmm11
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,193,122,16,20,129 // vmovss (%r9,%rax,4),%xmm2
- .byte 196,67,249,22,195,1 // vpextrq $0x1,%xmm8,%r11
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,105,33,4,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm2,%xmm8
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,65,122,16,36,129 // vmovss (%r9,%rax,4),%xmm12
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,1,122,16,44,153 // vmovss (%r9,%r11,4),%xmm13
- .byte 196,195,49,33,210,32 // vinsertps $0x20,%xmm10,%xmm9,%xmm2
- .byte 196,67,105,33,203,48 // vinsertps $0x30,%xmm11,%xmm2,%xmm9
- .byte 196,195,57,33,212,32 // vinsertps $0x20,%xmm12,%xmm8,%xmm2
- .byte 196,195,105,33,213,48 // vinsertps $0x30,%xmm13,%xmm2,%xmm2
- .byte 196,195,109,24,209,1 // vinsertf128 $0x1,%xmm9,%ymm2,%ymm2
+ .byte 196,227,125,25,210,1 // vextractf128 $0x1,%ymm2,%xmm2
+ .byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,193,249,126,215 // vmovq %xmm2,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 196,129,122,16,20,160 // vmovss (%r8,%r12,4),%xmm2
+ .byte 196,3,105,33,4,184,16 // vinsertps $0x10,(%r8,%r15,4),%xmm2,%xmm8
+ .byte 196,129,122,16,20,176 // vmovss (%r8,%r14,4),%xmm2
+ .byte 196,99,57,33,194,32 // vinsertps $0x20,%xmm2,%xmm8,%xmm8
+ .byte 196,193,122,16,20,152 // vmovss (%r8,%rbx,4),%xmm2
+ .byte 196,99,57,33,194,48 // vinsertps $0x30,%xmm2,%xmm8,%xmm8
+ .byte 196,129,122,16,20,152 // vmovss (%r8,%r11,4),%xmm2
+ .byte 196,3,105,33,12,144,16 // vinsertps $0x10,(%r8,%r10,4),%xmm2,%xmm9
+ .byte 196,129,122,16,20,136 // vmovss (%r8,%r9,4),%xmm2
+ .byte 196,99,49,33,202,32 // vinsertps $0x20,%xmm2,%xmm9,%xmm9
+ .byte 196,193,122,16,20,128 // vmovss (%r8,%rax,4),%xmm2
+ .byte 196,227,49,33,210,48 // vinsertps $0x30,%xmm2,%xmm9,%xmm2
+ .byte 196,195,109,24,208,1 // vinsertf128 $0x1,%xmm8,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_table_a_avx
.globl _sk_table_a_avx
FUNCTION(_sk_table_a_avx)
_sk_table_a_avx:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 197,121,110,192 // vmovd %eax,%xmm8
@@ -19554,34 +19553,38 @@ _sk_table_a_avx:
.byte 196,67,61,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm8,%ymm8
.byte 196,65,124,91,192 // vcvtdq2ps %ymm8,%ymm8
.byte 197,188,89,219 // vmulps %ymm3,%ymm8,%ymm3
- .byte 197,125,91,195 // vcvtps2dq %ymm3,%ymm8
- .byte 196,99,125,25,195,1 // vextractf128 $0x1,%ymm8,%xmm3
+ .byte 197,253,91,219 // vcvtps2dq %ymm3,%ymm3
+ .byte 196,227,249,22,216,1 // vpextrq $0x1,%xmm3,%rax
+ .byte 65,137,193 // mov %eax,%r9d
+ .byte 72,193,232,32 // shr $0x20,%rax
.byte 196,193,249,126,218 // vmovq %xmm3,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,65,122,16,12,129 // vmovss (%r9,%rax,4),%xmm9
- .byte 196,195,249,22,219,1 // vpextrq $0x1,%xmm3,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,49,33,12,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm9,%xmm9
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,65,122,16,20,129 // vmovss (%r9,%rax,4),%xmm10
- .byte 196,65,249,126,194 // vmovq %xmm8,%r10
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,1,122,16,28,153 // vmovss (%r9,%r11,4),%xmm11
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,193,122,16,28,129 // vmovss (%r9,%rax,4),%xmm3
- .byte 196,67,249,22,195,1 // vpextrq $0x1,%xmm8,%r11
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,3,97,33,4,145,16 // vinsertps $0x10,(%r9,%r10,4),%xmm3,%xmm8
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,65,122,16,36,129 // vmovss (%r9,%rax,4),%xmm12
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,1,122,16,44,153 // vmovss (%r9,%r11,4),%xmm13
- .byte 196,195,49,33,218,32 // vinsertps $0x20,%xmm10,%xmm9,%xmm3
- .byte 196,67,97,33,203,48 // vinsertps $0x30,%xmm11,%xmm3,%xmm9
- .byte 196,195,57,33,220,32 // vinsertps $0x20,%xmm12,%xmm8,%xmm3
- .byte 196,195,97,33,221,48 // vinsertps $0x30,%xmm13,%xmm3,%xmm3
- .byte 196,195,101,24,217,1 // vinsertf128 $0x1,%xmm9,%ymm3,%ymm3
+ .byte 196,227,125,25,219,1 // vextractf128 $0x1,%ymm3,%xmm3
+ .byte 196,227,249,22,219,1 // vpextrq $0x1,%xmm3,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,193,249,126,223 // vmovq %xmm3,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 196,129,122,16,28,160 // vmovss (%r8,%r12,4),%xmm3
+ .byte 196,3,97,33,4,184,16 // vinsertps $0x10,(%r8,%r15,4),%xmm3,%xmm8
+ .byte 196,129,122,16,28,176 // vmovss (%r8,%r14,4),%xmm3
+ .byte 196,99,57,33,195,32 // vinsertps $0x20,%xmm3,%xmm8,%xmm8
+ .byte 196,193,122,16,28,152 // vmovss (%r8,%rbx,4),%xmm3
+ .byte 196,99,57,33,195,48 // vinsertps $0x30,%xmm3,%xmm8,%xmm8
+ .byte 196,129,122,16,28,152 // vmovss (%r8,%r11,4),%xmm3
+ .byte 196,3,97,33,12,144,16 // vinsertps $0x10,(%r8,%r10,4),%xmm3,%xmm9
+ .byte 196,129,122,16,28,136 // vmovss (%r8,%r9,4),%xmm3
+ .byte 196,99,49,33,203,32 // vinsertps $0x20,%xmm3,%xmm9,%xmm9
+ .byte 196,193,122,16,28,128 // vmovss (%r8,%rax,4),%xmm3
+ .byte 196,227,49,33,219,48 // vinsertps $0x30,%xmm3,%xmm9,%xmm3
+ .byte 196,195,101,24,216,1 // vinsertf128 $0x1,%xmm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_parametric_r_avx
@@ -19601,36 +19604,36 @@ _sk_parametric_r_avx:
.byte 196,193,124,88,195 // vaddps %ymm11,%ymm0,%ymm0
.byte 196,98,125,24,16 // vbroadcastss (%rax),%ymm10
.byte 197,124,91,216 // vcvtdq2ps %ymm0,%ymm11
- .byte 196,98,125,24,37,20,20,2,0 // vbroadcastss 0x21414(%rip),%ymm12 # 2b9bc <_sk_overlay_sse2_8bit+0x4d7>
+ .byte 196,98,125,24,37,0,20,2,0 // vbroadcastss 0x21400(%rip),%ymm12 # 2b974 <_sk_overlay_sse2_8bit+0x4d7>
.byte 196,65,36,89,220 // vmulps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,10,20,2,0 // vbroadcastss 0x2140a(%rip),%ymm12 # 2b9c0 <_sk_overlay_sse2_8bit+0x4db>
+ .byte 196,98,125,24,37,246,19,2,0 // vbroadcastss 0x213f6(%rip),%ymm12 # 2b978 <_sk_overlay_sse2_8bit+0x4db>
.byte 196,193,124,84,196 // vandps %ymm12,%ymm0,%ymm0
- .byte 196,98,125,24,37,96,19,2,0 // vbroadcastss 0x21360(%rip),%ymm12 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,37,76,19,2,0 // vbroadcastss 0x2134c(%rip),%ymm12 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,193,124,86,196 // vorps %ymm12,%ymm0,%ymm0
- .byte 196,98,125,24,37,242,19,2,0 // vbroadcastss 0x213f2(%rip),%ymm12 # 2b9c4 <_sk_overlay_sse2_8bit+0x4df>
+ .byte 196,98,125,24,37,222,19,2,0 // vbroadcastss 0x213de(%rip),%ymm12 # 2b97c <_sk_overlay_sse2_8bit+0x4df>
.byte 196,65,36,88,220 // vaddps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,232,19,2,0 // vbroadcastss 0x213e8(%rip),%ymm12 # 2b9c8 <_sk_overlay_sse2_8bit+0x4e3>
+ .byte 196,98,125,24,37,212,19,2,0 // vbroadcastss 0x213d4(%rip),%ymm12 # 2b980 <_sk_overlay_sse2_8bit+0x4e3>
.byte 196,65,124,89,228 // vmulps %ymm12,%ymm0,%ymm12
.byte 196,65,36,92,220 // vsubps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,217,19,2,0 // vbroadcastss 0x213d9(%rip),%ymm12 # 2b9cc <_sk_overlay_sse2_8bit+0x4e7>
+ .byte 196,98,125,24,37,197,19,2,0 // vbroadcastss 0x213c5(%rip),%ymm12 # 2b984 <_sk_overlay_sse2_8bit+0x4e7>
.byte 196,193,124,88,196 // vaddps %ymm12,%ymm0,%ymm0
- .byte 196,98,125,24,37,207,19,2,0 // vbroadcastss 0x213cf(%rip),%ymm12 # 2b9d0 <_sk_overlay_sse2_8bit+0x4eb>
+ .byte 196,98,125,24,37,187,19,2,0 // vbroadcastss 0x213bb(%rip),%ymm12 # 2b988 <_sk_overlay_sse2_8bit+0x4eb>
.byte 197,156,94,192 // vdivps %ymm0,%ymm12,%ymm0
.byte 197,164,92,192 // vsubps %ymm0,%ymm11,%ymm0
.byte 197,172,89,192 // vmulps %ymm0,%ymm10,%ymm0
.byte 196,99,125,8,208,1 // vroundps $0x1,%ymm0,%ymm10
.byte 196,65,124,92,210 // vsubps %ymm10,%ymm0,%ymm10
- .byte 196,98,125,24,29,179,19,2,0 // vbroadcastss 0x213b3(%rip),%ymm11 # 2b9d4 <_sk_overlay_sse2_8bit+0x4ef>
+ .byte 196,98,125,24,29,159,19,2,0 // vbroadcastss 0x2139f(%rip),%ymm11 # 2b98c <_sk_overlay_sse2_8bit+0x4ef>
.byte 196,193,124,88,195 // vaddps %ymm11,%ymm0,%ymm0
- .byte 196,98,125,24,29,169,19,2,0 // vbroadcastss 0x213a9(%rip),%ymm11 # 2b9d8 <_sk_overlay_sse2_8bit+0x4f3>
+ .byte 196,98,125,24,29,149,19,2,0 // vbroadcastss 0x21395(%rip),%ymm11 # 2b990 <_sk_overlay_sse2_8bit+0x4f3>
.byte 196,65,44,89,219 // vmulps %ymm11,%ymm10,%ymm11
.byte 196,193,124,92,195 // vsubps %ymm11,%ymm0,%ymm0
- .byte 196,98,125,24,29,154,19,2,0 // vbroadcastss 0x2139a(%rip),%ymm11 # 2b9dc <_sk_overlay_sse2_8bit+0x4f7>
+ .byte 196,98,125,24,29,134,19,2,0 // vbroadcastss 0x21386(%rip),%ymm11 # 2b994 <_sk_overlay_sse2_8bit+0x4f7>
.byte 196,65,36,92,210 // vsubps %ymm10,%ymm11,%ymm10
- .byte 196,98,125,24,29,144,19,2,0 // vbroadcastss 0x21390(%rip),%ymm11 # 2b9e0 <_sk_overlay_sse2_8bit+0x4fb>
+ .byte 196,98,125,24,29,124,19,2,0 // vbroadcastss 0x2137c(%rip),%ymm11 # 2b998 <_sk_overlay_sse2_8bit+0x4fb>
.byte 196,65,36,94,210 // vdivps %ymm10,%ymm11,%ymm10
.byte 196,193,124,88,194 // vaddps %ymm10,%ymm0,%ymm0
- .byte 196,98,125,24,21,129,19,2,0 // vbroadcastss 0x21381(%rip),%ymm10 # 2b9e4 <_sk_overlay_sse2_8bit+0x4ff>
+ .byte 196,98,125,24,21,109,19,2,0 // vbroadcastss 0x2136d(%rip),%ymm10 # 2b99c <_sk_overlay_sse2_8bit+0x4ff>
.byte 196,193,124,89,194 // vmulps %ymm10,%ymm0,%ymm0
.byte 197,253,91,192 // vcvtps2dq %ymm0,%ymm0
.byte 196,98,125,24,80,20 // vbroadcastss 0x14(%rax),%ymm10
@@ -19638,7 +19641,7 @@ _sk_parametric_r_avx:
.byte 196,195,125,74,193,128 // vblendvps %ymm8,%ymm9,%ymm0,%ymm0
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 196,193,124,95,192 // vmaxps %ymm8,%ymm0,%ymm0
- .byte 196,98,125,24,5,152,18,2,0 // vbroadcastss 0x21298(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,132,18,2,0 // vbroadcastss 0x21284(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,124,93,192 // vminps %ymm8,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -19660,36 +19663,36 @@ _sk_parametric_g_avx:
.byte 196,193,116,88,203 // vaddps %ymm11,%ymm1,%ymm1
.byte 196,98,125,24,16 // vbroadcastss (%rax),%ymm10
.byte 197,124,91,217 // vcvtdq2ps %ymm1,%ymm11
- .byte 196,98,125,24,37,217,18,2,0 // vbroadcastss 0x212d9(%rip),%ymm12 # 2b9bc <_sk_overlay_sse2_8bit+0x4d7>
+ .byte 196,98,125,24,37,197,18,2,0 // vbroadcastss 0x212c5(%rip),%ymm12 # 2b974 <_sk_overlay_sse2_8bit+0x4d7>
.byte 196,65,36,89,220 // vmulps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,207,18,2,0 // vbroadcastss 0x212cf(%rip),%ymm12 # 2b9c0 <_sk_overlay_sse2_8bit+0x4db>
+ .byte 196,98,125,24,37,187,18,2,0 // vbroadcastss 0x212bb(%rip),%ymm12 # 2b978 <_sk_overlay_sse2_8bit+0x4db>
.byte 196,193,116,84,204 // vandps %ymm12,%ymm1,%ymm1
- .byte 196,98,125,24,37,37,18,2,0 // vbroadcastss 0x21225(%rip),%ymm12 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,37,17,18,2,0 // vbroadcastss 0x21211(%rip),%ymm12 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,193,116,86,204 // vorps %ymm12,%ymm1,%ymm1
- .byte 196,98,125,24,37,183,18,2,0 // vbroadcastss 0x212b7(%rip),%ymm12 # 2b9c4 <_sk_overlay_sse2_8bit+0x4df>
+ .byte 196,98,125,24,37,163,18,2,0 // vbroadcastss 0x212a3(%rip),%ymm12 # 2b97c <_sk_overlay_sse2_8bit+0x4df>
.byte 196,65,36,88,220 // vaddps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,173,18,2,0 // vbroadcastss 0x212ad(%rip),%ymm12 # 2b9c8 <_sk_overlay_sse2_8bit+0x4e3>
+ .byte 196,98,125,24,37,153,18,2,0 // vbroadcastss 0x21299(%rip),%ymm12 # 2b980 <_sk_overlay_sse2_8bit+0x4e3>
.byte 196,65,116,89,228 // vmulps %ymm12,%ymm1,%ymm12
.byte 196,65,36,92,220 // vsubps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,158,18,2,0 // vbroadcastss 0x2129e(%rip),%ymm12 # 2b9cc <_sk_overlay_sse2_8bit+0x4e7>
+ .byte 196,98,125,24,37,138,18,2,0 // vbroadcastss 0x2128a(%rip),%ymm12 # 2b984 <_sk_overlay_sse2_8bit+0x4e7>
.byte 196,193,116,88,204 // vaddps %ymm12,%ymm1,%ymm1
- .byte 196,98,125,24,37,148,18,2,0 // vbroadcastss 0x21294(%rip),%ymm12 # 2b9d0 <_sk_overlay_sse2_8bit+0x4eb>
+ .byte 196,98,125,24,37,128,18,2,0 // vbroadcastss 0x21280(%rip),%ymm12 # 2b988 <_sk_overlay_sse2_8bit+0x4eb>
.byte 197,156,94,201 // vdivps %ymm1,%ymm12,%ymm1
.byte 197,164,92,201 // vsubps %ymm1,%ymm11,%ymm1
.byte 197,172,89,201 // vmulps %ymm1,%ymm10,%ymm1
.byte 196,99,125,8,209,1 // vroundps $0x1,%ymm1,%ymm10
.byte 196,65,116,92,210 // vsubps %ymm10,%ymm1,%ymm10
- .byte 196,98,125,24,29,120,18,2,0 // vbroadcastss 0x21278(%rip),%ymm11 # 2b9d4 <_sk_overlay_sse2_8bit+0x4ef>
+ .byte 196,98,125,24,29,100,18,2,0 // vbroadcastss 0x21264(%rip),%ymm11 # 2b98c <_sk_overlay_sse2_8bit+0x4ef>
.byte 196,193,116,88,203 // vaddps %ymm11,%ymm1,%ymm1
- .byte 196,98,125,24,29,110,18,2,0 // vbroadcastss 0x2126e(%rip),%ymm11 # 2b9d8 <_sk_overlay_sse2_8bit+0x4f3>
+ .byte 196,98,125,24,29,90,18,2,0 // vbroadcastss 0x2125a(%rip),%ymm11 # 2b990 <_sk_overlay_sse2_8bit+0x4f3>
.byte 196,65,44,89,219 // vmulps %ymm11,%ymm10,%ymm11
.byte 196,193,116,92,203 // vsubps %ymm11,%ymm1,%ymm1
- .byte 196,98,125,24,29,95,18,2,0 // vbroadcastss 0x2125f(%rip),%ymm11 # 2b9dc <_sk_overlay_sse2_8bit+0x4f7>
+ .byte 196,98,125,24,29,75,18,2,0 // vbroadcastss 0x2124b(%rip),%ymm11 # 2b994 <_sk_overlay_sse2_8bit+0x4f7>
.byte 196,65,36,92,210 // vsubps %ymm10,%ymm11,%ymm10
- .byte 196,98,125,24,29,85,18,2,0 // vbroadcastss 0x21255(%rip),%ymm11 # 2b9e0 <_sk_overlay_sse2_8bit+0x4fb>
+ .byte 196,98,125,24,29,65,18,2,0 // vbroadcastss 0x21241(%rip),%ymm11 # 2b998 <_sk_overlay_sse2_8bit+0x4fb>
.byte 196,65,36,94,210 // vdivps %ymm10,%ymm11,%ymm10
.byte 196,193,116,88,202 // vaddps %ymm10,%ymm1,%ymm1
- .byte 196,98,125,24,21,70,18,2,0 // vbroadcastss 0x21246(%rip),%ymm10 # 2b9e4 <_sk_overlay_sse2_8bit+0x4ff>
+ .byte 196,98,125,24,21,50,18,2,0 // vbroadcastss 0x21232(%rip),%ymm10 # 2b99c <_sk_overlay_sse2_8bit+0x4ff>
.byte 196,193,116,89,202 // vmulps %ymm10,%ymm1,%ymm1
.byte 197,253,91,201 // vcvtps2dq %ymm1,%ymm1
.byte 196,98,125,24,80,20 // vbroadcastss 0x14(%rax),%ymm10
@@ -19697,7 +19700,7 @@ _sk_parametric_g_avx:
.byte 196,195,117,74,201,128 // vblendvps %ymm8,%ymm9,%ymm1,%ymm1
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 196,193,116,95,200 // vmaxps %ymm8,%ymm1,%ymm1
- .byte 196,98,125,24,5,93,17,2,0 // vbroadcastss 0x2115d(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,73,17,2,0 // vbroadcastss 0x21149(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,116,93,200 // vminps %ymm8,%ymm1,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -19719,36 +19722,36 @@ _sk_parametric_b_avx:
.byte 196,193,108,88,211 // vaddps %ymm11,%ymm2,%ymm2
.byte 196,98,125,24,16 // vbroadcastss (%rax),%ymm10
.byte 197,124,91,218 // vcvtdq2ps %ymm2,%ymm11
- .byte 196,98,125,24,37,158,17,2,0 // vbroadcastss 0x2119e(%rip),%ymm12 # 2b9bc <_sk_overlay_sse2_8bit+0x4d7>
+ .byte 196,98,125,24,37,138,17,2,0 // vbroadcastss 0x2118a(%rip),%ymm12 # 2b974 <_sk_overlay_sse2_8bit+0x4d7>
.byte 196,65,36,89,220 // vmulps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,148,17,2,0 // vbroadcastss 0x21194(%rip),%ymm12 # 2b9c0 <_sk_overlay_sse2_8bit+0x4db>
+ .byte 196,98,125,24,37,128,17,2,0 // vbroadcastss 0x21180(%rip),%ymm12 # 2b978 <_sk_overlay_sse2_8bit+0x4db>
.byte 196,193,108,84,212 // vandps %ymm12,%ymm2,%ymm2
- .byte 196,98,125,24,37,234,16,2,0 // vbroadcastss 0x210ea(%rip),%ymm12 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,37,214,16,2,0 // vbroadcastss 0x210d6(%rip),%ymm12 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,193,108,86,212 // vorps %ymm12,%ymm2,%ymm2
- .byte 196,98,125,24,37,124,17,2,0 // vbroadcastss 0x2117c(%rip),%ymm12 # 2b9c4 <_sk_overlay_sse2_8bit+0x4df>
+ .byte 196,98,125,24,37,104,17,2,0 // vbroadcastss 0x21168(%rip),%ymm12 # 2b97c <_sk_overlay_sse2_8bit+0x4df>
.byte 196,65,36,88,220 // vaddps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,114,17,2,0 // vbroadcastss 0x21172(%rip),%ymm12 # 2b9c8 <_sk_overlay_sse2_8bit+0x4e3>
+ .byte 196,98,125,24,37,94,17,2,0 // vbroadcastss 0x2115e(%rip),%ymm12 # 2b980 <_sk_overlay_sse2_8bit+0x4e3>
.byte 196,65,108,89,228 // vmulps %ymm12,%ymm2,%ymm12
.byte 196,65,36,92,220 // vsubps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,99,17,2,0 // vbroadcastss 0x21163(%rip),%ymm12 # 2b9cc <_sk_overlay_sse2_8bit+0x4e7>
+ .byte 196,98,125,24,37,79,17,2,0 // vbroadcastss 0x2114f(%rip),%ymm12 # 2b984 <_sk_overlay_sse2_8bit+0x4e7>
.byte 196,193,108,88,212 // vaddps %ymm12,%ymm2,%ymm2
- .byte 196,98,125,24,37,89,17,2,0 // vbroadcastss 0x21159(%rip),%ymm12 # 2b9d0 <_sk_overlay_sse2_8bit+0x4eb>
+ .byte 196,98,125,24,37,69,17,2,0 // vbroadcastss 0x21145(%rip),%ymm12 # 2b988 <_sk_overlay_sse2_8bit+0x4eb>
.byte 197,156,94,210 // vdivps %ymm2,%ymm12,%ymm2
.byte 197,164,92,210 // vsubps %ymm2,%ymm11,%ymm2
.byte 197,172,89,210 // vmulps %ymm2,%ymm10,%ymm2
.byte 196,99,125,8,210,1 // vroundps $0x1,%ymm2,%ymm10
.byte 196,65,108,92,210 // vsubps %ymm10,%ymm2,%ymm10
- .byte 196,98,125,24,29,61,17,2,0 // vbroadcastss 0x2113d(%rip),%ymm11 # 2b9d4 <_sk_overlay_sse2_8bit+0x4ef>
+ .byte 196,98,125,24,29,41,17,2,0 // vbroadcastss 0x21129(%rip),%ymm11 # 2b98c <_sk_overlay_sse2_8bit+0x4ef>
.byte 196,193,108,88,211 // vaddps %ymm11,%ymm2,%ymm2
- .byte 196,98,125,24,29,51,17,2,0 // vbroadcastss 0x21133(%rip),%ymm11 # 2b9d8 <_sk_overlay_sse2_8bit+0x4f3>
+ .byte 196,98,125,24,29,31,17,2,0 // vbroadcastss 0x2111f(%rip),%ymm11 # 2b990 <_sk_overlay_sse2_8bit+0x4f3>
.byte 196,65,44,89,219 // vmulps %ymm11,%ymm10,%ymm11
.byte 196,193,108,92,211 // vsubps %ymm11,%ymm2,%ymm2
- .byte 196,98,125,24,29,36,17,2,0 // vbroadcastss 0x21124(%rip),%ymm11 # 2b9dc <_sk_overlay_sse2_8bit+0x4f7>
+ .byte 196,98,125,24,29,16,17,2,0 // vbroadcastss 0x21110(%rip),%ymm11 # 2b994 <_sk_overlay_sse2_8bit+0x4f7>
.byte 196,65,36,92,210 // vsubps %ymm10,%ymm11,%ymm10
- .byte 196,98,125,24,29,26,17,2,0 // vbroadcastss 0x2111a(%rip),%ymm11 # 2b9e0 <_sk_overlay_sse2_8bit+0x4fb>
+ .byte 196,98,125,24,29,6,17,2,0 // vbroadcastss 0x21106(%rip),%ymm11 # 2b998 <_sk_overlay_sse2_8bit+0x4fb>
.byte 196,65,36,94,210 // vdivps %ymm10,%ymm11,%ymm10
.byte 196,193,108,88,210 // vaddps %ymm10,%ymm2,%ymm2
- .byte 196,98,125,24,21,11,17,2,0 // vbroadcastss 0x2110b(%rip),%ymm10 # 2b9e4 <_sk_overlay_sse2_8bit+0x4ff>
+ .byte 196,98,125,24,21,247,16,2,0 // vbroadcastss 0x210f7(%rip),%ymm10 # 2b99c <_sk_overlay_sse2_8bit+0x4ff>
.byte 196,193,108,89,210 // vmulps %ymm10,%ymm2,%ymm2
.byte 197,253,91,210 // vcvtps2dq %ymm2,%ymm2
.byte 196,98,125,24,80,20 // vbroadcastss 0x14(%rax),%ymm10
@@ -19756,7 +19759,7 @@ _sk_parametric_b_avx:
.byte 196,195,109,74,209,128 // vblendvps %ymm8,%ymm9,%ymm2,%ymm2
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 196,193,108,95,208 // vmaxps %ymm8,%ymm2,%ymm2
- .byte 196,98,125,24,5,34,16,2,0 // vbroadcastss 0x21022(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,14,16,2,0 // vbroadcastss 0x2100e(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,108,93,208 // vminps %ymm8,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -19778,36 +19781,36 @@ _sk_parametric_a_avx:
.byte 196,193,100,88,219 // vaddps %ymm11,%ymm3,%ymm3
.byte 196,98,125,24,16 // vbroadcastss (%rax),%ymm10
.byte 197,124,91,219 // vcvtdq2ps %ymm3,%ymm11
- .byte 196,98,125,24,37,99,16,2,0 // vbroadcastss 0x21063(%rip),%ymm12 # 2b9bc <_sk_overlay_sse2_8bit+0x4d7>
+ .byte 196,98,125,24,37,79,16,2,0 // vbroadcastss 0x2104f(%rip),%ymm12 # 2b974 <_sk_overlay_sse2_8bit+0x4d7>
.byte 196,65,36,89,220 // vmulps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,89,16,2,0 // vbroadcastss 0x21059(%rip),%ymm12 # 2b9c0 <_sk_overlay_sse2_8bit+0x4db>
+ .byte 196,98,125,24,37,69,16,2,0 // vbroadcastss 0x21045(%rip),%ymm12 # 2b978 <_sk_overlay_sse2_8bit+0x4db>
.byte 196,193,100,84,220 // vandps %ymm12,%ymm3,%ymm3
- .byte 196,98,125,24,37,175,15,2,0 // vbroadcastss 0x20faf(%rip),%ymm12 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,37,155,15,2,0 // vbroadcastss 0x20f9b(%rip),%ymm12 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,193,100,86,220 // vorps %ymm12,%ymm3,%ymm3
- .byte 196,98,125,24,37,65,16,2,0 // vbroadcastss 0x21041(%rip),%ymm12 # 2b9c4 <_sk_overlay_sse2_8bit+0x4df>
+ .byte 196,98,125,24,37,45,16,2,0 // vbroadcastss 0x2102d(%rip),%ymm12 # 2b97c <_sk_overlay_sse2_8bit+0x4df>
.byte 196,65,36,88,220 // vaddps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,55,16,2,0 // vbroadcastss 0x21037(%rip),%ymm12 # 2b9c8 <_sk_overlay_sse2_8bit+0x4e3>
+ .byte 196,98,125,24,37,35,16,2,0 // vbroadcastss 0x21023(%rip),%ymm12 # 2b980 <_sk_overlay_sse2_8bit+0x4e3>
.byte 196,65,100,89,228 // vmulps %ymm12,%ymm3,%ymm12
.byte 196,65,36,92,220 // vsubps %ymm12,%ymm11,%ymm11
- .byte 196,98,125,24,37,40,16,2,0 // vbroadcastss 0x21028(%rip),%ymm12 # 2b9cc <_sk_overlay_sse2_8bit+0x4e7>
+ .byte 196,98,125,24,37,20,16,2,0 // vbroadcastss 0x21014(%rip),%ymm12 # 2b984 <_sk_overlay_sse2_8bit+0x4e7>
.byte 196,193,100,88,220 // vaddps %ymm12,%ymm3,%ymm3
- .byte 196,98,125,24,37,30,16,2,0 // vbroadcastss 0x2101e(%rip),%ymm12 # 2b9d0 <_sk_overlay_sse2_8bit+0x4eb>
+ .byte 196,98,125,24,37,10,16,2,0 // vbroadcastss 0x2100a(%rip),%ymm12 # 2b988 <_sk_overlay_sse2_8bit+0x4eb>
.byte 197,156,94,219 // vdivps %ymm3,%ymm12,%ymm3
.byte 197,164,92,219 // vsubps %ymm3,%ymm11,%ymm3
.byte 197,172,89,219 // vmulps %ymm3,%ymm10,%ymm3
.byte 196,99,125,8,211,1 // vroundps $0x1,%ymm3,%ymm10
.byte 196,65,100,92,210 // vsubps %ymm10,%ymm3,%ymm10
- .byte 196,98,125,24,29,2,16,2,0 // vbroadcastss 0x21002(%rip),%ymm11 # 2b9d4 <_sk_overlay_sse2_8bit+0x4ef>
+ .byte 196,98,125,24,29,238,15,2,0 // vbroadcastss 0x20fee(%rip),%ymm11 # 2b98c <_sk_overlay_sse2_8bit+0x4ef>
.byte 196,193,100,88,219 // vaddps %ymm11,%ymm3,%ymm3
- .byte 196,98,125,24,29,248,15,2,0 // vbroadcastss 0x20ff8(%rip),%ymm11 # 2b9d8 <_sk_overlay_sse2_8bit+0x4f3>
+ .byte 196,98,125,24,29,228,15,2,0 // vbroadcastss 0x20fe4(%rip),%ymm11 # 2b990 <_sk_overlay_sse2_8bit+0x4f3>
.byte 196,65,44,89,219 // vmulps %ymm11,%ymm10,%ymm11
.byte 196,193,100,92,219 // vsubps %ymm11,%ymm3,%ymm3
- .byte 196,98,125,24,29,233,15,2,0 // vbroadcastss 0x20fe9(%rip),%ymm11 # 2b9dc <_sk_overlay_sse2_8bit+0x4f7>
+ .byte 196,98,125,24,29,213,15,2,0 // vbroadcastss 0x20fd5(%rip),%ymm11 # 2b994 <_sk_overlay_sse2_8bit+0x4f7>
.byte 196,65,36,92,210 // vsubps %ymm10,%ymm11,%ymm10
- .byte 196,98,125,24,29,223,15,2,0 // vbroadcastss 0x20fdf(%rip),%ymm11 # 2b9e0 <_sk_overlay_sse2_8bit+0x4fb>
+ .byte 196,98,125,24,29,203,15,2,0 // vbroadcastss 0x20fcb(%rip),%ymm11 # 2b998 <_sk_overlay_sse2_8bit+0x4fb>
.byte 196,65,36,94,210 // vdivps %ymm10,%ymm11,%ymm10
.byte 196,193,100,88,218 // vaddps %ymm10,%ymm3,%ymm3
- .byte 196,98,125,24,21,208,15,2,0 // vbroadcastss 0x20fd0(%rip),%ymm10 # 2b9e4 <_sk_overlay_sse2_8bit+0x4ff>
+ .byte 196,98,125,24,21,188,15,2,0 // vbroadcastss 0x20fbc(%rip),%ymm10 # 2b99c <_sk_overlay_sse2_8bit+0x4ff>
.byte 196,193,100,89,218 // vmulps %ymm10,%ymm3,%ymm3
.byte 197,253,91,219 // vcvtps2dq %ymm3,%ymm3
.byte 196,98,125,24,80,20 // vbroadcastss 0x14(%rax),%ymm10
@@ -19815,7 +19818,7 @@ _sk_parametric_a_avx:
.byte 196,195,101,74,217,128 // vblendvps %ymm8,%ymm9,%ymm3,%ymm3
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 196,193,100,95,216 // vmaxps %ymm8,%ymm3,%ymm3
- .byte 196,98,125,24,5,231,14,2,0 // vbroadcastss 0x20ee7(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,211,14,2,0 // vbroadcastss 0x20ed3(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,100,93,216 // vminps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -19834,34 +19837,34 @@ _sk_gamma_avx:
.byte 197,252,40,233 // vmovaps %ymm1,%ymm5
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,91,200 // vcvtdq2ps %ymm0,%ymm1
- .byte 196,98,125,24,5,58,15,2,0 // vbroadcastss 0x20f3a(%rip),%ymm8 # 2b9bc <_sk_overlay_sse2_8bit+0x4d7>
+ .byte 196,98,125,24,5,38,15,2,0 // vbroadcastss 0x20f26(%rip),%ymm8 # 2b974 <_sk_overlay_sse2_8bit+0x4d7>
.byte 196,193,116,89,200 // vmulps %ymm8,%ymm1,%ymm1
- .byte 196,98,125,24,13,48,15,2,0 // vbroadcastss 0x20f30(%rip),%ymm9 # 2b9c0 <_sk_overlay_sse2_8bit+0x4db>
+ .byte 196,98,125,24,13,28,15,2,0 // vbroadcastss 0x20f1c(%rip),%ymm9 # 2b978 <_sk_overlay_sse2_8bit+0x4db>
.byte 196,193,124,84,193 // vandps %ymm9,%ymm0,%ymm0
- .byte 196,226,125,24,37,134,14,2,0 // vbroadcastss 0x20e86(%rip),%ymm4 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,226,125,24,37,114,14,2,0 // vbroadcastss 0x20e72(%rip),%ymm4 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,252,86,196 // vorps %ymm4,%ymm0,%ymm0
- .byte 196,98,125,24,21,25,15,2,0 // vbroadcastss 0x20f19(%rip),%ymm10 # 2b9c4 <_sk_overlay_sse2_8bit+0x4df>
+ .byte 196,98,125,24,21,5,15,2,0 // vbroadcastss 0x20f05(%rip),%ymm10 # 2b97c <_sk_overlay_sse2_8bit+0x4df>
.byte 196,193,116,88,202 // vaddps %ymm10,%ymm1,%ymm1
- .byte 196,98,125,24,29,15,15,2,0 // vbroadcastss 0x20f0f(%rip),%ymm11 # 2b9c8 <_sk_overlay_sse2_8bit+0x4e3>
+ .byte 196,98,125,24,29,251,14,2,0 // vbroadcastss 0x20efb(%rip),%ymm11 # 2b980 <_sk_overlay_sse2_8bit+0x4e3>
.byte 196,193,124,89,211 // vmulps %ymm11,%ymm0,%ymm2
.byte 197,244,92,202 // vsubps %ymm2,%ymm1,%ymm1
- .byte 196,98,125,24,37,1,15,2,0 // vbroadcastss 0x20f01(%rip),%ymm12 # 2b9cc <_sk_overlay_sse2_8bit+0x4e7>
+ .byte 196,98,125,24,37,237,14,2,0 // vbroadcastss 0x20eed(%rip),%ymm12 # 2b984 <_sk_overlay_sse2_8bit+0x4e7>
.byte 196,193,124,88,196 // vaddps %ymm12,%ymm0,%ymm0
- .byte 196,98,125,24,45,247,14,2,0 // vbroadcastss 0x20ef7(%rip),%ymm13 # 2b9d0 <_sk_overlay_sse2_8bit+0x4eb>
+ .byte 196,98,125,24,45,227,14,2,0 // vbroadcastss 0x20ee3(%rip),%ymm13 # 2b988 <_sk_overlay_sse2_8bit+0x4eb>
.byte 197,148,94,192 // vdivps %ymm0,%ymm13,%ymm0
.byte 197,244,92,192 // vsubps %ymm0,%ymm1,%ymm0
.byte 196,98,125,24,48 // vbroadcastss (%rax),%ymm14
.byte 196,193,124,89,198 // vmulps %ymm14,%ymm0,%ymm0
.byte 196,227,125,8,200,1 // vroundps $0x1,%ymm0,%ymm1
.byte 197,252,92,241 // vsubps %ymm1,%ymm0,%ymm6
- .byte 196,98,125,24,61,214,14,2,0 // vbroadcastss 0x20ed6(%rip),%ymm15 # 2b9d4 <_sk_overlay_sse2_8bit+0x4ef>
+ .byte 196,98,125,24,61,194,14,2,0 // vbroadcastss 0x20ec2(%rip),%ymm15 # 2b98c <_sk_overlay_sse2_8bit+0x4ef>
.byte 196,193,124,88,199 // vaddps %ymm15,%ymm0,%ymm0
- .byte 196,226,125,24,29,204,14,2,0 // vbroadcastss 0x20ecc(%rip),%ymm3 # 2b9d8 <_sk_overlay_sse2_8bit+0x4f3>
+ .byte 196,226,125,24,29,184,14,2,0 // vbroadcastss 0x20eb8(%rip),%ymm3 # 2b990 <_sk_overlay_sse2_8bit+0x4f3>
.byte 197,204,89,203 // vmulps %ymm3,%ymm6,%ymm1
.byte 197,252,92,201 // vsubps %ymm1,%ymm0,%ymm1
- .byte 196,226,125,24,21,191,14,2,0 // vbroadcastss 0x20ebf(%rip),%ymm2 # 2b9dc <_sk_overlay_sse2_8bit+0x4f7>
+ .byte 196,226,125,24,21,171,14,2,0 // vbroadcastss 0x20eab(%rip),%ymm2 # 2b994 <_sk_overlay_sse2_8bit+0x4f7>
.byte 197,236,92,198 // vsubps %ymm6,%ymm2,%ymm0
- .byte 196,226,125,24,53,182,14,2,0 // vbroadcastss 0x20eb6(%rip),%ymm6 # 2b9e0 <_sk_overlay_sse2_8bit+0x4fb>
+ .byte 196,226,125,24,53,162,14,2,0 // vbroadcastss 0x20ea2(%rip),%ymm6 # 2b998 <_sk_overlay_sse2_8bit+0x4fb>
.byte 197,204,94,192 // vdivps %ymm0,%ymm6,%ymm0
.byte 197,244,88,192 // vaddps %ymm0,%ymm1,%ymm0
.byte 197,252,17,68,36,128 // vmovups %ymm0,-0x80(%rsp)
@@ -19903,7 +19906,7 @@ _sk_gamma_avx:
.byte 197,236,92,212 // vsubps %ymm4,%ymm2,%ymm2
.byte 197,204,94,210 // vdivps %ymm2,%ymm6,%ymm2
.byte 197,244,88,202 // vaddps %ymm2,%ymm1,%ymm1
- .byte 196,226,125,24,21,249,13,2,0 // vbroadcastss 0x20df9(%rip),%ymm2 # 2b9e4 <_sk_overlay_sse2_8bit+0x4ff>
+ .byte 196,226,125,24,21,229,13,2,0 // vbroadcastss 0x20de5(%rip),%ymm2 # 2b99c <_sk_overlay_sse2_8bit+0x4ff>
.byte 197,236,89,92,36,128 // vmulps -0x80(%rsp),%ymm2,%ymm3
.byte 197,252,89,226 // vmulps %ymm2,%ymm0,%ymm4
.byte 197,244,89,210 // vmulps %ymm2,%ymm1,%ymm2
@@ -19923,31 +19926,31 @@ HIDDEN _sk_lab_to_xyz_avx
.globl _sk_lab_to_xyz_avx
FUNCTION(_sk_lab_to_xyz_avx)
_sk_lab_to_xyz_avx:
- .byte 196,98,125,24,5,181,13,2,0 // vbroadcastss 0x20db5(%rip),%ymm8 # 2b9e8 <_sk_overlay_sse2_8bit+0x503>
+ .byte 196,98,125,24,5,161,13,2,0 // vbroadcastss 0x20da1(%rip),%ymm8 # 2b9a0 <_sk_overlay_sse2_8bit+0x503>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
- .byte 196,98,125,24,5,19,13,2,0 // vbroadcastss 0x20d13(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 196,98,125,24,5,255,12,2,0 // vbroadcastss 0x20cff(%rip),%ymm8 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,193,116,89,200 // vmulps %ymm8,%ymm1,%ymm1
- .byte 196,98,125,24,13,157,13,2,0 // vbroadcastss 0x20d9d(%rip),%ymm9 # 2b9ec <_sk_overlay_sse2_8bit+0x507>
+ .byte 196,98,125,24,13,137,13,2,0 // vbroadcastss 0x20d89(%rip),%ymm9 # 2b9a4 <_sk_overlay_sse2_8bit+0x507>
.byte 196,193,116,88,201 // vaddps %ymm9,%ymm1,%ymm1
.byte 196,193,108,89,208 // vmulps %ymm8,%ymm2,%ymm2
.byte 196,193,108,88,209 // vaddps %ymm9,%ymm2,%ymm2
- .byte 196,98,125,24,5,137,13,2,0 // vbroadcastss 0x20d89(%rip),%ymm8 # 2b9f0 <_sk_overlay_sse2_8bit+0x50b>
+ .byte 196,98,125,24,5,117,13,2,0 // vbroadcastss 0x20d75(%rip),%ymm8 # 2b9a8 <_sk_overlay_sse2_8bit+0x50b>
.byte 196,193,124,88,192 // vaddps %ymm8,%ymm0,%ymm0
- .byte 196,98,125,24,5,127,13,2,0 // vbroadcastss 0x20d7f(%rip),%ymm8 # 2b9f4 <_sk_overlay_sse2_8bit+0x50f>
+ .byte 196,98,125,24,5,107,13,2,0 // vbroadcastss 0x20d6b(%rip),%ymm8 # 2b9ac <_sk_overlay_sse2_8bit+0x50f>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
- .byte 196,98,125,24,5,117,13,2,0 // vbroadcastss 0x20d75(%rip),%ymm8 # 2b9f8 <_sk_overlay_sse2_8bit+0x513>
+ .byte 196,98,125,24,5,97,13,2,0 // vbroadcastss 0x20d61(%rip),%ymm8 # 2b9b0 <_sk_overlay_sse2_8bit+0x513>
.byte 196,193,116,89,200 // vmulps %ymm8,%ymm1,%ymm1
.byte 197,252,88,201 // vaddps %ymm1,%ymm0,%ymm1
- .byte 196,98,125,24,5,103,13,2,0 // vbroadcastss 0x20d67(%rip),%ymm8 # 2b9fc <_sk_overlay_sse2_8bit+0x517>
+ .byte 196,98,125,24,5,83,13,2,0 // vbroadcastss 0x20d53(%rip),%ymm8 # 2b9b4 <_sk_overlay_sse2_8bit+0x517>
.byte 196,193,108,89,208 // vmulps %ymm8,%ymm2,%ymm2
.byte 197,252,92,210 // vsubps %ymm2,%ymm0,%ymm2
.byte 197,116,89,193 // vmulps %ymm1,%ymm1,%ymm8
.byte 196,65,116,89,192 // vmulps %ymm8,%ymm1,%ymm8
- .byte 196,98,125,24,13,80,13,2,0 // vbroadcastss 0x20d50(%rip),%ymm9 # 2ba00 <_sk_overlay_sse2_8bit+0x51b>
+ .byte 196,98,125,24,13,60,13,2,0 // vbroadcastss 0x20d3c(%rip),%ymm9 # 2b9b8 <_sk_overlay_sse2_8bit+0x51b>
.byte 196,65,52,194,208,1 // vcmpltps %ymm8,%ymm9,%ymm10
- .byte 196,98,125,24,29,69,13,2,0 // vbroadcastss 0x20d45(%rip),%ymm11 # 2ba04 <_sk_overlay_sse2_8bit+0x51f>
+ .byte 196,98,125,24,29,49,13,2,0 // vbroadcastss 0x20d31(%rip),%ymm11 # 2b9bc <_sk_overlay_sse2_8bit+0x51f>
.byte 196,193,116,88,203 // vaddps %ymm11,%ymm1,%ymm1
- .byte 196,98,125,24,37,59,13,2,0 // vbroadcastss 0x20d3b(%rip),%ymm12 # 2ba08 <_sk_overlay_sse2_8bit+0x523>
+ .byte 196,98,125,24,37,39,13,2,0 // vbroadcastss 0x20d27(%rip),%ymm12 # 2b9c0 <_sk_overlay_sse2_8bit+0x523>
.byte 196,193,116,89,204 // vmulps %ymm12,%ymm1,%ymm1
.byte 196,67,117,74,192,160 // vblendvps %ymm10,%ymm8,%ymm1,%ymm8
.byte 197,252,89,200 // vmulps %ymm0,%ymm0,%ymm1
@@ -19962,9 +19965,9 @@ _sk_lab_to_xyz_avx:
.byte 196,193,108,88,211 // vaddps %ymm11,%ymm2,%ymm2
.byte 196,193,108,89,212 // vmulps %ymm12,%ymm2,%ymm2
.byte 196,227,109,74,208,144 // vblendvps %ymm9,%ymm0,%ymm2,%ymm2
- .byte 196,226,125,24,5,241,12,2,0 // vbroadcastss 0x20cf1(%rip),%ymm0 # 2ba0c <_sk_overlay_sse2_8bit+0x527>
+ .byte 196,226,125,24,5,221,12,2,0 // vbroadcastss 0x20cdd(%rip),%ymm0 # 2b9c4 <_sk_overlay_sse2_8bit+0x527>
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
- .byte 196,98,125,24,5,232,12,2,0 // vbroadcastss 0x20ce8(%rip),%ymm8 # 2ba10 <_sk_overlay_sse2_8bit+0x52b>
+ .byte 196,98,125,24,5,212,12,2,0 // vbroadcastss 0x20cd4(%rip),%ymm8 # 2b9c8 <_sk_overlay_sse2_8bit+0x52b>
.byte 196,193,108,89,208 // vmulps %ymm8,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -19973,78 +19976,78 @@ HIDDEN _sk_load_a8_avx
.globl _sk_load_a8_avx
FUNCTION(_sk_load_a8_avx)
_sk_load_a8_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,67 // jne ad8d <_sk_load_a8_avx+0x5c>
- .byte 196,194,121,48,4,25 // vpmovzxbw (%r9,%rbx,1),%xmm0
- .byte 197,249,219,5,120,21,2,0 // vpand 0x21578(%rip),%xmm0,%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,66 // jne ad57 <_sk_load_a8_avx+0x5a>
+ .byte 196,130,121,48,4,24 // vpmovzxbw (%r8,%r11,1),%xmm0
+ .byte 197,249,219,5,173,21,2,0 // vpand 0x215ad(%rip),%xmm0,%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 197,241,239,201 // vpxor %xmm1,%xmm1,%xmm1
.byte 197,249,105,201 // vpunpckhwd %xmm1,%xmm0,%xmm1
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
.byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,36,12,2,0 // vbroadcastss 0x20c24(%rip),%ymm1 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,13,17,12,2,0 // vbroadcastss 0x20c11(%rip),%ymm1 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,252,89,217 // vmulps %ymm1,%ymm0,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,87,192 // vxorps %ymm0,%ymm0,%ymm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 197,236,87,210 // vxorps %ymm2,%ymm2,%ymm2
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,175 // ja ad50 <_sk_load_a8_avx+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,120,0,0,0 // lea 0x78(%rip),%r11 # ae24 <_sk_load_a8_avx+0xf3>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,176 // ja ad1b <_sk_load_a8_avx+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,122,0,0,0 // lea 0x7a(%rip),%r10 # adf0 <_sk_load_a8_avx+0xf3>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,249,110,192 // vmovd %eax,%xmm0
- .byte 235,144 // jmp ad50 <_sk_load_a8_avx+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,145 // jmp ad1b <_sk_load_a8_avx+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 197,249,196,192,2 // vpinsrw $0x2,%eax,%xmm0,%xmm0
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,249,110,200 // vmovd %eax,%xmm1
.byte 196,226,121,48,201 // vpmovzxbw %xmm1,%xmm1
.byte 196,227,121,14,193,3 // vpblendw $0x3,%xmm1,%xmm0,%xmm0
- .byte 233,104,255,255,255 // jmpq ad50 <_sk_load_a8_avx+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,105,255,255,255 // jmpq ad1b <_sk_load_a8_avx+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 197,249,196,192,6 // vpinsrw $0x6,%eax,%xmm0,%xmm0
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,249,196,192,5 // vpinsrw $0x5,%eax,%xmm0,%xmm0
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,249,196,192,4 // vpinsrw $0x4,%eax,%xmm0,%xmm0
- .byte 196,193,121,110,12,25 // vmovd (%r9,%rbx,1),%xmm1
+ .byte 196,129,121,110,12,24 // vmovd (%r8,%r11,1),%xmm1
.byte 196,226,121,48,201 // vpmovzxbw %xmm1,%xmm1
.byte 196,227,113,14,192,240 // vpblendw $0xf0,%xmm0,%xmm1,%xmm0
- .byte 233,45,255,255,255 // jmpq ad50 <_sk_load_a8_avx+0x1f>
- .byte 144 // nop
- .byte 145 // xchg %eax,%ecx
+ .byte 233,46,255,255,255 // jmpq ad1b <_sk_load_a8_avx+0x1e>
+ .byte 15,31,0 // nopl (%rax)
+ .byte 143 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,171,255,255,255,156 // ljmp *-0x63000001(%rbx)
+ .byte 255,169,255,255,255,154 // ljmp *-0x65000001(%rcx)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
- .byte 233,255,255,255,222 // jmpq ffffffffdf00ae34 <_sk_overlay_sse2_8bit+0xffffffffdefdf94f>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,211 // callq *%rbx
+ .byte 220,255 // fdivr %st,%st(7)
.byte 255 // (bad)
+ .byte 255,209 // callq *%rcx
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255 // (bad)
+ .byte 255,194 // inc %edx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -20053,78 +20056,77 @@ HIDDEN _sk_load_a8_dst_avx
.globl _sk_load_a8_dst_avx
FUNCTION(_sk_load_a8_dst_avx)
_sk_load_a8_dst_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,67 // jne ae9c <_sk_load_a8_dst_avx+0x5c>
- .byte 196,194,121,48,36,25 // vpmovzxbw (%r9,%rbx,1),%xmm4
- .byte 197,217,219,37,105,20,2,0 // vpand 0x21469(%rip),%xmm4,%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,66 // jne ae66 <_sk_load_a8_dst_avx+0x5a>
+ .byte 196,130,121,48,36,24 // vpmovzxbw (%r8,%r11,1),%xmm4
+ .byte 197,217,219,37,158,20,2,0 // vpand 0x2149e(%rip),%xmm4,%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 197,209,239,237 // vpxor %xmm5,%xmm5,%xmm5
.byte 197,217,105,237 // vpunpckhwd %xmm5,%xmm4,%xmm5
.byte 196,226,121,51,228 // vpmovzxwd %xmm4,%xmm4
.byte 196,227,93,24,229,1 // vinsertf128 $0x1,%xmm5,%ymm4,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,226,125,24,45,21,11,2,0 // vbroadcastss 0x20b15(%rip),%ymm5 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,45,2,11,2,0 // vbroadcastss 0x20b02(%rip),%ymm5 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,220,89,253 // vmulps %ymm5,%ymm4,%ymm7
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,220,87,228 // vxorps %ymm4,%ymm4,%ymm4
.byte 197,212,87,237 // vxorps %ymm5,%ymm5,%ymm5
.byte 197,204,87,246 // vxorps %ymm6,%ymm6,%ymm6
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,175 // ja ae5f <_sk_load_a8_dst_avx+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,121,0,0,0 // lea 0x79(%rip),%r11 # af34 <_sk_load_a8_dst_avx+0xf4>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,176 // ja ae2a <_sk_load_a8_dst_avx+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,119,0,0,0 // lea 0x77(%rip),%r10 # aefc <_sk_load_a8_dst_avx+0xf0>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
- .byte 235,144 // jmp ae5f <_sk_load_a8_dst_avx+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,145 // jmp ae2a <_sk_load_a8_dst_avx+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 197,217,196,224,2 // vpinsrw $0x2,%eax,%xmm4,%xmm4
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,249,110,232 // vmovd %eax,%xmm5
.byte 196,226,121,48,237 // vpmovzxbw %xmm5,%xmm5
.byte 196,227,89,14,229,3 // vpblendw $0x3,%xmm5,%xmm4,%xmm4
- .byte 233,104,255,255,255 // jmpq ae5f <_sk_load_a8_dst_avx+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,105,255,255,255 // jmpq ae2a <_sk_load_a8_dst_avx+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 197,217,196,224,6 // vpinsrw $0x6,%eax,%xmm4,%xmm4
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,217,196,224,5 // vpinsrw $0x5,%eax,%xmm4,%xmm4
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,217,196,224,4 // vpinsrw $0x4,%eax,%xmm4,%xmm4
- .byte 196,193,121,110,44,25 // vmovd (%r9,%rbx,1),%xmm5
+ .byte 196,129,121,110,44,24 // vmovd (%r8,%r11,1),%xmm5
.byte 196,226,121,48,237 // vpmovzxbw %xmm5,%xmm5
.byte 196,227,81,14,228,240 // vpblendw $0xf0,%xmm4,%xmm5,%xmm4
- .byte 233,45,255,255,255 // jmpq ae5f <_sk_load_a8_dst_avx+0x1f>
- .byte 102,144 // xchg %ax,%ax
- .byte 144 // nop
+ .byte 233,46,255,255,255 // jmpq ae2a <_sk_load_a8_dst_avx+0x1e>
+ .byte 146 // xchg %eax,%edx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,170,255,255,255,155 // ljmp *-0x64000001(%rdx)
+ .byte 255,172,255,255,255,157,255 // ljmp *-0x620001(%rdi,%rdi,8)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 234 // (bad)
.byte 255 // (bad)
- .byte 232,255,255,255,221 // callq ffffffffde00af44 <_sk_overlay_sse2_8bit+0xffffffffddfdfa5f>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,210 // callq *%rdx
+ .byte 223,255 // (bad)
.byte 255 // (bad)
+ .byte 255,212 // callq *%rsp
.byte 255 // (bad)
- .byte 255,195 // inc %ebx
+ .byte 255 // (bad)
+ .byte 255,197 // inc %ebp
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -20133,100 +20135,106 @@ HIDDEN _sk_gather_a8_avx
.globl _sk_gather_a8_avx
FUNCTION(_sk_gather_a8_avx)
_sk_gather_a8_avx:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
- .byte 197,249,110,80,8 // vmovd 0x8(%rax),%xmm2
- .byte 197,249,112,210,0 // vpshufd $0x0,%xmm2,%xmm2
- .byte 196,226,105,64,217 // vpmulld %xmm1,%xmm2,%xmm3
- .byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 196,226,105,64,201 // vpmulld %xmm1,%xmm2,%xmm1
- .byte 197,254,91,208 // vcvttps2dq %ymm0,%ymm2
- .byte 196,227,125,25,208,1 // vextractf128 $0x1,%ymm2,%xmm0
- .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
- .byte 197,225,254,202 // vpaddd %xmm2,%xmm3,%xmm1
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,195,121,32,20,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 197,254,91,209 // vcvttps2dq %ymm1,%ymm2
+ .byte 197,249,110,72,8 // vmovd 0x8(%rax),%xmm1
+ .byte 197,249,112,217,0 // vpshufd $0x0,%xmm1,%xmm3
+ .byte 196,226,97,64,202 // vpmulld %xmm2,%xmm3,%xmm1
+ .byte 196,227,125,25,210,1 // vextractf128 $0x1,%ymm2,%xmm2
+ .byte 196,226,97,64,210 // vpmulld %xmm2,%xmm3,%xmm2
+ .byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
+ .byte 196,227,125,25,195,1 // vextractf128 $0x1,%ymm0,%xmm3
+ .byte 197,233,254,211 // vpaddd %xmm3,%xmm2,%xmm2
+ .byte 196,227,249,22,208,1 // vpextrq $0x1,%xmm2,%rax
+ .byte 65,137,193 // mov %eax,%r9d
+ .byte 72,193,232,32 // shr $0x20,%rax
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,105,32,12,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm1
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
- .byte 196,227,113,32,200,2 // vpinsrb $0x2,%eax,%xmm1,%xmm1
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
+ .byte 196,225,249,126,195 // vmovq %xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 196,195,249,22,199,1 // vpextrq $0x1,%xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,131,121,32,4,48,0 // vpinsrb $0x0,(%r8,%r14,1),%xmm0,%xmm0
+ .byte 196,195,121,32,4,24,1 // vpinsrb $0x1,(%r8,%rbx,1),%xmm0,%xmm0
+ .byte 67,15,182,28,32 // movzbl (%r8,%r12,1),%ebx
+ .byte 196,227,121,32,195,2 // vpinsrb $0x2,%ebx,%xmm0,%xmm0
+ .byte 67,15,182,28,56 // movzbl (%r8,%r15,1),%ebx
+ .byte 196,227,121,32,195,3 // vpinsrb $0x3,%ebx,%xmm0,%xmm0
+ .byte 196,226,121,49,192 // vpmovzxbd %xmm0,%xmm0
+ .byte 196,131,121,32,12,24,0 // vpinsrb $0x0,(%r8,%r11,1),%xmm0,%xmm1
+ .byte 196,131,113,32,12,16,1 // vpinsrb $0x1,(%r8,%r10,1),%xmm1,%xmm1
+ .byte 67,15,182,28,8 // movzbl (%r8,%r9,1),%ebx
+ .byte 196,227,113,32,203,2 // vpinsrb $0x2,%ebx,%xmm1,%xmm1
+ .byte 65,15,182,4,0 // movzbl (%r8,%rax,1),%eax
.byte 196,227,113,32,200,3 // vpinsrb $0x3,%eax,%xmm1,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,195,121,32,20,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,105,32,4,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
- .byte 196,227,121,32,192,2 // vpinsrb $0x2,%eax,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
.byte 196,226,121,49,201 // vpmovzxbd %xmm1,%xmm1
- .byte 196,227,121,32,192,3 // vpinsrb $0x3,%eax,%xmm0,%xmm0
- .byte 196,226,121,49,192 // vpmovzxbd %xmm0,%xmm0
- .byte 196,227,117,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm1,%ymm0
+ .byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,128,9,2,0 // vbroadcastss 0x20980(%rip),%ymm1 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,13,105,9,2,0 // vbroadcastss 0x20969(%rip),%ymm1 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,252,89,217 // vmulps %ymm1,%ymm0,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,87,192 // vxorps %ymm0,%ymm0,%ymm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 197,236,87,210 // vxorps %ymm2,%ymm2,%ymm2
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_a8_avx
.globl _sk_store_a8_avx
FUNCTION(_sk_store_a8_avx)
_sk_store_a8_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 196,98,125,24,5,7,9,2,0 // vbroadcastss 0x20907(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 196,98,125,24,5,234,8,2,0 // vbroadcastss 0x208ea(%rip),%ymm8 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,65,100,89,192 // vmulps %ymm8,%ymm3,%ymm8
.byte 196,65,125,91,192 // vcvtps2dq %ymm8,%ymm8
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
.byte 196,66,57,43,193 // vpackusdw %xmm9,%xmm8,%xmm8
.byte 196,65,57,103,192 // vpackuswb %xmm8,%xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,11 // jne b077 <_sk_store_a8_avx+0x47>
- .byte 196,65,123,17,4,25 // vmovsd %xmm8,(%r9,%rbx,1)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne b04b <_sk_store_a8_avx+0x45>
+ .byte 196,1,123,17,4,24 // vmovsd %xmm8,(%r8,%r11,1)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,235 // ja b072 <_sk_store_a8_avx+0x42>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,236 // ja b047 <_sk_store_a8_avx+0x41>
.byte 196,66,121,48,192 // vpmovzxbw %xmm8,%xmm8
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,85,0,0,0 // lea 0x55(%rip),%r11 # b0ec <_sk_store_a8_avx+0xbc>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,67,121,20,4,25,0 // vpextrb $0x0,%xmm8,(%r9,%rbx,1)
- .byte 235,201 // jmp b072 <_sk_store_a8_avx+0x42>
- .byte 196,67,121,20,68,25,2,4 // vpextrb $0x4,%xmm8,0x2(%r9,%rbx,1)
- .byte 196,98,57,0,5,38,18,2,0 // vpshufb 0x21226(%rip),%xmm8,%xmm8 # 2c2e0 <_sk_overlay_sse2_8bit+0xdfb>
- .byte 196,67,121,21,4,25,0 // vpextrw $0x0,%xmm8,(%r9,%rbx,1)
- .byte 235,175 // jmp b072 <_sk_store_a8_avx+0x42>
- .byte 196,67,121,20,68,25,6,12 // vpextrb $0xc,%xmm8,0x6(%r9,%rbx,1)
- .byte 196,67,121,20,68,25,5,10 // vpextrb $0xa,%xmm8,0x5(%r9,%rbx,1)
- .byte 196,67,121,20,68,25,4,8 // vpextrb $0x8,%xmm8,0x4(%r9,%rbx,1)
- .byte 196,98,57,0,5,12,18,2,0 // vpshufb 0x2120c(%rip),%xmm8,%xmm8 # 2c2f0 <_sk_overlay_sse2_8bit+0xe0b>
- .byte 196,65,121,126,4,25 // vmovd %xmm8,(%r9,%rbx,1)
- .byte 235,134 // jmp b072 <_sk_store_a8_avx+0x42>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,85,0,0,0 // lea 0x55(%rip),%r10 # b0c0 <_sk_store_a8_avx+0xba>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,3,121,20,4,24,0 // vpextrb $0x0,%xmm8,(%r8,%r11,1)
+ .byte 235,202 // jmp b047 <_sk_store_a8_avx+0x41>
+ .byte 196,3,121,20,68,24,2,4 // vpextrb $0x4,%xmm8,0x2(%r8,%r11,1)
+ .byte 196,98,57,0,5,82,18,2,0 // vpshufb 0x21252(%rip),%xmm8,%xmm8 # 2c2e0 <_sk_overlay_sse2_8bit+0xe43>
+ .byte 196,3,121,21,4,24,0 // vpextrw $0x0,%xmm8,(%r8,%r11,1)
+ .byte 235,176 // jmp b047 <_sk_store_a8_avx+0x41>
+ .byte 196,3,121,20,68,24,6,12 // vpextrb $0xc,%xmm8,0x6(%r8,%r11,1)
+ .byte 196,3,121,20,68,24,5,10 // vpextrb $0xa,%xmm8,0x5(%r8,%r11,1)
+ .byte 196,3,121,20,68,24,4,8 // vpextrb $0x8,%xmm8,0x4(%r8,%r11,1)
+ .byte 196,98,57,0,5,56,18,2,0 // vpshufb 0x21238(%rip),%xmm8,%xmm8 # 2c2f0 <_sk_overlay_sse2_8bit+0xe53>
+ .byte 196,1,121,126,4,24 // vmovd %xmm8,(%r8,%r11,1)
+ .byte 235,135 // jmp b047 <_sk_store_a8_avx+0x41>
.byte 180,255 // mov $0xff,%ah
.byte 255 // (bad)
.byte 255,197 // inc %ebp
@@ -20251,78 +20259,78 @@ HIDDEN _sk_load_g8_avx
.globl _sk_load_g8_avx
FUNCTION(_sk_load_g8_avx)
_sk_load_g8_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,72 // jne b169 <_sk_load_g8_avx+0x61>
- .byte 196,194,121,48,4,25 // vpmovzxbw (%r9,%rbx,1),%xmm0
- .byte 197,249,219,5,161,17,2,0 // vpand 0x211a1(%rip),%xmm0,%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,71 // jne b13b <_sk_load_g8_avx+0x5f>
+ .byte 196,130,121,48,4,24 // vpmovzxbw (%r8,%r11,1),%xmm0
+ .byte 197,249,219,5,206,17,2,0 // vpand 0x211ce(%rip),%xmm0,%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 197,241,239,201 // vpxor %xmm1,%xmm1,%xmm1
.byte 197,249,105,201 // vpunpckhwd %xmm1,%xmm0,%xmm1
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
.byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,77,8,2,0 // vbroadcastss 0x2084d(%rip),%ymm1 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,13,50,8,2,0 // vbroadcastss 0x20832(%rip),%ymm1 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,202,7,2,0 // vbroadcastss 0x207ca(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,175,7,2,0 // vbroadcastss 0x207af(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,40,200 // vmovaps %ymm0,%ymm1
.byte 197,252,40,208 // vmovaps %ymm0,%ymm2
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,170 // ja b127 <_sk_load_g8_avx+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,120,0,0,0 // lea 0x78(%rip),%r11 # b200 <_sk_load_g8_avx+0xf8>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,171 // ja b0fa <_sk_load_g8_avx+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,122,0,0,0 // lea 0x7a(%rip),%r10 # b1d4 <_sk_load_g8_avx+0xf8>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,249,110,192 // vmovd %eax,%xmm0
- .byte 235,139 // jmp b127 <_sk_load_g8_avx+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,140 // jmp b0fa <_sk_load_g8_avx+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 197,249,196,192,2 // vpinsrw $0x2,%eax,%xmm0,%xmm0
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,249,110,200 // vmovd %eax,%xmm1
.byte 196,226,121,48,201 // vpmovzxbw %xmm1,%xmm1
.byte 196,227,121,14,193,3 // vpblendw $0x3,%xmm1,%xmm0,%xmm0
- .byte 233,99,255,255,255 // jmpq b127 <_sk_load_g8_avx+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,100,255,255,255 // jmpq b0fa <_sk_load_g8_avx+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 197,249,196,192,6 // vpinsrw $0x6,%eax,%xmm0,%xmm0
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,249,196,192,5 // vpinsrw $0x5,%eax,%xmm0,%xmm0
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,249,196,192,4 // vpinsrw $0x4,%eax,%xmm0,%xmm0
- .byte 196,193,121,110,12,25 // vmovd (%r9,%rbx,1),%xmm1
+ .byte 196,129,121,110,12,24 // vmovd (%r8,%r11,1),%xmm1
.byte 196,226,121,48,201 // vpmovzxbw %xmm1,%xmm1
.byte 196,227,113,14,192,240 // vpblendw $0xf0,%xmm0,%xmm1,%xmm0
- .byte 233,40,255,255,255 // jmpq b127 <_sk_load_g8_avx+0x1f>
- .byte 144 // nop
- .byte 145 // xchg %eax,%ecx
+ .byte 233,41,255,255,255 // jmpq b0fa <_sk_load_g8_avx+0x1e>
+ .byte 15,31,0 // nopl (%rax)
+ .byte 143 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,171,255,255,255,156 // ljmp *-0x63000001(%rbx)
+ .byte 255,169,255,255,255,154 // ljmp *-0x65000001(%rcx)
.byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
- .byte 233,255,255,255,222 // jmpq ffffffffdf00b210 <_sk_overlay_sse2_8bit+0xffffffffdefdfd2b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,211 // callq *%rbx
+ .byte 220,255 // fdivr %st,%st(7)
.byte 255 // (bad)
+ .byte 255,209 // callq *%rcx
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255 // (bad)
+ .byte 255,194 // inc %edx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -20331,78 +20339,78 @@ HIDDEN _sk_load_g8_dst_avx
.globl _sk_load_g8_dst_avx
FUNCTION(_sk_load_g8_dst_avx)
_sk_load_g8_dst_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 117,72 // jne b27d <_sk_load_g8_dst_avx+0x61>
- .byte 196,194,121,48,36,25 // vpmovzxbw (%r9,%rbx,1),%xmm4
- .byte 197,217,219,37,141,16,2,0 // vpand 0x2108d(%rip),%xmm4,%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,71 // jne b24f <_sk_load_g8_dst_avx+0x5f>
+ .byte 196,130,121,48,36,24 // vpmovzxbw (%r8,%r11,1),%xmm4
+ .byte 197,217,219,37,186,16,2,0 // vpand 0x210ba(%rip),%xmm4,%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 197,209,239,237 // vpxor %xmm5,%xmm5,%xmm5
.byte 197,217,105,237 // vpunpckhwd %xmm5,%xmm4,%xmm5
.byte 196,226,121,51,228 // vpmovzxwd %xmm4,%xmm4
.byte 196,227,93,24,229,1 // vinsertf128 $0x1,%xmm5,%ymm4,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,226,125,24,45,57,7,2,0 // vbroadcastss 0x20739(%rip),%ymm5 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,45,30,7,2,0 // vbroadcastss 0x2071e(%rip),%ymm5 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,220,89,229 // vmulps %ymm5,%ymm4,%ymm4
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,61,182,6,2,0 // vbroadcastss 0x206b6(%rip),%ymm7 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,61,155,6,2,0 // vbroadcastss 0x2069b(%rip),%ymm7 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,40,236 // vmovaps %ymm4,%ymm5
.byte 197,252,40,244 // vmovaps %ymm4,%ymm6
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,170 // ja b23b <_sk_load_g8_dst_avx+0x1f>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,120,0,0,0 // lea 0x78(%rip),%r11 # b314 <_sk_load_g8_dst_avx+0xf8>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,171 // ja b20e <_sk_load_g8_dst_avx+0x1e>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,122,0,0,0 // lea 0x7a(%rip),%r10 # b2e8 <_sk_load_g8_dst_avx+0xf8>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 255,224 // jmpq *%rax
- .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
+ .byte 67,15,182,4,24 // movzbl (%r8,%r11,1),%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
- .byte 235,139 // jmp b23b <_sk_load_g8_dst_avx+0x1f>
- .byte 65,15,182,68,25,2 // movzbl 0x2(%r9,%rbx,1),%eax
+ .byte 235,140 // jmp b20e <_sk_load_g8_dst_avx+0x1e>
+ .byte 67,15,182,68,24,2 // movzbl 0x2(%r8,%r11,1),%eax
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 197,217,196,224,2 // vpinsrw $0x2,%eax,%xmm4,%xmm4
- .byte 65,15,183,4,25 // movzwl (%r9,%rbx,1),%eax
+ .byte 67,15,183,4,24 // movzwl (%r8,%r11,1),%eax
.byte 197,249,110,232 // vmovd %eax,%xmm5
.byte 196,226,121,48,237 // vpmovzxbw %xmm5,%xmm5
.byte 196,227,89,14,229,3 // vpblendw $0x3,%xmm5,%xmm4,%xmm4
- .byte 233,99,255,255,255 // jmpq b23b <_sk_load_g8_dst_avx+0x1f>
- .byte 65,15,182,68,25,6 // movzbl 0x6(%r9,%rbx,1),%eax
+ .byte 233,100,255,255,255 // jmpq b20e <_sk_load_g8_dst_avx+0x1e>
+ .byte 67,15,182,68,24,6 // movzbl 0x6(%r8,%r11,1),%eax
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 197,217,196,224,6 // vpinsrw $0x6,%eax,%xmm4,%xmm4
- .byte 65,15,182,68,25,5 // movzbl 0x5(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,5 // movzbl 0x5(%r8,%r11,1),%eax
.byte 197,217,196,224,5 // vpinsrw $0x5,%eax,%xmm4,%xmm4
- .byte 65,15,182,68,25,4 // movzbl 0x4(%r9,%rbx,1),%eax
+ .byte 67,15,182,68,24,4 // movzbl 0x4(%r8,%r11,1),%eax
.byte 197,217,196,224,4 // vpinsrw $0x4,%eax,%xmm4,%xmm4
- .byte 196,193,121,110,44,25 // vmovd (%r9,%rbx,1),%xmm5
+ .byte 196,129,121,110,44,24 // vmovd (%r8,%r11,1),%xmm5
.byte 196,226,121,48,237 // vpmovzxbw %xmm5,%xmm5
.byte 196,227,81,14,228,240 // vpblendw $0xf0,%xmm4,%xmm5,%xmm4
- .byte 233,40,255,255,255 // jmpq b23b <_sk_load_g8_dst_avx+0x1f>
- .byte 144 // nop
- .byte 145 // xchg %eax,%ecx
+ .byte 233,41,255,255,255 // jmpq b20e <_sk_load_g8_dst_avx+0x1e>
+ .byte 15,31,0 // nopl (%rax)
+ .byte 143 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,171,255,255,255,156 // ljmp *-0x63000001(%rbx)
+ .byte 255,169,255,255,255,154 // ljmp *-0x65000001(%rcx)
+ .byte 255 // (bad)
.byte 255 // (bad)
+ .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 233,255,255,255,222 // jmpq ffffffffdf00b324 <_sk_overlay_sse2_8bit+0xffffffffdefdfe3f>
.byte 255 // (bad)
+ .byte 220,255 // fdivr %st,%st(7)
.byte 255 // (bad)
- .byte 255,211 // callq *%rbx
+ .byte 255,209 // callq *%rcx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255,194 // inc %edx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -20411,118 +20419,124 @@ HIDDEN _sk_gather_g8_avx
.globl _sk_gather_g8_avx
FUNCTION(_sk_gather_g8_avx)
_sk_gather_g8_avx:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
- .byte 197,249,110,80,8 // vmovd 0x8(%rax),%xmm2
- .byte 197,249,112,210,0 // vpshufd $0x0,%xmm2,%xmm2
- .byte 196,226,105,64,217 // vpmulld %xmm1,%xmm2,%xmm3
- .byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 196,226,105,64,201 // vpmulld %xmm1,%xmm2,%xmm1
- .byte 197,254,91,208 // vcvttps2dq %ymm0,%ymm2
- .byte 196,227,125,25,208,1 // vextractf128 $0x1,%ymm2,%xmm0
- .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
- .byte 197,225,254,202 // vpaddd %xmm2,%xmm3,%xmm1
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,195,121,32,20,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 197,254,91,209 // vcvttps2dq %ymm1,%ymm2
+ .byte 197,249,110,72,8 // vmovd 0x8(%rax),%xmm1
+ .byte 197,249,112,217,0 // vpshufd $0x0,%xmm1,%xmm3
+ .byte 196,226,97,64,202 // vpmulld %xmm2,%xmm3,%xmm1
+ .byte 196,227,125,25,210,1 // vextractf128 $0x1,%ymm2,%xmm2
+ .byte 196,226,97,64,210 // vpmulld %xmm2,%xmm3,%xmm2
+ .byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
+ .byte 196,227,125,25,195,1 // vextractf128 $0x1,%ymm0,%xmm3
+ .byte 197,233,254,211 // vpaddd %xmm3,%xmm2,%xmm2
+ .byte 196,227,249,22,208,1 // vpextrq $0x1,%xmm2,%rax
+ .byte 65,137,193 // mov %eax,%r9d
+ .byte 72,193,232,32 // shr $0x20,%rax
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,105,32,12,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm1
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
- .byte 196,227,113,32,200,2 // vpinsrb $0x2,%eax,%xmm1,%xmm1
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
+ .byte 196,225,249,126,195 // vmovq %xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 196,195,249,22,199,1 // vpextrq $0x1,%xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,131,121,32,4,48,0 // vpinsrb $0x0,(%r8,%r14,1),%xmm0,%xmm0
+ .byte 196,195,121,32,4,24,1 // vpinsrb $0x1,(%r8,%rbx,1),%xmm0,%xmm0
+ .byte 67,15,182,28,32 // movzbl (%r8,%r12,1),%ebx
+ .byte 196,227,121,32,195,2 // vpinsrb $0x2,%ebx,%xmm0,%xmm0
+ .byte 67,15,182,28,56 // movzbl (%r8,%r15,1),%ebx
+ .byte 196,227,121,32,195,3 // vpinsrb $0x3,%ebx,%xmm0,%xmm0
+ .byte 196,226,121,49,192 // vpmovzxbd %xmm0,%xmm0
+ .byte 196,131,121,32,12,24,0 // vpinsrb $0x0,(%r8,%r11,1),%xmm0,%xmm1
+ .byte 196,131,113,32,12,16,1 // vpinsrb $0x1,(%r8,%r10,1),%xmm1,%xmm1
+ .byte 67,15,182,28,8 // movzbl (%r8,%r9,1),%ebx
+ .byte 196,227,113,32,203,2 // vpinsrb $0x2,%ebx,%xmm1,%xmm1
+ .byte 65,15,182,4,0 // movzbl (%r8,%rax,1),%eax
.byte 196,227,113,32,200,3 // vpinsrb $0x3,%eax,%xmm1,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,195,121,32,20,1,0 // vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,105,32,4,17,1 // vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
- .byte 196,227,121,32,192,2 // vpinsrb $0x2,%eax,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
.byte 196,226,121,49,201 // vpmovzxbd %xmm1,%xmm1
- .byte 196,227,121,32,192,3 // vpinsrb $0x3,%eax,%xmm0,%xmm0
- .byte 196,226,121,49,192 // vpmovzxbd %xmm0,%xmm0
- .byte 196,227,117,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm1,%ymm0
+ .byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,160,5,2,0 // vbroadcastss 0x205a0(%rip),%ymm1 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,226,125,24,13,125,5,2,0 // vbroadcastss 0x2057d(%rip),%ymm1 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,29,5,2,0 // vbroadcastss 0x2051d(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,250,4,2,0 // vbroadcastss 0x204fa(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,40,200 // vmovaps %ymm0,%ymm1
.byte 197,252,40,208 // vmovaps %ymm0,%ymm2
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_load_565_avx
.globl _sk_load_565_avx
FUNCTION(_sk_load_565_avx)
_sk_load_565_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,129,0,0,0 // jne b4b6 <_sk_load_565_avx+0xa1>
- .byte 196,193,122,111,4,89 // vmovdqu (%r9,%rbx,2),%xmm0
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,128,0,0,0 // jne b496 <_sk_load_565_avx+0x9f>
+ .byte 196,129,122,111,4,88 // vmovdqu (%r8,%r11,2),%xmm0
.byte 197,241,239,201 // vpxor %xmm1,%xmm1,%xmm1
.byte 197,249,105,201 // vpunpckhwd %xmm1,%xmm0,%xmm1
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
.byte 196,227,125,24,209,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm2
- .byte 196,226,125,24,5,73,5,2,0 // vbroadcastss 0x20549(%rip),%ymm0 # 2b9a0 <_sk_overlay_sse2_8bit+0x4bb>
+ .byte 196,226,125,24,5,32,5,2,0 // vbroadcastss 0x20520(%rip),%ymm0 # 2b958 <_sk_overlay_sse2_8bit+0x4bb>
.byte 197,236,84,192 // vandps %ymm0,%ymm2,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,60,5,2,0 // vbroadcastss 0x2053c(%rip),%ymm1 # 2b9a4 <_sk_overlay_sse2_8bit+0x4bf>
+ .byte 196,226,125,24,13,19,5,2,0 // vbroadcastss 0x20513(%rip),%ymm1 # 2b95c <_sk_overlay_sse2_8bit+0x4bf>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
- .byte 196,226,125,24,13,51,5,2,0 // vbroadcastss 0x20533(%rip),%ymm1 # 2b9a8 <_sk_overlay_sse2_8bit+0x4c3>
+ .byte 196,226,125,24,13,10,5,2,0 // vbroadcastss 0x2050a(%rip),%ymm1 # 2b960 <_sk_overlay_sse2_8bit+0x4c3>
.byte 197,236,84,201 // vandps %ymm1,%ymm2,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
- .byte 196,226,125,24,29,38,5,2,0 // vbroadcastss 0x20526(%rip),%ymm3 # 2b9ac <_sk_overlay_sse2_8bit+0x4c7>
+ .byte 196,226,125,24,29,253,4,2,0 // vbroadcastss 0x204fd(%rip),%ymm3 # 2b964 <_sk_overlay_sse2_8bit+0x4c7>
.byte 197,244,89,203 // vmulps %ymm3,%ymm1,%ymm1
- .byte 196,226,125,24,29,29,5,2,0 // vbroadcastss 0x2051d(%rip),%ymm3 # 2b9b0 <_sk_overlay_sse2_8bit+0x4cb>
+ .byte 196,226,125,24,29,244,4,2,0 // vbroadcastss 0x204f4(%rip),%ymm3 # 2b968 <_sk_overlay_sse2_8bit+0x4cb>
.byte 197,236,84,211 // vandps %ymm3,%ymm2,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
- .byte 196,226,125,24,29,16,5,2,0 // vbroadcastss 0x20510(%rip),%ymm3 # 2b9b4 <_sk_overlay_sse2_8bit+0x4cf>
+ .byte 196,226,125,24,29,231,4,2,0 // vbroadcastss 0x204e7(%rip),%ymm3 # 2b96c <_sk_overlay_sse2_8bit+0x4cf>
.byte 197,236,89,211 // vmulps %ymm3,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,117,4,2,0 // vbroadcastss 0x20475(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
- .byte 91 // pop %rbx
+ .byte 196,226,125,24,29,76,4,2,0 // vbroadcastss 0x2044c(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,109,255,255,255 // ja b43b <_sk_load_565_avx+0x26>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,99,0,0,0 // lea 0x63(%rip),%r11 # b53c <_sk_load_565_avx+0x127>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,110,255,255,255 // ja b41c <_sk_load_565_avx+0x25>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,99,0,0,0 // lea 0x63(%rip),%r10 # b51c <_sk_load_565_avx+0x125>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,249,110,192 // vmovd %eax,%xmm0
- .byte 233,75,255,255,255 // jmpq b43b <_sk_load_565_avx+0x26>
+ .byte 233,76,255,255,255 // jmpq b41c <_sk_load_565_avx+0x25>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 196,193,121,196,68,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,110,12,89 // vmovd (%r9,%rbx,2),%xmm1
+ .byte 196,129,121,196,68,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,110,12,88 // vmovd (%r8,%r11,2),%xmm1
.byte 196,227,121,14,193,3 // vpblendw $0x3,%xmm1,%xmm0,%xmm0
- .byte 233,46,255,255,255 // jmpq b43b <_sk_load_565_avx+0x26>
+ .byte 233,47,255,255,255 // jmpq b41c <_sk_load_565_avx+0x25>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 196,193,121,196,68,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,196,68,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,196,68,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,122,126,12,89 // vmovq (%r9,%rbx,2),%xmm1
+ .byte 196,129,121,196,68,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,196,68,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,196,68,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,122,126,12,88 // vmovq (%r8,%r11,2),%xmm1
.byte 196,227,113,14,192,240 // vpblendw $0xf0,%xmm0,%xmm1,%xmm0
- .byte 233,1,255,255,255 // jmpq b43b <_sk_load_565_avx+0x26>
+ .byte 233,2,255,255,255 // jmpq b41c <_sk_load_565_avx+0x25>
.byte 102,144 // xchg %ax,%ax
.byte 166 // cmpsb %es:(%rdi),%ds:(%rsi)
.byte 255 // (bad)
@@ -20547,85 +20561,81 @@ HIDDEN _sk_load_565_dst_avx
.globl _sk_load_565_dst_avx
FUNCTION(_sk_load_565_dst_avx)
_sk_load_565_dst_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,129,0,0,0 // jne b5f9 <_sk_load_565_dst_avx+0xa1>
- .byte 196,193,122,111,36,89 // vmovdqu (%r9,%rbx,2),%xmm4
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,128,0,0,0 // jne b5d7 <_sk_load_565_dst_avx+0x9f>
+ .byte 196,129,122,111,36,88 // vmovdqu (%r8,%r11,2),%xmm4
.byte 197,209,239,237 // vpxor %xmm5,%xmm5,%xmm5
.byte 197,217,105,237 // vpunpckhwd %xmm5,%xmm4,%xmm5
.byte 196,226,121,51,228 // vpmovzxwd %xmm4,%xmm4
.byte 196,227,93,24,245,1 // vinsertf128 $0x1,%xmm5,%ymm4,%ymm6
- .byte 196,226,125,24,37,6,4,2,0 // vbroadcastss 0x20406(%rip),%ymm4 # 2b9a0 <_sk_overlay_sse2_8bit+0x4bb>
+ .byte 196,226,125,24,37,223,3,2,0 // vbroadcastss 0x203df(%rip),%ymm4 # 2b958 <_sk_overlay_sse2_8bit+0x4bb>
.byte 197,204,84,228 // vandps %ymm4,%ymm6,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,226,125,24,45,249,3,2,0 // vbroadcastss 0x203f9(%rip),%ymm5 # 2b9a4 <_sk_overlay_sse2_8bit+0x4bf>
+ .byte 196,226,125,24,45,210,3,2,0 // vbroadcastss 0x203d2(%rip),%ymm5 # 2b95c <_sk_overlay_sse2_8bit+0x4bf>
.byte 197,220,89,229 // vmulps %ymm5,%ymm4,%ymm4
- .byte 196,226,125,24,45,240,3,2,0 // vbroadcastss 0x203f0(%rip),%ymm5 # 2b9a8 <_sk_overlay_sse2_8bit+0x4c3>
+ .byte 196,226,125,24,45,201,3,2,0 // vbroadcastss 0x203c9(%rip),%ymm5 # 2b960 <_sk_overlay_sse2_8bit+0x4c3>
.byte 197,204,84,237 // vandps %ymm5,%ymm6,%ymm5
.byte 197,252,91,237 // vcvtdq2ps %ymm5,%ymm5
- .byte 196,226,125,24,61,227,3,2,0 // vbroadcastss 0x203e3(%rip),%ymm7 # 2b9ac <_sk_overlay_sse2_8bit+0x4c7>
+ .byte 196,226,125,24,61,188,3,2,0 // vbroadcastss 0x203bc(%rip),%ymm7 # 2b964 <_sk_overlay_sse2_8bit+0x4c7>
.byte 197,212,89,239 // vmulps %ymm7,%ymm5,%ymm5
- .byte 196,226,125,24,61,218,3,2,0 // vbroadcastss 0x203da(%rip),%ymm7 # 2b9b0 <_sk_overlay_sse2_8bit+0x4cb>
+ .byte 196,226,125,24,61,179,3,2,0 // vbroadcastss 0x203b3(%rip),%ymm7 # 2b968 <_sk_overlay_sse2_8bit+0x4cb>
.byte 197,204,84,247 // vandps %ymm7,%ymm6,%ymm6
.byte 197,252,91,246 // vcvtdq2ps %ymm6,%ymm6
- .byte 196,226,125,24,61,205,3,2,0 // vbroadcastss 0x203cd(%rip),%ymm7 # 2b9b4 <_sk_overlay_sse2_8bit+0x4cf>
+ .byte 196,226,125,24,61,166,3,2,0 // vbroadcastss 0x203a6(%rip),%ymm7 # 2b96c <_sk_overlay_sse2_8bit+0x4cf>
.byte 197,204,89,247 // vmulps %ymm7,%ymm6,%ymm6
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,61,50,3,2,0 // vbroadcastss 0x20332(%rip),%ymm7 # 2b928 <_sk_overlay_sse2_8bit+0x443>
- .byte 91 // pop %rbx
+ .byte 196,226,125,24,61,11,3,2,0 // vbroadcastss 0x2030b(%rip),%ymm7 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,109,255,255,255 // ja b57e <_sk_load_565_dst_avx+0x26>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,100,0,0,0 // lea 0x64(%rip),%r11 # b680 <_sk_load_565_dst_avx+0x128>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,110,255,255,255 // ja b55d <_sk_load_565_dst_avx+0x25>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,98,0,0,0 // lea 0x62(%rip),%r10 # b65c <_sk_load_565_dst_avx+0x124>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
- .byte 233,75,255,255,255 // jmpq b57e <_sk_load_565_dst_avx+0x26>
+ .byte 233,76,255,255,255 // jmpq b55d <_sk_load_565_dst_avx+0x25>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 196,193,89,196,100,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,121,110,44,89 // vmovd (%r9,%rbx,2),%xmm5
+ .byte 196,129,89,196,100,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,121,110,44,88 // vmovd (%r8,%r11,2),%xmm5
.byte 196,227,89,14,229,3 // vpblendw $0x3,%xmm5,%xmm4,%xmm4
- .byte 233,46,255,255,255 // jmpq b57e <_sk_load_565_dst_avx+0x26>
+ .byte 233,47,255,255,255 // jmpq b55d <_sk_load_565_dst_avx+0x25>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 196,193,89,196,100,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,89,196,100,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,89,196,100,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,122,126,44,89 // vmovq (%r9,%rbx,2),%xmm5
+ .byte 196,129,89,196,100,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,89,196,100,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,89,196,100,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,122,126,44,88 // vmovq (%r8,%r11,2),%xmm5
.byte 196,227,81,14,228,240 // vpblendw $0xf0,%xmm4,%xmm5,%xmm4
- .byte 233,1,255,255,255 // jmpq b57e <_sk_load_565_dst_avx+0x26>
- .byte 15,31,0 // nopl (%rax)
- .byte 165 // movsl %ds:(%rsi),%es:(%rdi)
- .byte 255 // (bad)
- .byte 255 // (bad)
+ .byte 233,2,255,255,255 // jmpq b55d <_sk_load_565_dst_avx+0x25>
+ .byte 144 // nop
+ .byte 167 // cmpsl %es:(%rdi),%ds:(%rsi)
.byte 255 // (bad)
- .byte 191,255,255,255,179 // mov $0xb3ffffff,%edi
.byte 255 // (bad)
+ .byte 255,193 // inc %ecx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
+ .byte 255,181,255,255,255,238 // pushq -0x11000001(%rbp)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,228 // jmpq *%rsp
+ .byte 255,230 // jmpq *%rsi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
+ .byte 222,255 // fdivrp %st,%st(7)
.byte 255 // (bad)
- .byte 255,208 // callq *%rax
+ .byte 255,210 // callq *%rdx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -20634,89 +20644,98 @@ HIDDEN _sk_gather_565_avx
.globl _sk_gather_565_avx
FUNCTION(_sk_gather_565_avx)
_sk_gather_565_avx:
+ .byte 85 // push %rbp
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
- .byte 197,249,110,80,8 // vmovd 0x8(%rax),%xmm2
- .byte 197,249,112,210,0 // vpshufd $0x0,%xmm2,%xmm2
- .byte 196,226,105,64,217 // vpmulld %xmm1,%xmm2,%xmm3
- .byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 196,226,105,64,201 // vpmulld %xmm1,%xmm2,%xmm1
- .byte 197,254,91,208 // vcvttps2dq %ymm0,%ymm2
- .byte 196,227,125,25,208,1 // vextractf128 $0x1,%ymm2,%xmm0
- .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
- .byte 197,225,254,202 // vpaddd %xmm2,%xmm3,%xmm1
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,249,110,208 // vmovd %eax,%xmm2
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 67,15,183,4,81 // movzwl (%r9,%r10,2),%eax
- .byte 197,233,196,200,1 // vpinsrw $0x1,%eax,%xmm2,%xmm1
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,241,196,200,2 // vpinsrw $0x2,%eax,%xmm1,%xmm1
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
- .byte 197,241,196,200,3 // vpinsrw $0x3,%eax,%xmm1,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,241,196,200,4 // vpinsrw $0x4,%eax,%xmm1,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 197,254,91,209 // vcvttps2dq %ymm1,%ymm2
+ .byte 197,249,110,72,8 // vmovd 0x8(%rax),%xmm1
+ .byte 197,249,112,217,0 // vpshufd $0x0,%xmm1,%xmm3
+ .byte 196,226,97,64,202 // vpmulld %xmm2,%xmm3,%xmm1
+ .byte 196,227,125,25,210,1 // vextractf128 $0x1,%ymm2,%xmm2
+ .byte 196,226,97,64,210 // vpmulld %xmm2,%xmm3,%xmm2
+ .byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
+ .byte 196,227,125,25,195,1 // vextractf128 $0x1,%ymm0,%xmm3
+ .byte 197,233,254,211 // vpaddd %xmm3,%xmm2,%xmm2
+ .byte 196,227,249,22,208,1 // vpextrq $0x1,%xmm2,%rax
+ .byte 65,137,193 // mov %eax,%r9d
+ .byte 72,193,232,32 // shr $0x20,%rax
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 67,15,183,4,81 // movzwl (%r9,%r10,2),%eax
- .byte 197,241,196,192,5 // vpinsrw $0x5,%eax,%xmm1,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,249,196,192,6 // vpinsrw $0x6,%eax,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
+ .byte 196,225,249,126,195 // vmovq %xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 196,195,249,22,199,1 // vpextrq $0x1,%xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,15,183,28,88 // movzwl (%r8,%rbx,2),%ebx
+ .byte 67,15,183,44,112 // movzwl (%r8,%r14,2),%ebp
+ .byte 197,249,110,197 // vmovd %ebp,%xmm0
+ .byte 197,249,196,195,1 // vpinsrw $0x1,%ebx,%xmm0,%xmm0
+ .byte 67,15,183,28,96 // movzwl (%r8,%r12,2),%ebx
+ .byte 197,249,196,195,2 // vpinsrw $0x2,%ebx,%xmm0,%xmm0
+ .byte 67,15,183,28,120 // movzwl (%r8,%r15,2),%ebx
+ .byte 197,249,196,195,3 // vpinsrw $0x3,%ebx,%xmm0,%xmm0
+ .byte 67,15,183,44,88 // movzwl (%r8,%r11,2),%ebp
+ .byte 197,249,196,197,4 // vpinsrw $0x4,%ebp,%xmm0,%xmm0
+ .byte 67,15,183,44,80 // movzwl (%r8,%r10,2),%ebp
+ .byte 197,249,196,197,5 // vpinsrw $0x5,%ebp,%xmm0,%xmm0
+ .byte 67,15,183,44,72 // movzwl (%r8,%r9,2),%ebp
+ .byte 197,249,196,197,6 // vpinsrw $0x6,%ebp,%xmm0,%xmm0
+ .byte 65,15,183,4,64 // movzwl (%r8,%rax,2),%eax
.byte 197,249,196,192,7 // vpinsrw $0x7,%eax,%xmm0,%xmm0
.byte 197,241,239,201 // vpxor %xmm1,%xmm1,%xmm1
.byte 197,249,105,201 // vpunpckhwd %xmm1,%xmm0,%xmm1
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
.byte 196,227,125,24,209,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm2
- .byte 196,226,125,24,5,50,2,2,0 // vbroadcastss 0x20232(%rip),%ymm0 # 2b9a0 <_sk_overlay_sse2_8bit+0x4bb>
+ .byte 196,226,125,24,5,6,2,2,0 // vbroadcastss 0x20206(%rip),%ymm0 # 2b958 <_sk_overlay_sse2_8bit+0x4bb>
.byte 197,236,84,192 // vandps %ymm0,%ymm2,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,37,2,2,0 // vbroadcastss 0x20225(%rip),%ymm1 # 2b9a4 <_sk_overlay_sse2_8bit+0x4bf>
+ .byte 196,226,125,24,13,249,1,2,0 // vbroadcastss 0x201f9(%rip),%ymm1 # 2b95c <_sk_overlay_sse2_8bit+0x4bf>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
- .byte 196,226,125,24,13,28,2,2,0 // vbroadcastss 0x2021c(%rip),%ymm1 # 2b9a8 <_sk_overlay_sse2_8bit+0x4c3>
+ .byte 196,226,125,24,13,240,1,2,0 // vbroadcastss 0x201f0(%rip),%ymm1 # 2b960 <_sk_overlay_sse2_8bit+0x4c3>
.byte 197,236,84,201 // vandps %ymm1,%ymm2,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
- .byte 196,226,125,24,29,15,2,2,0 // vbroadcastss 0x2020f(%rip),%ymm3 # 2b9ac <_sk_overlay_sse2_8bit+0x4c7>
+ .byte 196,226,125,24,29,227,1,2,0 // vbroadcastss 0x201e3(%rip),%ymm3 # 2b964 <_sk_overlay_sse2_8bit+0x4c7>
.byte 197,244,89,203 // vmulps %ymm3,%ymm1,%ymm1
- .byte 196,226,125,24,29,6,2,2,0 // vbroadcastss 0x20206(%rip),%ymm3 # 2b9b0 <_sk_overlay_sse2_8bit+0x4cb>
+ .byte 196,226,125,24,29,218,1,2,0 // vbroadcastss 0x201da(%rip),%ymm3 # 2b968 <_sk_overlay_sse2_8bit+0x4cb>
.byte 197,236,84,211 // vandps %ymm3,%ymm2,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
- .byte 196,226,125,24,29,249,1,2,0 // vbroadcastss 0x201f9(%rip),%ymm3 # 2b9b4 <_sk_overlay_sse2_8bit+0x4cf>
+ .byte 196,226,125,24,29,205,1,2,0 // vbroadcastss 0x201cd(%rip),%ymm3 # 2b96c <_sk_overlay_sse2_8bit+0x4cf>
.byte 197,236,89,211 // vmulps %ymm3,%ymm2,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,94,1,2,0 // vbroadcastss 0x2015e(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,50,1,2,0 // vbroadcastss 0x20132(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
+ .byte 93 // pop %rbp
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_565_avx
.globl _sk_store_565_avx
FUNCTION(_sk_store_565_avx)
_sk_store_565_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 196,98,125,24,5,40,2,2,0 // vbroadcastss 0x20228(%rip),%ymm8 # 2ba14 <_sk_overlay_sse2_8bit+0x52f>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 196,98,125,24,5,245,1,2,0 // vbroadcastss 0x201f5(%rip),%ymm8 # 2b9cc <_sk_overlay_sse2_8bit+0x52f>
.byte 196,65,124,89,200 // vmulps %ymm8,%ymm0,%ymm9
.byte 196,65,125,91,201 // vcvtps2dq %ymm9,%ymm9
.byte 196,193,41,114,241,11 // vpslld $0xb,%xmm9,%xmm10
.byte 196,67,125,25,201,1 // vextractf128 $0x1,%ymm9,%xmm9
.byte 196,193,49,114,241,11 // vpslld $0xb,%xmm9,%xmm9
.byte 196,67,45,24,201,1 // vinsertf128 $0x1,%xmm9,%ymm10,%ymm9
- .byte 196,98,125,24,21,1,2,2,0 // vbroadcastss 0x20201(%rip),%ymm10 # 2ba18 <_sk_overlay_sse2_8bit+0x533>
+ .byte 196,98,125,24,21,206,1,2,0 // vbroadcastss 0x201ce(%rip),%ymm10 # 2b9d0 <_sk_overlay_sse2_8bit+0x533>
.byte 196,65,116,89,210 // vmulps %ymm10,%ymm1,%ymm10
.byte 196,65,125,91,210 // vcvtps2dq %ymm10,%ymm10
.byte 196,193,33,114,242,5 // vpslld $0x5,%xmm10,%xmm11
@@ -20729,54 +20748,53 @@ _sk_store_565_avx:
.byte 196,65,53,86,192 // vorpd %ymm8,%ymm9,%ymm8
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
.byte 196,66,57,43,193 // vpackusdw %xmm9,%xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,11 // jne b868 <_sk_store_565_avx+0x9c>
- .byte 196,65,122,127,4,89 // vmovdqu %xmm8,(%r9,%rbx,2)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne b852 <_sk_store_565_avx+0x9a>
+ .byte 196,1,122,127,4,88 // vmovdqu %xmm8,(%r8,%r11,2)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,235 // ja b863 <_sk_store_565_avx+0x97>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,69,0,0,0 // lea 0x45(%rip),%r11 # b8c8 <_sk_store_565_avx+0xfc>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,67,121,21,4,89,0 // vpextrw $0x0,%xmm8,(%r9,%rbx,2)
- .byte 235,206 // jmp b863 <_sk_store_565_avx+0x97>
- .byte 196,67,121,21,68,89,4,2 // vpextrw $0x2,%xmm8,0x4(%r9,%rbx,2)
- .byte 196,65,121,126,4,89 // vmovd %xmm8,(%r9,%rbx,2)
- .byte 235,190 // jmp b863 <_sk_store_565_avx+0x97>
- .byte 196,67,121,21,68,89,12,6 // vpextrw $0x6,%xmm8,0xc(%r9,%rbx,2)
- .byte 196,67,121,21,68,89,10,5 // vpextrw $0x5,%xmm8,0xa(%r9,%rbx,2)
- .byte 196,67,121,21,68,89,8,4 // vpextrw $0x4,%xmm8,0x8(%r9,%rbx,2)
- .byte 196,65,121,214,4,89 // vmovq %xmm8,(%r9,%rbx,2)
- .byte 235,158 // jmp b863 <_sk_store_565_avx+0x97>
- .byte 15,31,0 // nopl (%rax)
- .byte 196 // (bad)
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,236 // ja b84e <_sk_store_565_avx+0x96>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,67,0,0,0 // lea 0x43(%rip),%r10 # b8b0 <_sk_store_565_avx+0xf8>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,3,121,21,4,88,0 // vpextrw $0x0,%xmm8,(%r8,%r11,2)
+ .byte 235,207 // jmp b84e <_sk_store_565_avx+0x96>
+ .byte 196,3,121,21,68,88,4,2 // vpextrw $0x2,%xmm8,0x4(%r8,%r11,2)
+ .byte 196,1,121,126,4,88 // vmovd %xmm8,(%r8,%r11,2)
+ .byte 235,191 // jmp b84e <_sk_store_565_avx+0x96>
+ .byte 196,3,121,21,68,88,12,6 // vpextrw $0x6,%xmm8,0xc(%r8,%r11,2)
+ .byte 196,3,121,21,68,88,10,5 // vpextrw $0x5,%xmm8,0xa(%r8,%r11,2)
+ .byte 196,3,121,21,68,88,8,4 // vpextrw $0x4,%xmm8,0x8(%r8,%r11,2)
+ .byte 196,1,121,214,4,88 // vmovq %xmm8,(%r8,%r11,2)
+ .byte 235,159 // jmp b84e <_sk_store_565_avx+0x96>
+ .byte 144 // nop
+ .byte 198 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,213 // callq *%rbp
+ .byte 255,215 // callq *%rdi
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,205 // dec %ebp
+ .byte 255,207 // dec %edi
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,245 // push %rbp
+ .byte 255,247 // push %rdi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 237 // in (%dx),%eax
+ .byte 239 // out %eax,(%dx)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,229 // jmpq *%rbp
+ .byte 255,231 // jmpq *%rdi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 221,255 // (bad)
+ .byte 223,255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -20784,89 +20802,85 @@ HIDDEN _sk_load_4444_avx
.globl _sk_load_4444_avx
FUNCTION(_sk_load_4444_avx)
_sk_load_4444_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,153,0,0,0 // jne b99d <_sk_load_4444_avx+0xb9>
- .byte 196,193,122,111,4,89 // vmovdqu (%r9,%rbx,2),%xmm0
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,152,0,0,0 // jne b983 <_sk_load_4444_avx+0xb7>
+ .byte 196,129,122,111,4,88 // vmovdqu (%r8,%r11,2),%xmm0
.byte 197,241,239,201 // vpxor %xmm1,%xmm1,%xmm1
.byte 197,249,105,201 // vpunpckhwd %xmm1,%xmm0,%xmm1
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
.byte 196,227,125,24,217,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm3
- .byte 196,226,125,24,5,246,0,2,0 // vbroadcastss 0x200f6(%rip),%ymm0 # 2ba1c <_sk_overlay_sse2_8bit+0x537>
+ .byte 196,226,125,24,5,199,0,2,0 // vbroadcastss 0x200c7(%rip),%ymm0 # 2b9d4 <_sk_overlay_sse2_8bit+0x537>
.byte 197,228,84,192 // vandps %ymm0,%ymm3,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,233,0,2,0 // vbroadcastss 0x200e9(%rip),%ymm1 # 2ba20 <_sk_overlay_sse2_8bit+0x53b>
+ .byte 196,226,125,24,13,186,0,2,0 // vbroadcastss 0x200ba(%rip),%ymm1 # 2b9d8 <_sk_overlay_sse2_8bit+0x53b>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
- .byte 196,226,125,24,13,224,0,2,0 // vbroadcastss 0x200e0(%rip),%ymm1 # 2ba24 <_sk_overlay_sse2_8bit+0x53f>
+ .byte 196,226,125,24,13,177,0,2,0 // vbroadcastss 0x200b1(%rip),%ymm1 # 2b9dc <_sk_overlay_sse2_8bit+0x53f>
.byte 197,228,84,201 // vandps %ymm1,%ymm3,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
- .byte 196,226,125,24,21,211,0,2,0 // vbroadcastss 0x200d3(%rip),%ymm2 # 2ba28 <_sk_overlay_sse2_8bit+0x543>
+ .byte 196,226,125,24,21,164,0,2,0 // vbroadcastss 0x200a4(%rip),%ymm2 # 2b9e0 <_sk_overlay_sse2_8bit+0x543>
.byte 197,244,89,202 // vmulps %ymm2,%ymm1,%ymm1
- .byte 196,226,125,24,21,202,0,2,0 // vbroadcastss 0x200ca(%rip),%ymm2 # 2ba2c <_sk_overlay_sse2_8bit+0x547>
+ .byte 196,226,125,24,21,155,0,2,0 // vbroadcastss 0x2009b(%rip),%ymm2 # 2b9e4 <_sk_overlay_sse2_8bit+0x547>
.byte 197,228,84,210 // vandps %ymm2,%ymm3,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
- .byte 196,98,125,24,5,189,0,2,0 // vbroadcastss 0x200bd(%rip),%ymm8 # 2ba30 <_sk_overlay_sse2_8bit+0x54b>
+ .byte 196,98,125,24,5,142,0,2,0 // vbroadcastss 0x2008e(%rip),%ymm8 # 2b9e8 <_sk_overlay_sse2_8bit+0x54b>
.byte 196,193,108,89,208 // vmulps %ymm8,%ymm2,%ymm2
- .byte 196,98,125,24,5,179,0,2,0 // vbroadcastss 0x200b3(%rip),%ymm8 # 2ba34 <_sk_overlay_sse2_8bit+0x54f>
+ .byte 196,98,125,24,5,132,0,2,0 // vbroadcastss 0x20084(%rip),%ymm8 # 2b9ec <_sk_overlay_sse2_8bit+0x54f>
.byte 196,193,100,84,216 // vandps %ymm8,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
- .byte 196,98,125,24,5,165,0,2,0 // vbroadcastss 0x200a5(%rip),%ymm8 # 2ba38 <_sk_overlay_sse2_8bit+0x553>
+ .byte 196,98,125,24,5,118,0,2,0 // vbroadcastss 0x20076(%rip),%ymm8 # 2b9f0 <_sk_overlay_sse2_8bit+0x553>
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,85,255,255,255 // ja b90a <_sk_load_4444_avx+0x26>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,100,0,0,0 // lea 0x64(%rip),%r11 # ba24 <_sk_load_4444_avx+0x140>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,86,255,255,255 // ja b8f1 <_sk_load_4444_avx+0x25>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,98,0,0,0 // lea 0x62(%rip),%r10 # ba08 <_sk_load_4444_avx+0x13c>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,249,110,192 // vmovd %eax,%xmm0
- .byte 233,51,255,255,255 // jmpq b90a <_sk_load_4444_avx+0x26>
+ .byte 233,52,255,255,255 // jmpq b8f1 <_sk_load_4444_avx+0x25>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 196,193,121,196,68,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,110,12,89 // vmovd (%r9,%rbx,2),%xmm1
+ .byte 196,129,121,196,68,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,110,12,88 // vmovd (%r8,%r11,2),%xmm1
.byte 196,227,121,14,193,3 // vpblendw $0x3,%xmm1,%xmm0,%xmm0
- .byte 233,22,255,255,255 // jmpq b90a <_sk_load_4444_avx+0x26>
+ .byte 233,23,255,255,255 // jmpq b8f1 <_sk_load_4444_avx+0x25>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
- .byte 196,193,121,196,68,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,196,68,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,121,196,68,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm0,%xmm0
- .byte 196,193,122,126,12,89 // vmovq (%r9,%rbx,2),%xmm1
+ .byte 196,129,121,196,68,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,196,68,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,121,196,68,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm0,%xmm0
+ .byte 196,129,122,126,12,88 // vmovq (%r8,%r11,2),%xmm1
.byte 196,227,113,14,192,240 // vpblendw $0xf0,%xmm0,%xmm1,%xmm0
- .byte 233,233,254,255,255 // jmpq b90a <_sk_load_4444_avx+0x26>
- .byte 15,31,0 // nopl (%rax)
- .byte 165 // movsl %ds:(%rsi),%es:(%rdi)
- .byte 255 // (bad)
- .byte 255 // (bad)
+ .byte 233,234,254,255,255 // jmpq b8f1 <_sk_load_4444_avx+0x25>
+ .byte 144 // nop
+ .byte 167 // cmpsl %es:(%rdi),%ds:(%rsi)
.byte 255 // (bad)
- .byte 191,255,255,255,179 // mov $0xb3ffffff,%edi
.byte 255 // (bad)
+ .byte 255,193 // inc %ecx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
+ .byte 255,181,255,255,255,238 // pushq -0x11000001(%rbp)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,228 // jmpq *%rsp
+ .byte 255,230 // jmpq *%rsi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
+ .byte 222,255 // fdivrp %st,%st(7)
.byte 255 // (bad)
- .byte 255,208 // callq *%rax
+ .byte 255,210 // callq *%rdx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -20875,89 +20889,85 @@ HIDDEN _sk_load_4444_dst_avx
.globl _sk_load_4444_dst_avx
FUNCTION(_sk_load_4444_dst_avx)
_sk_load_4444_dst_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,153,0,0,0 // jne baf9 <_sk_load_4444_dst_avx+0xb9>
- .byte 196,193,122,111,36,89 // vmovdqu (%r9,%rbx,2),%xmm4
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,152,0,0,0 // jne badb <_sk_load_4444_dst_avx+0xb7>
+ .byte 196,129,122,111,36,88 // vmovdqu (%r8,%r11,2),%xmm4
.byte 197,209,239,237 // vpxor %xmm5,%xmm5,%xmm5
.byte 197,217,105,237 // vpunpckhwd %xmm5,%xmm4,%xmm5
.byte 196,226,121,51,228 // vpmovzxwd %xmm4,%xmm4
.byte 196,227,93,24,253,1 // vinsertf128 $0x1,%xmm5,%ymm4,%ymm7
- .byte 196,226,125,24,37,154,255,1,0 // vbroadcastss 0x1ff9a(%rip),%ymm4 # 2ba1c <_sk_overlay_sse2_8bit+0x537>
+ .byte 196,226,125,24,37,111,255,1,0 // vbroadcastss 0x1ff6f(%rip),%ymm4 # 2b9d4 <_sk_overlay_sse2_8bit+0x537>
.byte 197,196,84,228 // vandps %ymm4,%ymm7,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,226,125,24,45,141,255,1,0 // vbroadcastss 0x1ff8d(%rip),%ymm5 # 2ba20 <_sk_overlay_sse2_8bit+0x53b>
+ .byte 196,226,125,24,45,98,255,1,0 // vbroadcastss 0x1ff62(%rip),%ymm5 # 2b9d8 <_sk_overlay_sse2_8bit+0x53b>
.byte 197,220,89,229 // vmulps %ymm5,%ymm4,%ymm4
- .byte 196,226,125,24,45,132,255,1,0 // vbroadcastss 0x1ff84(%rip),%ymm5 # 2ba24 <_sk_overlay_sse2_8bit+0x53f>
+ .byte 196,226,125,24,45,89,255,1,0 // vbroadcastss 0x1ff59(%rip),%ymm5 # 2b9dc <_sk_overlay_sse2_8bit+0x53f>
.byte 197,196,84,237 // vandps %ymm5,%ymm7,%ymm5
.byte 197,252,91,237 // vcvtdq2ps %ymm5,%ymm5
- .byte 196,226,125,24,53,119,255,1,0 // vbroadcastss 0x1ff77(%rip),%ymm6 # 2ba28 <_sk_overlay_sse2_8bit+0x543>
+ .byte 196,226,125,24,53,76,255,1,0 // vbroadcastss 0x1ff4c(%rip),%ymm6 # 2b9e0 <_sk_overlay_sse2_8bit+0x543>
.byte 197,212,89,238 // vmulps %ymm6,%ymm5,%ymm5
- .byte 196,226,125,24,53,110,255,1,0 // vbroadcastss 0x1ff6e(%rip),%ymm6 # 2ba2c <_sk_overlay_sse2_8bit+0x547>
+ .byte 196,226,125,24,53,67,255,1,0 // vbroadcastss 0x1ff43(%rip),%ymm6 # 2b9e4 <_sk_overlay_sse2_8bit+0x547>
.byte 197,196,84,246 // vandps %ymm6,%ymm7,%ymm6
.byte 197,252,91,246 // vcvtdq2ps %ymm6,%ymm6
- .byte 196,98,125,24,5,97,255,1,0 // vbroadcastss 0x1ff61(%rip),%ymm8 # 2ba30 <_sk_overlay_sse2_8bit+0x54b>
+ .byte 196,98,125,24,5,54,255,1,0 // vbroadcastss 0x1ff36(%rip),%ymm8 # 2b9e8 <_sk_overlay_sse2_8bit+0x54b>
.byte 196,193,76,89,240 // vmulps %ymm8,%ymm6,%ymm6
- .byte 196,98,125,24,5,87,255,1,0 // vbroadcastss 0x1ff57(%rip),%ymm8 # 2ba34 <_sk_overlay_sse2_8bit+0x54f>
+ .byte 196,98,125,24,5,44,255,1,0 // vbroadcastss 0x1ff2c(%rip),%ymm8 # 2b9ec <_sk_overlay_sse2_8bit+0x54f>
.byte 196,193,68,84,248 // vandps %ymm8,%ymm7,%ymm7
.byte 197,252,91,255 // vcvtdq2ps %ymm7,%ymm7
- .byte 196,98,125,24,5,73,255,1,0 // vbroadcastss 0x1ff49(%rip),%ymm8 # 2ba38 <_sk_overlay_sse2_8bit+0x553>
+ .byte 196,98,125,24,5,30,255,1,0 // vbroadcastss 0x1ff1e(%rip),%ymm8 # 2b9f0 <_sk_overlay_sse2_8bit+0x553>
.byte 196,193,68,89,248 // vmulps %ymm8,%ymm7,%ymm7
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,85,255,255,255 // ja ba66 <_sk_load_4444_dst_avx+0x26>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,100,0,0,0 // lea 0x64(%rip),%r11 # bb80 <_sk_load_4444_dst_avx+0x140>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 65,15,183,4,89 // movzwl (%r9,%rbx,2),%eax
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,86,255,255,255 // ja ba49 <_sk_load_4444_dst_avx+0x25>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,98,0,0,0 // lea 0x62(%rip),%r10 # bb60 <_sk_load_4444_dst_avx+0x13c>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 67,15,183,4,88 // movzwl (%r8,%r11,2),%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
- .byte 233,51,255,255,255 // jmpq ba66 <_sk_load_4444_dst_avx+0x26>
+ .byte 233,52,255,255,255 // jmpq ba49 <_sk_load_4444_dst_avx+0x25>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 196,193,89,196,100,89,4,2 // vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,121,110,44,89 // vmovd (%r9,%rbx,2),%xmm5
+ .byte 196,129,89,196,100,88,4,2 // vpinsrw $0x2,0x4(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,121,110,44,88 // vmovd (%r8,%r11,2),%xmm5
.byte 196,227,89,14,229,3 // vpblendw $0x3,%xmm5,%xmm4,%xmm4
- .byte 233,22,255,255,255 // jmpq ba66 <_sk_load_4444_dst_avx+0x26>
+ .byte 233,23,255,255,255 // jmpq ba49 <_sk_load_4444_dst_avx+0x25>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
- .byte 196,193,89,196,100,89,12,6 // vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,89,196,100,89,10,5 // vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,89,196,100,89,8,4 // vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm4,%xmm4
- .byte 196,193,122,126,44,89 // vmovq (%r9,%rbx,2),%xmm5
+ .byte 196,129,89,196,100,88,12,6 // vpinsrw $0x6,0xc(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,89,196,100,88,10,5 // vpinsrw $0x5,0xa(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,89,196,100,88,8,4 // vpinsrw $0x4,0x8(%r8,%r11,2),%xmm4,%xmm4
+ .byte 196,129,122,126,44,88 // vmovq (%r8,%r11,2),%xmm5
.byte 196,227,81,14,228,240 // vpblendw $0xf0,%xmm4,%xmm5,%xmm4
- .byte 233,233,254,255,255 // jmpq ba66 <_sk_load_4444_dst_avx+0x26>
- .byte 15,31,0 // nopl (%rax)
- .byte 165 // movsl %ds:(%rsi),%es:(%rdi)
- .byte 255 // (bad)
- .byte 255 // (bad)
+ .byte 233,234,254,255,255 // jmpq ba49 <_sk_load_4444_dst_avx+0x25>
+ .byte 144 // nop
+ .byte 167 // cmpsl %es:(%rdi),%ds:(%rsi)
.byte 255 // (bad)
- .byte 191,255,255,255,179 // mov $0xb3ffffff,%edi
.byte 255 // (bad)
+ .byte 255,193 // inc %ecx
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
+ .byte 255,181,255,255,255,238 // pushq -0x11000001(%rbp)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,228 // jmpq *%rsp
+ .byte 255,230 // jmpq *%rsi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 220,255 // fdivr %st,%st(7)
+ .byte 222,255 // fdivrp %st,%st(7)
.byte 255 // (bad)
- .byte 255,208 // callq *%rax
+ .byte 255,210 // callq *%rdx
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -20966,86 +20976,95 @@ HIDDEN _sk_gather_4444_avx
.globl _sk_gather_4444_avx
FUNCTION(_sk_gather_4444_avx)
_sk_gather_4444_avx:
+ .byte 85 // push %rbp
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
- .byte 197,249,110,80,8 // vmovd 0x8(%rax),%xmm2
- .byte 197,249,112,210,0 // vpshufd $0x0,%xmm2,%xmm2
- .byte 196,226,105,64,217 // vpmulld %xmm1,%xmm2,%xmm3
- .byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 196,226,105,64,201 // vpmulld %xmm1,%xmm2,%xmm1
- .byte 197,254,91,208 // vcvttps2dq %ymm0,%ymm2
- .byte 196,227,125,25,208,1 // vextractf128 $0x1,%ymm2,%xmm0
- .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
- .byte 197,225,254,202 // vpaddd %xmm2,%xmm3,%xmm1
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,249,110,208 // vmovd %eax,%xmm2
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 67,15,183,4,81 // movzwl (%r9,%r10,2),%eax
- .byte 197,233,196,200,1 // vpinsrw $0x1,%eax,%xmm2,%xmm1
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,241,196,200,2 // vpinsrw $0x2,%eax,%xmm1,%xmm1
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
- .byte 197,241,196,200,3 // vpinsrw $0x3,%eax,%xmm1,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,241,196,200,4 // vpinsrw $0x4,%eax,%xmm1,%xmm1
- .byte 196,195,249,22,195,1 // vpextrq $0x1,%xmm0,%r11
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 197,254,91,209 // vcvttps2dq %ymm1,%ymm2
+ .byte 197,249,110,72,8 // vmovd 0x8(%rax),%xmm1
+ .byte 197,249,112,217,0 // vpshufd $0x0,%xmm1,%xmm3
+ .byte 196,226,97,64,202 // vpmulld %xmm2,%xmm3,%xmm1
+ .byte 196,227,125,25,210,1 // vextractf128 $0x1,%ymm2,%xmm2
+ .byte 196,226,97,64,210 // vpmulld %xmm2,%xmm3,%xmm2
+ .byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
+ .byte 196,227,125,25,195,1 // vextractf128 $0x1,%ymm0,%xmm3
+ .byte 197,233,254,211 // vpaddd %xmm3,%xmm2,%xmm2
+ .byte 196,227,249,22,208,1 // vpextrq $0x1,%xmm2,%rax
+ .byte 65,137,193 // mov %eax,%r9d
+ .byte 72,193,232,32 // shr $0x20,%rax
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 67,15,183,4,81 // movzwl (%r9,%r10,2),%eax
- .byte 197,241,196,192,5 // vpinsrw $0x5,%eax,%xmm1,%xmm0
- .byte 68,137,216 // mov %r11d,%eax
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
- .byte 197,249,196,192,6 // vpinsrw $0x6,%eax,%xmm0,%xmm0
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
+ .byte 196,225,249,126,195 // vmovq %xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 196,195,249,22,199,1 // vpextrq $0x1,%xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,15,183,28,88 // movzwl (%r8,%rbx,2),%ebx
+ .byte 67,15,183,44,112 // movzwl (%r8,%r14,2),%ebp
+ .byte 197,249,110,197 // vmovd %ebp,%xmm0
+ .byte 197,249,196,195,1 // vpinsrw $0x1,%ebx,%xmm0,%xmm0
+ .byte 67,15,183,28,96 // movzwl (%r8,%r12,2),%ebx
+ .byte 197,249,196,195,2 // vpinsrw $0x2,%ebx,%xmm0,%xmm0
+ .byte 67,15,183,28,120 // movzwl (%r8,%r15,2),%ebx
+ .byte 197,249,196,195,3 // vpinsrw $0x3,%ebx,%xmm0,%xmm0
+ .byte 67,15,183,44,88 // movzwl (%r8,%r11,2),%ebp
+ .byte 197,249,196,197,4 // vpinsrw $0x4,%ebp,%xmm0,%xmm0
+ .byte 67,15,183,44,80 // movzwl (%r8,%r10,2),%ebp
+ .byte 197,249,196,197,5 // vpinsrw $0x5,%ebp,%xmm0,%xmm0
+ .byte 67,15,183,44,72 // movzwl (%r8,%r9,2),%ebp
+ .byte 197,249,196,197,6 // vpinsrw $0x6,%ebp,%xmm0,%xmm0
+ .byte 65,15,183,4,64 // movzwl (%r8,%rax,2),%eax
.byte 197,249,196,192,7 // vpinsrw $0x7,%eax,%xmm0,%xmm0
.byte 197,241,239,201 // vpxor %xmm1,%xmm1,%xmm1
.byte 197,249,105,201 // vpunpckhwd %xmm1,%xmm0,%xmm1
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
.byte 196,227,125,24,217,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm3
- .byte 196,226,125,24,5,174,253,1,0 // vbroadcastss 0x1fdae(%rip),%ymm0 # 2ba1c <_sk_overlay_sse2_8bit+0x537>
+ .byte 196,226,125,24,5,126,253,1,0 // vbroadcastss 0x1fd7e(%rip),%ymm0 # 2b9d4 <_sk_overlay_sse2_8bit+0x537>
.byte 197,228,84,192 // vandps %ymm0,%ymm3,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,13,161,253,1,0 // vbroadcastss 0x1fda1(%rip),%ymm1 # 2ba20 <_sk_overlay_sse2_8bit+0x53b>
+ .byte 196,226,125,24,13,113,253,1,0 // vbroadcastss 0x1fd71(%rip),%ymm1 # 2b9d8 <_sk_overlay_sse2_8bit+0x53b>
.byte 197,252,89,193 // vmulps %ymm1,%ymm0,%ymm0
- .byte 196,226,125,24,13,152,253,1,0 // vbroadcastss 0x1fd98(%rip),%ymm1 # 2ba24 <_sk_overlay_sse2_8bit+0x53f>
+ .byte 196,226,125,24,13,104,253,1,0 // vbroadcastss 0x1fd68(%rip),%ymm1 # 2b9dc <_sk_overlay_sse2_8bit+0x53f>
.byte 197,228,84,201 // vandps %ymm1,%ymm3,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
- .byte 196,226,125,24,21,139,253,1,0 // vbroadcastss 0x1fd8b(%rip),%ymm2 # 2ba28 <_sk_overlay_sse2_8bit+0x543>
+ .byte 196,226,125,24,21,91,253,1,0 // vbroadcastss 0x1fd5b(%rip),%ymm2 # 2b9e0 <_sk_overlay_sse2_8bit+0x543>
.byte 197,244,89,202 // vmulps %ymm2,%ymm1,%ymm1
- .byte 196,226,125,24,21,130,253,1,0 // vbroadcastss 0x1fd82(%rip),%ymm2 # 2ba2c <_sk_overlay_sse2_8bit+0x547>
+ .byte 196,226,125,24,21,82,253,1,0 // vbroadcastss 0x1fd52(%rip),%ymm2 # 2b9e4 <_sk_overlay_sse2_8bit+0x547>
.byte 197,228,84,210 // vandps %ymm2,%ymm3,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
- .byte 196,98,125,24,5,117,253,1,0 // vbroadcastss 0x1fd75(%rip),%ymm8 # 2ba30 <_sk_overlay_sse2_8bit+0x54b>
+ .byte 196,98,125,24,5,69,253,1,0 // vbroadcastss 0x1fd45(%rip),%ymm8 # 2b9e8 <_sk_overlay_sse2_8bit+0x54b>
.byte 196,193,108,89,208 // vmulps %ymm8,%ymm2,%ymm2
- .byte 196,98,125,24,5,107,253,1,0 // vbroadcastss 0x1fd6b(%rip),%ymm8 # 2ba34 <_sk_overlay_sse2_8bit+0x54f>
+ .byte 196,98,125,24,5,59,253,1,0 // vbroadcastss 0x1fd3b(%rip),%ymm8 # 2b9ec <_sk_overlay_sse2_8bit+0x54f>
.byte 196,193,100,84,216 // vandps %ymm8,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
- .byte 196,98,125,24,5,93,253,1,0 // vbroadcastss 0x1fd5d(%rip),%ymm8 # 2ba38 <_sk_overlay_sse2_8bit+0x553>
+ .byte 196,98,125,24,5,45,253,1,0 // vbroadcastss 0x1fd2d(%rip),%ymm8 # 2b9f0 <_sk_overlay_sse2_8bit+0x553>
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
+ .byte 93 // pop %rbp
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_4444_avx
.globl _sk_store_4444_avx
FUNCTION(_sk_store_4444_avx)
_sk_store_4444_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 196,98,125,24,5,56,253,1,0 // vbroadcastss 0x1fd38(%rip),%ymm8 # 2ba3c <_sk_overlay_sse2_8bit+0x557>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 196,98,125,24,5,1,253,1,0 // vbroadcastss 0x1fd01(%rip),%ymm8 # 2b9f4 <_sk_overlay_sse2_8bit+0x557>
.byte 196,65,124,89,200 // vmulps %ymm8,%ymm0,%ymm9
.byte 196,65,125,91,201 // vcvtps2dq %ymm9,%ymm9
.byte 196,193,41,114,241,12 // vpslld $0xc,%xmm9,%xmm10
@@ -21071,54 +21090,53 @@ _sk_store_4444_avx:
.byte 196,65,53,86,192 // vorpd %ymm8,%ymm9,%ymm8
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
.byte 196,66,57,43,193 // vpackusdw %xmm9,%xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,11 // jne bd9e <_sk_store_4444_avx+0xba>
- .byte 196,65,122,127,4,89 // vmovdqu %xmm8,(%r9,%rbx,2)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne bd8c <_sk_store_4444_avx+0xb8>
+ .byte 196,1,122,127,4,88 // vmovdqu %xmm8,(%r8,%r11,2)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,235 // ja bd99 <_sk_store_4444_avx+0xb5>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,67,0,0,0 // lea 0x43(%rip),%r11 # bdfc <_sk_store_4444_avx+0x118>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,67,121,21,4,89,0 // vpextrw $0x0,%xmm8,(%r9,%rbx,2)
- .byte 235,206 // jmp bd99 <_sk_store_4444_avx+0xb5>
- .byte 196,67,121,21,68,89,4,2 // vpextrw $0x2,%xmm8,0x4(%r9,%rbx,2)
- .byte 196,65,121,126,4,89 // vmovd %xmm8,(%r9,%rbx,2)
- .byte 235,190 // jmp bd99 <_sk_store_4444_avx+0xb5>
- .byte 196,67,121,21,68,89,12,6 // vpextrw $0x6,%xmm8,0xc(%r9,%rbx,2)
- .byte 196,67,121,21,68,89,10,5 // vpextrw $0x5,%xmm8,0xa(%r9,%rbx,2)
- .byte 196,67,121,21,68,89,8,4 // vpextrw $0x4,%xmm8,0x8(%r9,%rbx,2)
- .byte 196,65,121,214,4,89 // vmovq %xmm8,(%r9,%rbx,2)
- .byte 235,158 // jmp bd99 <_sk_store_4444_avx+0xb5>
- .byte 144 // nop
- .byte 198 // (bad)
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,236 // ja bd88 <_sk_store_4444_avx+0xb4>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,69,0,0,0 // lea 0x45(%rip),%r10 # bdec <_sk_store_4444_avx+0x118>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,3,121,21,4,88,0 // vpextrw $0x0,%xmm8,(%r8,%r11,2)
+ .byte 235,207 // jmp bd88 <_sk_store_4444_avx+0xb4>
+ .byte 196,3,121,21,68,88,4,2 // vpextrw $0x2,%xmm8,0x4(%r8,%r11,2)
+ .byte 196,1,121,126,4,88 // vmovd %xmm8,(%r8,%r11,2)
+ .byte 235,191 // jmp bd88 <_sk_store_4444_avx+0xb4>
+ .byte 196,3,121,21,68,88,12,6 // vpextrw $0x6,%xmm8,0xc(%r8,%r11,2)
+ .byte 196,3,121,21,68,88,10,5 // vpextrw $0x5,%xmm8,0xa(%r8,%r11,2)
+ .byte 196,3,121,21,68,88,8,4 // vpextrw $0x4,%xmm8,0x8(%r8,%r11,2)
+ .byte 196,1,121,214,4,88 // vmovq %xmm8,(%r8,%r11,2)
+ .byte 235,159 // jmp bd88 <_sk_store_4444_avx+0xb4>
+ .byte 15,31,0 // nopl (%rax)
+ .byte 196 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,215 // callq *%rdi
+ .byte 255,213 // callq *%rbp
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,207 // dec %edi
+ .byte 255,205 // dec %ebp
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,247 // push %rdi
+ .byte 255,245 // push %rbp
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 239 // out %eax,(%dx)
+ .byte 237 // in (%dx),%eax
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,231 // jmpq *%rdi
+ .byte 255,229 // jmpq *%rbp
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 223,255 // (bad)
+ .byte 221,255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -21126,21 +21144,20 @@ HIDDEN _sk_load_8888_avx
.globl _sk_load_8888_avx
FUNCTION(_sk_load_8888_avx)
_sk_load_8888_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,136,0,0,0 // jne bec1 <_sk_load_8888_avx+0xa9>
- .byte 196,65,125,16,12,153 // vmovupd (%r9,%rbx,4),%ymm9
- .byte 197,125,40,21,217,255,1,0 // vmovapd 0x1ffd9(%rip),%ymm10 # 2be20 <_sk_overlay_sse2_8bit+0x93b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,135,0,0,0 // jne beaf <_sk_load_8888_avx+0xa7>
+ .byte 196,1,125,16,12,152 // vmovupd (%r8,%r11,4),%ymm9
+ .byte 197,125,40,21,234,255,1,0 // vmovapd 0x1ffea(%rip),%ymm10 # 2be20 <_sk_overlay_sse2_8bit+0x983>
.byte 196,193,53,84,194 // vandpd %ymm10,%ymm9,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,5,67,251,1,0 // vbroadcastss 0x1fb43(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,12,251,1,0 // vbroadcastss 0x1fb0c(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,192 // vmulps %ymm8,%ymm0,%ymm0
.byte 196,193,113,114,209,8 // vpsrld $0x8,%xmm9,%xmm1
.byte 196,99,125,25,203,1 // vextractf128 $0x1,%ymm9,%xmm3
@@ -21161,60 +21178,60 @@ _sk_load_8888_avx:
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,52,87,201 // vxorps %ymm9,%ymm9,%ymm9
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,101,255,255,255 // ja be3f <_sk_load_8888_avx+0x27>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,147,0,0,0 // lea 0x93(%rip),%r11 # bf78 <_sk_load_8888_avx+0x160>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,122,16,12,153 // vmovss (%r9,%rbx,4),%xmm9
- .byte 233,70,255,255,255 // jmpq be3f <_sk_load_8888_avx+0x27>
- .byte 196,193,121,110,68,153,8 // vmovd 0x8(%r9,%rbx,4),%xmm0
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,102,255,255,255 // ja be2e <_sk_load_8888_avx+0x26>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,145,0,0,0 // lea 0x91(%rip),%r10 # bf64 <_sk_load_8888_avx+0x15c>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,1,122,16,12,152 // vmovss (%r8,%r11,4),%xmm9
+ .byte 233,71,255,255,255 // jmpq be2e <_sk_load_8888_avx+0x26>
+ .byte 196,129,121,110,68,152,8 // vmovd 0x8(%r8,%r11,4),%xmm0
.byte 197,249,112,192,68 // vpshufd $0x44,%xmm0,%xmm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 196,99,117,12,200,4 // vblendps $0x4,%ymm0,%ymm1,%ymm9
- .byte 196,193,123,16,4,153 // vmovsd (%r9,%rbx,4),%xmm0
+ .byte 196,129,123,16,4,152 // vmovsd (%r8,%r11,4),%xmm0
.byte 196,99,53,13,200,1 // vblendpd $0x1,%ymm0,%ymm9,%ymm9
- .byte 233,31,255,255,255 // jmpq be3f <_sk_load_8888_avx+0x27>
- .byte 196,193,121,110,68,153,24 // vmovd 0x18(%r9,%rbx,4),%xmm0
+ .byte 233,32,255,255,255 // jmpq be2e <_sk_load_8888_avx+0x26>
+ .byte 196,129,121,110,68,152,24 // vmovd 0x18(%r8,%r11,4),%xmm0
.byte 197,249,112,192,68 // vpshufd $0x44,%xmm0,%xmm0
.byte 196,227,125,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 196,99,117,12,200,64 // vblendps $0x40,%ymm0,%ymm1,%ymm9
.byte 196,99,125,25,200,1 // vextractf128 $0x1,%ymm9,%xmm0
- .byte 196,195,121,34,68,153,20,1 // vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm0,%xmm0
+ .byte 196,131,121,34,68,152,20,1 // vpinsrd $0x1,0x14(%r8,%r11,4),%xmm0,%xmm0
.byte 196,99,53,24,200,1 // vinsertf128 $0x1,%xmm0,%ymm9,%ymm9
.byte 196,99,125,25,200,1 // vextractf128 $0x1,%ymm9,%xmm0
- .byte 196,195,121,34,68,153,16,0 // vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm0,%xmm0
+ .byte 196,131,121,34,68,152,16,0 // vpinsrd $0x0,0x10(%r8,%r11,4),%xmm0,%xmm0
.byte 196,99,53,24,200,1 // vinsertf128 $0x1,%xmm0,%ymm9,%ymm9
- .byte 196,193,121,16,4,153 // vmovupd (%r9,%rbx,4),%xmm0
+ .byte 196,129,121,16,4,152 // vmovupd (%r8,%r11,4),%xmm0
.byte 196,67,125,13,201,12 // vblendpd $0xc,%ymm9,%ymm0,%ymm9
- .byte 233,202,254,255,255 // jmpq be3f <_sk_load_8888_avx+0x27>
- .byte 15,31,0 // nopl (%rax)
- .byte 118,255 // jbe bf79 <_sk_load_8888_avx+0x161>
+ .byte 233,203,254,255,255 // jmpq be2e <_sk_load_8888_avx+0x26>
+ .byte 144 // nop
+ .byte 120,255 // js bf65 <_sk_load_8888_avx+0x15d>
.byte 255 // (bad)
- .byte 255,151,255,255,255,129 // callq *-0x7e000001(%rdi)
+ .byte 255,153,255,255,255,131 // lcall *-0x7c000001(%rcx)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
+ .byte 238 // out %al,(%dx)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 216,255 // fdivr %st(7),%st
+ .byte 218,255 // (bad)
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255,198 // inc %esi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
- .byte 168,255 // test $0xff,%al
+ .byte 170 // stos %al,%es:(%rdi)
+ .byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -21222,21 +21239,20 @@ HIDDEN _sk_load_8888_dst_avx
.globl _sk_load_8888_dst_avx
FUNCTION(_sk_load_8888_dst_avx)
_sk_load_8888_dst_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,136,0,0,0 // jne c03d <_sk_load_8888_dst_avx+0xa9>
- .byte 196,65,125,16,12,153 // vmovupd (%r9,%rbx,4),%ymm9
- .byte 197,125,40,21,125,254,1,0 // vmovapd 0x1fe7d(%rip),%ymm10 # 2be40 <_sk_overlay_sse2_8bit+0x95b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,135,0,0,0 // jne c027 <_sk_load_8888_dst_avx+0xa7>
+ .byte 196,1,125,16,12,152 // vmovupd (%r8,%r11,4),%ymm9
+ .byte 197,125,40,21,146,254,1,0 // vmovapd 0x1fe92(%rip),%ymm10 # 2be40 <_sk_overlay_sse2_8bit+0x9a3>
.byte 196,193,53,84,226 // vandpd %ymm10,%ymm9,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
- .byte 196,98,125,24,5,199,249,1,0 // vbroadcastss 0x1f9c7(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,148,249,1,0 // vbroadcastss 0x1f994(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,92,89,224 // vmulps %ymm8,%ymm4,%ymm4
.byte 196,193,81,114,209,8 // vpsrld $0x8,%xmm9,%xmm5
.byte 196,99,125,25,207,1 // vextractf128 $0x1,%ymm9,%xmm7
@@ -21257,60 +21273,60 @@ _sk_load_8888_dst_avx:
.byte 197,252,91,255 // vcvtdq2ps %ymm7,%ymm7
.byte 196,193,68,89,248 // vmulps %ymm8,%ymm7,%ymm7
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,52,87,201 // vxorps %ymm9,%ymm9,%ymm9
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,101,255,255,255 // ja bfbb <_sk_load_8888_dst_avx+0x27>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,147,0,0,0 // lea 0x93(%rip),%r11 # c0f4 <_sk_load_8888_dst_avx+0x160>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,122,16,12,153 // vmovss (%r9,%rbx,4),%xmm9
- .byte 233,70,255,255,255 // jmpq bfbb <_sk_load_8888_dst_avx+0x27>
- .byte 196,193,121,110,100,153,8 // vmovd 0x8(%r9,%rbx,4),%xmm4
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,102,255,255,255 // ja bfa6 <_sk_load_8888_dst_avx+0x26>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,145,0,0,0 // lea 0x91(%rip),%r10 # c0dc <_sk_load_8888_dst_avx+0x15c>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,1,122,16,12,152 // vmovss (%r8,%r11,4),%xmm9
+ .byte 233,71,255,255,255 // jmpq bfa6 <_sk_load_8888_dst_avx+0x26>
+ .byte 196,129,121,110,100,152,8 // vmovd 0x8(%r8,%r11,4),%xmm4
.byte 197,249,112,228,68 // vpshufd $0x44,%xmm4,%xmm4
.byte 197,212,87,237 // vxorps %ymm5,%ymm5,%ymm5
.byte 196,99,85,12,204,4 // vblendps $0x4,%ymm4,%ymm5,%ymm9
- .byte 196,193,123,16,36,153 // vmovsd (%r9,%rbx,4),%xmm4
+ .byte 196,129,123,16,36,152 // vmovsd (%r8,%r11,4),%xmm4
.byte 196,99,53,13,204,1 // vblendpd $0x1,%ymm4,%ymm9,%ymm9
- .byte 233,31,255,255,255 // jmpq bfbb <_sk_load_8888_dst_avx+0x27>
- .byte 196,193,121,110,100,153,24 // vmovd 0x18(%r9,%rbx,4),%xmm4
+ .byte 233,32,255,255,255 // jmpq bfa6 <_sk_load_8888_dst_avx+0x26>
+ .byte 196,129,121,110,100,152,24 // vmovd 0x18(%r8,%r11,4),%xmm4
.byte 197,249,112,228,68 // vpshufd $0x44,%xmm4,%xmm4
.byte 196,227,125,24,228,1 // vinsertf128 $0x1,%xmm4,%ymm0,%ymm4
.byte 197,212,87,237 // vxorps %ymm5,%ymm5,%ymm5
.byte 196,99,85,12,204,64 // vblendps $0x40,%ymm4,%ymm5,%ymm9
.byte 196,99,125,25,204,1 // vextractf128 $0x1,%ymm9,%xmm4
- .byte 196,195,89,34,100,153,20,1 // vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,20,1 // vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
.byte 196,99,53,24,204,1 // vinsertf128 $0x1,%xmm4,%ymm9,%ymm9
.byte 196,99,125,25,204,1 // vextractf128 $0x1,%ymm9,%xmm4
- .byte 196,195,89,34,100,153,16,0 // vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,16,0 // vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
.byte 196,99,53,24,204,1 // vinsertf128 $0x1,%xmm4,%ymm9,%ymm9
- .byte 196,193,121,16,36,153 // vmovupd (%r9,%rbx,4),%xmm4
+ .byte 196,129,121,16,36,152 // vmovupd (%r8,%r11,4),%xmm4
.byte 196,67,93,13,201,12 // vblendpd $0xc,%ymm9,%ymm4,%ymm9
- .byte 233,202,254,255,255 // jmpq bfbb <_sk_load_8888_dst_avx+0x27>
- .byte 15,31,0 // nopl (%rax)
- .byte 118,255 // jbe c0f5 <_sk_load_8888_dst_avx+0x161>
+ .byte 233,203,254,255,255 // jmpq bfa6 <_sk_load_8888_dst_avx+0x26>
+ .byte 144 // nop
+ .byte 120,255 // js c0dd <_sk_load_8888_dst_avx+0x15d>
.byte 255 // (bad)
- .byte 255,151,255,255,255,129 // callq *-0x7e000001(%rdi)
+ .byte 255,153,255,255,255,131 // lcall *-0x7c000001(%rcx)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
+ .byte 238 // out %al,(%dx)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 216,255 // fdivr %st(7),%st
+ .byte 218,255 // (bad)
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255,198 // inc %esi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
- .byte 168,255 // test $0xff,%al
+ .byte 170 // stos %al,%es:(%rdi)
+ .byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -21318,43 +21334,47 @@ HIDDEN _sk_gather_8888_avx
.globl _sk_gather_8888_avx
FUNCTION(_sk_gather_8888_avx)
_sk_gather_8888_avx:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
.byte 197,249,110,80,8 // vmovd 0x8(%rax),%xmm2
.byte 197,249,112,210,0 // vpshufd $0x0,%xmm2,%xmm2
.byte 196,226,105,64,217 // vpmulld %xmm1,%xmm2,%xmm3
.byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
.byte 196,226,105,64,201 // vpmulld %xmm1,%xmm2,%xmm1
- .byte 197,254,91,208 // vcvttps2dq %ymm0,%ymm2
- .byte 196,227,125,25,208,1 // vextractf128 $0x1,%ymm2,%xmm0
- .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
- .byte 197,225,254,202 // vpaddd %xmm2,%xmm3,%xmm1
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,193,121,110,20,129 // vmovd (%r9,%rax,4),%xmm2
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,105,34,12,145,1 // vpinsrd $0x1,(%r9,%r10,4),%xmm2,%xmm1
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,195,113,34,12,129,2 // vpinsrd $0x2,(%r9,%rax,4),%xmm1,%xmm1
- .byte 196,225,249,126,192 // vmovq %xmm0,%rax
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,3,113,34,4,153,3 // vpinsrd $0x3,(%r9,%r11,4),%xmm1,%xmm8
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
+ .byte 196,227,125,25,194,1 // vextractf128 $0x1,%ymm0,%xmm2
+ .byte 197,241,254,202 // vpaddd %xmm2,%xmm1,%xmm1
+ .byte 196,225,249,126,200 // vmovq %xmm1,%rax
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 196,129,121,110,12,145 // vmovd (%r9,%r10,4),%xmm1
- .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
- .byte 196,195,113,34,4,129,1 // vpinsrd $0x1,(%r9,%rax,4),%xmm1,%xmm0
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,195,121,34,4,129,2 // vpinsrd $0x2,(%r9,%rax,4),%xmm0,%xmm0
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,121,34,28,145,3 // vpinsrd $0x3,(%r9,%r10,4),%xmm0,%xmm3
+ .byte 197,225,254,192 // vpaddd %xmm0,%xmm3,%xmm0
+ .byte 196,225,249,126,195 // vmovq %xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 196,195,249,22,199,1 // vpextrq $0x1,%xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 196,129,121,110,4,176 // vmovd (%r8,%r14,4),%xmm0
+ .byte 196,195,121,34,4,152,1 // vpinsrd $0x1,(%r8,%rbx,4),%xmm0,%xmm0
+ .byte 196,131,121,34,4,160,2 // vpinsrd $0x2,(%r8,%r12,4),%xmm0,%xmm0
+ .byte 196,3,121,34,4,184,3 // vpinsrd $0x3,(%r8,%r15,4),%xmm0,%xmm8
+ .byte 196,129,121,110,4,136 // vmovd (%r8,%r9,4),%xmm0
+ .byte 196,195,121,34,4,128,1 // vpinsrd $0x1,(%r8,%rax,4),%xmm0,%xmm0
+ .byte 196,131,121,34,4,152,2 // vpinsrd $0x2,(%r8,%r11,4),%xmm0,%xmm0
+ .byte 196,131,121,34,28,144,3 // vpinsrd $0x3,(%r8,%r10,4),%xmm0,%xmm3
.byte 196,227,61,24,195,1 // vinsertf128 $0x1,%xmm3,%ymm8,%ymm0
- .byte 197,124,40,21,165,252,1,0 // vmovaps 0x1fca5(%rip),%ymm10 # 2be60 <_sk_overlay_sse2_8bit+0x97b>
+ .byte 197,124,40,21,182,252,1,0 // vmovaps 0x1fcb6(%rip),%ymm10 # 2be60 <_sk_overlay_sse2_8bit+0x9c3>
.byte 196,193,124,84,194 // vandps %ymm10,%ymm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,13,207,247,1,0 // vbroadcastss 0x1f7cf(%rip),%ymm9 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,13,152,247,1,0 // vbroadcastss 0x1f798(%rip),%ymm9 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,193 // vmulps %ymm9,%ymm0,%ymm0
.byte 196,193,113,114,208,8 // vpsrld $0x8,%xmm8,%xmm1
.byte 197,233,114,211,8 // vpsrld $0x8,%xmm3,%xmm2
@@ -21374,21 +21394,24 @@ _sk_gather_8888_avx:
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 196,193,100,89,217 // vmulps %ymm9,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_8888_avx
.globl _sk_store_8888_avx
FUNCTION(_sk_store_8888_avx)
_sk_store_8888_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 196,98,125,24,5,5,247,1,0 // vbroadcastss 0x1f705(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 196,98,125,24,5,200,246,1,0 // vbroadcastss 0x1f6c8(%rip),%ymm8 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,65,124,89,200 // vmulps %ymm8,%ymm0,%ymm9
.byte 196,65,125,91,201 // vcvtps2dq %ymm9,%ymm9
.byte 196,65,116,89,208 // vmulps %ymm8,%ymm1,%ymm10
@@ -21412,35 +21435,34 @@ _sk_store_8888_avx:
.byte 196,67,37,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm11,%ymm8
.byte 196,65,45,86,192 // vorpd %ymm8,%ymm10,%ymm8
.byte 196,65,53,86,192 // vorpd %ymm8,%ymm9,%ymm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,11 // jne c2de <_sk_store_8888_avx+0xb0>
- .byte 196,65,124,17,4,153 // vmovups %ymm8,(%r9,%rbx,4)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne c2d2 <_sk_store_8888_avx+0xae>
+ .byte 196,1,124,17,4,152 // vmovups %ymm8,(%r8,%r11,4)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,235 // ja c2d9 <_sk_store_8888_avx+0xab>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,83,0,0,0 // lea 0x53(%rip),%r11 # c34c <_sk_store_8888_avx+0x11e>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,121,126,4,153 // vmovd %xmm8,(%r9,%rbx,4)
- .byte 235,207 // jmp c2d9 <_sk_store_8888_avx+0xab>
- .byte 196,67,121,22,68,153,8,2 // vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- .byte 196,65,121,214,4,153 // vmovq %xmm8,(%r9,%rbx,4)
- .byte 235,191 // jmp c2d9 <_sk_store_8888_avx+0xab>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,236 // ja c2ce <_sk_store_8888_avx+0xaa>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,83,0,0,0 // lea 0x53(%rip),%r10 # c340 <_sk_store_8888_avx+0x11c>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,1,121,126,4,152 // vmovd %xmm8,(%r8,%r11,4)
+ .byte 235,208 // jmp c2ce <_sk_store_8888_avx+0xaa>
+ .byte 196,3,121,22,68,152,8,2 // vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ .byte 196,1,121,214,4,152 // vmovq %xmm8,(%r8,%r11,4)
+ .byte 235,192 // jmp c2ce <_sk_store_8888_avx+0xaa>
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,24,2 // vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,24,2 // vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,20,1 // vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,20,1 // vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
- .byte 196,65,122,17,76,153,16 // vmovss %xmm9,0x10(%r9,%rbx,4)
- .byte 196,65,121,17,4,153 // vmovupd %xmm8,(%r9,%rbx,4)
- .byte 235,142 // jmp c2d9 <_sk_store_8888_avx+0xab>
+ .byte 196,1,122,17,76,152,16 // vmovss %xmm9,0x10(%r8,%r11,4)
+ .byte 196,1,121,17,4,152 // vmovupd %xmm8,(%r8,%r11,4)
+ .byte 235,143 // jmp c2ce <_sk_store_8888_avx+0xaa>
.byte 144 // nop
.byte 182,255 // mov $0xff,%dh
.byte 255 // (bad)
@@ -21467,21 +21489,20 @@ HIDDEN _sk_load_bgra_avx
.globl _sk_load_bgra_avx
FUNCTION(_sk_load_bgra_avx)
_sk_load_bgra_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,136,0,0,0 // jne c411 <_sk_load_bgra_avx+0xa9>
- .byte 196,65,125,16,12,153 // vmovupd (%r9,%rbx,4),%ymm9
- .byte 197,125,40,21,233,250,1,0 // vmovapd 0x1fae9(%rip),%ymm10 # 2be80 <_sk_overlay_sse2_8bit+0x99b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,135,0,0,0 // jne c403 <_sk_load_bgra_avx+0xa7>
+ .byte 196,1,125,16,12,152 // vmovupd (%r8,%r11,4),%ymm9
+ .byte 197,125,40,21,246,250,1,0 // vmovapd 0x1faf6(%rip),%ymm10 # 2be80 <_sk_overlay_sse2_8bit+0x9e3>
.byte 196,193,53,84,202 // vandpd %ymm10,%ymm9,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
- .byte 196,98,125,24,5,243,245,1,0 // vbroadcastss 0x1f5f3(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,184,245,1,0 // vbroadcastss 0x1f5b8(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,116,89,208 // vmulps %ymm8,%ymm1,%ymm2
.byte 196,193,113,114,209,8 // vpsrld $0x8,%xmm9,%xmm1
.byte 196,99,125,25,203,1 // vextractf128 $0x1,%ymm9,%xmm3
@@ -21502,60 +21523,60 @@ _sk_load_bgra_avx:
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 196,193,100,89,216 // vmulps %ymm8,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,52,87,201 // vxorps %ymm9,%ymm9,%ymm9
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,101,255,255,255 // ja c38f <_sk_load_bgra_avx+0x27>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,147,0,0,0 // lea 0x93(%rip),%r11 # c4c8 <_sk_load_bgra_avx+0x160>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,122,16,12,153 // vmovss (%r9,%rbx,4),%xmm9
- .byte 233,70,255,255,255 // jmpq c38f <_sk_load_bgra_avx+0x27>
- .byte 196,193,121,110,68,153,8 // vmovd 0x8(%r9,%rbx,4),%xmm0
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,102,255,255,255 // ja c382 <_sk_load_bgra_avx+0x26>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,145,0,0,0 // lea 0x91(%rip),%r10 # c4b8 <_sk_load_bgra_avx+0x15c>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,1,122,16,12,152 // vmovss (%r8,%r11,4),%xmm9
+ .byte 233,71,255,255,255 // jmpq c382 <_sk_load_bgra_avx+0x26>
+ .byte 196,129,121,110,68,152,8 // vmovd 0x8(%r8,%r11,4),%xmm0
.byte 197,249,112,192,68 // vpshufd $0x44,%xmm0,%xmm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 196,99,117,12,200,4 // vblendps $0x4,%ymm0,%ymm1,%ymm9
- .byte 196,193,123,16,4,153 // vmovsd (%r9,%rbx,4),%xmm0
+ .byte 196,129,123,16,4,152 // vmovsd (%r8,%r11,4),%xmm0
.byte 196,99,53,13,200,1 // vblendpd $0x1,%ymm0,%ymm9,%ymm9
- .byte 233,31,255,255,255 // jmpq c38f <_sk_load_bgra_avx+0x27>
- .byte 196,193,121,110,68,153,24 // vmovd 0x18(%r9,%rbx,4),%xmm0
+ .byte 233,32,255,255,255 // jmpq c382 <_sk_load_bgra_avx+0x26>
+ .byte 196,129,121,110,68,152,24 // vmovd 0x18(%r8,%r11,4),%xmm0
.byte 197,249,112,192,68 // vpshufd $0x44,%xmm0,%xmm0
.byte 196,227,125,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 196,99,117,12,200,64 // vblendps $0x40,%ymm0,%ymm1,%ymm9
.byte 196,99,125,25,200,1 // vextractf128 $0x1,%ymm9,%xmm0
- .byte 196,195,121,34,68,153,20,1 // vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm0,%xmm0
+ .byte 196,131,121,34,68,152,20,1 // vpinsrd $0x1,0x14(%r8,%r11,4),%xmm0,%xmm0
.byte 196,99,53,24,200,1 // vinsertf128 $0x1,%xmm0,%ymm9,%ymm9
.byte 196,99,125,25,200,1 // vextractf128 $0x1,%ymm9,%xmm0
- .byte 196,195,121,34,68,153,16,0 // vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm0,%xmm0
+ .byte 196,131,121,34,68,152,16,0 // vpinsrd $0x0,0x10(%r8,%r11,4),%xmm0,%xmm0
.byte 196,99,53,24,200,1 // vinsertf128 $0x1,%xmm0,%ymm9,%ymm9
- .byte 196,193,121,16,4,153 // vmovupd (%r9,%rbx,4),%xmm0
+ .byte 196,129,121,16,4,152 // vmovupd (%r8,%r11,4),%xmm0
.byte 196,67,125,13,201,12 // vblendpd $0xc,%ymm9,%ymm0,%ymm9
- .byte 233,202,254,255,255 // jmpq c38f <_sk_load_bgra_avx+0x27>
- .byte 15,31,0 // nopl (%rax)
- .byte 118,255 // jbe c4c9 <_sk_load_bgra_avx+0x161>
+ .byte 233,203,254,255,255 // jmpq c382 <_sk_load_bgra_avx+0x26>
+ .byte 144 // nop
+ .byte 120,255 // js c4b9 <_sk_load_bgra_avx+0x15d>
.byte 255 // (bad)
- .byte 255,151,255,255,255,129 // callq *-0x7e000001(%rdi)
+ .byte 255,153,255,255,255,131 // lcall *-0x7c000001(%rcx)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
+ .byte 238 // out %al,(%dx)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 216,255 // fdivr %st(7),%st
+ .byte 218,255 // (bad)
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255,198 // inc %esi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
- .byte 168,255 // test $0xff,%al
+ .byte 170 // stos %al,%es:(%rdi)
+ .byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -21563,21 +21584,20 @@ HIDDEN _sk_load_bgra_dst_avx
.globl _sk_load_bgra_dst_avx
FUNCTION(_sk_load_bgra_dst_avx)
_sk_load_bgra_dst_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,136,0,0,0 // jne c58d <_sk_load_bgra_dst_avx+0xa9>
- .byte 196,65,125,16,12,153 // vmovupd (%r9,%rbx,4),%ymm9
- .byte 197,125,40,21,141,249,1,0 // vmovapd 0x1f98d(%rip),%ymm10 # 2bea0 <_sk_overlay_sse2_8bit+0x9bb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,135,0,0,0 // jne c57b <_sk_load_bgra_dst_avx+0xa7>
+ .byte 196,1,125,16,12,152 // vmovupd (%r8,%r11,4),%ymm9
+ .byte 197,125,40,21,158,249,1,0 // vmovapd 0x1f99e(%rip),%ymm10 # 2bea0 <_sk_overlay_sse2_8bit+0xa03>
.byte 196,193,53,84,234 // vandpd %ymm10,%ymm9,%ymm5
.byte 197,252,91,237 // vcvtdq2ps %ymm5,%ymm5
- .byte 196,98,125,24,5,119,244,1,0 // vbroadcastss 0x1f477(%rip),%ymm8 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,5,64,244,1,0 // vbroadcastss 0x1f440(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,84,89,240 // vmulps %ymm8,%ymm5,%ymm6
.byte 196,193,81,114,209,8 // vpsrld $0x8,%xmm9,%xmm5
.byte 196,99,125,25,207,1 // vextractf128 $0x1,%ymm9,%xmm7
@@ -21598,60 +21618,60 @@ _sk_load_bgra_dst_avx:
.byte 197,252,91,255 // vcvtdq2ps %ymm7,%ymm7
.byte 196,193,68,89,248 // vmulps %ymm8,%ymm7,%ymm7
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
.byte 196,65,52,87,201 // vxorps %ymm9,%ymm9,%ymm9
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 15,135,101,255,255,255 // ja c50b <_sk_load_bgra_dst_avx+0x27>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,147,0,0,0 // lea 0x93(%rip),%r11 # c644 <_sk_load_bgra_dst_avx+0x160>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,122,16,12,153 // vmovss (%r9,%rbx,4),%xmm9
- .byte 233,70,255,255,255 // jmpq c50b <_sk_load_bgra_dst_avx+0x27>
- .byte 196,193,121,110,100,153,8 // vmovd 0x8(%r9,%rbx,4),%xmm4
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 15,135,102,255,255,255 // ja c4fa <_sk_load_bgra_dst_avx+0x26>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,145,0,0,0 // lea 0x91(%rip),%r10 # c630 <_sk_load_bgra_dst_avx+0x15c>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,1,122,16,12,152 // vmovss (%r8,%r11,4),%xmm9
+ .byte 233,71,255,255,255 // jmpq c4fa <_sk_load_bgra_dst_avx+0x26>
+ .byte 196,129,121,110,100,152,8 // vmovd 0x8(%r8,%r11,4),%xmm4
.byte 197,249,112,228,68 // vpshufd $0x44,%xmm4,%xmm4
.byte 197,212,87,237 // vxorps %ymm5,%ymm5,%ymm5
.byte 196,99,85,12,204,4 // vblendps $0x4,%ymm4,%ymm5,%ymm9
- .byte 196,193,123,16,36,153 // vmovsd (%r9,%rbx,4),%xmm4
+ .byte 196,129,123,16,36,152 // vmovsd (%r8,%r11,4),%xmm4
.byte 196,99,53,13,204,1 // vblendpd $0x1,%ymm4,%ymm9,%ymm9
- .byte 233,31,255,255,255 // jmpq c50b <_sk_load_bgra_dst_avx+0x27>
- .byte 196,193,121,110,100,153,24 // vmovd 0x18(%r9,%rbx,4),%xmm4
+ .byte 233,32,255,255,255 // jmpq c4fa <_sk_load_bgra_dst_avx+0x26>
+ .byte 196,129,121,110,100,152,24 // vmovd 0x18(%r8,%r11,4),%xmm4
.byte 197,249,112,228,68 // vpshufd $0x44,%xmm4,%xmm4
.byte 196,227,125,24,228,1 // vinsertf128 $0x1,%xmm4,%ymm0,%ymm4
.byte 197,212,87,237 // vxorps %ymm5,%ymm5,%ymm5
.byte 196,99,85,12,204,64 // vblendps $0x40,%ymm4,%ymm5,%ymm9
.byte 196,99,125,25,204,1 // vextractf128 $0x1,%ymm9,%xmm4
- .byte 196,195,89,34,100,153,20,1 // vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,20,1 // vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
.byte 196,99,53,24,204,1 // vinsertf128 $0x1,%xmm4,%ymm9,%ymm9
.byte 196,99,125,25,204,1 // vextractf128 $0x1,%ymm9,%xmm4
- .byte 196,195,89,34,100,153,16,0 // vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ .byte 196,131,89,34,100,152,16,0 // vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
.byte 196,99,53,24,204,1 // vinsertf128 $0x1,%xmm4,%ymm9,%ymm9
- .byte 196,193,121,16,36,153 // vmovupd (%r9,%rbx,4),%xmm4
+ .byte 196,129,121,16,36,152 // vmovupd (%r8,%r11,4),%xmm4
.byte 196,67,93,13,201,12 // vblendpd $0xc,%ymm9,%ymm4,%ymm9
- .byte 233,202,254,255,255 // jmpq c50b <_sk_load_bgra_dst_avx+0x27>
- .byte 15,31,0 // nopl (%rax)
- .byte 118,255 // jbe c645 <_sk_load_bgra_dst_avx+0x161>
+ .byte 233,203,254,255,255 // jmpq c4fa <_sk_load_bgra_dst_avx+0x26>
+ .byte 144 // nop
+ .byte 120,255 // js c631 <_sk_load_bgra_dst_avx+0x15d>
.byte 255 // (bad)
- .byte 255,151,255,255,255,129 // callq *-0x7e000001(%rdi)
+ .byte 255,153,255,255,255,131 // lcall *-0x7c000001(%rcx)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 236 // in (%dx),%al
+ .byte 238 // out %al,(%dx)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 216,255 // fdivr %st(7),%st
+ .byte 218,255 // (bad)
.byte 255 // (bad)
- .byte 255,196 // inc %esp
+ .byte 255,198 // inc %esi
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
- .byte 168,255 // test $0xff,%al
+ .byte 170 // stos %al,%es:(%rdi)
+ .byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -21659,43 +21679,47 @@ HIDDEN _sk_gather_bgra_avx
.globl _sk_gather_bgra_avx
FUNCTION(_sk_gather_bgra_avx)
_sk_gather_bgra_avx:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
.byte 197,249,110,80,8 // vmovd 0x8(%rax),%xmm2
.byte 197,249,112,210,0 // vpshufd $0x0,%xmm2,%xmm2
.byte 196,226,105,64,217 // vpmulld %xmm1,%xmm2,%xmm3
.byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
.byte 196,226,105,64,201 // vpmulld %xmm1,%xmm2,%xmm1
- .byte 197,254,91,208 // vcvttps2dq %ymm0,%ymm2
- .byte 196,227,125,25,208,1 // vextractf128 $0x1,%ymm2,%xmm0
- .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
- .byte 197,225,254,202 // vpaddd %xmm2,%xmm3,%xmm1
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,193,121,110,20,129 // vmovd (%r9,%rax,4),%xmm2
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,105,34,12,145,1 // vpinsrd $0x1,(%r9,%r10,4),%xmm2,%xmm1
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,195,113,34,12,129,2 // vpinsrd $0x2,(%r9,%rax,4),%xmm1,%xmm1
- .byte 196,225,249,126,192 // vmovq %xmm0,%rax
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,3,113,34,4,153,3 // vpinsrd $0x3,(%r9,%r11,4),%xmm1,%xmm8
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
+ .byte 196,227,125,25,194,1 // vextractf128 $0x1,%ymm0,%xmm2
+ .byte 197,241,254,202 // vpaddd %xmm2,%xmm1,%xmm1
+ .byte 196,225,249,126,200 // vmovq %xmm1,%rax
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 196,129,121,110,12,145 // vmovd (%r9,%r10,4),%xmm1
- .byte 196,195,249,22,194,1 // vpextrq $0x1,%xmm0,%r10
- .byte 196,195,113,34,4,129,1 // vpinsrd $0x1,(%r9,%rax,4),%xmm1,%xmm0
- .byte 68,137,208 // mov %r10d,%eax
- .byte 196,195,121,34,4,129,2 // vpinsrd $0x2,(%r9,%rax,4),%xmm0,%xmm0
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
.byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,131,121,34,28,145,3 // vpinsrd $0x3,(%r9,%r10,4),%xmm0,%xmm3
+ .byte 197,225,254,192 // vpaddd %xmm0,%xmm3,%xmm0
+ .byte 196,225,249,126,195 // vmovq %xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 196,195,249,22,199,1 // vpextrq $0x1,%xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 196,129,121,110,4,176 // vmovd (%r8,%r14,4),%xmm0
+ .byte 196,195,121,34,4,152,1 // vpinsrd $0x1,(%r8,%rbx,4),%xmm0,%xmm0
+ .byte 196,131,121,34,4,160,2 // vpinsrd $0x2,(%r8,%r12,4),%xmm0,%xmm0
+ .byte 196,3,121,34,4,184,3 // vpinsrd $0x3,(%r8,%r15,4),%xmm0,%xmm8
+ .byte 196,129,121,110,4,136 // vmovd (%r8,%r9,4),%xmm0
+ .byte 196,195,121,34,4,128,1 // vpinsrd $0x1,(%r8,%rax,4),%xmm0,%xmm0
+ .byte 196,131,121,34,4,152,2 // vpinsrd $0x2,(%r8,%r11,4),%xmm0,%xmm0
+ .byte 196,131,121,34,28,144,3 // vpinsrd $0x3,(%r8,%r10,4),%xmm0,%xmm3
.byte 196,227,61,24,195,1 // vinsertf128 $0x1,%xmm3,%ymm8,%ymm0
- .byte 197,124,40,13,181,247,1,0 // vmovaps 0x1f7b5(%rip),%ymm9 # 2bec0 <_sk_overlay_sse2_8bit+0x9db>
+ .byte 197,124,40,13,194,247,1,0 // vmovaps 0x1f7c2(%rip),%ymm9 # 2bec0 <_sk_overlay_sse2_8bit+0xa23>
.byte 196,193,124,84,193 // vandps %ymm9,%ymm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,21,127,242,1,0 // vbroadcastss 0x1f27f(%rip),%ymm10 # 2b99c <_sk_overlay_sse2_8bit+0x4b7>
+ .byte 196,98,125,24,21,68,242,1,0 // vbroadcastss 0x1f244(%rip),%ymm10 # 2b954 <_sk_overlay_sse2_8bit+0x4b7>
.byte 196,193,124,89,210 // vmulps %ymm10,%ymm0,%ymm2
.byte 196,193,121,114,208,8 // vpsrld $0x8,%xmm8,%xmm0
.byte 197,241,114,211,8 // vpsrld $0x8,%xmm3,%xmm1
@@ -21715,21 +21739,24 @@ _sk_gather_bgra_avx:
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 196,193,100,89,218 // vmulps %ymm10,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_bgra_avx
.globl _sk_store_bgra_avx
FUNCTION(_sk_store_bgra_avx)
_sk_store_bgra_avx:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 72,99,218 // movslq %edx,%rbx
- .byte 196,98,125,24,5,181,241,1,0 // vbroadcastss 0x1f1b5(%rip),%ymm8 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,218 // movslq %edx,%r11
+ .byte 196,98,125,24,5,116,241,1,0 // vbroadcastss 0x1f174(%rip),%ymm8 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 196,65,108,89,200 // vmulps %ymm8,%ymm2,%ymm9
.byte 196,65,125,91,201 // vcvtps2dq %ymm9,%ymm9
.byte 196,65,116,89,208 // vmulps %ymm8,%ymm1,%ymm10
@@ -21753,35 +21780,34 @@ _sk_store_bgra_avx:
.byte 196,67,37,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm11,%ymm8
.byte 196,65,45,86,192 // vorpd %ymm8,%ymm10,%ymm8
.byte 196,65,53,86,192 // vorpd %ymm8,%ymm9,%ymm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,11 // jne c82e <_sk_store_bgra_avx+0xb0>
- .byte 196,65,124,17,4,153 // vmovups %ymm8,(%r9,%rbx,4)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne c826 <_sk_store_bgra_avx+0xae>
+ .byte 196,1,124,17,4,152 // vmovups %ymm8,(%r8,%r11,4)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,7 // and $0x7,%r10b
- .byte 65,254,202 // dec %r10b
- .byte 65,128,250,6 // cmp $0x6,%r10b
- .byte 119,235 // ja c829 <_sk_store_bgra_avx+0xab>
- .byte 69,15,182,210 // movzbl %r10b,%r10d
- .byte 76,141,29,83,0,0,0 // lea 0x53(%rip),%r11 # c89c <_sk_store_bgra_avx+0x11e>
- .byte 75,99,4,147 // movslq (%r11,%r10,4),%rax
- .byte 76,1,216 // add %r11,%rax
- .byte 255,224 // jmpq *%rax
- .byte 196,65,121,126,4,153 // vmovd %xmm8,(%r9,%rbx,4)
- .byte 235,207 // jmp c829 <_sk_store_bgra_avx+0xab>
- .byte 196,67,121,22,68,153,8,2 // vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- .byte 196,65,121,214,4,153 // vmovq %xmm8,(%r9,%rbx,4)
- .byte 235,191 // jmp c829 <_sk_store_bgra_avx+0xab>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,7 // and $0x7,%r9b
+ .byte 65,254,201 // dec %r9b
+ .byte 65,128,249,6 // cmp $0x6,%r9b
+ .byte 119,236 // ja c822 <_sk_store_bgra_avx+0xaa>
+ .byte 69,15,182,201 // movzbl %r9b,%r9d
+ .byte 76,141,21,83,0,0,0 // lea 0x53(%rip),%r10 # c894 <_sk_store_bgra_avx+0x11c>
+ .byte 75,99,4,138 // movslq (%r10,%r9,4),%rax
+ .byte 76,1,208 // add %r10,%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 196,1,121,126,4,152 // vmovd %xmm8,(%r8,%r11,4)
+ .byte 235,208 // jmp c822 <_sk_store_bgra_avx+0xaa>
+ .byte 196,3,121,22,68,152,8,2 // vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ .byte 196,1,121,214,4,152 // vmovq %xmm8,(%r8,%r11,4)
+ .byte 235,192 // jmp c822 <_sk_store_bgra_avx+0xaa>
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,24,2 // vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,24,2 // vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
- .byte 196,67,121,22,76,153,20,1 // vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ .byte 196,3,121,22,76,152,20,1 // vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
.byte 196,67,125,25,193,1 // vextractf128 $0x1,%ymm8,%xmm9
- .byte 196,65,122,17,76,153,16 // vmovss %xmm9,0x10(%r9,%rbx,4)
- .byte 196,65,121,17,4,153 // vmovupd %xmm8,(%r9,%rbx,4)
- .byte 235,142 // jmp c829 <_sk_store_bgra_avx+0xab>
+ .byte 196,1,122,17,76,152,16 // vmovss %xmm9,0x10(%r8,%r11,4)
+ .byte 196,1,121,17,4,152 // vmovupd %xmm8,(%r8,%r11,4)
+ .byte 235,143 // jmp c822 <_sk_store_bgra_avx+0xaa>
.byte 144 // nop
.byte 182,255 // mov $0xff,%dh
.byte 255 // (bad)
@@ -21810,22 +21836,22 @@ FUNCTION(_sk_load_f16_avx)
_sk_load_f16_avx:
.byte 72,131,236,24 // sub $0x18,%rsp
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
+ .byte 72,133,255 // test %rdi,%rdi
.byte 197,252,17,124,36,224 // vmovups %ymm7,-0x20(%rsp)
.byte 197,252,17,116,36,192 // vmovups %ymm6,-0x40(%rsp)
.byte 197,252,17,108,36,160 // vmovups %ymm5,-0x60(%rsp)
.byte 197,254,127,100,36,128 // vmovdqu %ymm4,-0x80(%rsp)
- .byte 15,133,145,2,0,0 // jne cb85 <_sk_load_f16_avx+0x2cd>
- .byte 196,65,121,16,4,193 // vmovupd (%r9,%rax,8),%xmm8
- .byte 196,193,121,16,84,193,16 // vmovupd 0x10(%r9,%rax,8),%xmm2
- .byte 196,193,121,16,76,193,32 // vmovupd 0x20(%r9,%rax,8),%xmm1
- .byte 196,65,122,111,76,193,48 // vmovdqu 0x30(%r9,%rax,8),%xmm9
+ .byte 15,133,145,2,0,0 // jne cb7d <_sk_load_f16_avx+0x2cd>
+ .byte 196,65,121,16,4,192 // vmovupd (%r8,%rax,8),%xmm8
+ .byte 196,193,121,16,84,192,16 // vmovupd 0x10(%r8,%rax,8),%xmm2
+ .byte 196,193,121,16,76,192,32 // vmovupd 0x20(%r8,%rax,8),%xmm1
+ .byte 196,65,122,111,76,192,48 // vmovdqu 0x30(%r8,%rax,8),%xmm9
.byte 197,185,97,194 // vpunpcklwd %xmm2,%xmm8,%xmm0
.byte 197,185,105,210 // vpunpckhwd %xmm2,%xmm8,%xmm2
.byte 196,193,113,97,217 // vpunpcklwd %xmm9,%xmm1,%xmm3
@@ -21839,13 +21865,13 @@ _sk_load_f16_avx:
.byte 197,249,105,201 // vpunpckhwd %xmm1,%xmm0,%xmm1
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
.byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
- .byte 196,98,125,24,37,83,241,1,0 // vbroadcastss 0x1f153(%rip),%ymm12 # 2baa4 <_sk_overlay_sse2_8bit+0x5bf>
+ .byte 196,98,125,24,37,19,241,1,0 // vbroadcastss 0x1f113(%rip),%ymm12 # 2ba5c <_sk_overlay_sse2_8bit+0x5bf>
.byte 196,193,124,84,204 // vandps %ymm12,%ymm0,%ymm1
.byte 197,252,87,193 // vxorps %ymm1,%ymm0,%ymm0
.byte 196,195,125,25,198,1 // vextractf128 $0x1,%ymm0,%xmm14
- .byte 196,98,121,24,29,23,241,1,0 // vbroadcastss 0x1f117(%rip),%xmm11 # 2ba80 <_sk_overlay_sse2_8bit+0x59b>
+ .byte 196,98,121,24,29,215,240,1,0 // vbroadcastss 0x1f0d7(%rip),%xmm11 # 2ba38 <_sk_overlay_sse2_8bit+0x59b>
.byte 196,193,8,87,219 // vxorps %xmm11,%xmm14,%xmm3
- .byte 196,98,121,24,45,49,241,1,0 // vbroadcastss 0x1f131(%rip),%xmm13 # 2baa8 <_sk_overlay_sse2_8bit+0x5c3>
+ .byte 196,98,121,24,45,241,240,1,0 // vbroadcastss 0x1f0f1(%rip),%xmm13 # 2ba60 <_sk_overlay_sse2_8bit+0x5c3>
.byte 197,145,102,219 // vpcmpgtd %xmm3,%xmm13,%xmm3
.byte 196,65,120,87,211 // vxorps %xmm11,%xmm0,%xmm10
.byte 196,65,17,102,210 // vpcmpgtd %xmm10,%xmm13,%xmm10
@@ -21859,7 +21885,7 @@ _sk_load_f16_avx:
.byte 196,227,125,24,195,1 // vinsertf128 $0x1,%xmm3,%ymm0,%ymm0
.byte 197,252,86,193 // vorps %ymm1,%ymm0,%ymm0
.byte 196,227,125,25,193,1 // vextractf128 $0x1,%ymm0,%xmm1
- .byte 196,226,121,24,29,231,240,1,0 // vbroadcastss 0x1f0e7(%rip),%xmm3 # 2baac <_sk_overlay_sse2_8bit+0x5c7>
+ .byte 196,226,121,24,29,167,240,1,0 // vbroadcastss 0x1f0a7(%rip),%xmm3 # 2ba64 <_sk_overlay_sse2_8bit+0x5c7>
.byte 197,241,254,203 // vpaddd %xmm3,%xmm1,%xmm1
.byte 197,249,254,195 // vpaddd %xmm3,%xmm0,%xmm0
.byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
@@ -21949,32 +21975,32 @@ _sk_load_f16_avx:
.byte 197,252,16,124,36,224 // vmovups -0x20(%rsp),%ymm7
.byte 72,131,196,24 // add $0x18,%rsp
.byte 255,224 // jmpq *%rax
- .byte 196,65,123,16,4,193 // vmovsd (%r9,%rax,8),%xmm8
+ .byte 196,65,123,16,4,192 // vmovsd (%r8,%rax,8),%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,85 // je cbeb <_sk_load_f16_avx+0x333>
- .byte 196,65,57,22,68,193,8 // vmovhpd 0x8(%r9,%rax,8),%xmm8,%xmm8
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,72 // jb cbeb <_sk_load_f16_avx+0x333>
- .byte 196,193,123,16,84,193,16 // vmovsd 0x10(%r9,%rax,8),%xmm2
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 116,72 // je cbf8 <_sk_load_f16_avx+0x340>
- .byte 196,193,105,22,84,193,24 // vmovhpd 0x18(%r9,%rax,8),%xmm2,%xmm2
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,59 // jb cbf8 <_sk_load_f16_avx+0x340>
- .byte 196,193,123,16,76,193,32 // vmovsd 0x20(%r9,%rax,8),%xmm1
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 15,132,65,253,255,255 // je c90f <_sk_load_f16_avx+0x57>
- .byte 196,193,113,22,76,193,40 // vmovhpd 0x28(%r9,%rax,8),%xmm1,%xmm1
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 15,130,48,253,255,255 // jb c90f <_sk_load_f16_avx+0x57>
- .byte 196,65,122,126,76,193,48 // vmovq 0x30(%r9,%rax,8),%xmm9
- .byte 233,36,253,255,255 // jmpq c90f <_sk_load_f16_avx+0x57>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,85 // je cbe3 <_sk_load_f16_avx+0x333>
+ .byte 196,65,57,22,68,192,8 // vmovhpd 0x8(%r8,%rax,8),%xmm8,%xmm8
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,72 // jb cbe3 <_sk_load_f16_avx+0x333>
+ .byte 196,193,123,16,84,192,16 // vmovsd 0x10(%r8,%rax,8),%xmm2
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 116,72 // je cbf0 <_sk_load_f16_avx+0x340>
+ .byte 196,193,105,22,84,192,24 // vmovhpd 0x18(%r8,%rax,8),%xmm2,%xmm2
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,59 // jb cbf0 <_sk_load_f16_avx+0x340>
+ .byte 196,193,123,16,76,192,32 // vmovsd 0x20(%r8,%rax,8),%xmm1
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 15,132,65,253,255,255 // je c907 <_sk_load_f16_avx+0x57>
+ .byte 196,193,113,22,76,192,40 // vmovhpd 0x28(%r8,%rax,8),%xmm1,%xmm1
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 15,130,48,253,255,255 // jb c907 <_sk_load_f16_avx+0x57>
+ .byte 196,65,122,126,76,192,48 // vmovq 0x30(%r8,%rax,8),%xmm9
+ .byte 233,36,253,255,255 // jmpq c907 <_sk_load_f16_avx+0x57>
.byte 197,241,87,201 // vxorpd %xmm1,%xmm1,%xmm1
.byte 197,233,87,210 // vxorpd %xmm2,%xmm2,%xmm2
- .byte 233,23,253,255,255 // jmpq c90f <_sk_load_f16_avx+0x57>
+ .byte 233,23,253,255,255 // jmpq c907 <_sk_load_f16_avx+0x57>
.byte 197,241,87,201 // vxorpd %xmm1,%xmm1,%xmm1
- .byte 233,14,253,255,255 // jmpq c90f <_sk_load_f16_avx+0x57>
+ .byte 233,14,253,255,255 // jmpq c907 <_sk_load_f16_avx+0x57>
HIDDEN _sk_load_f16_dst_avx
.globl _sk_load_f16_dst_avx
@@ -21982,22 +22008,22 @@ FUNCTION(_sk_load_f16_dst_avx)
_sk_load_f16_dst_avx:
.byte 72,131,236,24 // sub $0x18,%rsp
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
+ .byte 72,133,255 // test %rdi,%rdi
.byte 197,252,17,92,36,224 // vmovups %ymm3,-0x20(%rsp)
.byte 197,252,17,84,36,192 // vmovups %ymm2,-0x40(%rsp)
.byte 197,252,17,76,36,160 // vmovups %ymm1,-0x60(%rsp)
.byte 197,254,127,68,36,128 // vmovdqu %ymm0,-0x80(%rsp)
- .byte 15,133,145,2,0,0 // jne cece <_sk_load_f16_dst_avx+0x2cd>
- .byte 196,65,121,16,4,193 // vmovupd (%r9,%rax,8),%xmm8
- .byte 196,193,121,16,116,193,16 // vmovupd 0x10(%r9,%rax,8),%xmm6
- .byte 196,193,121,16,108,193,32 // vmovupd 0x20(%r9,%rax,8),%xmm5
- .byte 196,65,122,111,76,193,48 // vmovdqu 0x30(%r9,%rax,8),%xmm9
+ .byte 15,133,145,2,0,0 // jne cec6 <_sk_load_f16_dst_avx+0x2cd>
+ .byte 196,65,121,16,4,192 // vmovupd (%r8,%rax,8),%xmm8
+ .byte 196,193,121,16,116,192,16 // vmovupd 0x10(%r8,%rax,8),%xmm6
+ .byte 196,193,121,16,108,192,32 // vmovupd 0x20(%r8,%rax,8),%xmm5
+ .byte 196,65,122,111,76,192,48 // vmovdqu 0x30(%r8,%rax,8),%xmm9
.byte 197,185,97,230 // vpunpcklwd %xmm6,%xmm8,%xmm4
.byte 197,185,105,246 // vpunpckhwd %xmm6,%xmm8,%xmm6
.byte 196,193,81,97,249 // vpunpcklwd %xmm9,%xmm5,%xmm7
@@ -22011,13 +22037,13 @@ _sk_load_f16_dst_avx:
.byte 197,217,105,232 // vpunpckhwd %xmm0,%xmm4,%xmm5
.byte 196,226,121,51,228 // vpmovzxwd %xmm4,%xmm4
.byte 196,227,93,24,229,1 // vinsertf128 $0x1,%xmm5,%ymm4,%ymm4
- .byte 196,98,125,24,37,10,238,1,0 // vbroadcastss 0x1ee0a(%rip),%ymm12 # 2baa4 <_sk_overlay_sse2_8bit+0x5bf>
+ .byte 196,98,125,24,37,202,237,1,0 // vbroadcastss 0x1edca(%rip),%ymm12 # 2ba5c <_sk_overlay_sse2_8bit+0x5bf>
.byte 196,193,92,84,236 // vandps %ymm12,%ymm4,%ymm5
.byte 197,220,87,229 // vxorps %ymm5,%ymm4,%ymm4
.byte 196,195,125,25,230,1 // vextractf128 $0x1,%ymm4,%xmm14
- .byte 196,98,121,24,29,206,237,1,0 // vbroadcastss 0x1edce(%rip),%xmm11 # 2ba80 <_sk_overlay_sse2_8bit+0x59b>
+ .byte 196,98,121,24,29,142,237,1,0 // vbroadcastss 0x1ed8e(%rip),%xmm11 # 2ba38 <_sk_overlay_sse2_8bit+0x59b>
.byte 196,193,8,87,251 // vxorps %xmm11,%xmm14,%xmm7
- .byte 196,98,121,24,45,232,237,1,0 // vbroadcastss 0x1ede8(%rip),%xmm13 # 2baa8 <_sk_overlay_sse2_8bit+0x5c3>
+ .byte 196,98,121,24,45,168,237,1,0 // vbroadcastss 0x1eda8(%rip),%xmm13 # 2ba60 <_sk_overlay_sse2_8bit+0x5c3>
.byte 197,145,102,255 // vpcmpgtd %xmm7,%xmm13,%xmm7
.byte 196,65,88,87,211 // vxorps %xmm11,%xmm4,%xmm10
.byte 196,65,17,102,210 // vpcmpgtd %xmm10,%xmm13,%xmm10
@@ -22031,7 +22057,7 @@ _sk_load_f16_dst_avx:
.byte 196,227,93,24,231,1 // vinsertf128 $0x1,%xmm7,%ymm4,%ymm4
.byte 197,220,86,229 // vorps %ymm5,%ymm4,%ymm4
.byte 196,227,125,25,229,1 // vextractf128 $0x1,%ymm4,%xmm5
- .byte 196,226,121,24,61,158,237,1,0 // vbroadcastss 0x1ed9e(%rip),%xmm7 # 2baac <_sk_overlay_sse2_8bit+0x5c7>
+ .byte 196,226,121,24,61,94,237,1,0 // vbroadcastss 0x1ed5e(%rip),%xmm7 # 2ba64 <_sk_overlay_sse2_8bit+0x5c7>
.byte 197,209,254,239 // vpaddd %xmm7,%xmm5,%xmm5
.byte 197,217,254,231 // vpaddd %xmm7,%xmm4,%xmm4
.byte 196,227,93,24,229,1 // vinsertf128 $0x1,%xmm5,%ymm4,%ymm4
@@ -22121,119 +22147,122 @@ _sk_load_f16_dst_avx:
.byte 197,252,16,92,36,224 // vmovups -0x20(%rsp),%ymm3
.byte 72,131,196,24 // add $0x18,%rsp
.byte 255,224 // jmpq *%rax
- .byte 196,65,123,16,4,193 // vmovsd (%r9,%rax,8),%xmm8
+ .byte 196,65,123,16,4,192 // vmovsd (%r8,%rax,8),%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,85 // je cf34 <_sk_load_f16_dst_avx+0x333>
- .byte 196,65,57,22,68,193,8 // vmovhpd 0x8(%r9,%rax,8),%xmm8,%xmm8
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,72 // jb cf34 <_sk_load_f16_dst_avx+0x333>
- .byte 196,193,123,16,116,193,16 // vmovsd 0x10(%r9,%rax,8),%xmm6
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 116,72 // je cf41 <_sk_load_f16_dst_avx+0x340>
- .byte 196,193,73,22,116,193,24 // vmovhpd 0x18(%r9,%rax,8),%xmm6,%xmm6
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 114,59 // jb cf41 <_sk_load_f16_dst_avx+0x340>
- .byte 196,193,123,16,108,193,32 // vmovsd 0x20(%r9,%rax,8),%xmm5
- .byte 73,131,248,5 // cmp $0x5,%r8
- .byte 15,132,65,253,255,255 // je cc58 <_sk_load_f16_dst_avx+0x57>
- .byte 196,193,81,22,108,193,40 // vmovhpd 0x28(%r9,%rax,8),%xmm5,%xmm5
- .byte 73,131,248,7 // cmp $0x7,%r8
- .byte 15,130,48,253,255,255 // jb cc58 <_sk_load_f16_dst_avx+0x57>
- .byte 196,65,122,126,76,193,48 // vmovq 0x30(%r9,%rax,8),%xmm9
- .byte 233,36,253,255,255 // jmpq cc58 <_sk_load_f16_dst_avx+0x57>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,85 // je cf2c <_sk_load_f16_dst_avx+0x333>
+ .byte 196,65,57,22,68,192,8 // vmovhpd 0x8(%r8,%rax,8),%xmm8,%xmm8
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,72 // jb cf2c <_sk_load_f16_dst_avx+0x333>
+ .byte 196,193,123,16,116,192,16 // vmovsd 0x10(%r8,%rax,8),%xmm6
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 116,72 // je cf39 <_sk_load_f16_dst_avx+0x340>
+ .byte 196,193,73,22,116,192,24 // vmovhpd 0x18(%r8,%rax,8),%xmm6,%xmm6
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 114,59 // jb cf39 <_sk_load_f16_dst_avx+0x340>
+ .byte 196,193,123,16,108,192,32 // vmovsd 0x20(%r8,%rax,8),%xmm5
+ .byte 72,131,255,5 // cmp $0x5,%rdi
+ .byte 15,132,65,253,255,255 // je cc50 <_sk_load_f16_dst_avx+0x57>
+ .byte 196,193,81,22,108,192,40 // vmovhpd 0x28(%r8,%rax,8),%xmm5,%xmm5
+ .byte 72,131,255,7 // cmp $0x7,%rdi
+ .byte 15,130,48,253,255,255 // jb cc50 <_sk_load_f16_dst_avx+0x57>
+ .byte 196,65,122,126,76,192,48 // vmovq 0x30(%r8,%rax,8),%xmm9
+ .byte 233,36,253,255,255 // jmpq cc50 <_sk_load_f16_dst_avx+0x57>
.byte 197,209,87,237 // vxorpd %xmm5,%xmm5,%xmm5
.byte 197,201,87,246 // vxorpd %xmm6,%xmm6,%xmm6
- .byte 233,23,253,255,255 // jmpq cc58 <_sk_load_f16_dst_avx+0x57>
+ .byte 233,23,253,255,255 // jmpq cc50 <_sk_load_f16_dst_avx+0x57>
.byte 197,209,87,237 // vxorpd %xmm5,%xmm5,%xmm5
- .byte 233,14,253,255,255 // jmpq cc58 <_sk_load_f16_dst_avx+0x57>
+ .byte 233,14,253,255,255 // jmpq cc50 <_sk_load_f16_dst_avx+0x57>
HIDDEN _sk_gather_f16_avx
.globl _sk_gather_f16_avx
FUNCTION(_sk_gather_f16_avx)
_sk_gather_f16_avx:
+ .byte 65,87 // push %r15
+ .byte 65,86 // push %r14
+ .byte 65,84 // push %r12
+ .byte 83 // push %rbx
.byte 72,131,236,24 // sub $0x18,%rsp
.byte 197,252,17,124,36,224 // vmovups %ymm7,-0x20(%rsp)
.byte 197,252,17,116,36,192 // vmovups %ymm6,-0x40(%rsp)
.byte 197,252,17,108,36,160 // vmovups %ymm5,-0x60(%rsp)
.byte 197,254,127,100,36,128 // vmovdqu %ymm4,-0x80(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
- .byte 197,249,110,80,8 // vmovd 0x8(%rax),%xmm2
- .byte 197,249,112,210,0 // vpshufd $0x0,%xmm2,%xmm2
- .byte 196,226,105,64,217 // vpmulld %xmm1,%xmm2,%xmm3
- .byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 196,226,105,64,201 // vpmulld %xmm1,%xmm2,%xmm1
- .byte 197,254,91,208 // vcvttps2dq %ymm0,%ymm2
- .byte 196,227,125,25,208,1 // vextractf128 $0x1,%ymm2,%xmm0
- .byte 197,113,254,192 // vpaddd %xmm0,%xmm1,%xmm8
- .byte 197,225,254,202 // vpaddd %xmm2,%xmm3,%xmm1
- .byte 196,225,249,126,200 // vmovq %xmm1,%rax
- .byte 65,137,194 // mov %eax,%r10d
- .byte 72,193,232,32 // shr $0x20,%rax
- .byte 196,65,122,126,12,193 // vmovq (%r9,%rax,8),%xmm9
- .byte 196,227,249,22,200,1 // vpextrq $0x1,%xmm1,%rax
- .byte 196,1,122,126,20,209 // vmovq (%r9,%r10,8),%xmm10
- .byte 65,137,194 // mov %eax,%r10d
- .byte 72,193,232,32 // shr $0x20,%rax
- .byte 196,65,122,126,28,193 // vmovq (%r9,%rax,8),%xmm11
- .byte 196,97,249,126,192 // vmovq %xmm8,%rax
- .byte 196,1,122,126,36,209 // vmovq (%r9,%r10,8),%xmm12
- .byte 65,137,194 // mov %eax,%r10d
- .byte 72,193,232,32 // shr $0x20,%rax
- .byte 196,65,122,126,44,193 // vmovq (%r9,%rax,8),%xmm13
- .byte 196,67,249,22,195,1 // vpextrq $0x1,%xmm8,%r11
- .byte 196,1,122,126,4,209 // vmovq (%r9,%r10,8),%xmm8
- .byte 76,137,216 // mov %r11,%rax
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 197,254,91,209 // vcvttps2dq %ymm1,%ymm2
+ .byte 197,249,110,72,8 // vmovd 0x8(%rax),%xmm1
+ .byte 197,249,112,217,0 // vpshufd $0x0,%xmm1,%xmm3
+ .byte 196,226,97,64,202 // vpmulld %xmm2,%xmm3,%xmm1
+ .byte 196,227,125,25,210,1 // vextractf128 $0x1,%ymm2,%xmm2
+ .byte 196,226,97,64,210 // vpmulld %xmm2,%xmm3,%xmm2
+ .byte 197,254,91,192 // vcvttps2dq %ymm0,%ymm0
+ .byte 196,227,125,25,195,1 // vextractf128 $0x1,%ymm0,%xmm3
+ .byte 197,233,254,211 // vpaddd %xmm3,%xmm2,%xmm2
+ .byte 196,227,249,22,208,1 // vpextrq $0x1,%xmm2,%rax
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 196,65,122,126,52,193 // vmovq (%r9,%rax,8),%xmm14
- .byte 68,137,216 // mov %r11d,%eax
- .byte 196,193,122,126,4,193 // vmovq (%r9,%rax,8),%xmm0
- .byte 196,193,41,108,209 // vpunpcklqdq %xmm9,%xmm10,%xmm2
- .byte 196,193,25,108,203 // vpunpcklqdq %xmm11,%xmm12,%xmm1
- .byte 196,193,57,108,221 // vpunpcklqdq %xmm13,%xmm8,%xmm3
- .byte 196,193,121,108,198 // vpunpcklqdq %xmm14,%xmm0,%xmm0
- .byte 197,105,97,193 // vpunpcklwd %xmm1,%xmm2,%xmm8
- .byte 197,233,105,209 // vpunpckhwd %xmm1,%xmm2,%xmm2
- .byte 197,225,97,200 // vpunpcklwd %xmm0,%xmm3,%xmm1
- .byte 197,225,105,192 // vpunpckhwd %xmm0,%xmm3,%xmm0
- .byte 197,57,97,250 // vpunpcklwd %xmm2,%xmm8,%xmm15
- .byte 197,57,105,194 // vpunpckhwd %xmm2,%xmm8,%xmm8
- .byte 197,241,97,208 // vpunpcklwd %xmm0,%xmm1,%xmm2
- .byte 197,113,105,200 // vpunpckhwd %xmm0,%xmm1,%xmm9
- .byte 197,129,108,194 // vpunpcklqdq %xmm2,%xmm15,%xmm0
- .byte 197,241,239,201 // vpxor %xmm1,%xmm1,%xmm1
- .byte 197,249,105,201 // vpunpckhwd %xmm1,%xmm0,%xmm1
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 197,241,254,192 // vpaddd %xmm0,%xmm1,%xmm0
+ .byte 196,225,249,126,195 // vmovq %xmm0,%rbx
+ .byte 65,137,222 // mov %ebx,%r14d
+ .byte 196,195,249,22,199,1 // vpextrq $0x1,%xmm0,%r15
+ .byte 69,137,252 // mov %r15d,%r12d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 196,193,122,126,4,216 // vmovq (%r8,%rbx,8),%xmm0
+ .byte 196,129,122,126,12,240 // vmovq (%r8,%r14,8),%xmm1
+ .byte 197,113,108,200 // vpunpcklqdq %xmm0,%xmm1,%xmm9
+ .byte 196,129,122,126,12,248 // vmovq (%r8,%r15,8),%xmm1
+ .byte 196,129,122,126,20,224 // vmovq (%r8,%r12,8),%xmm2
+ .byte 197,233,108,201 // vpunpcklqdq %xmm1,%xmm2,%xmm1
+ .byte 196,129,122,126,20,208 // vmovq (%r8,%r10,8),%xmm2
+ .byte 196,129,122,126,28,216 // vmovq (%r8,%r11,8),%xmm3
+ .byte 197,97,108,210 // vpunpcklqdq %xmm2,%xmm3,%xmm10
+ .byte 196,65,122,126,4,192 // vmovq (%r8,%rax,8),%xmm8
+ .byte 196,129,122,126,28,200 // vmovq (%r8,%r9,8),%xmm3
+ .byte 196,193,97,108,216 // vpunpcklqdq %xmm8,%xmm3,%xmm3
+ .byte 197,177,97,193 // vpunpcklwd %xmm1,%xmm9,%xmm0
+ .byte 197,177,105,201 // vpunpckhwd %xmm1,%xmm9,%xmm1
+ .byte 197,169,97,211 // vpunpcklwd %xmm3,%xmm10,%xmm2
+ .byte 197,169,105,219 // vpunpckhwd %xmm3,%xmm10,%xmm3
+ .byte 197,121,97,249 // vpunpcklwd %xmm1,%xmm0,%xmm15
+ .byte 197,121,105,193 // vpunpckhwd %xmm1,%xmm0,%xmm8
+ .byte 197,233,97,203 // vpunpcklwd %xmm3,%xmm2,%xmm1
+ .byte 197,105,105,203 // vpunpckhwd %xmm3,%xmm2,%xmm9
+ .byte 197,129,108,193 // vpunpcklqdq %xmm1,%xmm15,%xmm0
+ .byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
+ .byte 197,249,105,210 // vpunpckhwd %xmm2,%xmm0,%xmm2
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
- .byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
- .byte 196,98,125,24,37,80,234,1,0 // vbroadcastss 0x1ea50(%rip),%ymm12 # 2baa4 <_sk_overlay_sse2_8bit+0x5bf>
- .byte 196,193,124,84,204 // vandps %ymm12,%ymm0,%ymm1
- .byte 197,252,87,193 // vxorps %ymm1,%ymm0,%ymm0
+ .byte 196,227,125,24,194,1 // vinsertf128 $0x1,%xmm2,%ymm0,%ymm0
+ .byte 196,98,125,24,37,15,234,1,0 // vbroadcastss 0x1ea0f(%rip),%ymm12 # 2ba5c <_sk_overlay_sse2_8bit+0x5bf>
+ .byte 196,193,124,84,212 // vandps %ymm12,%ymm0,%ymm2
+ .byte 197,252,87,194 // vxorps %ymm2,%ymm0,%ymm0
.byte 196,195,125,25,198,1 // vextractf128 $0x1,%ymm0,%xmm14
- .byte 196,98,121,24,29,20,234,1,0 // vbroadcastss 0x1ea14(%rip),%xmm11 # 2ba80 <_sk_overlay_sse2_8bit+0x59b>
+ .byte 196,98,121,24,29,211,233,1,0 // vbroadcastss 0x1e9d3(%rip),%xmm11 # 2ba38 <_sk_overlay_sse2_8bit+0x59b>
.byte 196,193,8,87,219 // vxorps %xmm11,%xmm14,%xmm3
- .byte 196,98,121,24,45,46,234,1,0 // vbroadcastss 0x1ea2e(%rip),%xmm13 # 2baa8 <_sk_overlay_sse2_8bit+0x5c3>
+ .byte 196,98,121,24,45,237,233,1,0 // vbroadcastss 0x1e9ed(%rip),%xmm13 # 2ba60 <_sk_overlay_sse2_8bit+0x5c3>
.byte 197,145,102,219 // vpcmpgtd %xmm3,%xmm13,%xmm3
.byte 196,65,120,87,211 // vxorps %xmm11,%xmm0,%xmm10
.byte 196,65,17,102,210 // vpcmpgtd %xmm10,%xmm13,%xmm10
.byte 196,99,45,24,211,1 // vinsertf128 $0x1,%xmm3,%ymm10,%ymm10
- .byte 197,225,114,241,16 // vpslld $0x10,%xmm1,%xmm3
- .byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 197,241,114,241,16 // vpslld $0x10,%xmm1,%xmm1
- .byte 196,227,101,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm3,%ymm1
+ .byte 197,225,114,242,16 // vpslld $0x10,%xmm2,%xmm3
+ .byte 196,227,125,25,210,1 // vextractf128 $0x1,%ymm2,%xmm2
+ .byte 197,233,114,242,16 // vpslld $0x10,%xmm2,%xmm2
+ .byte 196,227,101,24,210,1 // vinsertf128 $0x1,%xmm2,%ymm3,%ymm2
.byte 197,249,114,240,13 // vpslld $0xd,%xmm0,%xmm0
.byte 196,193,97,114,246,13 // vpslld $0xd,%xmm14,%xmm3
.byte 196,227,125,24,195,1 // vinsertf128 $0x1,%xmm3,%ymm0,%ymm0
- .byte 197,252,86,193 // vorps %ymm1,%ymm0,%ymm0
- .byte 196,227,125,25,193,1 // vextractf128 $0x1,%ymm0,%xmm1
- .byte 196,226,121,24,29,228,233,1,0 // vbroadcastss 0x1e9e4(%rip),%xmm3 # 2baac <_sk_overlay_sse2_8bit+0x5c7>
- .byte 197,241,254,203 // vpaddd %xmm3,%xmm1,%xmm1
+ .byte 197,252,86,194 // vorps %ymm2,%ymm0,%ymm0
+ .byte 196,227,125,25,194,1 // vextractf128 $0x1,%ymm0,%xmm2
+ .byte 196,226,121,24,29,163,233,1,0 // vbroadcastss 0x1e9a3(%rip),%xmm3 # 2ba64 <_sk_overlay_sse2_8bit+0x5c7>
+ .byte 197,233,254,211 // vpaddd %xmm3,%xmm2,%xmm2
.byte 197,249,254,195 // vpaddd %xmm3,%xmm0,%xmm0
- .byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
+ .byte 196,227,125,24,194,1 // vinsertf128 $0x1,%xmm2,%ymm0,%ymm0
.byte 196,65,12,87,246 // vxorps %ymm14,%ymm14,%ymm14
.byte 196,195,125,74,198,160 // vblendvps %ymm10,%ymm14,%ymm0,%ymm0
- .byte 197,129,109,202 // vpunpckhqdq %xmm2,%xmm15,%xmm1
+ .byte 197,129,109,201 // vpunpckhqdq %xmm1,%xmm15,%xmm1
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 197,241,105,212 // vpunpckhwd %xmm4,%xmm1,%xmm2
.byte 196,226,121,51,201 // vpmovzxwd %xmm1,%xmm1
@@ -22316,6 +22345,10 @@ _sk_gather_f16_avx:
.byte 197,252,16,116,36,192 // vmovups -0x40(%rsp),%ymm6
.byte 197,252,16,124,36,224 // vmovups -0x20(%rsp),%ymm7
.byte 72,131,196,24 // add $0x18,%rsp
+ .byte 91 // pop %rbx
+ .byte 65,92 // pop %r12
+ .byte 65,94 // pop %r14
+ .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_f16_avx
@@ -22327,12 +22360,12 @@ _sk_store_f16_avx:
.byte 197,252,17,52,36 // vmovups %ymm6,(%rsp)
.byte 197,252,17,108,36,224 // vmovups %ymm5,-0x20(%rsp)
.byte 197,252,17,100,36,192 // vmovups %ymm4,-0x40(%rsp)
- .byte 196,98,125,24,13,212,231,1,0 // vbroadcastss 0x1e7d4(%rip),%ymm9 # 2ba80 <_sk_overlay_sse2_8bit+0x59b>
+ .byte 196,98,125,24,13,140,231,1,0 // vbroadcastss 0x1e78c(%rip),%ymm9 # 2ba38 <_sk_overlay_sse2_8bit+0x59b>
.byte 196,65,124,84,209 // vandps %ymm9,%ymm0,%ymm10
.byte 197,252,17,68,36,128 // vmovups %ymm0,-0x80(%rsp)
.byte 196,65,124,87,218 // vxorps %ymm10,%ymm0,%ymm11
.byte 196,67,125,25,220,1 // vextractf128 $0x1,%ymm11,%xmm12
- .byte 196,98,121,24,5,229,231,1,0 // vbroadcastss 0x1e7e5(%rip),%xmm8 # 2bab0 <_sk_overlay_sse2_8bit+0x5cb>
+ .byte 196,98,121,24,5,157,231,1,0 // vbroadcastss 0x1e79d(%rip),%xmm8 # 2ba68 <_sk_overlay_sse2_8bit+0x5cb>
.byte 196,65,57,102,236 // vpcmpgtd %xmm12,%xmm8,%xmm13
.byte 196,65,57,102,243 // vpcmpgtd %xmm11,%xmm8,%xmm14
.byte 196,67,13,24,237,1 // vinsertf128 $0x1,%xmm13,%ymm14,%ymm13
@@ -22342,7 +22375,7 @@ _sk_store_f16_avx:
.byte 196,67,13,24,242,1 // vinsertf128 $0x1,%xmm10,%ymm14,%ymm14
.byte 196,193,33,114,211,13 // vpsrld $0xd,%xmm11,%xmm11
.byte 196,193,25,114,212,13 // vpsrld $0xd,%xmm12,%xmm12
- .byte 196,98,125,24,21,172,231,1,0 // vbroadcastss 0x1e7ac(%rip),%ymm10 # 2bab4 <_sk_overlay_sse2_8bit+0x5cf>
+ .byte 196,98,125,24,21,100,231,1,0 // vbroadcastss 0x1e764(%rip),%ymm10 # 2ba6c <_sk_overlay_sse2_8bit+0x5cf>
.byte 196,65,12,86,242 // vorps %ymm10,%ymm14,%ymm14
.byte 196,67,125,25,247,1 // vextractf128 $0x1,%ymm14,%xmm15
.byte 196,65,1,254,228 // vpaddd %xmm12,%xmm15,%xmm12
@@ -22422,18 +22455,18 @@ _sk_store_f16_avx:
.byte 197,121,98,201 // vpunpckldq %xmm1,%xmm0,%xmm9
.byte 197,121,106,193 // vpunpckhdq %xmm1,%xmm0,%xmm8
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
+ .byte 72,133,255 // test %rdi,%rdi
.byte 117,70 // jne d4fc <_sk_store_f16_avx+0x274>
- .byte 196,65,120,17,28,193 // vmovups %xmm11,(%r9,%rax,8)
- .byte 196,65,120,17,84,193,16 // vmovups %xmm10,0x10(%r9,%rax,8)
- .byte 196,65,120,17,76,193,32 // vmovups %xmm9,0x20(%r9,%rax,8)
- .byte 196,65,122,127,68,193,48 // vmovdqu %xmm8,0x30(%r9,%rax,8)
+ .byte 196,65,120,17,28,192 // vmovups %xmm11,(%r8,%rax,8)
+ .byte 196,65,120,17,84,192,16 // vmovups %xmm10,0x10(%r8,%rax,8)
+ .byte 196,65,120,17,76,192,32 // vmovups %xmm9,0x20(%r8,%rax,8)
+ .byte 196,65,122,127,68,192,48 // vmovdqu %xmm8,0x30(%r8,%rax,8)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,16,68,36,128 // vmovups -0x80(%rsp),%ymm0
.byte 197,252,16,76,36,160 // vmovups -0x60(%rsp),%ymm1
@@ -22443,23 +22476,23 @@ _sk_store_f16_avx:
.byte 197,252,16,124,36,32 // vmovups 0x20(%rsp),%ymm7
.byte 72,131,196,88 // add $0x58,%rsp
.byte 255,224 // jmpq *%rax
- .byte 196,65,121,214,28,193 // vmovq %xmm11,(%r9,%rax,8)
- .byte 73,131,248,1 // cmp $0x1,%r8
+ .byte 196,65,121,214,28,192 // vmovq %xmm11,(%r8,%rax,8)
+ .byte 72,131,255,1 // cmp $0x1,%rdi
.byte 116,201 // je d4d1 <_sk_store_f16_avx+0x249>
- .byte 196,65,121,23,92,193,8 // vmovhpd %xmm11,0x8(%r9,%rax,8)
- .byte 73,131,248,3 // cmp $0x3,%r8
+ .byte 196,65,121,23,92,192,8 // vmovhpd %xmm11,0x8(%r8,%rax,8)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
.byte 114,188 // jb d4d1 <_sk_store_f16_avx+0x249>
- .byte 196,65,121,214,84,193,16 // vmovq %xmm10,0x10(%r9,%rax,8)
+ .byte 196,65,121,214,84,192,16 // vmovq %xmm10,0x10(%r8,%rax,8)
.byte 116,179 // je d4d1 <_sk_store_f16_avx+0x249>
- .byte 196,65,121,23,84,193,24 // vmovhpd %xmm10,0x18(%r9,%rax,8)
- .byte 73,131,248,5 // cmp $0x5,%r8
+ .byte 196,65,121,23,84,192,24 // vmovhpd %xmm10,0x18(%r8,%rax,8)
+ .byte 72,131,255,5 // cmp $0x5,%rdi
.byte 114,166 // jb d4d1 <_sk_store_f16_avx+0x249>
- .byte 196,65,121,214,76,193,32 // vmovq %xmm9,0x20(%r9,%rax,8)
+ .byte 196,65,121,214,76,192,32 // vmovq %xmm9,0x20(%r8,%rax,8)
.byte 116,157 // je d4d1 <_sk_store_f16_avx+0x249>
- .byte 196,65,121,23,76,193,40 // vmovhpd %xmm9,0x28(%r9,%rax,8)
- .byte 73,131,248,7 // cmp $0x7,%r8
+ .byte 196,65,121,23,76,192,40 // vmovhpd %xmm9,0x28(%r8,%rax,8)
+ .byte 72,131,255,7 // cmp $0x7,%rdi
.byte 114,144 // jb d4d1 <_sk_store_f16_avx+0x249>
- .byte 196,65,121,214,68,193,48 // vmovq %xmm8,0x30(%r9,%rax,8)
+ .byte 196,65,121,214,68,192,48 // vmovq %xmm8,0x30(%r8,%rax,8)
.byte 235,135 // jmp d4d1 <_sk_store_f16_avx+0x249>
HIDDEN _sk_load_u16_be_avx
@@ -22467,19 +22500,19 @@ HIDDEN _sk_load_u16_be_avx
FUNCTION(_sk_load_u16_be_avx)
_sk_load_u16_be_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 77,133,192 // test %r8,%r8
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 72,133,255 // test %rdi,%rdi
.byte 15,133,253,0,0,0 // jne d66e <_sk_load_u16_be_avx+0x124>
- .byte 196,65,121,16,4,65 // vmovupd (%r9,%rax,2),%xmm8
- .byte 196,193,121,16,84,65,16 // vmovupd 0x10(%r9,%rax,2),%xmm2
- .byte 196,193,121,16,92,65,32 // vmovupd 0x20(%r9,%rax,2),%xmm3
- .byte 196,65,122,111,76,65,48 // vmovdqu 0x30(%r9,%rax,2),%xmm9
+ .byte 196,65,121,16,4,64 // vmovupd (%r8,%rax,2),%xmm8
+ .byte 196,193,121,16,84,64,16 // vmovupd 0x10(%r8,%rax,2),%xmm2
+ .byte 196,193,121,16,92,64,32 // vmovupd 0x20(%r8,%rax,2),%xmm3
+ .byte 196,65,122,111,76,64,48 // vmovdqu 0x30(%r8,%rax,2),%xmm9
.byte 197,185,97,194 // vpunpcklwd %xmm2,%xmm8,%xmm0
.byte 197,185,105,210 // vpunpckhwd %xmm2,%xmm8,%xmm2
.byte 196,193,97,97,201 // vpunpcklwd %xmm9,%xmm3,%xmm1
@@ -22497,7 +22530,7 @@ _sk_load_u16_be_avx:
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
.byte 196,227,125,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,98,125,24,29,214,227,1,0 // vbroadcastss 0x1e3d6(%rip),%ymm11 # 2b9b8 <_sk_overlay_sse2_8bit+0x4d3>
+ .byte 196,98,125,24,29,142,227,1,0 // vbroadcastss 0x1e38e(%rip),%ymm11 # 2b970 <_sk_overlay_sse2_8bit+0x4d3>
.byte 196,193,124,89,195 // vmulps %ymm11,%ymm0,%ymm0
.byte 197,177,109,202 // vpunpckhqdq %xmm2,%xmm9,%xmm1
.byte 197,233,113,241,8 // vpsllw $0x8,%xmm1,%xmm2
@@ -22528,26 +22561,26 @@ _sk_load_u16_be_avx:
.byte 196,193,100,89,219 // vmulps %ymm11,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 196,65,123,16,4,65 // vmovsd (%r9,%rax,2),%xmm8
+ .byte 196,65,123,16,4,64 // vmovsd (%r8,%rax,2),%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
+ .byte 72,131,255,1 // cmp $0x1,%rdi
.byte 116,85 // je d6d4 <_sk_load_u16_be_avx+0x18a>
- .byte 196,65,57,22,68,65,8 // vmovhpd 0x8(%r9,%rax,2),%xmm8,%xmm8
- .byte 73,131,248,3 // cmp $0x3,%r8
+ .byte 196,65,57,22,68,64,8 // vmovhpd 0x8(%r8,%rax,2),%xmm8,%xmm8
+ .byte 72,131,255,3 // cmp $0x3,%rdi
.byte 114,72 // jb d6d4 <_sk_load_u16_be_avx+0x18a>
- .byte 196,193,123,16,84,65,16 // vmovsd 0x10(%r9,%rax,2),%xmm2
- .byte 73,131,248,3 // cmp $0x3,%r8
+ .byte 196,193,123,16,84,64,16 // vmovsd 0x10(%r8,%rax,2),%xmm2
+ .byte 72,131,255,3 // cmp $0x3,%rdi
.byte 116,72 // je d6e1 <_sk_load_u16_be_avx+0x197>
- .byte 196,193,105,22,84,65,24 // vmovhpd 0x18(%r9,%rax,2),%xmm2,%xmm2
- .byte 73,131,248,5 // cmp $0x5,%r8
+ .byte 196,193,105,22,84,64,24 // vmovhpd 0x18(%r8,%rax,2),%xmm2,%xmm2
+ .byte 72,131,255,5 // cmp $0x5,%rdi
.byte 114,59 // jb d6e1 <_sk_load_u16_be_avx+0x197>
- .byte 196,193,123,16,92,65,32 // vmovsd 0x20(%r9,%rax,2),%xmm3
- .byte 73,131,248,5 // cmp $0x5,%r8
+ .byte 196,193,123,16,92,64,32 // vmovsd 0x20(%r8,%rax,2),%xmm3
+ .byte 72,131,255,5 // cmp $0x5,%rdi
.byte 15,132,213,254,255,255 // je d58c <_sk_load_u16_be_avx+0x42>
- .byte 196,193,97,22,92,65,40 // vmovhpd 0x28(%r9,%rax,2),%xmm3,%xmm3
- .byte 73,131,248,7 // cmp $0x7,%r8
+ .byte 196,193,97,22,92,64,40 // vmovhpd 0x28(%r8,%rax,2),%xmm3,%xmm3
+ .byte 72,131,255,7 // cmp $0x7,%rdi
.byte 15,130,196,254,255,255 // jb d58c <_sk_load_u16_be_avx+0x42>
- .byte 196,65,122,126,76,65,48 // vmovq 0x30(%r9,%rax,2),%xmm9
+ .byte 196,65,122,126,76,64,48 // vmovq 0x30(%r8,%rax,2),%xmm9
.byte 233,184,254,255,255 // jmpq d58c <_sk_load_u16_be_avx+0x42>
.byte 197,225,87,219 // vxorpd %xmm3,%xmm3,%xmm3
.byte 197,233,87,210 // vxorpd %xmm2,%xmm2,%xmm2
@@ -22560,21 +22593,21 @@ HIDDEN _sk_load_rgb_u16_be_avx
FUNCTION(_sk_load_rgb_u16_be_avx)
_sk_load_rgb_u16_be_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,137,208 // mov %rdx,%rax
.byte 72,193,224,32 // shl $0x20,%rax
.byte 72,141,4,64 // lea (%rax,%rax,2),%rax
.byte 72,193,248,32 // sar $0x20,%rax
- .byte 77,133,192 // test %r8,%r8
+ .byte 72,133,255 // test %rdi,%rdi
.byte 15,133,241,0,0,0 // jne d806 <_sk_load_rgb_u16_be_avx+0x11c>
- .byte 196,65,122,111,28,65 // vmovdqu (%r9,%rax,2),%xmm11
- .byte 196,193,122,111,92,65,12 // vmovdqu 0xc(%r9,%rax,2),%xmm3
- .byte 196,193,122,111,84,65,24 // vmovdqu 0x18(%r9,%rax,2),%xmm2
- .byte 196,193,122,111,68,65,32 // vmovdqu 0x20(%r9,%rax,2),%xmm0
+ .byte 196,65,122,111,28,64 // vmovdqu (%r8,%rax,2),%xmm11
+ .byte 196,193,122,111,92,64,12 // vmovdqu 0xc(%r8,%rax,2),%xmm3
+ .byte 196,193,122,111,84,64,24 // vmovdqu 0x18(%r8,%rax,2),%xmm2
+ .byte 196,193,122,111,68,64,32 // vmovdqu 0x20(%r8,%rax,2),%xmm0
.byte 197,249,115,216,4 // vpsrldq $0x4,%xmm0,%xmm0
.byte 196,193,57,115,219,6 // vpsrldq $0x6,%xmm11,%xmm8
.byte 197,169,115,219,6 // vpsrldq $0x6,%xmm3,%xmm10
@@ -22597,7 +22630,7 @@ _sk_load_rgb_u16_be_avx:
.byte 196,226,121,51,192 // vpmovzxwd %xmm0,%xmm0
.byte 196,227,125,24,194,1 // vinsertf128 $0x1,%xmm2,%ymm0,%ymm0
.byte 197,252,91,192 // vcvtdq2ps %ymm0,%ymm0
- .byte 196,226,125,24,21,24,226,1,0 // vbroadcastss 0x1e218(%rip),%ymm2 # 2b9b8 <_sk_overlay_sse2_8bit+0x4d3>
+ .byte 196,226,125,24,21,208,225,1,0 // vbroadcastss 0x1e1d0(%rip),%ymm2 # 2b970 <_sk_overlay_sse2_8bit+0x4d3>
.byte 197,252,89,194 // vmulps %ymm2,%ymm0,%ymm0
.byte 197,185,109,201 // vpunpckhqdq %xmm1,%xmm8,%xmm1
.byte 197,225,113,241,8 // vpsllw $0x8,%xmm1,%xmm3
@@ -22618,12 +22651,12 @@ _sk_load_rgb_u16_be_avx:
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 197,228,89,210 // vmulps %ymm2,%ymm3,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,36,225,1,0 // vbroadcastss 0x1e124(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,220,224,1,0 // vbroadcastss 0x1e0dc(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 255,224 // jmpq *%rax
- .byte 196,193,121,110,4,65 // vmovd (%r9,%rax,2),%xmm0
- .byte 196,65,121,196,92,65,4,2 // vpinsrw $0x2,0x4(%r9,%rax,2),%xmm0,%xmm11
+ .byte 196,193,121,110,4,64 // vmovd (%r8,%rax,2),%xmm0
+ .byte 196,65,121,196,92,64,4,2 // vpinsrw $0x2,0x4(%r8,%rax,2),%xmm0,%xmm11
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
+ .byte 72,131,255,1 // cmp $0x1,%rdi
.byte 117,32 // jne d83f <_sk_load_rgb_u16_be_avx+0x155>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
@@ -22632,15 +22665,15 @@ _sk_load_rgb_u16_be_avx:
.byte 197,225,239,219 // vpxor %xmm3,%xmm3,%xmm3
.byte 196,65,57,239,192 // vpxor %xmm8,%xmm8,%xmm8
.byte 233,11,255,255,255 // jmpq d74a <_sk_load_rgb_u16_be_avx+0x60>
- .byte 196,193,121,110,68,65,6 // vmovd 0x6(%r9,%rax,2),%xmm0
- .byte 196,65,121,196,68,65,10,2 // vpinsrw $0x2,0xa(%r9,%rax,2),%xmm0,%xmm8
+ .byte 196,193,121,110,68,64,6 // vmovd 0x6(%r8,%rax,2),%xmm0
+ .byte 196,65,121,196,68,64,10,2 // vpinsrw $0x2,0xa(%r8,%rax,2),%xmm0,%xmm8
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,3 // cmp $0x3,%r8
+ .byte 72,131,255,3 // cmp $0x3,%rdi
.byte 114,49 // jb d88a <_sk_load_rgb_u16_be_avx+0x1a0>
- .byte 196,193,121,110,68,65,12 // vmovd 0xc(%r9,%rax,2),%xmm0
- .byte 196,193,121,196,92,65,16,2 // vpinsrw $0x2,0x10(%r9,%rax,2),%xmm0,%xmm3
+ .byte 196,193,121,110,68,64,12 // vmovd 0xc(%r8,%rax,2),%xmm0
+ .byte 196,193,121,196,92,64,16,2 // vpinsrw $0x2,0x10(%r8,%rax,2),%xmm0,%xmm3
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,3 // cmp $0x3,%r8
+ .byte 72,131,255,3 // cmp $0x3,%rdi
.byte 117,50 // jne d8a5 <_sk_load_rgb_u16_be_avx+0x1bb>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
@@ -22653,15 +22686,15 @@ _sk_load_rgb_u16_be_avx:
.byte 196,65,41,239,210 // vpxor %xmm10,%xmm10,%xmm10
.byte 197,225,239,219 // vpxor %xmm3,%xmm3,%xmm3
.byte 233,165,254,255,255 // jmpq d74a <_sk_load_rgb_u16_be_avx+0x60>
- .byte 196,193,121,110,68,65,18 // vmovd 0x12(%r9,%rax,2),%xmm0
- .byte 196,65,121,196,84,65,22,2 // vpinsrw $0x2,0x16(%r9,%rax,2),%xmm0,%xmm10
+ .byte 196,193,121,110,68,64,18 // vmovd 0x12(%r8,%rax,2),%xmm0
+ .byte 196,65,121,196,84,64,22,2 // vpinsrw $0x2,0x16(%r8,%rax,2),%xmm0,%xmm10
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,5 // cmp $0x5,%r8
+ .byte 72,131,255,5 // cmp $0x5,%rdi
.byte 114,40 // jb d8e7 <_sk_load_rgb_u16_be_avx+0x1fd>
- .byte 196,193,121,110,68,65,24 // vmovd 0x18(%r9,%rax,2),%xmm0
- .byte 196,193,121,196,84,65,28,2 // vpinsrw $0x2,0x1c(%r9,%rax,2),%xmm0,%xmm2
+ .byte 196,193,121,110,68,64,24 // vmovd 0x18(%r8,%rax,2),%xmm0
+ .byte 196,193,121,196,84,64,28,2 // vpinsrw $0x2,0x1c(%r8,%rax,2),%xmm0,%xmm2
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,5 // cmp $0x5,%r8
+ .byte 72,131,255,5 // cmp $0x5,%rdi
.byte 117,32 // jne d8f9 <_sk_load_rgb_u16_be_avx+0x20f>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
@@ -22670,13 +22703,13 @@ _sk_load_rgb_u16_be_avx:
.byte 196,65,25,239,228 // vpxor %xmm12,%xmm12,%xmm12
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 233,81,254,255,255 // jmpq d74a <_sk_load_rgb_u16_be_avx+0x60>
- .byte 196,193,121,110,68,65,30 // vmovd 0x1e(%r9,%rax,2),%xmm0
- .byte 196,65,121,196,100,65,34,2 // vpinsrw $0x2,0x22(%r9,%rax,2),%xmm0,%xmm12
+ .byte 196,193,121,110,68,64,30 // vmovd 0x1e(%r8,%rax,2),%xmm0
+ .byte 196,65,121,196,100,64,34,2 // vpinsrw $0x2,0x22(%r8,%rax,2),%xmm0,%xmm12
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
- .byte 73,131,248,7 // cmp $0x7,%r8
+ .byte 72,131,255,7 // cmp $0x7,%rdi
.byte 114,25 // jb d92c <_sk_load_rgb_u16_be_avx+0x242>
- .byte 196,193,121,110,68,65,36 // vmovd 0x24(%r9,%rax,2),%xmm0
- .byte 196,193,121,196,68,65,40,2 // vpinsrw $0x2,0x28(%r9,%rax,2),%xmm0,%xmm0
+ .byte 196,193,121,110,68,64,36 // vmovd 0x24(%r8,%rax,2),%xmm0
+ .byte 196,193,121,196,68,64,40,2 // vpinsrw $0x2,0x28(%r8,%rax,2),%xmm0,%xmm0
.byte 196,65,49,239,201 // vpxor %xmm9,%xmm9,%xmm9
.byte 233,30,254,255,255 // jmpq d74a <_sk_load_rgb_u16_be_avx+0x60>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
@@ -22687,14 +22720,14 @@ HIDDEN _sk_store_u16_be_avx
FUNCTION(_sk_store_u16_be_avx)
_sk_store_u16_be_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 196,98,125,24,5,228,224,1,0 // vbroadcastss 0x1e0e4(%rip),%ymm8 # 2ba40 <_sk_overlay_sse2_8bit+0x55b>
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 196,98,125,24,5,156,224,1,0 // vbroadcastss 0x1e09c(%rip),%ymm8 # 2b9f8 <_sk_overlay_sse2_8bit+0x55b>
.byte 196,65,124,89,200 // vmulps %ymm8,%ymm0,%ymm9
.byte 196,65,125,91,201 // vcvtps2dq %ymm9,%ymm9
.byte 196,67,125,25,202,1 // vextractf128 $0x1,%ymm9,%xmm10
@@ -22731,31 +22764,31 @@ _sk_store_u16_be_avx:
.byte 196,65,25,106,209 // vpunpckhdq %xmm9,%xmm12,%xmm10
.byte 196,65,17,98,200 // vpunpckldq %xmm8,%xmm13,%xmm9
.byte 196,65,17,106,192 // vpunpckhdq %xmm8,%xmm13,%xmm8
- .byte 77,133,192 // test %r8,%r8
+ .byte 72,133,255 // test %rdi,%rdi
.byte 117,31 // jne da40 <_sk_store_u16_be_avx+0x10b>
- .byte 196,65,120,17,28,65 // vmovups %xmm11,(%r9,%rax,2)
- .byte 196,65,120,17,84,65,16 // vmovups %xmm10,0x10(%r9,%rax,2)
- .byte 196,65,120,17,76,65,32 // vmovups %xmm9,0x20(%r9,%rax,2)
- .byte 196,65,122,127,68,65,48 // vmovdqu %xmm8,0x30(%r9,%rax,2)
+ .byte 196,65,120,17,28,64 // vmovups %xmm11,(%r8,%rax,2)
+ .byte 196,65,120,17,84,64,16 // vmovups %xmm10,0x10(%r8,%rax,2)
+ .byte 196,65,120,17,76,64,32 // vmovups %xmm9,0x20(%r8,%rax,2)
+ .byte 196,65,122,127,68,64,48 // vmovdqu %xmm8,0x30(%r8,%rax,2)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 196,65,121,214,28,65 // vmovq %xmm11,(%r9,%rax,2)
- .byte 73,131,248,1 // cmp $0x1,%r8
+ .byte 196,65,121,214,28,64 // vmovq %xmm11,(%r8,%rax,2)
+ .byte 72,131,255,1 // cmp $0x1,%rdi
.byte 116,240 // je da3c <_sk_store_u16_be_avx+0x107>
- .byte 196,65,121,23,92,65,8 // vmovhpd %xmm11,0x8(%r9,%rax,2)
- .byte 73,131,248,3 // cmp $0x3,%r8
+ .byte 196,65,121,23,92,64,8 // vmovhpd %xmm11,0x8(%r8,%rax,2)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
.byte 114,227 // jb da3c <_sk_store_u16_be_avx+0x107>
- .byte 196,65,121,214,84,65,16 // vmovq %xmm10,0x10(%r9,%rax,2)
+ .byte 196,65,121,214,84,64,16 // vmovq %xmm10,0x10(%r8,%rax,2)
.byte 116,218 // je da3c <_sk_store_u16_be_avx+0x107>
- .byte 196,65,121,23,84,65,24 // vmovhpd %xmm10,0x18(%r9,%rax,2)
- .byte 73,131,248,5 // cmp $0x5,%r8
+ .byte 196,65,121,23,84,64,24 // vmovhpd %xmm10,0x18(%r8,%rax,2)
+ .byte 72,131,255,5 // cmp $0x5,%rdi
.byte 114,205 // jb da3c <_sk_store_u16_be_avx+0x107>
- .byte 196,65,121,214,76,65,32 // vmovq %xmm9,0x20(%r9,%rax,2)
+ .byte 196,65,121,214,76,64,32 // vmovq %xmm9,0x20(%r8,%rax,2)
.byte 116,196 // je da3c <_sk_store_u16_be_avx+0x107>
- .byte 196,65,121,23,76,65,40 // vmovhpd %xmm9,0x28(%r9,%rax,2)
- .byte 73,131,248,7 // cmp $0x7,%r8
+ .byte 196,65,121,23,76,64,40 // vmovhpd %xmm9,0x28(%r8,%rax,2)
+ .byte 72,131,255,7 // cmp $0x7,%rdi
.byte 114,183 // jb da3c <_sk_store_u16_be_avx+0x107>
- .byte 196,65,121,214,68,65,48 // vmovq %xmm8,0x30(%r9,%rax,2)
+ .byte 196,65,121,214,68,64,48 // vmovq %xmm8,0x30(%r8,%rax,2)
.byte 235,174 // jmp da3c <_sk_store_u16_be_avx+0x107>
HIDDEN _sk_load_f32_avx
@@ -22764,23 +22797,23 @@ FUNCTION(_sk_load_f32_avx)
_sk_load_f32_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,253,87,192 // vxorpd %ymm0,%ymm0,%ymm0
- .byte 73,131,248,7 // cmp $0x7,%r8
+ .byte 72,131,255,7 // cmp $0x7,%rdi
.byte 15,135,97,1,0,0 // ja dbff <_sk_load_f32_avx+0x171>
.byte 72,131,236,24 // sub $0x18,%rsp
.byte 197,253,17,100,36,128 // vmovupd %ymm4,-0x80(%rsp)
.byte 197,253,17,108,36,160 // vmovupd %ymm5,-0x60(%rsp)
.byte 197,253,17,116,36,192 // vmovupd %ymm6,-0x40(%rsp)
.byte 197,253,17,124,36,224 // vmovupd %ymm7,-0x20(%rsp)
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 77,99,210 // movslq %r10d,%r10
- .byte 76,141,29,50,1,0,0 // lea 0x132(%rip),%r11 # dc10 <_sk_load_f32_avx+0x182>
- .byte 75,99,4,131 // movslq (%r11,%r8,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 77,99,201 // movslq %r9d,%r9
+ .byte 76,141,21,50,1,0,0 // lea 0x132(%rip),%r10 # dc10 <_sk_load_f32_avx+0x182>
+ .byte 73,99,4,186 // movslq (%r10,%rdi,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 197,221,87,228 // vxorpd %ymm4,%ymm4,%ymm4
.byte 196,65,53,87,201 // vxorpd %ymm9,%ymm9,%ymm9
.byte 197,237,87,210 // vxorpd %ymm2,%ymm2,%ymm2
@@ -22797,31 +22830,31 @@ _sk_load_f32_avx:
.byte 196,65,45,87,210 // vxorpd %ymm10,%ymm10,%ymm10
.byte 197,197,87,255 // vxorpd %ymm7,%ymm7,%ymm7
.byte 255,224 // jmpq *%rax
- .byte 196,129,121,16,68,145,112 // vmovupd 0x70(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,112 // vmovupd 0x70(%r8,%r9,4),%xmm0
.byte 196,227,125,6,192,40 // vperm2f128 $0x28,%ymm0,%ymm0,%ymm0
- .byte 196,129,121,16,76,145,96 // vmovupd 0x60(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,96 // vmovupd 0x60(%r8,%r9,4),%xmm1
.byte 196,227,125,6,225,40 // vperm2f128 $0x28,%ymm1,%ymm0,%ymm4
- .byte 196,129,121,16,76,145,80 // vmovupd 0x50(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,80 // vmovupd 0x50(%r8,%r9,4),%xmm1
.byte 196,227,125,6,209,40 // vperm2f128 $0x28,%ymm1,%ymm0,%ymm2
.byte 197,125,40,204 // vmovapd %ymm4,%ymm9
- .byte 196,129,121,16,76,145,64 // vmovupd 0x40(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,64 // vmovupd 0x40(%r8,%r9,4),%xmm1
.byte 196,99,125,6,193,40 // vperm2f128 $0x28,%ymm1,%ymm0,%ymm8
.byte 196,65,125,40,217 // vmovapd %ymm9,%ymm11
.byte 197,125,40,226 // vmovapd %ymm2,%ymm12
- .byte 196,129,121,16,76,145,48 // vmovupd 0x30(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,48 // vmovupd 0x30(%r8,%r9,4),%xmm1
.byte 196,227,117,13,192,12 // vblendpd $0xc,%ymm0,%ymm1,%ymm0
.byte 196,65,125,40,243 // vmovapd %ymm11,%ymm14
.byte 197,125,41,230 // vmovapd %ymm12,%ymm6
.byte 196,65,125,40,248 // vmovapd %ymm8,%ymm15
- .byte 196,129,121,16,76,145,32 // vmovupd 0x20(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,32 // vmovupd 0x20(%r8,%r9,4),%xmm1
.byte 196,195,117,13,206,12 // vblendpd $0xc,%ymm14,%ymm1,%ymm1
.byte 197,125,40,238 // vmovapd %ymm6,%ymm13
.byte 197,125,41,253 // vmovapd %ymm15,%ymm5
- .byte 196,129,121,16,84,145,16 // vmovupd 0x10(%r9,%r10,4),%xmm2
+ .byte 196,129,121,16,84,136,16 // vmovupd 0x10(%r8,%r9,4),%xmm2
.byte 196,67,109,13,213,12 // vblendpd $0xc,%ymm13,%ymm2,%ymm10
.byte 197,253,40,217 // vmovapd %ymm1,%ymm3
.byte 197,253,40,253 // vmovapd %ymm5,%ymm7
- .byte 196,129,121,16,12,145 // vmovupd (%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,12,136 // vmovupd (%r8,%r9,4),%xmm1
.byte 196,227,117,13,207,12 // vblendpd $0xc,%ymm7,%ymm1,%ymm1
.byte 197,252,16,124,36,224 // vmovups -0x20(%rsp),%ymm7
.byte 197,252,16,116,36,192 // vmovups -0x40(%rsp),%ymm6
@@ -22853,7 +22886,7 @@ _sk_load_f32_avx:
.byte 255,92,255,255 // lcall *-0x1(%rdi,%rdi,8)
.byte 255,70,255 // incl -0x1(%rsi)
.byte 255 // (bad)
- .byte 255,53,255,255,255,40 // pushq 0x28ffffff(%rip) # 2900dc2c <_sk_overlay_sse2_8bit+0x28fe2747>
+ .byte 255,53,255,255,255,40 // pushq 0x28ffffff(%rip) # 2900dc2c <_sk_overlay_sse2_8bit+0x28fe278f>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -22864,23 +22897,23 @@ FUNCTION(_sk_load_f32_dst_avx)
_sk_load_f32_dst_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,221,87,228 // vxorpd %ymm4,%ymm4,%ymm4
- .byte 73,131,248,7 // cmp $0x7,%r8
+ .byte 72,131,255,7 // cmp $0x7,%rdi
.byte 15,135,97,1,0,0 // ja dda1 <_sk_load_f32_dst_avx+0x171>
.byte 72,131,236,24 // sub $0x18,%rsp
.byte 197,253,17,68,36,128 // vmovupd %ymm0,-0x80(%rsp)
.byte 197,253,17,76,36,160 // vmovupd %ymm1,-0x60(%rsp)
.byte 197,253,17,84,36,192 // vmovupd %ymm2,-0x40(%rsp)
.byte 197,253,17,92,36,224 // vmovupd %ymm3,-0x20(%rsp)
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 77,99,210 // movslq %r10d,%r10
- .byte 76,141,29,48,1,0,0 // lea 0x130(%rip),%r11 # ddb0 <_sk_load_f32_dst_avx+0x180>
- .byte 75,99,4,131 // movslq (%r11,%r8,4),%rax
- .byte 76,1,216 // add %r11,%rax
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 77,99,201 // movslq %r9d,%r9
+ .byte 76,141,21,48,1,0,0 // lea 0x130(%rip),%r10 # ddb0 <_sk_load_f32_dst_avx+0x180>
+ .byte 73,99,4,186 // movslq (%r10,%rdi,4),%rax
+ .byte 76,1,208 // add %r10,%rax
.byte 197,253,87,192 // vxorpd %ymm0,%ymm0,%ymm0
.byte 196,65,53,87,201 // vxorpd %ymm9,%ymm9,%ymm9
.byte 197,205,87,246 // vxorpd %ymm6,%ymm6,%ymm6
@@ -22897,31 +22930,31 @@ _sk_load_f32_dst_avx:
.byte 196,65,45,87,210 // vxorpd %ymm10,%ymm10,%ymm10
.byte 197,229,87,219 // vxorpd %ymm3,%ymm3,%ymm3
.byte 255,224 // jmpq *%rax
- .byte 196,129,121,16,68,145,112 // vmovupd 0x70(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,112 // vmovupd 0x70(%r8,%r9,4),%xmm0
.byte 196,227,125,6,224,40 // vperm2f128 $0x28,%ymm0,%ymm0,%ymm4
- .byte 196,129,121,16,68,145,96 // vmovupd 0x60(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,96 // vmovupd 0x60(%r8,%r9,4),%xmm0
.byte 196,227,125,6,192,40 // vperm2f128 $0x28,%ymm0,%ymm0,%ymm0
- .byte 196,129,121,16,76,145,80 // vmovupd 0x50(%r9,%r10,4),%xmm1
+ .byte 196,129,121,16,76,136,80 // vmovupd 0x50(%r8,%r9,4),%xmm1
.byte 196,227,125,6,241,40 // vperm2f128 $0x28,%ymm1,%ymm0,%ymm6
.byte 197,125,40,200 // vmovapd %ymm0,%ymm9
- .byte 196,129,121,16,68,145,64 // vmovupd 0x40(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,64 // vmovupd 0x40(%r8,%r9,4),%xmm0
.byte 196,99,125,6,192,40 // vperm2f128 $0x28,%ymm0,%ymm0,%ymm8
.byte 196,65,125,40,217 // vmovapd %ymm9,%ymm11
.byte 197,125,40,230 // vmovapd %ymm6,%ymm12
- .byte 196,129,121,16,68,145,48 // vmovupd 0x30(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,48 // vmovupd 0x30(%r8,%r9,4),%xmm0
.byte 196,227,125,13,228,12 // vblendpd $0xc,%ymm4,%ymm0,%ymm4
.byte 196,65,125,40,243 // vmovapd %ymm11,%ymm14
.byte 197,125,41,226 // vmovapd %ymm12,%ymm2
.byte 196,65,125,40,248 // vmovapd %ymm8,%ymm15
- .byte 196,129,121,16,68,145,32 // vmovupd 0x20(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,32 // vmovupd 0x20(%r8,%r9,4),%xmm0
.byte 196,195,125,13,238,12 // vblendpd $0xc,%ymm14,%ymm0,%ymm5
.byte 197,125,40,234 // vmovapd %ymm2,%ymm13
.byte 197,125,41,249 // vmovapd %ymm15,%ymm1
- .byte 196,129,121,16,68,145,16 // vmovupd 0x10(%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,68,136,16 // vmovupd 0x10(%r8,%r9,4),%xmm0
.byte 196,67,125,13,213,12 // vblendpd $0xc,%ymm13,%ymm0,%ymm10
.byte 197,253,40,253 // vmovapd %ymm5,%ymm7
.byte 197,253,40,217 // vmovapd %ymm1,%ymm3
- .byte 196,129,121,16,4,145 // vmovupd (%r9,%r10,4),%xmm0
+ .byte 196,129,121,16,4,136 // vmovupd (%r8,%r9,4),%xmm0
.byte 196,227,125,13,235,12 // vblendpd $0xc,%ymm3,%ymm0,%ymm5
.byte 197,252,16,92,36,224 // vmovups -0x20(%rsp),%ymm3
.byte 197,252,16,84,36,192 // vmovups -0x40(%rsp),%ymm2
@@ -22965,13 +22998,13 @@ HIDDEN _sk_store_f32_avx
FUNCTION(_sk_store_f32_avx)
_sk_store_f32_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
.byte 197,124,20,193 // vunpcklps %ymm1,%ymm0,%ymm8
.byte 197,124,21,217 // vunpckhps %ymm1,%ymm0,%ymm11
.byte 197,108,20,203 // vunpcklps %ymm3,%ymm2,%ymm9
@@ -22980,35 +23013,35 @@ _sk_store_f32_avx:
.byte 196,65,61,21,201 // vunpckhpd %ymm9,%ymm8,%ymm9
.byte 196,65,37,20,196 // vunpcklpd %ymm12,%ymm11,%ymm8
.byte 196,65,37,21,220 // vunpckhpd %ymm12,%ymm11,%ymm11
- .byte 77,133,192 // test %r8,%r8
+ .byte 72,133,255 // test %rdi,%rdi
.byte 117,55 // jne de4f <_sk_store_f32_avx+0x7f>
.byte 196,67,45,24,225,1 // vinsertf128 $0x1,%xmm9,%ymm10,%ymm12
.byte 196,67,61,24,235,1 // vinsertf128 $0x1,%xmm11,%ymm8,%ymm13
.byte 196,67,45,6,201,49 // vperm2f128 $0x31,%ymm9,%ymm10,%ymm9
.byte 196,67,61,6,195,49 // vperm2f128 $0x31,%ymm11,%ymm8,%ymm8
- .byte 196,65,125,17,36,129 // vmovupd %ymm12,(%r9,%rax,4)
- .byte 196,65,125,17,108,129,32 // vmovupd %ymm13,0x20(%r9,%rax,4)
- .byte 196,65,125,17,76,129,64 // vmovupd %ymm9,0x40(%r9,%rax,4)
- .byte 196,65,125,17,68,129,96 // vmovupd %ymm8,0x60(%r9,%rax,4)
+ .byte 196,65,125,17,36,128 // vmovupd %ymm12,(%r8,%rax,4)
+ .byte 196,65,125,17,108,128,32 // vmovupd %ymm13,0x20(%r8,%rax,4)
+ .byte 196,65,125,17,76,128,64 // vmovupd %ymm9,0x40(%r8,%rax,4)
+ .byte 196,65,125,17,68,128,96 // vmovupd %ymm8,0x60(%r8,%rax,4)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 196,65,121,17,20,129 // vmovupd %xmm10,(%r9,%rax,4)
- .byte 73,131,248,1 // cmp $0x1,%r8
+ .byte 196,65,121,17,20,128 // vmovupd %xmm10,(%r8,%rax,4)
+ .byte 72,131,255,1 // cmp $0x1,%rdi
.byte 116,240 // je de4b <_sk_store_f32_avx+0x7b>
- .byte 196,65,121,17,76,129,16 // vmovupd %xmm9,0x10(%r9,%rax,4)
- .byte 73,131,248,3 // cmp $0x3,%r8
+ .byte 196,65,121,17,76,128,16 // vmovupd %xmm9,0x10(%r8,%rax,4)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
.byte 114,227 // jb de4b <_sk_store_f32_avx+0x7b>
- .byte 196,65,121,17,68,129,32 // vmovupd %xmm8,0x20(%r9,%rax,4)
+ .byte 196,65,121,17,68,128,32 // vmovupd %xmm8,0x20(%r8,%rax,4)
.byte 116,218 // je de4b <_sk_store_f32_avx+0x7b>
- .byte 196,65,121,17,92,129,48 // vmovupd %xmm11,0x30(%r9,%rax,4)
- .byte 73,131,248,5 // cmp $0x5,%r8
+ .byte 196,65,121,17,92,128,48 // vmovupd %xmm11,0x30(%r8,%rax,4)
+ .byte 72,131,255,5 // cmp $0x5,%rdi
.byte 114,205 // jb de4b <_sk_store_f32_avx+0x7b>
- .byte 196,67,125,25,84,129,64,1 // vextractf128 $0x1,%ymm10,0x40(%r9,%rax,4)
+ .byte 196,67,125,25,84,128,64,1 // vextractf128 $0x1,%ymm10,0x40(%r8,%rax,4)
.byte 116,195 // je de4b <_sk_store_f32_avx+0x7b>
- .byte 196,67,125,25,76,129,80,1 // vextractf128 $0x1,%ymm9,0x50(%r9,%rax,4)
- .byte 73,131,248,7 // cmp $0x7,%r8
+ .byte 196,67,125,25,76,128,80,1 // vextractf128 $0x1,%ymm9,0x50(%r8,%rax,4)
+ .byte 72,131,255,7 // cmp $0x7,%rdi
.byte 114,181 // jb de4b <_sk_store_f32_avx+0x7b>
- .byte 196,67,125,25,68,129,96,1 // vextractf128 $0x1,%ymm8,0x60(%r9,%rax,4)
+ .byte 196,67,125,25,68,128,96,1 // vextractf128 $0x1,%ymm8,0x60(%r8,%rax,4)
.byte 235,171 // jmp de4b <_sk_store_f32_avx+0x7b>
HIDDEN _sk_clamp_x_avx
@@ -23102,7 +23135,7 @@ _sk_mirror_x_avx:
.byte 196,193,58,88,192 // vaddss %xmm8,%xmm8,%xmm0
.byte 196,227,121,4,192,0 // vpermilps $0x0,%xmm0,%xmm0
.byte 196,99,125,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm0,%ymm8
- .byte 197,178,89,5,79,217,1,0 // vmulss 0x1d94f(%rip),%xmm9,%xmm0 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 197,178,89,5,7,217,1,0 // vmulss 0x1d907(%rip),%xmm9,%xmm0 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,227,121,4,192,0 // vpermilps $0x0,%xmm0,%xmm0
.byte 196,227,125,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
.byte 197,164,89,192 // vmulps %ymm0,%ymm11,%ymm0
@@ -23136,7 +23169,7 @@ _sk_mirror_y_avx:
.byte 196,193,58,88,200 // vaddss %xmm8,%xmm8,%xmm1
.byte 196,227,121,4,201,0 // vpermilps $0x0,%xmm1,%xmm1
.byte 196,99,117,24,193,1 // vinsertf128 $0x1,%xmm1,%ymm1,%ymm8
- .byte 197,178,89,13,194,216,1,0 // vmulss 0x1d8c2(%rip),%xmm9,%xmm1 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 197,178,89,13,122,216,1,0 // vmulss 0x1d87a(%rip),%xmm9,%xmm1 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,227,121,4,201,0 // vpermilps $0x0,%xmm1,%xmm1
.byte 196,227,117,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm1,%ymm1
.byte 197,164,89,201 // vmulps %ymm1,%ymm11,%ymm1
@@ -23163,7 +23196,7 @@ FUNCTION(_sk_clamp_x_1_avx)
_sk_clamp_x_1_avx:
.byte 196,65,60,87,192 // vxorps %ymm8,%ymm8,%ymm8
.byte 197,188,95,192 // vmaxps %ymm0,%ymm8,%ymm0
- .byte 196,98,125,24,5,92,216,1,0 // vbroadcastss 0x1d85c(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,20,216,1,0 // vbroadcastss 0x1d814(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 196,193,124,93,192 // vminps %ymm8,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -23181,9 +23214,9 @@ HIDDEN _sk_mirror_x_1_avx
.globl _sk_mirror_x_1_avx
FUNCTION(_sk_mirror_x_1_avx)
_sk_mirror_x_1_avx:
- .byte 196,98,125,24,5,83,216,1,0 // vbroadcastss 0x1d853(%rip),%ymm8 # 2b940 <_sk_overlay_sse2_8bit+0x45b>
+ .byte 196,98,125,24,5,11,216,1,0 // vbroadcastss 0x1d80b(%rip),%ymm8 # 2b8f8 <_sk_overlay_sse2_8bit+0x45b>
.byte 196,193,124,88,192 // vaddps %ymm8,%ymm0,%ymm0
- .byte 196,98,125,24,13,41,216,1,0 // vbroadcastss 0x1d829(%rip),%ymm9 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,13,225,215,1,0 // vbroadcastss 0x1d7e1(%rip),%ymm9 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,124,89,201 // vmulps %ymm9,%ymm0,%ymm9
.byte 196,67,125,8,201,1 // vroundps $0x1,%ymm9,%ymm9
.byte 196,65,52,88,201 // vaddps %ymm9,%ymm9,%ymm9
@@ -23199,12 +23232,12 @@ HIDDEN _sk_luminance_to_alpha_avx
.globl _sk_luminance_to_alpha_avx
FUNCTION(_sk_luminance_to_alpha_avx)
_sk_luminance_to_alpha_avx:
- .byte 196,226,125,24,29,21,217,1,0 // vbroadcastss 0x1d915(%rip),%ymm3 # 2ba44 <_sk_overlay_sse2_8bit+0x55f>
+ .byte 196,226,125,24,29,205,216,1,0 // vbroadcastss 0x1d8cd(%rip),%ymm3 # 2b9fc <_sk_overlay_sse2_8bit+0x55f>
.byte 197,252,89,195 // vmulps %ymm3,%ymm0,%ymm0
- .byte 196,226,125,24,29,12,217,1,0 // vbroadcastss 0x1d90c(%rip),%ymm3 # 2ba48 <_sk_overlay_sse2_8bit+0x563>
+ .byte 196,226,125,24,29,196,216,1,0 // vbroadcastss 0x1d8c4(%rip),%ymm3 # 2ba00 <_sk_overlay_sse2_8bit+0x563>
.byte 197,244,89,203 // vmulps %ymm3,%ymm1,%ymm1
.byte 197,252,88,193 // vaddps %ymm1,%ymm0,%ymm0
- .byte 196,226,125,24,13,255,216,1,0 // vbroadcastss 0x1d8ff(%rip),%ymm1 # 2ba4c <_sk_overlay_sse2_8bit+0x567>
+ .byte 196,226,125,24,13,183,216,1,0 // vbroadcastss 0x1d8b7(%rip),%ymm1 # 2ba04 <_sk_overlay_sse2_8bit+0x567>
.byte 197,236,89,201 // vmulps %ymm1,%ymm2,%ymm1
.byte 197,252,88,217 // vaddps %ymm1,%ymm0,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -23455,137 +23488,137 @@ _sk_evenly_spaced_gradient_avx:
.byte 120,7 // js e4f1 <_sk_evenly_spaced_gradient_avx+0x25>
.byte 196,225,242,42,203 // vcvtsi2ss %rbx,%xmm1,%xmm1
.byte 235,21 // jmp e506 <_sk_evenly_spaced_gradient_avx+0x3a>
- .byte 73,137,217 // mov %rbx,%r9
- .byte 73,209,233 // shr %r9
+ .byte 73,137,216 // mov %rbx,%r8
+ .byte 73,209,232 // shr %r8
.byte 131,227,1 // and $0x1,%ebx
- .byte 76,9,203 // or %r9,%rbx
+ .byte 76,9,195 // or %r8,%rbx
.byte 196,225,242,42,203 // vcvtsi2ss %rbx,%xmm1,%xmm1
.byte 197,242,88,201 // vaddss %xmm1,%xmm1,%xmm1
.byte 196,227,121,4,201,0 // vpermilps $0x0,%xmm1,%xmm1
.byte 196,227,117,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm1,%ymm1
.byte 197,244,89,200 // vmulps %ymm0,%ymm1,%ymm1
.byte 197,254,91,201 // vcvttps2dq %ymm1,%ymm1
- .byte 196,195,249,22,201,1 // vpextrq $0x1,%xmm1,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,193,249,126,203 // vmovq %xmm1,%r11
- .byte 69,137,222 // mov %r11d,%r14d
- .byte 73,193,235,32 // shr $0x20,%r11
+ .byte 196,195,249,22,200,1 // vpextrq $0x1,%xmm1,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,193,249,126,202 // vmovq %xmm1,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
.byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 196,195,249,22,204,1 // vpextrq $0x1,%xmm1,%r12
- .byte 69,137,231 // mov %r12d,%r15d
- .byte 73,193,236,32 // shr $0x20,%r12
- .byte 196,225,249,126,203 // vmovq %xmm1,%rbx
- .byte 65,137,221 // mov %ebx,%r13d
- .byte 72,193,235,32 // shr $0x20,%rbx
- .byte 196,161,122,16,76,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm1
- .byte 196,227,113,33,76,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm1
- .byte 196,161,122,16,84,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm2
- .byte 196,33,122,16,68,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm8
- .byte 196,161,122,16,92,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm3
- .byte 196,35,97,33,76,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm3,%xmm9
- .byte 196,161,122,16,124,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm7
- .byte 196,33,122,16,92,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm11
- .byte 196,99,113,33,226,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm12
- .byte 72,139,104,40 // mov 0x28(%rax),%rbp
- .byte 196,161,122,16,84,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm2
- .byte 196,99,105,33,108,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm2,%xmm13
- .byte 196,161,122,16,92,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm3
+ .byte 196,195,249,22,207,1 // vpextrq $0x1,%xmm1,%r15
+ .byte 69,137,254 // mov %r15d,%r14d
+ .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 196,193,249,126,205 // vmovq %xmm1,%r13
+ .byte 69,137,236 // mov %r13d,%r12d
+ .byte 73,193,237,32 // shr $0x20,%r13
.byte 196,161,122,16,76,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm1
+ .byte 196,163,113,33,76,173,0,16 // vinsertps $0x10,0x0(%rbp,%r13,4),%xmm1,%xmm1
.byte 196,161,122,16,84,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm2
- .byte 196,35,105,33,116,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm14
- .byte 196,33,122,16,124,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm15
- .byte 196,33,122,16,84,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm10
+ .byte 196,33,122,16,68,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm8
+ .byte 196,161,122,16,92,157,0 // vmovss 0x0(%rbp,%r11,4),%xmm3
+ .byte 196,35,97,33,76,149,0,16 // vinsertps $0x10,0x0(%rbp,%r10,4),%xmm3,%xmm9
+ .byte 196,161,122,16,124,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm7
+ .byte 196,33,122,16,92,133,0 // vmovss 0x0(%rbp,%r8,4),%xmm11
+ .byte 196,99,113,33,226,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm12
+ .byte 72,139,88,40 // mov 0x28(%rax),%rbx
+ .byte 196,161,122,16,20,163 // vmovss (%rbx,%r12,4),%xmm2
+ .byte 196,35,105,33,44,171,16 // vinsertps $0x10,(%rbx,%r13,4),%xmm2,%xmm13
+ .byte 196,161,122,16,28,179 // vmovss (%rbx,%r14,4),%xmm3
+ .byte 196,161,122,16,12,187 // vmovss (%rbx,%r15,4),%xmm1
+ .byte 196,161,122,16,20,155 // vmovss (%rbx,%r11,4),%xmm2
+ .byte 196,35,105,33,52,147,16 // vinsertps $0x10,(%rbx,%r10,4),%xmm2,%xmm14
+ .byte 196,33,122,16,60,139 // vmovss (%rbx,%r9,4),%xmm15
+ .byte 196,33,122,16,20,131 // vmovss (%rbx,%r8,4),%xmm10
.byte 196,67,25,33,192,48 // vinsertps $0x30,%xmm8,%xmm12,%xmm8
.byte 196,227,49,33,215,32 // vinsertps $0x20,%xmm7,%xmm9,%xmm2
.byte 196,195,105,33,211,48 // vinsertps $0x30,%xmm11,%xmm2,%xmm2
.byte 196,67,109,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm2,%ymm8
.byte 196,227,17,33,211,32 // vinsertps $0x20,%xmm3,%xmm13,%xmm2
.byte 196,99,105,33,201,48 // vinsertps $0x30,%xmm1,%xmm2,%xmm9
- .byte 72,139,104,16 // mov 0x10(%rax),%rbp
- .byte 196,161,122,16,84,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm2
- .byte 196,99,105,33,92,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm2,%xmm11
- .byte 196,33,122,16,100,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm12
- .byte 196,161,122,16,76,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm1
- .byte 196,161,122,16,124,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm7
- .byte 196,163,65,33,124,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm7,%xmm7
- .byte 196,161,122,16,92,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm3
- .byte 196,33,122,16,108,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm13
+ .byte 72,139,88,16 // mov 0x10(%rax),%rbx
+ .byte 196,161,122,16,20,163 // vmovss (%rbx,%r12,4),%xmm2
+ .byte 196,35,105,33,28,171,16 // vinsertps $0x10,(%rbx,%r13,4),%xmm2,%xmm11
+ .byte 196,33,122,16,36,179 // vmovss (%rbx,%r14,4),%xmm12
+ .byte 196,161,122,16,12,187 // vmovss (%rbx,%r15,4),%xmm1
+ .byte 196,161,122,16,60,155 // vmovss (%rbx,%r11,4),%xmm7
+ .byte 196,163,65,33,60,147,16 // vinsertps $0x10,(%rbx,%r10,4),%xmm7,%xmm7
+ .byte 196,161,122,16,28,139 // vmovss (%rbx,%r9,4),%xmm3
+ .byte 196,33,122,16,44,131 // vmovss (%rbx,%r8,4),%xmm13
.byte 196,195,9,33,215,32 // vinsertps $0x20,%xmm15,%xmm14,%xmm2
.byte 196,195,105,33,210,48 // vinsertps $0x30,%xmm10,%xmm2,%xmm2
.byte 196,67,109,24,241,1 // vinsertf128 $0x1,%xmm9,%ymm2,%ymm14
.byte 196,195,33,33,212,32 // vinsertps $0x20,%xmm12,%xmm11,%xmm2
.byte 196,99,105,33,201,48 // vinsertps $0x30,%xmm1,%xmm2,%xmm9
.byte 196,99,65,33,211,32 // vinsertps $0x20,%xmm3,%xmm7,%xmm10
- .byte 72,139,104,48 // mov 0x30(%rax),%rbp
- .byte 196,161,122,16,92,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm3
- .byte 196,99,97,33,92,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm3,%xmm11
- .byte 196,33,122,16,124,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm15
- .byte 196,33,122,16,100,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm12
- .byte 196,161,122,16,84,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm2
- .byte 196,163,105,33,84,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,124,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm7
- .byte 196,161,122,16,92,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm3
+ .byte 72,139,88,48 // mov 0x30(%rax),%rbx
+ .byte 196,161,122,16,28,163 // vmovss (%rbx,%r12,4),%xmm3
+ .byte 196,35,97,33,28,171,16 // vinsertps $0x10,(%rbx,%r13,4),%xmm3,%xmm11
+ .byte 196,33,122,16,60,179 // vmovss (%rbx,%r14,4),%xmm15
+ .byte 196,33,122,16,36,187 // vmovss (%rbx,%r15,4),%xmm12
+ .byte 196,161,122,16,20,155 // vmovss (%rbx,%r11,4),%xmm2
+ .byte 196,163,105,33,20,147,16 // vinsertps $0x10,(%rbx,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,60,139 // vmovss (%rbx,%r9,4),%xmm7
+ .byte 196,161,122,16,28,131 // vmovss (%rbx,%r8,4),%xmm3
.byte 196,67,41,33,213,48 // vinsertps $0x30,%xmm13,%xmm10,%xmm10
.byte 196,67,45,24,233,1 // vinsertf128 $0x1,%xmm9,%ymm10,%ymm13
.byte 196,195,33,33,207,32 // vinsertps $0x20,%xmm15,%xmm11,%xmm1
.byte 196,67,113,33,204,48 // vinsertps $0x30,%xmm12,%xmm1,%xmm9
.byte 196,227,105,33,215,32 // vinsertps $0x20,%xmm7,%xmm2,%xmm2
.byte 196,99,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm10
- .byte 72,139,104,24 // mov 0x18(%rax),%rbp
- .byte 196,161,122,16,92,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm3
- .byte 196,99,97,33,92,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm3,%xmm11
- .byte 196,33,122,16,100,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm12
- .byte 196,33,122,16,124,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm15
- .byte 196,161,122,16,84,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm2
- .byte 196,163,105,33,84,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,92,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm3
- .byte 196,161,122,16,124,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm7
+ .byte 72,139,88,24 // mov 0x18(%rax),%rbx
+ .byte 196,161,122,16,28,163 // vmovss (%rbx,%r12,4),%xmm3
+ .byte 196,35,97,33,28,171,16 // vinsertps $0x10,(%rbx,%r13,4),%xmm3,%xmm11
+ .byte 196,33,122,16,36,179 // vmovss (%rbx,%r14,4),%xmm12
+ .byte 196,33,122,16,60,187 // vmovss (%rbx,%r15,4),%xmm15
+ .byte 196,161,122,16,20,155 // vmovss (%rbx,%r11,4),%xmm2
+ .byte 196,163,105,33,20,147,16 // vinsertps $0x10,(%rbx,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,139 // vmovss (%rbx,%r9,4),%xmm3
+ .byte 196,161,122,16,60,131 // vmovss (%rbx,%r8,4),%xmm7
.byte 196,67,45,24,201,1 // vinsertf128 $0x1,%xmm9,%ymm10,%ymm9
.byte 196,195,33,33,204,32 // vinsertps $0x20,%xmm12,%xmm11,%xmm1
.byte 196,195,113,33,207,48 // vinsertps $0x30,%xmm15,%xmm1,%xmm1
.byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
.byte 196,227,105,33,215,48 // vinsertps $0x30,%xmm7,%xmm2,%xmm2
.byte 196,99,109,24,209,1 // vinsertf128 $0x1,%xmm1,%ymm2,%ymm10
- .byte 72,139,104,56 // mov 0x38(%rax),%rbp
- .byte 196,161,122,16,76,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm1
- .byte 196,99,113,33,92,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm11
- .byte 196,33,122,16,100,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm12
- .byte 196,33,122,16,124,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm15
- .byte 196,161,122,16,124,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm7
- .byte 196,163,65,33,124,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm7,%xmm7
- .byte 196,161,122,16,76,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm1
- .byte 196,161,122,16,84,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm2
+ .byte 72,139,88,56 // mov 0x38(%rax),%rbx
+ .byte 196,161,122,16,12,163 // vmovss (%rbx,%r12,4),%xmm1
+ .byte 196,35,113,33,28,171,16 // vinsertps $0x10,(%rbx,%r13,4),%xmm1,%xmm11
+ .byte 196,33,122,16,36,179 // vmovss (%rbx,%r14,4),%xmm12
+ .byte 196,33,122,16,60,187 // vmovss (%rbx,%r15,4),%xmm15
+ .byte 196,161,122,16,60,155 // vmovss (%rbx,%r11,4),%xmm7
+ .byte 196,163,65,33,60,147,16 // vinsertps $0x10,(%rbx,%r10,4),%xmm7,%xmm7
+ .byte 196,161,122,16,12,139 // vmovss (%rbx,%r9,4),%xmm1
+ .byte 196,161,122,16,20,131 // vmovss (%rbx,%r8,4),%xmm2
.byte 196,195,33,33,220,32 // vinsertps $0x20,%xmm12,%xmm11,%xmm3
.byte 196,195,97,33,223,48 // vinsertps $0x30,%xmm15,%xmm3,%xmm3
.byte 196,227,65,33,201,32 // vinsertps $0x20,%xmm1,%xmm7,%xmm1
.byte 196,227,113,33,202,48 // vinsertps $0x30,%xmm2,%xmm1,%xmm1
.byte 196,99,117,24,219,1 // vinsertf128 $0x1,%xmm3,%ymm1,%ymm11
- .byte 72,139,104,32 // mov 0x20(%rax),%rbp
- .byte 196,161,122,16,76,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm1
- .byte 196,227,113,33,76,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm1
- .byte 196,161,122,16,84,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm2
+ .byte 72,139,88,32 // mov 0x20(%rax),%rbx
+ .byte 196,161,122,16,12,163 // vmovss (%rbx,%r12,4),%xmm1
+ .byte 196,163,113,33,12,171,16 // vinsertps $0x10,(%rbx,%r13,4),%xmm1,%xmm1
+ .byte 196,161,122,16,20,179 // vmovss (%rbx,%r14,4),%xmm2
.byte 196,227,113,33,202,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm1
- .byte 196,161,122,16,84,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm2
- .byte 196,161,122,16,92,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm3
- .byte 196,35,97,33,100,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm3,%xmm12
- .byte 196,161,122,16,124,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm7
- .byte 196,161,122,16,92,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm3
+ .byte 196,161,122,16,20,187 // vmovss (%rbx,%r15,4),%xmm2
+ .byte 196,161,122,16,28,155 // vmovss (%rbx,%r11,4),%xmm3
+ .byte 196,35,97,33,36,147,16 // vinsertps $0x10,(%rbx,%r10,4),%xmm3,%xmm12
+ .byte 196,161,122,16,60,139 // vmovss (%rbx,%r9,4),%xmm7
+ .byte 196,161,122,16,28,131 // vmovss (%rbx,%r8,4),%xmm3
.byte 196,99,113,33,250,48 // vinsertps $0x30,%xmm2,%xmm1,%xmm15
.byte 72,139,64,64 // mov 0x40(%rax),%rax
- .byte 196,161,122,16,20,168 // vmovss (%rax,%r13,4),%xmm2
- .byte 196,227,105,33,20,152,16 // vinsertps $0x10,(%rax,%rbx,4),%xmm2,%xmm2
+ .byte 196,161,122,16,20,160 // vmovss (%rax,%r12,4),%xmm2
+ .byte 196,163,105,33,20,168,16 // vinsertps $0x10,(%rax,%r13,4),%xmm2,%xmm2
.byte 196,227,25,33,255,32 // vinsertps $0x20,%xmm7,%xmm12,%xmm7
- .byte 196,161,122,16,12,184 // vmovss (%rax,%r15,4),%xmm1
+ .byte 196,161,122,16,12,176 // vmovss (%rax,%r14,4),%xmm1
.byte 196,227,65,33,219,48 // vinsertps $0x30,%xmm3,%xmm7,%xmm3
- .byte 196,161,122,16,60,160 // vmovss (%rax,%r12,4),%xmm7
+ .byte 196,161,122,16,60,184 // vmovss (%rax,%r15,4),%xmm7
.byte 196,67,101,24,231,1 // vinsertf128 $0x1,%xmm15,%ymm3,%ymm12
- .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
+ .byte 196,161,122,16,28,152 // vmovss (%rax,%r11,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
.byte 196,227,105,33,201,32 // vinsertps $0x20,%xmm1,%xmm2,%xmm1
- .byte 196,161,122,16,20,144 // vmovss (%rax,%r10,4),%xmm2
+ .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
.byte 196,227,113,33,207,48 // vinsertps $0x30,%xmm7,%xmm1,%xmm1
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,227,97,33,210,32 // vinsertps $0x20,%xmm2,%xmm3,%xmm2
.byte 196,227,105,33,215,48 // vinsertps $0x30,%xmm7,%xmm2,%xmm2
.byte 196,227,109,24,217,1 // vinsertf128 $0x1,%xmm1,%ymm2,%ymm3
@@ -23612,18 +23645,18 @@ HIDDEN _sk_gauss_a_to_rgba_avx
.globl _sk_gauss_a_to_rgba_avx
FUNCTION(_sk_gauss_a_to_rgba_avx)
_sk_gauss_a_to_rgba_avx:
- .byte 196,226,125,24,5,234,209,1,0 // vbroadcastss 0x1d1ea(%rip),%ymm0 # 2ba54 <_sk_overlay_sse2_8bit+0x56f>
+ .byte 196,226,125,24,5,210,209,1,0 // vbroadcastss 0x1d1d2(%rip),%ymm0 # 2ba0c <_sk_overlay_sse2_8bit+0x56f>
.byte 197,228,89,192 // vmulps %ymm0,%ymm3,%ymm0
- .byte 196,226,125,24,13,217,209,1,0 // vbroadcastss 0x1d1d9(%rip),%ymm1 # 2ba50 <_sk_overlay_sse2_8bit+0x56b>
+ .byte 196,226,125,24,13,193,209,1,0 // vbroadcastss 0x1d1c1(%rip),%ymm1 # 2ba08 <_sk_overlay_sse2_8bit+0x56b>
.byte 197,252,88,193 // vaddps %ymm1,%ymm0,%ymm0
.byte 197,252,89,195 // vmulps %ymm3,%ymm0,%ymm0
- .byte 196,226,125,24,13,208,209,1,0 // vbroadcastss 0x1d1d0(%rip),%ymm1 # 2ba58 <_sk_overlay_sse2_8bit+0x573>
+ .byte 196,226,125,24,13,184,209,1,0 // vbroadcastss 0x1d1b8(%rip),%ymm1 # 2ba10 <_sk_overlay_sse2_8bit+0x573>
.byte 197,252,88,193 // vaddps %ymm1,%ymm0,%ymm0
.byte 197,252,89,195 // vmulps %ymm3,%ymm0,%ymm0
- .byte 196,226,125,24,13,195,209,1,0 // vbroadcastss 0x1d1c3(%rip),%ymm1 # 2ba5c <_sk_overlay_sse2_8bit+0x577>
+ .byte 196,226,125,24,13,171,209,1,0 // vbroadcastss 0x1d1ab(%rip),%ymm1 # 2ba14 <_sk_overlay_sse2_8bit+0x577>
.byte 197,252,88,193 // vaddps %ymm1,%ymm0,%ymm0
.byte 197,252,89,195 // vmulps %ymm3,%ymm0,%ymm0
- .byte 196,226,125,24,13,182,209,1,0 // vbroadcastss 0x1d1b6(%rip),%ymm1 # 2ba60 <_sk_overlay_sse2_8bit+0x57b>
+ .byte 196,226,125,24,13,158,209,1,0 // vbroadcastss 0x1d19e(%rip),%ymm1 # 2ba18 <_sk_overlay_sse2_8bit+0x57b>
.byte 197,252,88,193 // vaddps %ymm1,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,252,40,200 // vmovaps %ymm0,%ymm1
@@ -23635,23 +23668,22 @@ HIDDEN _sk_gradient_avx
.globl _sk_gradient_avx
FUNCTION(_sk_gradient_avx)
_sk_gradient_avx:
- .byte 85 // push %rbp
.byte 65,87 // push %r15
.byte 65,86 // push %r14
.byte 65,85 // push %r13
.byte 65,84 // push %r12
.byte 83 // push %rbx
- .byte 197,252,17,124,36,216 // vmovups %ymm7,-0x28(%rsp)
+ .byte 197,252,17,124,36,208 // vmovups %ymm7,-0x30(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
- .byte 73,131,249,2 // cmp $0x2,%r9
- .byte 114,80 // jb e92d <_sk_gradient_avx+0x6f>
+ .byte 73,131,248,2 // cmp $0x2,%r8
+ .byte 114,80 // jb e8fc <_sk_gradient_avx+0x6e>
.byte 72,139,88,72 // mov 0x48(%rax),%rbx
- .byte 73,255,201 // dec %r9
+ .byte 73,255,200 // dec %r8
.byte 72,131,195,4 // add $0x4,%rbx
.byte 196,65,52,87,201 // vxorps %ymm9,%ymm9,%ymm9
- .byte 196,98,125,24,21,54,208,1,0 // vbroadcastss 0x1d036(%rip),%ymm10 # 2b92c <_sk_overlay_sse2_8bit+0x447>
+ .byte 196,98,125,24,21,31,208,1,0 // vbroadcastss 0x1d01f(%rip),%ymm10 # 2b8e4 <_sk_overlay_sse2_8bit+0x447>
.byte 197,244,87,201 // vxorps %ymm1,%ymm1,%ymm1
.byte 196,98,125,24,3 // vbroadcastss (%rbx),%ymm8
.byte 197,60,194,192,2 // vcmpleps %ymm0,%ymm8,%ymm8
@@ -23662,130 +23694,130 @@ _sk_gradient_avx:
.byte 197,185,254,201 // vpaddd %xmm1,%xmm8,%xmm1
.byte 196,227,117,24,202,1 // vinsertf128 $0x1,%xmm2,%ymm1,%ymm1
.byte 72,131,195,4 // add $0x4,%rbx
- .byte 73,255,201 // dec %r9
- .byte 117,205 // jne e8fa <_sk_gradient_avx+0x3c>
- .byte 196,195,249,22,201,1 // vpextrq $0x1,%xmm1,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,193,249,126,203 // vmovq %xmm1,%r11
- .byte 69,137,222 // mov %r11d,%r14d
- .byte 73,193,235,32 // shr $0x20,%r11
+ .byte 73,255,200 // dec %r8
+ .byte 117,205 // jne e8c9 <_sk_gradient_avx+0x3b>
+ .byte 196,195,249,22,200,1 // vpextrq $0x1,%xmm1,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,193,249,126,202 // vmovq %xmm1,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
.byte 196,227,125,25,201,1 // vextractf128 $0x1,%ymm1,%xmm1
- .byte 196,195,249,22,204,1 // vpextrq $0x1,%xmm1,%r12
- .byte 69,137,231 // mov %r12d,%r15d
- .byte 73,193,236,32 // shr $0x20,%r12
+ .byte 196,195,249,22,207,1 // vpextrq $0x1,%xmm1,%r15
+ .byte 69,137,254 // mov %r15d,%r14d
+ .byte 73,193,239,32 // shr $0x20,%r15
.byte 196,225,249,126,203 // vmovq %xmm1,%rbx
- .byte 65,137,221 // mov %ebx,%r13d
+ .byte 65,137,220 // mov %ebx,%r12d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 72,139,104,8 // mov 0x8(%rax),%rbp
- .byte 196,161,122,16,76,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm1
- .byte 196,227,113,33,76,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm1
- .byte 196,161,122,16,84,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm2
- .byte 196,33,122,16,68,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm8
- .byte 196,161,122,16,92,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm3
- .byte 196,35,97,33,76,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm3,%xmm9
- .byte 196,161,122,16,124,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm7
- .byte 196,33,122,16,92,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm11
+ .byte 76,139,104,8 // mov 0x8(%rax),%r13
+ .byte 196,129,122,16,76,165,0 // vmovss 0x0(%r13,%r12,4),%xmm1
+ .byte 196,195,113,33,76,157,0,16 // vinsertps $0x10,0x0(%r13,%rbx,4),%xmm1,%xmm1
+ .byte 196,129,122,16,84,181,0 // vmovss 0x0(%r13,%r14,4),%xmm2
+ .byte 196,1,122,16,68,189,0 // vmovss 0x0(%r13,%r15,4),%xmm8
+ .byte 196,129,122,16,92,157,0 // vmovss 0x0(%r13,%r11,4),%xmm3
+ .byte 196,3,97,33,76,149,0,16 // vinsertps $0x10,0x0(%r13,%r10,4),%xmm3,%xmm9
+ .byte 196,129,122,16,124,141,0 // vmovss 0x0(%r13,%r9,4),%xmm7
+ .byte 196,1,122,16,92,133,0 // vmovss 0x0(%r13,%r8,4),%xmm11
.byte 196,99,113,33,226,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm12
- .byte 72,139,104,40 // mov 0x28(%rax),%rbp
- .byte 196,161,122,16,84,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm2
- .byte 196,99,105,33,108,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm2,%xmm13
- .byte 196,161,122,16,92,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm3
- .byte 196,161,122,16,76,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm1
- .byte 196,161,122,16,84,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm2
- .byte 196,35,105,33,116,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm14
- .byte 196,33,122,16,124,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm15
- .byte 196,33,122,16,84,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm10
+ .byte 76,139,104,40 // mov 0x28(%rax),%r13
+ .byte 196,129,122,16,84,165,0 // vmovss 0x0(%r13,%r12,4),%xmm2
+ .byte 196,67,105,33,108,157,0,16 // vinsertps $0x10,0x0(%r13,%rbx,4),%xmm2,%xmm13
+ .byte 196,129,122,16,92,181,0 // vmovss 0x0(%r13,%r14,4),%xmm3
+ .byte 196,129,122,16,76,189,0 // vmovss 0x0(%r13,%r15,4),%xmm1
+ .byte 196,129,122,16,84,157,0 // vmovss 0x0(%r13,%r11,4),%xmm2
+ .byte 196,3,105,33,116,149,0,16 // vinsertps $0x10,0x0(%r13,%r10,4),%xmm2,%xmm14
+ .byte 196,1,122,16,124,141,0 // vmovss 0x0(%r13,%r9,4),%xmm15
+ .byte 196,1,122,16,84,133,0 // vmovss 0x0(%r13,%r8,4),%xmm10
.byte 196,67,25,33,192,48 // vinsertps $0x30,%xmm8,%xmm12,%xmm8
.byte 196,227,49,33,215,32 // vinsertps $0x20,%xmm7,%xmm9,%xmm2
.byte 196,195,105,33,211,48 // vinsertps $0x30,%xmm11,%xmm2,%xmm2
.byte 196,67,109,24,192,1 // vinsertf128 $0x1,%xmm8,%ymm2,%ymm8
.byte 196,227,17,33,211,32 // vinsertps $0x20,%xmm3,%xmm13,%xmm2
.byte 196,99,105,33,201,48 // vinsertps $0x30,%xmm1,%xmm2,%xmm9
- .byte 72,139,104,16 // mov 0x10(%rax),%rbp
- .byte 196,161,122,16,84,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm2
- .byte 196,99,105,33,92,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm2,%xmm11
- .byte 196,33,122,16,100,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm12
- .byte 196,161,122,16,76,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm1
- .byte 196,161,122,16,124,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm7
- .byte 196,163,65,33,124,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm7,%xmm7
- .byte 196,161,122,16,92,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm3
- .byte 196,33,122,16,108,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm13
+ .byte 76,139,104,16 // mov 0x10(%rax),%r13
+ .byte 196,129,122,16,84,165,0 // vmovss 0x0(%r13,%r12,4),%xmm2
+ .byte 196,67,105,33,92,157,0,16 // vinsertps $0x10,0x0(%r13,%rbx,4),%xmm2,%xmm11
+ .byte 196,1,122,16,100,181,0 // vmovss 0x0(%r13,%r14,4),%xmm12
+ .byte 196,129,122,16,76,189,0 // vmovss 0x0(%r13,%r15,4),%xmm1
+ .byte 196,129,122,16,124,157,0 // vmovss 0x0(%r13,%r11,4),%xmm7
+ .byte 196,131,65,33,124,149,0,16 // vinsertps $0x10,0x0(%r13,%r10,4),%xmm7,%xmm7
+ .byte 196,129,122,16,92,141,0 // vmovss 0x0(%r13,%r9,4),%xmm3
+ .byte 196,1,122,16,108,133,0 // vmovss 0x0(%r13,%r8,4),%xmm13
.byte 196,195,9,33,215,32 // vinsertps $0x20,%xmm15,%xmm14,%xmm2
.byte 196,195,105,33,210,48 // vinsertps $0x30,%xmm10,%xmm2,%xmm2
.byte 196,67,109,24,241,1 // vinsertf128 $0x1,%xmm9,%ymm2,%ymm14
.byte 196,195,33,33,212,32 // vinsertps $0x20,%xmm12,%xmm11,%xmm2
.byte 196,99,105,33,201,48 // vinsertps $0x30,%xmm1,%xmm2,%xmm9
.byte 196,99,65,33,211,32 // vinsertps $0x20,%xmm3,%xmm7,%xmm10
- .byte 72,139,104,48 // mov 0x30(%rax),%rbp
- .byte 196,161,122,16,92,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm3
- .byte 196,99,97,33,92,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm3,%xmm11
- .byte 196,33,122,16,124,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm15
- .byte 196,33,122,16,100,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm12
- .byte 196,161,122,16,84,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm2
- .byte 196,163,105,33,84,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,124,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm7
- .byte 196,161,122,16,92,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm3
+ .byte 76,139,104,48 // mov 0x30(%rax),%r13
+ .byte 196,129,122,16,92,165,0 // vmovss 0x0(%r13,%r12,4),%xmm3
+ .byte 196,67,97,33,92,157,0,16 // vinsertps $0x10,0x0(%r13,%rbx,4),%xmm3,%xmm11
+ .byte 196,1,122,16,124,181,0 // vmovss 0x0(%r13,%r14,4),%xmm15
+ .byte 196,1,122,16,100,189,0 // vmovss 0x0(%r13,%r15,4),%xmm12
+ .byte 196,129,122,16,84,157,0 // vmovss 0x0(%r13,%r11,4),%xmm2
+ .byte 196,131,105,33,84,149,0,16 // vinsertps $0x10,0x0(%r13,%r10,4),%xmm2,%xmm2
+ .byte 196,129,122,16,124,141,0 // vmovss 0x0(%r13,%r9,4),%xmm7
+ .byte 196,129,122,16,92,133,0 // vmovss 0x0(%r13,%r8,4),%xmm3
.byte 196,67,41,33,213,48 // vinsertps $0x30,%xmm13,%xmm10,%xmm10
.byte 196,67,45,24,233,1 // vinsertf128 $0x1,%xmm9,%ymm10,%ymm13
.byte 196,195,33,33,207,32 // vinsertps $0x20,%xmm15,%xmm11,%xmm1
.byte 196,67,113,33,204,48 // vinsertps $0x30,%xmm12,%xmm1,%xmm9
.byte 196,227,105,33,215,32 // vinsertps $0x20,%xmm7,%xmm2,%xmm2
.byte 196,99,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm10
- .byte 72,139,104,24 // mov 0x18(%rax),%rbp
- .byte 196,161,122,16,92,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm3
- .byte 196,99,97,33,92,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm3,%xmm11
- .byte 196,33,122,16,100,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm12
- .byte 196,33,122,16,124,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm15
- .byte 196,161,122,16,84,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm2
- .byte 196,163,105,33,84,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,92,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm3
- .byte 196,161,122,16,124,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm7
+ .byte 76,139,104,24 // mov 0x18(%rax),%r13
+ .byte 196,129,122,16,92,165,0 // vmovss 0x0(%r13,%r12,4),%xmm3
+ .byte 196,67,97,33,92,157,0,16 // vinsertps $0x10,0x0(%r13,%rbx,4),%xmm3,%xmm11
+ .byte 196,1,122,16,100,181,0 // vmovss 0x0(%r13,%r14,4),%xmm12
+ .byte 196,1,122,16,124,189,0 // vmovss 0x0(%r13,%r15,4),%xmm15
+ .byte 196,129,122,16,84,157,0 // vmovss 0x0(%r13,%r11,4),%xmm2
+ .byte 196,131,105,33,84,149,0,16 // vinsertps $0x10,0x0(%r13,%r10,4),%xmm2,%xmm2
+ .byte 196,129,122,16,92,141,0 // vmovss 0x0(%r13,%r9,4),%xmm3
+ .byte 196,129,122,16,124,133,0 // vmovss 0x0(%r13,%r8,4),%xmm7
.byte 196,67,45,24,201,1 // vinsertf128 $0x1,%xmm9,%ymm10,%ymm9
.byte 196,195,33,33,204,32 // vinsertps $0x20,%xmm12,%xmm11,%xmm1
.byte 196,195,113,33,207,48 // vinsertps $0x30,%xmm15,%xmm1,%xmm1
.byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
.byte 196,227,105,33,215,48 // vinsertps $0x30,%xmm7,%xmm2,%xmm2
.byte 196,99,109,24,209,1 // vinsertf128 $0x1,%xmm1,%ymm2,%ymm10
- .byte 72,139,104,56 // mov 0x38(%rax),%rbp
- .byte 196,161,122,16,76,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm1
- .byte 196,99,113,33,92,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm11
- .byte 196,33,122,16,100,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm12
- .byte 196,33,122,16,124,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm15
- .byte 196,161,122,16,124,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm7
- .byte 196,163,65,33,124,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm7,%xmm7
- .byte 196,161,122,16,76,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm1
- .byte 196,161,122,16,84,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm2
+ .byte 76,139,104,56 // mov 0x38(%rax),%r13
+ .byte 196,129,122,16,76,165,0 // vmovss 0x0(%r13,%r12,4),%xmm1
+ .byte 196,67,113,33,92,157,0,16 // vinsertps $0x10,0x0(%r13,%rbx,4),%xmm1,%xmm11
+ .byte 196,1,122,16,100,181,0 // vmovss 0x0(%r13,%r14,4),%xmm12
+ .byte 196,1,122,16,124,189,0 // vmovss 0x0(%r13,%r15,4),%xmm15
+ .byte 196,129,122,16,124,157,0 // vmovss 0x0(%r13,%r11,4),%xmm7
+ .byte 196,131,65,33,124,149,0,16 // vinsertps $0x10,0x0(%r13,%r10,4),%xmm7,%xmm7
+ .byte 196,129,122,16,76,141,0 // vmovss 0x0(%r13,%r9,4),%xmm1
+ .byte 196,129,122,16,84,133,0 // vmovss 0x0(%r13,%r8,4),%xmm2
.byte 196,195,33,33,220,32 // vinsertps $0x20,%xmm12,%xmm11,%xmm3
.byte 196,195,97,33,223,48 // vinsertps $0x30,%xmm15,%xmm3,%xmm3
.byte 196,227,65,33,201,32 // vinsertps $0x20,%xmm1,%xmm7,%xmm1
.byte 196,227,113,33,202,48 // vinsertps $0x30,%xmm2,%xmm1,%xmm1
.byte 196,99,117,24,219,1 // vinsertf128 $0x1,%xmm3,%ymm1,%ymm11
- .byte 72,139,104,32 // mov 0x20(%rax),%rbp
- .byte 196,161,122,16,76,173,0 // vmovss 0x0(%rbp,%r13,4),%xmm1
- .byte 196,227,113,33,76,157,0,16 // vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm1
- .byte 196,161,122,16,84,189,0 // vmovss 0x0(%rbp,%r15,4),%xmm2
+ .byte 76,139,104,32 // mov 0x20(%rax),%r13
+ .byte 196,129,122,16,76,165,0 // vmovss 0x0(%r13,%r12,4),%xmm1
+ .byte 196,195,113,33,76,157,0,16 // vinsertps $0x10,0x0(%r13,%rbx,4),%xmm1,%xmm1
+ .byte 196,129,122,16,84,181,0 // vmovss 0x0(%r13,%r14,4),%xmm2
.byte 196,227,113,33,202,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm1
- .byte 196,161,122,16,84,165,0 // vmovss 0x0(%rbp,%r12,4),%xmm2
- .byte 196,161,122,16,92,181,0 // vmovss 0x0(%rbp,%r14,4),%xmm3
- .byte 196,35,97,33,100,157,0,16 // vinsertps $0x10,0x0(%rbp,%r11,4),%xmm3,%xmm12
- .byte 196,161,122,16,124,149,0 // vmovss 0x0(%rbp,%r10,4),%xmm7
- .byte 196,161,122,16,92,141,0 // vmovss 0x0(%rbp,%r9,4),%xmm3
+ .byte 196,129,122,16,84,189,0 // vmovss 0x0(%r13,%r15,4),%xmm2
+ .byte 196,129,122,16,92,157,0 // vmovss 0x0(%r13,%r11,4),%xmm3
+ .byte 196,3,97,33,100,149,0,16 // vinsertps $0x10,0x0(%r13,%r10,4),%xmm3,%xmm12
+ .byte 196,129,122,16,124,141,0 // vmovss 0x0(%r13,%r9,4),%xmm7
+ .byte 196,129,122,16,92,133,0 // vmovss 0x0(%r13,%r8,4),%xmm3
.byte 196,99,113,33,250,48 // vinsertps $0x30,%xmm2,%xmm1,%xmm15
.byte 72,139,64,64 // mov 0x40(%rax),%rax
- .byte 196,161,122,16,20,168 // vmovss (%rax,%r13,4),%xmm2
+ .byte 196,161,122,16,20,160 // vmovss (%rax,%r12,4),%xmm2
.byte 196,227,105,33,20,152,16 // vinsertps $0x10,(%rax,%rbx,4),%xmm2,%xmm2
.byte 196,227,25,33,255,32 // vinsertps $0x20,%xmm7,%xmm12,%xmm7
- .byte 196,161,122,16,12,184 // vmovss (%rax,%r15,4),%xmm1
+ .byte 196,161,122,16,12,176 // vmovss (%rax,%r14,4),%xmm1
.byte 196,227,65,33,219,48 // vinsertps $0x30,%xmm3,%xmm7,%xmm3
- .byte 196,161,122,16,60,160 // vmovss (%rax,%r12,4),%xmm7
+ .byte 196,161,122,16,60,184 // vmovss (%rax,%r15,4),%xmm7
.byte 196,67,101,24,231,1 // vinsertf128 $0x1,%xmm15,%ymm3,%ymm12
- .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
+ .byte 196,161,122,16,28,152 // vmovss (%rax,%r11,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
.byte 196,227,105,33,201,32 // vinsertps $0x20,%xmm1,%xmm2,%xmm1
- .byte 196,161,122,16,20,144 // vmovss (%rax,%r10,4),%xmm2
+ .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
.byte 196,227,113,33,207,48 // vinsertps $0x30,%xmm7,%xmm1,%xmm1
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,227,97,33,210,32 // vinsertps $0x20,%xmm2,%xmm3,%xmm2
.byte 196,227,105,33,215,48 // vinsertps $0x30,%xmm7,%xmm2,%xmm2
.byte 196,227,109,24,217,1 // vinsertf128 $0x1,%xmm1,%ymm2,%ymm3
@@ -23799,13 +23831,12 @@ _sk_gradient_avx:
.byte 197,252,88,219 // vaddps %ymm3,%ymm0,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,124,41,192 // vmovaps %ymm8,%ymm0
- .byte 197,252,16,124,36,216 // vmovups -0x28(%rsp),%ymm7
+ .byte 197,252,16,124,36,208 // vmovups -0x30(%rsp),%ymm7
.byte 91 // pop %rbx
.byte 65,92 // pop %r12
.byte 65,93 // pop %r13
.byte 65,94 // pop %r14
.byte 65,95 // pop %r15
- .byte 93 // pop %rbp
.byte 255,224 // jmpq *%rax
HIDDEN _sk_evenly_spaced_2_stop_gradient_avx
@@ -23846,27 +23877,27 @@ _sk_xy_to_unit_angle_avx:
.byte 196,65,52,95,226 // vmaxps %ymm10,%ymm9,%ymm12
.byte 196,65,36,94,220 // vdivps %ymm12,%ymm11,%ymm11
.byte 196,65,36,89,227 // vmulps %ymm11,%ymm11,%ymm12
- .byte 196,98,125,24,45,96,205,1,0 // vbroadcastss 0x1cd60(%rip),%ymm13 # 2ba64 <_sk_overlay_sse2_8bit+0x57f>
+ .byte 196,98,125,24,45,74,205,1,0 // vbroadcastss 0x1cd4a(%rip),%ymm13 # 2ba1c <_sk_overlay_sse2_8bit+0x57f>
.byte 196,65,28,89,237 // vmulps %ymm13,%ymm12,%ymm13
- .byte 196,98,125,24,53,86,205,1,0 // vbroadcastss 0x1cd56(%rip),%ymm14 # 2ba68 <_sk_overlay_sse2_8bit+0x583>
+ .byte 196,98,125,24,53,64,205,1,0 // vbroadcastss 0x1cd40(%rip),%ymm14 # 2ba20 <_sk_overlay_sse2_8bit+0x583>
.byte 196,65,20,88,238 // vaddps %ymm14,%ymm13,%ymm13
.byte 196,65,28,89,237 // vmulps %ymm13,%ymm12,%ymm13
- .byte 196,98,125,24,53,71,205,1,0 // vbroadcastss 0x1cd47(%rip),%ymm14 # 2ba6c <_sk_overlay_sse2_8bit+0x587>
+ .byte 196,98,125,24,53,49,205,1,0 // vbroadcastss 0x1cd31(%rip),%ymm14 # 2ba24 <_sk_overlay_sse2_8bit+0x587>
.byte 196,65,20,88,238 // vaddps %ymm14,%ymm13,%ymm13
.byte 196,65,28,89,229 // vmulps %ymm13,%ymm12,%ymm12
- .byte 196,98,125,24,45,56,205,1,0 // vbroadcastss 0x1cd38(%rip),%ymm13 # 2ba70 <_sk_overlay_sse2_8bit+0x58b>
+ .byte 196,98,125,24,45,34,205,1,0 // vbroadcastss 0x1cd22(%rip),%ymm13 # 2ba28 <_sk_overlay_sse2_8bit+0x58b>
.byte 196,65,28,88,229 // vaddps %ymm13,%ymm12,%ymm12
.byte 196,65,36,89,220 // vmulps %ymm12,%ymm11,%ymm11
.byte 196,65,52,194,202,1 // vcmpltps %ymm10,%ymm9,%ymm9
- .byte 196,98,125,24,21,35,205,1,0 // vbroadcastss 0x1cd23(%rip),%ymm10 # 2ba74 <_sk_overlay_sse2_8bit+0x58f>
+ .byte 196,98,125,24,21,13,205,1,0 // vbroadcastss 0x1cd0d(%rip),%ymm10 # 2ba2c <_sk_overlay_sse2_8bit+0x58f>
.byte 196,65,44,92,211 // vsubps %ymm11,%ymm10,%ymm10
.byte 196,67,37,74,202,144 // vblendvps %ymm9,%ymm10,%ymm11,%ymm9
.byte 196,193,124,194,192,1 // vcmpltps %ymm8,%ymm0,%ymm0
- .byte 196,98,125,24,21,185,203,1,0 // vbroadcastss 0x1cbb9(%rip),%ymm10 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,21,163,203,1,0 // vbroadcastss 0x1cba3(%rip),%ymm10 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,44,92,209 // vsubps %ymm9,%ymm10,%ymm10
.byte 196,195,53,74,194,0 // vblendvps %ymm0,%ymm10,%ymm9,%ymm0
.byte 196,65,116,194,200,1 // vcmpltps %ymm8,%ymm1,%ymm9
- .byte 196,98,125,24,21,163,203,1,0 // vbroadcastss 0x1cba3(%rip),%ymm10 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,21,141,203,1,0 // vbroadcastss 0x1cb8d(%rip),%ymm10 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,44,92,208 // vsubps %ymm0,%ymm10,%ymm10
.byte 196,195,125,74,194,144 // vblendvps %ymm9,%ymm10,%ymm0,%ymm0
.byte 196,65,124,194,200,3 // vcmpunordps %ymm8,%ymm0,%ymm9
@@ -23896,7 +23927,7 @@ _sk_xy_to_2pt_conical_quadratic_max_avx:
.byte 196,67,121,4,210,0 // vpermilps $0x0,%xmm10,%xmm10
.byte 196,67,45,24,210,1 // vinsertf128 $0x1,%xmm10,%ymm10,%ymm10
.byte 197,44,88,208 // vaddps %ymm0,%ymm10,%ymm10
- .byte 196,98,125,24,29,153,204,1,0 // vbroadcastss 0x1cc99(%rip),%ymm11 # 2ba78 <_sk_overlay_sse2_8bit+0x593>
+ .byte 196,98,125,24,29,131,204,1,0 // vbroadcastss 0x1cc83(%rip),%ymm11 # 2ba30 <_sk_overlay_sse2_8bit+0x593>
.byte 196,65,44,89,211 // vmulps %ymm11,%ymm10,%ymm10
.byte 197,252,89,192 // vmulps %ymm0,%ymm0,%ymm0
.byte 197,116,89,217 // vmulps %ymm1,%ymm1,%ymm11
@@ -23905,17 +23936,17 @@ _sk_xy_to_2pt_conical_quadratic_max_avx:
.byte 196,227,121,4,192,0 // vpermilps $0x0,%xmm0,%xmm0
.byte 196,227,125,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
.byte 197,164,92,192 // vsubps %ymm0,%ymm11,%ymm0
- .byte 196,98,125,24,13,109,204,1,0 // vbroadcastss 0x1cc6d(%rip),%ymm9 # 2ba7c <_sk_overlay_sse2_8bit+0x597>
+ .byte 196,98,125,24,13,87,204,1,0 // vbroadcastss 0x1cc57(%rip),%ymm9 # 2ba34 <_sk_overlay_sse2_8bit+0x597>
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 196,65,44,89,194 // vmulps %ymm10,%ymm10,%ymm8
.byte 196,193,124,88,192 // vaddps %ymm8,%ymm0,%ymm0
.byte 197,252,81,192 // vsqrtps %ymm0,%ymm0
.byte 196,98,125,24,64,36 // vbroadcastss 0x24(%rax),%ymm8
- .byte 196,98,125,24,13,75,204,1,0 // vbroadcastss 0x1cc4b(%rip),%ymm9 # 2ba80 <_sk_overlay_sse2_8bit+0x59b>
+ .byte 196,98,125,24,13,53,204,1,0 // vbroadcastss 0x1cc35(%rip),%ymm9 # 2ba38 <_sk_overlay_sse2_8bit+0x59b>
.byte 196,65,44,87,201 // vxorps %ymm9,%ymm10,%ymm9
.byte 196,65,124,92,210 // vsubps %ymm10,%ymm0,%ymm10
- .byte 196,98,125,24,29,220,202,1,0 // vbroadcastss 0x1cadc(%rip),%ymm11 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,29,198,202,1,0 // vbroadcastss 0x1cac6(%rip),%ymm11 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,60,89,195 // vmulps %ymm11,%ymm8,%ymm8
.byte 196,65,60,89,210 // vmulps %ymm10,%ymm8,%ymm10
.byte 197,180,92,192 // vsubps %ymm0,%ymm9,%ymm0
@@ -23935,7 +23966,7 @@ _sk_xy_to_2pt_conical_quadratic_min_avx:
.byte 196,67,121,4,210,0 // vpermilps $0x0,%xmm10,%xmm10
.byte 196,67,45,24,210,1 // vinsertf128 $0x1,%xmm10,%ymm10,%ymm10
.byte 197,44,88,208 // vaddps %ymm0,%ymm10,%ymm10
- .byte 196,98,125,24,29,235,203,1,0 // vbroadcastss 0x1cbeb(%rip),%ymm11 # 2ba78 <_sk_overlay_sse2_8bit+0x593>
+ .byte 196,98,125,24,29,213,203,1,0 // vbroadcastss 0x1cbd5(%rip),%ymm11 # 2ba30 <_sk_overlay_sse2_8bit+0x593>
.byte 196,65,44,89,211 // vmulps %ymm11,%ymm10,%ymm10
.byte 197,252,89,192 // vmulps %ymm0,%ymm0,%ymm0
.byte 197,116,89,217 // vmulps %ymm1,%ymm1,%ymm11
@@ -23944,17 +23975,17 @@ _sk_xy_to_2pt_conical_quadratic_min_avx:
.byte 196,227,121,4,192,0 // vpermilps $0x0,%xmm0,%xmm0
.byte 196,227,125,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
.byte 197,164,92,192 // vsubps %ymm0,%ymm11,%ymm0
- .byte 196,98,125,24,13,191,203,1,0 // vbroadcastss 0x1cbbf(%rip),%ymm9 # 2ba7c <_sk_overlay_sse2_8bit+0x597>
+ .byte 196,98,125,24,13,169,203,1,0 // vbroadcastss 0x1cba9(%rip),%ymm9 # 2ba34 <_sk_overlay_sse2_8bit+0x597>
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
.byte 197,188,89,192 // vmulps %ymm0,%ymm8,%ymm0
.byte 196,65,44,89,194 // vmulps %ymm10,%ymm10,%ymm8
.byte 196,193,124,88,192 // vaddps %ymm8,%ymm0,%ymm0
.byte 197,252,81,192 // vsqrtps %ymm0,%ymm0
.byte 196,98,125,24,64,36 // vbroadcastss 0x24(%rax),%ymm8
- .byte 196,98,125,24,13,157,203,1,0 // vbroadcastss 0x1cb9d(%rip),%ymm9 # 2ba80 <_sk_overlay_sse2_8bit+0x59b>
+ .byte 196,98,125,24,13,135,203,1,0 // vbroadcastss 0x1cb87(%rip),%ymm9 # 2ba38 <_sk_overlay_sse2_8bit+0x59b>
.byte 196,65,44,87,201 // vxorps %ymm9,%ymm10,%ymm9
.byte 196,65,124,92,210 // vsubps %ymm10,%ymm0,%ymm10
- .byte 196,98,125,24,29,46,202,1,0 // vbroadcastss 0x1ca2e(%rip),%ymm11 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,29,24,202,1,0 // vbroadcastss 0x1ca18(%rip),%ymm11 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,60,89,195 // vmulps %ymm11,%ymm8,%ymm8
.byte 196,65,60,89,210 // vmulps %ymm10,%ymm8,%ymm10
.byte 197,180,92,192 // vsubps %ymm0,%ymm9,%ymm0
@@ -23973,7 +24004,7 @@ _sk_xy_to_2pt_conical_linear_avx:
.byte 196,67,121,4,201,0 // vpermilps $0x0,%xmm9,%xmm9
.byte 196,67,53,24,201,1 // vinsertf128 $0x1,%xmm9,%ymm9,%ymm9
.byte 197,52,88,200 // vaddps %ymm0,%ymm9,%ymm9
- .byte 196,98,125,24,21,67,203,1,0 // vbroadcastss 0x1cb43(%rip),%ymm10 # 2ba78 <_sk_overlay_sse2_8bit+0x593>
+ .byte 196,98,125,24,21,45,203,1,0 // vbroadcastss 0x1cb2d(%rip),%ymm10 # 2ba30 <_sk_overlay_sse2_8bit+0x593>
.byte 196,65,52,89,202 // vmulps %ymm10,%ymm9,%ymm9
.byte 197,252,89,192 // vmulps %ymm0,%ymm0,%ymm0
.byte 197,116,89,209 // vmulps %ymm1,%ymm1,%ymm10
@@ -23982,7 +24013,7 @@ _sk_xy_to_2pt_conical_linear_avx:
.byte 196,227,121,4,192,0 // vpermilps $0x0,%xmm0,%xmm0
.byte 196,227,125,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
.byte 197,172,92,192 // vsubps %ymm0,%ymm10,%ymm0
- .byte 196,98,125,24,5,27,203,1,0 // vbroadcastss 0x1cb1b(%rip),%ymm8 # 2ba80 <_sk_overlay_sse2_8bit+0x59b>
+ .byte 196,98,125,24,5,5,203,1,0 // vbroadcastss 0x1cb05(%rip),%ymm8 # 2ba38 <_sk_overlay_sse2_8bit+0x59b>
.byte 196,193,124,87,192 // vxorps %ymm8,%ymm0,%ymm0
.byte 196,193,124,94,193 // vdivps %ymm9,%ymm0,%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -24023,7 +24054,7 @@ HIDDEN _sk_save_xy_avx
FUNCTION(_sk_save_xy_avx)
_sk_save_xy_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,98,125,24,5,87,201,1,0 // vbroadcastss 0x1c957(%rip),%ymm8 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,5,65,201,1,0 // vbroadcastss 0x1c941(%rip),%ymm8 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,124,88,200 // vaddps %ymm8,%ymm0,%ymm9
.byte 196,67,125,8,209,1 // vroundps $0x1,%ymm9,%ymm10
.byte 196,65,52,92,202 // vsubps %ymm10,%ymm9,%ymm9
@@ -24060,9 +24091,9 @@ HIDDEN _sk_bilinear_nx_avx
FUNCTION(_sk_bilinear_nx_avx)
_sk_bilinear_nx_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,63,202,1,0 // vbroadcastss 0x1ca3f(%rip),%ymm0 # 2ba84 <_sk_overlay_sse2_8bit+0x59f>
+ .byte 196,226,125,24,5,41,202,1,0 // vbroadcastss 0x1ca29(%rip),%ymm0 # 2ba3c <_sk_overlay_sse2_8bit+0x59f>
.byte 197,252,88,0 // vaddps (%rax),%ymm0,%ymm0
- .byte 196,98,125,24,5,214,200,1,0 // vbroadcastss 0x1c8d6(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,192,200,1,0 // vbroadcastss 0x1c8c0(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,64 // vsubps 0x40(%rax),%ymm8,%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -24073,7 +24104,7 @@ HIDDEN _sk_bilinear_px_avx
FUNCTION(_sk_bilinear_px_avx)
_sk_bilinear_px_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,182,200,1,0 // vbroadcastss 0x1c8b6(%rip),%ymm0 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,226,125,24,5,160,200,1,0 // vbroadcastss 0x1c8a0(%rip),%ymm0 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,252,88,0 // vaddps (%rax),%ymm0,%ymm0
.byte 197,124,16,64,64 // vmovups 0x40(%rax),%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
@@ -24085,9 +24116,9 @@ HIDDEN _sk_bilinear_ny_avx
FUNCTION(_sk_bilinear_ny_avx)
_sk_bilinear_ny_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,13,246,201,1,0 // vbroadcastss 0x1c9f6(%rip),%ymm1 # 2ba84 <_sk_overlay_sse2_8bit+0x59f>
+ .byte 196,226,125,24,13,224,201,1,0 // vbroadcastss 0x1c9e0(%rip),%ymm1 # 2ba3c <_sk_overlay_sse2_8bit+0x59f>
.byte 197,244,88,72,32 // vaddps 0x20(%rax),%ymm1,%ymm1
- .byte 196,98,125,24,5,140,200,1,0 // vbroadcastss 0x1c88c(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,118,200,1,0 // vbroadcastss 0x1c876(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,96 // vsubps 0x60(%rax),%ymm8,%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -24098,7 +24129,7 @@ HIDDEN _sk_bilinear_py_avx
FUNCTION(_sk_bilinear_py_avx)
_sk_bilinear_py_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,13,108,200,1,0 // vbroadcastss 0x1c86c(%rip),%ymm1 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,226,125,24,13,86,200,1,0 // vbroadcastss 0x1c856(%rip),%ymm1 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,244,88,72,32 // vaddps 0x20(%rax),%ymm1,%ymm1
.byte 197,124,16,64,96 // vmovups 0x60(%rax),%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
@@ -24110,14 +24141,14 @@ HIDDEN _sk_bicubic_n3x_avx
FUNCTION(_sk_bicubic_n3x_avx)
_sk_bicubic_n3x_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,175,201,1,0 // vbroadcastss 0x1c9af(%rip),%ymm0 # 2ba88 <_sk_overlay_sse2_8bit+0x5a3>
+ .byte 196,226,125,24,5,153,201,1,0 // vbroadcastss 0x1c999(%rip),%ymm0 # 2ba40 <_sk_overlay_sse2_8bit+0x5a3>
.byte 197,252,88,0 // vaddps (%rax),%ymm0,%ymm0
- .byte 196,98,125,24,5,66,200,1,0 // vbroadcastss 0x1c842(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,44,200,1,0 // vbroadcastss 0x1c82c(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,64 // vsubps 0x40(%rax),%ymm8,%ymm8
.byte 196,65,60,89,200 // vmulps %ymm8,%ymm8,%ymm9
- .byte 196,98,125,24,21,147,201,1,0 // vbroadcastss 0x1c993(%rip),%ymm10 # 2ba8c <_sk_overlay_sse2_8bit+0x5a7>
+ .byte 196,98,125,24,21,125,201,1,0 // vbroadcastss 0x1c97d(%rip),%ymm10 # 2ba44 <_sk_overlay_sse2_8bit+0x5a7>
.byte 196,65,60,89,194 // vmulps %ymm10,%ymm8,%ymm8
- .byte 196,98,125,24,21,145,200,1,0 // vbroadcastss 0x1c891(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4b3>
+ .byte 196,98,125,24,21,123,200,1,0 // vbroadcastss 0x1c87b(%rip),%ymm10 # 2b950 <_sk_overlay_sse2_8bit+0x4b3>
.byte 196,65,60,88,194 // vaddps %ymm10,%ymm8,%ymm8
.byte 196,65,52,89,192 // vmulps %ymm8,%ymm9,%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
@@ -24129,19 +24160,19 @@ HIDDEN _sk_bicubic_n1x_avx
FUNCTION(_sk_bicubic_n1x_avx)
_sk_bicubic_n1x_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,92,201,1,0 // vbroadcastss 0x1c95c(%rip),%ymm0 # 2ba84 <_sk_overlay_sse2_8bit+0x59f>
+ .byte 196,226,125,24,5,70,201,1,0 // vbroadcastss 0x1c946(%rip),%ymm0 # 2ba3c <_sk_overlay_sse2_8bit+0x59f>
.byte 197,252,88,0 // vaddps (%rax),%ymm0,%ymm0
- .byte 196,98,125,24,5,243,199,1,0 // vbroadcastss 0x1c7f3(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,221,199,1,0 // vbroadcastss 0x1c7dd(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,64 // vsubps 0x40(%rax),%ymm8,%ymm8
- .byte 196,98,125,24,13,81,201,1,0 // vbroadcastss 0x1c951(%rip),%ymm9 # 2ba94 <_sk_overlay_sse2_8bit+0x5af>
+ .byte 196,98,125,24,13,59,201,1,0 // vbroadcastss 0x1c93b(%rip),%ymm9 # 2ba4c <_sk_overlay_sse2_8bit+0x5af>
.byte 196,65,60,89,201 // vmulps %ymm9,%ymm8,%ymm9
- .byte 196,98,125,24,21,63,201,1,0 // vbroadcastss 0x1c93f(%rip),%ymm10 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,98,125,24,21,41,201,1,0 // vbroadcastss 0x1c929(%rip),%ymm10 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
.byte 196,65,52,88,202 // vaddps %ymm10,%ymm9,%ymm9
.byte 196,65,60,89,201 // vmulps %ymm9,%ymm8,%ymm9
- .byte 196,98,125,24,21,192,199,1,0 // vbroadcastss 0x1c7c0(%rip),%ymm10 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,21,170,199,1,0 // vbroadcastss 0x1c7aa(%rip),%ymm10 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,52,88,202 // vaddps %ymm10,%ymm9,%ymm9
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
- .byte 196,98,125,24,13,33,201,1,0 // vbroadcastss 0x1c921(%rip),%ymm9 # 2ba98 <_sk_overlay_sse2_8bit+0x5b3>
+ .byte 196,98,125,24,13,11,201,1,0 // vbroadcastss 0x1c90b(%rip),%ymm9 # 2ba50 <_sk_overlay_sse2_8bit+0x5b3>
.byte 196,65,60,88,193 // vaddps %ymm9,%ymm8,%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -24152,17 +24183,17 @@ HIDDEN _sk_bicubic_p1x_avx
FUNCTION(_sk_bicubic_p1x_avx)
_sk_bicubic_p1x_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,98,125,24,5,145,199,1,0 // vbroadcastss 0x1c791(%rip),%ymm8 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,5,123,199,1,0 // vbroadcastss 0x1c77b(%rip),%ymm8 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,188,88,0 // vaddps (%rax),%ymm8,%ymm0
.byte 197,124,16,72,64 // vmovups 0x40(%rax),%ymm9
- .byte 196,98,125,24,21,239,200,1,0 // vbroadcastss 0x1c8ef(%rip),%ymm10 # 2ba94 <_sk_overlay_sse2_8bit+0x5af>
+ .byte 196,98,125,24,21,217,200,1,0 // vbroadcastss 0x1c8d9(%rip),%ymm10 # 2ba4c <_sk_overlay_sse2_8bit+0x5af>
.byte 196,65,52,89,210 // vmulps %ymm10,%ymm9,%ymm10
- .byte 196,98,125,24,29,221,200,1,0 // vbroadcastss 0x1c8dd(%rip),%ymm11 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,98,125,24,29,199,200,1,0 // vbroadcastss 0x1c8c7(%rip),%ymm11 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
.byte 196,65,44,88,211 // vaddps %ymm11,%ymm10,%ymm10
.byte 196,65,52,89,210 // vmulps %ymm10,%ymm9,%ymm10
.byte 196,65,44,88,192 // vaddps %ymm8,%ymm10,%ymm8
.byte 196,65,52,89,192 // vmulps %ymm8,%ymm9,%ymm8
- .byte 196,98,125,24,13,200,200,1,0 // vbroadcastss 0x1c8c8(%rip),%ymm9 # 2ba98 <_sk_overlay_sse2_8bit+0x5b3>
+ .byte 196,98,125,24,13,178,200,1,0 // vbroadcastss 0x1c8b2(%rip),%ymm9 # 2ba50 <_sk_overlay_sse2_8bit+0x5b3>
.byte 196,65,60,88,193 // vaddps %ymm9,%ymm8,%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -24173,13 +24204,13 @@ HIDDEN _sk_bicubic_p3x_avx
FUNCTION(_sk_bicubic_p3x_avx)
_sk_bicubic_p3x_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,164,200,1,0 // vbroadcastss 0x1c8a4(%rip),%ymm0 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,226,125,24,5,142,200,1,0 // vbroadcastss 0x1c88e(%rip),%ymm0 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
.byte 197,252,88,0 // vaddps (%rax),%ymm0,%ymm0
.byte 197,124,16,64,64 // vmovups 0x40(%rax),%ymm8
.byte 196,65,60,89,200 // vmulps %ymm8,%ymm8,%ymm9
- .byte 196,98,125,24,21,137,200,1,0 // vbroadcastss 0x1c889(%rip),%ymm10 # 2ba8c <_sk_overlay_sse2_8bit+0x5a7>
+ .byte 196,98,125,24,21,115,200,1,0 // vbroadcastss 0x1c873(%rip),%ymm10 # 2ba44 <_sk_overlay_sse2_8bit+0x5a7>
.byte 196,65,60,89,194 // vmulps %ymm10,%ymm8,%ymm8
- .byte 196,98,125,24,21,135,199,1,0 // vbroadcastss 0x1c787(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4b3>
+ .byte 196,98,125,24,21,113,199,1,0 // vbroadcastss 0x1c771(%rip),%ymm10 # 2b950 <_sk_overlay_sse2_8bit+0x4b3>
.byte 196,65,60,88,194 // vaddps %ymm10,%ymm8,%ymm8
.byte 196,65,52,89,192 // vmulps %ymm8,%ymm9,%ymm8
.byte 197,124,17,128,128,0,0,0 // vmovups %ymm8,0x80(%rax)
@@ -24191,14 +24222,14 @@ HIDDEN _sk_bicubic_n3y_avx
FUNCTION(_sk_bicubic_n3y_avx)
_sk_bicubic_n3y_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,13,86,200,1,0 // vbroadcastss 0x1c856(%rip),%ymm1 # 2ba88 <_sk_overlay_sse2_8bit+0x5a3>
+ .byte 196,226,125,24,13,64,200,1,0 // vbroadcastss 0x1c840(%rip),%ymm1 # 2ba40 <_sk_overlay_sse2_8bit+0x5a3>
.byte 197,244,88,72,32 // vaddps 0x20(%rax),%ymm1,%ymm1
- .byte 196,98,125,24,5,232,198,1,0 // vbroadcastss 0x1c6e8(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,210,198,1,0 // vbroadcastss 0x1c6d2(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,96 // vsubps 0x60(%rax),%ymm8,%ymm8
.byte 196,65,60,89,200 // vmulps %ymm8,%ymm8,%ymm9
- .byte 196,98,125,24,21,57,200,1,0 // vbroadcastss 0x1c839(%rip),%ymm10 # 2ba8c <_sk_overlay_sse2_8bit+0x5a7>
+ .byte 196,98,125,24,21,35,200,1,0 // vbroadcastss 0x1c823(%rip),%ymm10 # 2ba44 <_sk_overlay_sse2_8bit+0x5a7>
.byte 196,65,60,89,194 // vmulps %ymm10,%ymm8,%ymm8
- .byte 196,98,125,24,21,55,199,1,0 // vbroadcastss 0x1c737(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4b3>
+ .byte 196,98,125,24,21,33,199,1,0 // vbroadcastss 0x1c721(%rip),%ymm10 # 2b950 <_sk_overlay_sse2_8bit+0x4b3>
.byte 196,65,60,88,194 // vaddps %ymm10,%ymm8,%ymm8
.byte 196,65,52,89,192 // vmulps %ymm8,%ymm9,%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
@@ -24210,19 +24241,19 @@ HIDDEN _sk_bicubic_n1y_avx
FUNCTION(_sk_bicubic_n1y_avx)
_sk_bicubic_n1y_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,13,2,200,1,0 // vbroadcastss 0x1c802(%rip),%ymm1 # 2ba84 <_sk_overlay_sse2_8bit+0x59f>
+ .byte 196,226,125,24,13,236,199,1,0 // vbroadcastss 0x1c7ec(%rip),%ymm1 # 2ba3c <_sk_overlay_sse2_8bit+0x59f>
.byte 197,244,88,72,32 // vaddps 0x20(%rax),%ymm1,%ymm1
- .byte 196,98,125,24,5,152,198,1,0 // vbroadcastss 0x1c698(%rip),%ymm8 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,98,125,24,5,130,198,1,0 // vbroadcastss 0x1c682(%rip),%ymm8 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,60,92,64,96 // vsubps 0x60(%rax),%ymm8,%ymm8
- .byte 196,98,125,24,13,246,199,1,0 // vbroadcastss 0x1c7f6(%rip),%ymm9 # 2ba94 <_sk_overlay_sse2_8bit+0x5af>
+ .byte 196,98,125,24,13,224,199,1,0 // vbroadcastss 0x1c7e0(%rip),%ymm9 # 2ba4c <_sk_overlay_sse2_8bit+0x5af>
.byte 196,65,60,89,201 // vmulps %ymm9,%ymm8,%ymm9
- .byte 196,98,125,24,21,228,199,1,0 // vbroadcastss 0x1c7e4(%rip),%ymm10 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,98,125,24,21,206,199,1,0 // vbroadcastss 0x1c7ce(%rip),%ymm10 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
.byte 196,65,52,88,202 // vaddps %ymm10,%ymm9,%ymm9
.byte 196,65,60,89,201 // vmulps %ymm9,%ymm8,%ymm9
- .byte 196,98,125,24,21,101,198,1,0 // vbroadcastss 0x1c665(%rip),%ymm10 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,21,79,198,1,0 // vbroadcastss 0x1c64f(%rip),%ymm10 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 196,65,52,88,202 // vaddps %ymm10,%ymm9,%ymm9
.byte 196,65,60,89,193 // vmulps %ymm9,%ymm8,%ymm8
- .byte 196,98,125,24,13,198,199,1,0 // vbroadcastss 0x1c7c6(%rip),%ymm9 # 2ba98 <_sk_overlay_sse2_8bit+0x5b3>
+ .byte 196,98,125,24,13,176,199,1,0 // vbroadcastss 0x1c7b0(%rip),%ymm9 # 2ba50 <_sk_overlay_sse2_8bit+0x5b3>
.byte 196,65,60,88,193 // vaddps %ymm9,%ymm8,%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -24233,17 +24264,17 @@ HIDDEN _sk_bicubic_p1y_avx
FUNCTION(_sk_bicubic_p1y_avx)
_sk_bicubic_p1y_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,98,125,24,5,54,198,1,0 // vbroadcastss 0x1c636(%rip),%ymm8 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 196,98,125,24,5,32,198,1,0 // vbroadcastss 0x1c620(%rip),%ymm8 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 197,188,88,72,32 // vaddps 0x20(%rax),%ymm8,%ymm1
.byte 197,124,16,72,96 // vmovups 0x60(%rax),%ymm9
- .byte 196,98,125,24,21,147,199,1,0 // vbroadcastss 0x1c793(%rip),%ymm10 # 2ba94 <_sk_overlay_sse2_8bit+0x5af>
+ .byte 196,98,125,24,21,125,199,1,0 // vbroadcastss 0x1c77d(%rip),%ymm10 # 2ba4c <_sk_overlay_sse2_8bit+0x5af>
.byte 196,65,52,89,210 // vmulps %ymm10,%ymm9,%ymm10
- .byte 196,98,125,24,29,129,199,1,0 // vbroadcastss 0x1c781(%rip),%ymm11 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,98,125,24,29,107,199,1,0 // vbroadcastss 0x1c76b(%rip),%ymm11 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
.byte 196,65,44,88,211 // vaddps %ymm11,%ymm10,%ymm10
.byte 196,65,52,89,210 // vmulps %ymm10,%ymm9,%ymm10
.byte 196,65,44,88,192 // vaddps %ymm8,%ymm10,%ymm8
.byte 196,65,52,89,192 // vmulps %ymm8,%ymm9,%ymm8
- .byte 196,98,125,24,13,108,199,1,0 // vbroadcastss 0x1c76c(%rip),%ymm9 # 2ba98 <_sk_overlay_sse2_8bit+0x5b3>
+ .byte 196,98,125,24,13,86,199,1,0 // vbroadcastss 0x1c756(%rip),%ymm9 # 2ba50 <_sk_overlay_sse2_8bit+0x5b3>
.byte 196,65,60,88,193 // vaddps %ymm9,%ymm8,%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -24254,13 +24285,13 @@ HIDDEN _sk_bicubic_p3y_avx
FUNCTION(_sk_bicubic_p3y_avx)
_sk_bicubic_p3y_avx:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,13,72,199,1,0 // vbroadcastss 0x1c748(%rip),%ymm1 # 2ba90 <_sk_overlay_sse2_8bit+0x5ab>
+ .byte 196,226,125,24,13,50,199,1,0 // vbroadcastss 0x1c732(%rip),%ymm1 # 2ba48 <_sk_overlay_sse2_8bit+0x5ab>
.byte 197,244,88,72,32 // vaddps 0x20(%rax),%ymm1,%ymm1
.byte 197,124,16,64,96 // vmovups 0x60(%rax),%ymm8
.byte 196,65,60,89,200 // vmulps %ymm8,%ymm8,%ymm9
- .byte 196,98,125,24,21,44,199,1,0 // vbroadcastss 0x1c72c(%rip),%ymm10 # 2ba8c <_sk_overlay_sse2_8bit+0x5a7>
+ .byte 196,98,125,24,21,22,199,1,0 // vbroadcastss 0x1c716(%rip),%ymm10 # 2ba44 <_sk_overlay_sse2_8bit+0x5a7>
.byte 196,65,60,89,194 // vmulps %ymm10,%ymm8,%ymm8
- .byte 196,98,125,24,21,42,198,1,0 // vbroadcastss 0x1c62a(%rip),%ymm10 # 2b998 <_sk_overlay_sse2_8bit+0x4b3>
+ .byte 196,98,125,24,21,20,198,1,0 // vbroadcastss 0x1c614(%rip),%ymm10 # 2b950 <_sk_overlay_sse2_8bit+0x4b3>
.byte 196,65,60,88,194 // vaddps %ymm10,%ymm8,%ymm8
.byte 196,65,52,89,192 // vmulps %ymm8,%ymm9,%ymm8
.byte 197,124,17,128,160,0,0,0 // vmovups %ymm8,0xa0(%rax)
@@ -24279,18 +24310,17 @@ _sk_callback_avx:
.byte 65,84 // push %r12
.byte 83 // push %rbx
.byte 72,131,228,224 // and $0xffffffffffffffe0,%rsp
- .byte 72,129,236,192,0,0,0 // sub $0xc0,%rsp
- .byte 197,252,41,188,36,128,0,0,0 // vmovaps %ymm7,0x80(%rsp)
- .byte 197,252,41,116,36,96 // vmovaps %ymm6,0x60(%rsp)
- .byte 197,252,41,108,36,64 // vmovaps %ymm5,0x40(%rsp)
- .byte 197,252,41,100,36,32 // vmovaps %ymm4,0x20(%rsp)
- .byte 76,137,195 // mov %r8,%rbx
- .byte 72,137,76,36,24 // mov %rcx,0x18(%rsp)
+ .byte 72,129,236,160,0,0,0 // sub $0xa0,%rsp
+ .byte 197,252,41,124,36,96 // vmovaps %ymm7,0x60(%rsp)
+ .byte 197,252,41,116,36,64 // vmovaps %ymm6,0x40(%rsp)
+ .byte 197,252,41,108,36,32 // vmovaps %ymm5,0x20(%rsp)
+ .byte 197,252,41,36,36 // vmovaps %ymm4,(%rsp)
+ .byte 73,137,206 // mov %rcx,%r14
.byte 73,137,215 // mov %rdx,%r15
- .byte 73,137,252 // mov %rdi,%r12
+ .byte 73,137,253 // mov %rdi,%r13
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 73,137,198 // mov %rax,%r14
- .byte 73,137,245 // mov %rsi,%r13
+ .byte 72,137,195 // mov %rax,%rbx
+ .byte 73,137,244 // mov %rsi,%r12
.byte 197,252,20,225 // vunpcklps %ymm1,%ymm0,%ymm4
.byte 197,252,21,193 // vunpckhps %ymm1,%ymm0,%ymm0
.byte 197,236,20,203 // vunpcklps %ymm3,%ymm2,%ymm1
@@ -24303,17 +24333,17 @@ _sk_callback_avx:
.byte 196,227,93,24,232,1 // vinsertf128 $0x1,%xmm0,%ymm4,%ymm5
.byte 196,227,101,6,201,49 // vperm2f128 $0x31,%ymm1,%ymm3,%ymm1
.byte 196,227,93,6,192,49 // vperm2f128 $0x31,%ymm0,%ymm4,%ymm0
- .byte 196,193,125,17,86,8 // vmovupd %ymm2,0x8(%r14)
- .byte 196,193,125,17,110,40 // vmovupd %ymm5,0x28(%r14)
- .byte 196,193,125,17,78,72 // vmovupd %ymm1,0x48(%r14)
- .byte 196,193,125,17,70,104 // vmovupd %ymm0,0x68(%r14)
- .byte 72,133,219 // test %rbx,%rbx
+ .byte 197,253,17,83,8 // vmovupd %ymm2,0x8(%rbx)
+ .byte 197,253,17,107,40 // vmovupd %ymm5,0x28(%rbx)
+ .byte 197,253,17,75,72 // vmovupd %ymm1,0x48(%rbx)
+ .byte 197,253,17,67,104 // vmovupd %ymm0,0x68(%rbx)
+ .byte 77,133,237 // test %r13,%r13
.byte 190,8,0,0,0 // mov $0x8,%esi
- .byte 15,69,243 // cmovne %ebx,%esi
- .byte 76,137,247 // mov %r14,%rdi
+ .byte 65,15,69,245 // cmovne %r13d,%esi
+ .byte 72,137,223 // mov %rbx,%rdi
.byte 197,248,119 // vzeroupper
- .byte 65,255,22 // callq *(%r14)
- .byte 73,139,134,136,0,0,0 // mov 0x88(%r14),%rax
+ .byte 255,19 // callq *(%rbx)
+ .byte 72,139,131,136,0,0,0 // mov 0x88(%rbx),%rax
.byte 197,248,16,0 // vmovups (%rax),%xmm0
.byte 197,248,16,72,16 // vmovups 0x10(%rax),%xmm1
.byte 197,248,16,80,32 // vmovups 0x20(%rax),%xmm2
@@ -24330,16 +24360,15 @@ _sk_callback_avx:
.byte 197,221,21,201 // vunpckhpd %ymm1,%ymm4,%ymm1
.byte 197,213,20,211 // vunpcklpd %ymm3,%ymm5,%ymm2
.byte 197,213,21,219 // vunpckhpd %ymm3,%ymm5,%ymm3
- .byte 76,137,238 // mov %r13,%rsi
+ .byte 76,137,230 // mov %r12,%rsi
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,137,231 // mov %r12,%rdi
+ .byte 76,137,239 // mov %r13,%rdi
.byte 76,137,250 // mov %r15,%rdx
- .byte 72,139,76,36,24 // mov 0x18(%rsp),%rcx
- .byte 73,137,216 // mov %rbx,%r8
- .byte 197,252,40,100,36,32 // vmovaps 0x20(%rsp),%ymm4
- .byte 197,252,40,108,36,64 // vmovaps 0x40(%rsp),%ymm5
- .byte 197,252,40,116,36,96 // vmovaps 0x60(%rsp),%ymm6
- .byte 197,252,40,188,36,128,0,0,0 // vmovaps 0x80(%rsp),%ymm7
+ .byte 76,137,241 // mov %r14,%rcx
+ .byte 197,252,40,36,36 // vmovaps (%rsp),%ymm4
+ .byte 197,252,40,108,36,32 // vmovaps 0x20(%rsp),%ymm5
+ .byte 197,252,40,116,36,64 // vmovaps 0x40(%rsp),%ymm6
+ .byte 197,252,40,124,36,96 // vmovaps 0x60(%rsp),%ymm7
.byte 72,141,101,216 // lea -0x28(%rbp),%rsp
.byte 91 // pop %rbx
.byte 65,92 // pop %r12
@@ -24353,35 +24382,34 @@ HIDDEN _sk_clut_3D_avx
.globl _sk_clut_3D_avx
FUNCTION(_sk_clut_3D_avx)
_sk_clut_3D_avx:
- .byte 65,87 // push %r15
.byte 65,86 // push %r14
.byte 83 // push %rbx
- .byte 72,129,236,0,2,0,0 // sub $0x200,%rsp
+ .byte 72,129,236,8,2,0,0 // sub $0x208,%rsp
.byte 197,252,17,188,36,224,1,0,0 // vmovups %ymm7,0x1e0(%rsp)
.byte 197,252,17,180,36,192,1,0,0 // vmovups %ymm6,0x1c0(%rsp)
.byte 197,252,17,172,36,160,1,0,0 // vmovups %ymm5,0x1a0(%rsp)
.byte 197,252,17,164,36,128,1,0,0 // vmovups %ymm4,0x180(%rsp)
.byte 197,252,17,156,36,96,1,0,0 // vmovups %ymm3,0x160(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,16 // mov 0x10(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 196,193,121,110,218 // vmovd %r10d,%xmm3
+ .byte 68,139,64,16 // mov 0x10(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 196,193,121,110,217 // vmovd %r9d,%xmm3
.byte 197,249,112,219,0 // vpshufd $0x0,%xmm3,%xmm3
.byte 196,227,101,24,219,1 // vinsertf128 $0x1,%xmm3,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 197,228,89,210 // vmulps %ymm2,%ymm3,%ymm2
.byte 197,252,17,148,36,0,1,0,0 // vmovups %ymm2,0x100(%rsp)
.byte 197,254,91,218 // vcvttps2dq %ymm2,%ymm3
- .byte 68,139,80,12 // mov 0xc(%rax),%r10d
- .byte 69,141,90,255 // lea -0x1(%r10),%r11d
- .byte 196,193,121,110,211 // vmovd %r11d,%xmm2
+ .byte 68,139,72,12 // mov 0xc(%rax),%r9d
+ .byte 69,141,81,255 // lea -0x1(%r9),%r10d
+ .byte 196,193,121,110,210 // vmovd %r10d,%xmm2
.byte 197,249,112,210,0 // vpshufd $0x0,%xmm2,%xmm2
.byte 196,227,109,24,210,1 // vinsertf128 $0x1,%xmm2,%ymm2,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
.byte 197,236,89,201 // vmulps %ymm1,%ymm2,%ymm1
.byte 197,252,17,12,36 // vmovups %ymm1,(%rsp)
.byte 197,254,91,225 // vcvttps2dq %ymm1,%ymm4
- .byte 196,193,121,110,201 // vmovd %r9d,%xmm1
+ .byte 196,193,121,110,200 // vmovd %r8d,%xmm1
.byte 197,121,112,233,0 // vpshufd $0x0,%xmm1,%xmm13
.byte 196,194,89,64,213 // vpmulld %xmm13,%xmm4,%xmm2
.byte 197,253,111,236 // vmovdqa %ymm4,%ymm5
@@ -24389,12 +24417,12 @@ _sk_clut_3D_avx:
.byte 197,249,127,148,36,160,0,0,0 // vmovdqa %xmm2,0xa0(%rsp)
.byte 197,105,254,211 // vpaddd %xmm3,%xmm2,%xmm10
.byte 197,254,127,156,36,224,0,0,0 // vmovdqu %ymm3,0xe0(%rsp)
- .byte 196,193,121,110,210 // vmovd %r10d,%xmm2
+ .byte 196,193,121,110,209 // vmovd %r9d,%xmm2
.byte 196,226,105,64,201 // vpmulld %xmm1,%xmm2,%xmm1
.byte 197,121,112,241,0 // vpshufd $0x0,%xmm1,%xmm14
- .byte 68,139,72,8 // mov 0x8(%rax),%r9d
- .byte 65,255,201 // dec %r9d
- .byte 196,193,121,110,201 // vmovd %r9d,%xmm1
+ .byte 68,139,64,8 // mov 0x8(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 196,193,121,110,200 // vmovd %r8d,%xmm1
.byte 197,249,112,201,0 // vpshufd $0x0,%xmm1,%xmm1
.byte 196,227,117,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm1,%ymm1
.byte 197,252,91,201 // vcvtdq2ps %ymm1,%ymm1
@@ -24406,18 +24434,18 @@ _sk_clut_3D_avx:
.byte 197,249,127,68,36,224 // vmovdqa %xmm0,-0x20(%rsp)
.byte 72,139,0 // mov (%rax),%rax
.byte 196,193,121,254,194 // vpaddd %xmm10,%xmm0,%xmm0
- .byte 196,98,121,24,29,194,196,1,0 // vbroadcastss 0x1c4c2(%rip),%xmm11 # 2baa0 <_sk_overlay_sse2_8bit+0x5bb>
+ .byte 196,98,121,24,29,196,196,1,0 // vbroadcastss 0x1c4c4(%rip),%xmm11 # 2ba58 <_sk_overlay_sse2_8bit+0x5bb>
.byte 196,194,121,64,203 // vpmulld %xmm11,%xmm0,%xmm1
- .byte 196,193,249,126,201 // vmovq %xmm1,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 196,195,249,22,203,1 // vpextrq $0x1,%xmm1,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,4,144 // vmovss (%rax,%r10,4),%xmm0
- .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
- .byte 196,227,121,33,4,152,32 // vinsertps $0x20,(%rax,%rbx,4),%xmm0,%xmm0
- .byte 196,161,122,16,20,152 // vmovss (%rax,%r11,4),%xmm2
+ .byte 196,193,249,126,200 // vmovq %xmm1,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 196,195,249,22,202,1 // vpextrq $0x1,%xmm1,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
+ .byte 196,163,121,33,4,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 196,161,122,16,20,144 // vmovss (%rax,%r10,4),%xmm2
.byte 196,227,121,33,226,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm4
.byte 196,227,125,25,232,1 // vextractf128 $0x1,%ymm5,%xmm0
.byte 196,194,121,64,213 // vpmulld %xmm13,%xmm0,%xmm2
@@ -24430,73 +24458,73 @@ _sk_clut_3D_avx:
.byte 197,233,254,192 // vpaddd %xmm0,%xmm2,%xmm0
.byte 197,209,254,208 // vpaddd %xmm0,%xmm5,%xmm2
.byte 196,194,105,64,211 // vpmulld %xmm11,%xmm2,%xmm2
- .byte 197,249,126,211 // vmovd %xmm2,%ebx
+ .byte 196,193,121,126,208 // vmovd %xmm2,%r8d
.byte 196,195,121,22,209,1 // vpextrd $0x1,%xmm2,%r9d
.byte 196,195,121,22,210,2 // vpextrd $0x2,%xmm2,%r10d
.byte 196,195,121,22,211,3 // vpextrd $0x3,%xmm2,%r11d
- .byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,163,65,33,60,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
.byte 196,163,65,33,60,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm7,%xmm7
.byte 196,163,65,33,60,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm7,%xmm7
.byte 196,227,93,24,223,1 // vinsertf128 $0x1,%xmm7,%ymm4,%ymm3
.byte 197,252,17,92,36,64 // vmovups %ymm3,0x40(%rsp)
- .byte 196,98,121,24,13,141,194,1,0 // vbroadcastss 0x1c28d(%rip),%xmm9 # 2b92c <_sk_overlay_sse2_8bit+0x447>
+ .byte 196,98,121,24,13,141,194,1,0 // vbroadcastss 0x1c28d(%rip),%xmm9 # 2b8e4 <_sk_overlay_sse2_8bit+0x447>
.byte 196,193,105,254,249 // vpaddd %xmm9,%xmm2,%xmm7
- .byte 196,195,249,22,249,1 // vpextrq $0x1,%xmm7,%r9
- .byte 196,193,249,126,250 // vmovq %xmm7,%r10
+ .byte 196,195,249,22,248,1 // vpextrq $0x1,%xmm7,%r8
+ .byte 196,193,249,126,249 // vmovq %xmm7,%r9
.byte 196,193,113,254,249 // vpaddd %xmm9,%xmm1,%xmm7
- .byte 196,225,249,126,251 // vmovq %xmm7,%rbx
+ .byte 196,193,249,126,250 // vmovq %xmm7,%r10
.byte 196,195,249,22,251,1 // vpextrq $0x1,%xmm7,%r11
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,60,176 // vmovss (%rax,%r14,4),%xmm7
- .byte 196,163,65,33,60,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
- .byte 196,161,122,16,52,184 // vmovss (%rax,%r15,4),%xmm6
- .byte 196,227,65,33,246,32 // vinsertps $0x20,%xmm6,%xmm7,%xmm6
+ .byte 68,137,203 // mov %r9d,%ebx
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
+ .byte 196,163,65,33,60,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
+ .byte 196,161,122,16,52,176 // vmovss (%rax,%r14,4),%xmm6
+ .byte 196,227,65,33,246,32 // vinsertps $0x20,%xmm6,%xmm7,%xmm6
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,227,73,33,247,48 // vinsertps $0x30,%xmm7,%xmm6,%xmm6
- .byte 65,137,217 // mov %ebx,%r9d
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 72,193,235,32 // shr $0x20,%rbx
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
- .byte 196,227,65,33,60,152,16 // vinsertps $0x10,(%rax,%rbx,4),%xmm7,%xmm7
- .byte 196,161,122,16,44,144 // vmovss (%rax,%r10,4),%xmm5
+ .byte 68,137,211 // mov %r10d,%ebx
+ .byte 69,137,216 // mov %r11d,%r8d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
+ .byte 196,163,65,33,60,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ .byte 196,161,122,16,44,128 // vmovss (%rax,%r8,4),%xmm5
.byte 196,227,65,33,237,32 // vinsertps $0x20,%xmm5,%xmm7,%xmm5
.byte 73,193,235,32 // shr $0x20,%r11
.byte 196,161,122,16,60,152 // vmovss (%rax,%r11,4),%xmm7
.byte 196,227,81,33,239,48 // vinsertps $0x30,%xmm7,%xmm5,%xmm5
.byte 196,99,85,24,254,1 // vinsertf128 $0x1,%xmm6,%ymm5,%ymm15
- .byte 196,98,121,24,37,0,194,1,0 // vbroadcastss 0x1c200(%rip),%xmm12 # 2b934 <_sk_overlay_sse2_8bit+0x44f>
+ .byte 196,98,121,24,37,2,194,1,0 // vbroadcastss 0x1c202(%rip),%xmm12 # 2b8ec <_sk_overlay_sse2_8bit+0x44f>
.byte 196,193,105,254,212 // vpaddd %xmm12,%xmm2,%xmm2
- .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 196,195,249,22,208,1 // vpextrq $0x1,%xmm2,%r8
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 196,193,113,254,204 // vpaddd %xmm12,%xmm1,%xmm1
- .byte 196,193,249,126,203 // vmovq %xmm1,%r11
+ .byte 196,193,249,126,202 // vmovq %xmm1,%r10
.byte 196,227,249,22,203,1 // vpextrq $0x1,%xmm1,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,12,176 // vmovss (%rax,%r14,4),%xmm1
- .byte 196,163,113,33,12,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
- .byte 196,227,113,33,202,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm1
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,12,152 // vmovss (%rax,%r11,4),%xmm1
+ .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
+ .byte 196,227,113,33,202,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm1
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
.byte 196,227,113,33,202,48 // vinsertps $0x30,%xmm2,%xmm1,%xmm1
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,44,144 // vmovss (%rax,%r10,4),%xmm5
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,44,136 // vmovss (%rax,%r9,4),%xmm5
.byte 196,227,105,33,213,32 // vinsertps $0x20,%xmm5,%xmm2,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,44,152 // vmovss (%rax,%rbx,4),%xmm5
.byte 196,227,105,33,213,48 // vinsertps $0x30,%xmm5,%xmm2,%xmm2
.byte 196,227,109,24,225,1 // vinsertf128 $0x1,%xmm1,%ymm2,%ymm4
- .byte 196,226,125,24,13,212,194,1,0 // vbroadcastss 0x1c2d4(%rip),%ymm1 # 2ba9c <_sk_overlay_sse2_8bit+0x5b7>
+ .byte 196,226,125,24,13,214,194,1,0 // vbroadcastss 0x1c2d6(%rip),%ymm1 # 2ba54 <_sk_overlay_sse2_8bit+0x5b7>
.byte 197,188,88,209 // vaddps %ymm1,%ymm8,%ymm2
.byte 197,252,17,76,36,32 // vmovups %ymm1,0x20(%rsp)
.byte 197,254,91,210 // vcvttps2dq %ymm2,%ymm2
@@ -24507,77 +24535,77 @@ _sk_clut_3D_avx:
.byte 197,249,127,84,36,192 // vmovdqa %xmm2,-0x40(%rsp)
.byte 196,193,105,254,210 // vpaddd %xmm10,%xmm2,%xmm2
.byte 196,194,105,64,235 // vpmulld %xmm11,%xmm2,%xmm5
- .byte 196,193,249,126,234 // vmovq %xmm5,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,233 // vmovq %xmm5,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,235,1 // vpextrq $0x1,%xmm5,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm2,%xmm2
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
.byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
.byte 196,227,105,33,214,48 // vinsertps $0x30,%xmm6,%xmm2,%xmm2
.byte 197,225,254,192 // vpaddd %xmm0,%xmm3,%xmm0
.byte 196,194,121,64,195 // vpmulld %xmm11,%xmm0,%xmm0
.byte 197,249,126,195 // vmovd %xmm0,%ebx
- .byte 196,195,121,22,193,1 // vpextrd $0x1,%xmm0,%r9d
- .byte 196,195,121,22,194,2 // vpextrd $0x2,%xmm0,%r10d
- .byte 196,195,121,22,195,3 // vpextrd $0x3,%xmm0,%r11d
+ .byte 196,195,121,22,192,1 // vpextrd $0x1,%xmm0,%r8d
+ .byte 196,195,121,22,193,2 // vpextrd $0x2,%xmm0,%r9d
+ .byte 196,195,121,22,194,3 // vpextrd $0x3,%xmm0,%r10d
.byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
- .byte 196,163,73,33,52,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm6,%xmm6
- .byte 196,163,73,33,52,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm6,%xmm6
- .byte 196,163,73,33,52,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm6,%xmm6
+ .byte 196,163,73,33,52,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm6,%xmm6
+ .byte 196,163,73,33,52,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm6,%xmm6
+ .byte 196,163,73,33,52,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm6,%xmm6
.byte 196,227,109,24,214,1 // vinsertf128 $0x1,%xmm6,%ymm2,%ymm2
.byte 196,193,121,254,241 // vpaddd %xmm9,%xmm0,%xmm6
- .byte 196,195,249,22,241,1 // vpextrq $0x1,%xmm6,%r9
- .byte 196,193,249,126,242 // vmovq %xmm6,%r10
+ .byte 196,195,249,22,240,1 // vpextrq $0x1,%xmm6,%r8
+ .byte 196,193,249,126,241 // vmovq %xmm6,%r9
.byte 196,193,81,254,241 // vpaddd %xmm9,%xmm5,%xmm6
- .byte 196,193,249,126,243 // vmovq %xmm6,%r11
+ .byte 196,193,249,126,242 // vmovq %xmm6,%r10
.byte 196,227,249,22,243,1 // vpextrq $0x1,%xmm6,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,52,176 // vmovss (%rax,%r14,4),%xmm6
- .byte 196,163,73,33,52,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm6,%xmm6
- .byte 196,161,122,16,60,184 // vmovss (%rax,%r15,4),%xmm7
- .byte 196,227,73,33,247,32 // vinsertps $0x20,%xmm7,%xmm6,%xmm6
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,52,152 // vmovss (%rax,%r11,4),%xmm6
+ .byte 196,163,73,33,52,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm6,%xmm6
+ .byte 196,161,122,16,60,176 // vmovss (%rax,%r14,4),%xmm7
+ .byte 196,227,73,33,247,32 // vinsertps $0x20,%xmm7,%xmm6,%xmm6
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,227,73,33,247,48 // vinsertps $0x30,%xmm7,%xmm6,%xmm6
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
- .byte 196,163,65,33,60,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm7,%xmm7
- .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
+ .byte 196,163,65,33,60,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
.byte 196,227,65,33,219,32 // vinsertps $0x20,%xmm3,%xmm7,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,97,33,223,48 // vinsertps $0x30,%xmm7,%xmm3,%xmm3
.byte 196,99,101,24,214,1 // vinsertf128 $0x1,%xmm6,%ymm3,%ymm10
.byte 196,193,121,254,196 // vpaddd %xmm12,%xmm0,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,81,254,196 // vpaddd %xmm12,%xmm5,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,44,144 // vmovss (%rax,%r10,4),%xmm5
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,44,136 // vmovss (%rax,%r9,4),%xmm5
.byte 196,227,97,33,221,32 // vinsertps $0x20,%xmm5,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,44,152 // vmovss (%rax,%rbx,4),%xmm5
@@ -24609,15 +24637,15 @@ _sk_clut_3D_avx:
.byte 197,249,111,100,36,224 // vmovdqa -0x20(%rsp),%xmm4
.byte 197,201,254,196 // vpaddd %xmm4,%xmm6,%xmm0
.byte 196,194,121,64,235 // vpmulld %xmm11,%xmm0,%xmm5
- .byte 196,193,249,126,234 // vmovq %xmm5,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,233 // vmovq %xmm5,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,235,1 // vpextrq $0x1,%xmm5,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
.byte 196,227,121,33,201,48 // vinsertps $0x30,%xmm1,%xmm0,%xmm1
.byte 197,233,254,124,36,128 // vpaddd -0x80(%rsp),%xmm2,%xmm7
@@ -24625,64 +24653,64 @@ _sk_clut_3D_avx:
.byte 196,193,65,254,197 // vpaddd %xmm13,%xmm7,%xmm0
.byte 196,194,121,64,195 // vpmulld %xmm11,%xmm0,%xmm0
.byte 197,249,126,195 // vmovd %xmm0,%ebx
- .byte 196,195,121,22,193,1 // vpextrd $0x1,%xmm0,%r9d
- .byte 196,195,121,22,194,2 // vpextrd $0x2,%xmm0,%r10d
- .byte 196,195,121,22,195,3 // vpextrd $0x3,%xmm0,%r11d
+ .byte 196,195,121,22,192,1 // vpextrd $0x1,%xmm0,%r8d
+ .byte 196,195,121,22,193,2 // vpextrd $0x2,%xmm0,%r9d
+ .byte 196,195,121,22,194,3 // vpextrd $0x3,%xmm0,%r10d
.byte 197,250,16,20,152 // vmovss (%rax,%rbx,4),%xmm2
- .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm2,%xmm2
.byte 196,227,117,24,202,1 // vinsertf128 $0x1,%xmm2,%ymm1,%ymm1
.byte 197,252,17,76,36,128 // vmovups %ymm1,-0x80(%rsp)
.byte 196,193,121,254,201 // vpaddd %xmm9,%xmm0,%xmm1
- .byte 196,195,249,22,201,1 // vpextrq $0x1,%xmm1,%r9
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
+ .byte 196,195,249,22,200,1 // vpextrq $0x1,%xmm1,%r8
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
.byte 196,193,81,254,201 // vpaddd %xmm9,%xmm5,%xmm1
- .byte 196,193,249,126,203 // vmovq %xmm1,%r11
+ .byte 196,193,249,126,202 // vmovq %xmm1,%r10
.byte 196,227,249,22,203,1 // vpextrq $0x1,%xmm1,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,12,176 // vmovss (%rax,%r14,4),%xmm1
- .byte 196,163,113,33,12,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
- .byte 196,227,113,33,202,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm1
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,12,152 // vmovss (%rax,%r11,4),%xmm1
+ .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
+ .byte 196,227,113,33,202,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm1
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
.byte 196,227,113,33,202,48 // vinsertps $0x30,%xmm2,%xmm1,%xmm1
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
.byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
.byte 196,99,109,24,209,1 // vinsertf128 $0x1,%xmm1,%ymm2,%ymm10
.byte 196,193,121,254,196 // vpaddd %xmm12,%xmm0,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,81,254,196 // vpaddd %xmm12,%xmm5,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
- .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
+ .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
.byte 196,227,121,33,194,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
.byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
@@ -24691,77 +24719,77 @@ _sk_clut_3D_avx:
.byte 197,121,111,124,36,192 // vmovdqa -0x40(%rsp),%xmm15
.byte 197,129,254,198 // vpaddd %xmm6,%xmm15,%xmm0
.byte 196,194,121,64,243 // vpmulld %xmm11,%xmm0,%xmm6
- .byte 196,193,249,126,242 // vmovq %xmm6,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,241 // vmovq %xmm6,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,243,1 // vpextrq $0x1,%xmm6,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,20,152 // vmovss (%rax,%rbx,4),%xmm2
.byte 196,227,121,33,210,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm2
.byte 197,193,254,68,36,240 // vpaddd -0x10(%rsp),%xmm7,%xmm0
.byte 196,194,121,64,195 // vpmulld %xmm11,%xmm0,%xmm0
.byte 197,249,126,195 // vmovd %xmm0,%ebx
- .byte 196,195,121,22,193,1 // vpextrd $0x1,%xmm0,%r9d
- .byte 196,195,121,22,194,2 // vpextrd $0x2,%xmm0,%r10d
- .byte 196,195,121,22,195,3 // vpextrd $0x3,%xmm0,%r11d
+ .byte 196,195,121,22,192,1 // vpextrd $0x1,%xmm0,%r8d
+ .byte 196,195,121,22,193,2 // vpextrd $0x2,%xmm0,%r9d
+ .byte 196,195,121,22,194,3 // vpextrd $0x3,%xmm0,%r10d
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
- .byte 196,163,97,33,28,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
- .byte 196,163,97,33,28,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
- .byte 196,163,97,33,28,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm3,%xmm3
.byte 196,227,109,24,251,1 // vinsertf128 $0x1,%xmm3,%ymm2,%ymm7
.byte 196,193,121,254,209 // vpaddd %xmm9,%xmm0,%xmm2
- .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 196,195,249,22,208,1 // vpextrq $0x1,%xmm2,%r8
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 196,193,73,254,209 // vpaddd %xmm9,%xmm6,%xmm2
- .byte 196,193,249,126,211 // vmovq %xmm2,%r11
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,20,152 // vmovss (%rax,%r11,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,12,144 // vmovss (%rax,%r10,4),%xmm1
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,12,136 // vmovss (%rax,%r9,4),%xmm1
.byte 196,227,97,33,201,32 // vinsertps $0x20,%xmm1,%xmm3,%xmm1
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,113,33,203,48 // vinsertps $0x30,%xmm3,%xmm1,%xmm1
.byte 196,99,117,24,194,1 // vinsertf128 $0x1,%xmm2,%ymm1,%ymm8
.byte 196,193,121,254,196 // vpaddd %xmm12,%xmm0,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,73,254,196 // vpaddd %xmm12,%xmm6,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,12,184 // vmovss (%rax,%r15,4),%xmm1
- .byte 196,227,121,33,193,32 // vinsertps $0x20,%xmm1,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,12,136 // vmovss (%rax,%r9,4),%xmm1
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,12,176 // vmovss (%rax,%r14,4),%xmm1
+ .byte 196,227,121,33,193,32 // vinsertps $0x20,%xmm1,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,12,128 // vmovss (%rax,%r8,4),%xmm1
.byte 196,227,121,33,193,48 // vinsertps $0x30,%xmm1,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,12,136 // vmovss (%rax,%r9,4),%xmm1
- .byte 196,163,113,33,12,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm1,%xmm1
- .byte 196,161,122,16,20,144 // vmovss (%rax,%r10,4),%xmm2
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,12,128 // vmovss (%rax,%r8,4),%xmm1
+ .byte 196,163,113,33,12,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
+ .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
.byte 196,227,113,33,202,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm1
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,20,152 // vmovss (%rax,%rbx,4),%xmm2
@@ -24802,15 +24830,15 @@ _sk_clut_3D_avx:
.byte 197,185,254,188,36,160,0,0,0 // vpaddd 0xa0(%rsp),%xmm8,%xmm7
.byte 197,217,254,199 // vpaddd %xmm7,%xmm4,%xmm0
.byte 196,194,121,64,243 // vpmulld %xmm11,%xmm0,%xmm6
- .byte 196,193,249,126,242 // vmovq %xmm6,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,241 // vmovq %xmm6,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,243,1 // vpextrq $0x1,%xmm6,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
.byte 196,227,121,33,217,48 // vinsertps $0x30,%xmm1,%xmm0,%xmm3
.byte 196,99,125,25,192,1 // vextractf128 $0x1,%ymm8,%xmm0
@@ -24819,63 +24847,63 @@ _sk_clut_3D_avx:
.byte 197,145,254,193 // vpaddd %xmm1,%xmm13,%xmm0
.byte 196,194,121,64,195 // vpmulld %xmm11,%xmm0,%xmm0
.byte 197,249,126,195 // vmovd %xmm0,%ebx
- .byte 196,195,121,22,193,1 // vpextrd $0x1,%xmm0,%r9d
- .byte 196,195,121,22,194,2 // vpextrd $0x2,%xmm0,%r10d
- .byte 196,195,121,22,195,3 // vpextrd $0x3,%xmm0,%r11d
+ .byte 196,195,121,22,192,1 // vpextrd $0x1,%xmm0,%r8d
+ .byte 196,195,121,22,193,2 // vpextrd $0x2,%xmm0,%r9d
+ .byte 196,195,121,22,194,3 // vpextrd $0x3,%xmm0,%r10d
.byte 197,250,16,20,152 // vmovss (%rax,%rbx,4),%xmm2
- .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm2,%xmm2
.byte 196,227,101,24,226,1 // vinsertf128 $0x1,%xmm2,%ymm3,%ymm4
.byte 196,193,121,254,209 // vpaddd %xmm9,%xmm0,%xmm2
- .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 196,195,249,22,208,1 // vpextrq $0x1,%xmm2,%r8
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 196,193,73,254,209 // vpaddd %xmm9,%xmm6,%xmm2
- .byte 196,193,249,126,211 // vmovq %xmm2,%r11
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,20,152 // vmovss (%rax,%r11,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,44,144 // vmovss (%rax,%r10,4),%xmm5
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,44,136 // vmovss (%rax,%r9,4),%xmm5
.byte 196,227,97,33,221,32 // vinsertps $0x20,%xmm5,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,44,152 // vmovss (%rax,%rbx,4),%xmm5
.byte 196,227,97,33,221,48 // vinsertps $0x30,%xmm5,%xmm3,%xmm3
.byte 196,99,101,24,210,1 // vinsertf128 $0x1,%xmm2,%ymm3,%ymm10
.byte 196,193,121,254,196 // vpaddd %xmm12,%xmm0,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,73,254,196 // vpaddd %xmm12,%xmm6,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
- .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
+ .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
.byte 196,227,121,33,194,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
.byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
@@ -24883,78 +24911,78 @@ _sk_clut_3D_avx:
.byte 196,99,109,24,232,1 // vinsertf128 $0x1,%xmm0,%ymm2,%ymm13
.byte 197,129,254,199 // vpaddd %xmm7,%xmm15,%xmm0
.byte 196,194,121,64,243 // vpmulld %xmm11,%xmm0,%xmm6
- .byte 196,193,249,126,242 // vmovq %xmm6,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,241 // vmovq %xmm6,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,243,1 // vpextrq $0x1,%xmm6,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,20,152 // vmovss (%rax,%rbx,4),%xmm2
.byte 196,227,121,33,194,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm0
.byte 197,121,111,124,36,240 // vmovdqa -0x10(%rsp),%xmm15
.byte 197,129,254,201 // vpaddd %xmm1,%xmm15,%xmm1
.byte 196,194,113,64,251 // vpmulld %xmm11,%xmm1,%xmm7
.byte 197,249,126,251 // vmovd %xmm7,%ebx
- .byte 196,195,121,22,249,1 // vpextrd $0x1,%xmm7,%r9d
- .byte 196,195,121,22,250,2 // vpextrd $0x2,%xmm7,%r10d
- .byte 196,195,121,22,251,3 // vpextrd $0x3,%xmm7,%r11d
+ .byte 196,195,121,22,248,1 // vpextrd $0x1,%xmm7,%r8d
+ .byte 196,195,121,22,249,2 // vpextrd $0x2,%xmm7,%r9d
+ .byte 196,195,121,22,250,3 // vpextrd $0x3,%xmm7,%r10d
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
- .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
.byte 196,227,125,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm1
.byte 196,193,65,254,193 // vpaddd %xmm9,%xmm7,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,73,254,193 // vpaddd %xmm9,%xmm6,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
- .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
+ .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
.byte 196,227,121,33,194,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
.byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
.byte 196,227,109,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm2,%ymm0
.byte 196,193,65,254,212 // vpaddd %xmm12,%xmm7,%xmm2
- .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 196,195,249,22,208,1 // vpextrq $0x1,%xmm2,%r8
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 196,193,73,254,212 // vpaddd %xmm12,%xmm6,%xmm2
- .byte 196,193,249,126,211 // vmovq %xmm2,%r11
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,20,152 // vmovss (%rax,%r11,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,44,144 // vmovss (%rax,%r10,4),%xmm5
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,44,136 // vmovss (%rax,%r9,4),%xmm5
.byte 196,227,97,33,221,32 // vinsertps $0x20,%xmm5,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,44,152 // vmovss (%rax,%rbx,4),%xmm5
@@ -24976,77 +25004,77 @@ _sk_clut_3D_avx:
.byte 197,185,254,68,36,64 // vpaddd 0x40(%rsp),%xmm8,%xmm0
.byte 197,249,254,76,36,224 // vpaddd -0x20(%rsp),%xmm0,%xmm1
.byte 196,66,113,64,235 // vpmulld %xmm11,%xmm1,%xmm13
- .byte 196,65,249,126,234 // vmovq %xmm13,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,65,249,126,233 // vmovq %xmm13,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,99,249,22,235,1 // vpextrq $0x1,%xmm13,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,12,136 // vmovss (%rax,%r9,4),%xmm1
- .byte 196,163,113,33,12,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,12,128 // vmovss (%rax,%r8,4),%xmm1
+ .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
.byte 197,250,16,20,152 // vmovss (%rax,%rbx,4),%xmm2
.byte 196,227,113,33,202,48 // vinsertps $0x30,%xmm2,%xmm1,%xmm1
.byte 197,201,254,84,36,208 // vpaddd -0x30(%rsp),%xmm6,%xmm2
.byte 196,194,105,64,211 // vpmulld %xmm11,%xmm2,%xmm2
.byte 197,249,126,211 // vmovd %xmm2,%ebx
- .byte 196,195,121,22,209,1 // vpextrd $0x1,%xmm2,%r9d
- .byte 196,195,121,22,210,2 // vpextrd $0x2,%xmm2,%r10d
- .byte 196,195,121,22,211,3 // vpextrd $0x3,%xmm2,%r11d
+ .byte 196,195,121,22,208,1 // vpextrd $0x1,%xmm2,%r8d
+ .byte 196,195,121,22,209,2 // vpextrd $0x2,%xmm2,%r9d
+ .byte 196,195,121,22,210,3 // vpextrd $0x3,%xmm2,%r10d
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
- .byte 196,163,97,33,28,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
- .byte 196,163,97,33,28,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
- .byte 196,163,97,33,28,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm3,%xmm3
.byte 196,227,117,24,203,1 // vinsertf128 $0x1,%xmm3,%ymm1,%ymm1
.byte 196,193,105,254,217 // vpaddd %xmm9,%xmm2,%xmm3
- .byte 196,195,249,22,217,1 // vpextrq $0x1,%xmm3,%r9
- .byte 196,193,249,126,218 // vmovq %xmm3,%r10
+ .byte 196,195,249,22,216,1 // vpextrq $0x1,%xmm3,%r8
+ .byte 196,193,249,126,217 // vmovq %xmm3,%r9
.byte 196,193,17,254,217 // vpaddd %xmm9,%xmm13,%xmm3
- .byte 196,193,249,126,219 // vmovq %xmm3,%r11
+ .byte 196,193,249,126,218 // vmovq %xmm3,%r10
.byte 196,227,249,22,219,1 // vpextrq $0x1,%xmm3,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
- .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
- .byte 196,161,122,16,44,184 // vmovss (%rax,%r15,4),%xmm5
- .byte 196,227,97,33,221,32 // vinsertps $0x20,%xmm5,%xmm3,%xmm3
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,44,136 // vmovss (%rax,%r9,4),%xmm5
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,28,152 // vmovss (%rax,%r11,4),%xmm3
+ .byte 196,163,97,33,28,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
+ .byte 196,161,122,16,44,176 // vmovss (%rax,%r14,4),%xmm5
+ .byte 196,227,97,33,221,32 // vinsertps $0x20,%xmm5,%xmm3,%xmm3
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,44,128 // vmovss (%rax,%r8,4),%xmm5
.byte 196,227,97,33,221,48 // vinsertps $0x30,%xmm5,%xmm3,%xmm3
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,44,136 // vmovss (%rax,%r9,4),%xmm5
- .byte 196,163,81,33,44,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm5,%xmm5
- .byte 196,161,122,16,60,144 // vmovss (%rax,%r10,4),%xmm7
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,44,128 // vmovss (%rax,%r8,4),%xmm5
+ .byte 196,163,81,33,44,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm5,%xmm5
+ .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
.byte 196,227,81,33,239,32 // vinsertps $0x20,%xmm7,%xmm5,%xmm5
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,81,33,239,48 // vinsertps $0x30,%xmm7,%xmm5,%xmm5
.byte 196,227,85,24,235,1 // vinsertf128 $0x1,%xmm3,%ymm5,%ymm5
.byte 196,193,105,254,212 // vpaddd %xmm12,%xmm2,%xmm2
- .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 196,195,249,22,208,1 // vpextrq $0x1,%xmm2,%r8
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 196,193,17,254,212 // vpaddd %xmm12,%xmm13,%xmm2
- .byte 196,193,249,126,211 // vmovq %xmm2,%r11
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,20,152 // vmovss (%rax,%r11,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,60,144 // vmovss (%rax,%r10,4),%xmm7
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
.byte 196,227,97,33,223,32 // vinsertps $0x20,%xmm7,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
@@ -25056,78 +25084,78 @@ _sk_clut_3D_avx:
.byte 197,129,254,214 // vpaddd %xmm6,%xmm15,%xmm2
.byte 196,194,105,64,243 // vpmulld %xmm11,%xmm2,%xmm6
.byte 196,194,121,64,195 // vpmulld %xmm11,%xmm0,%xmm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm2,%xmm2
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
.byte 197,249,126,243 // vmovd %xmm6,%ebx
- .byte 196,195,121,22,241,1 // vpextrd $0x1,%xmm6,%r9d
- .byte 196,195,121,22,242,2 // vpextrd $0x2,%xmm6,%r10d
- .byte 196,195,121,22,243,3 // vpextrd $0x3,%xmm6,%r11d
+ .byte 196,195,121,22,240,1 // vpextrd $0x1,%xmm6,%r8d
+ .byte 196,195,121,22,241,2 // vpextrd $0x2,%xmm6,%r9d
+ .byte 196,195,121,22,242,3 // vpextrd $0x3,%xmm6,%r10d
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
- .byte 196,163,97,33,28,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
- .byte 196,163,97,33,28,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
- .byte 196,163,97,33,28,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm3,%xmm3
.byte 196,227,109,24,219,1 // vinsertf128 $0x1,%xmm3,%ymm2,%ymm3
.byte 196,193,73,254,209 // vpaddd %xmm9,%xmm6,%xmm2
- .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 196,195,249,22,208,1 // vpextrq $0x1,%xmm2,%r8
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 196,193,121,254,209 // vpaddd %xmm9,%xmm0,%xmm2
- .byte 196,193,249,126,211 // vmovq %xmm2,%r11
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,161,122,16,36,184 // vmovss (%rax,%r15,4),%xmm4
- .byte 196,227,105,33,212,32 // vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,20,152 // vmovss (%rax,%r11,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
+ .byte 196,227,105,33,212,32 // vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
.byte 196,227,105,33,212,48 // vinsertps $0x30,%xmm4,%xmm2,%xmm2
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
- .byte 196,163,89,33,36,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- .byte 196,161,122,16,60,144 // vmovss (%rax,%r10,4),%xmm7
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
+ .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
.byte 196,227,89,33,231,32 // vinsertps $0x20,%xmm7,%xmm4,%xmm4
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,89,33,231,48 // vinsertps $0x30,%xmm7,%xmm4,%xmm4
.byte 196,227,93,24,210,1 // vinsertf128 $0x1,%xmm2,%ymm4,%ymm2
.byte 196,193,73,254,228 // vpaddd %xmm12,%xmm6,%xmm4
- .byte 196,195,249,22,225,1 // vpextrq $0x1,%xmm4,%r9
- .byte 196,193,249,126,226 // vmovq %xmm4,%r10
+ .byte 196,195,249,22,224,1 // vpextrq $0x1,%xmm4,%r8
+ .byte 196,193,249,126,225 // vmovq %xmm4,%r9
.byte 196,193,121,254,196 // vpaddd %xmm12,%xmm0,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
- .byte 196,195,249,22,199,1 // vpextrq $0x1,%xmm0,%r15
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 68,137,203 // mov %r9d,%ebx
- .byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
- .byte 196,227,121,33,196,32 // vinsertps $0x20,%xmm4,%xmm0,%xmm0
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
+ .byte 196,227,121,33,196,32 // vinsertps $0x20,%xmm4,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
.byte 196,227,121,33,196,48 // vinsertps $0x30,%xmm4,%xmm0,%xmm0
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
- .byte 196,163,89,33,36,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- .byte 68,137,251 // mov %r15d,%ebx
- .byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
+ .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
.byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
- .byte 73,193,239,32 // shr $0x20,%r15
- .byte 196,161,122,16,52,184 // vmovss (%rax,%r15,4),%xmm6
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
.byte 196,227,89,33,230,48 // vinsertps $0x30,%xmm6,%xmm4,%xmm4
.byte 196,227,93,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm4,%ymm0
.byte 197,228,92,217 // vsubps %ymm1,%ymm3,%ymm3
@@ -25172,44 +25200,42 @@ _sk_clut_3D_avx:
.byte 197,252,16,172,36,160,1,0,0 // vmovups 0x1a0(%rsp),%ymm5
.byte 197,252,16,180,36,192,1,0,0 // vmovups 0x1c0(%rsp),%ymm6
.byte 197,252,16,188,36,224,1,0,0 // vmovups 0x1e0(%rsp),%ymm7
- .byte 72,129,196,0,2,0,0 // add $0x200,%rsp
+ .byte 72,129,196,8,2,0,0 // add $0x208,%rsp
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_clut_4D_avx
.globl _sk_clut_4D_avx
FUNCTION(_sk_clut_4D_avx)
_sk_clut_4D_avx:
- .byte 65,87 // push %r15
.byte 65,86 // push %r14
.byte 83 // push %rbx
- .byte 72,129,236,160,2,0,0 // sub $0x2a0,%rsp
+ .byte 72,129,236,168,2,0,0 // sub $0x2a8,%rsp
.byte 197,252,17,188,36,128,2,0,0 // vmovups %ymm7,0x280(%rsp)
.byte 197,252,17,180,36,96,2,0,0 // vmovups %ymm6,0x260(%rsp)
.byte 197,252,17,172,36,64,2,0,0 // vmovups %ymm5,0x240(%rsp)
.byte 197,252,17,164,36,32,2,0,0 // vmovups %ymm4,0x220(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,20 // mov 0x14(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 196,193,121,110,226 // vmovd %r10d,%xmm4
+ .byte 68,139,64,20 // mov 0x14(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 196,193,121,110,225 // vmovd %r9d,%xmm4
.byte 197,249,112,228,0 // vpshufd $0x0,%xmm4,%xmm4
.byte 196,227,93,24,228,1 // vinsertf128 $0x1,%xmm4,%ymm4,%ymm4
.byte 197,252,91,228 // vcvtdq2ps %ymm4,%ymm4
.byte 197,220,89,219 // vmulps %ymm3,%ymm4,%ymm3
.byte 197,252,17,156,36,0,2,0,0 // vmovups %ymm3,0x200(%rsp)
.byte 197,254,91,227 // vcvttps2dq %ymm3,%ymm4
- .byte 68,139,80,16 // mov 0x10(%rax),%r10d
- .byte 69,141,90,255 // lea -0x1(%r10),%r11d
- .byte 196,193,121,110,219 // vmovd %r11d,%xmm3
+ .byte 68,139,72,16 // mov 0x10(%rax),%r9d
+ .byte 69,141,81,255 // lea -0x1(%r9),%r10d
+ .byte 196,193,121,110,218 // vmovd %r10d,%xmm3
.byte 197,249,112,219,0 // vpshufd $0x0,%xmm3,%xmm3
.byte 196,227,101,24,219,1 // vinsertf128 $0x1,%xmm3,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 197,228,89,210 // vmulps %ymm2,%ymm3,%ymm2
.byte 197,252,17,148,36,32,1,0,0 // vmovups %ymm2,0x120(%rsp)
.byte 197,254,91,234 // vcvttps2dq %ymm2,%ymm5
- .byte 196,193,121,110,209 // vmovd %r9d,%xmm2
+ .byte 196,193,121,110,208 // vmovd %r8d,%xmm2
.byte 197,249,112,242,0 // vpshufd $0x0,%xmm2,%xmm6
.byte 196,226,81,64,222 // vpmulld %xmm6,%xmm5,%xmm3
.byte 197,249,111,254 // vmovdqa %xmm6,%xmm7
@@ -25219,22 +25245,22 @@ _sk_clut_4D_avx:
.byte 197,225,254,244 // vpaddd %xmm4,%xmm3,%xmm6
.byte 197,249,127,116,36,96 // vmovdqa %xmm6,0x60(%rsp)
.byte 197,254,127,164,36,224,1,0,0 // vmovdqu %ymm4,0x1e0(%rsp)
- .byte 196,193,121,110,218 // vmovd %r10d,%xmm3
+ .byte 196,193,121,110,217 // vmovd %r9d,%xmm3
.byte 196,226,97,64,210 // vpmulld %xmm2,%xmm3,%xmm2
.byte 197,121,112,194,0 // vpshufd $0x0,%xmm2,%xmm8
- .byte 68,139,72,12 // mov 0xc(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 196,193,121,110,218 // vmovd %r10d,%xmm3
+ .byte 68,139,64,12 // mov 0xc(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 196,193,121,110,217 // vmovd %r9d,%xmm3
.byte 197,249,112,219,0 // vpshufd $0x0,%xmm3,%xmm3
.byte 196,227,101,24,219,1 // vinsertf128 $0x1,%xmm3,%ymm3,%ymm3
.byte 197,252,91,219 // vcvtdq2ps %ymm3,%ymm3
.byte 197,228,89,217 // vmulps %ymm1,%ymm3,%ymm3
.byte 197,252,17,156,36,128,0,0,0 // vmovups %ymm3,0x80(%rsp)
- .byte 196,193,121,110,201 // vmovd %r9d,%xmm1
+ .byte 196,193,121,110,200 // vmovd %r8d,%xmm1
.byte 196,226,113,64,202 // vpmulld %xmm2,%xmm1,%xmm1
- .byte 68,139,72,8 // mov 0x8(%rax),%r9d
- .byte 65,255,201 // dec %r9d
- .byte 196,193,121,110,209 // vmovd %r9d,%xmm2
+ .byte 68,139,64,8 // mov 0x8(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 196,193,121,110,208 // vmovd %r8d,%xmm2
.byte 197,249,112,210,0 // vpshufd $0x0,%xmm2,%xmm2
.byte 196,227,109,24,210,1 // vinsertf128 $0x1,%xmm2,%ymm2,%ymm2
.byte 197,252,91,210 // vcvtdq2ps %ymm2,%ymm2
@@ -25251,18 +25277,18 @@ _sk_clut_4D_avx:
.byte 196,226,25,64,200 // vpmulld %xmm0,%xmm12,%xmm1
.byte 197,249,127,76,36,128 // vmovdqa %xmm1,-0x80(%rsp)
.byte 197,241,254,202 // vpaddd %xmm2,%xmm1,%xmm1
- .byte 196,98,121,24,61,130,179,1,0 // vbroadcastss 0x1b382(%rip),%xmm15 # 2baa0 <_sk_overlay_sse2_8bit+0x5bb>
+ .byte 196,98,121,24,61,134,179,1,0 // vbroadcastss 0x1b386(%rip),%xmm15 # 2ba58 <_sk_overlay_sse2_8bit+0x5bb>
.byte 196,194,113,64,247 // vpmulld %xmm15,%xmm1,%xmm6
- .byte 196,193,249,126,241 // vmovq %xmm6,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 196,195,249,22,243,1 // vpextrq $0x1,%xmm6,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,12,144 // vmovss (%rax,%r10,4),%xmm1
- .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- .byte 196,227,113,33,12,152,32 // vinsertps $0x20,(%rax,%rbx,4),%xmm1,%xmm1
- .byte 196,161,122,16,28,152 // vmovss (%rax,%r11,4),%xmm3
+ .byte 196,193,249,126,240 // vmovq %xmm6,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 196,195,249,22,242,1 // vpextrq $0x1,%xmm6,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,12,136 // vmovss (%rax,%r9,4),%xmm1
+ .byte 196,163,113,33,12,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
.byte 196,99,113,33,203,48 // vinsertps $0x30,%xmm3,%xmm1,%xmm9
.byte 196,227,125,25,233,1 // vextractf128 $0x1,%ymm5,%xmm1
.byte 196,226,113,64,239 // vpmulld %xmm7,%xmm1,%xmm5
@@ -25280,72 +25306,72 @@ _sk_clut_4D_avx:
.byte 197,225,254,201 // vpaddd %xmm1,%xmm3,%xmm1
.byte 197,193,254,217 // vpaddd %xmm1,%xmm7,%xmm3
.byte 196,194,97,64,223 // vpmulld %xmm15,%xmm3,%xmm3
- .byte 197,249,126,219 // vmovd %xmm3,%ebx
+ .byte 196,193,121,126,216 // vmovd %xmm3,%r8d
.byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
.byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
.byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
- .byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,163,65,33,60,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
.byte 196,163,65,33,60,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm7,%xmm7
.byte 196,163,65,33,60,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm7,%xmm7
.byte 196,99,53,24,247,1 // vinsertf128 $0x1,%xmm7,%ymm9,%ymm14
- .byte 196,98,121,24,21,53,177,1,0 // vbroadcastss 0x1b135(%rip),%xmm10 # 2b92c <_sk_overlay_sse2_8bit+0x447>
+ .byte 196,98,121,24,21,55,177,1,0 // vbroadcastss 0x1b137(%rip),%xmm10 # 2b8e4 <_sk_overlay_sse2_8bit+0x447>
.byte 196,65,97,254,202 // vpaddd %xmm10,%xmm3,%xmm9
- .byte 196,67,249,22,201,1 // vpextrq $0x1,%xmm9,%r9
- .byte 196,65,249,126,202 // vmovq %xmm9,%r10
+ .byte 196,67,249,22,200,1 // vpextrq $0x1,%xmm9,%r8
+ .byte 196,65,249,126,201 // vmovq %xmm9,%r9
.byte 196,65,73,254,202 // vpaddd %xmm10,%xmm6,%xmm9
- .byte 196,97,249,126,203 // vmovq %xmm9,%rbx
+ .byte 196,65,249,126,202 // vmovq %xmm9,%r10
.byte 196,67,249,22,203,1 // vpextrq $0x1,%xmm9,%r11
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,60,176 // vmovss (%rax,%r14,4),%xmm7
- .byte 196,163,65,33,60,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
- .byte 196,161,122,16,36,184 // vmovss (%rax,%r15,4),%xmm4
- .byte 196,227,65,33,228,32 // vinsertps $0x20,%xmm4,%xmm7,%xmm4
+ .byte 68,137,203 // mov %r9d,%ebx
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
+ .byte 196,163,65,33,60,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
+ .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
+ .byte 196,227,65,33,228,32 // vinsertps $0x20,%xmm4,%xmm7,%xmm4
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,227,89,33,231,48 // vinsertps $0x30,%xmm7,%xmm4,%xmm4
- .byte 65,137,217 // mov %ebx,%r9d
- .byte 69,137,218 // mov %r11d,%r10d
- .byte 72,193,235,32 // shr $0x20,%rbx
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
- .byte 196,227,65,33,60,152,16 // vinsertps $0x10,(%rax,%rbx,4),%xmm7,%xmm7
- .byte 196,161,122,16,44,144 // vmovss (%rax,%r10,4),%xmm5
+ .byte 68,137,211 // mov %r10d,%ebx
+ .byte 69,137,216 // mov %r11d,%r8d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
+ .byte 196,163,65,33,60,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ .byte 196,161,122,16,44,128 // vmovss (%rax,%r8,4),%xmm5
.byte 196,227,65,33,237,32 // vinsertps $0x20,%xmm5,%xmm7,%xmm5
.byte 73,193,235,32 // shr $0x20,%r11
.byte 196,161,122,16,60,152 // vmovss (%rax,%r11,4),%xmm7
.byte 196,227,81,33,239,48 // vinsertps $0x30,%xmm7,%xmm5,%xmm5
.byte 196,99,85,24,220,1 // vinsertf128 $0x1,%xmm4,%ymm5,%ymm11
- .byte 196,98,121,24,13,168,176,1,0 // vbroadcastss 0x1b0a8(%rip),%xmm9 # 2b934 <_sk_overlay_sse2_8bit+0x44f>
+ .byte 196,98,121,24,13,172,176,1,0 // vbroadcastss 0x1b0ac(%rip),%xmm9 # 2b8ec <_sk_overlay_sse2_8bit+0x44f>
.byte 196,193,97,254,217 // vpaddd %xmm9,%xmm3,%xmm3
- .byte 196,195,249,22,217,1 // vpextrq $0x1,%xmm3,%r9
- .byte 196,193,249,126,218 // vmovq %xmm3,%r10
+ .byte 196,195,249,22,216,1 // vpextrq $0x1,%xmm3,%r8
+ .byte 196,193,249,126,217 // vmovq %xmm3,%r9
.byte 196,193,73,254,217 // vpaddd %xmm9,%xmm6,%xmm3
- .byte 196,193,249,126,219 // vmovq %xmm3,%r11
+ .byte 196,193,249,126,218 // vmovq %xmm3,%r10
.byte 196,227,249,22,219,1 // vpextrq $0x1,%xmm3,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
- .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
- .byte 196,161,122,16,36,184 // vmovss (%rax,%r15,4),%xmm4
- .byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,28,152 // vmovss (%rax,%r11,4),%xmm3
+ .byte 196,163,97,33,28,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
+ .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
+ .byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
.byte 196,227,97,33,220,48 // vinsertps $0x30,%xmm4,%xmm3,%xmm3
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
- .byte 196,163,89,33,36,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- .byte 196,161,122,16,44,144 // vmovss (%rax,%r10,4),%xmm5
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
+ .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ .byte 196,161,122,16,44,136 // vmovss (%rax,%r9,4),%xmm5
.byte 196,227,89,33,229,32 // vinsertps $0x20,%xmm5,%xmm4,%xmm4
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,44,152 // vmovss (%rax,%rbx,4),%xmm5
.byte 196,227,89,33,229,48 // vinsertps $0x30,%xmm5,%xmm4,%xmm4
.byte 196,227,93,24,243,1 // vinsertf128 $0x1,%xmm3,%ymm4,%ymm6
- .byte 196,226,125,24,37,124,177,1,0 // vbroadcastss 0x1b17c(%rip),%ymm4 # 2ba9c <_sk_overlay_sse2_8bit+0x5b7>
+ .byte 196,226,125,24,37,128,177,1,0 // vbroadcastss 0x1b180(%rip),%ymm4 # 2ba54 <_sk_overlay_sse2_8bit+0x5b7>
.byte 197,148,88,220 // vaddps %ymm4,%ymm13,%ymm3
.byte 197,252,40,252 // vmovaps %ymm4,%ymm7
.byte 197,252,17,124,36,32 // vmovups %ymm7,0x20(%rsp)
@@ -25357,77 +25383,77 @@ _sk_clut_4D_avx:
.byte 197,249,127,68,36,144 // vmovdqa %xmm0,-0x70(%rsp)
.byte 197,249,254,194 // vpaddd %xmm2,%xmm0,%xmm0
.byte 196,194,121,64,215 // vpmulld %xmm15,%xmm0,%xmm2
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,121,33,219,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm3
.byte 197,217,254,193 // vpaddd %xmm1,%xmm4,%xmm0
.byte 196,194,121,64,199 // vpmulld %xmm15,%xmm0,%xmm0
.byte 197,249,126,195 // vmovd %xmm0,%ebx
- .byte 196,195,121,22,193,1 // vpextrd $0x1,%xmm0,%r9d
- .byte 196,195,121,22,194,2 // vpextrd $0x2,%xmm0,%r10d
- .byte 196,195,121,22,195,3 // vpextrd $0x3,%xmm0,%r11d
+ .byte 196,195,121,22,192,1 // vpextrd $0x1,%xmm0,%r8d
+ .byte 196,195,121,22,193,2 // vpextrd $0x2,%xmm0,%r9d
+ .byte 196,195,121,22,194,3 // vpextrd $0x3,%xmm0,%r10d
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
- .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
.byte 196,227,101,24,217,1 // vinsertf128 $0x1,%xmm1,%ymm3,%ymm3
.byte 196,193,121,254,202 // vpaddd %xmm10,%xmm0,%xmm1
- .byte 196,195,249,22,201,1 // vpextrq $0x1,%xmm1,%r9
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
+ .byte 196,195,249,22,200,1 // vpextrq $0x1,%xmm1,%r8
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
.byte 196,193,105,254,202 // vpaddd %xmm10,%xmm2,%xmm1
- .byte 196,193,249,126,203 // vmovq %xmm1,%r11
+ .byte 196,193,249,126,202 // vmovq %xmm1,%r10
.byte 196,227,249,22,203,1 // vpextrq $0x1,%xmm1,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,12,176 // vmovss (%rax,%r14,4),%xmm1
- .byte 196,163,113,33,12,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,161,122,16,36,184 // vmovss (%rax,%r15,4),%xmm4
- .byte 196,227,113,33,204,32 // vinsertps $0x20,%xmm4,%xmm1,%xmm1
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,12,152 // vmovss (%rax,%r11,4),%xmm1
+ .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
+ .byte 196,227,113,33,204,32 // vinsertps $0x20,%xmm4,%xmm1,%xmm1
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
.byte 196,227,113,33,204,48 // vinsertps $0x30,%xmm4,%xmm1,%xmm1
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
- .byte 196,163,89,33,36,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- .byte 196,161,122,16,44,144 // vmovss (%rax,%r10,4),%xmm5
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
+ .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ .byte 196,161,122,16,44,136 // vmovss (%rax,%r9,4),%xmm5
.byte 196,227,89,33,229,32 // vinsertps $0x20,%xmm5,%xmm4,%xmm4
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,44,152 // vmovss (%rax,%rbx,4),%xmm5
.byte 196,227,89,33,229,48 // vinsertps $0x30,%xmm5,%xmm4,%xmm4
.byte 196,227,93,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm4,%ymm1
.byte 196,193,121,254,193 // vpaddd %xmm9,%xmm0,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,105,254,193 // vpaddd %xmm9,%xmm2,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
- .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
+ .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
.byte 196,227,121,33,194,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,36,144 // vmovss (%rax,%r10,4),%xmm4
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
.byte 196,227,105,33,212,32 // vinsertps $0x20,%xmm4,%xmm2,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
@@ -25457,78 +25483,78 @@ _sk_clut_4D_avx:
.byte 197,241,254,124,36,96 // vpaddd 0x60(%rsp),%xmm1,%xmm7
.byte 197,193,254,68,36,128 // vpaddd -0x80(%rsp),%xmm7,%xmm0
.byte 196,194,121,64,199 // vpmulld %xmm15,%xmm0,%xmm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,12,136 // vmovss (%rax,%r9,4),%xmm1
- .byte 196,163,113,33,12,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,12,128 // vmovss (%rax,%r8,4),%xmm1
+ .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
.byte 197,250,16,20,152 // vmovss (%rax,%rbx,4),%xmm2
.byte 196,227,113,33,202,48 // vinsertps $0x30,%xmm2,%xmm1,%xmm1
.byte 197,225,254,148,36,64,1,0,0 // vpaddd 0x140(%rsp),%xmm3,%xmm2
.byte 197,233,254,92,36,176 // vpaddd -0x50(%rsp),%xmm2,%xmm3
.byte 196,194,97,64,223 // vpmulld %xmm15,%xmm3,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
- .byte 196,163,89,33,36,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
- .byte 196,163,89,33,36,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm4,%xmm4
- .byte 196,163,89,33,36,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm4,%xmm4
.byte 196,99,117,24,228,1 // vinsertf128 $0x1,%xmm4,%ymm1,%ymm12
.byte 196,193,97,254,202 // vpaddd %xmm10,%xmm3,%xmm1
- .byte 196,195,249,22,201,1 // vpextrq $0x1,%xmm1,%r9
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
+ .byte 196,195,249,22,200,1 // vpextrq $0x1,%xmm1,%r8
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
.byte 196,193,121,254,202 // vpaddd %xmm10,%xmm0,%xmm1
- .byte 196,193,249,126,203 // vmovq %xmm1,%r11
+ .byte 196,193,249,126,202 // vmovq %xmm1,%r10
.byte 196,227,249,22,203,1 // vpextrq $0x1,%xmm1,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,12,176 // vmovss (%rax,%r14,4),%xmm1
- .byte 196,163,113,33,12,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,161,122,16,36,184 // vmovss (%rax,%r15,4),%xmm4
- .byte 196,227,113,33,204,32 // vinsertps $0x20,%xmm4,%xmm1,%xmm1
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,12,152 // vmovss (%rax,%r11,4),%xmm1
+ .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
+ .byte 196,227,113,33,204,32 // vinsertps $0x20,%xmm4,%xmm1,%xmm1
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
.byte 196,227,113,33,204,48 // vinsertps $0x30,%xmm4,%xmm1,%xmm1
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
- .byte 196,163,89,33,36,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- .byte 196,161,122,16,52,144 // vmovss (%rax,%r10,4),%xmm6
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
+ .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
.byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
.byte 196,227,89,33,230,48 // vinsertps $0x30,%xmm6,%xmm4,%xmm4
.byte 196,227,93,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm4,%ymm1
.byte 196,193,97,254,217 // vpaddd %xmm9,%xmm3,%xmm3
- .byte 196,195,249,22,217,1 // vpextrq $0x1,%xmm3,%r9
- .byte 196,193,249,126,218 // vmovq %xmm3,%r10
+ .byte 196,195,249,22,216,1 // vpextrq $0x1,%xmm3,%r8
+ .byte 196,193,249,126,217 // vmovq %xmm3,%r9
.byte 196,193,121,254,193 // vpaddd %xmm9,%xmm0,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,36,144 // vmovss (%rax,%r10,4),%xmm4
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
.byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
@@ -25537,77 +25563,77 @@ _sk_clut_4D_avx:
.byte 197,121,111,116,36,144 // vmovdqa -0x70(%rsp),%xmm14
.byte 197,137,254,199 // vpaddd %xmm7,%xmm14,%xmm0
.byte 196,194,121,64,199 // vpmulld %xmm15,%xmm0,%xmm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
- .byte 196,163,97,33,28,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm3,%xmm3
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
.byte 196,227,97,33,228,48 // vinsertps $0x30,%xmm4,%xmm3,%xmm4
.byte 197,233,254,84,36,160 // vpaddd -0x60(%rsp),%xmm2,%xmm2
.byte 196,194,105,64,223 // vpmulld %xmm15,%xmm2,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,20,152 // vmovss (%rax,%rbx,4),%xmm2
- .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm2,%xmm2
.byte 196,227,93,24,210,1 // vinsertf128 $0x1,%xmm2,%ymm4,%ymm2
.byte 196,193,97,254,226 // vpaddd %xmm10,%xmm3,%xmm4
- .byte 196,195,249,22,225,1 // vpextrq $0x1,%xmm4,%r9
- .byte 196,193,249,126,226 // vmovq %xmm4,%r10
+ .byte 196,195,249,22,224,1 // vpextrq $0x1,%xmm4,%r8
+ .byte 196,193,249,126,225 // vmovq %xmm4,%r9
.byte 196,193,121,254,226 // vpaddd %xmm10,%xmm0,%xmm4
- .byte 196,193,249,126,227 // vmovq %xmm4,%r11
+ .byte 196,193,249,126,226 // vmovq %xmm4,%r10
.byte 196,227,249,22,227,1 // vpextrq $0x1,%xmm4,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
- .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- .byte 196,161,122,16,52,184 // vmovss (%rax,%r15,4),%xmm6
- .byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,36,152 // vmovss (%rax,%r11,4),%xmm4
+ .byte 196,163,89,33,36,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ .byte 196,161,122,16,52,176 // vmovss (%rax,%r14,4),%xmm6
+ .byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,52,128 // vmovss (%rax,%r8,4),%xmm6
.byte 196,227,89,33,230,48 // vinsertps $0x30,%xmm6,%xmm4,%xmm4
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
- .byte 196,163,73,33,52,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm6,%xmm6
- .byte 196,161,122,16,60,144 // vmovss (%rax,%r10,4),%xmm7
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,52,128 // vmovss (%rax,%r8,4),%xmm6
+ .byte 196,163,73,33,52,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm6,%xmm6
+ .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
.byte 196,227,73,33,247,32 // vinsertps $0x20,%xmm7,%xmm6,%xmm6
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,73,33,247,48 // vinsertps $0x30,%xmm7,%xmm6,%xmm6
.byte 196,227,77,24,252,1 // vinsertf128 $0x1,%xmm4,%ymm6,%ymm7
.byte 196,193,97,254,217 // vpaddd %xmm9,%xmm3,%xmm3
- .byte 196,195,249,22,217,1 // vpextrq $0x1,%xmm3,%r9
- .byte 196,193,249,126,218 // vmovq %xmm3,%r10
+ .byte 196,195,249,22,216,1 // vpextrq $0x1,%xmm3,%r8
+ .byte 196,193,249,126,217 // vmovq %xmm3,%r9
.byte 196,193,121,254,193 // vpaddd %xmm9,%xmm0,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,36,144 // vmovss (%rax,%r10,4),%xmm4
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
.byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
@@ -25653,15 +25679,15 @@ _sk_clut_4D_avx:
.byte 197,249,254,148,36,0,1,0,0 // vpaddd 0x100(%rsp),%xmm0,%xmm2
.byte 197,233,254,68,36,128 // vpaddd -0x80(%rsp),%xmm2,%xmm0
.byte 196,194,121,64,247 // vpmulld %xmm15,%xmm0,%xmm6
- .byte 196,193,249,126,242 // vmovq %xmm6,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,241 // vmovq %xmm6,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,243,1 // vpextrq $0x1,%xmm6,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
.byte 196,227,121,33,225,48 // vinsertps $0x30,%xmm1,%xmm0,%xmm4
.byte 197,225,254,68,36,192 // vpaddd -0x40(%rsp),%xmm3,%xmm0
@@ -25671,64 +25697,64 @@ _sk_clut_4D_avx:
.byte 196,193,113,254,221 // vpaddd %xmm13,%xmm1,%xmm3
.byte 196,194,97,64,223 // vpmulld %xmm15,%xmm3,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
- .byte 196,163,65,33,60,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
- .byte 196,163,65,33,60,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm7,%xmm7
- .byte 196,163,65,33,60,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm7,%xmm7
+ .byte 196,163,65,33,60,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm7,%xmm7
+ .byte 196,163,65,33,60,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm7,%xmm7
+ .byte 196,163,65,33,60,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm7,%xmm7
.byte 196,227,93,24,199,1 // vinsertf128 $0x1,%xmm7,%ymm4,%ymm0
.byte 197,252,17,68,36,192 // vmovups %ymm0,-0x40(%rsp)
.byte 196,193,97,254,250 // vpaddd %xmm10,%xmm3,%xmm7
- .byte 196,195,249,22,249,1 // vpextrq $0x1,%xmm7,%r9
- .byte 196,193,249,126,250 // vmovq %xmm7,%r10
+ .byte 196,195,249,22,248,1 // vpextrq $0x1,%xmm7,%r8
+ .byte 196,193,249,126,249 // vmovq %xmm7,%r9
.byte 196,193,73,254,250 // vpaddd %xmm10,%xmm6,%xmm7
- .byte 196,193,249,126,251 // vmovq %xmm7,%r11
+ .byte 196,193,249,126,250 // vmovq %xmm7,%r10
.byte 196,227,249,22,251,1 // vpextrq $0x1,%xmm7,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,60,176 // vmovss (%rax,%r14,4),%xmm7
- .byte 196,163,65,33,60,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
- .byte 196,161,122,16,4,184 // vmovss (%rax,%r15,4),%xmm0
- .byte 196,227,65,33,192,32 // vinsertps $0x20,%xmm0,%xmm7,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,60,152 // vmovss (%rax,%r11,4),%xmm7
+ .byte 196,163,65,33,60,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
+ .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
+ .byte 196,227,65,33,192,32 // vinsertps $0x20,%xmm0,%xmm7,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,227,121,33,199,48 // vinsertps $0x30,%xmm7,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
- .byte 196,163,65,33,60,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm7,%xmm7
- .byte 196,161,122,16,36,144 // vmovss (%rax,%r10,4),%xmm4
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
+ .byte 196,163,65,33,60,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
.byte 196,227,65,33,228,32 // vinsertps $0x20,%xmm4,%xmm7,%xmm4
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,89,33,231,48 // vinsertps $0x30,%xmm7,%xmm4,%xmm4
.byte 196,99,93,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm4,%ymm8
.byte 196,193,97,254,193 // vpaddd %xmm9,%xmm3,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,73,254,193 // vpaddd %xmm9,%xmm6,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,36,144 // vmovss (%rax,%r10,4),%xmm4
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
.byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
@@ -25736,78 +25762,78 @@ _sk_clut_4D_avx:
.byte 196,99,101,24,224,1 // vinsertf128 $0x1,%xmm0,%ymm3,%ymm12
.byte 197,137,254,194 // vpaddd %xmm2,%xmm14,%xmm0
.byte 196,194,121,64,215 // vpmulld %xmm15,%xmm0,%xmm2
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
.byte 197,121,111,92,36,160 // vmovdqa -0x60(%rsp),%xmm11
.byte 197,161,254,201 // vpaddd %xmm1,%xmm11,%xmm1
.byte 196,194,113,64,223 // vpmulld %xmm15,%xmm1,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
- .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
.byte 196,227,125,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm1
.byte 196,193,97,254,194 // vpaddd %xmm10,%xmm3,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,105,254,194 // vpaddd %xmm10,%xmm2,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,36,184 // vmovss (%rax,%r15,4),%xmm4
- .byte 196,227,121,33,196,32 // vinsertps $0x20,%xmm4,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
+ .byte 196,227,121,33,196,32 // vinsertps $0x20,%xmm4,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
.byte 196,227,121,33,196,48 // vinsertps $0x30,%xmm4,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
- .byte 196,163,89,33,36,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- .byte 196,161,122,16,52,144 // vmovss (%rax,%r10,4),%xmm6
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
+ .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
.byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
.byte 196,227,89,33,230,48 // vinsertps $0x30,%xmm6,%xmm4,%xmm4
.byte 196,227,93,24,240,1 // vinsertf128 $0x1,%xmm0,%ymm4,%ymm6
.byte 196,193,97,254,193 // vpaddd %xmm9,%xmm3,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,105,254,193 // vpaddd %xmm9,%xmm2,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
- .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
+ .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
.byte 196,227,121,33,194,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
.byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
@@ -25829,15 +25855,15 @@ _sk_clut_4D_avx:
.byte 197,249,254,52,36 // vpaddd (%rsp),%xmm0,%xmm6
.byte 197,201,254,68,36,128 // vpaddd -0x80(%rsp),%xmm6,%xmm0
.byte 196,194,121,64,215 // vpmulld %xmm15,%xmm0,%xmm2
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
.byte 196,227,121,33,217,48 // vinsertps $0x30,%xmm1,%xmm0,%xmm3
.byte 197,249,111,132,36,192,1,0,0 // vmovdqa 0x1c0(%rsp),%xmm0
@@ -25845,63 +25871,63 @@ _sk_clut_4D_avx:
.byte 196,193,113,254,197 // vpaddd %xmm13,%xmm1,%xmm0
.byte 196,194,121,64,199 // vpmulld %xmm15,%xmm0,%xmm0
.byte 197,249,126,195 // vmovd %xmm0,%ebx
- .byte 196,195,121,22,193,1 // vpextrd $0x1,%xmm0,%r9d
- .byte 196,195,121,22,194,2 // vpextrd $0x2,%xmm0,%r10d
- .byte 196,195,121,22,195,3 // vpextrd $0x3,%xmm0,%r11d
+ .byte 196,195,121,22,192,1 // vpextrd $0x1,%xmm0,%r8d
+ .byte 196,195,121,22,193,2 // vpextrd $0x2,%xmm0,%r9d
+ .byte 196,195,121,22,194,3 // vpextrd $0x3,%xmm0,%r10d
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
- .byte 196,163,89,33,36,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
- .byte 196,163,89,33,36,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm4,%xmm4
- .byte 196,163,89,33,36,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm4,%xmm4
.byte 196,99,101,24,236,1 // vinsertf128 $0x1,%xmm4,%ymm3,%ymm13
.byte 196,193,121,254,226 // vpaddd %xmm10,%xmm0,%xmm4
- .byte 196,195,249,22,225,1 // vpextrq $0x1,%xmm4,%r9
- .byte 196,193,249,126,226 // vmovq %xmm4,%r10
+ .byte 196,195,249,22,224,1 // vpextrq $0x1,%xmm4,%r8
+ .byte 196,193,249,126,225 // vmovq %xmm4,%r9
.byte 196,193,105,254,226 // vpaddd %xmm10,%xmm2,%xmm4
- .byte 196,193,249,126,227 // vmovq %xmm4,%r11
+ .byte 196,193,249,126,226 // vmovq %xmm4,%r10
.byte 196,227,249,22,227,1 // vpextrq $0x1,%xmm4,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
- .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- .byte 196,161,122,16,60,184 // vmovss (%rax,%r15,4),%xmm7
- .byte 196,227,89,33,231,32 // vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,36,152 // vmovss (%rax,%r11,4),%xmm4
+ .byte 196,163,89,33,36,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ .byte 196,161,122,16,60,176 // vmovss (%rax,%r14,4),%xmm7
+ .byte 196,227,89,33,231,32 // vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,227,89,33,231,48 // vinsertps $0x30,%xmm7,%xmm4,%xmm4
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
- .byte 196,163,65,33,60,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm7,%xmm7
- .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
+ .byte 196,163,65,33,60,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
.byte 196,227,65,33,219,32 // vinsertps $0x20,%xmm3,%xmm7,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,97,33,223,48 // vinsertps $0x30,%xmm7,%xmm3,%xmm3
.byte 196,99,101,24,244,1 // vinsertf128 $0x1,%xmm4,%ymm3,%ymm14
.byte 196,193,121,254,193 // vpaddd %xmm9,%xmm0,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,105,254,193 // vpaddd %xmm9,%xmm2,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
- .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
+ .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
.byte 196,227,121,33,194,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
.byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
@@ -25909,77 +25935,77 @@ _sk_clut_4D_avx:
.byte 196,99,109,24,224,1 // vinsertf128 $0x1,%xmm0,%ymm2,%ymm12
.byte 197,201,254,68,36,144 // vpaddd -0x70(%rsp),%xmm6,%xmm0
.byte 196,194,121,64,215 // vpmulld %xmm15,%xmm0,%xmm2
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,121,33,219,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm3
.byte 197,161,254,193 // vpaddd %xmm1,%xmm11,%xmm0
.byte 196,194,121,64,199 // vpmulld %xmm15,%xmm0,%xmm0
.byte 197,249,126,195 // vmovd %xmm0,%ebx
- .byte 196,195,121,22,193,1 // vpextrd $0x1,%xmm0,%r9d
- .byte 196,195,121,22,194,2 // vpextrd $0x2,%xmm0,%r10d
- .byte 196,195,121,22,195,3 // vpextrd $0x3,%xmm0,%r11d
+ .byte 196,195,121,22,192,1 // vpextrd $0x1,%xmm0,%r8d
+ .byte 196,195,121,22,193,2 // vpextrd $0x2,%xmm0,%r9d
+ .byte 196,195,121,22,194,3 // vpextrd $0x3,%xmm0,%r10d
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
- .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
.byte 196,227,101,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm3,%ymm1
.byte 196,193,121,254,218 // vpaddd %xmm10,%xmm0,%xmm3
- .byte 196,195,249,22,217,1 // vpextrq $0x1,%xmm3,%r9
- .byte 196,193,249,126,218 // vmovq %xmm3,%r10
+ .byte 196,195,249,22,216,1 // vpextrq $0x1,%xmm3,%r8
+ .byte 196,193,249,126,217 // vmovq %xmm3,%r9
.byte 196,193,105,254,218 // vpaddd %xmm10,%xmm2,%xmm3
- .byte 196,193,249,126,219 // vmovq %xmm3,%r11
+ .byte 196,193,249,126,218 // vmovq %xmm3,%r10
.byte 196,227,249,22,219,1 // vpextrq $0x1,%xmm3,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
- .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
- .byte 196,161,122,16,36,184 // vmovss (%rax,%r15,4),%xmm4
- .byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,28,152 // vmovss (%rax,%r11,4),%xmm3
+ .byte 196,163,97,33,28,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
+ .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
+ .byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
.byte 196,227,97,33,220,48 // vinsertps $0x30,%xmm4,%xmm3,%xmm3
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
- .byte 196,163,89,33,36,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- .byte 196,161,122,16,52,144 // vmovss (%rax,%r10,4),%xmm6
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
+ .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
.byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
.byte 196,227,89,33,230,48 // vinsertps $0x30,%xmm6,%xmm4,%xmm4
.byte 196,227,93,24,243,1 // vinsertf128 $0x1,%xmm3,%ymm4,%ymm6
.byte 196,193,121,254,193 // vpaddd %xmm9,%xmm0,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,105,254,193 // vpaddd %xmm9,%xmm2,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
- .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
+ .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
.byte 196,227,121,33,194,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
.byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
@@ -26037,15 +26063,15 @@ _sk_clut_4D_avx:
.byte 197,249,111,108,36,128 // vmovdqa -0x80(%rsp),%xmm5
.byte 197,209,254,194 // vpaddd %xmm2,%xmm5,%xmm0
.byte 196,194,121,64,199 // vpmulld %xmm15,%xmm0,%xmm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,12,136 // vmovss (%rax,%r9,4),%xmm1
- .byte 196,163,113,33,12,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,12,128 // vmovss (%rax,%r8,4),%xmm1
+ .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,113,33,251,48 // vinsertps $0x30,%xmm3,%xmm1,%xmm7
.byte 196,227,125,25,225,1 // vextractf128 $0x1,%ymm4,%xmm1
@@ -26055,63 +26081,63 @@ _sk_clut_4D_avx:
.byte 197,241,254,92,36,176 // vpaddd -0x50(%rsp),%xmm1,%xmm3
.byte 196,194,97,64,223 // vpmulld %xmm15,%xmm3,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
- .byte 196,163,89,33,36,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
- .byte 196,163,89,33,36,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm4,%xmm4
- .byte 196,163,89,33,36,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm4,%xmm4
.byte 196,99,69,24,228,1 // vinsertf128 $0x1,%xmm4,%ymm7,%ymm12
.byte 196,193,97,254,226 // vpaddd %xmm10,%xmm3,%xmm4
- .byte 196,195,249,22,225,1 // vpextrq $0x1,%xmm4,%r9
- .byte 196,193,249,126,226 // vmovq %xmm4,%r10
+ .byte 196,195,249,22,224,1 // vpextrq $0x1,%xmm4,%r8
+ .byte 196,193,249,126,225 // vmovq %xmm4,%r9
.byte 196,193,121,254,226 // vpaddd %xmm10,%xmm0,%xmm4
.byte 196,225,249,126,227 // vmovq %xmm4,%rbx
- .byte 196,195,249,22,227,1 // vpextrq $0x1,%xmm4,%r11
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
- .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- .byte 196,161,122,16,52,184 // vmovss (%rax,%r15,4),%xmm6
- .byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ .byte 196,195,249,22,226,1 // vpextrq $0x1,%xmm4,%r10
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,36,152 // vmovss (%rax,%r11,4),%xmm4
+ .byte 196,163,89,33,36,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ .byte 196,161,122,16,52,176 // vmovss (%rax,%r14,4),%xmm6
+ .byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,52,128 // vmovss (%rax,%r8,4),%xmm6
.byte 196,227,89,33,230,48 // vinsertps $0x30,%xmm6,%xmm4,%xmm4
- .byte 65,137,217 // mov %ebx,%r9d
- .byte 69,137,218 // mov %r11d,%r10d
+ .byte 65,137,216 // mov %ebx,%r8d
+ .byte 69,137,209 // mov %r10d,%r9d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
+ .byte 196,161,122,16,52,128 // vmovss (%rax,%r8,4),%xmm6
.byte 196,227,73,33,52,152,16 // vinsertps $0x10,(%rax,%rbx,4),%xmm6,%xmm6
- .byte 196,161,122,16,60,144 // vmovss (%rax,%r10,4),%xmm7
+ .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
.byte 196,227,73,33,247,32 // vinsertps $0x20,%xmm7,%xmm6,%xmm6
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,60,152 // vmovss (%rax,%r11,4),%xmm7
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,60,144 // vmovss (%rax,%r10,4),%xmm7
.byte 196,227,73,33,247,48 // vinsertps $0x30,%xmm7,%xmm6,%xmm6
.byte 196,99,77,24,196,1 // vinsertf128 $0x1,%xmm4,%ymm6,%ymm8
.byte 196,193,97,254,217 // vpaddd %xmm9,%xmm3,%xmm3
- .byte 196,195,249,22,217,1 // vpextrq $0x1,%xmm3,%r9
- .byte 196,193,249,126,218 // vmovq %xmm3,%r10
+ .byte 196,195,249,22,216,1 // vpextrq $0x1,%xmm3,%r8
+ .byte 196,193,249,126,217 // vmovq %xmm3,%r9
.byte 196,193,121,254,193 // vpaddd %xmm9,%xmm0,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,36,144 // vmovss (%rax,%r10,4),%xmm4
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
.byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
@@ -26120,77 +26146,77 @@ _sk_clut_4D_avx:
.byte 197,121,111,92,36,144 // vmovdqa -0x70(%rsp),%xmm11
.byte 197,161,254,194 // vpaddd %xmm2,%xmm11,%xmm0
.byte 196,194,121,64,199 // vpmulld %xmm15,%xmm0,%xmm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm2,%xmm2
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
.byte 197,241,254,76,36,160 // vpaddd -0x60(%rsp),%xmm1,%xmm1
.byte 196,194,113,64,223 // vpmulld %xmm15,%xmm1,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
- .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
.byte 196,227,109,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm2,%ymm1
.byte 196,193,97,254,210 // vpaddd %xmm10,%xmm3,%xmm2
- .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 196,195,249,22,208,1 // vpextrq $0x1,%xmm2,%r8
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 196,193,121,254,210 // vpaddd %xmm10,%xmm0,%xmm2
- .byte 196,193,249,126,211 // vmovq %xmm2,%r11
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,161,122,16,36,184 // vmovss (%rax,%r15,4),%xmm4
- .byte 196,227,105,33,212,32 // vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,20,152 // vmovss (%rax,%r11,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
+ .byte 196,227,105,33,212,32 // vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
.byte 196,227,105,33,212,48 // vinsertps $0x30,%xmm4,%xmm2,%xmm2
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
- .byte 196,163,89,33,36,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- .byte 196,161,122,16,52,144 // vmovss (%rax,%r10,4),%xmm6
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
+ .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
.byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
.byte 196,227,89,33,230,48 // vinsertps $0x30,%xmm6,%xmm4,%xmm4
.byte 196,227,93,24,210,1 // vinsertf128 $0x1,%xmm2,%ymm4,%ymm2
.byte 196,193,97,254,217 // vpaddd %xmm9,%xmm3,%xmm3
- .byte 196,195,249,22,217,1 // vpextrq $0x1,%xmm3,%r9
- .byte 196,193,249,126,218 // vmovq %xmm3,%r10
+ .byte 196,195,249,22,216,1 // vpextrq $0x1,%xmm3,%r8
+ .byte 196,193,249,126,217 // vmovq %xmm3,%r9
.byte 196,193,121,254,193 // vpaddd %xmm9,%xmm0,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,36,144 // vmovss (%rax,%r10,4),%xmm4
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
.byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
@@ -26212,15 +26238,15 @@ _sk_clut_4D_avx:
.byte 197,249,254,20,36 // vpaddd (%rsp),%xmm0,%xmm2
.byte 197,233,254,197 // vpaddd %xmm5,%xmm2,%xmm0
.byte 196,194,121,64,199 // vpmulld %xmm15,%xmm0,%xmm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,12,136 // vmovss (%rax,%r9,4),%xmm1
- .byte 196,163,113,33,12,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,12,128 // vmovss (%rax,%r8,4),%xmm1
+ .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,113,33,227,48 // vinsertps $0x30,%xmm3,%xmm1,%xmm4
.byte 197,137,254,76,36,240 // vpaddd -0x10(%rsp),%xmm14,%xmm1
@@ -26228,63 +26254,63 @@ _sk_clut_4D_avx:
.byte 196,193,113,254,216 // vpaddd %xmm8,%xmm1,%xmm3
.byte 196,194,97,64,223 // vpmulld %xmm15,%xmm3,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
- .byte 196,163,73,33,52,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm6,%xmm6
- .byte 196,163,73,33,52,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm6,%xmm6
- .byte 196,163,73,33,52,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm6,%xmm6
+ .byte 196,163,73,33,52,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm6,%xmm6
+ .byte 196,163,73,33,52,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm6,%xmm6
+ .byte 196,163,73,33,52,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm6,%xmm6
.byte 196,99,93,24,246,1 // vinsertf128 $0x1,%xmm6,%ymm4,%ymm14
.byte 196,193,97,254,226 // vpaddd %xmm10,%xmm3,%xmm4
- .byte 196,195,249,22,225,1 // vpextrq $0x1,%xmm4,%r9
- .byte 196,193,249,126,226 // vmovq %xmm4,%r10
+ .byte 196,195,249,22,224,1 // vpextrq $0x1,%xmm4,%r8
+ .byte 196,193,249,126,225 // vmovq %xmm4,%r9
.byte 196,193,121,254,226 // vpaddd %xmm10,%xmm0,%xmm4
- .byte 196,193,249,126,227 // vmovq %xmm4,%r11
+ .byte 196,193,249,126,226 // vmovq %xmm4,%r10
.byte 196,227,249,22,227,1 // vpextrq $0x1,%xmm4,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
- .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- .byte 196,161,122,16,52,184 // vmovss (%rax,%r15,4),%xmm6
- .byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,36,152 // vmovss (%rax,%r11,4),%xmm4
+ .byte 196,163,89,33,36,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ .byte 196,161,122,16,52,176 // vmovss (%rax,%r14,4),%xmm6
+ .byte 196,227,89,33,230,32 // vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,52,128 // vmovss (%rax,%r8,4),%xmm6
.byte 196,227,89,33,230,48 // vinsertps $0x30,%xmm6,%xmm4,%xmm4
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
- .byte 196,163,73,33,52,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm6,%xmm6
- .byte 196,161,122,16,60,144 // vmovss (%rax,%r10,4),%xmm7
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,52,128 // vmovss (%rax,%r8,4),%xmm6
+ .byte 196,163,73,33,52,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm6,%xmm6
+ .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
.byte 196,227,73,33,247,32 // vinsertps $0x20,%xmm7,%xmm6,%xmm6
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,73,33,247,48 // vinsertps $0x30,%xmm7,%xmm6,%xmm6
.byte 196,227,77,24,244,1 // vinsertf128 $0x1,%xmm4,%ymm6,%ymm6
.byte 196,193,97,254,217 // vpaddd %xmm9,%xmm3,%xmm3
- .byte 196,195,249,22,217,1 // vpextrq $0x1,%xmm3,%r9
- .byte 196,193,249,126,218 // vmovq %xmm3,%r10
+ .byte 196,195,249,22,216,1 // vpextrq $0x1,%xmm3,%r8
+ .byte 196,193,249,126,217 // vmovq %xmm3,%r9
.byte 196,193,121,254,193 // vpaddd %xmm9,%xmm0,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,36,144 // vmovss (%rax,%r10,4),%xmm4
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
.byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
@@ -26292,78 +26318,78 @@ _sk_clut_4D_avx:
.byte 196,99,101,24,232,1 // vinsertf128 $0x1,%xmm0,%ymm3,%ymm13
.byte 197,161,254,194 // vpaddd %xmm2,%xmm11,%xmm0
.byte 196,194,121,64,199 // vpmulld %xmm15,%xmm0,%xmm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm2,%xmm2
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
.byte 197,249,111,108,36,160 // vmovdqa -0x60(%rsp),%xmm5
.byte 197,209,254,201 // vpaddd %xmm1,%xmm5,%xmm1
.byte 196,194,113,64,223 // vpmulld %xmm15,%xmm1,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
- .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
.byte 196,227,109,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm2,%ymm1
.byte 196,193,97,254,210 // vpaddd %xmm10,%xmm3,%xmm2
- .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 196,195,249,22,208,1 // vpextrq $0x1,%xmm2,%r8
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 196,193,121,254,210 // vpaddd %xmm10,%xmm0,%xmm2
- .byte 196,193,249,126,211 // vmovq %xmm2,%r11
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,161,122,16,36,184 // vmovss (%rax,%r15,4),%xmm4
- .byte 196,227,105,33,212,32 // vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,20,152 // vmovss (%rax,%r11,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
+ .byte 196,227,105,33,212,32 // vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
.byte 196,227,105,33,212,48 // vinsertps $0x30,%xmm4,%xmm2,%xmm2
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
- .byte 196,163,89,33,36,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- .byte 196,161,122,16,60,144 // vmovss (%rax,%r10,4),%xmm7
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,36,128 // vmovss (%rax,%r8,4),%xmm4
+ .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
.byte 196,227,89,33,231,32 // vinsertps $0x20,%xmm7,%xmm4,%xmm4
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,89,33,231,48 // vinsertps $0x30,%xmm7,%xmm4,%xmm4
.byte 196,227,93,24,210,1 // vinsertf128 $0x1,%xmm2,%ymm4,%ymm2
.byte 196,193,97,254,217 // vpaddd %xmm9,%xmm3,%xmm3
- .byte 196,195,249,22,217,1 // vpextrq $0x1,%xmm3,%r9
- .byte 196,193,249,126,218 // vmovq %xmm3,%r10
+ .byte 196,195,249,22,216,1 // vpextrq $0x1,%xmm3,%r8
+ .byte 196,193,249,126,217 // vmovq %xmm3,%r9
.byte 196,193,121,254,193 // vpaddd %xmm9,%xmm0,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,36,144 // vmovss (%rax,%r10,4),%xmm4
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
.byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
@@ -26401,78 +26427,78 @@ _sk_clut_4D_avx:
.byte 197,137,254,148,36,0,1,0,0 // vpaddd 0x100(%rsp),%xmm14,%xmm2
.byte 197,233,254,68,36,128 // vpaddd -0x80(%rsp),%xmm2,%xmm0
.byte 196,194,121,64,247 // vpmulld %xmm15,%xmm0,%xmm6
- .byte 196,193,249,126,242 // vmovq %xmm6,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,241 // vmovq %xmm6,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,243,1 // vpextrq $0x1,%xmm6,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
.byte 196,227,121,33,193,48 // vinsertps $0x30,%xmm1,%xmm0,%xmm0
.byte 197,145,254,76,36,16 // vpaddd 0x10(%rsp),%xmm13,%xmm1
.byte 196,193,113,254,216 // vpaddd %xmm8,%xmm1,%xmm3
.byte 196,194,97,64,223 // vpmulld %xmm15,%xmm3,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
- .byte 196,163,89,33,36,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
- .byte 196,163,89,33,36,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm4,%xmm4
- .byte 196,163,89,33,36,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm4,%xmm4
+ .byte 196,163,89,33,36,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm4,%xmm4
.byte 196,99,125,24,228,1 // vinsertf128 $0x1,%xmm4,%ymm0,%ymm12
.byte 196,193,97,254,226 // vpaddd %xmm10,%xmm3,%xmm4
- .byte 196,195,249,22,225,1 // vpextrq $0x1,%xmm4,%r9
- .byte 196,193,249,126,226 // vmovq %xmm4,%r10
+ .byte 196,195,249,22,224,1 // vpextrq $0x1,%xmm4,%r8
+ .byte 196,193,249,126,225 // vmovq %xmm4,%r9
.byte 196,193,73,254,226 // vpaddd %xmm10,%xmm6,%xmm4
- .byte 196,193,249,126,227 // vmovq %xmm4,%r11
+ .byte 196,193,249,126,226 // vmovq %xmm4,%r10
.byte 196,227,249,22,227,1 // vpextrq $0x1,%xmm4,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
- .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- .byte 196,161,122,16,60,184 // vmovss (%rax,%r15,4),%xmm7
- .byte 196,227,89,33,231,32 // vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,36,152 // vmovss (%rax,%r11,4),%xmm4
+ .byte 196,163,89,33,36,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ .byte 196,161,122,16,60,176 // vmovss (%rax,%r14,4),%xmm7
+ .byte 196,227,89,33,231,32 // vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,227,89,33,231,48 // vinsertps $0x30,%xmm7,%xmm4,%xmm4
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
- .byte 196,163,65,33,60,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm7,%xmm7
- .byte 196,161,122,16,4,144 // vmovss (%rax,%r10,4),%xmm0
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
+ .byte 196,163,65,33,60,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
.byte 196,227,65,33,192,32 // vinsertps $0x20,%xmm0,%xmm7,%xmm0
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,121,33,199,48 // vinsertps $0x30,%xmm7,%xmm0,%xmm0
.byte 196,227,125,24,228,1 // vinsertf128 $0x1,%xmm4,%ymm0,%ymm4
.byte 196,193,97,254,193 // vpaddd %xmm9,%xmm3,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,73,254,193 // vpaddd %xmm9,%xmm6,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,121,33,195,32 // vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,52,144 // vmovss (%rax,%r10,4),%xmm6
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
.byte 196,227,97,33,222,32 // vinsertps $0x20,%xmm6,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
@@ -26480,77 +26506,77 @@ _sk_clut_4D_avx:
.byte 196,99,101,24,216,1 // vinsertf128 $0x1,%xmm0,%ymm3,%ymm11
.byte 197,233,254,68,36,144 // vpaddd -0x70(%rsp),%xmm2,%xmm0
.byte 196,194,121,64,215 // vpmulld %xmm15,%xmm0,%xmm2
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,136 // vmovss (%rax,%r9,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,163,121,33,4,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,4,128 // vmovss (%rax,%r8,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,163,121,33,4,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,121,33,195,48 // vinsertps $0x30,%xmm3,%xmm0,%xmm0
.byte 197,209,254,201 // vpaddd %xmm1,%xmm5,%xmm1
.byte 196,194,113,64,223 // vpmulld %xmm15,%xmm1,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
- .byte 196,163,113,33,12,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- .byte 196,163,113,33,12,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ .byte 196,163,113,33,12,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
.byte 196,227,125,24,201,1 // vinsertf128 $0x1,%xmm1,%ymm0,%ymm1
.byte 196,193,97,254,194 // vpaddd %xmm10,%xmm3,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,105,254,194 // vpaddd %xmm10,%xmm2,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,52,184 // vmovss (%rax,%r15,4),%xmm6
- .byte 196,227,121,33,198,32 // vinsertps $0x20,%xmm6,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,52,176 // vmovss (%rax,%r14,4),%xmm6
+ .byte 196,227,121,33,198,32 // vinsertps $0x20,%xmm6,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,52,128 // vmovss (%rax,%r8,4),%xmm6
.byte 196,227,121,33,198,48 // vinsertps $0x30,%xmm6,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
- .byte 196,163,73,33,52,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm6,%xmm6
- .byte 196,161,122,16,60,144 // vmovss (%rax,%r10,4),%xmm7
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,52,128 // vmovss (%rax,%r8,4),%xmm6
+ .byte 196,163,73,33,52,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm6,%xmm6
+ .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
.byte 196,227,73,33,247,32 // vinsertps $0x20,%xmm7,%xmm6,%xmm6
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,73,33,247,48 // vinsertps $0x30,%xmm7,%xmm6,%xmm6
.byte 196,227,77,24,240,1 // vinsertf128 $0x1,%xmm0,%ymm6,%ymm6
.byte 196,193,97,254,193 // vpaddd %xmm9,%xmm3,%xmm0
- .byte 196,195,249,22,193,1 // vpextrq $0x1,%xmm0,%r9
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,195,249,22,192,1 // vpextrq $0x1,%xmm0,%r8
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
.byte 196,193,105,254,193 // vpaddd %xmm9,%xmm2,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
- .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
+ .byte 196,227,121,33,194,32 // vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
.byte 196,227,121,33,194,48 // vinsertps $0x30,%xmm2,%xmm0,%xmm0
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,144 // vmovss (%rax,%r10,4),%xmm3
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
.byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
@@ -26572,77 +26598,77 @@ _sk_clut_4D_avx:
.byte 197,137,254,4,36 // vpaddd (%rsp),%xmm14,%xmm0
.byte 197,249,254,92,36,128 // vpaddd -0x80(%rsp),%xmm0,%xmm3
.byte 196,66,97,64,247 // vpmulld %xmm15,%xmm3,%xmm14
- .byte 196,65,249,126,242 // vmovq %xmm14,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,65,249,126,241 // vmovq %xmm14,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,99,249,22,243,1 // vpextrq $0x1,%xmm14,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
- .byte 196,163,97,33,28,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm3,%xmm3
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
.byte 196,227,97,33,228,48 // vinsertps $0x30,%xmm4,%xmm3,%xmm4
.byte 196,193,113,254,216 // vpaddd %xmm8,%xmm1,%xmm3
.byte 196,194,97,64,223 // vpmulld %xmm15,%xmm3,%xmm3
.byte 197,249,126,219 // vmovd %xmm3,%ebx
- .byte 196,195,121,22,217,1 // vpextrd $0x1,%xmm3,%r9d
- .byte 196,195,121,22,218,2 // vpextrd $0x2,%xmm3,%r10d
- .byte 196,195,121,22,219,3 // vpextrd $0x3,%xmm3,%r11d
+ .byte 196,195,121,22,216,1 // vpextrd $0x1,%xmm3,%r8d
+ .byte 196,195,121,22,217,2 // vpextrd $0x2,%xmm3,%r9d
+ .byte 196,195,121,22,218,3 // vpextrd $0x3,%xmm3,%r10d
.byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
- .byte 196,163,73,33,52,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm6,%xmm6
- .byte 196,163,73,33,52,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm6,%xmm6
- .byte 196,163,73,33,52,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm6,%xmm6
+ .byte 196,163,73,33,52,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm6,%xmm6
+ .byte 196,163,73,33,52,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm6,%xmm6
+ .byte 196,163,73,33,52,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm6,%xmm6
.byte 196,99,93,24,198,1 // vinsertf128 $0x1,%xmm6,%ymm4,%ymm8
.byte 196,193,97,254,226 // vpaddd %xmm10,%xmm3,%xmm4
- .byte 196,195,249,22,225,1 // vpextrq $0x1,%xmm4,%r9
- .byte 196,193,249,126,226 // vmovq %xmm4,%r10
+ .byte 196,195,249,22,224,1 // vpextrq $0x1,%xmm4,%r8
+ .byte 196,193,249,126,225 // vmovq %xmm4,%r9
.byte 196,193,9,254,226 // vpaddd %xmm10,%xmm14,%xmm4
- .byte 196,193,249,126,227 // vmovq %xmm4,%r11
+ .byte 196,193,249,126,226 // vmovq %xmm4,%r10
.byte 196,227,249,22,227,1 // vpextrq $0x1,%xmm4,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,36,176 // vmovss (%rax,%r14,4),%xmm4
- .byte 196,163,89,33,36,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- .byte 196,161,122,16,60,184 // vmovss (%rax,%r15,4),%xmm7
- .byte 196,227,89,33,231,32 // vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,36,152 // vmovss (%rax,%r11,4),%xmm4
+ .byte 196,163,89,33,36,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ .byte 196,161,122,16,60,176 // vmovss (%rax,%r14,4),%xmm7
+ .byte 196,227,89,33,231,32 // vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
.byte 196,227,89,33,231,48 // vinsertps $0x30,%xmm7,%xmm4,%xmm4
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,60,136 // vmovss (%rax,%r9,4),%xmm7
- .byte 196,163,65,33,60,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm7,%xmm7
- .byte 196,161,122,16,20,144 // vmovss (%rax,%r10,4),%xmm2
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,60,128 // vmovss (%rax,%r8,4),%xmm7
+ .byte 196,163,65,33,60,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
.byte 196,227,65,33,210,32 // vinsertps $0x20,%xmm2,%xmm7,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,60,152 // vmovss (%rax,%rbx,4),%xmm7
.byte 196,227,105,33,215,48 // vinsertps $0x30,%xmm7,%xmm2,%xmm2
.byte 196,227,109,24,252,1 // vinsertf128 $0x1,%xmm4,%ymm2,%ymm7
.byte 196,193,97,254,209 // vpaddd %xmm9,%xmm3,%xmm2
- .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 196,195,249,22,208,1 // vpextrq $0x1,%xmm2,%r8
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 196,193,9,254,209 // vpaddd %xmm9,%xmm14,%xmm2
- .byte 196,193,249,126,211 // vmovq %xmm2,%r11
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,20,152 // vmovss (%rax,%r11,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,36,144 // vmovss (%rax,%r10,4),%xmm4
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,36,136 // vmovss (%rax,%r9,4),%xmm4
.byte 196,227,97,33,220,32 // vinsertps $0x20,%xmm4,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,36,152 // vmovss (%rax,%rbx,4),%xmm4
@@ -26652,78 +26678,78 @@ _sk_clut_4D_avx:
.byte 197,241,254,76,36,160 // vpaddd -0x60(%rsp),%xmm1,%xmm1
.byte 196,194,113,64,207 // vpmulld %xmm15,%xmm1,%xmm1
.byte 196,194,121,64,199 // vpmulld %xmm15,%xmm0,%xmm0
- .byte 196,193,249,126,194 // vmovq %xmm0,%r10
- .byte 69,137,209 // mov %r10d,%r9d
+ .byte 196,193,249,126,193 // vmovq %xmm0,%r9
+ .byte 69,137,200 // mov %r9d,%r8d
.byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,163,105,33,20,152,32 // vinsertps $0x20,(%rax,%r11,4),%xmm2,%xmm2
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 196,161,122,16,20,128 // vmovss (%rax,%r8,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,163,105,33,20,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
.byte 197,249,126,203 // vmovd %xmm1,%ebx
- .byte 196,195,121,22,201,1 // vpextrd $0x1,%xmm1,%r9d
- .byte 196,195,121,22,202,2 // vpextrd $0x2,%xmm1,%r10d
- .byte 196,195,121,22,203,3 // vpextrd $0x3,%xmm1,%r11d
+ .byte 196,195,121,22,200,1 // vpextrd $0x1,%xmm1,%r8d
+ .byte 196,195,121,22,201,2 // vpextrd $0x2,%xmm1,%r9d
+ .byte 196,195,121,22,202,3 // vpextrd $0x3,%xmm1,%r10d
.byte 197,250,16,28,152 // vmovss (%rax,%rbx,4),%xmm3
- .byte 196,163,97,33,28,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
- .byte 196,163,97,33,28,144,32 // vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
- .byte 196,163,97,33,28,152,48 // vinsertps $0x30,(%rax,%r11,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,128,16 // vinsertps $0x10,(%rax,%r8,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,136,32 // vinsertps $0x20,(%rax,%r9,4),%xmm3,%xmm3
+ .byte 196,163,97,33,28,144,48 // vinsertps $0x30,(%rax,%r10,4),%xmm3,%xmm3
.byte 196,227,109,24,227,1 // vinsertf128 $0x1,%xmm3,%ymm2,%ymm4
.byte 196,193,113,254,210 // vpaddd %xmm10,%xmm1,%xmm2
- .byte 196,195,249,22,209,1 // vpextrq $0x1,%xmm2,%r9
- .byte 196,193,249,126,210 // vmovq %xmm2,%r10
+ .byte 196,195,249,22,208,1 // vpextrq $0x1,%xmm2,%r8
+ .byte 196,193,249,126,209 // vmovq %xmm2,%r9
.byte 196,193,121,254,210 // vpaddd %xmm10,%xmm0,%xmm2
- .byte 196,193,249,126,211 // vmovq %xmm2,%r11
+ .byte 196,193,249,126,210 // vmovq %xmm2,%r10
.byte 196,227,249,22,211,1 // vpextrq $0x1,%xmm2,%rbx
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 69,137,207 // mov %r9d,%r15d
- .byte 196,161,122,16,20,176 // vmovss (%rax,%r14,4),%xmm2
- .byte 196,163,105,33,20,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- .byte 196,161,122,16,28,184 // vmovss (%rax,%r15,4),%xmm3
- .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,20,152 // vmovss (%rax,%r11,4),%xmm2
+ .byte 196,163,105,33,20,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ .byte 196,161,122,16,28,176 // vmovss (%rax,%r14,4),%xmm3
+ .byte 196,227,105,33,211,32 // vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
.byte 196,227,105,33,211,48 // vinsertps $0x30,%xmm3,%xmm2,%xmm2
- .byte 69,137,217 // mov %r11d,%r9d
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 196,161,122,16,28,136 // vmovss (%rax,%r9,4),%xmm3
- .byte 196,163,97,33,28,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- .byte 196,161,122,16,52,144 // vmovss (%rax,%r10,4),%xmm6
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,28,128 // vmovss (%rax,%r8,4),%xmm3
+ .byte 196,163,97,33,28,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ .byte 196,161,122,16,52,136 // vmovss (%rax,%r9,4),%xmm6
.byte 196,227,97,33,222,32 // vinsertps $0x20,%xmm6,%xmm3,%xmm3
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 197,250,16,52,152 // vmovss (%rax,%rbx,4),%xmm6
.byte 196,227,97,33,222,48 // vinsertps $0x30,%xmm6,%xmm3,%xmm3
.byte 196,227,101,24,218,1 // vinsertf128 $0x1,%xmm2,%ymm3,%ymm3
.byte 196,193,113,254,201 // vpaddd %xmm9,%xmm1,%xmm1
- .byte 196,195,249,22,201,1 // vpextrq $0x1,%xmm1,%r9
- .byte 196,193,249,126,202 // vmovq %xmm1,%r10
+ .byte 196,195,249,22,200,1 // vpextrq $0x1,%xmm1,%r8
+ .byte 196,193,249,126,201 // vmovq %xmm1,%r9
.byte 196,193,121,254,193 // vpaddd %xmm9,%xmm0,%xmm0
- .byte 196,193,249,126,195 // vmovq %xmm0,%r11
- .byte 196,195,249,22,199,1 // vpextrq $0x1,%xmm0,%r15
- .byte 69,137,214 // mov %r10d,%r14d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 196,161,122,16,4,176 // vmovss (%rax,%r14,4),%xmm0
- .byte 196,163,121,33,4,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- .byte 68,137,203 // mov %r9d,%ebx
- .byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
- .byte 196,227,121,33,193,32 // vinsertps $0x20,%xmm1,%xmm0,%xmm0
+ .byte 196,193,249,126,194 // vmovq %xmm0,%r10
+ .byte 196,227,249,22,195,1 // vpextrq $0x1,%xmm0,%rbx
+ .byte 69,137,203 // mov %r9d,%r11d
.byte 73,193,233,32 // shr $0x20,%r9
- .byte 196,161,122,16,12,136 // vmovss (%rax,%r9,4),%xmm1
+ .byte 69,137,198 // mov %r8d,%r14d
+ .byte 196,161,122,16,4,152 // vmovss (%rax,%r11,4),%xmm0
+ .byte 196,163,121,33,4,136,16 // vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ .byte 196,161,122,16,12,176 // vmovss (%rax,%r14,4),%xmm1
+ .byte 196,227,121,33,193,32 // vinsertps $0x20,%xmm1,%xmm0,%xmm0
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 196,161,122,16,12,128 // vmovss (%rax,%r8,4),%xmm1
.byte 196,227,121,33,193,48 // vinsertps $0x30,%xmm1,%xmm0,%xmm0
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 197,250,16,12,152 // vmovss (%rax,%rbx,4),%xmm1
- .byte 196,163,113,33,12,152,16 // vinsertps $0x10,(%rax,%r11,4),%xmm1,%xmm1
- .byte 68,137,251 // mov %r15d,%ebx
- .byte 197,250,16,20,152 // vmovss (%rax,%rbx,4),%xmm2
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 65,137,217 // mov %ebx,%r9d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 196,161,122,16,12,128 // vmovss (%rax,%r8,4),%xmm1
+ .byte 196,163,113,33,12,144,16 // vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
+ .byte 196,161,122,16,20,136 // vmovss (%rax,%r9,4),%xmm2
.byte 196,227,113,33,202,32 // vinsertps $0x20,%xmm2,%xmm1,%xmm1
- .byte 73,193,239,32 // shr $0x20,%r15
- .byte 196,161,122,16,20,184 // vmovss (%rax,%r15,4),%xmm2
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 197,250,16,20,152 // vmovss (%rax,%rbx,4),%xmm2
.byte 196,227,113,33,202,48 // vinsertps $0x30,%xmm2,%xmm1,%xmm1
.byte 196,227,117,24,192,1 // vinsertf128 $0x1,%xmm0,%ymm1,%ymm0
.byte 196,193,92,92,200 // vsubps %ymm8,%ymm4,%ymm1
@@ -26775,15 +26801,14 @@ _sk_clut_4D_avx:
.byte 197,220,89,210 // vmulps %ymm2,%ymm4,%ymm2
.byte 197,212,88,210 // vaddps %ymm2,%ymm5,%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,29,140,146,1,0 // vbroadcastss 0x1928c(%rip),%ymm3 # 2b928 <_sk_overlay_sse2_8bit+0x443>
+ .byte 196,226,125,24,29,142,146,1,0 // vbroadcastss 0x1928e(%rip),%ymm3 # 2b8e0 <_sk_overlay_sse2_8bit+0x443>
.byte 197,252,16,164,36,32,2,0,0 // vmovups 0x220(%rsp),%ymm4
.byte 197,252,16,172,36,64,2,0,0 // vmovups 0x240(%rsp),%ymm5
.byte 197,252,16,180,36,96,2,0,0 // vmovups 0x260(%rsp),%ymm6
.byte 197,252,16,188,36,128,2,0,0 // vmovups 0x280(%rsp),%ymm7
- .byte 72,129,196,160,2,0,0 // add $0x2a0,%rsp
+ .byte 72,129,196,168,2,0,0 // add $0x2a8,%rsp
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_start_pipeline_sse41
@@ -26797,53 +26822,44 @@ _sk_start_pipeline_sse41:
.byte 65,85 // push %r13
.byte 65,84 // push %r12
.byte 83 // push %rbx
- .byte 72,131,236,40 // sub $0x28,%rsp
- .byte 72,137,211 // mov %rdx,%rbx
- .byte 73,137,246 // mov %rsi,%r14
+ .byte 72,131,236,24 // sub $0x18,%rsp
+ .byte 73,137,215 // mov %rdx,%r15
+ .byte 72,137,243 // mov %rsi,%rbx
.byte 72,137,125,208 // mov %rdi,-0x30(%rbp)
.byte 76,137,198 // mov %r8,%rsi
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 72,137,194 // mov %rax,%rdx
- .byte 72,137,77,176 // mov %rcx,-0x50(%rbp)
- .byte 73,57,206 // cmp %rcx,%r14
- .byte 115,117 // jae 1276f <_sk_start_pipeline_sse41+0xa1>
+ .byte 73,137,197 // mov %rax,%r13
+ .byte 73,137,246 // mov %rsi,%r14
+ .byte 72,137,77,192 // mov %rcx,-0x40(%rbp)
+ .byte 72,57,203 // cmp %rcx,%rbx
+ .byte 115,83 // jae 12704 <_sk_start_pipeline_sse41+0x82>
.byte 72,139,69,208 // mov -0x30(%rbp),%rax
.byte 72,141,64,4 // lea 0x4(%rax),%rax
- .byte 72,137,69,184 // mov %rax,-0x48(%rbp)
- .byte 76,137,77,192 // mov %r9,-0x40(%rbp)
- .byte 72,137,85,200 // mov %rdx,-0x38(%rbp)
- .byte 73,137,221 // mov %rbx,%r13
- .byte 73,137,244 // mov %rsi,%r12
- .byte 72,57,93,184 // cmp %rbx,-0x48(%rbp)
+ .byte 72,137,69,200 // mov %rax,-0x38(%rbp)
+ .byte 76,57,125,200 // cmp %r15,-0x38(%rbp)
.byte 72,139,85,208 // mov -0x30(%rbp),%rdx
- .byte 119,45 // ja 1274b <_sk_start_pipeline_sse41+0x7d>
- .byte 76,139,125,208 // mov -0x30(%rbp),%r15
- .byte 69,49,192 // xor %r8d,%r8d
- .byte 76,137,207 // mov %r9,%rdi
- .byte 76,137,230 // mov %r12,%rsi
- .byte 76,137,250 // mov %r15,%rdx
- .byte 76,137,241 // mov %r14,%rcx
- .byte 255,85,200 // callq *-0x38(%rbp)
- .byte 76,137,235 // mov %r13,%rbx
- .byte 76,139,77,192 // mov -0x40(%rbp),%r9
- .byte 73,141,87,4 // lea 0x4(%r15),%rdx
- .byte 73,131,199,8 // add $0x8,%r15
- .byte 73,57,223 // cmp %rbx,%r15
- .byte 73,137,215 // mov %rdx,%r15
- .byte 118,215 // jbe 12722 <_sk_start_pipeline_sse41+0x54>
- .byte 73,137,216 // mov %rbx,%r8
- .byte 73,41,208 // sub %rdx,%r8
- .byte 116,19 // je 12766 <_sk_start_pipeline_sse41+0x98>
- .byte 76,137,207 // mov %r9,%rdi
- .byte 76,137,230 // mov %r12,%rsi
- .byte 76,137,241 // mov %r14,%rcx
- .byte 255,85,200 // callq *-0x38(%rbp)
- .byte 76,137,235 // mov %r13,%rbx
- .byte 76,139,77,192 // mov -0x40(%rbp),%r9
- .byte 73,255,198 // inc %r14
- .byte 76,59,117,176 // cmp -0x50(%rbp),%r14
- .byte 117,165 // jne 12714 <_sk_start_pipeline_sse41+0x46>
- .byte 72,131,196,40 // add $0x28,%rsp
+ .byte 119,35 // ja 126ea <_sk_start_pipeline_sse41+0x68>
+ .byte 76,139,101,208 // mov -0x30(%rbp),%r12
+ .byte 49,255 // xor %edi,%edi
+ .byte 76,137,246 // mov %r14,%rsi
+ .byte 76,137,226 // mov %r12,%rdx
+ .byte 72,137,217 // mov %rbx,%rcx
+ .byte 65,255,213 // callq *%r13
+ .byte 73,141,84,36,4 // lea 0x4(%r12),%rdx
+ .byte 73,131,196,8 // add $0x8,%r12
+ .byte 77,57,252 // cmp %r15,%r12
+ .byte 73,137,212 // mov %rdx,%r12
+ .byte 118,225 // jbe 126cb <_sk_start_pipeline_sse41+0x49>
+ .byte 76,137,255 // mov %r15,%rdi
+ .byte 72,41,215 // sub %rdx,%rdi
+ .byte 116,9 // je 126fb <_sk_start_pipeline_sse41+0x79>
+ .byte 76,137,246 // mov %r14,%rsi
+ .byte 72,137,217 // mov %rbx,%rcx
+ .byte 65,255,213 // callq *%r13
+ .byte 72,255,195 // inc %rbx
+ .byte 72,59,93,192 // cmp -0x40(%rbp),%rbx
+ .byte 117,185 // jne 126bd <_sk_start_pipeline_sse41+0x3b>
+ .byte 72,131,196,24 // add $0x18,%rsp
.byte 91 // pop %rbx
.byte 65,92 // pop %r12
.byte 65,93 // pop %r13
@@ -26864,17 +26880,16 @@ FUNCTION(_sk_seed_shader_sse41)
_sk_seed_shader_sse41:
.byte 102,15,110,194 // movd %edx,%xmm0
.byte 102,15,112,192,0 // pshufd $0x0,%xmm0,%xmm0
- .byte 15,91,200 // cvtdq2ps %xmm0,%xmm1
- .byte 15,40,21,110,155,1,0 // movaps 0x19b6e(%rip),%xmm2 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
- .byte 15,88,202 // addps %xmm2,%xmm1
- .byte 15,16,7 // movups (%rdi),%xmm0
- .byte 15,88,193 // addps %xmm1,%xmm0
+ .byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
+ .byte 15,40,21,249,155,1,0 // movaps 0x19bf9(%rip),%xmm2 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
+ .byte 15,88,194 // addps %xmm2,%xmm0
+ .byte 15,88,5,255,155,1,0 // addps 0x19bff(%rip),%xmm0 # 2c330 <_sk_overlay_sse2_8bit+0xe93>
.byte 102,15,110,201 // movd %ecx,%xmm1
.byte 102,15,112,201,0 // pshufd $0x0,%xmm1,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
.byte 15,88,202 // addps %xmm2,%xmm1
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,21,93,155,1,0 // movaps 0x19b5d(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,21,247,155,1,0 // movaps 0x19bf7(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,87,219 // xorps %xmm3,%xmm3
.byte 15,87,228 // xorps %xmm4,%xmm4
.byte 15,87,237 // xorps %xmm5,%xmm5
@@ -26888,20 +26903,19 @@ FUNCTION(_sk_dither_sse41)
_sk_dither_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 102,68,15,110,194 // movd %edx,%xmm8
- .byte 102,69,15,112,192,0 // pshufd $0x0,%xmm8,%xmm8
- .byte 243,68,15,111,79,32 // movdqu 0x20(%rdi),%xmm9
- .byte 102,69,15,254,200 // paddd %xmm8,%xmm9
+ .byte 102,69,15,112,200,0 // pshufd $0x0,%xmm8,%xmm9
+ .byte 102,68,15,254,13,144,155,1,0 // paddd 0x19b90(%rip),%xmm9 # 2c300 <_sk_overlay_sse2_8bit+0xe63>
.byte 102,68,15,110,193 // movd %ecx,%xmm8
.byte 102,69,15,112,192,0 // pshufd $0x0,%xmm8,%xmm8
.byte 102,69,15,239,193 // pxor %xmm9,%xmm8
- .byte 102,68,15,111,21,43,155,1,0 // movdqa 0x19b2b(%rip),%xmm10 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,68,15,111,21,199,155,1,0 // movdqa 0x19bc7(%rip),%xmm10 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,69,15,111,216 // movdqa %xmm8,%xmm11
.byte 102,69,15,219,218 // pand %xmm10,%xmm11
.byte 102,65,15,114,243,5 // pslld $0x5,%xmm11
.byte 102,69,15,219,209 // pand %xmm9,%xmm10
.byte 102,65,15,114,242,4 // pslld $0x4,%xmm10
- .byte 102,68,15,111,37,23,155,1,0 // movdqa 0x19b17(%rip),%xmm12 # 2c330 <_sk_overlay_sse2_8bit+0xe4b>
- .byte 102,68,15,111,45,30,155,1,0 // movdqa 0x19b1e(%rip),%xmm13 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,68,15,111,37,179,155,1,0 // movdqa 0x19bb3(%rip),%xmm12 # 2c360 <_sk_overlay_sse2_8bit+0xec3>
+ .byte 102,68,15,111,45,186,155,1,0 // movdqa 0x19bba(%rip),%xmm13 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,69,15,111,240 // movdqa %xmm8,%xmm14
.byte 102,69,15,219,245 // pand %xmm13,%xmm14
.byte 102,65,15,114,246,2 // pslld $0x2,%xmm14
@@ -26917,8 +26931,8 @@ _sk_dither_sse41:
.byte 102,69,15,235,245 // por %xmm13,%xmm14
.byte 102,69,15,235,240 // por %xmm8,%xmm14
.byte 69,15,91,198 // cvtdq2ps %xmm14,%xmm8
- .byte 68,15,89,5,217,154,1,0 // mulps 0x19ad9(%rip),%xmm8 # 2c350 <_sk_overlay_sse2_8bit+0xe6b>
- .byte 68,15,88,5,225,154,1,0 // addps 0x19ae1(%rip),%xmm8 # 2c360 <_sk_overlay_sse2_8bit+0xe7b>
+ .byte 68,15,89,5,117,155,1,0 // mulps 0x19b75(%rip),%xmm8 # 2c380 <_sk_overlay_sse2_8bit+0xee3>
+ .byte 68,15,88,5,125,155,1,0 // addps 0x19b7d(%rip),%xmm8 # 2c390 <_sk_overlay_sse2_8bit+0xef3>
.byte 243,68,15,16,16 // movss (%rax),%xmm10
.byte 69,15,198,210,0 // shufps $0x0,%xmm10,%xmm10
.byte 69,15,89,208 // mulps %xmm8,%xmm10
@@ -26960,7 +26974,7 @@ HIDDEN _sk_black_color_sse41
FUNCTION(_sk_black_color_sse41)
_sk_black_color_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,23,154,1,0 // movaps 0x19a17(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,179,154,1,0 // movaps 0x19ab3(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 15,87,201 // xorps %xmm1,%xmm1
.byte 15,87,210 // xorps %xmm2,%xmm2
@@ -26971,7 +26985,7 @@ HIDDEN _sk_white_color_sse41
FUNCTION(_sk_white_color_sse41)
_sk_white_color_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,5,3,154,1,0 // movaps 0x19a03(%rip),%xmm0 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,5,159,154,1,0 // movaps 0x19a9f(%rip),%xmm0 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 15,40,216 // movaps %xmm0,%xmm3
@@ -27017,7 +27031,7 @@ HIDDEN _sk_srcatop_sse41
FUNCTION(_sk_srcatop_sse41)
_sk_srcatop_sse41:
.byte 15,89,199 // mulps %xmm7,%xmm0
- .byte 68,15,40,5,179,153,1,0 // movaps 0x199b3(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,79,154,1,0 // movaps 0x19a4f(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,195 // subps %xmm3,%xmm8
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 68,15,89,204 // mulps %xmm4,%xmm9
@@ -27042,7 +27056,7 @@ FUNCTION(_sk_dstatop_sse41)
_sk_dstatop_sse41:
.byte 68,15,40,195 // movaps %xmm3,%xmm8
.byte 68,15,89,196 // mulps %xmm4,%xmm8
- .byte 68,15,40,13,102,153,1,0 // movaps 0x19966(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,2,154,1,0 // movaps 0x19a02(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,207 // subps %xmm7,%xmm9
.byte 65,15,89,193 // mulps %xmm9,%xmm0
.byte 65,15,88,192 // addps %xmm8,%xmm0
@@ -27089,7 +27103,7 @@ HIDDEN _sk_srcout_sse41
.globl _sk_srcout_sse41
FUNCTION(_sk_srcout_sse41)
_sk_srcout_sse41:
- .byte 68,15,40,5,250,152,1,0 // movaps 0x198fa(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,150,153,1,0 // movaps 0x19996(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,199 // subps %xmm7,%xmm8
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 65,15,89,200 // mulps %xmm8,%xmm1
@@ -27102,7 +27116,7 @@ HIDDEN _sk_dstout_sse41
.globl _sk_dstout_sse41
FUNCTION(_sk_dstout_sse41)
_sk_dstout_sse41:
- .byte 68,15,40,5,218,152,1,0 // movaps 0x198da(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,118,153,1,0 // movaps 0x19976(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,195 // subps %xmm3,%xmm8
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 15,89,196 // mulps %xmm4,%xmm0
@@ -27119,7 +27133,7 @@ HIDDEN _sk_srcover_sse41
.globl _sk_srcover_sse41
FUNCTION(_sk_srcover_sse41)
_sk_srcover_sse41:
- .byte 68,15,40,5,173,152,1,0 // movaps 0x198ad(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,73,153,1,0 // movaps 0x19949(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,195 // subps %xmm3,%xmm8
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 68,15,89,204 // mulps %xmm4,%xmm9
@@ -27139,7 +27153,7 @@ HIDDEN _sk_dstover_sse41
.globl _sk_dstover_sse41
FUNCTION(_sk_dstover_sse41)
_sk_dstover_sse41:
- .byte 68,15,40,5,113,152,1,0 // movaps 0x19871(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,13,153,1,0 // movaps 0x1990d(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,199 // subps %xmm7,%xmm8
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 15,88,196 // addps %xmm4,%xmm0
@@ -27167,7 +27181,7 @@ HIDDEN _sk_multiply_sse41
.globl _sk_multiply_sse41
FUNCTION(_sk_multiply_sse41)
_sk_multiply_sse41:
- .byte 68,15,40,5,53,152,1,0 // movaps 0x19835(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,209,152,1,0 // movaps 0x198d1(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 68,15,92,207 // subps %xmm7,%xmm9
.byte 69,15,40,209 // movaps %xmm9,%xmm10
@@ -27205,7 +27219,7 @@ HIDDEN _sk_plus__sse41
FUNCTION(_sk_plus__sse41)
_sk_plus__sse41:
.byte 15,88,196 // addps %xmm4,%xmm0
- .byte 68,15,40,5,182,151,1,0 // movaps 0x197b6(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,82,152,1,0 // movaps 0x19852(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 65,15,93,192 // minps %xmm8,%xmm0
.byte 15,88,205 // addps %xmm5,%xmm1
.byte 65,15,93,200 // minps %xmm8,%xmm1
@@ -27247,7 +27261,7 @@ HIDDEN _sk_xor__sse41
FUNCTION(_sk_xor__sse41)
_sk_xor__sse41:
.byte 68,15,40,195 // movaps %xmm3,%xmm8
- .byte 15,40,29,66,151,1,0 // movaps 0x19742(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,222,151,1,0 // movaps 0x197de(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,40,203 // movaps %xmm3,%xmm9
.byte 68,15,92,207 // subps %xmm7,%xmm9
.byte 65,15,89,193 // mulps %xmm9,%xmm0
@@ -27295,7 +27309,7 @@ _sk_darken_sse41:
.byte 68,15,89,206 // mulps %xmm6,%xmm9
.byte 65,15,95,209 // maxps %xmm9,%xmm2
.byte 68,15,92,194 // subps %xmm2,%xmm8
- .byte 15,40,21,157,150,1,0 // movaps 0x1969d(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,21,57,151,1,0 // movaps 0x19739(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,211 // subps %xmm3,%xmm2
.byte 15,89,215 // mulps %xmm7,%xmm2
.byte 15,88,218 // addps %xmm2,%xmm3
@@ -27329,7 +27343,7 @@ _sk_lighten_sse41:
.byte 68,15,89,206 // mulps %xmm6,%xmm9
.byte 65,15,93,209 // minps %xmm9,%xmm2
.byte 68,15,92,194 // subps %xmm2,%xmm8
- .byte 15,40,21,50,150,1,0 // movaps 0x19632(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,21,206,150,1,0 // movaps 0x196ce(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,211 // subps %xmm3,%xmm2
.byte 15,89,215 // mulps %xmm7,%xmm2
.byte 15,88,218 // addps %xmm2,%xmm3
@@ -27366,7 +27380,7 @@ _sk_difference_sse41:
.byte 65,15,93,209 // minps %xmm9,%xmm2
.byte 15,88,210 // addps %xmm2,%xmm2
.byte 68,15,92,194 // subps %xmm2,%xmm8
- .byte 15,40,21,188,149,1,0 // movaps 0x195bc(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,21,88,150,1,0 // movaps 0x19658(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,211 // subps %xmm3,%xmm2
.byte 15,89,215 // mulps %xmm7,%xmm2
.byte 15,88,218 // addps %xmm2,%xmm3
@@ -27394,7 +27408,7 @@ _sk_exclusion_sse41:
.byte 15,89,214 // mulps %xmm6,%xmm2
.byte 15,88,210 // addps %xmm2,%xmm2
.byte 68,15,92,194 // subps %xmm2,%xmm8
- .byte 15,40,21,108,149,1,0 // movaps 0x1956c(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,21,8,150,1,0 // movaps 0x19608(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,211 // subps %xmm3,%xmm2
.byte 15,89,215 // mulps %xmm7,%xmm2
.byte 15,88,218 // addps %xmm2,%xmm3
@@ -27406,7 +27420,7 @@ HIDDEN _sk_colorburn_sse41
.globl _sk_colorburn_sse41
FUNCTION(_sk_colorburn_sse41)
_sk_colorburn_sse41:
- .byte 68,15,40,29,83,149,1,0 // movaps 0x19553(%rip),%xmm11 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,29,239,149,1,0 // movaps 0x195ef(%rip),%xmm11 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,227 // movaps %xmm11,%xmm12
.byte 68,15,92,231 // subps %xmm7,%xmm12
.byte 69,15,40,204 // movaps %xmm12,%xmm9
@@ -27490,7 +27504,7 @@ HIDDEN _sk_colordodge_sse41
FUNCTION(_sk_colordodge_sse41)
_sk_colordodge_sse41:
.byte 68,15,40,192 // movaps %xmm0,%xmm8
- .byte 68,15,40,21,29,148,1,0 // movaps 0x1941d(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,21,185,148,1,0 // movaps 0x194b9(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,218 // movaps %xmm10,%xmm11
.byte 68,15,92,223 // subps %xmm7,%xmm11
.byte 69,15,40,227 // movaps %xmm11,%xmm12
@@ -27572,7 +27586,7 @@ _sk_hardlight_sse41:
.byte 15,40,244 // movaps %xmm4,%xmm6
.byte 15,40,227 // movaps %xmm3,%xmm4
.byte 68,15,40,200 // movaps %xmm0,%xmm9
- .byte 68,15,40,21,232,146,1,0 // movaps 0x192e8(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,21,132,147,1,0 // movaps 0x19384(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 65,15,40,234 // movaps %xmm10,%xmm5
.byte 15,92,239 // subps %xmm7,%xmm5
.byte 15,40,197 // movaps %xmm5,%xmm0
@@ -27655,7 +27669,7 @@ FUNCTION(_sk_overlay_sse41)
_sk_overlay_sse41:
.byte 68,15,40,201 // movaps %xmm1,%xmm9
.byte 68,15,40,240 // movaps %xmm0,%xmm14
- .byte 68,15,40,21,189,145,1,0 // movaps 0x191bd(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,21,89,146,1,0 // movaps 0x19259(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,218 // movaps %xmm10,%xmm11
.byte 68,15,92,223 // subps %xmm7,%xmm11
.byte 65,15,40,195 // movaps %xmm11,%xmm0
@@ -27740,7 +27754,7 @@ _sk_softlight_sse41:
.byte 15,40,198 // movaps %xmm6,%xmm0
.byte 15,94,199 // divps %xmm7,%xmm0
.byte 65,15,84,193 // andps %xmm9,%xmm0
- .byte 15,40,13,132,144,1,0 // movaps 0x19084(%rip),%xmm1 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,13,32,145,1,0 // movaps 0x19120(%rip),%xmm1 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,40,209 // movaps %xmm1,%xmm10
.byte 68,15,92,208 // subps %xmm0,%xmm10
.byte 68,15,40,240 // movaps %xmm0,%xmm14
@@ -27753,10 +27767,10 @@ _sk_softlight_sse41:
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 15,89,210 // mulps %xmm2,%xmm2
.byte 15,88,208 // addps %xmm0,%xmm2
- .byte 68,15,40,45,178,144,1,0 // movaps 0x190b2(%rip),%xmm13 # 2c370 <_sk_overlay_sse2_8bit+0xe8b>
+ .byte 68,15,40,45,78,145,1,0 // movaps 0x1914e(%rip),%xmm13 # 2c3a0 <_sk_overlay_sse2_8bit+0xf03>
.byte 69,15,88,245 // addps %xmm13,%xmm14
.byte 68,15,89,242 // mulps %xmm2,%xmm14
- .byte 68,15,40,37,178,144,1,0 // movaps 0x190b2(%rip),%xmm12 # 2c380 <_sk_overlay_sse2_8bit+0xe9b>
+ .byte 68,15,40,37,78,145,1,0 // movaps 0x1914e(%rip),%xmm12 # 2c3b0 <_sk_overlay_sse2_8bit+0xf13>
.byte 69,15,89,252 // mulps %xmm12,%xmm15
.byte 69,15,88,254 // addps %xmm14,%xmm15
.byte 15,40,198 // movaps %xmm6,%xmm0
@@ -27942,12 +27956,12 @@ _sk_hue_sse41:
.byte 68,15,84,208 // andps %xmm0,%xmm10
.byte 15,84,200 // andps %xmm0,%xmm1
.byte 68,15,84,232 // andps %xmm0,%xmm13
- .byte 15,40,5,29,142,1,0 // movaps 0x18e1d(%rip),%xmm0 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 15,40,5,185,142,1,0 // movaps 0x18eb9(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 68,15,89,224 // mulps %xmm0,%xmm12
- .byte 15,40,21,34,142,1,0 // movaps 0x18e22(%rip),%xmm2 # 2c3a0 <_sk_overlay_sse2_8bit+0xebb>
+ .byte 15,40,21,190,142,1,0 // movaps 0x18ebe(%rip),%xmm2 # 2c3d0 <_sk_overlay_sse2_8bit+0xf33>
.byte 15,89,250 // mulps %xmm2,%xmm7
.byte 65,15,88,252 // addps %xmm12,%xmm7
- .byte 68,15,40,53,35,142,1,0 // movaps 0x18e23(%rip),%xmm14 # 2c3b0 <_sk_overlay_sse2_8bit+0xecb>
+ .byte 68,15,40,53,191,142,1,0 // movaps 0x18ebf(%rip),%xmm14 # 2c3e0 <_sk_overlay_sse2_8bit+0xf43>
.byte 68,15,40,252 // movaps %xmm4,%xmm15
.byte 69,15,89,254 // mulps %xmm14,%xmm15
.byte 68,15,88,255 // addps %xmm7,%xmm15
@@ -28030,7 +28044,7 @@ _sk_hue_sse41:
.byte 65,15,88,214 // addps %xmm14,%xmm2
.byte 15,40,196 // movaps %xmm4,%xmm0
.byte 102,15,56,20,202 // blendvps %xmm0,%xmm2,%xmm1
- .byte 68,15,40,13,55,140,1,0 // movaps 0x18c37(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,211,140,1,0 // movaps 0x18cd3(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 65,15,40,225 // movaps %xmm9,%xmm4
.byte 15,92,229 // subps %xmm5,%xmm4
.byte 15,40,68,36,200 // movaps -0x38(%rsp),%xmm0
@@ -28124,14 +28138,14 @@ _sk_saturation_sse41:
.byte 68,15,84,215 // andps %xmm7,%xmm10
.byte 68,15,84,223 // andps %xmm7,%xmm11
.byte 68,15,84,199 // andps %xmm7,%xmm8
- .byte 15,40,21,97,139,1,0 // movaps 0x18b61(%rip),%xmm2 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 15,40,21,253,139,1,0 // movaps 0x18bfd(%rip),%xmm2 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 15,40,221 // movaps %xmm5,%xmm3
.byte 15,89,218 // mulps %xmm2,%xmm3
- .byte 15,40,13,100,139,1,0 // movaps 0x18b64(%rip),%xmm1 # 2c3a0 <_sk_overlay_sse2_8bit+0xebb>
+ .byte 15,40,13,0,140,1,0 // movaps 0x18c00(%rip),%xmm1 # 2c3d0 <_sk_overlay_sse2_8bit+0xf33>
.byte 15,40,254 // movaps %xmm6,%xmm7
.byte 15,89,249 // mulps %xmm1,%xmm7
.byte 15,88,251 // addps %xmm3,%xmm7
- .byte 68,15,40,45,99,139,1,0 // movaps 0x18b63(%rip),%xmm13 # 2c3b0 <_sk_overlay_sse2_8bit+0xecb>
+ .byte 68,15,40,45,255,139,1,0 // movaps 0x18bff(%rip),%xmm13 # 2c3e0 <_sk_overlay_sse2_8bit+0xf43>
.byte 69,15,89,245 // mulps %xmm13,%xmm14
.byte 68,15,88,247 // addps %xmm7,%xmm14
.byte 65,15,40,218 // movaps %xmm10,%xmm3
@@ -28212,7 +28226,7 @@ _sk_saturation_sse41:
.byte 65,15,88,253 // addps %xmm13,%xmm7
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 102,68,15,56,20,223 // blendvps %xmm0,%xmm7,%xmm11
- .byte 68,15,40,13,121,137,1,0 // movaps 0x18979(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,21,138,1,0 // movaps 0x18a15(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,193 // movaps %xmm9,%xmm8
.byte 68,15,92,204 // subps %xmm4,%xmm9
.byte 15,40,124,36,168 // movaps -0x58(%rsp),%xmm7
@@ -28267,14 +28281,14 @@ _sk_color_sse41:
.byte 15,40,231 // movaps %xmm7,%xmm4
.byte 68,15,89,244 // mulps %xmm4,%xmm14
.byte 15,89,204 // mulps %xmm4,%xmm1
- .byte 68,15,40,13,52,137,1,0 // movaps 0x18934(%rip),%xmm9 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 68,15,40,13,208,137,1,0 // movaps 0x189d0(%rip),%xmm9 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 65,15,40,250 // movaps %xmm10,%xmm7
.byte 65,15,89,249 // mulps %xmm9,%xmm7
- .byte 68,15,40,21,52,137,1,0 // movaps 0x18934(%rip),%xmm10 # 2c3a0 <_sk_overlay_sse2_8bit+0xebb>
+ .byte 68,15,40,21,208,137,1,0 // movaps 0x189d0(%rip),%xmm10 # 2c3d0 <_sk_overlay_sse2_8bit+0xf33>
.byte 65,15,40,219 // movaps %xmm11,%xmm3
.byte 65,15,89,218 // mulps %xmm10,%xmm3
.byte 15,88,223 // addps %xmm7,%xmm3
- .byte 68,15,40,29,49,137,1,0 // movaps 0x18931(%rip),%xmm11 # 2c3b0 <_sk_overlay_sse2_8bit+0xecb>
+ .byte 68,15,40,29,205,137,1,0 // movaps 0x189cd(%rip),%xmm11 # 2c3e0 <_sk_overlay_sse2_8bit+0xf43>
.byte 69,15,40,236 // movaps %xmm12,%xmm13
.byte 69,15,89,235 // mulps %xmm11,%xmm13
.byte 68,15,88,235 // addps %xmm3,%xmm13
@@ -28359,7 +28373,7 @@ _sk_color_sse41:
.byte 65,15,88,251 // addps %xmm11,%xmm7
.byte 65,15,40,194 // movaps %xmm10,%xmm0
.byte 102,15,56,20,207 // blendvps %xmm0,%xmm7,%xmm1
- .byte 68,15,40,13,61,135,1,0 // movaps 0x1873d(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,217,135,1,0 // movaps 0x187d9(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 15,92,196 // subps %xmm4,%xmm0
.byte 68,15,89,192 // mulps %xmm0,%xmm8
@@ -28411,13 +28425,13 @@ _sk_luminosity_sse41:
.byte 69,15,89,216 // mulps %xmm8,%xmm11
.byte 68,15,40,203 // movaps %xmm3,%xmm9
.byte 68,15,89,205 // mulps %xmm5,%xmm9
- .byte 68,15,40,5,5,135,1,0 // movaps 0x18705(%rip),%xmm8 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 68,15,40,5,161,135,1,0 // movaps 0x187a1(%rip),%xmm8 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
- .byte 68,15,40,21,9,135,1,0 // movaps 0x18709(%rip),%xmm10 # 2c3a0 <_sk_overlay_sse2_8bit+0xebb>
+ .byte 68,15,40,21,165,135,1,0 // movaps 0x187a5(%rip),%xmm10 # 2c3d0 <_sk_overlay_sse2_8bit+0xf33>
.byte 15,40,233 // movaps %xmm1,%xmm5
.byte 65,15,89,234 // mulps %xmm10,%xmm5
.byte 15,88,232 // addps %xmm0,%xmm5
- .byte 68,15,40,37,7,135,1,0 // movaps 0x18707(%rip),%xmm12 # 2c3b0 <_sk_overlay_sse2_8bit+0xecb>
+ .byte 68,15,40,37,163,135,1,0 // movaps 0x187a3(%rip),%xmm12 # 2c3e0 <_sk_overlay_sse2_8bit+0xf43>
.byte 68,15,40,242 // movaps %xmm2,%xmm14
.byte 69,15,89,244 // mulps %xmm12,%xmm14
.byte 68,15,88,245 // addps %xmm5,%xmm14
@@ -28502,7 +28516,7 @@ _sk_luminosity_sse41:
.byte 65,15,88,244 // addps %xmm12,%xmm6
.byte 65,15,40,195 // movaps %xmm11,%xmm0
.byte 102,68,15,56,20,206 // blendvps %xmm0,%xmm6,%xmm9
- .byte 15,40,5,13,133,1,0 // movaps 0x1850d(%rip),%xmm0 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,5,169,133,1,0 // movaps 0x185a9(%rip),%xmm0 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 15,92,215 // subps %xmm7,%xmm2
.byte 15,89,226 // mulps %xmm2,%xmm4
@@ -28540,30 +28554,30 @@ HIDDEN _sk_srcover_rgba_8888_sse41
FUNCTION(_sk_srcover_rgba_8888_sse41)
_sk_srcover_rgba_8888_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,219,0,0,0 // jne 13f6b <_sk_srcover_rgba_8888_sse41+0xfb>
- .byte 243,65,15,111,60,129 // movdqu (%r9,%rax,4),%xmm7
- .byte 77,133,192 // test %r8,%r8
- .byte 102,15,111,37,31,133,1,0 // movdqa 0x1851f(%rip),%xmm4 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,219,0,0,0 // jne 13eff <_sk_srcover_rgba_8888_sse41+0xfb>
+ .byte 243,65,15,111,60,128 // movdqu (%r8,%rax,4),%xmm7
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 102,15,111,37,187,133,1,0 // movdqa 0x185bb(%rip),%xmm4 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,15,219,231 // pand %xmm7,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
.byte 102,15,111,239 // movdqa %xmm7,%xmm5
- .byte 102,15,56,0,45,27,133,1,0 // pshufb 0x1851b(%rip),%xmm5 # 2c3d0 <_sk_overlay_sse2_8bit+0xeeb>
+ .byte 102,15,56,0,45,183,133,1,0 // pshufb 0x185b7(%rip),%xmm5 # 2c400 <_sk_overlay_sse2_8bit+0xf63>
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
.byte 102,15,111,247 // movdqa %xmm7,%xmm6
- .byte 102,15,56,0,53,27,133,1,0 // pshufb 0x1851b(%rip),%xmm6 # 2c3e0 <_sk_overlay_sse2_8bit+0xefb>
+ .byte 102,15,56,0,53,183,133,1,0 // pshufb 0x185b7(%rip),%xmm6 # 2c410 <_sk_overlay_sse2_8bit+0xf73>
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
.byte 102,15,114,215,24 // psrld $0x18,%xmm7
.byte 15,91,255 // cvtdq2ps %xmm7,%xmm7
- .byte 68,15,40,5,56,132,1,0 // movaps 0x18438(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,212,132,1,0 // movaps 0x184d4(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,195 // subps %xmm3,%xmm8
- .byte 68,15,40,37,12,133,1,0 // movaps 0x1850c(%rip),%xmm12 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 68,15,40,37,168,133,1,0 // movaps 0x185a8(%rip),%xmm12 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 65,15,89,196 // mulps %xmm12,%xmm0
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 68,15,89,204 // mulps %xmm4,%xmm9
@@ -28589,43 +28603,43 @@ _sk_srcover_rgba_8888_sse41:
.byte 102,15,114,240,24 // pslld $0x18,%xmm0
.byte 102,15,235,194 // por %xmm2,%xmm0
.byte 102,15,235,193 // por %xmm1,%xmm0
- .byte 117,88 // jne 13fa9 <_sk_srcover_rgba_8888_sse41+0x139>
- .byte 243,65,15,127,4,129 // movdqu %xmm0,(%r9,%rax,4)
+ .byte 117,88 // jne 13f3d <_sk_srcover_rgba_8888_sse41+0x139>
+ .byte 243,65,15,127,4,128 // movdqu %xmm0,(%r8,%rax,4)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 65,15,40,202 // movaps %xmm10,%xmm1
.byte 65,15,40,211 // movaps %xmm11,%xmm2
.byte 65,15,40,216 // movaps %xmm8,%xmm3
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,91 // je 13fd3 <_sk_srcover_rgba_8888_sse41+0x163>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,91 // je 13f67 <_sk_srcover_rgba_8888_sse41+0x163>
.byte 102,15,239,255 // pxor %xmm7,%xmm7
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,22 // je 13f98 <_sk_srcover_rgba_8888_sse41+0x128>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 15,133,10,255,255,255 // jne 13e96 <_sk_srcover_rgba_8888_sse41+0x26>
- .byte 102,65,15,110,100,129,8 // movd 0x8(%r9,%rax,4),%xmm4
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,22 // je 13f2c <_sk_srcover_rgba_8888_sse41+0x128>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 15,133,10,255,255,255 // jne 13e2a <_sk_srcover_rgba_8888_sse41+0x26>
+ .byte 102,65,15,110,100,128,8 // movd 0x8(%r8,%rax,4),%xmm4
.byte 102,15,112,252,69 // pshufd $0x45,%xmm4,%xmm7
- .byte 243,65,15,126,36,129 // movq (%r9,%rax,4),%xmm4
+ .byte 243,65,15,126,36,128 // movq (%r8,%rax,4),%xmm4
.byte 102,15,58,14,252,15 // pblendw $0xf,%xmm4,%xmm7
- .byte 233,237,254,255,255 // jmpq 13e96 <_sk_srcover_rgba_8888_sse41+0x26>
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,40 // je 13fde <_sk_srcover_rgba_8888_sse41+0x16e>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,15 // je 13fcb <_sk_srcover_rgba_8888_sse41+0x15b>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,149 // jne 13f57 <_sk_srcover_rgba_8888_sse41+0xe7>
- .byte 102,65,15,58,22,68,129,8,2 // pextrd $0x2,%xmm0,0x8(%r9,%rax,4)
- .byte 102,65,15,214,4,129 // movq %xmm0,(%r9,%rax,4)
- .byte 235,132 // jmp 13f57 <_sk_srcover_rgba_8888_sse41+0xe7>
- .byte 102,65,15,110,60,129 // movd (%r9,%rax,4),%xmm7
- .byte 233,184,254,255,255 // jmpq 13e96 <_sk_srcover_rgba_8888_sse41+0x26>
- .byte 102,65,15,126,4,129 // movd %xmm0,(%r9,%rax,4)
- .byte 233,110,255,255,255 // jmpq 13f57 <_sk_srcover_rgba_8888_sse41+0xe7>
+ .byte 233,237,254,255,255 // jmpq 13e2a <_sk_srcover_rgba_8888_sse41+0x26>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,40 // je 13f72 <_sk_srcover_rgba_8888_sse41+0x16e>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,15 // je 13f5f <_sk_srcover_rgba_8888_sse41+0x15b>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,149 // jne 13eeb <_sk_srcover_rgba_8888_sse41+0xe7>
+ .byte 102,65,15,58,22,68,128,8,2 // pextrd $0x2,%xmm0,0x8(%r8,%rax,4)
+ .byte 102,65,15,214,4,128 // movq %xmm0,(%r8,%rax,4)
+ .byte 235,132 // jmp 13eeb <_sk_srcover_rgba_8888_sse41+0xe7>
+ .byte 102,65,15,110,60,128 // movd (%r8,%rax,4),%xmm7
+ .byte 233,184,254,255,255 // jmpq 13e2a <_sk_srcover_rgba_8888_sse41+0x26>
+ .byte 102,65,15,126,4,128 // movd %xmm0,(%r8,%rax,4)
+ .byte 233,110,255,255,255 // jmpq 13eeb <_sk_srcover_rgba_8888_sse41+0xe7>
HIDDEN _sk_clamp_0_sse41
.globl _sk_clamp_0_sse41
@@ -28643,7 +28657,7 @@ HIDDEN _sk_clamp_1_sse41
.globl _sk_clamp_1_sse41
FUNCTION(_sk_clamp_1_sse41)
_sk_clamp_1_sse41:
- .byte 68,15,40,5,7,131,1,0 // movaps 0x18307(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,163,131,1,0 // movaps 0x183a3(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 65,15,93,192 // minps %xmm8,%xmm0
.byte 65,15,93,200 // minps %xmm8,%xmm1
.byte 65,15,93,208 // minps %xmm8,%xmm2
@@ -28655,7 +28669,7 @@ HIDDEN _sk_clamp_a_sse41
.globl _sk_clamp_a_sse41
FUNCTION(_sk_clamp_a_sse41)
_sk_clamp_a_sse41:
- .byte 15,93,29,236,130,1,0 // minps 0x182ec(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,93,29,136,131,1,0 // minps 0x18388(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,93,195 // minps %xmm3,%xmm0
.byte 15,93,203 // minps %xmm3,%xmm1
.byte 15,93,211 // minps %xmm3,%xmm2
@@ -28666,7 +28680,7 @@ HIDDEN _sk_clamp_a_dst_sse41
.globl _sk_clamp_a_dst_sse41
FUNCTION(_sk_clamp_a_dst_sse41)
_sk_clamp_a_dst_sse41:
- .byte 15,93,61,216,130,1,0 // minps 0x182d8(%rip),%xmm7 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,93,61,116,131,1,0 // minps 0x18374(%rip),%xmm7 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,93,231 // minps %xmm7,%xmm4
.byte 15,93,239 // minps %xmm7,%xmm5
.byte 15,93,247 // minps %xmm7,%xmm6
@@ -28701,7 +28715,7 @@ HIDDEN _sk_invert_sse41
.globl _sk_invert_sse41
FUNCTION(_sk_invert_sse41)
_sk_invert_sse41:
- .byte 68,15,40,5,148,130,1,0 // movaps 0x18294(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,48,131,1,0 // movaps 0x18330(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 68,15,92,200 // subps %xmm0,%xmm9
.byte 69,15,40,208 // movaps %xmm8,%xmm10
@@ -28763,7 +28777,7 @@ HIDDEN _sk_unpremul_sse41
FUNCTION(_sk_unpremul_sse41)
_sk_unpremul_sse41:
.byte 69,15,87,192 // xorps %xmm8,%xmm8
- .byte 68,15,40,13,30,130,1,0 // movaps 0x1821e(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,186,130,1,0 // movaps 0x182ba(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,94,203 // divps %xmm3,%xmm9
.byte 68,15,194,195,4 // cmpneqps %xmm3,%xmm8
.byte 69,15,84,193 // andps %xmm9,%xmm8
@@ -28777,20 +28791,20 @@ HIDDEN _sk_from_srgb_sse41
.globl _sk_from_srgb_sse41
FUNCTION(_sk_from_srgb_sse41)
_sk_from_srgb_sse41:
- .byte 68,15,40,29,233,130,1,0 // movaps 0x182e9(%rip),%xmm11 # 2c400 <_sk_overlay_sse2_8bit+0xf1b>
+ .byte 68,15,40,29,133,131,1,0 // movaps 0x18385(%rip),%xmm11 # 2c430 <_sk_overlay_sse2_8bit+0xf93>
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,89,203 // mulps %xmm11,%xmm9
.byte 68,15,40,208 // movaps %xmm0,%xmm10
.byte 69,15,89,210 // mulps %xmm10,%xmm10
- .byte 68,15,40,37,97,130,1,0 // movaps 0x18261(%rip),%xmm12 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 68,15,40,37,253,130,1,0 // movaps 0x182fd(%rip),%xmm12 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 68,15,40,192 // movaps %xmm0,%xmm8
.byte 69,15,89,196 // mulps %xmm12,%xmm8
- .byte 68,15,40,45,209,130,1,0 // movaps 0x182d1(%rip),%xmm13 # 2c410 <_sk_overlay_sse2_8bit+0xf2b>
+ .byte 68,15,40,45,109,131,1,0 // movaps 0x1836d(%rip),%xmm13 # 2c440 <_sk_overlay_sse2_8bit+0xfa3>
.byte 69,15,88,197 // addps %xmm13,%xmm8
.byte 69,15,89,194 // mulps %xmm10,%xmm8
- .byte 68,15,40,53,209,130,1,0 // movaps 0x182d1(%rip),%xmm14 # 2c420 <_sk_overlay_sse2_8bit+0xf3b>
+ .byte 68,15,40,53,109,131,1,0 // movaps 0x1836d(%rip),%xmm14 # 2c450 <_sk_overlay_sse2_8bit+0xfb3>
.byte 69,15,88,198 // addps %xmm14,%xmm8
- .byte 68,15,40,61,213,130,1,0 // movaps 0x182d5(%rip),%xmm15 # 2c430 <_sk_overlay_sse2_8bit+0xf4b>
+ .byte 68,15,40,61,113,131,1,0 // movaps 0x18371(%rip),%xmm15 # 2c460 <_sk_overlay_sse2_8bit+0xfc3>
.byte 65,15,194,199,1 // cmpltps %xmm15,%xmm0
.byte 102,69,15,56,20,193 // blendvps %xmm0,%xmm9,%xmm8
.byte 68,15,40,209 // movaps %xmm1,%xmm10
@@ -28827,19 +28841,19 @@ FUNCTION(_sk_from_srgb_dst_sse41)
_sk_from_srgb_dst_sse41:
.byte 68,15,40,204 // movaps %xmm4,%xmm9
.byte 68,15,40,192 // movaps %xmm0,%xmm8
- .byte 68,15,40,29,32,130,1,0 // movaps 0x18220(%rip),%xmm11 # 2c400 <_sk_overlay_sse2_8bit+0xf1b>
+ .byte 68,15,40,29,188,130,1,0 // movaps 0x182bc(%rip),%xmm11 # 2c430 <_sk_overlay_sse2_8bit+0xf93>
.byte 69,15,40,209 // movaps %xmm9,%xmm10
.byte 69,15,89,211 // mulps %xmm11,%xmm10
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 15,89,192 // mulps %xmm0,%xmm0
- .byte 68,15,40,37,153,129,1,0 // movaps 0x18199(%rip),%xmm12 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 68,15,40,37,53,130,1,0 // movaps 0x18235(%rip),%xmm12 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 65,15,89,228 // mulps %xmm12,%xmm4
- .byte 68,15,40,45,13,130,1,0 // movaps 0x1820d(%rip),%xmm13 # 2c410 <_sk_overlay_sse2_8bit+0xf2b>
+ .byte 68,15,40,45,169,130,1,0 // movaps 0x182a9(%rip),%xmm13 # 2c440 <_sk_overlay_sse2_8bit+0xfa3>
.byte 65,15,88,229 // addps %xmm13,%xmm4
.byte 15,89,224 // mulps %xmm0,%xmm4
- .byte 68,15,40,53,14,130,1,0 // movaps 0x1820e(%rip),%xmm14 # 2c420 <_sk_overlay_sse2_8bit+0xf3b>
+ .byte 68,15,40,53,170,130,1,0 // movaps 0x182aa(%rip),%xmm14 # 2c450 <_sk_overlay_sse2_8bit+0xfb3>
.byte 65,15,88,230 // addps %xmm14,%xmm4
- .byte 68,15,40,61,18,130,1,0 // movaps 0x18212(%rip),%xmm15 # 2c430 <_sk_overlay_sse2_8bit+0xf4b>
+ .byte 68,15,40,61,174,130,1,0 // movaps 0x182ae(%rip),%xmm15 # 2c460 <_sk_overlay_sse2_8bit+0xfc3>
.byte 69,15,194,207,1 // cmpltps %xmm15,%xmm9
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 102,65,15,56,20,226 // blendvps %xmm0,%xmm10,%xmm4
@@ -28883,22 +28897,22 @@ _sk_to_srgb_sse41:
.byte 15,40,218 // movaps %xmm2,%xmm3
.byte 15,40,209 // movaps %xmm1,%xmm2
.byte 68,15,82,192 // rsqrtps %xmm0,%xmm8
- .byte 68,15,40,29,134,129,1,0 // movaps 0x18186(%rip),%xmm11 # 2c440 <_sk_overlay_sse2_8bit+0xf5b>
+ .byte 68,15,40,29,34,130,1,0 // movaps 0x18222(%rip),%xmm11 # 2c470 <_sk_overlay_sse2_8bit+0xfd3>
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,89,203 // mulps %xmm11,%xmm9
- .byte 68,15,40,37,134,129,1,0 // movaps 0x18186(%rip),%xmm12 # 2c450 <_sk_overlay_sse2_8bit+0xf6b>
+ .byte 68,15,40,37,34,130,1,0 // movaps 0x18222(%rip),%xmm12 # 2c480 <_sk_overlay_sse2_8bit+0xfe3>
.byte 69,15,40,248 // movaps %xmm8,%xmm15
.byte 69,15,89,252 // mulps %xmm12,%xmm15
- .byte 68,15,40,21,134,129,1,0 // movaps 0x18186(%rip),%xmm10 # 2c460 <_sk_overlay_sse2_8bit+0xf7b>
+ .byte 68,15,40,21,34,130,1,0 // movaps 0x18222(%rip),%xmm10 # 2c490 <_sk_overlay_sse2_8bit+0xff3>
.byte 69,15,88,250 // addps %xmm10,%xmm15
.byte 69,15,89,248 // mulps %xmm8,%xmm15
- .byte 68,15,40,45,134,129,1,0 // movaps 0x18186(%rip),%xmm13 # 2c470 <_sk_overlay_sse2_8bit+0xf8b>
+ .byte 68,15,40,45,34,130,1,0 // movaps 0x18222(%rip),%xmm13 # 2c4a0 <_sk_overlay_sse2_8bit+0x1003>
.byte 69,15,88,253 // addps %xmm13,%xmm15
- .byte 68,15,40,53,138,129,1,0 // movaps 0x1818a(%rip),%xmm14 # 2c480 <_sk_overlay_sse2_8bit+0xf9b>
+ .byte 68,15,40,53,38,130,1,0 // movaps 0x18226(%rip),%xmm14 # 2c4b0 <_sk_overlay_sse2_8bit+0x1013>
.byte 69,15,88,198 // addps %xmm14,%xmm8
.byte 69,15,83,192 // rcpps %xmm8,%xmm8
.byte 69,15,89,199 // mulps %xmm15,%xmm8
- .byte 68,15,40,61,134,129,1,0 // movaps 0x18186(%rip),%xmm15 # 2c490 <_sk_overlay_sse2_8bit+0xfab>
+ .byte 68,15,40,61,34,130,1,0 // movaps 0x18222(%rip),%xmm15 # 2c4c0 <_sk_overlay_sse2_8bit+0x1023>
.byte 65,15,194,199,1 // cmpltps %xmm15,%xmm0
.byte 102,69,15,56,20,193 // blendvps %xmm0,%xmm9,%xmm8
.byte 68,15,82,202 // rsqrtps %xmm2,%xmm9
@@ -28953,7 +28967,7 @@ _sk_rgb_to_hsl_sse41:
.byte 68,15,93,224 // minps %xmm0,%xmm12
.byte 65,15,40,203 // movaps %xmm11,%xmm1
.byte 65,15,92,204 // subps %xmm12,%xmm1
- .byte 68,15,40,53,61,127,1,0 // movaps 0x17f3d(%rip),%xmm14 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,53,217,127,1,0 // movaps 0x17fd9(%rip),%xmm14 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,94,241 // divps %xmm1,%xmm14
.byte 69,15,40,211 // movaps %xmm11,%xmm10
.byte 69,15,194,208,0 // cmpeqps %xmm8,%xmm10
@@ -28962,27 +28976,27 @@ _sk_rgb_to_hsl_sse41:
.byte 65,15,89,198 // mulps %xmm14,%xmm0
.byte 69,15,40,249 // movaps %xmm9,%xmm15
.byte 68,15,194,250,1 // cmpltps %xmm2,%xmm15
- .byte 68,15,84,61,164,128,1,0 // andps 0x180a4(%rip),%xmm15 # 2c4a0 <_sk_overlay_sse2_8bit+0xfbb>
+ .byte 68,15,84,61,64,129,1,0 // andps 0x18140(%rip),%xmm15 # 2c4d0 <_sk_overlay_sse2_8bit+0x1033>
.byte 68,15,88,248 // addps %xmm0,%xmm15
.byte 65,15,40,195 // movaps %xmm11,%xmm0
.byte 65,15,194,193,0 // cmpeqps %xmm9,%xmm0
.byte 65,15,92,208 // subps %xmm8,%xmm2
.byte 65,15,89,214 // mulps %xmm14,%xmm2
- .byte 68,15,40,45,151,128,1,0 // movaps 0x18097(%rip),%xmm13 # 2c4b0 <_sk_overlay_sse2_8bit+0xfcb>
+ .byte 68,15,40,45,51,129,1,0 // movaps 0x18133(%rip),%xmm13 # 2c4e0 <_sk_overlay_sse2_8bit+0x1043>
.byte 65,15,88,213 // addps %xmm13,%xmm2
.byte 69,15,92,193 // subps %xmm9,%xmm8
.byte 69,15,89,198 // mulps %xmm14,%xmm8
- .byte 68,15,88,5,147,128,1,0 // addps 0x18093(%rip),%xmm8 # 2c4c0 <_sk_overlay_sse2_8bit+0xfdb>
+ .byte 68,15,88,5,47,129,1,0 // addps 0x1812f(%rip),%xmm8 # 2c4f0 <_sk_overlay_sse2_8bit+0x1053>
.byte 102,68,15,56,20,194 // blendvps %xmm0,%xmm2,%xmm8
.byte 65,15,40,194 // movaps %xmm10,%xmm0
.byte 102,69,15,56,20,199 // blendvps %xmm0,%xmm15,%xmm8
- .byte 68,15,89,5,139,128,1,0 // mulps 0x1808b(%rip),%xmm8 # 2c4d0 <_sk_overlay_sse2_8bit+0xfeb>
+ .byte 68,15,89,5,39,129,1,0 // mulps 0x18127(%rip),%xmm8 # 2c500 <_sk_overlay_sse2_8bit+0x1063>
.byte 69,15,40,203 // movaps %xmm11,%xmm9
.byte 69,15,194,204,4 // cmpneqps %xmm12,%xmm9
.byte 69,15,84,193 // andps %xmm9,%xmm8
.byte 69,15,92,235 // subps %xmm11,%xmm13
.byte 69,15,88,220 // addps %xmm12,%xmm11
- .byte 15,40,5,159,126,1,0 // movaps 0x17e9f(%rip),%xmm0 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 15,40,5,43,127,1,0 // movaps 0x17f2b(%rip),%xmm0 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 65,15,40,211 // movaps %xmm11,%xmm2
.byte 15,89,208 // mulps %xmm0,%xmm2
.byte 15,194,194,1 // cmpltps %xmm2,%xmm0
@@ -29004,7 +29018,7 @@ _sk_hsl_to_rgb_sse41:
.byte 15,41,100,36,184 // movaps %xmm4,-0x48(%rsp)
.byte 15,41,92,36,168 // movaps %xmm3,-0x58(%rsp)
.byte 68,15,40,208 // movaps %xmm0,%xmm10
- .byte 68,15,40,13,85,126,1,0 // movaps 0x17e55(%rip),%xmm9 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,13,225,126,1,0 // movaps 0x17ee1(%rip),%xmm9 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 15,194,194,2 // cmpleps %xmm2,%xmm0
.byte 15,40,217 // movaps %xmm1,%xmm3
@@ -29017,19 +29031,19 @@ _sk_hsl_to_rgb_sse41:
.byte 15,41,84,36,152 // movaps %xmm2,-0x68(%rsp)
.byte 69,15,88,192 // addps %xmm8,%xmm8
.byte 68,15,92,197 // subps %xmm5,%xmm8
- .byte 68,15,40,53,0,128,1,0 // movaps 0x18000(%rip),%xmm14 # 2c4e0 <_sk_overlay_sse2_8bit+0xffb>
+ .byte 68,15,40,53,156,128,1,0 // movaps 0x1809c(%rip),%xmm14 # 2c510 <_sk_overlay_sse2_8bit+0x1073>
.byte 69,15,88,242 // addps %xmm10,%xmm14
.byte 102,65,15,58,8,198,1 // roundps $0x1,%xmm14,%xmm0
.byte 68,15,92,240 // subps %xmm0,%xmm14
- .byte 68,15,40,29,249,127,1,0 // movaps 0x17ff9(%rip),%xmm11 # 2c4f0 <_sk_overlay_sse2_8bit+0x100b>
+ .byte 68,15,40,29,149,128,1,0 // movaps 0x18095(%rip),%xmm11 # 2c520 <_sk_overlay_sse2_8bit+0x1083>
.byte 65,15,40,195 // movaps %xmm11,%xmm0
.byte 65,15,194,198,2 // cmpleps %xmm14,%xmm0
.byte 15,40,245 // movaps %xmm5,%xmm6
.byte 65,15,92,240 // subps %xmm8,%xmm6
- .byte 15,40,61,146,127,1,0 // movaps 0x17f92(%rip),%xmm7 # 2c4a0 <_sk_overlay_sse2_8bit+0xfbb>
+ .byte 15,40,61,46,128,1,0 // movaps 0x1802e(%rip),%xmm7 # 2c4d0 <_sk_overlay_sse2_8bit+0x1033>
.byte 69,15,40,238 // movaps %xmm14,%xmm13
.byte 68,15,89,239 // mulps %xmm7,%xmm13
- .byte 15,40,29,163,127,1,0 // movaps 0x17fa3(%rip),%xmm3 # 2c4c0 <_sk_overlay_sse2_8bit+0xfdb>
+ .byte 15,40,29,63,128,1,0 // movaps 0x1803f(%rip),%xmm3 # 2c4f0 <_sk_overlay_sse2_8bit+0x1053>
.byte 68,15,40,227 // movaps %xmm3,%xmm12
.byte 69,15,92,229 // subps %xmm13,%xmm12
.byte 68,15,89,230 // mulps %xmm6,%xmm12
@@ -29039,7 +29053,7 @@ _sk_hsl_to_rgb_sse41:
.byte 65,15,194,198,2 // cmpleps %xmm14,%xmm0
.byte 68,15,40,253 // movaps %xmm5,%xmm15
.byte 102,69,15,56,20,252 // blendvps %xmm0,%xmm12,%xmm15
- .byte 68,15,40,37,130,127,1,0 // movaps 0x17f82(%rip),%xmm12 # 2c4d0 <_sk_overlay_sse2_8bit+0xfeb>
+ .byte 68,15,40,37,30,128,1,0 // movaps 0x1801e(%rip),%xmm12 # 2c500 <_sk_overlay_sse2_8bit+0x1063>
.byte 65,15,40,196 // movaps %xmm12,%xmm0
.byte 65,15,194,198,2 // cmpleps %xmm14,%xmm0
.byte 68,15,89,238 // mulps %xmm6,%xmm13
@@ -29073,7 +29087,7 @@ _sk_hsl_to_rgb_sse41:
.byte 65,15,40,198 // movaps %xmm14,%xmm0
.byte 15,40,84,36,152 // movaps -0x68(%rsp),%xmm2
.byte 102,15,56,20,202 // blendvps %xmm0,%xmm2,%xmm1
- .byte 68,15,88,21,26,127,1,0 // addps 0x17f1a(%rip),%xmm10 # 2c500 <_sk_overlay_sse2_8bit+0x101b>
+ .byte 68,15,88,21,182,127,1,0 // addps 0x17fb6(%rip),%xmm10 # 2c530 <_sk_overlay_sse2_8bit+0x1093>
.byte 102,65,15,58,8,194,1 // roundps $0x1,%xmm10,%xmm0
.byte 68,15,92,208 // subps %xmm0,%xmm10
.byte 69,15,194,218,2 // cmpleps %xmm10,%xmm11
@@ -29122,17 +29136,17 @@ HIDDEN _sk_scale_u8_sse41
FUNCTION(_sk_scale_u8_sse41)
_sk_scale_u8_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,52 // jne 146cd <_sk_scale_u8_sse41+0x4c>
- .byte 102,71,15,56,49,4,25 // pmovzxbd (%r9,%r11,1),%xmm8
- .byte 102,68,15,219,5,23,125,1,0 // pand 0x17d17(%rip),%xmm8 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,52 // jne 14661 <_sk_scale_u8_sse41+0x4c>
+ .byte 102,71,15,56,49,4,16 // pmovzxbd (%r8,%r10,1),%xmm8
+ .byte 102,68,15,219,5,179,125,1,0 // pand 0x17db3(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 69,15,91,192 // cvtdq2ps %xmm8,%xmm8
- .byte 68,15,89,5,91,126,1,0 // mulps 0x17e5b(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,89,5,247,126,1,0 // mulps 0x17ef7(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 65,15,89,200 // mulps %xmm8,%xmm1
.byte 65,15,89,208 // mulps %xmm8,%xmm2
@@ -29140,26 +29154,26 @@ _sk_scale_u8_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,216 // movaps %xmm8,%xmm3
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,59 // je 14715 <_sk_scale_u8_sse41+0x94>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,59 // je 146a9 <_sk_scale_u8_sse41+0x94>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,23 // je 146fc <_sk_scale_u8_sse41+0x7b>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,181 // jne 146a0 <_sk_scale_u8_sse41+0x1f>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,23 // je 14690 <_sk_scale_u8_sse41+0x7b>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,181 // jne 14634 <_sk_scale_u8_sse41+0x1f>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
.byte 102,69,15,112,192,69 // pshufd $0x45,%xmm8,%xmm8
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,68,15,110,200 // movd %eax,%xmm9
.byte 102,69,15,56,49,201 // pmovzxbd %xmm9,%xmm9
.byte 102,69,15,58,14,193,15 // pblendw $0xf,%xmm9,%xmm8
- .byte 235,139 // jmp 146a0 <_sk_scale_u8_sse41+0x1f>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 235,139 // jmp 14634 <_sk_scale_u8_sse41+0x1f>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
- .byte 233,124,255,255,255 // jmpq 146a0 <_sk_scale_u8_sse41+0x1f>
+ .byte 233,124,255,255,255 // jmpq 14634 <_sk_scale_u8_sse41+0x1f>
HIDDEN _sk_scale_565_sse41
.globl _sk_scale_565_sse41
@@ -29167,26 +29181,26 @@ FUNCTION(_sk_scale_565_sse41)
_sk_scale_565_sse41:
.byte 102,68,15,111,192 // movdqa %xmm0,%xmm8
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,159,0,0,0 // jne 147e7 <_sk_scale_565_sse41+0xc3>
- .byte 102,71,15,56,51,28,89 // pmovzxwd (%r9,%r11,2),%xmm11
- .byte 102,15,111,5,201,125,1,0 // movdqa 0x17dc9(%rip),%xmm0 # 2c520 <_sk_overlay_sse2_8bit+0x103b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,159,0,0,0 // jne 1477b <_sk_scale_565_sse41+0xc3>
+ .byte 102,71,15,56,51,28,80 // pmovzxwd (%r8,%r10,2),%xmm11
+ .byte 102,15,111,5,101,126,1,0 // movdqa 0x17e65(%rip),%xmm0 # 2c550 <_sk_overlay_sse2_8bit+0x10b3>
.byte 102,65,15,219,195 // pand %xmm11,%xmm0
.byte 68,15,91,200 // cvtdq2ps %xmm0,%xmm9
- .byte 68,15,89,13,200,125,1,0 // mulps 0x17dc8(%rip),%xmm9 # 2c530 <_sk_overlay_sse2_8bit+0x104b>
- .byte 102,15,111,5,208,125,1,0 // movdqa 0x17dd0(%rip),%xmm0 # 2c540 <_sk_overlay_sse2_8bit+0x105b>
+ .byte 68,15,89,13,100,126,1,0 // mulps 0x17e64(%rip),%xmm9 # 2c560 <_sk_overlay_sse2_8bit+0x10c3>
+ .byte 102,15,111,5,108,126,1,0 // movdqa 0x17e6c(%rip),%xmm0 # 2c570 <_sk_overlay_sse2_8bit+0x10d3>
.byte 102,65,15,219,195 // pand %xmm11,%xmm0
.byte 68,15,91,208 // cvtdq2ps %xmm0,%xmm10
- .byte 68,15,89,21,207,125,1,0 // mulps 0x17dcf(%rip),%xmm10 # 2c550 <_sk_overlay_sse2_8bit+0x106b>
- .byte 102,68,15,219,29,214,125,1,0 // pand 0x17dd6(%rip),%xmm11 # 2c560 <_sk_overlay_sse2_8bit+0x107b>
+ .byte 68,15,89,21,107,126,1,0 // mulps 0x17e6b(%rip),%xmm10 # 2c580 <_sk_overlay_sse2_8bit+0x10e3>
+ .byte 102,68,15,219,29,114,126,1,0 // pand 0x17e72(%rip),%xmm11 # 2c590 <_sk_overlay_sse2_8bit+0x10f3>
.byte 69,15,91,219 // cvtdq2ps %xmm11,%xmm11
- .byte 68,15,89,29,218,125,1,0 // mulps 0x17dda(%rip),%xmm11 # 2c570 <_sk_overlay_sse2_8bit+0x108b>
+ .byte 68,15,89,29,118,126,1,0 // mulps 0x17e76(%rip),%xmm11 # 2c5a0 <_sk_overlay_sse2_8bit+0x1103>
.byte 15,40,195 // movaps %xmm3,%xmm0
.byte 15,194,199,1 // cmpltps %xmm7,%xmm0
.byte 69,15,40,226 // movaps %xmm10,%xmm12
@@ -29208,25 +29222,25 @@ _sk_scale_565_sse41:
.byte 65,15,40,211 // movaps %xmm11,%xmm2
.byte 65,15,40,220 // movaps %xmm12,%xmm3
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,60 // je 14830 <_sk_scale_565_sse41+0x10c>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,60 // je 147c4 <_sk_scale_565_sse41+0x10c>
.byte 102,69,15,239,219 // pxor %xmm11,%xmm11
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,26 // je 14819 <_sk_scale_565_sse41+0xf5>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 15,133,70,255,255,255 // jne 1474f <_sk_scale_565_sse41+0x2b>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,26 // je 147ad <_sk_scale_565_sse41+0xf5>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 15,133,70,255,255,255 // jne 146e3 <_sk_scale_565_sse41+0x2b>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,68,15,112,216,69 // pshufd $0x45,%xmm0,%xmm11
- .byte 102,67,15,110,4,89 // movd (%r9,%r11,2),%xmm0
+ .byte 102,67,15,110,4,80 // movd (%r8,%r10,2),%xmm0
.byte 102,15,56,51,192 // pmovzxwd %xmm0,%xmm0
.byte 102,68,15,58,14,216,15 // pblendw $0xf,%xmm0,%xmm11
- .byte 233,31,255,255,255 // jmpq 1474f <_sk_scale_565_sse41+0x2b>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,31,255,255,255 // jmpq 146e3 <_sk_scale_565_sse41+0x2b>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,68,15,110,216 // movd %eax,%xmm11
- .byte 233,16,255,255,255 // jmpq 1474f <_sk_scale_565_sse41+0x2b>
+ .byte 233,16,255,255,255 // jmpq 146e3 <_sk_scale_565_sse41+0x2b>
HIDDEN _sk_lerp_1_float_sse41
.globl _sk_lerp_1_float_sse41
@@ -29255,17 +29269,17 @@ HIDDEN _sk_lerp_u8_sse41
FUNCTION(_sk_lerp_u8_sse41)
_sk_lerp_u8_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,72 // jne 148d7 <_sk_lerp_u8_sse41+0x60>
- .byte 102,71,15,56,49,4,25 // pmovzxbd (%r9,%r11,1),%xmm8
- .byte 102,68,15,219,5,33,123,1,0 // pand 0x17b21(%rip),%xmm8 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,72 // jne 1486b <_sk_lerp_u8_sse41+0x60>
+ .byte 102,71,15,56,49,4,16 // pmovzxbd (%r8,%r10,1),%xmm8
+ .byte 102,68,15,219,5,189,123,1,0 // pand 0x17bbd(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 69,15,91,192 // cvtdq2ps %xmm8,%xmm8
- .byte 68,15,89,5,101,124,1,0 // mulps 0x17c65(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,89,5,1,125,1,0 // mulps 0x17d01(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 15,92,196 // subps %xmm4,%xmm0
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 15,88,196 // addps %xmm4,%xmm0
@@ -29280,26 +29294,26 @@ _sk_lerp_u8_sse41:
.byte 15,88,223 // addps %xmm7,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,62 // je 14922 <_sk_lerp_u8_sse41+0xab>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,62 // je 148b6 <_sk_lerp_u8_sse41+0xab>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,23 // je 14906 <_sk_lerp_u8_sse41+0x8f>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,161 // jne 14896 <_sk_lerp_u8_sse41+0x1f>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,23 // je 1489a <_sk_lerp_u8_sse41+0x8f>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,161 // jne 1482a <_sk_lerp_u8_sse41+0x1f>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
.byte 102,69,15,112,192,69 // pshufd $0x45,%xmm8,%xmm8
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,68,15,110,200 // movd %eax,%xmm9
.byte 102,69,15,56,49,201 // pmovzxbd %xmm9,%xmm9
.byte 102,69,15,58,14,193,15 // pblendw $0xf,%xmm9,%xmm8
- .byte 233,116,255,255,255 // jmpq 14896 <_sk_lerp_u8_sse41+0x1f>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 233,116,255,255,255 // jmpq 1482a <_sk_lerp_u8_sse41+0x1f>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
- .byte 233,101,255,255,255 // jmpq 14896 <_sk_lerp_u8_sse41+0x1f>
+ .byte 233,101,255,255,255 // jmpq 1482a <_sk_lerp_u8_sse41+0x1f>
HIDDEN _sk_lerp_565_sse41
.globl _sk_lerp_565_sse41
@@ -29307,26 +29321,26 @@ FUNCTION(_sk_lerp_565_sse41)
_sk_lerp_565_sse41:
.byte 102,68,15,111,192 // movdqa %xmm0,%xmm8
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,165,0,0,0 // jne 149fa <_sk_lerp_565_sse41+0xc9>
- .byte 102,71,15,56,51,20,89 // pmovzxwd (%r9,%r11,2),%xmm10
- .byte 102,15,111,5,188,123,1,0 // movdqa 0x17bbc(%rip),%xmm0 # 2c520 <_sk_overlay_sse2_8bit+0x103b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,165,0,0,0 // jne 1498e <_sk_lerp_565_sse41+0xc9>
+ .byte 102,71,15,56,51,20,80 // pmovzxwd (%r8,%r10,2),%xmm10
+ .byte 102,15,111,5,88,124,1,0 // movdqa 0x17c58(%rip),%xmm0 # 2c550 <_sk_overlay_sse2_8bit+0x10b3>
.byte 102,65,15,219,194 // pand %xmm10,%xmm0
.byte 68,15,91,200 // cvtdq2ps %xmm0,%xmm9
- .byte 68,15,89,13,187,123,1,0 // mulps 0x17bbb(%rip),%xmm9 # 2c530 <_sk_overlay_sse2_8bit+0x104b>
- .byte 102,15,111,5,195,123,1,0 // movdqa 0x17bc3(%rip),%xmm0 # 2c540 <_sk_overlay_sse2_8bit+0x105b>
+ .byte 68,15,89,13,87,124,1,0 // mulps 0x17c57(%rip),%xmm9 # 2c560 <_sk_overlay_sse2_8bit+0x10c3>
+ .byte 102,15,111,5,95,124,1,0 // movdqa 0x17c5f(%rip),%xmm0 # 2c570 <_sk_overlay_sse2_8bit+0x10d3>
.byte 102,65,15,219,194 // pand %xmm10,%xmm0
.byte 68,15,91,216 // cvtdq2ps %xmm0,%xmm11
- .byte 68,15,89,29,194,123,1,0 // mulps 0x17bc2(%rip),%xmm11 # 2c550 <_sk_overlay_sse2_8bit+0x106b>
- .byte 102,68,15,219,21,201,123,1,0 // pand 0x17bc9(%rip),%xmm10 # 2c560 <_sk_overlay_sse2_8bit+0x107b>
+ .byte 68,15,89,29,94,124,1,0 // mulps 0x17c5e(%rip),%xmm11 # 2c580 <_sk_overlay_sse2_8bit+0x10e3>
+ .byte 102,68,15,219,21,101,124,1,0 // pand 0x17c65(%rip),%xmm10 # 2c590 <_sk_overlay_sse2_8bit+0x10f3>
.byte 69,15,91,210 // cvtdq2ps %xmm10,%xmm10
- .byte 68,15,89,21,205,123,1,0 // mulps 0x17bcd(%rip),%xmm10 # 2c570 <_sk_overlay_sse2_8bit+0x108b>
+ .byte 68,15,89,21,105,124,1,0 // mulps 0x17c69(%rip),%xmm10 # 2c5a0 <_sk_overlay_sse2_8bit+0x1103>
.byte 15,40,195 // movaps %xmm3,%xmm0
.byte 15,194,199,1 // cmpltps %xmm7,%xmm0
.byte 69,15,40,227 // movaps %xmm11,%xmm12
@@ -29351,118 +29365,115 @@ _sk_lerp_565_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,60 // je 14a43 <_sk_lerp_565_sse41+0x112>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,60 // je 149d7 <_sk_lerp_565_sse41+0x112>
.byte 102,69,15,239,210 // pxor %xmm10,%xmm10
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,26 // je 14a2c <_sk_lerp_565_sse41+0xfb>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 15,133,64,255,255,255 // jne 1495c <_sk_lerp_565_sse41+0x2b>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,26 // je 149c0 <_sk_lerp_565_sse41+0xfb>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 15,133,64,255,255,255 // jne 148f0 <_sk_lerp_565_sse41+0x2b>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,68,15,112,208,69 // pshufd $0x45,%xmm0,%xmm10
- .byte 102,67,15,110,4,89 // movd (%r9,%r11,2),%xmm0
+ .byte 102,67,15,110,4,80 // movd (%r8,%r10,2),%xmm0
.byte 102,15,56,51,192 // pmovzxwd %xmm0,%xmm0
.byte 102,68,15,58,14,208,15 // pblendw $0xf,%xmm0,%xmm10
- .byte 233,25,255,255,255 // jmpq 1495c <_sk_lerp_565_sse41+0x2b>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,25,255,255,255 // jmpq 148f0 <_sk_lerp_565_sse41+0x2b>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,68,15,110,208 // movd %eax,%xmm10
- .byte 233,10,255,255,255 // jmpq 1495c <_sk_lerp_565_sse41+0x2b>
+ .byte 233,10,255,255,255 // jmpq 148f0 <_sk_lerp_565_sse41+0x2b>
HIDDEN _sk_load_tables_sse41
.globl _sk_load_tables_sse41
FUNCTION(_sk_load_tables_sse41)
_sk_load_tables_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,24,1,0,0 // jne 14b78 <_sk_load_tables_sse41+0x126>
- .byte 243,69,15,111,4,145 // movdqu (%r9,%rdx,4),%xmm8
- .byte 65,87 // push %r15
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,20,1,0,0 // jne 14b08 <_sk_load_tables_sse41+0x122>
+ .byte 243,69,15,111,4,144 // movdqu (%r8,%rdx,4),%xmm8
.byte 65,86 // push %r14
.byte 83 // push %rbx
- .byte 102,15,111,5,77,121,1,0 // movdqa 0x1794d(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,15,111,5,235,121,1,0 // movdqa 0x179eb(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,65,15,219,192 // pand %xmm8,%xmm0
- .byte 102,73,15,58,22,193,1 // pextrq $0x1,%xmm0,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 69,15,182,218 // movzbl %r10b,%r11d
- .byte 73,193,234,30 // shr $0x1e,%r10
- .byte 69,15,182,241 // movzbl %r9b,%r14d
+ .byte 102,73,15,58,22,192,1 // pextrq $0x1,%xmm0,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 69,15,182,209 // movzbl %r9b,%r10d
.byte 73,193,233,30 // shr $0x1e,%r9
+ .byte 69,15,182,216 // movzbl %r8b,%r11d
+ .byte 73,193,232,30 // shr $0x1e,%r8
.byte 72,139,88,8 // mov 0x8(%rax),%rbx
- .byte 76,139,120,16 // mov 0x10(%rax),%r15
- .byte 243,66,15,16,4,155 // movss (%rbx,%r11,4),%xmm0
- .byte 102,66,15,58,33,4,19,16 // insertps $0x10,(%rbx,%r10,1),%xmm0
- .byte 102,66,15,58,33,4,179,32 // insertps $0x20,(%rbx,%r14,4),%xmm0
- .byte 102,66,15,58,33,4,11,48 // insertps $0x30,(%rbx,%r9,1),%xmm0
+ .byte 76,139,112,16 // mov 0x10(%rax),%r14
+ .byte 243,66,15,16,4,147 // movss (%rbx,%r10,4),%xmm0
+ .byte 102,66,15,58,33,4,11,16 // insertps $0x10,(%rbx,%r9,1),%xmm0
+ .byte 102,66,15,58,33,4,155,32 // insertps $0x20,(%rbx,%r11,4),%xmm0
+ .byte 102,66,15,58,33,4,3,48 // insertps $0x30,(%rbx,%r8,1),%xmm0
.byte 102,65,15,111,200 // movdqa %xmm8,%xmm1
- .byte 102,15,56,0,13,8,121,1,0 // pshufb 0x17908(%rip),%xmm1 # 2c3d0 <_sk_overlay_sse2_8bit+0xeeb>
- .byte 102,73,15,58,22,201,1 // pextrq $0x1,%xmm1,%r9
+ .byte 102,15,56,0,13,166,121,1,0 // pshufb 0x179a6(%rip),%xmm1 # 2c400 <_sk_overlay_sse2_8bit+0xf63>
+ .byte 102,73,15,58,22,200,1 // pextrq $0x1,%xmm1,%r8
.byte 102,72,15,126,203 // movq %xmm1,%rbx
- .byte 68,15,182,211 // movzbl %bl,%r10d
+ .byte 68,15,182,203 // movzbl %bl,%r9d
.byte 72,193,235,30 // shr $0x1e,%rbx
- .byte 69,15,182,217 // movzbl %r9b,%r11d
- .byte 73,193,233,30 // shr $0x1e,%r9
- .byte 243,67,15,16,12,151 // movss (%r15,%r10,4),%xmm1
- .byte 102,65,15,58,33,12,31,16 // insertps $0x10,(%r15,%rbx,1),%xmm1
- .byte 243,67,15,16,20,159 // movss (%r15,%r11,4),%xmm2
+ .byte 69,15,182,208 // movzbl %r8b,%r10d
+ .byte 73,193,232,30 // shr $0x1e,%r8
+ .byte 243,67,15,16,12,142 // movss (%r14,%r9,4),%xmm1
+ .byte 102,65,15,58,33,12,30,16 // insertps $0x10,(%r14,%rbx,1),%xmm1
+ .byte 243,67,15,16,20,150 // movss (%r14,%r10,4),%xmm2
.byte 102,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm1
- .byte 243,67,15,16,20,15 // movss (%r15,%r9,1),%xmm2
+ .byte 243,67,15,16,20,6 // movss (%r14,%r8,1),%xmm2
.byte 102,15,58,33,202,48 // insertps $0x30,%xmm2,%xmm1
- .byte 76,139,72,24 // mov 0x18(%rax),%r9
+ .byte 76,139,64,24 // mov 0x18(%rax),%r8
.byte 102,65,15,111,208 // movdqa %xmm8,%xmm2
- .byte 102,15,56,0,21,196,120,1,0 // pshufb 0x178c4(%rip),%xmm2 # 2c3e0 <_sk_overlay_sse2_8bit+0xefb>
+ .byte 102,15,56,0,21,98,121,1,0 // pshufb 0x17962(%rip),%xmm2 # 2c410 <_sk_overlay_sse2_8bit+0xf73>
.byte 102,72,15,58,22,211,1 // pextrq $0x1,%xmm2,%rbx
.byte 102,72,15,126,208 // movq %xmm2,%rax
- .byte 68,15,182,208 // movzbl %al,%r10d
+ .byte 68,15,182,200 // movzbl %al,%r9d
.byte 72,193,232,30 // shr $0x1e,%rax
- .byte 68,15,182,219 // movzbl %bl,%r11d
+ .byte 68,15,182,211 // movzbl %bl,%r10d
.byte 72,193,235,30 // shr $0x1e,%rbx
- .byte 243,67,15,16,20,145 // movss (%r9,%r10,4),%xmm2
- .byte 102,65,15,58,33,20,1,16 // insertps $0x10,(%r9,%rax,1),%xmm2
- .byte 243,67,15,16,28,153 // movss (%r9,%r11,4),%xmm3
+ .byte 243,67,15,16,20,136 // movss (%r8,%r9,4),%xmm2
+ .byte 102,65,15,58,33,20,0,16 // insertps $0x10,(%r8,%rax,1),%xmm2
+ .byte 243,67,15,16,28,144 // movss (%r8,%r10,4),%xmm3
.byte 102,15,58,33,211,32 // insertps $0x20,%xmm3,%xmm2
- .byte 243,65,15,16,28,25 // movss (%r9,%rbx,1),%xmm3
+ .byte 243,65,15,16,28,24 // movss (%r8,%rbx,1),%xmm3
.byte 102,15,58,33,211,48 // insertps $0x30,%xmm3,%xmm2
.byte 102,65,15,114,208,24 // psrld $0x18,%xmm8
.byte 65,15,91,216 // cvtdq2ps %xmm8,%xmm3
- .byte 15,89,29,161,121,1,0 // mulps 0x179a1(%rip),%xmm3 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,29,63,122,1,0 // mulps 0x17a3f(%rip),%xmm3 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,52 // je 14bb9 <_sk_load_tables_sse41+0x167>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,52 // je 14b49 <_sk_load_tables_sse41+0x163>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,23 // je 14ba7 <_sk_load_tables_sse41+0x155>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 15,133,204,254,255,255 // jne 14a66 <_sk_load_tables_sse41+0x14>
- .byte 102,65,15,110,68,145,8 // movd 0x8(%r9,%rdx,4),%xmm0
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,23 // je 14b37 <_sk_load_tables_sse41+0x151>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 15,133,208,254,255,255 // jne 149fa <_sk_load_tables_sse41+0x14>
+ .byte 102,65,15,110,68,144,8 // movd 0x8(%r8,%rdx,4),%xmm0
.byte 102,68,15,112,192,69 // pshufd $0x45,%xmm0,%xmm8
- .byte 243,65,15,126,4,145 // movq (%r9,%rdx,4),%xmm0
+ .byte 243,65,15,126,4,144 // movq (%r8,%rdx,4),%xmm0
.byte 102,68,15,58,14,192,15 // pblendw $0xf,%xmm0,%xmm8
- .byte 233,173,254,255,255 // jmpq 14a66 <_sk_load_tables_sse41+0x14>
- .byte 102,69,15,110,4,145 // movd (%r9,%rdx,4),%xmm8
- .byte 233,162,254,255,255 // jmpq 14a66 <_sk_load_tables_sse41+0x14>
+ .byte 233,177,254,255,255 // jmpq 149fa <_sk_load_tables_sse41+0x14>
+ .byte 102,69,15,110,4,144 // movd (%r8,%rdx,4),%xmm8
+ .byte 233,166,254,255,255 // jmpq 149fa <_sk_load_tables_sse41+0x14>
HIDDEN _sk_load_tables_u16_be_sse41
.globl _sk_load_tables_u16_be_sse41
FUNCTION(_sk_load_tables_u16_be_sse41)
_sk_load_tables_u16_be_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 76,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,99,1,0,0 // jne 14d3d <_sk_load_tables_u16_be_sse41+0x179>
- .byte 102,67,15,16,4,81 // movupd (%r9,%r10,2),%xmm0
- .byte 243,67,15,111,76,81,16 // movdqu 0x10(%r9,%r10,2),%xmm1
- .byte 65,87 // push %r15
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 76,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,95,1,0,0 // jne 14cc9 <_sk_load_tables_u16_be_sse41+0x175>
+ .byte 102,67,15,16,4,72 // movupd (%r8,%r9,2),%xmm0
+ .byte 243,67,15,111,76,72,16 // movdqu 0x10(%r8,%r9,2),%xmm1
.byte 65,86 // push %r14
.byte 83 // push %rbx
.byte 102,68,15,40,200 // movapd %xmm0,%xmm9
@@ -29471,52 +29482,52 @@ _sk_load_tables_u16_be_sse41:
.byte 102,65,15,111,201 // movdqa %xmm9,%xmm1
.byte 102,15,97,200 // punpcklwd %xmm0,%xmm1
.byte 102,68,15,105,200 // punpckhwd %xmm0,%xmm9
- .byte 102,68,15,111,5,111,121,1,0 // movdqa 0x1796f(%rip),%xmm8 # 2c580 <_sk_overlay_sse2_8bit+0x109b>
+ .byte 102,68,15,111,5,17,122,1,0 // movdqa 0x17a11(%rip),%xmm8 # 2c5b0 <_sk_overlay_sse2_8bit+0x1113>
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
.byte 102,65,15,219,192 // pand %xmm8,%xmm0
.byte 102,15,56,51,192 // pmovzxwd %xmm0,%xmm0
- .byte 102,73,15,58,22,193,1 // pextrq $0x1,%xmm0,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 69,15,182,218 // movzbl %r10b,%r11d
- .byte 73,193,234,30 // shr $0x1e,%r10
- .byte 69,15,182,241 // movzbl %r9b,%r14d
+ .byte 102,73,15,58,22,192,1 // pextrq $0x1,%xmm0,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 69,15,182,209 // movzbl %r9b,%r10d
.byte 73,193,233,30 // shr $0x1e,%r9
+ .byte 69,15,182,216 // movzbl %r8b,%r11d
+ .byte 73,193,232,30 // shr $0x1e,%r8
.byte 72,139,88,8 // mov 0x8(%rax),%rbx
- .byte 76,139,120,16 // mov 0x10(%rax),%r15
- .byte 243,66,15,16,4,155 // movss (%rbx,%r11,4),%xmm0
- .byte 102,66,15,58,33,4,19,16 // insertps $0x10,(%rbx,%r10,1),%xmm0
- .byte 243,66,15,16,20,179 // movss (%rbx,%r14,4),%xmm2
+ .byte 76,139,112,16 // mov 0x10(%rax),%r14
+ .byte 243,66,15,16,4,147 // movss (%rbx,%r10,4),%xmm0
+ .byte 102,66,15,58,33,4,11,16 // insertps $0x10,(%rbx,%r9,1),%xmm0
+ .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
.byte 102,15,58,33,194,32 // insertps $0x20,%xmm2,%xmm0
- .byte 243,66,15,16,20,11 // movss (%rbx,%r9,1),%xmm2
+ .byte 243,66,15,16,20,3 // movss (%rbx,%r8,1),%xmm2
.byte 102,15,58,33,194,48 // insertps $0x30,%xmm2,%xmm0
- .byte 102,15,56,0,13,30,121,1,0 // pshufb 0x1791e(%rip),%xmm1 # 2c590 <_sk_overlay_sse2_8bit+0x10ab>
+ .byte 102,15,56,0,13,192,121,1,0 // pshufb 0x179c0(%rip),%xmm1 # 2c5c0 <_sk_overlay_sse2_8bit+0x1123>
.byte 102,15,56,51,201 // pmovzxwd %xmm1,%xmm1
- .byte 102,73,15,58,22,201,1 // pextrq $0x1,%xmm1,%r9
+ .byte 102,73,15,58,22,200,1 // pextrq $0x1,%xmm1,%r8
.byte 102,72,15,126,203 // movq %xmm1,%rbx
- .byte 68,15,182,211 // movzbl %bl,%r10d
+ .byte 68,15,182,203 // movzbl %bl,%r9d
.byte 72,193,235,30 // shr $0x1e,%rbx
- .byte 69,15,182,217 // movzbl %r9b,%r11d
- .byte 73,193,233,30 // shr $0x1e,%r9
- .byte 243,67,15,16,12,151 // movss (%r15,%r10,4),%xmm1
- .byte 102,65,15,58,33,12,31,16 // insertps $0x10,(%r15,%rbx,1),%xmm1
- .byte 243,67,15,16,20,159 // movss (%r15,%r11,4),%xmm2
+ .byte 69,15,182,208 // movzbl %r8b,%r10d
+ .byte 73,193,232,30 // shr $0x1e,%r8
+ .byte 243,67,15,16,12,142 // movss (%r14,%r9,4),%xmm1
+ .byte 102,65,15,58,33,12,30,16 // insertps $0x10,(%r14,%rbx,1),%xmm1
+ .byte 243,67,15,16,20,150 // movss (%r14,%r10,4),%xmm2
.byte 102,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm1
- .byte 243,67,15,16,20,15 // movss (%r15,%r9,1),%xmm2
+ .byte 243,67,15,16,20,6 // movss (%r14,%r8,1),%xmm2
.byte 102,15,58,33,202,48 // insertps $0x30,%xmm2,%xmm1
- .byte 76,139,72,24 // mov 0x18(%rax),%r9
+ .byte 76,139,64,24 // mov 0x18(%rax),%r8
.byte 102,69,15,219,193 // pand %xmm9,%xmm8
.byte 102,65,15,56,51,208 // pmovzxwd %xmm8,%xmm2
.byte 102,72,15,58,22,211,1 // pextrq $0x1,%xmm2,%rbx
.byte 102,72,15,126,208 // movq %xmm2,%rax
- .byte 68,15,182,208 // movzbl %al,%r10d
+ .byte 68,15,182,200 // movzbl %al,%r9d
.byte 72,193,232,30 // shr $0x1e,%rax
- .byte 68,15,182,219 // movzbl %bl,%r11d
+ .byte 68,15,182,211 // movzbl %bl,%r10d
.byte 72,193,235,30 // shr $0x1e,%rbx
- .byte 243,67,15,16,20,145 // movss (%r9,%r10,4),%xmm2
- .byte 102,65,15,58,33,20,1,16 // insertps $0x10,(%r9,%rax,1),%xmm2
- .byte 243,67,15,16,28,153 // movss (%r9,%r11,4),%xmm3
+ .byte 243,67,15,16,20,136 // movss (%r8,%r9,4),%xmm2
+ .byte 102,65,15,58,33,20,0,16 // insertps $0x10,(%r8,%rax,1),%xmm2
+ .byte 243,67,15,16,28,144 // movss (%r8,%r10,4),%xmm3
.byte 102,15,58,33,211,32 // insertps $0x20,%xmm3,%xmm2
- .byte 243,65,15,16,28,25 // movss (%r9,%rbx,1),%xmm3
+ .byte 243,65,15,16,28,24 // movss (%r8,%rbx,1),%xmm3
.byte 102,15,58,33,211,48 // insertps $0x30,%xmm3,%xmm2
.byte 102,65,15,112,217,78 // pshufd $0x4e,%xmm9,%xmm3
.byte 102,68,15,111,195 // movdqa %xmm3,%xmm8
@@ -29525,121 +29536,118 @@ _sk_load_tables_u16_be_sse41:
.byte 102,65,15,235,216 // por %xmm8,%xmm3
.byte 102,15,56,51,219 // pmovzxwd %xmm3,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
- .byte 15,89,29,108,120,1,0 // mulps 0x1786c(%rip),%xmm3 # 2c5a0 <_sk_overlay_sse2_8bit+0x10bb>
+ .byte 15,89,29,14,121,1,0 // mulps 0x1790e(%rip),%xmm3 # 2c5d0 <_sk_overlay_sse2_8bit+0x1133>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
- .byte 242,67,15,16,4,81 // movsd (%r9,%r10,2),%xmm0
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,13 // jne 14d56 <_sk_load_tables_u16_be_sse41+0x192>
+ .byte 242,67,15,16,4,72 // movsd (%r8,%r9,2),%xmm0
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,13 // jne 14ce2 <_sk_load_tables_u16_be_sse41+0x18e>
.byte 243,15,126,192 // movq %xmm0,%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 233,145,254,255,255 // jmpq 14be7 <_sk_load_tables_u16_be_sse41+0x23>
- .byte 102,67,15,22,68,81,8 // movhpd 0x8(%r9,%r10,2),%xmm0
+ .byte 233,149,254,255,255 // jmpq 14b77 <_sk_load_tables_u16_be_sse41+0x23>
+ .byte 102,67,15,22,68,72,8 // movhpd 0x8(%r8,%r9,2),%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 15,130,124,254,255,255 // jb 14be7 <_sk_load_tables_u16_be_sse41+0x23>
- .byte 243,67,15,126,76,81,16 // movq 0x10(%r9,%r10,2),%xmm1
- .byte 233,112,254,255,255 // jmpq 14be7 <_sk_load_tables_u16_be_sse41+0x23>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 15,130,128,254,255,255 // jb 14b77 <_sk_load_tables_u16_be_sse41+0x23>
+ .byte 243,67,15,126,76,72,16 // movq 0x10(%r8,%r9,2),%xmm1
+ .byte 233,116,254,255,255 // jmpq 14b77 <_sk_load_tables_u16_be_sse41+0x23>
HIDDEN _sk_load_tables_rgb_u16_be_sse41
.globl _sk_load_tables_rgb_u16_be_sse41
FUNCTION(_sk_load_tables_rgb_u16_be_sse41)
_sk_load_tables_rgb_u16_be_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 76,141,20,82 // lea (%rdx,%rdx,2),%r10
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,83,1,0,0 // jne 14edc <_sk_load_tables_rgb_u16_be_sse41+0x165>
- .byte 243,67,15,111,20,81 // movdqu (%r9,%r10,2),%xmm2
- .byte 243,67,15,111,76,81,8 // movdqu 0x8(%r9,%r10,2),%xmm1
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 76,141,12,82 // lea (%rdx,%rdx,2),%r9
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,79,1,0,0 // jne 14e64 <_sk_load_tables_rgb_u16_be_sse41+0x161>
+ .byte 243,67,15,111,20,72 // movdqu (%r8,%r9,2),%xmm2
+ .byte 243,67,15,111,76,72,8 // movdqu 0x8(%r8,%r9,2),%xmm1
.byte 102,15,115,217,4 // psrldq $0x4,%xmm1
.byte 102,68,15,111,202 // movdqa %xmm2,%xmm9
.byte 102,65,15,115,217,6 // psrldq $0x6,%xmm9
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
.byte 102,15,115,216,6 // psrldq $0x6,%xmm0
- .byte 65,87 // push %r15
.byte 65,86 // push %r14
.byte 83 // push %rbx
.byte 102,15,97,209 // punpcklwd %xmm1,%xmm2
.byte 102,68,15,97,200 // punpcklwd %xmm0,%xmm9
.byte 102,15,111,202 // movdqa %xmm2,%xmm1
.byte 102,65,15,97,201 // punpcklwd %xmm9,%xmm1
- .byte 102,68,15,111,5,177,119,1,0 // movdqa 0x177b1(%rip),%xmm8 # 2c580 <_sk_overlay_sse2_8bit+0x109b>
+ .byte 102,68,15,111,5,87,120,1,0 // movdqa 0x17857(%rip),%xmm8 # 2c5b0 <_sk_overlay_sse2_8bit+0x1113>
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
.byte 102,65,15,219,192 // pand %xmm8,%xmm0
.byte 102,15,56,51,192 // pmovzxwd %xmm0,%xmm0
- .byte 102,73,15,58,22,193,1 // pextrq $0x1,%xmm0,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 69,15,182,218 // movzbl %r10b,%r11d
- .byte 73,193,234,30 // shr $0x1e,%r10
- .byte 69,15,182,241 // movzbl %r9b,%r14d
+ .byte 102,73,15,58,22,192,1 // pextrq $0x1,%xmm0,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 69,15,182,209 // movzbl %r9b,%r10d
.byte 73,193,233,30 // shr $0x1e,%r9
+ .byte 69,15,182,216 // movzbl %r8b,%r11d
+ .byte 73,193,232,30 // shr $0x1e,%r8
.byte 72,139,88,8 // mov 0x8(%rax),%rbx
- .byte 76,139,120,16 // mov 0x10(%rax),%r15
- .byte 243,66,15,16,4,155 // movss (%rbx,%r11,4),%xmm0
- .byte 102,66,15,58,33,4,19,16 // insertps $0x10,(%rbx,%r10,1),%xmm0
- .byte 243,66,15,16,28,179 // movss (%rbx,%r14,4),%xmm3
+ .byte 76,139,112,16 // mov 0x10(%rax),%r14
+ .byte 243,66,15,16,4,147 // movss (%rbx,%r10,4),%xmm0
+ .byte 102,66,15,58,33,4,11,16 // insertps $0x10,(%rbx,%r9,1),%xmm0
+ .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
.byte 102,15,58,33,195,32 // insertps $0x20,%xmm3,%xmm0
- .byte 243,66,15,16,28,11 // movss (%rbx,%r9,1),%xmm3
+ .byte 243,66,15,16,28,3 // movss (%rbx,%r8,1),%xmm3
.byte 102,15,58,33,195,48 // insertps $0x30,%xmm3,%xmm0
- .byte 102,15,56,0,13,128,119,1,0 // pshufb 0x17780(%rip),%xmm1 # 2c5b0 <_sk_overlay_sse2_8bit+0x10cb>
+ .byte 102,15,56,0,13,38,120,1,0 // pshufb 0x17826(%rip),%xmm1 # 2c5e0 <_sk_overlay_sse2_8bit+0x1143>
.byte 102,15,56,51,201 // pmovzxwd %xmm1,%xmm1
- .byte 102,73,15,58,22,201,1 // pextrq $0x1,%xmm1,%r9
+ .byte 102,73,15,58,22,200,1 // pextrq $0x1,%xmm1,%r8
.byte 102,72,15,126,203 // movq %xmm1,%rbx
- .byte 68,15,182,211 // movzbl %bl,%r10d
+ .byte 68,15,182,203 // movzbl %bl,%r9d
.byte 72,193,235,30 // shr $0x1e,%rbx
- .byte 69,15,182,217 // movzbl %r9b,%r11d
- .byte 73,193,233,30 // shr $0x1e,%r9
- .byte 243,67,15,16,12,151 // movss (%r15,%r10,4),%xmm1
- .byte 102,65,15,58,33,12,31,16 // insertps $0x10,(%r15,%rbx,1),%xmm1
- .byte 243,67,15,16,28,159 // movss (%r15,%r11,4),%xmm3
+ .byte 69,15,182,208 // movzbl %r8b,%r10d
+ .byte 73,193,232,30 // shr $0x1e,%r8
+ .byte 243,67,15,16,12,142 // movss (%r14,%r9,4),%xmm1
+ .byte 102,65,15,58,33,12,30,16 // insertps $0x10,(%r14,%rbx,1),%xmm1
+ .byte 243,67,15,16,28,150 // movss (%r14,%r10,4),%xmm3
.byte 102,15,58,33,203,32 // insertps $0x20,%xmm3,%xmm1
- .byte 243,67,15,16,28,15 // movss (%r15,%r9,1),%xmm3
+ .byte 243,67,15,16,28,6 // movss (%r14,%r8,1),%xmm3
.byte 102,15,58,33,203,48 // insertps $0x30,%xmm3,%xmm1
- .byte 76,139,72,24 // mov 0x18(%rax),%r9
+ .byte 76,139,64,24 // mov 0x18(%rax),%r8
.byte 102,65,15,105,209 // punpckhwd %xmm9,%xmm2
.byte 102,65,15,219,208 // pand %xmm8,%xmm2
.byte 102,15,56,51,210 // pmovzxwd %xmm2,%xmm2
.byte 102,72,15,58,22,211,1 // pextrq $0x1,%xmm2,%rbx
.byte 102,72,15,126,208 // movq %xmm2,%rax
- .byte 68,15,182,208 // movzbl %al,%r10d
+ .byte 68,15,182,200 // movzbl %al,%r9d
.byte 72,193,232,30 // shr $0x1e,%rax
- .byte 68,15,182,219 // movzbl %bl,%r11d
+ .byte 68,15,182,211 // movzbl %bl,%r10d
.byte 72,193,235,30 // shr $0x1e,%rbx
- .byte 243,67,15,16,20,145 // movss (%r9,%r10,4),%xmm2
- .byte 102,65,15,58,33,20,1,16 // insertps $0x10,(%r9,%rax,1),%xmm2
- .byte 243,67,15,16,28,153 // movss (%r9,%r11,4),%xmm3
+ .byte 243,67,15,16,20,136 // movss (%r8,%r9,4),%xmm2
+ .byte 102,65,15,58,33,20,0,16 // insertps $0x10,(%r8,%rax,1),%xmm2
+ .byte 243,67,15,16,28,144 // movss (%r8,%r10,4),%xmm3
.byte 102,15,58,33,211,32 // insertps $0x20,%xmm3,%xmm2
- .byte 243,65,15,16,28,25 // movss (%r9,%rbx,1),%xmm3
+ .byte 243,65,15,16,28,24 // movss (%r8,%rbx,1),%xmm3
.byte 102,15,58,33,211,48 // insertps $0x30,%xmm3,%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,59,116,1,0 // movaps 0x1743b(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,225,116,1,0 // movaps 0x174e1(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
- .byte 102,67,15,110,20,81 // movd (%r9,%r10,2),%xmm2
- .byte 102,67,15,196,84,81,4,2 // pinsrw $0x2,0x4(%r9,%r10,2),%xmm2
+ .byte 102,67,15,110,20,72 // movd (%r8,%r9,2),%xmm2
+ .byte 102,67,15,196,84,72,4,2 // pinsrw $0x2,0x4(%r8,%r9,2),%xmm2
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,14 // jne 14f02 <_sk_load_tables_rgb_u16_be_sse41+0x18b>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,14 // jne 14e8a <_sk_load_tables_rgb_u16_be_sse41+0x187>
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
- .byte 233,173,254,255,255 // jmpq 14daf <_sk_load_tables_rgb_u16_be_sse41+0x38>
- .byte 102,71,15,110,76,81,6 // movd 0x6(%r9,%r10,2),%xmm9
- .byte 102,71,15,196,76,81,10,2 // pinsrw $0x2,0xa(%r9,%r10,2),%xmm9
+ .byte 233,177,254,255,255 // jmpq 14d3b <_sk_load_tables_rgb_u16_be_sse41+0x38>
+ .byte 102,71,15,110,76,72,6 // movd 0x6(%r8,%r9,2),%xmm9
+ .byte 102,71,15,196,76,72,10,2 // pinsrw $0x2,0xa(%r8,%r9,2),%xmm9
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,24 // jb 14f33 <_sk_load_tables_rgb_u16_be_sse41+0x1bc>
- .byte 102,67,15,110,76,81,12 // movd 0xc(%r9,%r10,2),%xmm1
- .byte 102,67,15,196,76,81,16,2 // pinsrw $0x2,0x10(%r9,%r10,2),%xmm1
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,24 // jb 14ebb <_sk_load_tables_rgb_u16_be_sse41+0x1b8>
+ .byte 102,67,15,110,76,72,12 // movd 0xc(%r8,%r9,2),%xmm1
+ .byte 102,67,15,196,76,72,16,2 // pinsrw $0x2,0x10(%r8,%r9,2),%xmm1
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 233,124,254,255,255 // jmpq 14daf <_sk_load_tables_rgb_u16_be_sse41+0x38>
+ .byte 233,128,254,255,255 // jmpq 14d3b <_sk_load_tables_rgb_u16_be_sse41+0x38>
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 233,115,254,255,255 // jmpq 14daf <_sk_load_tables_rgb_u16_be_sse41+0x38>
+ .byte 233,119,254,255,255 // jmpq 14d3b <_sk_load_tables_rgb_u16_be_sse41+0x38>
HIDDEN _sk_byte_tables_sse41
.globl _sk_byte_tables_sse41
@@ -29647,86 +29655,84 @@ FUNCTION(_sk_byte_tables_sse41)
_sk_byte_tables_sse41:
.byte 65,87 // push %r15
.byte 65,86 // push %r14
- .byte 65,84 // push %r12
.byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,15,40,5,163,116,1,0 // movaps 0x174a3(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 68,15,40,5,77,117,1,0 // movaps 0x1754d(%rip),%xmm8 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,91,192 // cvtps2dq %xmm0,%xmm0
- .byte 102,73,15,58,22,193,1 // pextrq $0x1,%xmm0,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 69,137,222 // mov %r11d,%r14d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,139,32 // mov (%rax),%r12
- .byte 76,139,120,8 // mov 0x8(%rax),%r15
- .byte 102,67,15,58,32,4,52,0 // pinsrb $0x0,(%r12,%r14,1),%xmm0
- .byte 102,67,15,58,32,4,28,1 // pinsrb $0x1,(%r12,%r11,1),%xmm0
- .byte 67,15,182,28,20 // movzbl (%r12,%r10,1),%ebx
+ .byte 102,73,15,58,22,192,1 // pextrq $0x1,%xmm0,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,139,56 // mov (%rax),%r15
+ .byte 76,139,112,8 // mov 0x8(%rax),%r14
+ .byte 102,67,15,58,32,4,31,0 // pinsrb $0x0,(%r15,%r11,1),%xmm0
+ .byte 102,67,15,58,32,4,23,1 // pinsrb $0x1,(%r15,%r10,1),%xmm0
+ .byte 67,15,182,28,15 // movzbl (%r15,%r9,1),%ebx
.byte 102,15,58,32,195,2 // pinsrb $0x2,%ebx,%xmm0
- .byte 67,15,182,28,12 // movzbl (%r12,%r9,1),%ebx
+ .byte 67,15,182,28,7 // movzbl (%r15,%r8,1),%ebx
.byte 102,15,58,32,195,3 // pinsrb $0x3,%ebx,%xmm0
.byte 102,15,56,49,192 // pmovzxbd %xmm0,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 68,15,40,13,100,117,1,0 // movaps 0x17564(%rip),%xmm9 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,13,14,118,1,0 // movaps 0x1760e(%rip),%xmm9 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,193 // mulps %xmm9,%xmm0
.byte 65,15,89,200 // mulps %xmm8,%xmm1
.byte 102,15,91,201 // cvtps2dq %xmm1,%xmm1
.byte 102,72,15,58,22,203,1 // pextrq $0x1,%xmm1,%rbx
- .byte 65,137,217 // mov %ebx,%r9d
+ .byte 65,137,216 // mov %ebx,%r8d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 69,137,211 // mov %r10d,%r11d
- .byte 73,193,234,32 // shr $0x20,%r10
- .byte 102,67,15,58,32,12,31,0 // pinsrb $0x0,(%r15,%r11,1),%xmm1
- .byte 102,67,15,58,32,12,23,1 // pinsrb $0x1,(%r15,%r10,1),%xmm1
- .byte 71,15,182,12,15 // movzbl (%r15,%r9,1),%r9d
- .byte 102,65,15,58,32,201,2 // pinsrb $0x2,%r9d,%xmm1
- .byte 65,15,182,28,31 // movzbl (%r15,%rbx,1),%ebx
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 102,67,15,58,32,12,22,0 // pinsrb $0x0,(%r14,%r10,1),%xmm1
+ .byte 102,67,15,58,32,12,14,1 // pinsrb $0x1,(%r14,%r9,1),%xmm1
+ .byte 71,15,182,4,6 // movzbl (%r14,%r8,1),%r8d
+ .byte 102,65,15,58,32,200,2 // pinsrb $0x2,%r8d,%xmm1
+ .byte 65,15,182,28,30 // movzbl (%r14,%rbx,1),%ebx
.byte 102,15,58,32,203,3 // pinsrb $0x3,%ebx,%xmm1
.byte 102,15,56,49,201 // pmovzxbd %xmm1,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
.byte 65,15,89,201 // mulps %xmm9,%xmm1
- .byte 76,139,88,16 // mov 0x10(%rax),%r11
+ .byte 76,139,80,16 // mov 0x10(%rax),%r10
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 102,15,91,210 // cvtps2dq %xmm2,%xmm2
- .byte 102,73,15,58,22,209,1 // pextrq $0x1,%xmm2,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 102,73,15,58,22,208,1 // pextrq $0x1,%xmm2,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
.byte 102,72,15,126,211 // movq %xmm2,%rbx
- .byte 65,137,222 // mov %ebx,%r14d
+ .byte 65,137,219 // mov %ebx,%r11d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 102,67,15,58,32,20,51,0 // pinsrb $0x0,(%r11,%r14,1),%xmm2
- .byte 102,65,15,58,32,20,27,1 // pinsrb $0x1,(%r11,%rbx,1),%xmm2
- .byte 67,15,182,28,19 // movzbl (%r11,%r10,1),%ebx
+ .byte 102,67,15,58,32,20,26,0 // pinsrb $0x0,(%r10,%r11,1),%xmm2
+ .byte 102,65,15,58,32,20,26,1 // pinsrb $0x1,(%r10,%rbx,1),%xmm2
+ .byte 67,15,182,28,10 // movzbl (%r10,%r9,1),%ebx
.byte 102,15,58,32,211,2 // pinsrb $0x2,%ebx,%xmm2
- .byte 67,15,182,28,11 // movzbl (%r11,%r9,1),%ebx
+ .byte 67,15,182,28,2 // movzbl (%r10,%r8,1),%ebx
.byte 102,15,58,32,211,3 // pinsrb $0x3,%ebx,%xmm2
.byte 102,15,56,49,210 // pmovzxbd %xmm2,%xmm2
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
.byte 65,15,89,209 // mulps %xmm9,%xmm2
- .byte 76,139,80,24 // mov 0x18(%rax),%r10
+ .byte 76,139,72,24 // mov 0x18(%rax),%r9
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 102,15,91,219 // cvtps2dq %xmm3,%xmm3
.byte 102,72,15,58,22,219,1 // pextrq $0x1,%xmm3,%rbx
- .byte 65,137,217 // mov %ebx,%r9d
+ .byte 65,137,216 // mov %ebx,%r8d
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 102,72,15,126,216 // movq %xmm3,%rax
- .byte 65,137,195 // mov %eax,%r11d
+ .byte 65,137,194 // mov %eax,%r10d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,67,15,58,32,28,26,0 // pinsrb $0x0,(%r10,%r11,1),%xmm3
- .byte 102,65,15,58,32,28,2,1 // pinsrb $0x1,(%r10,%rax,1),%xmm3
- .byte 67,15,182,4,10 // movzbl (%r10,%r9,1),%eax
+ .byte 102,67,15,58,32,28,17,0 // pinsrb $0x0,(%r9,%r10,1),%xmm3
+ .byte 102,65,15,58,32,28,1,1 // pinsrb $0x1,(%r9,%rax,1),%xmm3
+ .byte 67,15,182,4,1 // movzbl (%r9,%r8,1),%eax
.byte 102,15,58,32,216,2 // pinsrb $0x2,%eax,%xmm3
- .byte 65,15,182,4,26 // movzbl (%r10,%rbx,1),%eax
+ .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
.byte 102,15,58,32,216,3 // pinsrb $0x3,%eax,%xmm3
.byte 102,15,56,49,219 // pmovzxbd %xmm3,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
.byte 65,15,89,217 // mulps %xmm9,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 91 // pop %rbx
- .byte 65,92 // pop %r12
.byte 65,94 // pop %r14
.byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
@@ -29737,74 +29743,72 @@ FUNCTION(_sk_byte_tables_rgb_sse41)
_sk_byte_tables_rgb_sse41:
.byte 65,87 // push %r15
.byte 65,86 // push %r14
- .byte 65,84 // push %r12
.byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,24 // mov 0x18(%rax),%r9d
- .byte 65,255,201 // dec %r9d
- .byte 102,69,15,110,193 // movd %r9d,%xmm8
+ .byte 68,139,64,24 // mov 0x18(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 102,69,15,110,192 // movd %r8d,%xmm8
.byte 102,69,15,112,192,0 // pshufd $0x0,%xmm8,%xmm8
.byte 69,15,91,192 // cvtdq2ps %xmm8,%xmm8
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,91,192 // cvtps2dq %xmm0,%xmm0
- .byte 102,73,15,58,22,193,1 // pextrq $0x1,%xmm0,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,73,15,126,193 // movq %xmm0,%r9
- .byte 69,137,206 // mov %r9d,%r14d
- .byte 77,137,207 // mov %r9,%r15
- .byte 73,193,239,32 // shr $0x20,%r15
- .byte 76,139,32 // mov (%rax),%r12
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
- .byte 102,67,15,58,32,4,52,0 // pinsrb $0x0,(%r12,%r14,1),%xmm0
- .byte 102,67,15,58,32,4,60,1 // pinsrb $0x1,(%r12,%r15,1),%xmm0
- .byte 67,15,182,28,20 // movzbl (%r12,%r10,1),%ebx
+ .byte 102,73,15,58,22,192,1 // pextrq $0x1,%xmm0,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,73,15,126,192 // movq %xmm0,%r8
+ .byte 69,137,195 // mov %r8d,%r11d
+ .byte 77,137,198 // mov %r8,%r14
+ .byte 73,193,238,32 // shr $0x20,%r14
+ .byte 76,139,56 // mov (%rax),%r15
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 102,67,15,58,32,4,31,0 // pinsrb $0x0,(%r15,%r11,1),%xmm0
+ .byte 102,67,15,58,32,4,55,1 // pinsrb $0x1,(%r15,%r14,1),%xmm0
+ .byte 67,15,182,28,15 // movzbl (%r15,%r9,1),%ebx
.byte 102,15,58,32,195,2 // pinsrb $0x2,%ebx,%xmm0
- .byte 67,15,182,28,28 // movzbl (%r12,%r11,1),%ebx
+ .byte 67,15,182,28,23 // movzbl (%r15,%r10,1),%ebx
.byte 102,15,58,32,195,3 // pinsrb $0x3,%ebx,%xmm0
.byte 102,15,56,49,192 // pmovzxbd %xmm0,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 68,15,40,13,204,115,1,0 // movaps 0x173cc(%rip),%xmm9 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,13,122,116,1,0 // movaps 0x1747a(%rip),%xmm9 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,193 // mulps %xmm9,%xmm0
.byte 65,15,89,200 // mulps %xmm8,%xmm1
.byte 102,15,91,201 // cvtps2dq %xmm1,%xmm1
.byte 102,72,15,58,22,203,1 // pextrq $0x1,%xmm1,%rbx
- .byte 65,137,218 // mov %ebx,%r10d
+ .byte 65,137,217 // mov %ebx,%r9d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 102,73,15,126,203 // movq %xmm1,%r11
- .byte 69,137,222 // mov %r11d,%r14d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,67,15,58,32,12,49,0 // pinsrb $0x0,(%r9,%r14,1),%xmm1
- .byte 102,67,15,58,32,12,25,1 // pinsrb $0x1,(%r9,%r11,1),%xmm1
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 102,65,15,58,32,202,2 // pinsrb $0x2,%r10d,%xmm1
- .byte 65,15,182,28,25 // movzbl (%r9,%rbx,1),%ebx
+ .byte 102,73,15,126,202 // movq %xmm1,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,58,32,12,24,0 // pinsrb $0x0,(%r8,%r11,1),%xmm1
+ .byte 102,67,15,58,32,12,16,1 // pinsrb $0x1,(%r8,%r10,1),%xmm1
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 102,65,15,58,32,201,2 // pinsrb $0x2,%r9d,%xmm1
+ .byte 65,15,182,28,24 // movzbl (%r8,%rbx,1),%ebx
.byte 102,15,58,32,203,3 // pinsrb $0x3,%ebx,%xmm1
.byte 102,15,56,49,201 // pmovzxbd %xmm1,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
.byte 65,15,89,201 // mulps %xmm9,%xmm1
- .byte 76,139,80,16 // mov 0x10(%rax),%r10
+ .byte 76,139,72,16 // mov 0x10(%rax),%r9
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 102,15,91,210 // cvtps2dq %xmm2,%xmm2
.byte 102,72,15,58,22,211,1 // pextrq $0x1,%xmm2,%rbx
- .byte 65,137,217 // mov %ebx,%r9d
+ .byte 65,137,216 // mov %ebx,%r8d
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 102,72,15,126,208 // movq %xmm2,%rax
- .byte 65,137,195 // mov %eax,%r11d
+ .byte 65,137,194 // mov %eax,%r10d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,67,15,58,32,20,26,0 // pinsrb $0x0,(%r10,%r11,1),%xmm2
- .byte 102,65,15,58,32,20,2,1 // pinsrb $0x1,(%r10,%rax,1),%xmm2
- .byte 67,15,182,4,10 // movzbl (%r10,%r9,1),%eax
+ .byte 102,67,15,58,32,20,17,0 // pinsrb $0x0,(%r9,%r10,1),%xmm2
+ .byte 102,65,15,58,32,20,1,1 // pinsrb $0x1,(%r9,%rax,1),%xmm2
+ .byte 67,15,182,4,1 // movzbl (%r9,%r8,1),%eax
.byte 102,15,58,32,208,2 // pinsrb $0x2,%eax,%xmm2
- .byte 65,15,182,4,26 // movzbl (%r10,%rbx,1),%eax
+ .byte 65,15,182,4,25 // movzbl (%r9,%rbx,1),%eax
.byte 102,15,58,32,208,3 // pinsrb $0x3,%eax,%xmm2
.byte 102,15,56,49,210 // pmovzxbd %xmm2,%xmm2
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
.byte 65,15,89,209 // mulps %xmm9,%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 91 // pop %rbx
- .byte 65,92 // pop %r12
.byte 65,94 // pop %r14
.byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
@@ -29813,9 +29817,8 @@ HIDDEN _sk_table_r_sse41
.globl _sk_table_r_sse41
FUNCTION(_sk_table_r_sse41)
_sk_table_r_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
@@ -29824,28 +29827,26 @@ _sk_table_r_sse41:
.byte 68,15,89,192 // mulps %xmm0,%xmm8
.byte 102,65,15,91,192 // cvtps2dq %xmm8,%xmm0
.byte 102,72,15,58,22,192,1 // pextrq $0x1,%xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,65,15,16,4,153 // movss (%r9,%rbx,4),%xmm0
- .byte 102,67,15,58,33,4,153,16 // insertps $0x10,(%r9,%r11,4),%xmm0
- .byte 243,71,15,16,4,145 // movss (%r9,%r10,4),%xmm8
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,67,15,16,4,152 // movss (%r8,%r11,4),%xmm0
+ .byte 102,67,15,58,33,4,144,16 // insertps $0x10,(%r8,%r10,4),%xmm0
+ .byte 243,71,15,16,4,136 // movss (%r8,%r9,4),%xmm8
.byte 102,65,15,58,33,192,32 // insertps $0x20,%xmm8,%xmm0
- .byte 243,69,15,16,4,129 // movss (%r9,%rax,4),%xmm8
+ .byte 243,69,15,16,4,128 // movss (%r8,%rax,4),%xmm8
.byte 102,65,15,58,33,192,48 // insertps $0x30,%xmm8,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_table_g_sse41
.globl _sk_table_g_sse41
FUNCTION(_sk_table_g_sse41)
_sk_table_g_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
@@ -29854,28 +29855,26 @@ _sk_table_g_sse41:
.byte 68,15,89,193 // mulps %xmm1,%xmm8
.byte 102,65,15,91,200 // cvtps2dq %xmm8,%xmm1
.byte 102,72,15,58,22,200,1 // pextrq $0x1,%xmm1,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,203 // movq %xmm1,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,65,15,16,12,153 // movss (%r9,%rbx,4),%xmm1
- .byte 102,67,15,58,33,12,153,16 // insertps $0x10,(%r9,%r11,4),%xmm1
- .byte 243,71,15,16,4,145 // movss (%r9,%r10,4),%xmm8
+ .byte 102,73,15,126,202 // movq %xmm1,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,67,15,16,12,152 // movss (%r8,%r11,4),%xmm1
+ .byte 102,67,15,58,33,12,144,16 // insertps $0x10,(%r8,%r10,4),%xmm1
+ .byte 243,71,15,16,4,136 // movss (%r8,%r9,4),%xmm8
.byte 102,65,15,58,33,200,32 // insertps $0x20,%xmm8,%xmm1
- .byte 243,69,15,16,4,129 // movss (%r9,%rax,4),%xmm8
+ .byte 243,69,15,16,4,128 // movss (%r8,%rax,4),%xmm8
.byte 102,65,15,58,33,200,48 // insertps $0x30,%xmm8,%xmm1
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_table_b_sse41
.globl _sk_table_b_sse41
FUNCTION(_sk_table_b_sse41)
_sk_table_b_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
@@ -29884,28 +29883,26 @@ _sk_table_b_sse41:
.byte 68,15,89,194 // mulps %xmm2,%xmm8
.byte 102,65,15,91,208 // cvtps2dq %xmm8,%xmm2
.byte 102,72,15,58,22,208,1 // pextrq $0x1,%xmm2,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,211 // movq %xmm2,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,65,15,16,20,153 // movss (%r9,%rbx,4),%xmm2
- .byte 102,67,15,58,33,20,153,16 // insertps $0x10,(%r9,%r11,4),%xmm2
- .byte 243,71,15,16,4,145 // movss (%r9,%r10,4),%xmm8
+ .byte 102,73,15,126,210 // movq %xmm2,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,67,15,16,20,152 // movss (%r8,%r11,4),%xmm2
+ .byte 102,67,15,58,33,20,144,16 // insertps $0x10,(%r8,%r10,4),%xmm2
+ .byte 243,71,15,16,4,136 // movss (%r8,%r9,4),%xmm8
.byte 102,65,15,58,33,208,32 // insertps $0x20,%xmm8,%xmm2
- .byte 243,69,15,16,4,129 // movss (%r9,%rax,4),%xmm8
+ .byte 243,69,15,16,4,128 // movss (%r8,%rax,4),%xmm8
.byte 102,65,15,58,33,208,48 // insertps $0x30,%xmm8,%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_table_a_sse41
.globl _sk_table_a_sse41
FUNCTION(_sk_table_a_sse41)
_sk_table_a_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
@@ -29914,19 +29911,18 @@ _sk_table_a_sse41:
.byte 68,15,89,195 // mulps %xmm3,%xmm8
.byte 102,65,15,91,216 // cvtps2dq %xmm8,%xmm3
.byte 102,72,15,58,22,216,1 // pextrq $0x1,%xmm3,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,219 // movq %xmm3,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,65,15,16,28,153 // movss (%r9,%rbx,4),%xmm3
- .byte 102,67,15,58,33,28,153,16 // insertps $0x10,(%r9,%r11,4),%xmm3
- .byte 243,71,15,16,4,145 // movss (%r9,%r10,4),%xmm8
+ .byte 102,73,15,126,218 // movq %xmm3,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,67,15,16,28,152 // movss (%r8,%r11,4),%xmm3
+ .byte 102,67,15,58,33,28,144,16 // insertps $0x10,(%r8,%r10,4),%xmm3
+ .byte 243,71,15,16,4,136 // movss (%r8,%r9,4),%xmm8
.byte 102,65,15,58,33,216,32 // insertps $0x20,%xmm8,%xmm3
- .byte 243,69,15,16,4,129 // movss (%r9,%rax,4),%xmm8
+ .byte 243,69,15,16,4,128 // movss (%r8,%rax,4),%xmm8
.byte 102,65,15,58,33,216,48 // insertps $0x30,%xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_parametric_r_sse41
@@ -29952,31 +29948,31 @@ _sk_parametric_r_sse41:
.byte 69,15,88,208 // addps %xmm8,%xmm10
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 69,15,91,194 // cvtdq2ps %xmm10,%xmm8
- .byte 68,15,89,5,180,113,1,0 // mulps 0x171b4(%rip),%xmm8 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 68,15,84,21,188,113,1,0 // andps 0x171bc(%rip),%xmm10 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
- .byte 68,15,86,21,228,110,1,0 // orps 0x16ee4(%rip),%xmm10 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
- .byte 68,15,88,5,188,113,1,0 // addps 0x171bc(%rip),%xmm8 # 2c5e0 <_sk_overlay_sse2_8bit+0x10fb>
- .byte 68,15,40,37,196,113,1,0 // movaps 0x171c4(%rip),%xmm12 # 2c5f0 <_sk_overlay_sse2_8bit+0x110b>
+ .byte 68,15,89,5,108,114,1,0 // mulps 0x1726c(%rip),%xmm8 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 68,15,84,21,116,114,1,0 // andps 0x17274(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
+ .byte 68,15,86,21,140,111,1,0 // orps 0x16f8c(%rip),%xmm10 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
+ .byte 68,15,88,5,116,114,1,0 // addps 0x17274(%rip),%xmm8 # 2c610 <_sk_overlay_sse2_8bit+0x1173>
+ .byte 68,15,40,37,124,114,1,0 // movaps 0x1727c(%rip),%xmm12 # 2c620 <_sk_overlay_sse2_8bit+0x1183>
.byte 69,15,89,226 // mulps %xmm10,%xmm12
.byte 69,15,92,196 // subps %xmm12,%xmm8
- .byte 68,15,88,21,196,113,1,0 // addps 0x171c4(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x111b>
- .byte 68,15,40,37,204,113,1,0 // movaps 0x171cc(%rip),%xmm12 # 2c610 <_sk_overlay_sse2_8bit+0x112b>
+ .byte 68,15,88,21,124,114,1,0 // addps 0x1727c(%rip),%xmm10 # 2c630 <_sk_overlay_sse2_8bit+0x1193>
+ .byte 68,15,40,37,132,114,1,0 // movaps 0x17284(%rip),%xmm12 # 2c640 <_sk_overlay_sse2_8bit+0x11a3>
.byte 69,15,94,226 // divps %xmm10,%xmm12
.byte 69,15,92,196 // subps %xmm12,%xmm8
.byte 69,15,89,195 // mulps %xmm11,%xmm8
.byte 102,69,15,58,8,208,1 // roundps $0x1,%xmm8,%xmm10
.byte 69,15,40,216 // movaps %xmm8,%xmm11
.byte 69,15,92,218 // subps %xmm10,%xmm11
- .byte 68,15,88,5,185,113,1,0 // addps 0x171b9(%rip),%xmm8 # 2c620 <_sk_overlay_sse2_8bit+0x113b>
- .byte 68,15,40,21,193,113,1,0 // movaps 0x171c1(%rip),%xmm10 # 2c630 <_sk_overlay_sse2_8bit+0x114b>
+ .byte 68,15,88,5,113,114,1,0 // addps 0x17271(%rip),%xmm8 # 2c650 <_sk_overlay_sse2_8bit+0x11b3>
+ .byte 68,15,40,21,121,114,1,0 // movaps 0x17279(%rip),%xmm10 # 2c660 <_sk_overlay_sse2_8bit+0x11c3>
.byte 69,15,89,211 // mulps %xmm11,%xmm10
.byte 69,15,92,194 // subps %xmm10,%xmm8
- .byte 68,15,40,21,193,113,1,0 // movaps 0x171c1(%rip),%xmm10 # 2c640 <_sk_overlay_sse2_8bit+0x115b>
+ .byte 68,15,40,21,121,114,1,0 // movaps 0x17279(%rip),%xmm10 # 2c670 <_sk_overlay_sse2_8bit+0x11d3>
.byte 69,15,92,211 // subps %xmm11,%xmm10
- .byte 68,15,40,29,197,113,1,0 // movaps 0x171c5(%rip),%xmm11 # 2c650 <_sk_overlay_sse2_8bit+0x116b>
+ .byte 68,15,40,29,125,114,1,0 // movaps 0x1727d(%rip),%xmm11 # 2c680 <_sk_overlay_sse2_8bit+0x11e3>
.byte 69,15,94,218 // divps %xmm10,%xmm11
.byte 69,15,88,216 // addps %xmm8,%xmm11
- .byte 68,15,89,29,197,113,1,0 // mulps 0x171c5(%rip),%xmm11 # 2c660 <_sk_overlay_sse2_8bit+0x117b>
+ .byte 68,15,89,29,125,114,1,0 // mulps 0x1727d(%rip),%xmm11 # 2c690 <_sk_overlay_sse2_8bit+0x11f3>
.byte 102,69,15,91,211 // cvtps2dq %xmm11,%xmm10
.byte 243,68,15,16,64,20 // movss 0x14(%rax),%xmm8
.byte 69,15,198,192,0 // shufps $0x0,%xmm8,%xmm8
@@ -29984,7 +29980,7 @@ _sk_parametric_r_sse41:
.byte 102,69,15,56,20,193 // blendvps %xmm0,%xmm9,%xmm8
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 68,15,95,192 // maxps %xmm0,%xmm8
- .byte 68,15,93,5,76,110,1,0 // minps 0x16e4c(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,93,5,4,111,1,0 // minps 0x16f04(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 255,224 // jmpq *%rax
@@ -30014,31 +30010,31 @@ _sk_parametric_g_sse41:
.byte 68,15,88,217 // addps %xmm1,%xmm11
.byte 69,15,198,210,0 // shufps $0x0,%xmm10,%xmm10
.byte 69,15,91,227 // cvtdq2ps %xmm11,%xmm12
- .byte 68,15,89,37,141,112,1,0 // mulps 0x1708d(%rip),%xmm12 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 68,15,84,29,149,112,1,0 // andps 0x17095(%rip),%xmm11 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
- .byte 68,15,86,29,189,109,1,0 // orps 0x16dbd(%rip),%xmm11 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
- .byte 68,15,88,37,149,112,1,0 // addps 0x17095(%rip),%xmm12 # 2c5e0 <_sk_overlay_sse2_8bit+0x10fb>
- .byte 15,40,13,158,112,1,0 // movaps 0x1709e(%rip),%xmm1 # 2c5f0 <_sk_overlay_sse2_8bit+0x110b>
+ .byte 68,15,89,37,69,113,1,0 // mulps 0x17145(%rip),%xmm12 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 68,15,84,29,77,113,1,0 // andps 0x1714d(%rip),%xmm11 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
+ .byte 68,15,86,29,101,110,1,0 // orps 0x16e65(%rip),%xmm11 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
+ .byte 68,15,88,37,77,113,1,0 // addps 0x1714d(%rip),%xmm12 # 2c610 <_sk_overlay_sse2_8bit+0x1173>
+ .byte 15,40,13,86,113,1,0 // movaps 0x17156(%rip),%xmm1 # 2c620 <_sk_overlay_sse2_8bit+0x1183>
.byte 65,15,89,203 // mulps %xmm11,%xmm1
.byte 68,15,92,225 // subps %xmm1,%xmm12
- .byte 68,15,88,29,158,112,1,0 // addps 0x1709e(%rip),%xmm11 # 2c600 <_sk_overlay_sse2_8bit+0x111b>
- .byte 15,40,13,167,112,1,0 // movaps 0x170a7(%rip),%xmm1 # 2c610 <_sk_overlay_sse2_8bit+0x112b>
+ .byte 68,15,88,29,86,113,1,0 // addps 0x17156(%rip),%xmm11 # 2c630 <_sk_overlay_sse2_8bit+0x1193>
+ .byte 15,40,13,95,113,1,0 // movaps 0x1715f(%rip),%xmm1 # 2c640 <_sk_overlay_sse2_8bit+0x11a3>
.byte 65,15,94,203 // divps %xmm11,%xmm1
.byte 68,15,92,225 // subps %xmm1,%xmm12
.byte 69,15,89,226 // mulps %xmm10,%xmm12
.byte 102,69,15,58,8,212,1 // roundps $0x1,%xmm12,%xmm10
.byte 69,15,40,220 // movaps %xmm12,%xmm11
.byte 69,15,92,218 // subps %xmm10,%xmm11
- .byte 68,15,88,37,148,112,1,0 // addps 0x17094(%rip),%xmm12 # 2c620 <_sk_overlay_sse2_8bit+0x113b>
- .byte 15,40,13,157,112,1,0 // movaps 0x1709d(%rip),%xmm1 # 2c630 <_sk_overlay_sse2_8bit+0x114b>
+ .byte 68,15,88,37,76,113,1,0 // addps 0x1714c(%rip),%xmm12 # 2c650 <_sk_overlay_sse2_8bit+0x11b3>
+ .byte 15,40,13,85,113,1,0 // movaps 0x17155(%rip),%xmm1 # 2c660 <_sk_overlay_sse2_8bit+0x11c3>
.byte 65,15,89,203 // mulps %xmm11,%xmm1
.byte 68,15,92,225 // subps %xmm1,%xmm12
- .byte 68,15,40,21,157,112,1,0 // movaps 0x1709d(%rip),%xmm10 # 2c640 <_sk_overlay_sse2_8bit+0x115b>
+ .byte 68,15,40,21,85,113,1,0 // movaps 0x17155(%rip),%xmm10 # 2c670 <_sk_overlay_sse2_8bit+0x11d3>
.byte 69,15,92,211 // subps %xmm11,%xmm10
- .byte 15,40,13,162,112,1,0 // movaps 0x170a2(%rip),%xmm1 # 2c650 <_sk_overlay_sse2_8bit+0x116b>
+ .byte 15,40,13,90,113,1,0 // movaps 0x1715a(%rip),%xmm1 # 2c680 <_sk_overlay_sse2_8bit+0x11e3>
.byte 65,15,94,202 // divps %xmm10,%xmm1
.byte 65,15,88,204 // addps %xmm12,%xmm1
- .byte 15,89,13,163,112,1,0 // mulps 0x170a3(%rip),%xmm1 # 2c660 <_sk_overlay_sse2_8bit+0x117b>
+ .byte 15,89,13,91,113,1,0 // mulps 0x1715b(%rip),%xmm1 # 2c690 <_sk_overlay_sse2_8bit+0x11f3>
.byte 102,68,15,91,209 // cvtps2dq %xmm1,%xmm10
.byte 243,15,16,72,20 // movss 0x14(%rax),%xmm1
.byte 15,198,201,0 // shufps $0x0,%xmm1,%xmm1
@@ -30046,7 +30042,7 @@ _sk_parametric_g_sse41:
.byte 102,65,15,56,20,201 // blendvps %xmm0,%xmm9,%xmm1
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 15,95,200 // maxps %xmm0,%xmm1
- .byte 15,93,13,46,109,1,0 // minps 0x16d2e(%rip),%xmm1 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,93,13,230,109,1,0 // minps 0x16de6(%rip),%xmm1 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 255,224 // jmpq *%rax
@@ -30076,31 +30072,31 @@ _sk_parametric_b_sse41:
.byte 68,15,88,218 // addps %xmm2,%xmm11
.byte 69,15,198,210,0 // shufps $0x0,%xmm10,%xmm10
.byte 69,15,91,227 // cvtdq2ps %xmm11,%xmm12
- .byte 68,15,89,37,111,111,1,0 // mulps 0x16f6f(%rip),%xmm12 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 68,15,84,29,119,111,1,0 // andps 0x16f77(%rip),%xmm11 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
- .byte 68,15,86,29,159,108,1,0 // orps 0x16c9f(%rip),%xmm11 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
- .byte 68,15,88,37,119,111,1,0 // addps 0x16f77(%rip),%xmm12 # 2c5e0 <_sk_overlay_sse2_8bit+0x10fb>
- .byte 15,40,21,128,111,1,0 // movaps 0x16f80(%rip),%xmm2 # 2c5f0 <_sk_overlay_sse2_8bit+0x110b>
+ .byte 68,15,89,37,39,112,1,0 // mulps 0x17027(%rip),%xmm12 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 68,15,84,29,47,112,1,0 // andps 0x1702f(%rip),%xmm11 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
+ .byte 68,15,86,29,71,109,1,0 // orps 0x16d47(%rip),%xmm11 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
+ .byte 68,15,88,37,47,112,1,0 // addps 0x1702f(%rip),%xmm12 # 2c610 <_sk_overlay_sse2_8bit+0x1173>
+ .byte 15,40,21,56,112,1,0 // movaps 0x17038(%rip),%xmm2 # 2c620 <_sk_overlay_sse2_8bit+0x1183>
.byte 65,15,89,211 // mulps %xmm11,%xmm2
.byte 68,15,92,226 // subps %xmm2,%xmm12
- .byte 68,15,88,29,128,111,1,0 // addps 0x16f80(%rip),%xmm11 # 2c600 <_sk_overlay_sse2_8bit+0x111b>
- .byte 15,40,21,137,111,1,0 // movaps 0x16f89(%rip),%xmm2 # 2c610 <_sk_overlay_sse2_8bit+0x112b>
+ .byte 68,15,88,29,56,112,1,0 // addps 0x17038(%rip),%xmm11 # 2c630 <_sk_overlay_sse2_8bit+0x1193>
+ .byte 15,40,21,65,112,1,0 // movaps 0x17041(%rip),%xmm2 # 2c640 <_sk_overlay_sse2_8bit+0x11a3>
.byte 65,15,94,211 // divps %xmm11,%xmm2
.byte 68,15,92,226 // subps %xmm2,%xmm12
.byte 69,15,89,226 // mulps %xmm10,%xmm12
.byte 102,69,15,58,8,212,1 // roundps $0x1,%xmm12,%xmm10
.byte 69,15,40,220 // movaps %xmm12,%xmm11
.byte 69,15,92,218 // subps %xmm10,%xmm11
- .byte 68,15,88,37,118,111,1,0 // addps 0x16f76(%rip),%xmm12 # 2c620 <_sk_overlay_sse2_8bit+0x113b>
- .byte 15,40,21,127,111,1,0 // movaps 0x16f7f(%rip),%xmm2 # 2c630 <_sk_overlay_sse2_8bit+0x114b>
+ .byte 68,15,88,37,46,112,1,0 // addps 0x1702e(%rip),%xmm12 # 2c650 <_sk_overlay_sse2_8bit+0x11b3>
+ .byte 15,40,21,55,112,1,0 // movaps 0x17037(%rip),%xmm2 # 2c660 <_sk_overlay_sse2_8bit+0x11c3>
.byte 65,15,89,211 // mulps %xmm11,%xmm2
.byte 68,15,92,226 // subps %xmm2,%xmm12
- .byte 68,15,40,21,127,111,1,0 // movaps 0x16f7f(%rip),%xmm10 # 2c640 <_sk_overlay_sse2_8bit+0x115b>
+ .byte 68,15,40,21,55,112,1,0 // movaps 0x17037(%rip),%xmm10 # 2c670 <_sk_overlay_sse2_8bit+0x11d3>
.byte 69,15,92,211 // subps %xmm11,%xmm10
- .byte 15,40,21,132,111,1,0 // movaps 0x16f84(%rip),%xmm2 # 2c650 <_sk_overlay_sse2_8bit+0x116b>
+ .byte 15,40,21,60,112,1,0 // movaps 0x1703c(%rip),%xmm2 # 2c680 <_sk_overlay_sse2_8bit+0x11e3>
.byte 65,15,94,210 // divps %xmm10,%xmm2
.byte 65,15,88,212 // addps %xmm12,%xmm2
- .byte 15,89,21,133,111,1,0 // mulps 0x16f85(%rip),%xmm2 # 2c660 <_sk_overlay_sse2_8bit+0x117b>
+ .byte 15,89,21,61,112,1,0 // mulps 0x1703d(%rip),%xmm2 # 2c690 <_sk_overlay_sse2_8bit+0x11f3>
.byte 102,68,15,91,210 // cvtps2dq %xmm2,%xmm10
.byte 243,15,16,80,20 // movss 0x14(%rax),%xmm2
.byte 15,198,210,0 // shufps $0x0,%xmm2,%xmm2
@@ -30108,7 +30104,7 @@ _sk_parametric_b_sse41:
.byte 102,65,15,56,20,209 // blendvps %xmm0,%xmm9,%xmm2
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 15,95,208 // maxps %xmm0,%xmm2
- .byte 15,93,21,16,108,1,0 // minps 0x16c10(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,93,21,200,108,1,0 // minps 0x16cc8(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 255,224 // jmpq *%rax
@@ -30138,31 +30134,31 @@ _sk_parametric_a_sse41:
.byte 68,15,88,219 // addps %xmm3,%xmm11
.byte 69,15,198,210,0 // shufps $0x0,%xmm10,%xmm10
.byte 69,15,91,227 // cvtdq2ps %xmm11,%xmm12
- .byte 68,15,89,37,81,110,1,0 // mulps 0x16e51(%rip),%xmm12 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 68,15,84,29,89,110,1,0 // andps 0x16e59(%rip),%xmm11 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
- .byte 68,15,86,29,129,107,1,0 // orps 0x16b81(%rip),%xmm11 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
- .byte 68,15,88,37,89,110,1,0 // addps 0x16e59(%rip),%xmm12 # 2c5e0 <_sk_overlay_sse2_8bit+0x10fb>
- .byte 15,40,29,98,110,1,0 // movaps 0x16e62(%rip),%xmm3 # 2c5f0 <_sk_overlay_sse2_8bit+0x110b>
+ .byte 68,15,89,37,9,111,1,0 // mulps 0x16f09(%rip),%xmm12 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 68,15,84,29,17,111,1,0 // andps 0x16f11(%rip),%xmm11 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
+ .byte 68,15,86,29,41,108,1,0 // orps 0x16c29(%rip),%xmm11 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
+ .byte 68,15,88,37,17,111,1,0 // addps 0x16f11(%rip),%xmm12 # 2c610 <_sk_overlay_sse2_8bit+0x1173>
+ .byte 15,40,29,26,111,1,0 // movaps 0x16f1a(%rip),%xmm3 # 2c620 <_sk_overlay_sse2_8bit+0x1183>
.byte 65,15,89,219 // mulps %xmm11,%xmm3
.byte 68,15,92,227 // subps %xmm3,%xmm12
- .byte 68,15,88,29,98,110,1,0 // addps 0x16e62(%rip),%xmm11 # 2c600 <_sk_overlay_sse2_8bit+0x111b>
- .byte 15,40,29,107,110,1,0 // movaps 0x16e6b(%rip),%xmm3 # 2c610 <_sk_overlay_sse2_8bit+0x112b>
+ .byte 68,15,88,29,26,111,1,0 // addps 0x16f1a(%rip),%xmm11 # 2c630 <_sk_overlay_sse2_8bit+0x1193>
+ .byte 15,40,29,35,111,1,0 // movaps 0x16f23(%rip),%xmm3 # 2c640 <_sk_overlay_sse2_8bit+0x11a3>
.byte 65,15,94,219 // divps %xmm11,%xmm3
.byte 68,15,92,227 // subps %xmm3,%xmm12
.byte 69,15,89,226 // mulps %xmm10,%xmm12
.byte 102,69,15,58,8,212,1 // roundps $0x1,%xmm12,%xmm10
.byte 69,15,40,220 // movaps %xmm12,%xmm11
.byte 69,15,92,218 // subps %xmm10,%xmm11
- .byte 68,15,88,37,88,110,1,0 // addps 0x16e58(%rip),%xmm12 # 2c620 <_sk_overlay_sse2_8bit+0x113b>
- .byte 15,40,29,97,110,1,0 // movaps 0x16e61(%rip),%xmm3 # 2c630 <_sk_overlay_sse2_8bit+0x114b>
+ .byte 68,15,88,37,16,111,1,0 // addps 0x16f10(%rip),%xmm12 # 2c650 <_sk_overlay_sse2_8bit+0x11b3>
+ .byte 15,40,29,25,111,1,0 // movaps 0x16f19(%rip),%xmm3 # 2c660 <_sk_overlay_sse2_8bit+0x11c3>
.byte 65,15,89,219 // mulps %xmm11,%xmm3
.byte 68,15,92,227 // subps %xmm3,%xmm12
- .byte 68,15,40,21,97,110,1,0 // movaps 0x16e61(%rip),%xmm10 # 2c640 <_sk_overlay_sse2_8bit+0x115b>
+ .byte 68,15,40,21,25,111,1,0 // movaps 0x16f19(%rip),%xmm10 # 2c670 <_sk_overlay_sse2_8bit+0x11d3>
.byte 69,15,92,211 // subps %xmm11,%xmm10
- .byte 15,40,29,102,110,1,0 // movaps 0x16e66(%rip),%xmm3 # 2c650 <_sk_overlay_sse2_8bit+0x116b>
+ .byte 15,40,29,30,111,1,0 // movaps 0x16f1e(%rip),%xmm3 # 2c680 <_sk_overlay_sse2_8bit+0x11e3>
.byte 65,15,94,218 // divps %xmm10,%xmm3
.byte 65,15,88,220 // addps %xmm12,%xmm3
- .byte 15,89,29,103,110,1,0 // mulps 0x16e67(%rip),%xmm3 # 2c660 <_sk_overlay_sse2_8bit+0x117b>
+ .byte 15,89,29,31,111,1,0 // mulps 0x16f1f(%rip),%xmm3 # 2c690 <_sk_overlay_sse2_8bit+0x11f3>
.byte 102,68,15,91,211 // cvtps2dq %xmm3,%xmm10
.byte 243,15,16,88,20 // movss 0x14(%rax),%xmm3
.byte 15,198,219,0 // shufps $0x0,%xmm3,%xmm3
@@ -30170,7 +30166,7 @@ _sk_parametric_a_sse41:
.byte 102,65,15,56,20,217 // blendvps %xmm0,%xmm9,%xmm3
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 15,95,216 // maxps %xmm0,%xmm3
- .byte 15,93,29,242,106,1,0 // minps 0x16af2(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,93,29,170,107,1,0 // minps 0x16baa(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 255,224 // jmpq *%rax
@@ -30187,20 +30183,20 @@ _sk_gamma_sse41:
.byte 15,40,218 // movaps %xmm2,%xmm3
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 15,91,194 // cvtdq2ps %xmm2,%xmm0
- .byte 15,89,5,113,109,1,0 // mulps 0x16d71(%rip),%xmm0 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 68,15,40,53,121,109,1,0 // movaps 0x16d79(%rip),%xmm14 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
+ .byte 15,89,5,41,110,1,0 // mulps 0x16e29(%rip),%xmm0 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 68,15,40,53,49,110,1,0 // movaps 0x16e31(%rip),%xmm14 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
.byte 65,15,84,214 // andps %xmm14,%xmm2
- .byte 68,15,40,37,157,106,1,0 // movaps 0x16a9d(%rip),%xmm12 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,37,69,107,1,0 // movaps 0x16b45(%rip),%xmm12 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 65,15,86,212 // orps %xmm12,%xmm2
- .byte 68,15,40,21,113,109,1,0 // movaps 0x16d71(%rip),%xmm10 # 2c5e0 <_sk_overlay_sse2_8bit+0x10fb>
+ .byte 68,15,40,21,41,110,1,0 // movaps 0x16e29(%rip),%xmm10 # 2c610 <_sk_overlay_sse2_8bit+0x1173>
.byte 65,15,88,194 // addps %xmm10,%xmm0
- .byte 68,15,40,29,117,109,1,0 // movaps 0x16d75(%rip),%xmm11 # 2c5f0 <_sk_overlay_sse2_8bit+0x110b>
+ .byte 68,15,40,29,45,110,1,0 // movaps 0x16e2d(%rip),%xmm11 # 2c620 <_sk_overlay_sse2_8bit+0x1183>
.byte 15,40,226 // movaps %xmm2,%xmm4
.byte 65,15,89,227 // mulps %xmm11,%xmm4
.byte 15,92,196 // subps %xmm4,%xmm0
- .byte 68,15,40,13,115,109,1,0 // movaps 0x16d73(%rip),%xmm9 # 2c600 <_sk_overlay_sse2_8bit+0x111b>
+ .byte 68,15,40,13,43,110,1,0 // movaps 0x16e2b(%rip),%xmm9 # 2c630 <_sk_overlay_sse2_8bit+0x1193>
.byte 65,15,88,209 // addps %xmm9,%xmm2
- .byte 68,15,40,45,119,109,1,0 // movaps 0x16d77(%rip),%xmm13 # 2c610 <_sk_overlay_sse2_8bit+0x112b>
+ .byte 68,15,40,45,47,110,1,0 // movaps 0x16e2f(%rip),%xmm13 # 2c640 <_sk_overlay_sse2_8bit+0x11a3>
.byte 65,15,40,229 // movaps %xmm13,%xmm4
.byte 15,94,226 // divps %xmm2,%xmm4
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -30211,21 +30207,21 @@ _sk_gamma_sse41:
.byte 102,15,58,8,208,1 // roundps $0x1,%xmm0,%xmm2
.byte 15,40,224 // movaps %xmm0,%xmm4
.byte 15,92,226 // subps %xmm2,%xmm4
- .byte 15,40,53,90,109,1,0 // movaps 0x16d5a(%rip),%xmm6 # 2c620 <_sk_overlay_sse2_8bit+0x113b>
+ .byte 15,40,53,18,110,1,0 // movaps 0x16e12(%rip),%xmm6 # 2c650 <_sk_overlay_sse2_8bit+0x11b3>
.byte 15,88,198 // addps %xmm6,%xmm0
- .byte 15,40,61,112,109,1,0 // movaps 0x16d70(%rip),%xmm7 # 2c640 <_sk_overlay_sse2_8bit+0x115b>
+ .byte 15,40,61,40,110,1,0 // movaps 0x16e28(%rip),%xmm7 # 2c670 <_sk_overlay_sse2_8bit+0x11d3>
.byte 15,40,239 // movaps %xmm7,%xmm5
.byte 15,92,236 // subps %xmm4,%xmm5
.byte 15,40,212 // movaps %xmm4,%xmm2
- .byte 15,40,37,80,109,1,0 // movaps 0x16d50(%rip),%xmm4 # 2c630 <_sk_overlay_sse2_8bit+0x114b>
+ .byte 15,40,37,8,110,1,0 // movaps 0x16e08(%rip),%xmm4 # 2c660 <_sk_overlay_sse2_8bit+0x11c3>
.byte 15,89,212 // mulps %xmm4,%xmm2
.byte 15,92,194 // subps %xmm2,%xmm0
- .byte 68,15,40,61,98,109,1,0 // movaps 0x16d62(%rip),%xmm15 # 2c650 <_sk_overlay_sse2_8bit+0x116b>
+ .byte 68,15,40,61,26,110,1,0 // movaps 0x16e1a(%rip),%xmm15 # 2c680 <_sk_overlay_sse2_8bit+0x11e3>
.byte 65,15,40,215 // movaps %xmm15,%xmm2
.byte 15,94,213 // divps %xmm5,%xmm2
.byte 15,88,208 // addps %xmm0,%xmm2
.byte 15,91,193 // cvtdq2ps %xmm1,%xmm0
- .byte 15,89,5,190,108,1,0 // mulps 0x16cbe(%rip),%xmm0 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
+ .byte 15,89,5,118,109,1,0 // mulps 0x16d76(%rip),%xmm0 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
.byte 65,15,84,206 // andps %xmm14,%xmm1
.byte 65,15,86,204 // orps %xmm12,%xmm1
.byte 65,15,88,194 // addps %xmm10,%xmm0
@@ -30251,8 +30247,8 @@ _sk_gamma_sse41:
.byte 15,94,206 // divps %xmm6,%xmm1
.byte 15,88,200 // addps %xmm0,%xmm1
.byte 15,91,195 // cvtdq2ps %xmm3,%xmm0
- .byte 15,89,5,95,108,1,0 // mulps 0x16c5f(%rip),%xmm0 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 15,84,29,104,108,1,0 // andps 0x16c68(%rip),%xmm3 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
+ .byte 15,89,5,23,109,1,0 // mulps 0x16d17(%rip),%xmm0 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 15,84,29,32,109,1,0 // andps 0x16d20(%rip),%xmm3 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
.byte 65,15,86,220 // orps %xmm12,%xmm3
.byte 65,15,88,194 // addps %xmm10,%xmm0
.byte 68,15,89,219 // mulps %xmm3,%xmm11
@@ -30270,7 +30266,7 @@ _sk_gamma_sse41:
.byte 15,92,253 // subps %xmm5,%xmm7
.byte 68,15,94,255 // divps %xmm7,%xmm15
.byte 68,15,88,248 // addps %xmm0,%xmm15
- .byte 15,40,5,176,108,1,0 // movaps 0x16cb0(%rip),%xmm0 # 2c660 <_sk_overlay_sse2_8bit+0x117b>
+ .byte 15,40,5,104,109,1,0 // movaps 0x16d68(%rip),%xmm0 # 2c690 <_sk_overlay_sse2_8bit+0x11f3>
.byte 15,89,208 // mulps %xmm0,%xmm2
.byte 15,89,200 // mulps %xmm0,%xmm1
.byte 68,15,89,248 // mulps %xmm0,%xmm15
@@ -30290,29 +30286,29 @@ HIDDEN _sk_lab_to_xyz_sse41
FUNCTION(_sk_lab_to_xyz_sse41)
_sk_lab_to_xyz_sse41:
.byte 68,15,40,192 // movaps %xmm0,%xmm8
- .byte 68,15,89,5,128,108,1,0 // mulps 0x16c80(%rip),%xmm8 # 2c670 <_sk_overlay_sse2_8bit+0x118b>
- .byte 68,15,40,13,248,105,1,0 // movaps 0x169f8(%rip),%xmm9 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 68,15,89,5,56,109,1,0 // mulps 0x16d38(%rip),%xmm8 # 2c6a0 <_sk_overlay_sse2_8bit+0x1203>
+ .byte 68,15,40,13,176,106,1,0 // movaps 0x16ab0(%rip),%xmm9 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 65,15,89,201 // mulps %xmm9,%xmm1
- .byte 15,40,5,125,108,1,0 // movaps 0x16c7d(%rip),%xmm0 # 2c680 <_sk_overlay_sse2_8bit+0x119b>
+ .byte 15,40,5,53,109,1,0 // movaps 0x16d35(%rip),%xmm0 # 2c6b0 <_sk_overlay_sse2_8bit+0x1213>
.byte 15,88,200 // addps %xmm0,%xmm1
.byte 65,15,89,209 // mulps %xmm9,%xmm2
.byte 15,88,208 // addps %xmm0,%xmm2
- .byte 68,15,88,5,123,108,1,0 // addps 0x16c7b(%rip),%xmm8 # 2c690 <_sk_overlay_sse2_8bit+0x11ab>
- .byte 68,15,89,5,131,108,1,0 // mulps 0x16c83(%rip),%xmm8 # 2c6a0 <_sk_overlay_sse2_8bit+0x11bb>
- .byte 15,89,13,140,108,1,0 // mulps 0x16c8c(%rip),%xmm1 # 2c6b0 <_sk_overlay_sse2_8bit+0x11cb>
+ .byte 68,15,88,5,51,109,1,0 // addps 0x16d33(%rip),%xmm8 # 2c6c0 <_sk_overlay_sse2_8bit+0x1223>
+ .byte 68,15,89,5,59,109,1,0 // mulps 0x16d3b(%rip),%xmm8 # 2c6d0 <_sk_overlay_sse2_8bit+0x1233>
+ .byte 15,89,13,68,109,1,0 // mulps 0x16d44(%rip),%xmm1 # 2c6e0 <_sk_overlay_sse2_8bit+0x1243>
.byte 65,15,88,200 // addps %xmm8,%xmm1
- .byte 15,89,21,145,108,1,0 // mulps 0x16c91(%rip),%xmm2 # 2c6c0 <_sk_overlay_sse2_8bit+0x11db>
+ .byte 15,89,21,73,109,1,0 // mulps 0x16d49(%rip),%xmm2 # 2c6f0 <_sk_overlay_sse2_8bit+0x1253>
.byte 69,15,40,208 // movaps %xmm8,%xmm10
.byte 68,15,92,210 // subps %xmm2,%xmm10
.byte 68,15,40,217 // movaps %xmm1,%xmm11
.byte 69,15,89,219 // mulps %xmm11,%xmm11
.byte 68,15,89,217 // mulps %xmm1,%xmm11
- .byte 68,15,40,13,133,108,1,0 // movaps 0x16c85(%rip),%xmm9 # 2c6d0 <_sk_overlay_sse2_8bit+0x11eb>
+ .byte 68,15,40,13,61,109,1,0 // movaps 0x16d3d(%rip),%xmm9 # 2c700 <_sk_overlay_sse2_8bit+0x1263>
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 65,15,194,195,1 // cmpltps %xmm11,%xmm0
- .byte 15,40,21,133,108,1,0 // movaps 0x16c85(%rip),%xmm2 # 2c6e0 <_sk_overlay_sse2_8bit+0x11fb>
+ .byte 15,40,21,61,109,1,0 // movaps 0x16d3d(%rip),%xmm2 # 2c710 <_sk_overlay_sse2_8bit+0x1273>
.byte 15,88,202 // addps %xmm2,%xmm1
- .byte 68,15,40,37,138,108,1,0 // movaps 0x16c8a(%rip),%xmm12 # 2c6f0 <_sk_overlay_sse2_8bit+0x120b>
+ .byte 68,15,40,37,66,109,1,0 // movaps 0x16d42(%rip),%xmm12 # 2c720 <_sk_overlay_sse2_8bit+0x1283>
.byte 65,15,89,204 // mulps %xmm12,%xmm1
.byte 102,65,15,56,20,203 // blendvps %xmm0,%xmm11,%xmm1
.byte 69,15,40,216 // movaps %xmm8,%xmm11
@@ -30331,8 +30327,8 @@ _sk_lab_to_xyz_sse41:
.byte 65,15,89,212 // mulps %xmm12,%xmm2
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 102,65,15,56,20,211 // blendvps %xmm0,%xmm11,%xmm2
- .byte 15,89,13,67,108,1,0 // mulps 0x16c43(%rip),%xmm1 # 2c700 <_sk_overlay_sse2_8bit+0x121b>
- .byte 15,89,21,76,108,1,0 // mulps 0x16c4c(%rip),%xmm2 # 2c710 <_sk_overlay_sse2_8bit+0x122b>
+ .byte 15,89,13,251,108,1,0 // mulps 0x16cfb(%rip),%xmm1 # 2c730 <_sk_overlay_sse2_8bit+0x1293>
+ .byte 15,89,21,4,109,1,0 // mulps 0x16d04(%rip),%xmm2 # 2c740 <_sk_overlay_sse2_8bit+0x12a3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,40,193 // movaps %xmm1,%xmm0
.byte 65,15,40,200 // movaps %xmm8,%xmm1
@@ -30343,92 +30339,91 @@ HIDDEN _sk_load_a8_sse41
FUNCTION(_sk_load_a8_sse41)
_sk_load_a8_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,39 // jne 15b0e <_sk_load_a8_sse41+0x3f>
- .byte 102,67,15,56,49,4,25 // pmovzxbd (%r9,%r11,1),%xmm0
- .byte 102,15,219,5,202,104,1,0 // pand 0x168ca(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,39 // jne 15a86 <_sk_load_a8_sse41+0x3f>
+ .byte 102,67,15,56,49,4,16 // pmovzxbd (%r8,%r10,1),%xmm0
+ .byte 102,15,219,5,130,105,1,0 // pand 0x16982(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 15,91,216 // cvtdq2ps %xmm0,%xmm3
- .byte 15,89,29,16,106,1,0 // mulps 0x16a10(%rip),%xmm3 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,29,200,106,1,0 // mulps 0x16ac8(%rip),%xmm3 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 15,87,210 // xorps %xmm2,%xmm2
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,53 // je 15b50 <_sk_load_a8_sse41+0x81>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,53 // je 15ac8 <_sk_load_a8_sse41+0x81>
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 15b3a <_sk_load_a8_sse41+0x6b>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,195 // jne 15aee <_sk_load_a8_sse41+0x1f>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 15ab2 <_sk_load_a8_sse41+0x6b>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,195 // jne 15a66 <_sk_load_a8_sse41+0x1f>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,15,112,192,69 // pshufd $0x45,%xmm0,%xmm0
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,15,110,200 // movd %eax,%xmm1
.byte 102,15,56,49,201 // pmovzxbd %xmm1,%xmm1
.byte 102,15,58,14,193,15 // pblendw $0xf,%xmm1,%xmm0
- .byte 235,158 // jmp 15aee <_sk_load_a8_sse41+0x1f>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 235,158 // jmp 15a66 <_sk_load_a8_sse41+0x1f>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
- .byte 235,147 // jmp 15aee <_sk_load_a8_sse41+0x1f>
+ .byte 235,147 // jmp 15a66 <_sk_load_a8_sse41+0x1f>
HIDDEN _sk_load_a8_dst_sse41
.globl _sk_load_a8_dst_sse41
FUNCTION(_sk_load_a8_dst_sse41)
_sk_load_a8_dst_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,39 // jne 15b9a <_sk_load_a8_dst_sse41+0x3f>
- .byte 102,67,15,56,49,36,25 // pmovzxbd (%r9,%r11,1),%xmm4
- .byte 102,15,219,37,62,104,1,0 // pand 0x1683e(%rip),%xmm4 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,39 // jne 15b12 <_sk_load_a8_dst_sse41+0x3f>
+ .byte 102,67,15,56,49,36,16 // pmovzxbd (%r8,%r10,1),%xmm4
+ .byte 102,15,219,37,246,104,1,0 // pand 0x168f6(%rip),%xmm4 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 15,91,252 // cvtdq2ps %xmm4,%xmm7
- .byte 15,89,61,132,105,1,0 // mulps 0x16984(%rip),%xmm7 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,61,60,106,1,0 // mulps 0x16a3c(%rip),%xmm7 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,87,228 // xorps %xmm4,%xmm4
.byte 102,15,239,237 // pxor %xmm5,%xmm5
.byte 15,87,246 // xorps %xmm6,%xmm6
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,53 // je 15bdc <_sk_load_a8_dst_sse41+0x81>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,53 // je 15b54 <_sk_load_a8_dst_sse41+0x81>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 15bc6 <_sk_load_a8_dst_sse41+0x6b>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,195 // jne 15b7a <_sk_load_a8_dst_sse41+0x1f>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 15b3e <_sk_load_a8_dst_sse41+0x6b>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,195 // jne 15af2 <_sk_load_a8_dst_sse41+0x1f>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,15,110,232 // movd %eax,%xmm5
.byte 102,15,56,49,237 // pmovzxbd %xmm5,%xmm5
.byte 102,15,58,14,229,15 // pblendw $0xf,%xmm5,%xmm4
- .byte 235,158 // jmp 15b7a <_sk_load_a8_dst_sse41+0x1f>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 235,158 // jmp 15af2 <_sk_load_a8_dst_sse41+0x1f>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
- .byte 235,147 // jmp 15b7a <_sk_load_a8_dst_sse41+0x1f>
+ .byte 235,147 // jmp 15af2 <_sk_load_a8_dst_sse41+0x1f>
HIDDEN _sk_gather_a8_sse41
.globl _sk_gather_a8_sse41
FUNCTION(_sk_gather_a8_sse41)
_sk_gather_a8_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -30436,25 +30431,24 @@ _sk_gather_a8_sse41:
.byte 243,15,91,192 // cvttps2dq %xmm0,%xmm0
.byte 102,15,254,194 // paddd %xmm2,%xmm0
.byte 102,72,15,58,22,192,1 // pextrq $0x1,%xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,65,15,58,32,4,25,0 // pinsrb $0x0,(%r9,%rbx,1),%xmm0
- .byte 102,67,15,58,32,4,25,1 // pinsrb $0x1,(%r9,%r11,1),%xmm0
- .byte 67,15,182,28,17 // movzbl (%r9,%r10,1),%ebx
- .byte 102,15,58,32,195,2 // pinsrb $0x2,%ebx,%xmm0
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,58,32,4,24,0 // pinsrb $0x0,(%r8,%r11,1),%xmm0
+ .byte 102,67,15,58,32,4,16,1 // pinsrb $0x1,(%r8,%r10,1),%xmm0
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 102,65,15,58,32,193,2 // pinsrb $0x2,%r9d,%xmm0
+ .byte 65,15,182,4,0 // movzbl (%r8,%rax,1),%eax
.byte 102,15,58,32,192,3 // pinsrb $0x3,%eax,%xmm0
.byte 102,15,56,49,192 // pmovzxbd %xmm0,%xmm0
.byte 15,91,216 // cvtdq2ps %xmm0,%xmm3
- .byte 15,89,29,185,104,1,0 // mulps 0x168b9(%rip),%xmm3 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,29,113,105,1,0 // mulps 0x16971(%rip),%xmm3 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,239,210 // pxor %xmm2,%xmm2
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_a8_sse41
@@ -30462,129 +30456,128 @@ HIDDEN _sk_store_a8_sse41
FUNCTION(_sk_store_a8_sse41)
_sk_store_a8_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 68,15,40,5,110,103,1,0 // movaps 0x1676e(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 68,15,40,5,39,104,1,0 // movaps 0x16827(%rip),%xmm8 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 68,15,89,195 // mulps %xmm3,%xmm8
.byte 102,69,15,91,192 // cvtps2dq %xmm8,%xmm8
.byte 102,69,15,56,43,192 // packusdw %xmm8,%xmm8
.byte 102,69,15,103,192 // packuswb %xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,13 // jne 15ca8 <_sk_store_a8_sse41+0x41>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,13 // jne 15c1f <_sk_store_a8_sse41+0x41>
.byte 102,68,15,126,192 // movd %xmm8,%eax
- .byte 67,137,4,25 // mov %eax,(%r9,%r11,1)
+ .byte 67,137,4,16 // mov %eax,(%r8,%r10,1)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 102,69,15,56,49,192 // pmovzxbd %xmm8,%xmm8
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,41 // je 15ce4 <_sk_store_a8_sse41+0x7d>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,15 // je 15cd0 <_sk_store_a8_sse41+0x69>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,221 // jne 15ca4 <_sk_store_a8_sse41+0x3d>
- .byte 102,71,15,58,20,68,25,2,8 // pextrb $0x8,%xmm8,0x2(%r9,%r11,1)
- .byte 102,68,15,56,0,5,70,106,1,0 // pshufb 0x16a46(%rip),%xmm8 # 2c720 <_sk_overlay_sse2_8bit+0x123b>
- .byte 102,71,15,58,21,4,25,0 // pextrw $0x0,%xmm8,(%r9,%r11,1)
- .byte 235,192 // jmp 15ca4 <_sk_store_a8_sse41+0x3d>
- .byte 102,71,15,58,20,4,25,0 // pextrb $0x0,%xmm8,(%r9,%r11,1)
- .byte 235,182 // jmp 15ca4 <_sk_store_a8_sse41+0x3d>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,41 // je 15c5b <_sk_store_a8_sse41+0x7d>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,15 // je 15c47 <_sk_store_a8_sse41+0x69>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,221 // jne 15c1b <_sk_store_a8_sse41+0x3d>
+ .byte 102,71,15,58,20,68,16,2,8 // pextrb $0x8,%xmm8,0x2(%r8,%r10,1)
+ .byte 102,68,15,56,0,5,255,106,1,0 // pshufb 0x16aff(%rip),%xmm8 # 2c750 <_sk_overlay_sse2_8bit+0x12b3>
+ .byte 102,71,15,58,21,4,16,0 // pextrw $0x0,%xmm8,(%r8,%r10,1)
+ .byte 235,192 // jmp 15c1b <_sk_store_a8_sse41+0x3d>
+ .byte 102,71,15,58,20,4,16,0 // pextrb $0x0,%xmm8,(%r8,%r10,1)
+ .byte 235,182 // jmp 15c1b <_sk_store_a8_sse41+0x3d>
HIDDEN _sk_load_g8_sse41
.globl _sk_load_g8_sse41
FUNCTION(_sk_load_g8_sse41)
_sk_load_g8_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,42 // jne 15d30 <_sk_load_g8_sse41+0x42>
- .byte 102,67,15,56,49,4,25 // pmovzxbd (%r9,%r11,1),%xmm0
- .byte 102,15,219,5,171,102,1,0 // pand 0x166ab(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,42 // jne 15ca7 <_sk_load_g8_sse41+0x42>
+ .byte 102,67,15,56,49,4,16 // pmovzxbd (%r8,%r10,1),%xmm0
+ .byte 102,15,219,5,100,103,1,0 // pand 0x16764(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,241,103,1,0 // mulps 0x167f1(%rip),%xmm0 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,5,170,104,1,0 // mulps 0x168aa(%rip),%xmm0 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,232,101,1,0 // movaps 0x165e8(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,161,102,1,0 // movaps 0x166a1(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,53 // je 15d72 <_sk_load_g8_sse41+0x84>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,53 // je 15ce9 <_sk_load_g8_sse41+0x84>
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 15d5c <_sk_load_g8_sse41+0x6e>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,192 // jne 15d0d <_sk_load_g8_sse41+0x1f>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 15cd3 <_sk_load_g8_sse41+0x6e>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,192 // jne 15c84 <_sk_load_g8_sse41+0x1f>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,15,112,192,69 // pshufd $0x45,%xmm0,%xmm0
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,15,110,200 // movd %eax,%xmm1
.byte 102,15,56,49,201 // pmovzxbd %xmm1,%xmm1
.byte 102,15,58,14,193,15 // pblendw $0xf,%xmm1,%xmm0
- .byte 235,155 // jmp 15d0d <_sk_load_g8_sse41+0x1f>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 235,155 // jmp 15c84 <_sk_load_g8_sse41+0x1f>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
- .byte 235,144 // jmp 15d0d <_sk_load_g8_sse41+0x1f>
+ .byte 235,144 // jmp 15c84 <_sk_load_g8_sse41+0x1f>
HIDDEN _sk_load_g8_dst_sse41
.globl _sk_load_g8_dst_sse41
FUNCTION(_sk_load_g8_dst_sse41)
_sk_load_g8_dst_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,42 // jne 15dbf <_sk_load_g8_dst_sse41+0x42>
- .byte 102,67,15,56,49,36,25 // pmovzxbd (%r9,%r11,1),%xmm4
- .byte 102,15,219,37,28,102,1,0 // pand 0x1661c(%rip),%xmm4 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,42 // jne 15d36 <_sk_load_g8_dst_sse41+0x42>
+ .byte 102,67,15,56,49,36,16 // pmovzxbd (%r8,%r10,1),%xmm4
+ .byte 102,15,219,37,213,102,1,0 // pand 0x166d5(%rip),%xmm4 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,37,98,103,1,0 // mulps 0x16762(%rip),%xmm4 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,37,27,104,1,0 // mulps 0x1681b(%rip),%xmm4 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,61,89,101,1,0 // movaps 0x16559(%rip),%xmm7 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,61,18,102,1,0 // movaps 0x16612(%rip),%xmm7 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,40,236 // movaps %xmm4,%xmm5
.byte 15,40,244 // movaps %xmm4,%xmm6
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,53 // je 15e01 <_sk_load_g8_dst_sse41+0x84>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,53 // je 15d78 <_sk_load_g8_dst_sse41+0x84>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 15deb <_sk_load_g8_dst_sse41+0x6e>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,192 // jne 15d9c <_sk_load_g8_dst_sse41+0x1f>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 15d62 <_sk_load_g8_dst_sse41+0x6e>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,192 // jne 15d13 <_sk_load_g8_dst_sse41+0x1f>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,15,110,232 // movd %eax,%xmm5
.byte 102,15,56,49,237 // pmovzxbd %xmm5,%xmm5
.byte 102,15,58,14,229,15 // pblendw $0xf,%xmm5,%xmm4
- .byte 235,155 // jmp 15d9c <_sk_load_g8_dst_sse41+0x1f>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 235,155 // jmp 15d13 <_sk_load_g8_dst_sse41+0x1f>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
- .byte 235,144 // jmp 15d9c <_sk_load_g8_dst_sse41+0x1f>
+ .byte 235,144 // jmp 15d13 <_sk_load_g8_dst_sse41+0x1f>
HIDDEN _sk_gather_g8_sse41
.globl _sk_gather_g8_sse41
FUNCTION(_sk_gather_g8_sse41)
_sk_gather_g8_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -30592,25 +30585,24 @@ _sk_gather_g8_sse41:
.byte 243,15,91,192 // cvttps2dq %xmm0,%xmm0
.byte 102,15,254,194 // paddd %xmm2,%xmm0
.byte 102,72,15,58,22,192,1 // pextrq $0x1,%xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,65,15,58,32,4,25,0 // pinsrb $0x0,(%r9,%rbx,1),%xmm0
- .byte 102,67,15,58,32,4,25,1 // pinsrb $0x1,(%r9,%r11,1),%xmm0
- .byte 67,15,182,28,17 // movzbl (%r9,%r10,1),%ebx
- .byte 102,15,58,32,195,2 // pinsrb $0x2,%ebx,%xmm0
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,58,32,4,24,0 // pinsrb $0x0,(%r8,%r11,1),%xmm0
+ .byte 102,67,15,58,32,4,16,1 // pinsrb $0x1,(%r8,%r10,1),%xmm0
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 102,65,15,58,32,193,2 // pinsrb $0x2,%r9d,%xmm0
+ .byte 65,15,182,4,0 // movzbl (%r8,%rax,1),%eax
.byte 102,15,58,32,192,3 // pinsrb $0x3,%eax,%xmm0
.byte 102,15,56,49,192 // pmovzxbd %xmm0,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,148,102,1,0 // mulps 0x16694(%rip),%xmm0 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,5,77,103,1,0 // mulps 0x1674d(%rip),%xmm0 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,139,100,1,0 // movaps 0x1648b(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,68,101,1,0 // movaps 0x16544(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_load_565_sse41
@@ -30618,104 +30610,103 @@ HIDDEN _sk_load_565_sse41
FUNCTION(_sk_load_565_sse41)
_sk_load_565_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,80 // jne 15ef9 <_sk_load_565_sse41+0x6b>
- .byte 102,67,15,56,51,20,89 // pmovzxwd (%r9,%r11,2),%xmm2
- .byte 102,15,111,5,104,102,1,0 // movdqa 0x16668(%rip),%xmm0 # 2c520 <_sk_overlay_sse2_8bit+0x103b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,80 // jne 15e6f <_sk_load_565_sse41+0x6b>
+ .byte 102,67,15,56,51,20,80 // pmovzxwd (%r8,%r10,2),%xmm2
+ .byte 102,15,111,5,34,103,1,0 // movdqa 0x16722(%rip),%xmm0 # 2c550 <_sk_overlay_sse2_8bit+0x10b3>
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,106,102,1,0 // mulps 0x1666a(%rip),%xmm0 # 2c530 <_sk_overlay_sse2_8bit+0x104b>
- .byte 102,15,111,13,114,102,1,0 // movdqa 0x16672(%rip),%xmm1 # 2c540 <_sk_overlay_sse2_8bit+0x105b>
+ .byte 15,89,5,36,103,1,0 // mulps 0x16724(%rip),%xmm0 # 2c560 <_sk_overlay_sse2_8bit+0x10c3>
+ .byte 102,15,111,13,44,103,1,0 // movdqa 0x1672c(%rip),%xmm1 # 2c570 <_sk_overlay_sse2_8bit+0x10d3>
.byte 102,15,219,202 // pand %xmm2,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,13,116,102,1,0 // mulps 0x16674(%rip),%xmm1 # 2c550 <_sk_overlay_sse2_8bit+0x106b>
- .byte 102,15,219,21,124,102,1,0 // pand 0x1667c(%rip),%xmm2 # 2c560 <_sk_overlay_sse2_8bit+0x107b>
+ .byte 15,89,13,46,103,1,0 // mulps 0x1672e(%rip),%xmm1 # 2c580 <_sk_overlay_sse2_8bit+0x10e3>
+ .byte 102,15,219,21,54,103,1,0 // pand 0x16736(%rip),%xmm2 # 2c590 <_sk_overlay_sse2_8bit+0x10f3>
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,21,130,102,1,0 // mulps 0x16682(%rip),%xmm2 # 2c570 <_sk_overlay_sse2_8bit+0x108b>
+ .byte 15,89,21,60,103,1,0 // mulps 0x1673c(%rip),%xmm2 # 2c5a0 <_sk_overlay_sse2_8bit+0x1103>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,25,100,1,0 // movaps 0x16419(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,211,100,1,0 // movaps 0x164d3(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,53 // je 15f3b <_sk_load_565_sse41+0xad>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,53 // je 15eb1 <_sk_load_565_sse41+0xad>
.byte 102,15,239,210 // pxor %xmm2,%xmm2
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 15f25 <_sk_load_565_sse41+0x97>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,154 // jne 15eb0 <_sk_load_565_sse41+0x22>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 15e9b <_sk_load_565_sse41+0x97>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,154 // jne 15e26 <_sk_load_565_sse41+0x22>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,15,112,208,69 // pshufd $0x45,%xmm0,%xmm2
- .byte 102,67,15,110,4,89 // movd (%r9,%r11,2),%xmm0
+ .byte 102,67,15,110,4,80 // movd (%r8,%r10,2),%xmm0
.byte 102,15,56,51,192 // pmovzxwd %xmm0,%xmm0
.byte 102,15,58,14,208,15 // pblendw $0xf,%xmm0,%xmm2
- .byte 233,117,255,255,255 // jmpq 15eb0 <_sk_load_565_sse41+0x22>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,117,255,255,255 // jmpq 15e26 <_sk_load_565_sse41+0x22>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,15,110,208 // movd %eax,%xmm2
- .byte 233,103,255,255,255 // jmpq 15eb0 <_sk_load_565_sse41+0x22>
+ .byte 233,103,255,255,255 // jmpq 15e26 <_sk_load_565_sse41+0x22>
HIDDEN _sk_load_565_dst_sse41
.globl _sk_load_565_dst_sse41
FUNCTION(_sk_load_565_dst_sse41)
_sk_load_565_dst_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,80 // jne 15fb4 <_sk_load_565_dst_sse41+0x6b>
- .byte 102,67,15,56,51,52,89 // pmovzxwd (%r9,%r11,2),%xmm6
- .byte 102,15,111,37,173,101,1,0 // movdqa 0x165ad(%rip),%xmm4 # 2c520 <_sk_overlay_sse2_8bit+0x103b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,80 // jne 15f2a <_sk_load_565_dst_sse41+0x6b>
+ .byte 102,67,15,56,51,52,80 // pmovzxwd (%r8,%r10,2),%xmm6
+ .byte 102,15,111,37,103,102,1,0 // movdqa 0x16667(%rip),%xmm4 # 2c550 <_sk_overlay_sse2_8bit+0x10b3>
.byte 102,15,219,230 // pand %xmm6,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,37,175,101,1,0 // mulps 0x165af(%rip),%xmm4 # 2c530 <_sk_overlay_sse2_8bit+0x104b>
- .byte 102,15,111,45,183,101,1,0 // movdqa 0x165b7(%rip),%xmm5 # 2c540 <_sk_overlay_sse2_8bit+0x105b>
+ .byte 15,89,37,105,102,1,0 // mulps 0x16669(%rip),%xmm4 # 2c560 <_sk_overlay_sse2_8bit+0x10c3>
+ .byte 102,15,111,45,113,102,1,0 // movdqa 0x16671(%rip),%xmm5 # 2c570 <_sk_overlay_sse2_8bit+0x10d3>
.byte 102,15,219,238 // pand %xmm6,%xmm5
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
- .byte 15,89,45,185,101,1,0 // mulps 0x165b9(%rip),%xmm5 # 2c550 <_sk_overlay_sse2_8bit+0x106b>
- .byte 102,15,219,53,193,101,1,0 // pand 0x165c1(%rip),%xmm6 # 2c560 <_sk_overlay_sse2_8bit+0x107b>
+ .byte 15,89,45,115,102,1,0 // mulps 0x16673(%rip),%xmm5 # 2c580 <_sk_overlay_sse2_8bit+0x10e3>
+ .byte 102,15,219,53,123,102,1,0 // pand 0x1667b(%rip),%xmm6 # 2c590 <_sk_overlay_sse2_8bit+0x10f3>
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
- .byte 15,89,53,199,101,1,0 // mulps 0x165c7(%rip),%xmm6 # 2c570 <_sk_overlay_sse2_8bit+0x108b>
+ .byte 15,89,53,129,102,1,0 // mulps 0x16681(%rip),%xmm6 # 2c5a0 <_sk_overlay_sse2_8bit+0x1103>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,61,94,99,1,0 // movaps 0x1635e(%rip),%xmm7 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,61,24,100,1,0 // movaps 0x16418(%rip),%xmm7 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,53 // je 15ff6 <_sk_load_565_dst_sse41+0xad>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,53 // je 15f6c <_sk_load_565_dst_sse41+0xad>
.byte 102,15,239,246 // pxor %xmm6,%xmm6
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 15fe0 <_sk_load_565_dst_sse41+0x97>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,154 // jne 15f6b <_sk_load_565_dst_sse41+0x22>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 15f56 <_sk_load_565_dst_sse41+0x97>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,154 // jne 15ee1 <_sk_load_565_dst_sse41+0x22>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,112,244,69 // pshufd $0x45,%xmm4,%xmm6
- .byte 102,67,15,110,36,89 // movd (%r9,%r11,2),%xmm4
+ .byte 102,67,15,110,36,80 // movd (%r8,%r10,2),%xmm4
.byte 102,15,56,51,228 // pmovzxwd %xmm4,%xmm4
.byte 102,15,58,14,244,15 // pblendw $0xf,%xmm4,%xmm6
- .byte 233,117,255,255,255 // jmpq 15f6b <_sk_load_565_dst_sse41+0x22>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,117,255,255,255 // jmpq 15ee1 <_sk_load_565_dst_sse41+0x22>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,15,110,240 // movd %eax,%xmm6
- .byte 233,103,255,255,255 // jmpq 15f6b <_sk_load_565_dst_sse41+0x22>
+ .byte 233,103,255,255,255 // jmpq 15ee1 <_sk_load_565_dst_sse41+0x22>
HIDDEN _sk_gather_565_sse41
.globl _sk_gather_565_sse41
FUNCTION(_sk_gather_565_sse41)
_sk_gather_565_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -30723,32 +30714,31 @@ _sk_gather_565_sse41:
.byte 243,15,91,192 // cvttps2dq %xmm0,%xmm0
.byte 102,15,254,194 // paddd %xmm2,%xmm0
.byte 102,72,15,58,22,192,1 // pextrq $0x1,%xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,65,15,196,4,89,0 // pinsrw $0x0,(%r9,%rbx,2),%xmm0
- .byte 102,67,15,196,4,89,1 // pinsrw $0x1,(%r9,%r11,2),%xmm0
- .byte 67,15,183,28,81 // movzwl (%r9,%r10,2),%ebx
- .byte 102,15,196,195,2 // pinsrw $0x2,%ebx,%xmm0
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,196,4,88,0 // pinsrw $0x0,(%r8,%r11,2),%xmm0
+ .byte 102,67,15,196,4,80,1 // pinsrw $0x1,(%r8,%r10,2),%xmm0
+ .byte 71,15,183,12,72 // movzwl (%r8,%r9,2),%r9d
+ .byte 102,65,15,196,193,2 // pinsrw $0x2,%r9d,%xmm0
+ .byte 65,15,183,4,64 // movzwl (%r8,%rax,2),%eax
.byte 102,15,196,192,3 // pinsrw $0x3,%eax,%xmm0
.byte 102,15,56,51,208 // pmovzxwd %xmm0,%xmm2
- .byte 102,15,111,5,178,100,1,0 // movdqa 0x164b2(%rip),%xmm0 # 2c520 <_sk_overlay_sse2_8bit+0x103b>
+ .byte 102,15,111,5,108,101,1,0 // movdqa 0x1656c(%rip),%xmm0 # 2c550 <_sk_overlay_sse2_8bit+0x10b3>
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,180,100,1,0 // mulps 0x164b4(%rip),%xmm0 # 2c530 <_sk_overlay_sse2_8bit+0x104b>
- .byte 102,15,111,13,188,100,1,0 // movdqa 0x164bc(%rip),%xmm1 # 2c540 <_sk_overlay_sse2_8bit+0x105b>
+ .byte 15,89,5,110,101,1,0 // mulps 0x1656e(%rip),%xmm0 # 2c560 <_sk_overlay_sse2_8bit+0x10c3>
+ .byte 102,15,111,13,118,101,1,0 // movdqa 0x16576(%rip),%xmm1 # 2c570 <_sk_overlay_sse2_8bit+0x10d3>
.byte 102,15,219,202 // pand %xmm2,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,13,190,100,1,0 // mulps 0x164be(%rip),%xmm1 # 2c550 <_sk_overlay_sse2_8bit+0x106b>
- .byte 102,15,219,21,198,100,1,0 // pand 0x164c6(%rip),%xmm2 # 2c560 <_sk_overlay_sse2_8bit+0x107b>
+ .byte 15,89,13,120,101,1,0 // mulps 0x16578(%rip),%xmm1 # 2c580 <_sk_overlay_sse2_8bit+0x10e3>
+ .byte 102,15,219,21,128,101,1,0 // pand 0x16580(%rip),%xmm2 # 2c590 <_sk_overlay_sse2_8bit+0x10f3>
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,21,204,100,1,0 // mulps 0x164cc(%rip),%xmm2 # 2c570 <_sk_overlay_sse2_8bit+0x108b>
+ .byte 15,89,21,134,101,1,0 // mulps 0x16586(%rip),%xmm2 # 2c5a0 <_sk_overlay_sse2_8bit+0x1103>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,99,98,1,0 // movaps 0x16263(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
- .byte 91 // pop %rbx
+ .byte 15,40,29,29,99,1,0 // movaps 0x1631d(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_565_sse41
@@ -30756,18 +30746,18 @@ HIDDEN _sk_store_565_sse41
FUNCTION(_sk_store_565_sse41)
_sk_store_565_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 68,15,40,5,98,102,1,0 // movaps 0x16662(%rip),%xmm8 # 2c730 <_sk_overlay_sse2_8bit+0x124b>
+ .byte 68,15,40,5,29,103,1,0 // movaps 0x1671d(%rip),%xmm8 # 2c760 <_sk_overlay_sse2_8bit+0x12c3>
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 102,69,15,91,201 // cvtps2dq %xmm9,%xmm9
.byte 102,65,15,114,241,11 // pslld $0xb,%xmm9
- .byte 68,15,40,21,87,102,1,0 // movaps 0x16657(%rip),%xmm10 # 2c740 <_sk_overlay_sse2_8bit+0x125b>
+ .byte 68,15,40,21,18,103,1,0 // movaps 0x16712(%rip),%xmm10 # 2c770 <_sk_overlay_sse2_8bit+0x12d3>
.byte 68,15,89,209 // mulps %xmm1,%xmm10
.byte 102,69,15,91,210 // cvtps2dq %xmm10,%xmm10
.byte 102,65,15,114,242,5 // pslld $0x5,%xmm10
@@ -30776,136 +30766,135 @@ _sk_store_565_sse41:
.byte 102,69,15,91,192 // cvtps2dq %xmm8,%xmm8
.byte 102,69,15,86,194 // orpd %xmm10,%xmm8
.byte 102,69,15,56,43,192 // packusdw %xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,10 // jne 16120 <_sk_store_565_sse41+0x70>
- .byte 242,69,15,17,4,65 // movsd %xmm8,(%r9,%rax,2)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 16095 <_sk_store_565_sse41+0x70>
+ .byte 242,69,15,17,4,64 // movsd %xmm8,(%r8,%rax,2)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 102,69,15,56,51,192 // pmovzxwd %xmm8,%xmm8
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,35 // je 16156 <_sk_store_565_sse41+0xa6>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,15 // je 16148 <_sk_store_565_sse41+0x98>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,221 // jne 1611c <_sk_store_565_sse41+0x6c>
- .byte 102,69,15,58,21,68,65,4,4 // pextrw $0x4,%xmm8,0x4(%r9,%rax,2)
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,35 // je 160cb <_sk_store_565_sse41+0xa6>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,15 // je 160bd <_sk_store_565_sse41+0x98>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,221 // jne 16091 <_sk_store_565_sse41+0x6c>
+ .byte 102,69,15,58,21,68,64,4,4 // pextrw $0x4,%xmm8,0x4(%r8,%rax,2)
.byte 242,69,15,112,192,232 // pshuflw $0xe8,%xmm8,%xmm8
- .byte 102,69,15,126,4,65 // movd %xmm8,(%r9,%rax,2)
- .byte 235,198 // jmp 1611c <_sk_store_565_sse41+0x6c>
- .byte 102,69,15,58,21,4,65,0 // pextrw $0x0,%xmm8,(%r9,%rax,2)
- .byte 235,188 // jmp 1611c <_sk_store_565_sse41+0x6c>
+ .byte 102,69,15,126,4,64 // movd %xmm8,(%r8,%rax,2)
+ .byte 235,198 // jmp 16091 <_sk_store_565_sse41+0x6c>
+ .byte 102,69,15,58,21,4,64,0 // pextrw $0x0,%xmm8,(%r8,%rax,2)
+ .byte 235,188 // jmp 16091 <_sk_store_565_sse41+0x6c>
HIDDEN _sk_load_4444_sse41
.globl _sk_load_4444_sse41
FUNCTION(_sk_load_4444_sse41)
_sk_load_4444_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,95 // jne 161da <_sk_load_4444_sse41+0x7a>
- .byte 102,67,15,56,51,28,89 // pmovzxwd (%r9,%r11,2),%xmm3
- .byte 102,15,111,5,198,101,1,0 // movdqa 0x165c6(%rip),%xmm0 # 2c750 <_sk_overlay_sse2_8bit+0x126b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,95 // jne 1614f <_sk_load_4444_sse41+0x7a>
+ .byte 102,67,15,56,51,28,80 // pmovzxwd (%r8,%r10,2),%xmm3
+ .byte 102,15,111,5,129,102,1,0 // movdqa 0x16681(%rip),%xmm0 # 2c780 <_sk_overlay_sse2_8bit+0x12e3>
.byte 102,15,219,195 // pand %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,200,101,1,0 // mulps 0x165c8(%rip),%xmm0 # 2c760 <_sk_overlay_sse2_8bit+0x127b>
- .byte 102,15,111,13,208,101,1,0 // movdqa 0x165d0(%rip),%xmm1 # 2c770 <_sk_overlay_sse2_8bit+0x128b>
+ .byte 15,89,5,131,102,1,0 // mulps 0x16683(%rip),%xmm0 # 2c790 <_sk_overlay_sse2_8bit+0x12f3>
+ .byte 102,15,111,13,139,102,1,0 // movdqa 0x1668b(%rip),%xmm1 # 2c7a0 <_sk_overlay_sse2_8bit+0x1303>
.byte 102,15,219,203 // pand %xmm3,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,13,210,101,1,0 // mulps 0x165d2(%rip),%xmm1 # 2c780 <_sk_overlay_sse2_8bit+0x129b>
- .byte 102,15,111,21,218,101,1,0 // movdqa 0x165da(%rip),%xmm2 # 2c790 <_sk_overlay_sse2_8bit+0x12ab>
+ .byte 15,89,13,141,102,1,0 // mulps 0x1668d(%rip),%xmm1 # 2c7b0 <_sk_overlay_sse2_8bit+0x1313>
+ .byte 102,15,111,21,149,102,1,0 // movdqa 0x16695(%rip),%xmm2 # 2c7c0 <_sk_overlay_sse2_8bit+0x1323>
.byte 102,15,219,211 // pand %xmm3,%xmm2
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,21,220,101,1,0 // mulps 0x165dc(%rip),%xmm2 # 2c7a0 <_sk_overlay_sse2_8bit+0x12bb>
- .byte 102,15,219,29,228,101,1,0 // pand 0x165e4(%rip),%xmm3 # 2c7b0 <_sk_overlay_sse2_8bit+0x12cb>
+ .byte 15,89,21,151,102,1,0 // mulps 0x16697(%rip),%xmm2 # 2c7d0 <_sk_overlay_sse2_8bit+0x1333>
+ .byte 102,15,219,29,159,102,1,0 // pand 0x1669f(%rip),%xmm3 # 2c7e0 <_sk_overlay_sse2_8bit+0x1343>
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
- .byte 15,89,29,234,101,1,0 // mulps 0x165ea(%rip),%xmm3 # 2c7c0 <_sk_overlay_sse2_8bit+0x12db>
+ .byte 15,89,29,165,102,1,0 // mulps 0x166a5(%rip),%xmm3 # 2c7f0 <_sk_overlay_sse2_8bit+0x1353>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,53 // je 1621c <_sk_load_4444_sse41+0xbc>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,53 // je 16191 <_sk_load_4444_sse41+0xbc>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 16206 <_sk_load_4444_sse41+0xa6>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,139 // jne 16182 <_sk_load_4444_sse41+0x22>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 1617b <_sk_load_4444_sse41+0xa6>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,139 // jne 160f7 <_sk_load_4444_sse41+0x22>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,15,112,216,69 // pshufd $0x45,%xmm0,%xmm3
- .byte 102,67,15,110,4,89 // movd (%r9,%r11,2),%xmm0
+ .byte 102,67,15,110,4,80 // movd (%r8,%r10,2),%xmm0
.byte 102,15,56,51,192 // pmovzxwd %xmm0,%xmm0
.byte 102,15,58,14,216,15 // pblendw $0xf,%xmm0,%xmm3
- .byte 233,102,255,255,255 // jmpq 16182 <_sk_load_4444_sse41+0x22>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,102,255,255,255 // jmpq 160f7 <_sk_load_4444_sse41+0x22>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,15,110,216 // movd %eax,%xmm3
- .byte 233,88,255,255,255 // jmpq 16182 <_sk_load_4444_sse41+0x22>
+ .byte 233,88,255,255,255 // jmpq 160f7 <_sk_load_4444_sse41+0x22>
HIDDEN _sk_load_4444_dst_sse41
.globl _sk_load_4444_dst_sse41
FUNCTION(_sk_load_4444_dst_sse41)
_sk_load_4444_dst_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,95 // jne 162a4 <_sk_load_4444_dst_sse41+0x7a>
- .byte 102,67,15,56,51,60,89 // pmovzxwd (%r9,%r11,2),%xmm7
- .byte 102,15,111,37,252,100,1,0 // movdqa 0x164fc(%rip),%xmm4 # 2c750 <_sk_overlay_sse2_8bit+0x126b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,95 // jne 16219 <_sk_load_4444_dst_sse41+0x7a>
+ .byte 102,67,15,56,51,60,80 // pmovzxwd (%r8,%r10,2),%xmm7
+ .byte 102,15,111,37,183,101,1,0 // movdqa 0x165b7(%rip),%xmm4 # 2c780 <_sk_overlay_sse2_8bit+0x12e3>
.byte 102,15,219,231 // pand %xmm7,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,37,254,100,1,0 // mulps 0x164fe(%rip),%xmm4 # 2c760 <_sk_overlay_sse2_8bit+0x127b>
- .byte 102,15,111,45,6,101,1,0 // movdqa 0x16506(%rip),%xmm5 # 2c770 <_sk_overlay_sse2_8bit+0x128b>
+ .byte 15,89,37,185,101,1,0 // mulps 0x165b9(%rip),%xmm4 # 2c790 <_sk_overlay_sse2_8bit+0x12f3>
+ .byte 102,15,111,45,193,101,1,0 // movdqa 0x165c1(%rip),%xmm5 # 2c7a0 <_sk_overlay_sse2_8bit+0x1303>
.byte 102,15,219,239 // pand %xmm7,%xmm5
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
- .byte 15,89,45,8,101,1,0 // mulps 0x16508(%rip),%xmm5 # 2c780 <_sk_overlay_sse2_8bit+0x129b>
- .byte 102,15,111,53,16,101,1,0 // movdqa 0x16510(%rip),%xmm6 # 2c790 <_sk_overlay_sse2_8bit+0x12ab>
+ .byte 15,89,45,195,101,1,0 // mulps 0x165c3(%rip),%xmm5 # 2c7b0 <_sk_overlay_sse2_8bit+0x1313>
+ .byte 102,15,111,53,203,101,1,0 // movdqa 0x165cb(%rip),%xmm6 # 2c7c0 <_sk_overlay_sse2_8bit+0x1323>
.byte 102,15,219,247 // pand %xmm7,%xmm6
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
- .byte 15,89,53,18,101,1,0 // mulps 0x16512(%rip),%xmm6 # 2c7a0 <_sk_overlay_sse2_8bit+0x12bb>
- .byte 102,15,219,61,26,101,1,0 // pand 0x1651a(%rip),%xmm7 # 2c7b0 <_sk_overlay_sse2_8bit+0x12cb>
+ .byte 15,89,53,205,101,1,0 // mulps 0x165cd(%rip),%xmm6 # 2c7d0 <_sk_overlay_sse2_8bit+0x1333>
+ .byte 102,15,219,61,213,101,1,0 // pand 0x165d5(%rip),%xmm7 # 2c7e0 <_sk_overlay_sse2_8bit+0x1343>
.byte 15,91,255 // cvtdq2ps %xmm7,%xmm7
- .byte 15,89,61,32,101,1,0 // mulps 0x16520(%rip),%xmm7 # 2c7c0 <_sk_overlay_sse2_8bit+0x12db>
+ .byte 15,89,61,219,101,1,0 // mulps 0x165db(%rip),%xmm7 # 2c7f0 <_sk_overlay_sse2_8bit+0x1353>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,53 // je 162e6 <_sk_load_4444_dst_sse41+0xbc>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,53 // je 1625b <_sk_load_4444_dst_sse41+0xbc>
.byte 102,15,239,255 // pxor %xmm7,%xmm7
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 162d0 <_sk_load_4444_dst_sse41+0xa6>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,139 // jne 1624c <_sk_load_4444_dst_sse41+0x22>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 16245 <_sk_load_4444_dst_sse41+0xa6>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,139 // jne 161c1 <_sk_load_4444_dst_sse41+0x22>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,112,252,69 // pshufd $0x45,%xmm4,%xmm7
- .byte 102,67,15,110,36,89 // movd (%r9,%r11,2),%xmm4
+ .byte 102,67,15,110,36,80 // movd (%r8,%r10,2),%xmm4
.byte 102,15,56,51,228 // pmovzxwd %xmm4,%xmm4
.byte 102,15,58,14,252,15 // pblendw $0xf,%xmm4,%xmm7
- .byte 233,102,255,255,255 // jmpq 1624c <_sk_load_4444_dst_sse41+0x22>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,102,255,255,255 // jmpq 161c1 <_sk_load_4444_dst_sse41+0x22>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,15,110,248 // movd %eax,%xmm7
- .byte 233,88,255,255,255 // jmpq 1624c <_sk_load_4444_dst_sse41+0x22>
+ .byte 233,88,255,255,255 // jmpq 161c1 <_sk_load_4444_dst_sse41+0x22>
HIDDEN _sk_gather_4444_sse41
.globl _sk_gather_4444_sse41
FUNCTION(_sk_gather_4444_sse41)
_sk_gather_4444_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -30913,35 +30902,34 @@ _sk_gather_4444_sse41:
.byte 243,15,91,192 // cvttps2dq %xmm0,%xmm0
.byte 102,15,254,194 // paddd %xmm2,%xmm0
.byte 102,72,15,58,22,192,1 // pextrq $0x1,%xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,65,15,196,4,89,0 // pinsrw $0x0,(%r9,%rbx,2),%xmm0
- .byte 102,67,15,196,4,89,1 // pinsrw $0x1,(%r9,%r11,2),%xmm0
- .byte 67,15,183,28,81 // movzwl (%r9,%r10,2),%ebx
- .byte 102,15,196,195,2 // pinsrw $0x2,%ebx,%xmm0
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,196,4,88,0 // pinsrw $0x0,(%r8,%r11,2),%xmm0
+ .byte 102,67,15,196,4,80,1 // pinsrw $0x1,(%r8,%r10,2),%xmm0
+ .byte 71,15,183,12,72 // movzwl (%r8,%r9,2),%r9d
+ .byte 102,65,15,196,193,2 // pinsrw $0x2,%r9d,%xmm0
+ .byte 65,15,183,4,64 // movzwl (%r8,%rax,2),%eax
.byte 102,15,196,192,3 // pinsrw $0x3,%eax,%xmm0
.byte 102,15,56,51,216 // pmovzxwd %xmm0,%xmm3
- .byte 102,15,111,5,242,99,1,0 // movdqa 0x163f2(%rip),%xmm0 # 2c750 <_sk_overlay_sse2_8bit+0x126b>
+ .byte 102,15,111,5,173,100,1,0 // movdqa 0x164ad(%rip),%xmm0 # 2c780 <_sk_overlay_sse2_8bit+0x12e3>
.byte 102,15,219,195 // pand %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,244,99,1,0 // mulps 0x163f4(%rip),%xmm0 # 2c760 <_sk_overlay_sse2_8bit+0x127b>
- .byte 102,15,111,13,252,99,1,0 // movdqa 0x163fc(%rip),%xmm1 # 2c770 <_sk_overlay_sse2_8bit+0x128b>
+ .byte 15,89,5,175,100,1,0 // mulps 0x164af(%rip),%xmm0 # 2c790 <_sk_overlay_sse2_8bit+0x12f3>
+ .byte 102,15,111,13,183,100,1,0 // movdqa 0x164b7(%rip),%xmm1 # 2c7a0 <_sk_overlay_sse2_8bit+0x1303>
.byte 102,15,219,203 // pand %xmm3,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,13,254,99,1,0 // mulps 0x163fe(%rip),%xmm1 # 2c780 <_sk_overlay_sse2_8bit+0x129b>
- .byte 102,15,111,21,6,100,1,0 // movdqa 0x16406(%rip),%xmm2 # 2c790 <_sk_overlay_sse2_8bit+0x12ab>
+ .byte 15,89,13,185,100,1,0 // mulps 0x164b9(%rip),%xmm1 # 2c7b0 <_sk_overlay_sse2_8bit+0x1313>
+ .byte 102,15,111,21,193,100,1,0 // movdqa 0x164c1(%rip),%xmm2 # 2c7c0 <_sk_overlay_sse2_8bit+0x1323>
.byte 102,15,219,211 // pand %xmm3,%xmm2
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,21,8,100,1,0 // mulps 0x16408(%rip),%xmm2 # 2c7a0 <_sk_overlay_sse2_8bit+0x12bb>
- .byte 102,15,219,29,16,100,1,0 // pand 0x16410(%rip),%xmm3 # 2c7b0 <_sk_overlay_sse2_8bit+0x12cb>
+ .byte 15,89,21,195,100,1,0 // mulps 0x164c3(%rip),%xmm2 # 2c7d0 <_sk_overlay_sse2_8bit+0x1333>
+ .byte 102,15,219,29,203,100,1,0 // pand 0x164cb(%rip),%xmm3 # 2c7e0 <_sk_overlay_sse2_8bit+0x1343>
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
- .byte 15,89,29,22,100,1,0 // mulps 0x16416(%rip),%xmm3 # 2c7c0 <_sk_overlay_sse2_8bit+0x12db>
+ .byte 15,89,29,209,100,1,0 // mulps 0x164d1(%rip),%xmm3 # 2c7f0 <_sk_overlay_sse2_8bit+0x1353>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_4444_sse41
@@ -30949,13 +30937,13 @@ HIDDEN _sk_store_4444_sse41
FUNCTION(_sk_store_4444_sse41)
_sk_store_4444_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 68,15,40,5,3,100,1,0 // movaps 0x16403(%rip),%xmm8 # 2c7d0 <_sk_overlay_sse2_8bit+0x12eb>
+ .byte 68,15,40,5,191,100,1,0 // movaps 0x164bf(%rip),%xmm8 # 2c800 <_sk_overlay_sse2_8bit+0x1363>
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 102,69,15,91,201 // cvtps2dq %xmm9,%xmm9
@@ -30974,52 +30962,52 @@ _sk_store_4444_sse41:
.byte 102,69,15,86,193 // orpd %xmm9,%xmm8
.byte 102,69,15,86,194 // orpd %xmm10,%xmm8
.byte 102,69,15,56,43,192 // packusdw %xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,10 // jne 16433 <_sk_store_4444_sse41+0x84>
- .byte 242,69,15,17,4,65 // movsd %xmm8,(%r9,%rax,2)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 163a7 <_sk_store_4444_sse41+0x84>
+ .byte 242,69,15,17,4,64 // movsd %xmm8,(%r8,%rax,2)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 102,69,15,56,51,192 // pmovzxwd %xmm8,%xmm8
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,35 // je 16469 <_sk_store_4444_sse41+0xba>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,15 // je 1645b <_sk_store_4444_sse41+0xac>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,221 // jne 1642f <_sk_store_4444_sse41+0x80>
- .byte 102,69,15,58,21,68,65,4,4 // pextrw $0x4,%xmm8,0x4(%r9,%rax,2)
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,35 // je 163dd <_sk_store_4444_sse41+0xba>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,15 // je 163cf <_sk_store_4444_sse41+0xac>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,221 // jne 163a3 <_sk_store_4444_sse41+0x80>
+ .byte 102,69,15,58,21,68,64,4,4 // pextrw $0x4,%xmm8,0x4(%r8,%rax,2)
.byte 242,69,15,112,192,232 // pshuflw $0xe8,%xmm8,%xmm8
- .byte 102,69,15,126,4,65 // movd %xmm8,(%r9,%rax,2)
- .byte 235,198 // jmp 1642f <_sk_store_4444_sse41+0x80>
- .byte 102,69,15,58,21,4,65,0 // pextrw $0x0,%xmm8,(%r9,%rax,2)
- .byte 235,188 // jmp 1642f <_sk_store_4444_sse41+0x80>
+ .byte 102,69,15,126,4,64 // movd %xmm8,(%r8,%rax,2)
+ .byte 235,198 // jmp 163a3 <_sk_store_4444_sse41+0x80>
+ .byte 102,69,15,58,21,4,64,0 // pextrw $0x0,%xmm8,(%r8,%rax,2)
+ .byte 235,188 // jmp 163a3 <_sk_store_4444_sse41+0x80>
HIDDEN _sk_load_8888_sse41
.globl _sk_load_8888_sse41
FUNCTION(_sk_load_8888_sse41)
_sk_load_8888_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 117,89 // jne 164e8 <_sk_load_8888_sse41+0x75>
- .byte 243,65,15,111,28,129 // movdqu (%r9,%rax,4),%xmm3
- .byte 102,15,111,5,35,95,1,0 // movdqa 0x15f23(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,89 // jne 1645c <_sk_load_8888_sse41+0x75>
+ .byte 243,65,15,111,28,128 // movdqu (%r8,%rax,4),%xmm3
+ .byte 102,15,111,5,223,95,1,0 // movdqa 0x15fdf(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,15,219,195 // pand %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 68,15,40,5,100,96,1,0 // movaps 0x16064(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,32,97,1,0 // movaps 0x16120(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
- .byte 102,15,56,0,13,19,95,1,0 // pshufb 0x15f13(%rip),%xmm1 # 2c3d0 <_sk_overlay_sse2_8bit+0xeeb>
+ .byte 102,15,56,0,13,207,95,1,0 // pshufb 0x15fcf(%rip),%xmm1 # 2c400 <_sk_overlay_sse2_8bit+0xf63>
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
.byte 65,15,89,200 // mulps %xmm8,%xmm1
.byte 102,15,111,211 // movdqa %xmm3,%xmm2
- .byte 102,15,56,0,21,15,95,1,0 // pshufb 0x15f0f(%rip),%xmm2 # 2c3e0 <_sk_overlay_sse2_8bit+0xefb>
+ .byte 102,15,56,0,21,203,95,1,0 // pshufb 0x15fcb(%rip),%xmm2 # 2c410 <_sk_overlay_sse2_8bit+0xf73>
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 102,15,114,211,24 // psrld $0x18,%xmm3
@@ -31027,48 +31015,48 @@ _sk_load_8888_sse41:
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,45 // je 16522 <_sk_load_8888_sse41+0xaf>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,45 // je 16496 <_sk_load_8888_sse41+0xaf>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,18 // je 16511 <_sk_load_8888_sse41+0x9e>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,144 // jne 16495 <_sk_load_8888_sse41+0x22>
- .byte 102,65,15,110,68,129,8 // movd 0x8(%r9,%rax,4),%xmm0
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,18 // je 16485 <_sk_load_8888_sse41+0x9e>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,144 // jne 16409 <_sk_load_8888_sse41+0x22>
+ .byte 102,65,15,110,68,128,8 // movd 0x8(%r8,%rax,4),%xmm0
.byte 102,15,112,216,69 // pshufd $0x45,%xmm0,%xmm3
- .byte 243,65,15,126,4,129 // movq (%r9,%rax,4),%xmm0
+ .byte 243,65,15,126,4,128 // movq (%r8,%rax,4),%xmm0
.byte 102,15,58,14,216,15 // pblendw $0xf,%xmm0,%xmm3
- .byte 233,115,255,255,255 // jmpq 16495 <_sk_load_8888_sse41+0x22>
- .byte 102,65,15,110,28,129 // movd (%r9,%rax,4),%xmm3
- .byte 233,104,255,255,255 // jmpq 16495 <_sk_load_8888_sse41+0x22>
+ .byte 233,115,255,255,255 // jmpq 16409 <_sk_load_8888_sse41+0x22>
+ .byte 102,65,15,110,28,128 // movd (%r8,%rax,4),%xmm3
+ .byte 233,104,255,255,255 // jmpq 16409 <_sk_load_8888_sse41+0x22>
HIDDEN _sk_load_8888_dst_sse41
.globl _sk_load_8888_dst_sse41
FUNCTION(_sk_load_8888_dst_sse41)
_sk_load_8888_dst_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 117,89 // jne 165a2 <_sk_load_8888_dst_sse41+0x75>
- .byte 243,65,15,111,60,129 // movdqu (%r9,%rax,4),%xmm7
- .byte 102,15,111,37,105,94,1,0 // movdqa 0x15e69(%rip),%xmm4 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,89 // jne 16516 <_sk_load_8888_dst_sse41+0x75>
+ .byte 243,65,15,111,60,128 // movdqu (%r8,%rax,4),%xmm7
+ .byte 102,15,111,37,37,95,1,0 // movdqa 0x15f25(%rip),%xmm4 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,15,219,231 // pand %xmm7,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 68,15,40,5,170,95,1,0 // movaps 0x15faa(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,102,96,1,0 // movaps 0x16066(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,224 // mulps %xmm8,%xmm4
.byte 102,15,111,239 // movdqa %xmm7,%xmm5
- .byte 102,15,56,0,45,89,94,1,0 // pshufb 0x15e59(%rip),%xmm5 # 2c3d0 <_sk_overlay_sse2_8bit+0xeeb>
+ .byte 102,15,56,0,45,21,95,1,0 // pshufb 0x15f15(%rip),%xmm5 # 2c400 <_sk_overlay_sse2_8bit+0xf63>
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
.byte 65,15,89,232 // mulps %xmm8,%xmm5
.byte 102,15,111,247 // movdqa %xmm7,%xmm6
- .byte 102,15,56,0,53,85,94,1,0 // pshufb 0x15e55(%rip),%xmm6 # 2c3e0 <_sk_overlay_sse2_8bit+0xefb>
+ .byte 102,15,56,0,53,17,95,1,0 // pshufb 0x15f11(%rip),%xmm6 # 2c410 <_sk_overlay_sse2_8bit+0xf73>
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
.byte 65,15,89,240 // mulps %xmm8,%xmm6
.byte 102,15,114,215,24 // psrld $0x18,%xmm7
@@ -31076,30 +31064,29 @@ _sk_load_8888_dst_sse41:
.byte 65,15,89,248 // mulps %xmm8,%xmm7
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,45 // je 165dc <_sk_load_8888_dst_sse41+0xaf>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,45 // je 16550 <_sk_load_8888_dst_sse41+0xaf>
.byte 102,15,239,255 // pxor %xmm7,%xmm7
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,18 // je 165cb <_sk_load_8888_dst_sse41+0x9e>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,144 // jne 1654f <_sk_load_8888_dst_sse41+0x22>
- .byte 102,65,15,110,100,129,8 // movd 0x8(%r9,%rax,4),%xmm4
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,18 // je 1653f <_sk_load_8888_dst_sse41+0x9e>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,144 // jne 164c3 <_sk_load_8888_dst_sse41+0x22>
+ .byte 102,65,15,110,100,128,8 // movd 0x8(%r8,%rax,4),%xmm4
.byte 102,15,112,252,69 // pshufd $0x45,%xmm4,%xmm7
- .byte 243,65,15,126,36,129 // movq (%r9,%rax,4),%xmm4
+ .byte 243,65,15,126,36,128 // movq (%r8,%rax,4),%xmm4
.byte 102,15,58,14,252,15 // pblendw $0xf,%xmm4,%xmm7
- .byte 233,115,255,255,255 // jmpq 1654f <_sk_load_8888_dst_sse41+0x22>
- .byte 102,65,15,110,60,129 // movd (%r9,%rax,4),%xmm7
- .byte 233,104,255,255,255 // jmpq 1654f <_sk_load_8888_dst_sse41+0x22>
+ .byte 233,115,255,255,255 // jmpq 164c3 <_sk_load_8888_dst_sse41+0x22>
+ .byte 102,65,15,110,60,128 // movd (%r8,%rax,4),%xmm7
+ .byte 233,104,255,255,255 // jmpq 164c3 <_sk_load_8888_dst_sse41+0x22>
HIDDEN _sk_gather_8888_sse41
.globl _sk_gather_8888_sse41
FUNCTION(_sk_gather_8888_sse41)
_sk_gather_8888_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -31107,33 +31094,32 @@ _sk_gather_8888_sse41:
.byte 243,15,91,192 // cvttps2dq %xmm0,%xmm0
.byte 102,15,254,194 // paddd %xmm2,%xmm0
.byte 102,72,15,126,192 // movq %xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,58,22,195,1 // pextrq $0x1,%xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,67,15,110,28,145 // movd (%r9,%r10,4),%xmm3
- .byte 102,65,15,58,34,28,129,1 // pinsrd $0x1,(%r9,%rax,4),%xmm3
- .byte 102,65,15,58,34,28,153,2 // pinsrd $0x2,(%r9,%rbx,4),%xmm3
- .byte 102,67,15,58,34,28,153,3 // pinsrd $0x3,(%r9,%r11,4),%xmm3
- .byte 102,15,111,5,120,93,1,0 // movdqa 0x15d78(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,73,15,58,22,194,1 // pextrq $0x1,%xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,110,28,136 // movd (%r8,%r9,4),%xmm3
+ .byte 102,65,15,58,34,28,128,1 // pinsrd $0x1,(%r8,%rax,4),%xmm3
+ .byte 102,67,15,58,34,28,152,2 // pinsrd $0x2,(%r8,%r11,4),%xmm3
+ .byte 102,67,15,58,34,28,144,3 // pinsrd $0x3,(%r8,%r10,4),%xmm3
+ .byte 102,15,111,5,53,94,1,0 // movdqa 0x15e35(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,15,219,195 // pand %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 68,15,40,5,185,94,1,0 // movaps 0x15eb9(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,118,95,1,0 // movaps 0x15f76(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
- .byte 102,15,56,0,13,104,93,1,0 // pshufb 0x15d68(%rip),%xmm1 # 2c3d0 <_sk_overlay_sse2_8bit+0xeeb>
+ .byte 102,15,56,0,13,37,94,1,0 // pshufb 0x15e25(%rip),%xmm1 # 2c400 <_sk_overlay_sse2_8bit+0xf63>
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
.byte 65,15,89,200 // mulps %xmm8,%xmm1
.byte 102,15,111,211 // movdqa %xmm3,%xmm2
- .byte 102,15,56,0,21,100,93,1,0 // pshufb 0x15d64(%rip),%xmm2 # 2c3e0 <_sk_overlay_sse2_8bit+0xefb>
+ .byte 102,15,56,0,21,33,94,1,0 // pshufb 0x15e21(%rip),%xmm2 # 2c410 <_sk_overlay_sse2_8bit+0xf73>
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 102,15,114,211,24 // psrld $0x18,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_8888_sse41
@@ -31141,13 +31127,13 @@ HIDDEN _sk_store_8888_sse41
FUNCTION(_sk_store_8888_sse41)
_sk_store_8888_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 68,15,40,5,61,93,1,0 // movaps 0x15d3d(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 68,15,40,5,251,93,1,0 // movaps 0x15dfb(%rip),%xmm8 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 102,69,15,91,201 // cvtps2dq %xmm9,%xmm9
@@ -31165,50 +31151,50 @@ _sk_store_8888_sse41:
.byte 102,65,15,114,240,24 // pslld $0x18,%xmm8
.byte 102,69,15,235,193 // por %xmm9,%xmm8
.byte 102,69,15,235,194 // por %xmm10,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,10 // jne 16713 <_sk_store_8888_sse41+0x7f>
- .byte 243,69,15,127,4,129 // movdqu %xmm8,(%r9,%rax,4)
- .byte 72,173 // lods %ds:(%rsi),%rax
- .byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,29 // je 1673d <_sk_store_8888_sse41+0xa9>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,15 // je 16735 <_sk_store_8888_sse41+0xa1>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,227 // jne 1670f <_sk_store_8888_sse41+0x7b>
- .byte 102,69,15,58,22,68,129,8,2 // pextrd $0x2,%xmm8,0x8(%r9,%rax,4)
- .byte 102,69,15,214,4,129 // movq %xmm8,(%r9,%rax,4)
- .byte 235,210 // jmp 1670f <_sk_store_8888_sse41+0x7b>
- .byte 102,69,15,126,4,129 // movd %xmm8,(%r9,%rax,4)
- .byte 235,202 // jmp 1670f <_sk_store_8888_sse41+0x7b>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 16685 <_sk_store_8888_sse41+0x7f>
+ .byte 243,69,15,127,4,128 // movdqu %xmm8,(%r8,%rax,4)
+ .byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,29 // je 166af <_sk_store_8888_sse41+0xa9>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,15 // je 166a7 <_sk_store_8888_sse41+0xa1>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,227 // jne 16681 <_sk_store_8888_sse41+0x7b>
+ .byte 102,69,15,58,22,68,128,8,2 // pextrd $0x2,%xmm8,0x8(%r8,%rax,4)
+ .byte 102,69,15,214,4,128 // movq %xmm8,(%r8,%rax,4)
+ .byte 235,210 // jmp 16681 <_sk_store_8888_sse41+0x7b>
+ .byte 102,69,15,126,4,128 // movd %xmm8,(%r8,%rax,4)
+ .byte 235,202 // jmp 16681 <_sk_store_8888_sse41+0x7b>
HIDDEN _sk_load_bgra_sse41
.globl _sk_load_bgra_sse41
FUNCTION(_sk_load_bgra_sse41)
_sk_load_bgra_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 117,89 // jne 167ba <_sk_load_bgra_sse41+0x75>
- .byte 243,65,15,111,28,129 // movdqu (%r9,%rax,4),%xmm3
- .byte 102,15,111,5,81,92,1,0 // movdqa 0x15c51(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,89 // jne 1672c <_sk_load_bgra_sse41+0x75>
+ .byte 243,65,15,111,28,128 // movdqu (%r8,%rax,4),%xmm3
+ .byte 102,15,111,5,15,93,1,0 // movdqa 0x15d0f(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,15,219,195 // pand %xmm3,%xmm0
.byte 15,91,208 // cvtdq2ps %xmm0,%xmm2
- .byte 68,15,40,5,146,93,1,0 // movaps 0x15d92(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,80,94,1,0 // movaps 0x15e50(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 102,15,111,195 // movdqa %xmm3,%xmm0
- .byte 102,15,56,0,5,65,92,1,0 // pshufb 0x15c41(%rip),%xmm0 # 2c3d0 <_sk_overlay_sse2_8bit+0xeeb>
+ .byte 102,15,56,0,5,255,92,1,0 // pshufb 0x15cff(%rip),%xmm0 # 2c400 <_sk_overlay_sse2_8bit+0xf63>
.byte 15,91,200 // cvtdq2ps %xmm0,%xmm1
.byte 65,15,89,200 // mulps %xmm8,%xmm1
.byte 102,15,111,195 // movdqa %xmm3,%xmm0
- .byte 102,15,56,0,5,61,92,1,0 // pshufb 0x15c3d(%rip),%xmm0 # 2c3e0 <_sk_overlay_sse2_8bit+0xefb>
+ .byte 102,15,56,0,5,251,92,1,0 // pshufb 0x15cfb(%rip),%xmm0 # 2c410 <_sk_overlay_sse2_8bit+0xf73>
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,114,211,24 // psrld $0x18,%xmm3
@@ -31216,48 +31202,48 @@ _sk_load_bgra_sse41:
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,45 // je 167f4 <_sk_load_bgra_sse41+0xaf>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,45 // je 16766 <_sk_load_bgra_sse41+0xaf>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,18 // je 167e3 <_sk_load_bgra_sse41+0x9e>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,144 // jne 16767 <_sk_load_bgra_sse41+0x22>
- .byte 102,65,15,110,68,129,8 // movd 0x8(%r9,%rax,4),%xmm0
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,18 // je 16755 <_sk_load_bgra_sse41+0x9e>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,144 // jne 166d9 <_sk_load_bgra_sse41+0x22>
+ .byte 102,65,15,110,68,128,8 // movd 0x8(%r8,%rax,4),%xmm0
.byte 102,15,112,216,69 // pshufd $0x45,%xmm0,%xmm3
- .byte 243,65,15,126,4,129 // movq (%r9,%rax,4),%xmm0
+ .byte 243,65,15,126,4,128 // movq (%r8,%rax,4),%xmm0
.byte 102,15,58,14,216,15 // pblendw $0xf,%xmm0,%xmm3
- .byte 233,115,255,255,255 // jmpq 16767 <_sk_load_bgra_sse41+0x22>
- .byte 102,65,15,110,28,129 // movd (%r9,%rax,4),%xmm3
- .byte 233,104,255,255,255 // jmpq 16767 <_sk_load_bgra_sse41+0x22>
+ .byte 233,115,255,255,255 // jmpq 166d9 <_sk_load_bgra_sse41+0x22>
+ .byte 102,65,15,110,28,128 // movd (%r8,%rax,4),%xmm3
+ .byte 233,104,255,255,255 // jmpq 166d9 <_sk_load_bgra_sse41+0x22>
HIDDEN _sk_load_bgra_dst_sse41
.globl _sk_load_bgra_dst_sse41
FUNCTION(_sk_load_bgra_dst_sse41)
_sk_load_bgra_dst_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 117,89 // jne 16874 <_sk_load_bgra_dst_sse41+0x75>
- .byte 243,65,15,111,60,129 // movdqu (%r9,%rax,4),%xmm7
- .byte 102,15,111,37,151,91,1,0 // movdqa 0x15b97(%rip),%xmm4 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,89 // jne 167e6 <_sk_load_bgra_dst_sse41+0x75>
+ .byte 243,65,15,111,60,128 // movdqu (%r8,%rax,4),%xmm7
+ .byte 102,15,111,37,85,92,1,0 // movdqa 0x15c55(%rip),%xmm4 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,15,219,231 // pand %xmm7,%xmm4
.byte 15,91,244 // cvtdq2ps %xmm4,%xmm6
- .byte 68,15,40,5,216,92,1,0 // movaps 0x15cd8(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,150,93,1,0 // movaps 0x15d96(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,240 // mulps %xmm8,%xmm6
.byte 102,15,111,231 // movdqa %xmm7,%xmm4
- .byte 102,15,56,0,37,135,91,1,0 // pshufb 0x15b87(%rip),%xmm4 # 2c3d0 <_sk_overlay_sse2_8bit+0xeeb>
+ .byte 102,15,56,0,37,69,92,1,0 // pshufb 0x15c45(%rip),%xmm4 # 2c400 <_sk_overlay_sse2_8bit+0xf63>
.byte 15,91,236 // cvtdq2ps %xmm4,%xmm5
.byte 65,15,89,232 // mulps %xmm8,%xmm5
.byte 102,15,111,231 // movdqa %xmm7,%xmm4
- .byte 102,15,56,0,37,131,91,1,0 // pshufb 0x15b83(%rip),%xmm4 # 2c3e0 <_sk_overlay_sse2_8bit+0xefb>
+ .byte 102,15,56,0,37,65,92,1,0 // pshufb 0x15c41(%rip),%xmm4 # 2c410 <_sk_overlay_sse2_8bit+0xf73>
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
.byte 65,15,89,224 // mulps %xmm8,%xmm4
.byte 102,15,114,215,24 // psrld $0x18,%xmm7
@@ -31265,30 +31251,29 @@ _sk_load_bgra_dst_sse41:
.byte 65,15,89,248 // mulps %xmm8,%xmm7
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,45 // je 168ae <_sk_load_bgra_dst_sse41+0xaf>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,45 // je 16820 <_sk_load_bgra_dst_sse41+0xaf>
.byte 102,15,239,255 // pxor %xmm7,%xmm7
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,18 // je 1689d <_sk_load_bgra_dst_sse41+0x9e>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,144 // jne 16821 <_sk_load_bgra_dst_sse41+0x22>
- .byte 102,65,15,110,100,129,8 // movd 0x8(%r9,%rax,4),%xmm4
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,18 // je 1680f <_sk_load_bgra_dst_sse41+0x9e>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,144 // jne 16793 <_sk_load_bgra_dst_sse41+0x22>
+ .byte 102,65,15,110,100,128,8 // movd 0x8(%r8,%rax,4),%xmm4
.byte 102,15,112,252,69 // pshufd $0x45,%xmm4,%xmm7
- .byte 243,65,15,126,36,129 // movq (%r9,%rax,4),%xmm4
+ .byte 243,65,15,126,36,128 // movq (%r8,%rax,4),%xmm4
.byte 102,15,58,14,252,15 // pblendw $0xf,%xmm4,%xmm7
- .byte 233,115,255,255,255 // jmpq 16821 <_sk_load_bgra_dst_sse41+0x22>
- .byte 102,65,15,110,60,129 // movd (%r9,%rax,4),%xmm7
- .byte 233,104,255,255,255 // jmpq 16821 <_sk_load_bgra_dst_sse41+0x22>
+ .byte 233,115,255,255,255 // jmpq 16793 <_sk_load_bgra_dst_sse41+0x22>
+ .byte 102,65,15,110,60,128 // movd (%r8,%rax,4),%xmm7
+ .byte 233,104,255,255,255 // jmpq 16793 <_sk_load_bgra_dst_sse41+0x22>
HIDDEN _sk_gather_bgra_sse41
.globl _sk_gather_bgra_sse41
FUNCTION(_sk_gather_bgra_sse41)
_sk_gather_bgra_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -31296,33 +31281,32 @@ _sk_gather_bgra_sse41:
.byte 243,15,91,192 // cvttps2dq %xmm0,%xmm0
.byte 102,15,254,194 // paddd %xmm2,%xmm0
.byte 102,72,15,126,192 // movq %xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,58,22,195,1 // pextrq $0x1,%xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,67,15,110,28,145 // movd (%r9,%r10,4),%xmm3
- .byte 102,65,15,58,34,28,129,1 // pinsrd $0x1,(%r9,%rax,4),%xmm3
- .byte 102,65,15,58,34,28,153,2 // pinsrd $0x2,(%r9,%rbx,4),%xmm3
- .byte 102,67,15,58,34,28,153,3 // pinsrd $0x3,(%r9,%r11,4),%xmm3
- .byte 102,15,111,5,166,90,1,0 // movdqa 0x15aa6(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,73,15,58,22,194,1 // pextrq $0x1,%xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,110,28,136 // movd (%r8,%r9,4),%xmm3
+ .byte 102,65,15,58,34,28,128,1 // pinsrd $0x1,(%r8,%rax,4),%xmm3
+ .byte 102,67,15,58,34,28,152,2 // pinsrd $0x2,(%r8,%r11,4),%xmm3
+ .byte 102,67,15,58,34,28,144,3 // pinsrd $0x3,(%r8,%r10,4),%xmm3
+ .byte 102,15,111,5,101,91,1,0 // movdqa 0x15b65(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,15,219,195 // pand %xmm3,%xmm0
.byte 15,91,208 // cvtdq2ps %xmm0,%xmm2
- .byte 68,15,40,5,231,91,1,0 // movaps 0x15be7(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,166,92,1,0 // movaps 0x15ca6(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 102,15,111,195 // movdqa %xmm3,%xmm0
- .byte 102,15,56,0,5,150,90,1,0 // pshufb 0x15a96(%rip),%xmm0 # 2c3d0 <_sk_overlay_sse2_8bit+0xeeb>
+ .byte 102,15,56,0,5,85,91,1,0 // pshufb 0x15b55(%rip),%xmm0 # 2c400 <_sk_overlay_sse2_8bit+0xf63>
.byte 15,91,200 // cvtdq2ps %xmm0,%xmm1
.byte 65,15,89,200 // mulps %xmm8,%xmm1
.byte 102,15,111,195 // movdqa %xmm3,%xmm0
- .byte 102,15,56,0,5,146,90,1,0 // pshufb 0x15a92(%rip),%xmm0 # 2c3e0 <_sk_overlay_sse2_8bit+0xefb>
+ .byte 102,15,56,0,5,81,91,1,0 // pshufb 0x15b51(%rip),%xmm0 # 2c410 <_sk_overlay_sse2_8bit+0xf73>
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,114,211,24 // psrld $0x18,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_bgra_sse41
@@ -31330,13 +31314,13 @@ HIDDEN _sk_store_bgra_sse41
FUNCTION(_sk_store_bgra_sse41)
_sk_store_bgra_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 68,15,40,5,107,90,1,0 // movaps 0x15a6b(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 68,15,40,5,43,91,1,0 // movaps 0x15b2b(%rip),%xmm8 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 68,15,40,202 // movaps %xmm2,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 102,69,15,91,201 // cvtps2dq %xmm9,%xmm9
@@ -31354,40 +31338,40 @@ _sk_store_bgra_sse41:
.byte 102,65,15,114,240,24 // pslld $0x18,%xmm8
.byte 102,69,15,235,193 // por %xmm9,%xmm8
.byte 102,69,15,235,194 // por %xmm10,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,10 // jne 169e5 <_sk_store_bgra_sse41+0x7f>
- .byte 243,69,15,127,4,129 // movdqu %xmm8,(%r9,%rax,4)
- .byte 72,173 // lods %ds:(%rsi),%rax
- .byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,29 // je 16a0f <_sk_store_bgra_sse41+0xa9>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,15 // je 16a07 <_sk_store_bgra_sse41+0xa1>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,227 // jne 169e1 <_sk_store_bgra_sse41+0x7b>
- .byte 102,69,15,58,22,68,129,8,2 // pextrd $0x2,%xmm8,0x8(%r9,%rax,4)
- .byte 102,69,15,214,4,129 // movq %xmm8,(%r9,%rax,4)
- .byte 235,210 // jmp 169e1 <_sk_store_bgra_sse41+0x7b>
- .byte 102,69,15,126,4,129 // movd %xmm8,(%r9,%rax,4)
- .byte 235,202 // jmp 169e1 <_sk_store_bgra_sse41+0x7b>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 16955 <_sk_store_bgra_sse41+0x7f>
+ .byte 243,69,15,127,4,128 // movdqu %xmm8,(%r8,%rax,4)
+ .byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,29 // je 1697f <_sk_store_bgra_sse41+0xa9>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,15 // je 16977 <_sk_store_bgra_sse41+0xa1>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,227 // jne 16951 <_sk_store_bgra_sse41+0x7b>
+ .byte 102,69,15,58,22,68,128,8,2 // pextrd $0x2,%xmm8,0x8(%r8,%rax,4)
+ .byte 102,69,15,214,4,128 // movq %xmm8,(%r8,%rax,4)
+ .byte 235,210 // jmp 16951 <_sk_store_bgra_sse41+0x7b>
+ .byte 102,69,15,126,4,128 // movd %xmm8,(%r8,%rax,4)
+ .byte 235,202 // jmp 16951 <_sk_store_bgra_sse41+0x7b>
HIDDEN _sk_load_f16_sse41
.globl _sk_load_f16_sse41
FUNCTION(_sk_load_f16_sse41)
_sk_load_f16_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,62,1,0,0 // jne 16b75 <_sk_load_f16_sse41+0x15e>
- .byte 102,65,15,16,4,193 // movupd (%r9,%rax,8),%xmm0
- .byte 243,65,15,111,76,193,16 // movdqu 0x10(%r9,%rax,8),%xmm1
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,62,1,0,0 // jne 16ae5 <_sk_load_f16_sse41+0x15e>
+ .byte 102,65,15,16,4,192 // movupd (%r8,%rax,8),%xmm0
+ .byte 243,65,15,111,76,192,16 // movdqu 0x10(%r8,%rax,8),%xmm1
.byte 102,68,15,40,200 // movapd %xmm0,%xmm9
.byte 102,68,15,97,201 // punpcklwd %xmm1,%xmm9
.byte 102,15,105,193 // punpckhwd %xmm1,%xmm0
@@ -31395,18 +31379,18 @@ _sk_load_f16_sse41:
.byte 102,68,15,97,216 // punpcklwd %xmm0,%xmm11
.byte 102,68,15,105,200 // punpckhwd %xmm0,%xmm9
.byte 102,65,15,56,51,203 // pmovzxwd %xmm11,%xmm1
- .byte 102,68,15,111,5,112,93,1,0 // movdqa 0x15d70(%rip),%xmm8 # 2c7e0 <_sk_overlay_sse2_8bit+0x12fb>
+ .byte 102,68,15,111,5,48,94,1,0 // movdqa 0x15e30(%rip),%xmm8 # 2c810 <_sk_overlay_sse2_8bit+0x1373>
.byte 102,15,111,209 // movdqa %xmm1,%xmm2
.byte 102,65,15,219,208 // pand %xmm8,%xmm2
.byte 102,15,239,202 // pxor %xmm2,%xmm1
- .byte 102,15,111,29,107,93,1,0 // movdqa 0x15d6b(%rip),%xmm3 # 2c7f0 <_sk_overlay_sse2_8bit+0x130b>
+ .byte 102,15,111,29,43,94,1,0 // movdqa 0x15e2b(%rip),%xmm3 # 2c820 <_sk_overlay_sse2_8bit+0x1383>
.byte 102,15,114,242,16 // pslld $0x10,%xmm2
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
.byte 102,15,56,63,195 // pmaxud %xmm3,%xmm0
.byte 102,15,118,193 // pcmpeqd %xmm1,%xmm0
.byte 102,15,114,241,13 // pslld $0xd,%xmm1
.byte 102,15,235,202 // por %xmm2,%xmm1
- .byte 102,68,15,111,21,87,93,1,0 // movdqa 0x15d57(%rip),%xmm10 # 2c800 <_sk_overlay_sse2_8bit+0x131b>
+ .byte 102,68,15,111,21,23,94,1,0 // movdqa 0x15e17(%rip),%xmm10 # 2c830 <_sk_overlay_sse2_8bit+0x1393>
.byte 102,65,15,254,202 // paddd %xmm10,%xmm1
.byte 102,15,219,193 // pand %xmm1,%xmm0
.byte 102,65,15,115,219,8 // psrldq $0x8,%xmm11
@@ -31447,34 +31431,34 @@ _sk_load_f16_sse41:
.byte 102,65,15,219,217 // pand %xmm9,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 242,65,15,16,4,193 // movsd (%r9,%rax,8),%xmm0
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,13 // jne 16b8e <_sk_load_f16_sse41+0x177>
+ .byte 242,65,15,16,4,192 // movsd (%r8,%rax,8),%xmm0
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,13 // jne 16afe <_sk_load_f16_sse41+0x177>
.byte 243,15,126,192 // movq %xmm0,%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 233,182,254,255,255 // jmpq 16a44 <_sk_load_f16_sse41+0x2d>
- .byte 102,65,15,22,68,193,8 // movhpd 0x8(%r9,%rax,8),%xmm0
+ .byte 233,182,254,255,255 // jmpq 169b4 <_sk_load_f16_sse41+0x2d>
+ .byte 102,65,15,22,68,192,8 // movhpd 0x8(%r8,%rax,8),%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 15,130,161,254,255,255 // jb 16a44 <_sk_load_f16_sse41+0x2d>
- .byte 243,65,15,126,76,193,16 // movq 0x10(%r9,%rax,8),%xmm1
- .byte 233,149,254,255,255 // jmpq 16a44 <_sk_load_f16_sse41+0x2d>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 15,130,161,254,255,255 // jb 169b4 <_sk_load_f16_sse41+0x2d>
+ .byte 243,65,15,126,76,192,16 // movq 0x10(%r8,%rax,8),%xmm1
+ .byte 233,149,254,255,255 // jmpq 169b4 <_sk_load_f16_sse41+0x2d>
HIDDEN _sk_load_f16_dst_sse41
.globl _sk_load_f16_dst_sse41
FUNCTION(_sk_load_f16_dst_sse41)
_sk_load_f16_dst_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,62,1,0,0 // jne 16d0d <_sk_load_f16_dst_sse41+0x15e>
- .byte 102,65,15,16,36,193 // movupd (%r9,%rax,8),%xmm4
- .byte 243,65,15,111,108,193,16 // movdqu 0x10(%r9,%rax,8),%xmm5
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,62,1,0,0 // jne 16c7d <_sk_load_f16_dst_sse41+0x15e>
+ .byte 102,65,15,16,36,192 // movupd (%r8,%rax,8),%xmm4
+ .byte 243,65,15,111,108,192,16 // movdqu 0x10(%r8,%rax,8),%xmm5
.byte 102,68,15,40,204 // movapd %xmm4,%xmm9
.byte 102,68,15,97,205 // punpcklwd %xmm5,%xmm9
.byte 102,15,105,229 // punpckhwd %xmm5,%xmm4
@@ -31482,18 +31466,18 @@ _sk_load_f16_dst_sse41:
.byte 102,68,15,97,220 // punpcklwd %xmm4,%xmm11
.byte 102,68,15,105,204 // punpckhwd %xmm4,%xmm9
.byte 102,65,15,56,51,235 // pmovzxwd %xmm11,%xmm5
- .byte 102,68,15,111,5,216,91,1,0 // movdqa 0x15bd8(%rip),%xmm8 # 2c7e0 <_sk_overlay_sse2_8bit+0x12fb>
+ .byte 102,68,15,111,5,152,92,1,0 // movdqa 0x15c98(%rip),%xmm8 # 2c810 <_sk_overlay_sse2_8bit+0x1373>
.byte 102,15,111,245 // movdqa %xmm5,%xmm6
.byte 102,65,15,219,240 // pand %xmm8,%xmm6
.byte 102,15,239,238 // pxor %xmm6,%xmm5
- .byte 102,15,111,61,211,91,1,0 // movdqa 0x15bd3(%rip),%xmm7 # 2c7f0 <_sk_overlay_sse2_8bit+0x130b>
+ .byte 102,15,111,61,147,92,1,0 // movdqa 0x15c93(%rip),%xmm7 # 2c820 <_sk_overlay_sse2_8bit+0x1383>
.byte 102,15,114,246,16 // pslld $0x10,%xmm6
.byte 102,15,111,229 // movdqa %xmm5,%xmm4
.byte 102,15,56,63,231 // pmaxud %xmm7,%xmm4
.byte 102,15,118,229 // pcmpeqd %xmm5,%xmm4
.byte 102,15,114,245,13 // pslld $0xd,%xmm5
.byte 102,15,235,238 // por %xmm6,%xmm5
- .byte 102,68,15,111,21,191,91,1,0 // movdqa 0x15bbf(%rip),%xmm10 # 2c800 <_sk_overlay_sse2_8bit+0x131b>
+ .byte 102,68,15,111,21,127,92,1,0 // movdqa 0x15c7f(%rip),%xmm10 # 2c830 <_sk_overlay_sse2_8bit+0x1393>
.byte 102,65,15,254,234 // paddd %xmm10,%xmm5
.byte 102,15,219,229 // pand %xmm5,%xmm4
.byte 102,65,15,115,219,8 // psrldq $0x8,%xmm11
@@ -31534,26 +31518,25 @@ _sk_load_f16_dst_sse41:
.byte 102,65,15,219,249 // pand %xmm9,%xmm7
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 242,65,15,16,36,193 // movsd (%r9,%rax,8),%xmm4
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,13 // jne 16d26 <_sk_load_f16_dst_sse41+0x177>
+ .byte 242,65,15,16,36,192 // movsd (%r8,%rax,8),%xmm4
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,13 // jne 16c96 <_sk_load_f16_dst_sse41+0x177>
.byte 243,15,126,228 // movq %xmm4,%xmm4
.byte 102,15,239,237 // pxor %xmm5,%xmm5
- .byte 233,182,254,255,255 // jmpq 16bdc <_sk_load_f16_dst_sse41+0x2d>
- .byte 102,65,15,22,100,193,8 // movhpd 0x8(%r9,%rax,8),%xmm4
+ .byte 233,182,254,255,255 // jmpq 16b4c <_sk_load_f16_dst_sse41+0x2d>
+ .byte 102,65,15,22,100,192,8 // movhpd 0x8(%r8,%rax,8),%xmm4
.byte 102,15,239,237 // pxor %xmm5,%xmm5
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 15,130,161,254,255,255 // jb 16bdc <_sk_load_f16_dst_sse41+0x2d>
- .byte 243,65,15,126,108,193,16 // movq 0x10(%r9,%rax,8),%xmm5
- .byte 233,149,254,255,255 // jmpq 16bdc <_sk_load_f16_dst_sse41+0x2d>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 15,130,161,254,255,255 // jb 16b4c <_sk_load_f16_dst_sse41+0x2d>
+ .byte 243,65,15,126,108,192,16 // movq 0x10(%r8,%rax,8),%xmm5
+ .byte 233,149,254,255,255 // jmpq 16b4c <_sk_load_f16_dst_sse41+0x2d>
HIDDEN _sk_gather_f16_sse41
.globl _sk_gather_f16_sse41
FUNCTION(_sk_gather_f16_sse41)
_sk_gather_f16_sse41:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -31561,16 +31544,16 @@ _sk_gather_f16_sse41:
.byte 243,15,91,192 // cvttps2dq %xmm0,%xmm0
.byte 102,15,254,194 // paddd %xmm2,%xmm0
.byte 102,72,15,126,192 // movq %xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,58,22,195,1 // pextrq $0x1,%xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,67,15,126,4,217 // movq (%r9,%r11,8),%xmm0
- .byte 243,65,15,126,12,217 // movq (%r9,%rbx,8),%xmm1
+ .byte 102,73,15,58,22,194,1 // pextrq $0x1,%xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,67,15,126,4,208 // movq (%r8,%r10,8),%xmm0
+ .byte 243,67,15,126,12,216 // movq (%r8,%r11,8),%xmm1
.byte 102,15,108,200 // punpcklqdq %xmm0,%xmm1
- .byte 243,65,15,126,4,193 // movq (%r9,%rax,8),%xmm0
- .byte 243,67,15,126,20,209 // movq (%r9,%r10,8),%xmm2
+ .byte 243,65,15,126,4,192 // movq (%r8,%rax,8),%xmm0
+ .byte 243,67,15,126,20,200 // movq (%r8,%r9,8),%xmm2
.byte 102,15,108,208 // punpcklqdq %xmm0,%xmm2
.byte 102,68,15,111,202 // movdqa %xmm2,%xmm9
.byte 102,68,15,97,201 // punpcklwd %xmm1,%xmm9
@@ -31579,18 +31562,18 @@ _sk_gather_f16_sse41:
.byte 102,68,15,97,218 // punpcklwd %xmm2,%xmm11
.byte 102,68,15,105,202 // punpckhwd %xmm2,%xmm9
.byte 102,65,15,56,51,203 // pmovzxwd %xmm11,%xmm1
- .byte 102,68,15,111,5,18,90,1,0 // movdqa 0x15a12(%rip),%xmm8 # 2c7e0 <_sk_overlay_sse2_8bit+0x12fb>
+ .byte 102,68,15,111,5,211,90,1,0 // movdqa 0x15ad3(%rip),%xmm8 # 2c810 <_sk_overlay_sse2_8bit+0x1373>
.byte 102,15,111,209 // movdqa %xmm1,%xmm2
.byte 102,65,15,219,208 // pand %xmm8,%xmm2
.byte 102,15,239,202 // pxor %xmm2,%xmm1
- .byte 102,15,111,29,13,90,1,0 // movdqa 0x15a0d(%rip),%xmm3 # 2c7f0 <_sk_overlay_sse2_8bit+0x130b>
+ .byte 102,15,111,29,206,90,1,0 // movdqa 0x15ace(%rip),%xmm3 # 2c820 <_sk_overlay_sse2_8bit+0x1383>
.byte 102,15,114,242,16 // pslld $0x10,%xmm2
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
.byte 102,15,56,63,195 // pmaxud %xmm3,%xmm0
.byte 102,15,118,193 // pcmpeqd %xmm1,%xmm0
.byte 102,15,114,241,13 // pslld $0xd,%xmm1
.byte 102,15,235,202 // por %xmm2,%xmm1
- .byte 102,68,15,111,21,249,89,1,0 // movdqa 0x159f9(%rip),%xmm10 # 2c800 <_sk_overlay_sse2_8bit+0x131b>
+ .byte 102,68,15,111,21,186,90,1,0 // movdqa 0x15aba(%rip),%xmm10 # 2c830 <_sk_overlay_sse2_8bit+0x1393>
.byte 102,65,15,254,202 // paddd %xmm10,%xmm1
.byte 102,15,219,193 // pand %xmm1,%xmm0
.byte 102,65,15,115,219,8 // psrldq $0x8,%xmm11
@@ -31630,7 +31613,6 @@ _sk_gather_f16_sse41:
.byte 102,69,15,254,202 // paddd %xmm10,%xmm9
.byte 102,65,15,219,217 // pand %xmm9,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_f16_sse41
@@ -31638,23 +31620,23 @@ HIDDEN _sk_store_f16_sse41
FUNCTION(_sk_store_f16_sse41)
_sk_store_f16_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 102,68,15,111,21,28,89,1,0 // movdqa 0x1591c(%rip),%xmm10 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
+ .byte 102,68,15,111,21,222,89,1,0 // movdqa 0x159de(%rip),%xmm10 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
.byte 102,68,15,111,216 // movdqa %xmm0,%xmm11
.byte 102,69,15,219,218 // pand %xmm10,%xmm11
.byte 102,68,15,111,232 // movdqa %xmm0,%xmm13
.byte 102,69,15,239,235 // pxor %xmm11,%xmm13
- .byte 102,68,15,111,13,15,89,1,0 // movdqa 0x1590f(%rip),%xmm9 # 2c820 <_sk_overlay_sse2_8bit+0x133b>
+ .byte 102,68,15,111,13,209,89,1,0 // movdqa 0x159d1(%rip),%xmm9 # 2c850 <_sk_overlay_sse2_8bit+0x13b3>
.byte 102,65,15,114,211,16 // psrld $0x10,%xmm11
.byte 102,69,15,111,193 // movdqa %xmm9,%xmm8
.byte 102,69,15,102,197 // pcmpgtd %xmm13,%xmm8
.byte 102,65,15,114,213,13 // psrld $0xd,%xmm13
- .byte 102,68,15,111,37,0,89,1,0 // movdqa 0x15900(%rip),%xmm12 # 2c830 <_sk_overlay_sse2_8bit+0x134b>
+ .byte 102,68,15,111,37,194,89,1,0 // movdqa 0x159c2(%rip),%xmm12 # 2c860 <_sk_overlay_sse2_8bit+0x13c3>
.byte 102,69,15,235,220 // por %xmm12,%xmm11
.byte 102,69,15,254,221 // paddd %xmm13,%xmm11
.byte 102,69,15,223,195 // pandn %xmm11,%xmm8
@@ -31697,39 +31679,39 @@ _sk_store_f16_sse41:
.byte 102,69,15,97,217 // punpcklwd %xmm9,%xmm11
.byte 102,69,15,111,200 // movdqa %xmm8,%xmm9
.byte 102,69,15,98,203 // punpckldq %xmm11,%xmm9
- .byte 77,133,192 // test %r8,%r8
- .byte 117,21 // jne 17026 <_sk_store_f16_sse41+0x152>
- .byte 69,15,17,12,193 // movups %xmm9,(%r9,%rax,8)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,21 // jne 16f94 <_sk_store_f16_sse41+0x152>
+ .byte 69,15,17,12,192 // movups %xmm9,(%r8,%rax,8)
.byte 102,69,15,106,195 // punpckhdq %xmm11,%xmm8
- .byte 243,69,15,127,68,193,16 // movdqu %xmm8,0x10(%r9,%rax,8)
+ .byte 243,69,15,127,68,192,16 // movdqu %xmm8,0x10(%r8,%rax,8)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 102,69,15,214,12,193 // movq %xmm9,(%r9,%rax,8)
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,240 // je 17022 <_sk_store_f16_sse41+0x14e>
- .byte 102,69,15,23,76,193,8 // movhpd %xmm9,0x8(%r9,%rax,8)
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,227 // jb 17022 <_sk_store_f16_sse41+0x14e>
+ .byte 102,69,15,214,12,192 // movq %xmm9,(%r8,%rax,8)
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,240 // je 16f90 <_sk_store_f16_sse41+0x14e>
+ .byte 102,69,15,23,76,192,8 // movhpd %xmm9,0x8(%r8,%rax,8)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,227 // jb 16f90 <_sk_store_f16_sse41+0x14e>
.byte 102,69,15,106,195 // punpckhdq %xmm11,%xmm8
- .byte 102,69,15,214,68,193,16 // movq %xmm8,0x10(%r9,%rax,8)
- .byte 235,213 // jmp 17022 <_sk_store_f16_sse41+0x14e>
+ .byte 102,69,15,214,68,192,16 // movq %xmm8,0x10(%r8,%rax,8)
+ .byte 235,213 // jmp 16f90 <_sk_store_f16_sse41+0x14e>
HIDDEN _sk_load_u16_be_sse41
.globl _sk_load_u16_be_sse41
FUNCTION(_sk_load_u16_be_sse41)
_sk_load_u16_be_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,185,0,0,0 // jne 1712d <_sk_load_u16_be_sse41+0xe0>
- .byte 102,65,15,16,4,65 // movupd (%r9,%rax,2),%xmm0
- .byte 243,65,15,111,76,65,16 // movdqu 0x10(%r9,%rax,2),%xmm1
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,185,0,0,0 // jne 1709b <_sk_load_u16_be_sse41+0xe0>
+ .byte 102,65,15,16,4,64 // movupd (%r8,%rax,2),%xmm0
+ .byte 243,65,15,111,76,64,16 // movdqu 0x10(%r8,%rax,2),%xmm1
.byte 102,15,40,208 // movapd %xmm0,%xmm2
.byte 102,15,97,209 // punpcklwd %xmm1,%xmm2
.byte 102,15,105,193 // punpckhwd %xmm1,%xmm0
@@ -31743,7 +31725,7 @@ _sk_load_u16_be_sse41:
.byte 102,15,235,200 // por %xmm0,%xmm1
.byte 102,15,56,51,193 // pmovzxwd %xmm1,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 68,15,40,5,224,84,1,0 // movaps 0x154e0(%rip),%xmm8 # 2c5a0 <_sk_overlay_sse2_8bit+0x10bb>
+ .byte 68,15,40,5,162,85,1,0 // movaps 0x155a2(%rip),%xmm8 # 2c5d0 <_sk_overlay_sse2_8bit+0x1133>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,15,113,241,8 // psllw $0x8,%xmm1
@@ -31769,37 +31751,37 @@ _sk_load_u16_be_sse41:
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 242,65,15,16,4,65 // movsd (%r9,%rax,2),%xmm0
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,13 // jne 17146 <_sk_load_u16_be_sse41+0xf9>
+ .byte 242,65,15,16,4,64 // movsd (%r8,%rax,2),%xmm0
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,13 // jne 170b4 <_sk_load_u16_be_sse41+0xf9>
.byte 243,15,126,192 // movq %xmm0,%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 233,59,255,255,255 // jmpq 17081 <_sk_load_u16_be_sse41+0x34>
- .byte 102,65,15,22,68,65,8 // movhpd 0x8(%r9,%rax,2),%xmm0
+ .byte 233,59,255,255,255 // jmpq 16fef <_sk_load_u16_be_sse41+0x34>
+ .byte 102,65,15,22,68,64,8 // movhpd 0x8(%r8,%rax,2),%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 15,130,38,255,255,255 // jb 17081 <_sk_load_u16_be_sse41+0x34>
- .byte 243,65,15,126,76,65,16 // movq 0x10(%r9,%rax,2),%xmm1
- .byte 233,26,255,255,255 // jmpq 17081 <_sk_load_u16_be_sse41+0x34>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 15,130,38,255,255,255 // jb 16fef <_sk_load_u16_be_sse41+0x34>
+ .byte 243,65,15,126,76,64,16 // movq 0x10(%r8,%rax,2),%xmm1
+ .byte 233,26,255,255,255 // jmpq 16fef <_sk_load_u16_be_sse41+0x34>
HIDDEN _sk_load_rgb_u16_be_sse41
.globl _sk_load_rgb_u16_be_sse41
FUNCTION(_sk_load_rgb_u16_be_sse41)
_sk_load_rgb_u16_be_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,137,208 // mov %rdx,%rax
.byte 72,193,224,32 // shl $0x20,%rax
.byte 72,141,4,64 // lea (%rax,%rax,2),%rax
.byte 72,193,248,32 // sar $0x20,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,170,0,0,0 // jne 1723c <_sk_load_rgb_u16_be_sse41+0xd5>
- .byte 243,65,15,111,20,65 // movdqu (%r9,%rax,2),%xmm2
- .byte 243,65,15,111,92,65,8 // movdqu 0x8(%r9,%rax,2),%xmm3
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,170,0,0,0 // jne 171aa <_sk_load_rgb_u16_be_sse41+0xd5>
+ .byte 243,65,15,111,20,64 // movdqu (%r8,%rax,2),%xmm2
+ .byte 243,65,15,111,92,64,8 // movdqu 0x8(%r8,%rax,2),%xmm3
.byte 102,15,115,219,4 // psrldq $0x4,%xmm3
.byte 102,15,111,194 // movdqa %xmm2,%xmm0
.byte 102,15,115,216,6 // psrldq $0x6,%xmm0
@@ -31817,7 +31799,7 @@ _sk_load_rgb_u16_be_sse41:
.byte 102,15,235,200 // por %xmm0,%xmm1
.byte 102,15,56,51,193 // pmovzxwd %xmm1,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 68,15,40,5,175,83,1,0 // movaps 0x153af(%rip),%xmm8 # 2c5a0 <_sk_overlay_sse2_8bit+0x10bb>
+ .byte 68,15,40,5,113,84,1,0 // movaps 0x15471(%rip),%xmm8 # 2c5d0 <_sk_overlay_sse2_8bit+0x1133>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,15,113,241,8 // psllw $0x8,%xmm1
@@ -31834,41 +31816,41 @@ _sk_load_rgb_u16_be_sse41:
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,214,80,1,0 // movaps 0x150d6(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,152,81,1,0 // movaps 0x15198(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 255,224 // jmpq *%rax
- .byte 102,65,15,110,20,65 // movd (%r9,%rax,2),%xmm2
- .byte 102,65,15,196,84,65,4,2 // pinsrw $0x2,0x4(%r9,%rax,2),%xmm2
+ .byte 102,65,15,110,20,64 // movd (%r8,%rax,2),%xmm2
+ .byte 102,65,15,196,84,64,4,2 // pinsrw $0x2,0x4(%r8,%rax,2),%xmm2
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,13 // jne 17261 <_sk_load_rgb_u16_be_sse41+0xfa>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,13 // jne 171cf <_sk_load_rgb_u16_be_sse41+0xfa>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 233,85,255,255,255 // jmpq 171b6 <_sk_load_rgb_u16_be_sse41+0x4f>
- .byte 102,65,15,110,68,65,6 // movd 0x6(%r9,%rax,2),%xmm0
- .byte 102,65,15,196,68,65,10,2 // pinsrw $0x2,0xa(%r9,%rax,2),%xmm0
+ .byte 233,85,255,255,255 // jmpq 17124 <_sk_load_rgb_u16_be_sse41+0x4f>
+ .byte 102,65,15,110,68,64,6 // movd 0x6(%r8,%rax,2),%xmm0
+ .byte 102,65,15,196,68,64,10,2 // pinsrw $0x2,0xa(%r8,%rax,2),%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,24 // jb 17292 <_sk_load_rgb_u16_be_sse41+0x12b>
- .byte 102,65,15,110,92,65,12 // movd 0xc(%r9,%rax,2),%xmm3
- .byte 102,65,15,196,92,65,16,2 // pinsrw $0x2,0x10(%r9,%rax,2),%xmm3
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,24 // jb 17200 <_sk_load_rgb_u16_be_sse41+0x12b>
+ .byte 102,65,15,110,92,64,12 // movd 0xc(%r8,%rax,2),%xmm3
+ .byte 102,65,15,196,92,64,16,2 // pinsrw $0x2,0x10(%r8,%rax,2),%xmm3
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 233,36,255,255,255 // jmpq 171b6 <_sk_load_rgb_u16_be_sse41+0x4f>
+ .byte 233,36,255,255,255 // jmpq 17124 <_sk_load_rgb_u16_be_sse41+0x4f>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
- .byte 233,27,255,255,255 // jmpq 171b6 <_sk_load_rgb_u16_be_sse41+0x4f>
+ .byte 233,27,255,255,255 // jmpq 17124 <_sk_load_rgb_u16_be_sse41+0x4f>
HIDDEN _sk_store_u16_be_sse41
.globl _sk_store_u16_be_sse41
FUNCTION(_sk_store_u16_be_sse41)
_sk_store_u16_be_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 68,15,40,21,127,85,1,0 // movaps 0x1557f(%rip),%xmm10 # 2c840 <_sk_overlay_sse2_8bit+0x135b>
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 68,15,40,21,65,86,1,0 // movaps 0x15641(%rip),%xmm10 # 2c870 <_sk_overlay_sse2_8bit+0x13d3>
.byte 68,15,40,192 // movaps %xmm0,%xmm8
.byte 69,15,89,194 // mulps %xmm10,%xmm8
.byte 102,69,15,91,192 // cvtps2dq %xmm8,%xmm8
@@ -31904,41 +31886,41 @@ _sk_store_u16_be_sse41:
.byte 102,69,15,97,202 // punpcklwd %xmm10,%xmm9
.byte 102,69,15,111,208 // movdqa %xmm8,%xmm10
.byte 102,69,15,98,209 // punpckldq %xmm9,%xmm10
- .byte 77,133,192 // test %r8,%r8
- .byte 117,21 // jne 1738f <_sk_store_u16_be_sse41+0xf4>
- .byte 69,15,17,20,65 // movups %xmm10,(%r9,%rax,2)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,21 // jne 172fd <_sk_store_u16_be_sse41+0xf4>
+ .byte 69,15,17,20,64 // movups %xmm10,(%r8,%rax,2)
.byte 102,69,15,106,193 // punpckhdq %xmm9,%xmm8
- .byte 243,69,15,127,68,65,16 // movdqu %xmm8,0x10(%r9,%rax,2)
+ .byte 243,69,15,127,68,64,16 // movdqu %xmm8,0x10(%r8,%rax,2)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 102,69,15,214,20,65 // movq %xmm10,(%r9,%rax,2)
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,240 // je 1738b <_sk_store_u16_be_sse41+0xf0>
- .byte 102,69,15,23,84,65,8 // movhpd %xmm10,0x8(%r9,%rax,2)
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,227 // jb 1738b <_sk_store_u16_be_sse41+0xf0>
+ .byte 102,69,15,214,20,64 // movq %xmm10,(%r8,%rax,2)
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,240 // je 172f9 <_sk_store_u16_be_sse41+0xf0>
+ .byte 102,69,15,23,84,64,8 // movhpd %xmm10,0x8(%r8,%rax,2)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,227 // jb 172f9 <_sk_store_u16_be_sse41+0xf0>
.byte 102,69,15,106,193 // punpckhdq %xmm9,%xmm8
- .byte 102,69,15,214,68,65,16 // movq %xmm8,0x10(%r9,%rax,2)
- .byte 235,213 // jmp 1738b <_sk_store_u16_be_sse41+0xf0>
+ .byte 102,69,15,214,68,64,16 // movq %xmm8,0x10(%r8,%rax,2)
+ .byte 235,213 // jmp 172f9 <_sk_store_u16_be_sse41+0xf0>
HIDDEN _sk_load_f32_sse41
.globl _sk_load_f32_sse41
FUNCTION(_sk_load_f32_sse41)
_sk_load_f32_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 69,15,16,4,129 // movups (%r9,%rax,4),%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,66 // jne 17421 <_sk_load_f32_sse41+0x6b>
- .byte 65,15,16,68,129,16 // movups 0x10(%r9,%rax,4),%xmm0
- .byte 65,15,16,92,129,32 // movups 0x20(%r9,%rax,4),%xmm3
- .byte 69,15,16,76,129,48 // movups 0x30(%r9,%rax,4),%xmm9
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 69,15,16,4,128 // movups (%r8,%rax,4),%xmm8
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,66 // jne 1738f <_sk_load_f32_sse41+0x6b>
+ .byte 65,15,16,68,128,16 // movups 0x10(%r8,%rax,4),%xmm0
+ .byte 65,15,16,92,128,32 // movups 0x20(%r8,%rax,4),%xmm3
+ .byte 69,15,16,76,128,48 // movups 0x30(%r8,%rax,4),%xmm9
.byte 65,15,40,208 // movaps %xmm8,%xmm2
.byte 15,20,208 // unpcklps %xmm0,%xmm2
.byte 15,40,203 // movaps %xmm3,%xmm1
@@ -31954,37 +31936,37 @@ _sk_load_f32_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 69,15,87,201 // xorps %xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,8 // jne 17433 <_sk_load_f32_sse41+0x7d>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,8 // jne 173a1 <_sk_load_f32_sse41+0x7d>
.byte 15,87,219 // xorps %xmm3,%xmm3
.byte 15,87,192 // xorps %xmm0,%xmm0
- .byte 235,190 // jmp 173f1 <_sk_load_f32_sse41+0x3b>
- .byte 65,15,16,68,129,16 // movups 0x10(%r9,%rax,4),%xmm0
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,8 // jb 17447 <_sk_load_f32_sse41+0x91>
- .byte 65,15,16,92,129,32 // movups 0x20(%r9,%rax,4),%xmm3
- .byte 235,170 // jmp 173f1 <_sk_load_f32_sse41+0x3b>
+ .byte 235,190 // jmp 1735f <_sk_load_f32_sse41+0x3b>
+ .byte 65,15,16,68,128,16 // movups 0x10(%r8,%rax,4),%xmm0
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,8 // jb 173b5 <_sk_load_f32_sse41+0x91>
+ .byte 65,15,16,92,128,32 // movups 0x20(%r8,%rax,4),%xmm3
+ .byte 235,170 // jmp 1735f <_sk_load_f32_sse41+0x3b>
.byte 15,87,219 // xorps %xmm3,%xmm3
- .byte 235,165 // jmp 173f1 <_sk_load_f32_sse41+0x3b>
+ .byte 235,165 // jmp 1735f <_sk_load_f32_sse41+0x3b>
HIDDEN _sk_load_f32_dst_sse41
.globl _sk_load_f32_dst_sse41
FUNCTION(_sk_load_f32_dst_sse41)
_sk_load_f32_dst_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 69,15,16,4,129 // movups (%r9,%rax,4),%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,66 // jne 174b7 <_sk_load_f32_dst_sse41+0x6b>
- .byte 65,15,16,100,129,16 // movups 0x10(%r9,%rax,4),%xmm4
- .byte 65,15,16,124,129,32 // movups 0x20(%r9,%rax,4),%xmm7
- .byte 69,15,16,76,129,48 // movups 0x30(%r9,%rax,4),%xmm9
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 69,15,16,4,128 // movups (%r8,%rax,4),%xmm8
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,66 // jne 17425 <_sk_load_f32_dst_sse41+0x6b>
+ .byte 65,15,16,100,128,16 // movups 0x10(%r8,%rax,4),%xmm4
+ .byte 65,15,16,124,128,32 // movups 0x20(%r8,%rax,4),%xmm7
+ .byte 69,15,16,76,128,48 // movups 0x30(%r8,%rax,4),%xmm9
.byte 65,15,40,240 // movaps %xmm8,%xmm6
.byte 15,20,244 // unpcklps %xmm4,%xmm6
.byte 15,40,239 // movaps %xmm7,%xmm5
@@ -32000,31 +31982,31 @@ _sk_load_f32_dst_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 69,15,87,201 // xorps %xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,8 // jne 174c9 <_sk_load_f32_dst_sse41+0x7d>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,8 // jne 17437 <_sk_load_f32_dst_sse41+0x7d>
.byte 15,87,255 // xorps %xmm7,%xmm7
.byte 15,87,228 // xorps %xmm4,%xmm4
- .byte 235,190 // jmp 17487 <_sk_load_f32_dst_sse41+0x3b>
- .byte 65,15,16,100,129,16 // movups 0x10(%r9,%rax,4),%xmm4
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,8 // jb 174dd <_sk_load_f32_dst_sse41+0x91>
- .byte 65,15,16,124,129,32 // movups 0x20(%r9,%rax,4),%xmm7
- .byte 235,170 // jmp 17487 <_sk_load_f32_dst_sse41+0x3b>
+ .byte 235,190 // jmp 173f5 <_sk_load_f32_dst_sse41+0x3b>
+ .byte 65,15,16,100,128,16 // movups 0x10(%r8,%rax,4),%xmm4
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,8 // jb 1744b <_sk_load_f32_dst_sse41+0x91>
+ .byte 65,15,16,124,128,32 // movups 0x20(%r8,%rax,4),%xmm7
+ .byte 235,170 // jmp 173f5 <_sk_load_f32_dst_sse41+0x3b>
.byte 15,87,255 // xorps %xmm7,%xmm7
- .byte 235,165 // jmp 17487 <_sk_load_f32_dst_sse41+0x3b>
+ .byte 235,165 // jmp 173f5 <_sk_load_f32_dst_sse41+0x3b>
HIDDEN _sk_store_f32_sse41
.globl _sk_store_f32_sse41
FUNCTION(_sk_store_f32_sse41)
_sk_store_f32_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 68,15,20,201 // unpcklps %xmm1,%xmm9
.byte 68,15,40,194 // movaps %xmm2,%xmm8
@@ -32038,22 +32020,22 @@ _sk_store_f32_sse41:
.byte 69,15,18,193 // movhlps %xmm9,%xmm8
.byte 69,15,40,202 // movaps %xmm10,%xmm9
.byte 102,69,15,20,203 // unpcklpd %xmm11,%xmm9
- .byte 102,69,15,17,36,129 // movupd %xmm12,(%r9,%rax,4)
- .byte 77,133,192 // test %r8,%r8
- .byte 117,29 // jne 1755f <_sk_store_f32_sse41+0x7d>
+ .byte 102,69,15,17,36,128 // movupd %xmm12,(%r8,%rax,4)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,29 // jne 174cd <_sk_store_f32_sse41+0x7d>
.byte 102,69,15,21,211 // unpckhpd %xmm11,%xmm10
- .byte 69,15,17,68,129,16 // movups %xmm8,0x10(%r9,%rax,4)
- .byte 102,69,15,17,76,129,32 // movupd %xmm9,0x20(%r9,%rax,4)
- .byte 102,69,15,17,84,129,48 // movupd %xmm10,0x30(%r9,%rax,4)
+ .byte 69,15,17,68,128,16 // movups %xmm8,0x10(%r8,%rax,4)
+ .byte 102,69,15,17,76,128,32 // movupd %xmm9,0x20(%r8,%rax,4)
+ .byte 102,69,15,17,84,128,48 // movupd %xmm10,0x30(%r8,%rax,4)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,246 // je 1755b <_sk_store_f32_sse41+0x79>
- .byte 69,15,17,68,129,16 // movups %xmm8,0x10(%r9,%rax,4)
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,234 // jb 1755b <_sk_store_f32_sse41+0x79>
- .byte 102,69,15,17,76,129,32 // movupd %xmm9,0x20(%r9,%rax,4)
- .byte 235,225 // jmp 1755b <_sk_store_f32_sse41+0x79>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,246 // je 174c9 <_sk_store_f32_sse41+0x79>
+ .byte 69,15,17,68,128,16 // movups %xmm8,0x10(%r8,%rax,4)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,234 // jb 174c9 <_sk_store_f32_sse41+0x79>
+ .byte 102,69,15,17,76,128,32 // movupd %xmm9,0x20(%r8,%rax,4)
+ .byte 235,225 // jmp 174c9 <_sk_store_f32_sse41+0x79>
HIDDEN _sk_clamp_x_sse41
.globl _sk_clamp_x_sse41
@@ -32143,7 +32125,7 @@ _sk_mirror_x_sse41:
.byte 65,15,92,194 // subps %xmm10,%xmm0
.byte 243,69,15,88,192 // addss %xmm8,%xmm8
.byte 69,15,198,192,0 // shufps $0x0,%xmm8,%xmm8
- .byte 243,68,15,89,13,157,66,1,0 // mulss 0x1429d(%rip),%xmm9 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 243,68,15,89,13,231,66,1,0 // mulss 0x142e7(%rip),%xmm9 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 69,15,198,201,0 // shufps $0x0,%xmm9,%xmm9
.byte 68,15,89,200 // mulps %xmm0,%xmm9
.byte 102,69,15,58,8,201,1 // roundps $0x1,%xmm9,%xmm9
@@ -32174,7 +32156,7 @@ _sk_mirror_y_sse41:
.byte 65,15,92,202 // subps %xmm10,%xmm1
.byte 243,69,15,88,192 // addss %xmm8,%xmm8
.byte 69,15,198,192,0 // shufps $0x0,%xmm8,%xmm8
- .byte 243,68,15,89,13,43,66,1,0 // mulss 0x1422b(%rip),%xmm9 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 243,68,15,89,13,117,66,1,0 // mulss 0x14275(%rip),%xmm9 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 69,15,198,201,0 // shufps $0x0,%xmm9,%xmm9
.byte 68,15,89,201 // mulps %xmm1,%xmm9
.byte 102,69,15,58,8,201,1 // roundps $0x1,%xmm9,%xmm9
@@ -32199,7 +32181,7 @@ FUNCTION(_sk_clamp_x_1_sse41)
_sk_clamp_x_1_sse41:
.byte 69,15,87,192 // xorps %xmm8,%xmm8
.byte 68,15,95,192 // maxps %xmm0,%xmm8
- .byte 68,15,93,5,194,75,1,0 // minps 0x14bc2(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,93,5,132,76,1,0 // minps 0x14c84(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 255,224 // jmpq *%rax
@@ -32217,9 +32199,9 @@ HIDDEN _sk_mirror_x_1_sse41
.globl _sk_mirror_x_1_sse41
FUNCTION(_sk_mirror_x_1_sse41)
_sk_mirror_x_1_sse41:
- .byte 68,15,40,5,3,76,1,0 // movaps 0x14c03(%rip),%xmm8 # 2c370 <_sk_overlay_sse2_8bit+0xe8b>
+ .byte 68,15,40,5,197,76,1,0 // movaps 0x14cc5(%rip),%xmm8 # 2c3a0 <_sk_overlay_sse2_8bit+0xf03>
.byte 65,15,88,192 // addps %xmm8,%xmm0
- .byte 68,15,40,13,135,75,1,0 // movaps 0x14b87(%rip),%xmm9 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,13,57,76,1,0 // movaps 0x14c39(%rip),%xmm9 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 68,15,89,200 // mulps %xmm0,%xmm9
.byte 102,69,15,58,8,201,1 // roundps $0x1,%xmm9,%xmm9
.byte 69,15,88,201 // addps %xmm9,%xmm9
@@ -32236,10 +32218,10 @@ HIDDEN _sk_luminance_to_alpha_sse41
FUNCTION(_sk_luminance_to_alpha_sse41)
_sk_luminance_to_alpha_sse41:
.byte 15,40,218 // movaps %xmm2,%xmm3
- .byte 15,89,5,166,80,1,0 // mulps 0x150a6(%rip),%xmm0 # 2c850 <_sk_overlay_sse2_8bit+0x136b>
- .byte 15,89,13,175,80,1,0 // mulps 0x150af(%rip),%xmm1 # 2c860 <_sk_overlay_sse2_8bit+0x137b>
+ .byte 15,89,5,104,81,1,0 // mulps 0x15168(%rip),%xmm0 # 2c880 <_sk_overlay_sse2_8bit+0x13e3>
+ .byte 15,89,13,113,81,1,0 // mulps 0x15171(%rip),%xmm1 # 2c890 <_sk_overlay_sse2_8bit+0x13f3>
.byte 15,88,200 // addps %xmm0,%xmm1
- .byte 15,89,29,181,80,1,0 // mulps 0x150b5(%rip),%xmm3 # 2c870 <_sk_overlay_sse2_8bit+0x138b>
+ .byte 15,89,29,119,81,1,0 // mulps 0x15177(%rip),%xmm3 # 2c8a0 <_sk_overlay_sse2_8bit+0x1403>
.byte 15,88,217 // addps %xmm1,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,87,192 // xorps %xmm0,%xmm0
@@ -32545,85 +32527,84 @@ HIDDEN _sk_evenly_spaced_gradient_sse41
.globl _sk_evenly_spaced_gradient_sse41
FUNCTION(_sk_evenly_spaced_gradient_sse41)
_sk_evenly_spaced_gradient_sse41:
- .byte 65,87 // push %r15
.byte 65,86 // push %r14
.byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 72,139,24 // mov (%rax),%rbx
.byte 76,139,112,8 // mov 0x8(%rax),%r14
.byte 72,255,203 // dec %rbx
- .byte 120,7 // js 17c5d <_sk_evenly_spaced_gradient_sse41+0x1a>
+ .byte 120,7 // js 17bc9 <_sk_evenly_spaced_gradient_sse41+0x18>
.byte 243,72,15,42,203 // cvtsi2ss %rbx,%xmm1
- .byte 235,21 // jmp 17c72 <_sk_evenly_spaced_gradient_sse41+0x2f>
- .byte 73,137,217 // mov %rbx,%r9
- .byte 73,209,233 // shr %r9
+ .byte 235,21 // jmp 17bde <_sk_evenly_spaced_gradient_sse41+0x2d>
+ .byte 73,137,216 // mov %rbx,%r8
+ .byte 73,209,232 // shr %r8
.byte 131,227,1 // and $0x1,%ebx
- .byte 76,9,203 // or %r9,%rbx
+ .byte 76,9,195 // or %r8,%rbx
.byte 243,72,15,42,203 // cvtsi2ss %rbx,%xmm1
.byte 243,15,88,201 // addss %xmm1,%xmm1
.byte 15,198,201,0 // shufps $0x0,%xmm1,%xmm1
.byte 15,89,200 // mulps %xmm0,%xmm1
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
- .byte 102,73,15,58,22,201,1 // pextrq $0x1,%xmm1,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 102,73,15,126,203 // movq %xmm1,%r11
- .byte 69,137,223 // mov %r11d,%r15d
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,71,15,16,4,190 // movss (%r14,%r15,4),%xmm8
- .byte 102,71,15,58,33,4,158,16 // insertps $0x10,(%r14,%r11,4),%xmm8
- .byte 243,67,15,16,12,150 // movss (%r14,%r10,4),%xmm1
- .byte 102,68,15,58,33,193,32 // insertps $0x20,%xmm1,%xmm8
+ .byte 102,73,15,58,22,200,1 // pextrq $0x1,%xmm1,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 102,73,15,126,202 // movq %xmm1,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,71,15,16,4,158 // movss (%r14,%r11,4),%xmm8
+ .byte 102,71,15,58,33,4,150,16 // insertps $0x10,(%r14,%r10,4),%xmm8
.byte 243,67,15,16,12,142 // movss (%r14,%r9,4),%xmm1
+ .byte 102,68,15,58,33,193,32 // insertps $0x20,%xmm1,%xmm8
+ .byte 243,67,15,16,12,134 // movss (%r14,%r8,4),%xmm1
.byte 102,68,15,58,33,193,48 // insertps $0x30,%xmm1,%xmm8
.byte 72,139,88,40 // mov 0x28(%rax),%rbx
- .byte 243,70,15,16,12,187 // movss (%rbx,%r15,4),%xmm9
- .byte 102,70,15,58,33,12,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm9
- .byte 243,66,15,16,12,147 // movss (%rbx,%r10,4),%xmm1
- .byte 102,68,15,58,33,201,32 // insertps $0x20,%xmm1,%xmm9
+ .byte 243,70,15,16,12,155 // movss (%rbx,%r11,4),%xmm9
+ .byte 102,70,15,58,33,12,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm9
.byte 243,66,15,16,12,139 // movss (%rbx,%r9,4),%xmm1
+ .byte 102,68,15,58,33,201,32 // insertps $0x20,%xmm1,%xmm9
+ .byte 243,66,15,16,12,131 // movss (%rbx,%r8,4),%xmm1
.byte 102,68,15,58,33,201,48 // insertps $0x30,%xmm1,%xmm9
.byte 72,139,88,16 // mov 0x10(%rax),%rbx
- .byte 243,66,15,16,12,187 // movss (%rbx,%r15,4),%xmm1
- .byte 102,66,15,58,33,12,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm1
- .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
- .byte 102,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm1
+ .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 102,66,15,58,33,12,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm1
.byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
+ .byte 102,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm1
+ .byte 243,66,15,16,20,131 // movss (%rbx,%r8,4),%xmm2
.byte 102,15,58,33,202,48 // insertps $0x30,%xmm2,%xmm1
.byte 72,139,88,48 // mov 0x30(%rax),%rbx
- .byte 243,70,15,16,20,187 // movss (%rbx,%r15,4),%xmm10
- .byte 102,70,15,58,33,20,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm10
- .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
- .byte 102,68,15,58,33,210,32 // insertps $0x20,%xmm2,%xmm10
+ .byte 243,70,15,16,20,155 // movss (%rbx,%r11,4),%xmm10
+ .byte 102,70,15,58,33,20,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm10
.byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
+ .byte 102,68,15,58,33,210,32 // insertps $0x20,%xmm2,%xmm10
+ .byte 243,66,15,16,20,131 // movss (%rbx,%r8,4),%xmm2
.byte 102,68,15,58,33,210,48 // insertps $0x30,%xmm2,%xmm10
.byte 72,139,88,24 // mov 0x18(%rax),%rbx
- .byte 243,66,15,16,20,187 // movss (%rbx,%r15,4),%xmm2
- .byte 102,66,15,58,33,20,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm2
- .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
- .byte 102,15,58,33,211,32 // insertps $0x20,%xmm3,%xmm2
+ .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 102,66,15,58,33,20,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm2
.byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 102,15,58,33,211,32 // insertps $0x20,%xmm3,%xmm2
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 102,15,58,33,211,48 // insertps $0x30,%xmm3,%xmm2
.byte 72,139,88,56 // mov 0x38(%rax),%rbx
- .byte 243,70,15,16,28,187 // movss (%rbx,%r15,4),%xmm11
- .byte 102,70,15,58,33,28,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm11
- .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
- .byte 102,68,15,58,33,219,32 // insertps $0x20,%xmm3,%xmm11
+ .byte 243,70,15,16,28,155 // movss (%rbx,%r11,4),%xmm11
+ .byte 102,70,15,58,33,28,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm11
.byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 102,68,15,58,33,219,32 // insertps $0x20,%xmm3,%xmm11
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 102,68,15,58,33,219,48 // insertps $0x30,%xmm3,%xmm11
.byte 72,139,88,32 // mov 0x20(%rax),%rbx
- .byte 243,66,15,16,28,187 // movss (%rbx,%r15,4),%xmm3
- .byte 102,66,15,58,33,28,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm3
- .byte 243,70,15,16,36,147 // movss (%rbx,%r10,4),%xmm12
- .byte 102,65,15,58,33,220,32 // insertps $0x20,%xmm12,%xmm3
+ .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
+ .byte 102,66,15,58,33,28,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm3
.byte 243,70,15,16,36,139 // movss (%rbx,%r9,4),%xmm12
+ .byte 102,65,15,58,33,220,32 // insertps $0x20,%xmm12,%xmm3
+ .byte 243,70,15,16,36,131 // movss (%rbx,%r8,4),%xmm12
.byte 102,65,15,58,33,220,48 // insertps $0x30,%xmm12,%xmm3
.byte 72,139,64,64 // mov 0x40(%rax),%rax
- .byte 243,70,15,16,36,184 // movss (%rax,%r15,4),%xmm12
- .byte 102,70,15,58,33,36,152,16 // insertps $0x10,(%rax,%r11,4),%xmm12
- .byte 243,70,15,16,44,144 // movss (%rax,%r10,4),%xmm13
- .byte 102,69,15,58,33,229,32 // insertps $0x20,%xmm13,%xmm12
+ .byte 243,70,15,16,36,152 // movss (%rax,%r11,4),%xmm12
+ .byte 102,70,15,58,33,36,144,16 // insertps $0x10,(%rax,%r10,4),%xmm12
.byte 243,70,15,16,44,136 // movss (%rax,%r9,4),%xmm13
+ .byte 102,69,15,58,33,229,32 // insertps $0x20,%xmm13,%xmm12
+ .byte 243,70,15,16,44,128 // movss (%rax,%r8,4),%xmm13
.byte 102,69,15,58,33,229,48 // insertps $0x30,%xmm13,%xmm12
.byte 68,15,89,192 // mulps %xmm0,%xmm8
.byte 69,15,88,193 // addps %xmm9,%xmm8
@@ -32637,22 +32618,21 @@ _sk_evenly_spaced_gradient_sse41:
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_gauss_a_to_rgba_sse41
.globl _sk_gauss_a_to_rgba_sse41
FUNCTION(_sk_gauss_a_to_rgba_sse41)
_sk_gauss_a_to_rgba_sse41:
- .byte 15,40,5,96,74,1,0 // movaps 0x14a60(%rip),%xmm0 # 2c880 <_sk_overlay_sse2_8bit+0x139b>
+ .byte 15,40,5,38,75,1,0 // movaps 0x14b26(%rip),%xmm0 # 2c8b0 <_sk_overlay_sse2_8bit+0x1413>
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,5,102,74,1,0 // addps 0x14a66(%rip),%xmm0 # 2c890 <_sk_overlay_sse2_8bit+0x13ab>
+ .byte 15,88,5,44,75,1,0 // addps 0x14b2c(%rip),%xmm0 # 2c8c0 <_sk_overlay_sse2_8bit+0x1423>
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,5,108,74,1,0 // addps 0x14a6c(%rip),%xmm0 # 2c8a0 <_sk_overlay_sse2_8bit+0x13bb>
+ .byte 15,88,5,50,75,1,0 // addps 0x14b32(%rip),%xmm0 # 2c8d0 <_sk_overlay_sse2_8bit+0x1433>
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,5,114,74,1,0 // addps 0x14a72(%rip),%xmm0 # 2c8b0 <_sk_overlay_sse2_8bit+0x13cb>
+ .byte 15,88,5,56,75,1,0 // addps 0x14b38(%rip),%xmm0 # 2c8e0 <_sk_overlay_sse2_8bit+0x1443>
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,5,120,74,1,0 // addps 0x14a78(%rip),%xmm0 # 2c8c0 <_sk_overlay_sse2_8bit+0x13db>
+ .byte 15,88,5,62,75,1,0 // addps 0x14b3e(%rip),%xmm0 # 2c8f0 <_sk_overlay_sse2_8bit+0x1453>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
@@ -32663,88 +32643,87 @@ HIDDEN _sk_gradient_sse41
.globl _sk_gradient_sse41
FUNCTION(_sk_gradient_sse41)
_sk_gradient_sse41:
- .byte 65,87 // push %r15
- .byte 65,86 // push %r14
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 73,131,249,2 // cmp $0x2,%r9
- .byte 114,50 // jb 17e9b <_sk_gradient_sse41+0x46>
- .byte 72,139,88,72 // mov 0x48(%rax),%rbx
- .byte 73,255,201 // dec %r9
- .byte 72,131,195,4 // add $0x4,%rbx
+ .byte 73,131,248,2 // cmp $0x2,%r8
+ .byte 114,51 // jb 17e01 <_sk_gradient_sse41+0x42>
+ .byte 76,139,72,72 // mov 0x48(%rax),%r9
+ .byte 73,255,200 // dec %r8
+ .byte 73,131,193,4 // add $0x4,%r9
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 15,40,21,161,68,1,0 // movaps 0x144a1(%rip),%xmm2 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
- .byte 243,15,16,27 // movss (%rbx),%xmm3
+ .byte 15,40,21,108,69,1,0 // movaps 0x1456c(%rip),%xmm2 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
+ .byte 243,65,15,16,25 // movss (%r9),%xmm3
.byte 15,198,219,0 // shufps $0x0,%xmm3,%xmm3
.byte 15,194,216,2 // cmpleps %xmm0,%xmm3
.byte 15,84,218 // andps %xmm2,%xmm3
.byte 102,15,254,203 // paddd %xmm3,%xmm1
- .byte 72,131,195,4 // add $0x4,%rbx
- .byte 73,255,201 // dec %r9
- .byte 117,228 // jne 17e7f <_sk_gradient_sse41+0x2a>
- .byte 102,73,15,58,22,201,1 // pextrq $0x1,%xmm1,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 102,73,15,126,203 // movq %xmm1,%r11
- .byte 69,137,222 // mov %r11d,%r14d
- .byte 73,193,235,32 // shr $0x20,%r11
+ .byte 73,131,193,4 // add $0x4,%r9
+ .byte 73,255,200 // dec %r8
+ .byte 117,227 // jne 17de4 <_sk_gradient_sse41+0x25>
+ .byte 65,86 // push %r14
+ .byte 83 // push %rbx
+ .byte 102,73,15,58,22,200,1 // pextrq $0x1,%xmm1,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 102,73,15,126,202 // movq %xmm1,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
.byte 72,139,88,8 // mov 0x8(%rax),%rbx
- .byte 76,139,120,16 // mov 0x10(%rax),%r15
- .byte 243,70,15,16,4,179 // movss (%rbx,%r14,4),%xmm8
- .byte 102,70,15,58,33,4,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm8
- .byte 243,66,15,16,12,147 // movss (%rbx,%r10,4),%xmm1
- .byte 102,68,15,58,33,193,32 // insertps $0x20,%xmm1,%xmm8
+ .byte 76,139,112,16 // mov 0x10(%rax),%r14
+ .byte 243,70,15,16,4,155 // movss (%rbx,%r11,4),%xmm8
+ .byte 102,70,15,58,33,4,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm8
.byte 243,66,15,16,12,139 // movss (%rbx,%r9,4),%xmm1
+ .byte 102,68,15,58,33,193,32 // insertps $0x20,%xmm1,%xmm8
+ .byte 243,66,15,16,12,131 // movss (%rbx,%r8,4),%xmm1
.byte 102,68,15,58,33,193,48 // insertps $0x30,%xmm1,%xmm8
.byte 72,139,88,40 // mov 0x28(%rax),%rbx
- .byte 243,70,15,16,12,179 // movss (%rbx,%r14,4),%xmm9
- .byte 102,70,15,58,33,12,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm9
- .byte 243,66,15,16,12,147 // movss (%rbx,%r10,4),%xmm1
- .byte 102,68,15,58,33,201,32 // insertps $0x20,%xmm1,%xmm9
+ .byte 243,70,15,16,12,155 // movss (%rbx,%r11,4),%xmm9
+ .byte 102,70,15,58,33,12,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm9
.byte 243,66,15,16,12,139 // movss (%rbx,%r9,4),%xmm1
+ .byte 102,68,15,58,33,201,32 // insertps $0x20,%xmm1,%xmm9
+ .byte 243,66,15,16,12,131 // movss (%rbx,%r8,4),%xmm1
.byte 102,68,15,58,33,201,48 // insertps $0x30,%xmm1,%xmm9
- .byte 243,67,15,16,12,183 // movss (%r15,%r14,4),%xmm1
- .byte 102,67,15,58,33,12,159,16 // insertps $0x10,(%r15,%r11,4),%xmm1
- .byte 243,67,15,16,20,151 // movss (%r15,%r10,4),%xmm2
+ .byte 243,67,15,16,12,158 // movss (%r14,%r11,4),%xmm1
+ .byte 102,67,15,58,33,12,150,16 // insertps $0x10,(%r14,%r10,4),%xmm1
+ .byte 243,67,15,16,20,142 // movss (%r14,%r9,4),%xmm2
.byte 102,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm1
- .byte 243,67,15,16,20,143 // movss (%r15,%r9,4),%xmm2
+ .byte 243,67,15,16,20,134 // movss (%r14,%r8,4),%xmm2
.byte 102,15,58,33,202,48 // insertps $0x30,%xmm2,%xmm1
.byte 72,139,88,48 // mov 0x30(%rax),%rbx
- .byte 243,70,15,16,20,179 // movss (%rbx,%r14,4),%xmm10
- .byte 102,70,15,58,33,20,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm10
- .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
- .byte 102,68,15,58,33,210,32 // insertps $0x20,%xmm2,%xmm10
+ .byte 243,70,15,16,20,155 // movss (%rbx,%r11,4),%xmm10
+ .byte 102,70,15,58,33,20,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm10
.byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
+ .byte 102,68,15,58,33,210,32 // insertps $0x20,%xmm2,%xmm10
+ .byte 243,66,15,16,20,131 // movss (%rbx,%r8,4),%xmm2
.byte 102,68,15,58,33,210,48 // insertps $0x30,%xmm2,%xmm10
.byte 72,139,88,24 // mov 0x18(%rax),%rbx
- .byte 243,66,15,16,20,179 // movss (%rbx,%r14,4),%xmm2
- .byte 102,66,15,58,33,20,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm2
- .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
- .byte 102,15,58,33,211,32 // insertps $0x20,%xmm3,%xmm2
+ .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 102,66,15,58,33,20,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm2
.byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 102,15,58,33,211,32 // insertps $0x20,%xmm3,%xmm2
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 102,15,58,33,211,48 // insertps $0x30,%xmm3,%xmm2
.byte 72,139,88,56 // mov 0x38(%rax),%rbx
- .byte 243,70,15,16,28,179 // movss (%rbx,%r14,4),%xmm11
- .byte 102,70,15,58,33,28,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm11
- .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
- .byte 102,68,15,58,33,219,32 // insertps $0x20,%xmm3,%xmm11
+ .byte 243,70,15,16,28,155 // movss (%rbx,%r11,4),%xmm11
+ .byte 102,70,15,58,33,28,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm11
.byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 102,68,15,58,33,219,32 // insertps $0x20,%xmm3,%xmm11
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 102,68,15,58,33,219,48 // insertps $0x30,%xmm3,%xmm11
.byte 72,139,88,32 // mov 0x20(%rax),%rbx
- .byte 243,66,15,16,28,179 // movss (%rbx,%r14,4),%xmm3
- .byte 102,66,15,58,33,28,155,16 // insertps $0x10,(%rbx,%r11,4),%xmm3
- .byte 243,70,15,16,36,147 // movss (%rbx,%r10,4),%xmm12
- .byte 102,65,15,58,33,220,32 // insertps $0x20,%xmm12,%xmm3
+ .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
+ .byte 102,66,15,58,33,28,147,16 // insertps $0x10,(%rbx,%r10,4),%xmm3
.byte 243,70,15,16,36,139 // movss (%rbx,%r9,4),%xmm12
+ .byte 102,65,15,58,33,220,32 // insertps $0x20,%xmm12,%xmm3
+ .byte 243,70,15,16,36,131 // movss (%rbx,%r8,4),%xmm12
.byte 102,65,15,58,33,220,48 // insertps $0x30,%xmm12,%xmm3
.byte 72,139,64,64 // mov 0x40(%rax),%rax
- .byte 243,70,15,16,36,176 // movss (%rax,%r14,4),%xmm12
- .byte 102,70,15,58,33,36,152,16 // insertps $0x10,(%rax,%r11,4),%xmm12
- .byte 243,70,15,16,44,144 // movss (%rax,%r10,4),%xmm13
- .byte 102,69,15,58,33,229,32 // insertps $0x20,%xmm13,%xmm12
+ .byte 243,70,15,16,36,152 // movss (%rax,%r11,4),%xmm12
+ .byte 102,70,15,58,33,36,144,16 // insertps $0x10,(%rax,%r10,4),%xmm12
.byte 243,70,15,16,44,136 // movss (%rax,%r9,4),%xmm13
+ .byte 102,69,15,58,33,229,32 // insertps $0x20,%xmm13,%xmm12
+ .byte 243,70,15,16,44,128 // movss (%rax,%r8,4),%xmm13
.byte 102,69,15,58,33,229,48 // insertps $0x30,%xmm13,%xmm12
.byte 68,15,89,192 // mulps %xmm0,%xmm8
.byte 69,15,88,193 // addps %xmm9,%xmm8
@@ -32758,7 +32737,6 @@ _sk_gradient_sse41:
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_evenly_spaced_2_stop_gradient_sse41
@@ -32813,26 +32791,26 @@ _sk_xy_to_unit_angle_sse41:
.byte 69,15,94,226 // divps %xmm10,%xmm12
.byte 69,15,40,236 // movaps %xmm12,%xmm13
.byte 69,15,89,237 // mulps %xmm13,%xmm13
- .byte 68,15,40,21,226,71,1,0 // movaps 0x147e2(%rip),%xmm10 # 2c8d0 <_sk_overlay_sse2_8bit+0x13eb>
+ .byte 68,15,40,21,171,72,1,0 // movaps 0x148ab(%rip),%xmm10 # 2c900 <_sk_overlay_sse2_8bit+0x1463>
.byte 69,15,89,213 // mulps %xmm13,%xmm10
- .byte 68,15,88,21,230,71,1,0 // addps 0x147e6(%rip),%xmm10 # 2c8e0 <_sk_overlay_sse2_8bit+0x13fb>
+ .byte 68,15,88,21,175,72,1,0 // addps 0x148af(%rip),%xmm10 # 2c910 <_sk_overlay_sse2_8bit+0x1473>
.byte 69,15,89,213 // mulps %xmm13,%xmm10
- .byte 68,15,88,21,234,71,1,0 // addps 0x147ea(%rip),%xmm10 # 2c8f0 <_sk_overlay_sse2_8bit+0x140b>
+ .byte 68,15,88,21,179,72,1,0 // addps 0x148b3(%rip),%xmm10 # 2c920 <_sk_overlay_sse2_8bit+0x1483>
.byte 69,15,89,213 // mulps %xmm13,%xmm10
- .byte 68,15,88,21,238,71,1,0 // addps 0x147ee(%rip),%xmm10 # 2c900 <_sk_overlay_sse2_8bit+0x141b>
+ .byte 68,15,88,21,183,72,1,0 // addps 0x148b7(%rip),%xmm10 # 2c930 <_sk_overlay_sse2_8bit+0x1493>
.byte 69,15,89,212 // mulps %xmm12,%xmm10
.byte 65,15,194,195,1 // cmpltps %xmm11,%xmm0
- .byte 68,15,40,29,237,71,1,0 // movaps 0x147ed(%rip),%xmm11 # 2c910 <_sk_overlay_sse2_8bit+0x142b>
+ .byte 68,15,40,29,182,72,1,0 // movaps 0x148b6(%rip),%xmm11 # 2c940 <_sk_overlay_sse2_8bit+0x14a3>
.byte 69,15,92,218 // subps %xmm10,%xmm11
.byte 102,69,15,56,20,211 // blendvps %xmm0,%xmm11,%xmm10
.byte 69,15,194,200,1 // cmpltps %xmm8,%xmm9
- .byte 68,15,40,29,198,65,1,0 // movaps 0x141c6(%rip),%xmm11 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,29,127,66,1,0 // movaps 0x1427f(%rip),%xmm11 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 69,15,92,218 // subps %xmm10,%xmm11
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 102,69,15,56,20,211 // blendvps %xmm0,%xmm11,%xmm10
.byte 15,40,193 // movaps %xmm1,%xmm0
.byte 65,15,194,192,1 // cmpltps %xmm8,%xmm0
- .byte 68,15,40,13,184,65,1,0 // movaps 0x141b8(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,129,66,1,0 // movaps 0x14281(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,202 // subps %xmm10,%xmm9
.byte 102,69,15,56,20,209 // blendvps %xmm0,%xmm9,%xmm10
.byte 69,15,194,194,7 // cmpordps %xmm10,%xmm8
@@ -32866,7 +32844,7 @@ _sk_xy_to_2pt_conical_quadratic_max_sse41:
.byte 243,69,15,89,203 // mulss %xmm11,%xmm9
.byte 69,15,198,201,0 // shufps $0x0,%xmm9,%xmm9
.byte 68,15,88,200 // addps %xmm0,%xmm9
- .byte 68,15,89,13,97,71,1,0 // mulps 0x14761(%rip),%xmm9 # 2c920 <_sk_overlay_sse2_8bit+0x143b>
+ .byte 68,15,89,13,42,72,1,0 // mulps 0x1482a(%rip),%xmm9 # 2c950 <_sk_overlay_sse2_8bit+0x14b3>
.byte 15,89,192 // mulps %xmm0,%xmm0
.byte 68,15,40,225 // movaps %xmm1,%xmm12
.byte 69,15,89,228 // mulps %xmm12,%xmm12
@@ -32874,7 +32852,7 @@ _sk_xy_to_2pt_conical_quadratic_max_sse41:
.byte 243,69,15,89,219 // mulss %xmm11,%xmm11
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 69,15,92,227 // subps %xmm11,%xmm12
- .byte 68,15,89,21,76,71,1,0 // mulps 0x1474c(%rip),%xmm10 # 2c930 <_sk_overlay_sse2_8bit+0x144b>
+ .byte 68,15,89,21,21,72,1,0 // mulps 0x14815(%rip),%xmm10 # 2c960 <_sk_overlay_sse2_8bit+0x14c3>
.byte 69,15,89,212 // mulps %xmm12,%xmm10
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 15,89,192 // mulps %xmm0,%xmm0
@@ -32883,8 +32861,8 @@ _sk_xy_to_2pt_conical_quadratic_max_sse41:
.byte 69,15,198,192,0 // shufps $0x0,%xmm8,%xmm8
.byte 65,15,40,194 // movaps %xmm10,%xmm0
.byte 65,15,92,193 // subps %xmm9,%xmm0
- .byte 68,15,87,13,4,70,1,0 // xorps 0x14604(%rip),%xmm9 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
- .byte 68,15,89,5,236,64,1,0 // mulps 0x140ec(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,87,13,205,70,1,0 // xorps 0x146cd(%rip),%xmm9 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
+ .byte 68,15,89,5,165,65,1,0 // mulps 0x141a5(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 69,15,92,202 // subps %xmm10,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
@@ -32905,7 +32883,7 @@ _sk_xy_to_2pt_conical_quadratic_min_sse41:
.byte 243,69,15,89,203 // mulss %xmm11,%xmm9
.byte 69,15,198,201,0 // shufps $0x0,%xmm9,%xmm9
.byte 68,15,88,200 // addps %xmm0,%xmm9
- .byte 68,15,89,13,195,70,1,0 // mulps 0x146c3(%rip),%xmm9 # 2c920 <_sk_overlay_sse2_8bit+0x143b>
+ .byte 68,15,89,13,140,71,1,0 // mulps 0x1478c(%rip),%xmm9 # 2c950 <_sk_overlay_sse2_8bit+0x14b3>
.byte 15,89,192 // mulps %xmm0,%xmm0
.byte 68,15,40,225 // movaps %xmm1,%xmm12
.byte 69,15,89,228 // mulps %xmm12,%xmm12
@@ -32913,7 +32891,7 @@ _sk_xy_to_2pt_conical_quadratic_min_sse41:
.byte 243,69,15,89,219 // mulss %xmm11,%xmm11
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 69,15,92,227 // subps %xmm11,%xmm12
- .byte 68,15,89,21,174,70,1,0 // mulps 0x146ae(%rip),%xmm10 # 2c930 <_sk_overlay_sse2_8bit+0x144b>
+ .byte 68,15,89,21,119,71,1,0 // mulps 0x14777(%rip),%xmm10 # 2c960 <_sk_overlay_sse2_8bit+0x14c3>
.byte 69,15,89,212 // mulps %xmm12,%xmm10
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 15,89,192 // mulps %xmm0,%xmm0
@@ -32922,8 +32900,8 @@ _sk_xy_to_2pt_conical_quadratic_min_sse41:
.byte 69,15,198,192,0 // shufps $0x0,%xmm8,%xmm8
.byte 65,15,40,194 // movaps %xmm10,%xmm0
.byte 65,15,92,193 // subps %xmm9,%xmm0
- .byte 68,15,87,13,102,69,1,0 // xorps 0x14566(%rip),%xmm9 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
- .byte 68,15,89,5,78,64,1,0 // mulps 0x1404e(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,87,13,47,70,1,0 // xorps 0x1462f(%rip),%xmm9 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
+ .byte 68,15,89,5,7,65,1,0 // mulps 0x14107(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 69,15,92,202 // subps %xmm10,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
@@ -32941,7 +32919,7 @@ _sk_xy_to_2pt_conical_linear_sse41:
.byte 243,69,15,89,200 // mulss %xmm8,%xmm9
.byte 69,15,198,201,0 // shufps $0x0,%xmm9,%xmm9
.byte 68,15,88,200 // addps %xmm0,%xmm9
- .byte 68,15,89,13,54,70,1,0 // mulps 0x14636(%rip),%xmm9 # 2c920 <_sk_overlay_sse2_8bit+0x143b>
+ .byte 68,15,89,13,255,70,1,0 // mulps 0x146ff(%rip),%xmm9 # 2c950 <_sk_overlay_sse2_8bit+0x14b3>
.byte 15,89,192 // mulps %xmm0,%xmm0
.byte 68,15,40,209 // movaps %xmm1,%xmm10
.byte 69,15,89,210 // mulps %xmm10,%xmm10
@@ -32949,7 +32927,7 @@ _sk_xy_to_2pt_conical_linear_sse41:
.byte 243,69,15,89,192 // mulss %xmm8,%xmm8
.byte 69,15,198,192,0 // shufps $0x0,%xmm8,%xmm8
.byte 65,15,92,192 // subps %xmm8,%xmm0
- .byte 15,87,5,2,69,1,0 // xorps 0x14502(%rip),%xmm0 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
+ .byte 15,87,5,203,69,1,0 // xorps 0x145cb(%rip),%xmm0 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
.byte 65,15,94,193 // divps %xmm9,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -32992,7 +32970,7 @@ HIDDEN _sk_save_xy_sse41
FUNCTION(_sk_save_xy_sse41)
_sk_save_xy_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,15,40,5,136,63,1,0 // movaps 0x13f88(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,5,65,64,1,0 // movaps 0x14041(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 15,17,0 // movups %xmm0,(%rax)
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,88,200 // addps %xmm8,%xmm9
@@ -33036,8 +33014,8 @@ _sk_bilinear_nx_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,64,64 // movups 0x40(%rax),%xmm8
- .byte 15,88,5,58,69,1,0 // addps 0x1453a(%rip),%xmm0 # 2c940 <_sk_overlay_sse2_8bit+0x145b>
- .byte 68,15,40,13,2,63,1,0 // movaps 0x13f02(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,5,3,70,1,0 // addps 0x14603(%rip),%xmm0 # 2c970 <_sk_overlay_sse2_8bit+0x14d3>
+ .byte 68,15,40,13,203,63,1,0 // movaps 0x13fcb(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
.byte 68,15,17,136,128,0,0,0 // movups %xmm9,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -33050,7 +33028,7 @@ _sk_bilinear_px_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,64,64 // movups 0x40(%rax),%xmm8
- .byte 15,88,5,209,62,1,0 // addps 0x13ed1(%rip),%xmm0 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 15,88,5,138,63,1,0 // addps 0x13f8a(%rip),%xmm0 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 68,15,17,128,128,0,0,0 // movups %xmm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -33062,8 +33040,8 @@ _sk_bilinear_ny_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,64,96 // movups 0x60(%rax),%xmm8
- .byte 15,88,13,243,68,1,0 // addps 0x144f3(%rip),%xmm1 # 2c940 <_sk_overlay_sse2_8bit+0x145b>
- .byte 68,15,40,13,187,62,1,0 // movaps 0x13ebb(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,13,188,69,1,0 // addps 0x145bc(%rip),%xmm1 # 2c970 <_sk_overlay_sse2_8bit+0x14d3>
+ .byte 68,15,40,13,132,63,1,0 // movaps 0x13f84(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
.byte 68,15,17,136,160,0,0,0 // movups %xmm9,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -33076,7 +33054,7 @@ _sk_bilinear_py_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,64,96 // movups 0x60(%rax),%xmm8
- .byte 15,88,13,137,62,1,0 // addps 0x13e89(%rip),%xmm1 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 15,88,13,66,63,1,0 // addps 0x13f42(%rip),%xmm1 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 68,15,17,128,160,0,0,0 // movups %xmm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -33088,13 +33066,13 @@ _sk_bicubic_n3x_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,64,64 // movups 0x40(%rax),%xmm8
- .byte 15,88,5,188,68,1,0 // addps 0x144bc(%rip),%xmm0 # 2c950 <_sk_overlay_sse2_8bit+0x146b>
- .byte 68,15,40,13,116,62,1,0 // movaps 0x13e74(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,5,133,69,1,0 // addps 0x14585(%rip),%xmm0 # 2c980 <_sk_overlay_sse2_8bit+0x14e3>
+ .byte 68,15,40,13,61,63,1,0 // movaps 0x13f3d(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
.byte 69,15,40,193 // movaps %xmm9,%xmm8
.byte 69,15,89,192 // mulps %xmm8,%xmm8
- .byte 68,15,89,13,176,68,1,0 // mulps 0x144b0(%rip),%xmm9 # 2c960 <_sk_overlay_sse2_8bit+0x147b>
- .byte 68,15,88,13,72,64,1,0 // addps 0x14048(%rip),%xmm9 # 2c500 <_sk_overlay_sse2_8bit+0x101b>
+ .byte 68,15,89,13,121,69,1,0 // mulps 0x14579(%rip),%xmm9 # 2c990 <_sk_overlay_sse2_8bit+0x14f3>
+ .byte 68,15,88,13,17,65,1,0 // addps 0x14111(%rip),%xmm9 # 2c530 <_sk_overlay_sse2_8bit+0x1093>
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 68,15,17,136,128,0,0,0 // movups %xmm9,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -33107,16 +33085,16 @@ _sk_bicubic_n1x_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,64,64 // movups 0x40(%rax),%xmm8
- .byte 15,88,5,103,68,1,0 // addps 0x14467(%rip),%xmm0 # 2c940 <_sk_overlay_sse2_8bit+0x145b>
- .byte 68,15,40,13,47,62,1,0 // movaps 0x13e2f(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,5,48,69,1,0 // addps 0x14530(%rip),%xmm0 # 2c970 <_sk_overlay_sse2_8bit+0x14d3>
+ .byte 68,15,40,13,248,62,1,0 // movaps 0x13ef8(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
- .byte 68,15,40,5,131,68,1,0 // movaps 0x14483(%rip),%xmm8 # 2c970 <_sk_overlay_sse2_8bit+0x148b>
+ .byte 68,15,40,5,76,69,1,0 // movaps 0x1454c(%rip),%xmm8 # 2c9a0 <_sk_overlay_sse2_8bit+0x1503>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,135,68,1,0 // addps 0x14487(%rip),%xmm8 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 68,15,88,5,80,69,1,0 // addps 0x14550(%rip),%xmm8 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,251,61,1,0 // addps 0x13dfb(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,88,5,180,62,1,0 // addps 0x13eb4(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,127,68,1,0 // addps 0x1447f(%rip),%xmm8 # 2c990 <_sk_overlay_sse2_8bit+0x14ab>
+ .byte 68,15,88,5,72,69,1,0 // addps 0x14548(%rip),%xmm8 # 2c9c0 <_sk_overlay_sse2_8bit+0x1523>
.byte 68,15,17,128,128,0,0,0 // movups %xmm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -33126,17 +33104,17 @@ HIDDEN _sk_bicubic_p1x_sse41
FUNCTION(_sk_bicubic_p1x_sse41)
_sk_bicubic_p1x_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,15,40,5,217,61,1,0 // movaps 0x13dd9(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,5,146,62,1,0 // movaps 0x13e92(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,72,64 // movups 0x40(%rax),%xmm9
.byte 65,15,88,192 // addps %xmm8,%xmm0
- .byte 68,15,40,21,53,68,1,0 // movaps 0x14435(%rip),%xmm10 # 2c970 <_sk_overlay_sse2_8bit+0x148b>
+ .byte 68,15,40,21,254,68,1,0 // movaps 0x144fe(%rip),%xmm10 # 2c9a0 <_sk_overlay_sse2_8bit+0x1503>
.byte 69,15,89,209 // mulps %xmm9,%xmm10
- .byte 68,15,88,21,57,68,1,0 // addps 0x14439(%rip),%xmm10 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 68,15,88,21,2,69,1,0 // addps 0x14502(%rip),%xmm10 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,89,209 // mulps %xmm9,%xmm10
.byte 69,15,88,208 // addps %xmm8,%xmm10
.byte 69,15,89,209 // mulps %xmm9,%xmm10
- .byte 68,15,88,21,53,68,1,0 // addps 0x14435(%rip),%xmm10 # 2c990 <_sk_overlay_sse2_8bit+0x14ab>
+ .byte 68,15,88,21,254,68,1,0 // addps 0x144fe(%rip),%xmm10 # 2c9c0 <_sk_overlay_sse2_8bit+0x1523>
.byte 68,15,17,144,128,0,0,0 // movups %xmm10,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -33148,11 +33126,11 @@ _sk_bicubic_p3x_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,64,64 // movups 0x40(%rax),%xmm8
- .byte 15,88,5,8,68,1,0 // addps 0x14408(%rip),%xmm0 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 15,88,5,209,68,1,0 // addps 0x144d1(%rip),%xmm0 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 69,15,89,201 // mulps %xmm9,%xmm9
- .byte 68,15,89,5,216,67,1,0 // mulps 0x143d8(%rip),%xmm8 # 2c960 <_sk_overlay_sse2_8bit+0x147b>
- .byte 68,15,88,5,112,63,1,0 // addps 0x13f70(%rip),%xmm8 # 2c500 <_sk_overlay_sse2_8bit+0x101b>
+ .byte 68,15,89,5,161,68,1,0 // mulps 0x144a1(%rip),%xmm8 # 2c990 <_sk_overlay_sse2_8bit+0x14f3>
+ .byte 68,15,88,5,57,64,1,0 // addps 0x14039(%rip),%xmm8 # 2c530 <_sk_overlay_sse2_8bit+0x1093>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
.byte 68,15,17,128,128,0,0,0 // movups %xmm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -33165,13 +33143,13 @@ _sk_bicubic_n3y_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,64,96 // movups 0x60(%rax),%xmm8
- .byte 15,88,13,158,67,1,0 // addps 0x1439e(%rip),%xmm1 # 2c950 <_sk_overlay_sse2_8bit+0x146b>
- .byte 68,15,40,13,86,61,1,0 // movaps 0x13d56(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,13,103,68,1,0 // addps 0x14467(%rip),%xmm1 # 2c980 <_sk_overlay_sse2_8bit+0x14e3>
+ .byte 68,15,40,13,31,62,1,0 // movaps 0x13e1f(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
.byte 69,15,40,193 // movaps %xmm9,%xmm8
.byte 69,15,89,192 // mulps %xmm8,%xmm8
- .byte 68,15,89,13,146,67,1,0 // mulps 0x14392(%rip),%xmm9 # 2c960 <_sk_overlay_sse2_8bit+0x147b>
- .byte 68,15,88,13,42,63,1,0 // addps 0x13f2a(%rip),%xmm9 # 2c500 <_sk_overlay_sse2_8bit+0x101b>
+ .byte 68,15,89,13,91,68,1,0 // mulps 0x1445b(%rip),%xmm9 # 2c990 <_sk_overlay_sse2_8bit+0x14f3>
+ .byte 68,15,88,13,243,63,1,0 // addps 0x13ff3(%rip),%xmm9 # 2c530 <_sk_overlay_sse2_8bit+0x1093>
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 68,15,17,136,160,0,0,0 // movups %xmm9,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -33184,16 +33162,16 @@ _sk_bicubic_n1y_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,64,96 // movups 0x60(%rax),%xmm8
- .byte 15,88,13,72,67,1,0 // addps 0x14348(%rip),%xmm1 # 2c940 <_sk_overlay_sse2_8bit+0x145b>
- .byte 68,15,40,13,16,61,1,0 // movaps 0x13d10(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,13,17,68,1,0 // addps 0x14411(%rip),%xmm1 # 2c970 <_sk_overlay_sse2_8bit+0x14d3>
+ .byte 68,15,40,13,217,61,1,0 // movaps 0x13dd9(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
- .byte 68,15,40,5,100,67,1,0 // movaps 0x14364(%rip),%xmm8 # 2c970 <_sk_overlay_sse2_8bit+0x148b>
+ .byte 68,15,40,5,45,68,1,0 // movaps 0x1442d(%rip),%xmm8 # 2c9a0 <_sk_overlay_sse2_8bit+0x1503>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,104,67,1,0 // addps 0x14368(%rip),%xmm8 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 68,15,88,5,49,68,1,0 // addps 0x14431(%rip),%xmm8 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,220,60,1,0 // addps 0x13cdc(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,88,5,149,61,1,0 // addps 0x13d95(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,96,67,1,0 // addps 0x14360(%rip),%xmm8 # 2c990 <_sk_overlay_sse2_8bit+0x14ab>
+ .byte 68,15,88,5,41,68,1,0 // addps 0x14429(%rip),%xmm8 # 2c9c0 <_sk_overlay_sse2_8bit+0x1523>
.byte 68,15,17,128,160,0,0,0 // movups %xmm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -33203,17 +33181,17 @@ HIDDEN _sk_bicubic_p1y_sse41
FUNCTION(_sk_bicubic_p1y_sse41)
_sk_bicubic_p1y_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,15,40,5,186,60,1,0 // movaps 0x13cba(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,5,115,61,1,0 // movaps 0x13d73(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,72,96 // movups 0x60(%rax),%xmm9
.byte 65,15,88,200 // addps %xmm8,%xmm1
- .byte 68,15,40,21,21,67,1,0 // movaps 0x14315(%rip),%xmm10 # 2c970 <_sk_overlay_sse2_8bit+0x148b>
+ .byte 68,15,40,21,222,67,1,0 // movaps 0x143de(%rip),%xmm10 # 2c9a0 <_sk_overlay_sse2_8bit+0x1503>
.byte 69,15,89,209 // mulps %xmm9,%xmm10
- .byte 68,15,88,21,25,67,1,0 // addps 0x14319(%rip),%xmm10 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 68,15,88,21,226,67,1,0 // addps 0x143e2(%rip),%xmm10 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,89,209 // mulps %xmm9,%xmm10
.byte 69,15,88,208 // addps %xmm8,%xmm10
.byte 69,15,89,209 // mulps %xmm9,%xmm10
- .byte 68,15,88,21,21,67,1,0 // addps 0x14315(%rip),%xmm10 # 2c990 <_sk_overlay_sse2_8bit+0x14ab>
+ .byte 68,15,88,21,222,67,1,0 // addps 0x143de(%rip),%xmm10 # 2c9c0 <_sk_overlay_sse2_8bit+0x1523>
.byte 68,15,17,144,160,0,0,0 // movups %xmm10,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -33225,11 +33203,11 @@ _sk_bicubic_p3y_sse41:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,64,96 // movups 0x60(%rax),%xmm8
- .byte 15,88,13,231,66,1,0 // addps 0x142e7(%rip),%xmm1 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 15,88,13,176,67,1,0 // addps 0x143b0(%rip),%xmm1 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 69,15,89,201 // mulps %xmm9,%xmm9
- .byte 68,15,89,5,183,66,1,0 // mulps 0x142b7(%rip),%xmm8 # 2c960 <_sk_overlay_sse2_8bit+0x147b>
- .byte 68,15,88,5,79,62,1,0 // addps 0x13e4f(%rip),%xmm8 # 2c500 <_sk_overlay_sse2_8bit+0x101b>
+ .byte 68,15,89,5,128,67,1,0 // mulps 0x14380(%rip),%xmm8 # 2c990 <_sk_overlay_sse2_8bit+0x14f3>
+ .byte 68,15,88,5,24,63,1,0 // addps 0x13f18(%rip),%xmm8 # 2c530 <_sk_overlay_sse2_8bit+0x1093>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
.byte 68,15,17,128,160,0,0,0 // movups %xmm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -33251,13 +33229,12 @@ _sk_callback_sse41:
.byte 15,41,117,160 // movaps %xmm6,-0x60(%rbp)
.byte 15,41,109,176 // movaps %xmm5,-0x50(%rbp)
.byte 15,41,101,192 // movaps %xmm4,-0x40(%rbp)
- .byte 76,137,195 // mov %r8,%rbx
- .byte 72,137,77,208 // mov %rcx,-0x30(%rbp)
+ .byte 73,137,206 // mov %rcx,%r14
.byte 73,137,215 // mov %rdx,%r15
- .byte 73,137,252 // mov %rdi,%r12
+ .byte 73,137,253 // mov %rdi,%r13
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 73,137,198 // mov %rax,%r14
- .byte 73,137,245 // mov %rsi,%r13
+ .byte 72,137,195 // mov %rax,%rbx
+ .byte 73,137,244 // mov %rsi,%r12
.byte 15,40,224 // movaps %xmm0,%xmm4
.byte 15,20,225 // unpcklps %xmm1,%xmm4
.byte 15,40,234 // movaps %xmm2,%xmm5
@@ -33269,17 +33246,17 @@ _sk_callback_sse41:
.byte 15,18,236 // movhlps %xmm4,%xmm5
.byte 15,40,216 // movaps %xmm0,%xmm3
.byte 102,15,20,218 // unpcklpd %xmm2,%xmm3
- .byte 102,65,15,17,78,8 // movupd %xmm1,0x8(%r14)
+ .byte 102,15,17,75,8 // movupd %xmm1,0x8(%rbx)
.byte 15,18,208 // movhlps %xmm0,%xmm2
- .byte 65,15,17,110,24 // movups %xmm5,0x18(%r14)
- .byte 102,65,15,17,94,40 // movupd %xmm3,0x28(%r14)
- .byte 65,15,17,86,56 // movups %xmm2,0x38(%r14)
- .byte 72,133,219 // test %rbx,%rbx
+ .byte 15,17,107,24 // movups %xmm5,0x18(%rbx)
+ .byte 102,15,17,91,40 // movupd %xmm3,0x28(%rbx)
+ .byte 15,17,83,56 // movups %xmm2,0x38(%rbx)
+ .byte 77,133,237 // test %r13,%r13
.byte 190,4,0,0,0 // mov $0x4,%esi
- .byte 15,69,243 // cmovne %ebx,%esi
- .byte 76,137,247 // mov %r14,%rdi
- .byte 65,255,22 // callq *(%r14)
- .byte 73,139,134,136,0,0,0 // mov 0x88(%r14),%rax
+ .byte 65,15,69,245 // cmovne %r13d,%esi
+ .byte 72,137,223 // mov %rbx,%rdi
+ .byte 255,19 // callq *(%rbx)
+ .byte 72,139,131,136,0,0,0 // mov 0x88(%rbx),%rax
.byte 15,16,32 // movups (%rax),%xmm4
.byte 15,16,64,16 // movups 0x10(%rax),%xmm0
.byte 15,16,88,32 // movups 0x20(%rax),%xmm3
@@ -33296,12 +33273,11 @@ _sk_callback_sse41:
.byte 15,40,212 // movaps %xmm4,%xmm2
.byte 102,15,20,211 // unpcklpd %xmm3,%xmm2
.byte 15,18,220 // movhlps %xmm4,%xmm3
- .byte 76,137,238 // mov %r13,%rsi
+ .byte 76,137,230 // mov %r12,%rsi
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,137,231 // mov %r12,%rdi
+ .byte 76,137,239 // mov %r13,%rdi
.byte 76,137,250 // mov %r15,%rdx
- .byte 72,139,77,208 // mov -0x30(%rbp),%rcx
- .byte 73,137,216 // mov %rbx,%r8
+ .byte 76,137,241 // mov %r14,%rcx
.byte 15,40,101,192 // movaps -0x40(%rbp),%xmm4
.byte 15,40,109,176 // movaps -0x50(%rbp),%xmm5
.byte 15,40,117,160 // movaps -0x60(%rbp),%xmm6
@@ -33331,25 +33307,23 @@ _sk_clut_3D_sse41:
.byte 15,41,108,36,16 // movaps %xmm5,0x10(%rsp)
.byte 15,41,36,36 // movaps %xmm4,(%rsp)
.byte 15,41,92,36,240 // movaps %xmm3,-0x10(%rsp)
- .byte 76,137,68,36,152 // mov %r8,-0x68(%rsp)
- .byte 72,137,76,36,144 // mov %rcx,-0x70(%rsp)
- .byte 73,137,208 // mov %rdx,%r8
+ .byte 72,137,76,36,152 // mov %rcx,-0x68(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,16 // mov 0x10(%rax),%r9d
- .byte 65,141,89,255 // lea -0x1(%r9),%ebx
- .byte 102,15,110,219 // movd %ebx,%xmm3
+ .byte 68,139,64,16 // mov 0x10(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 102,65,15,110,217 // movd %r9d,%xmm3
.byte 102,15,112,219,0 // pshufd $0x0,%xmm3,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
.byte 15,89,218 // mulps %xmm2,%xmm3
.byte 243,15,91,227 // cvttps2dq %xmm3,%xmm4
.byte 68,15,40,195 // movaps %xmm3,%xmm8
.byte 68,15,41,68,36,224 // movaps %xmm8,-0x20(%rsp)
- .byte 102,65,15,110,209 // movd %r9d,%xmm2
+ .byte 102,65,15,110,208 // movd %r8d,%xmm2
.byte 102,15,112,234,0 // pshufd $0x0,%xmm2,%xmm5
.byte 102,15,127,108,36,160 // movdqa %xmm5,-0x60(%rsp)
- .byte 68,139,72,12 // mov 0xc(%rax),%r9d
- .byte 65,141,89,255 // lea -0x1(%r9),%ebx
- .byte 102,15,110,219 // movd %ebx,%xmm3
+ .byte 68,139,64,12 // mov 0xc(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 102,65,15,110,217 // movd %r9d,%xmm3
.byte 102,15,112,219,0 // pshufd $0x0,%xmm3,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
.byte 15,89,217 // mulps %xmm1,%xmm3
@@ -33362,12 +33336,12 @@ _sk_clut_3D_sse41:
.byte 102,15,254,204 // paddd %xmm4,%xmm1
.byte 102,68,15,111,212 // movdqa %xmm4,%xmm10
.byte 102,68,15,127,84,36,208 // movdqa %xmm10,-0x30(%rsp)
- .byte 102,65,15,110,217 // movd %r9d,%xmm3
+ .byte 102,65,15,110,216 // movd %r8d,%xmm3
.byte 102,15,56,64,218 // pmulld %xmm2,%xmm3
.byte 102,15,112,219,0 // pshufd $0x0,%xmm3,%xmm3
- .byte 139,88,8 // mov 0x8(%rax),%ebx
- .byte 255,203 // dec %ebx
- .byte 102,15,110,211 // movd %ebx,%xmm2
+ .byte 68,139,64,8 // mov 0x8(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 102,65,15,110,208 // movd %r8d,%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
.byte 68,15,91,242 // cvtdq2ps %xmm2,%xmm14
.byte 68,15,89,240 // mulps %xmm0,%xmm14
@@ -33376,44 +33350,44 @@ _sk_clut_3D_sse41:
.byte 102,68,15,56,64,227 // pmulld %xmm3,%xmm12
.byte 102,65,15,111,212 // movdqa %xmm12,%xmm2
.byte 102,15,254,209 // paddd %xmm1,%xmm2
- .byte 102,15,111,37,8,65,1,0 // movdqa 0x14108(%rip),%xmm4 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,37,224,65,1,0 // movdqa 0x141e0(%rip),%xmm4 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,56,64,212 // pmulld %xmm4,%xmm2
.byte 102,68,15,111,220 // movdqa %xmm4,%xmm11
- .byte 102,68,15,111,61,101,58,1,0 // movdqa 0x13a65(%rip),%xmm15 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,68,15,111,61,61,59,1,0 // movdqa 0x13b3d(%rip),%xmm15 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,111,226 // movdqa %xmm2,%xmm4
.byte 102,65,15,254,231 // paddd %xmm15,%xmm4
- .byte 102,73,15,58,22,225,1 // pextrq $0x1,%xmm4,%r9
- .byte 102,72,15,126,227 // movq %xmm4,%rbx
+ .byte 102,73,15,58,22,224,1 // pextrq $0x1,%xmm4,%r8
+ .byte 102,73,15,126,225 // movq %xmm4,%r9
.byte 72,139,0 // mov (%rax),%rax
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 72,193,235,32 // shr $0x20,%rbx
- .byte 69,137,203 // mov %r9d,%r11d
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 69,137,195 // mov %r8d,%r11d
.byte 243,66,15,16,36,144 // movss (%rax,%r10,4),%xmm4
- .byte 102,15,58,33,36,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm4
+ .byte 102,66,15,58,33,36,136,16 // insertps $0x10,(%rax,%r9,4),%xmm4
.byte 243,66,15,16,44,152 // movss (%rax,%r11,4),%xmm5
.byte 102,15,58,33,229,32 // insertps $0x20,%xmm5,%xmm4
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 243,66,15,16,44,136 // movss (%rax,%r9,4),%xmm5
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 243,66,15,16,44,128 // movss (%rax,%r8,4),%xmm5
.byte 102,15,58,33,229,48 // insertps $0x30,%xmm5,%xmm4
- .byte 102,65,15,126,209 // movd %xmm2,%r9d
- .byte 102,65,15,58,22,210,1 // pextrd $0x1,%xmm2,%r10d
- .byte 102,65,15,58,22,211,2 // pextrd $0x2,%xmm2,%r11d
- .byte 102,65,15,58,22,214,3 // pextrd $0x3,%xmm2,%r14d
- .byte 102,68,15,111,13,23,58,1,0 // movdqa 0x13a17(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,65,15,126,208 // movd %xmm2,%r8d
+ .byte 102,65,15,58,22,209,1 // pextrd $0x1,%xmm2,%r9d
+ .byte 102,65,15,58,22,210,2 // pextrd $0x2,%xmm2,%r10d
+ .byte 102,65,15,58,22,211,3 // pextrd $0x3,%xmm2,%r11d
+ .byte 102,68,15,111,13,238,58,1,0 // movdqa 0x13aee(%rip),%xmm9 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,65,15,254,209 // paddd %xmm9,%xmm2
- .byte 102,73,15,58,22,215,1 // pextrq $0x1,%xmm2,%r15
+ .byte 102,73,15,58,22,214,1 // pextrq $0x1,%xmm2,%r14
.byte 102,72,15,126,211 // movq %xmm2,%rbx
- .byte 65,137,220 // mov %ebx,%r12d
+ .byte 65,137,223 // mov %ebx,%r15d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 69,137,253 // mov %r15d,%r13d
- .byte 243,66,15,16,52,160 // movss (%rax,%r12,4),%xmm6
+ .byte 69,137,244 // mov %r14d,%r12d
+ .byte 243,66,15,16,52,184 // movss (%rax,%r15,4),%xmm6
.byte 102,15,58,33,52,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm6
- .byte 243,66,15,16,20,168 // movss (%rax,%r13,4),%xmm2
+ .byte 243,66,15,16,20,160 // movss (%rax,%r12,4),%xmm2
.byte 102,15,58,33,242,32 // insertps $0x20,%xmm2,%xmm6
- .byte 73,193,239,32 // shr $0x20,%r15
- .byte 243,66,15,16,20,184 // movss (%rax,%r15,4),%xmm2
+ .byte 73,193,238,32 // shr $0x20,%r14
+ .byte 243,66,15,16,20,176 // movss (%rax,%r14,4),%xmm2
.byte 102,15,58,33,242,48 // insertps $0x30,%xmm2,%xmm6
- .byte 15,40,45,44,64,1,0 // movaps 0x1402c(%rip),%xmm5 # 2c9a0 <_sk_overlay_sse2_8bit+0x14bb>
+ .byte 15,40,45,3,65,1,0 // movaps 0x14103(%rip),%xmm5 # 2c9d0 <_sk_overlay_sse2_8bit+0x1533>
.byte 68,15,88,197 // addps %xmm5,%xmm8
.byte 68,15,41,68,36,176 // movaps %xmm8,-0x50(%rsp)
.byte 15,40,215 // movaps %xmm7,%xmm2
@@ -33426,45 +33400,45 @@ _sk_clut_3D_sse41:
.byte 102,15,56,64,207 // pmulld %xmm7,%xmm1
.byte 102,15,111,217 // movdqa %xmm1,%xmm3
.byte 102,65,15,254,223 // paddd %xmm15,%xmm3
- .byte 102,73,15,58,22,223,1 // pextrq $0x1,%xmm3,%r15
+ .byte 102,73,15,58,22,222,1 // pextrq $0x1,%xmm3,%r14
.byte 102,72,15,126,219 // movq %xmm3,%rbx
- .byte 65,137,220 // mov %ebx,%r12d
+ .byte 65,137,223 // mov %ebx,%r15d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 69,137,253 // mov %r15d,%r13d
- .byte 243,66,15,16,44,160 // movss (%rax,%r12,4),%xmm5
+ .byte 69,137,244 // mov %r14d,%r12d
+ .byte 243,66,15,16,44,184 // movss (%rax,%r15,4),%xmm5
.byte 102,15,58,33,44,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm5
- .byte 243,66,15,16,28,168 // movss (%rax,%r13,4),%xmm3
+ .byte 243,66,15,16,28,160 // movss (%rax,%r12,4),%xmm3
.byte 102,15,58,33,235,32 // insertps $0x20,%xmm3,%xmm5
- .byte 73,193,239,32 // shr $0x20,%r15
- .byte 243,66,15,16,28,184 // movss (%rax,%r15,4),%xmm3
+ .byte 73,193,238,32 // shr $0x20,%r14
+ .byte 243,66,15,16,28,176 // movss (%rax,%r14,4),%xmm3
.byte 102,15,58,33,235,48 // insertps $0x30,%xmm3,%xmm5
- .byte 102,15,126,203 // movd %xmm1,%ebx
- .byte 102,65,15,58,22,207,1 // pextrd $0x1,%xmm1,%r15d
- .byte 102,65,15,58,22,204,2 // pextrd $0x2,%xmm1,%r12d
- .byte 102,65,15,58,22,205,3 // pextrd $0x3,%xmm1,%r13d
+ .byte 102,65,15,126,205 // movd %xmm1,%r13d
+ .byte 102,65,15,58,22,206,1 // pextrd $0x1,%xmm1,%r14d
+ .byte 102,65,15,58,22,207,2 // pextrd $0x2,%xmm1,%r15d
+ .byte 102,65,15,58,22,204,3 // pextrd $0x3,%xmm1,%r12d
.byte 102,65,15,254,201 // paddd %xmm9,%xmm1
- .byte 102,72,15,58,22,205,1 // pextrq $0x1,%xmm1,%rbp
- .byte 102,72,15,126,201 // movq %xmm1,%rcx
- .byte 137,202 // mov %ecx,%edx
- .byte 72,193,233,32 // shr $0x20,%rcx
- .byte 243,15,16,28,144 // movss (%rax,%rdx,4),%xmm3
- .byte 102,15,58,33,28,136,16 // insertps $0x10,(%rax,%rcx,4),%xmm3
+ .byte 102,72,15,58,22,203,1 // pextrq $0x1,%xmm1,%rbx
+ .byte 102,72,15,126,205 // movq %xmm1,%rbp
.byte 137,233 // mov %ebp,%ecx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 243,15,16,28,136 // movss (%rax,%rcx,4),%xmm3
+ .byte 102,15,58,33,28,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm3
+ .byte 137,217 // mov %ebx,%ecx
.byte 243,15,16,12,136 // movss (%rax,%rcx,4),%xmm1
.byte 102,15,58,33,217,32 // insertps $0x20,%xmm1,%xmm3
- .byte 72,193,237,32 // shr $0x20,%rbp
- .byte 243,15,16,12,168 // movss (%rax,%rbp,4),%xmm1
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
.byte 102,15,58,33,217,48 // insertps $0x30,%xmm1,%xmm3
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
.byte 68,15,92,240 // subps %xmm0,%xmm14
- .byte 243,66,15,16,4,136 // movss (%rax,%r9,4),%xmm0
- .byte 102,66,15,58,33,4,144,16 // insertps $0x10,(%rax,%r10,4),%xmm0
- .byte 102,66,15,58,33,4,152,32 // insertps $0x20,(%rax,%r11,4),%xmm0
- .byte 102,66,15,58,33,4,176,48 // insertps $0x30,(%rax,%r14,4),%xmm0
- .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
- .byte 102,66,15,58,33,12,184,16 // insertps $0x10,(%rax,%r15,4),%xmm1
- .byte 102,66,15,58,33,12,160,32 // insertps $0x20,(%rax,%r12,4),%xmm1
- .byte 102,66,15,58,33,12,168,48 // insertps $0x30,(%rax,%r13,4),%xmm1
+ .byte 243,66,15,16,4,128 // movss (%rax,%r8,4),%xmm0
+ .byte 102,66,15,58,33,4,136,16 // insertps $0x10,(%rax,%r9,4),%xmm0
+ .byte 102,66,15,58,33,4,144,32 // insertps $0x20,(%rax,%r10,4),%xmm0
+ .byte 102,66,15,58,33,4,152,48 // insertps $0x30,(%rax,%r11,4),%xmm0
+ .byte 243,66,15,16,12,168 // movss (%rax,%r13,4),%xmm1
+ .byte 102,66,15,58,33,12,176,16 // insertps $0x10,(%rax,%r14,4),%xmm1
+ .byte 102,66,15,58,33,12,184,32 // insertps $0x20,(%rax,%r15,4),%xmm1
+ .byte 102,66,15,58,33,12,160,48 // insertps $0x30,(%rax,%r12,4),%xmm1
.byte 15,92,200 // subps %xmm0,%xmm1
.byte 65,15,89,206 // mulps %xmm14,%xmm1
.byte 15,88,200 // addps %xmm0,%xmm1
@@ -33483,37 +33457,37 @@ _sk_clut_3D_sse41:
.byte 102,15,56,64,199 // pmulld %xmm7,%xmm0
.byte 102,68,15,111,215 // movdqa %xmm7,%xmm10
.byte 102,15,126,193 // movd %xmm0,%ecx
- .byte 102,15,58,22,194,1 // pextrd $0x1,%xmm0,%edx
- .byte 102,15,58,22,197,2 // pextrd $0x2,%xmm0,%ebp
+ .byte 102,15,58,22,197,1 // pextrd $0x1,%xmm0,%ebp
+ .byte 102,65,15,58,22,192,2 // pextrd $0x2,%xmm0,%r8d
.byte 102,15,58,22,195,3 // pextrd $0x3,%xmm0,%ebx
.byte 243,15,16,52,136 // movss (%rax,%rcx,4),%xmm6
- .byte 102,15,58,33,52,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm6
- .byte 102,15,58,33,52,168,32 // insertps $0x20,(%rax,%rbp,4),%xmm6
+ .byte 102,15,58,33,52,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm6
+ .byte 102,66,15,58,33,52,128,32 // insertps $0x20,(%rax,%r8,4),%xmm6
.byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
.byte 102,15,58,33,242,48 // insertps $0x30,%xmm2,%xmm6
.byte 102,15,111,208 // movdqa %xmm0,%xmm2
.byte 102,65,15,254,215 // paddd %xmm15,%xmm2
.byte 102,72,15,58,22,209,1 // pextrq $0x1,%xmm2,%rcx
- .byte 102,72,15,126,210 // movq %xmm2,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,20,168 // movss (%rax,%rbp,4),%xmm2
- .byte 102,15,58,33,20,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm2
- .byte 243,15,16,60,152 // movss (%rax,%rbx,4),%xmm7
+ .byte 102,72,15,126,213 // movq %xmm2,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
+ .byte 102,15,58,33,20,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm2
+ .byte 243,66,15,16,60,128 // movss (%rax,%r8,4),%xmm7
.byte 102,15,58,33,215,32 // insertps $0x20,%xmm7,%xmm2
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,60,136 // movss (%rax,%rcx,4),%xmm7
.byte 102,15,58,33,215,48 // insertps $0x30,%xmm7,%xmm2
.byte 102,65,15,254,193 // paddd %xmm9,%xmm0
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,4,168 // movss (%rax,%rbp,4),%xmm0
- .byte 102,15,58,33,4,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm0
- .byte 243,15,16,60,152 // movss (%rax,%rbx,4),%xmm7
+ .byte 102,72,15,126,197 // movq %xmm0,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,4,152 // movss (%rax,%rbx,4),%xmm0
+ .byte 102,15,58,33,4,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm0
+ .byte 243,66,15,16,60,128 // movss (%rax,%r8,4),%xmm7
.byte 102,15,58,33,199,32 // insertps $0x20,%xmm7,%xmm0
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,60,136 // movss (%rax,%rcx,4),%xmm7
@@ -33523,39 +33497,39 @@ _sk_clut_3D_sse41:
.byte 102,15,111,252 // movdqa %xmm4,%xmm7
.byte 102,65,15,254,255 // paddd %xmm15,%xmm7
.byte 102,72,15,58,22,249,1 // pextrq $0x1,%xmm7,%rcx
- .byte 102,72,15,126,250 // movq %xmm7,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,68,15,16,20,168 // movss (%rax,%rbp,4),%xmm10
- .byte 102,68,15,58,33,20,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm10
- .byte 243,15,16,60,152 // movss (%rax,%rbx,4),%xmm7
+ .byte 102,72,15,126,253 // movq %xmm7,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,68,15,16,20,152 // movss (%rax,%rbx,4),%xmm10
+ .byte 102,68,15,58,33,20,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm10
+ .byte 243,66,15,16,60,128 // movss (%rax,%r8,4),%xmm7
.byte 102,68,15,58,33,215,32 // insertps $0x20,%xmm7,%xmm10
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,60,136 // movss (%rax,%rcx,4),%xmm7
.byte 102,68,15,58,33,215,48 // insertps $0x30,%xmm7,%xmm10
.byte 102,65,15,126,225 // movd %xmm4,%r9d
- .byte 102,65,15,58,22,226,1 // pextrd $0x1,%xmm4,%r10d
- .byte 102,65,15,58,22,230,2 // pextrd $0x2,%xmm4,%r14d
- .byte 102,65,15,58,22,227,3 // pextrd $0x3,%xmm4,%r11d
+ .byte 102,65,15,58,22,227,1 // pextrd $0x1,%xmm4,%r11d
+ .byte 102,65,15,58,22,226,2 // pextrd $0x2,%xmm4,%r10d
+ .byte 102,65,15,58,22,224,3 // pextrd $0x3,%xmm4,%r8d
.byte 102,65,15,111,249 // movdqa %xmm9,%xmm7
.byte 102,15,254,231 // paddd %xmm7,%xmm4
.byte 102,72,15,58,22,225,1 // pextrq $0x1,%xmm4,%rcx
- .byte 102,72,15,126,226 // movq %xmm4,%rdx
- .byte 137,211 // mov %edx,%ebx
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,205 // mov %ecx,%ebp
- .byte 243,68,15,16,12,152 // movss (%rax,%rbx,4),%xmm9
- .byte 102,68,15,58,33,12,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm9
- .byte 243,15,16,36,168 // movss (%rax,%rbp,4),%xmm4
+ .byte 102,72,15,126,227 // movq %xmm4,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
+ .byte 243,68,15,16,12,168 // movss (%rax,%rbp,4),%xmm9
+ .byte 102,68,15,58,33,12,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm9
+ .byte 243,66,15,16,36,176 // movss (%rax,%r14,4),%xmm4
.byte 102,68,15,58,33,204,32 // insertps $0x20,%xmm4,%xmm9
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,36,136 // movss (%rax,%rcx,4),%xmm4
.byte 102,68,15,58,33,204,48 // insertps $0x30,%xmm4,%xmm9
.byte 243,66,15,16,36,136 // movss (%rax,%r9,4),%xmm4
- .byte 102,66,15,58,33,36,144,16 // insertps $0x10,(%rax,%r10,4),%xmm4
- .byte 102,66,15,58,33,36,176,32 // insertps $0x20,(%rax,%r14,4),%xmm4
- .byte 102,66,15,58,33,36,152,48 // insertps $0x30,(%rax,%r11,4),%xmm4
+ .byte 102,66,15,58,33,36,152,16 // insertps $0x10,(%rax,%r11,4),%xmm4
+ .byte 102,66,15,58,33,36,144,32 // insertps $0x20,(%rax,%r10,4),%xmm4
+ .byte 102,66,15,58,33,36,128,48 // insertps $0x30,(%rax,%r8,4),%xmm4
.byte 15,92,230 // subps %xmm6,%xmm4
.byte 65,15,89,230 // mulps %xmm14,%xmm4
.byte 15,88,230 // addps %xmm6,%xmm4
@@ -33582,35 +33556,35 @@ _sk_clut_3D_sse41:
.byte 102,68,15,254,232 // paddd %xmm0,%xmm13
.byte 102,65,15,111,212 // movdqa %xmm12,%xmm2
.byte 102,65,15,254,213 // paddd %xmm13,%xmm2
- .byte 102,15,111,45,235,60,1,0 // movdqa 0x13ceb(%rip),%xmm5 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,45,182,61,1,0 // movdqa 0x13db6(%rip),%xmm5 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,56,64,213 // pmulld %xmm5,%xmm2
.byte 102,15,111,202 // movdqa %xmm2,%xmm1
.byte 102,65,15,254,207 // paddd %xmm15,%xmm1
.byte 102,72,15,58,22,201,1 // pextrq $0x1,%xmm1,%rcx
- .byte 102,72,15,126,202 // movq %xmm1,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,12,168 // movss (%rax,%rbp,4),%xmm1
- .byte 102,15,58,33,12,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm1
- .byte 243,15,16,28,152 // movss (%rax,%rbx,4),%xmm3
+ .byte 102,72,15,126,205 // movq %xmm1,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
+ .byte 102,15,58,33,12,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm1
+ .byte 243,66,15,16,28,128 // movss (%rax,%r8,4),%xmm3
.byte 102,15,58,33,203,32 // insertps $0x20,%xmm3,%xmm1
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,28,136 // movss (%rax,%rcx,4),%xmm3
.byte 102,15,58,33,203,48 // insertps $0x30,%xmm3,%xmm1
- .byte 102,65,15,126,214 // movd %xmm2,%r14d
+ .byte 102,65,15,126,208 // movd %xmm2,%r8d
.byte 102,65,15,58,22,209,1 // pextrd $0x1,%xmm2,%r9d
.byte 102,65,15,58,22,210,2 // pextrd $0x2,%xmm2,%r10d
.byte 102,65,15,58,22,211,3 // pextrd $0x3,%xmm2,%r11d
.byte 102,15,254,215 // paddd %xmm7,%xmm2
.byte 102,72,15,58,22,209,1 // pextrq $0x1,%xmm2,%rcx
- .byte 102,72,15,126,210 // movq %xmm2,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
+ .byte 102,72,15,126,211 // movq %xmm2,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
.byte 243,15,16,20,168 // movss (%rax,%rbp,4),%xmm2
- .byte 102,15,58,33,20,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm2
- .byte 243,15,16,28,152 // movss (%rax,%rbx,4),%xmm3
+ .byte 102,15,58,33,20,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm2
+ .byte 243,66,15,16,28,176 // movss (%rax,%r14,4),%xmm3
.byte 102,15,58,33,211,32 // insertps $0x20,%xmm3,%xmm2
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,28,136 // movss (%rax,%rcx,4),%xmm3
@@ -33621,42 +33595,42 @@ _sk_clut_3D_sse41:
.byte 102,65,15,111,221 // movdqa %xmm13,%xmm3
.byte 102,65,15,254,223 // paddd %xmm15,%xmm3
.byte 102,72,15,58,22,217,1 // pextrq $0x1,%xmm3,%rcx
- .byte 102,72,15,126,218 // movq %xmm3,%rdx
- .byte 137,211 // mov %edx,%ebx
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,205 // mov %ecx,%ebp
- .byte 243,68,15,16,4,152 // movss (%rax,%rbx,4),%xmm8
- .byte 102,68,15,58,33,4,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm8
- .byte 243,15,16,28,168 // movss (%rax,%rbp,4),%xmm3
+ .byte 102,72,15,126,219 // movq %xmm3,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
+ .byte 243,68,15,16,4,168 // movss (%rax,%rbp,4),%xmm8
+ .byte 102,68,15,58,33,4,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm8
+ .byte 243,66,15,16,28,176 // movss (%rax,%r14,4),%xmm3
.byte 102,68,15,58,33,195,32 // insertps $0x20,%xmm3,%xmm8
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,28,136 // movss (%rax,%rcx,4),%xmm3
.byte 102,68,15,58,33,195,48 // insertps $0x30,%xmm3,%xmm8
- .byte 102,68,15,126,233 // movd %xmm13,%ecx
+ .byte 102,69,15,126,237 // movd %xmm13,%r13d
.byte 102,69,15,58,22,239,1 // pextrd $0x1,%xmm13,%r15d
.byte 102,69,15,58,22,236,2 // pextrd $0x2,%xmm13,%r12d
- .byte 102,69,15,58,22,237,3 // pextrd $0x3,%xmm13,%r13d
+ .byte 102,69,15,58,22,238,3 // pextrd $0x3,%xmm13,%r14d
.byte 102,68,15,254,239 // paddd %xmm7,%xmm13
- .byte 102,76,15,58,22,234,1 // pextrq $0x1,%xmm13,%rdx
- .byte 102,76,15,126,235 // movq %xmm13,%rbx
- .byte 137,221 // mov %ebx,%ebp
+ .byte 102,76,15,58,22,235,1 // pextrq $0x1,%xmm13,%rbx
+ .byte 102,76,15,126,237 // movq %xmm13,%rbp
+ .byte 137,233 // mov %ebp,%ecx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 243,68,15,16,44,136 // movss (%rax,%rcx,4),%xmm13
+ .byte 102,68,15,58,33,44,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm13
+ .byte 137,217 // mov %ebx,%ecx
+ .byte 243,15,16,28,136 // movss (%rax,%rcx,4),%xmm3
+ .byte 102,68,15,58,33,235,32 // insertps $0x20,%xmm3,%xmm13
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 243,68,15,16,44,168 // movss (%rax,%rbp,4),%xmm13
- .byte 102,68,15,58,33,44,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm13
- .byte 137,211 // mov %edx,%ebx
.byte 243,15,16,28,152 // movss (%rax,%rbx,4),%xmm3
- .byte 102,68,15,58,33,235,32 // insertps $0x20,%xmm3,%xmm13
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 243,15,16,28,144 // movss (%rax,%rdx,4),%xmm3
.byte 102,68,15,58,33,235,48 // insertps $0x30,%xmm3,%xmm13
- .byte 243,66,15,16,28,176 // movss (%rax,%r14,4),%xmm3
+ .byte 243,66,15,16,28,128 // movss (%rax,%r8,4),%xmm3
.byte 102,66,15,58,33,28,136,16 // insertps $0x10,(%rax,%r9,4),%xmm3
.byte 102,66,15,58,33,28,144,32 // insertps $0x20,(%rax,%r10,4),%xmm3
.byte 102,66,15,58,33,28,152,48 // insertps $0x30,(%rax,%r11,4),%xmm3
- .byte 243,15,16,60,136 // movss (%rax,%rcx,4),%xmm7
+ .byte 243,66,15,16,60,168 // movss (%rax,%r13,4),%xmm7
.byte 102,66,15,58,33,60,184,16 // insertps $0x10,(%rax,%r15,4),%xmm7
.byte 102,66,15,58,33,60,160,32 // insertps $0x20,(%rax,%r12,4),%xmm7
- .byte 102,66,15,58,33,60,168,48 // insertps $0x30,(%rax,%r13,4),%xmm7
+ .byte 102,66,15,58,33,60,176,48 // insertps $0x30,(%rax,%r14,4),%xmm7
.byte 15,92,251 // subps %xmm3,%xmm7
.byte 65,15,89,254 // mulps %xmm14,%xmm7
.byte 15,88,251 // addps %xmm3,%xmm7
@@ -33673,31 +33647,31 @@ _sk_clut_3D_sse41:
.byte 102,65,15,111,196 // movdqa %xmm12,%xmm0
.byte 102,65,15,254,199 // paddd %xmm15,%xmm0
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,28,168 // movss (%rax,%rbp,4),%xmm3
- .byte 102,15,58,33,28,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm3
- .byte 243,15,16,4,152 // movss (%rax,%rbx,4),%xmm0
+ .byte 102,72,15,126,197 // movq %xmm0,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,28,152 // movss (%rax,%rbx,4),%xmm3
+ .byte 102,15,58,33,28,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm3
+ .byte 243,66,15,16,4,128 // movss (%rax,%r8,4),%xmm0
.byte 102,15,58,33,216,32 // insertps $0x20,%xmm0,%xmm3
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
.byte 102,15,58,33,216,48 // insertps $0x30,%xmm0,%xmm3
- .byte 102,69,15,126,230 // movd %xmm12,%r14d
+ .byte 102,69,15,126,224 // movd %xmm12,%r8d
.byte 102,69,15,58,22,225,1 // pextrd $0x1,%xmm12,%r9d
.byte 102,69,15,58,22,226,2 // pextrd $0x2,%xmm12,%r10d
.byte 102,69,15,58,22,227,3 // pextrd $0x3,%xmm12,%r11d
- .byte 102,15,111,21,79,52,1,0 // movdqa 0x1344f(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,111,21,17,53,1,0 // movdqa 0x13511(%rip),%xmm2 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,68,15,254,226 // paddd %xmm2,%xmm12
.byte 102,76,15,58,22,225,1 // pextrq $0x1,%xmm12,%rcx
- .byte 102,76,15,126,226 // movq %xmm12,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
+ .byte 102,76,15,126,227 // movq %xmm12,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
.byte 243,15,16,44,168 // movss (%rax,%rbp,4),%xmm5
- .byte 102,15,58,33,44,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm5
- .byte 243,15,16,4,152 // movss (%rax,%rbx,4),%xmm0
+ .byte 102,15,58,33,44,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm5
+ .byte 243,66,15,16,4,176 // movss (%rax,%r14,4),%xmm0
.byte 102,15,58,33,232,32 // insertps $0x20,%xmm0,%xmm5
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
@@ -33706,42 +33680,42 @@ _sk_clut_3D_sse41:
.byte 102,68,15,56,64,217 // pmulld %xmm1,%xmm11
.byte 102,69,15,254,251 // paddd %xmm11,%xmm15
.byte 102,76,15,58,22,249,1 // pextrq $0x1,%xmm15,%rcx
- .byte 102,76,15,126,250 // movq %xmm15,%rdx
- .byte 137,211 // mov %edx,%ebx
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,205 // mov %ecx,%ebp
- .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
- .byte 102,15,58,33,12,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm1
- .byte 243,15,16,4,168 // movss (%rax,%rbp,4),%xmm0
+ .byte 102,76,15,126,251 // movq %xmm15,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
+ .byte 243,15,16,12,168 // movss (%rax,%rbp,4),%xmm1
+ .byte 102,15,58,33,12,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm1
+ .byte 243,66,15,16,4,176 // movss (%rax,%r14,4),%xmm0
.byte 102,15,58,33,200,32 // insertps $0x20,%xmm0,%xmm1
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
.byte 102,15,58,33,200,48 // insertps $0x30,%xmm0,%xmm1
- .byte 102,68,15,126,217 // movd %xmm11,%ecx
+ .byte 102,69,15,126,221 // movd %xmm11,%r13d
.byte 102,69,15,58,22,223,1 // pextrd $0x1,%xmm11,%r15d
.byte 102,69,15,58,22,220,2 // pextrd $0x2,%xmm11,%r12d
- .byte 102,69,15,58,22,221,3 // pextrd $0x3,%xmm11,%r13d
+ .byte 102,69,15,58,22,222,3 // pextrd $0x3,%xmm11,%r14d
.byte 102,68,15,254,218 // paddd %xmm2,%xmm11
- .byte 102,76,15,58,22,218,1 // pextrq $0x1,%xmm11,%rdx
- .byte 102,76,15,126,219 // movq %xmm11,%rbx
- .byte 137,221 // mov %ebx,%ebp
+ .byte 102,76,15,58,22,219,1 // pextrq $0x1,%xmm11,%rbx
+ .byte 102,76,15,126,221 // movq %xmm11,%rbp
+ .byte 137,233 // mov %ebp,%ecx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
+ .byte 102,15,58,33,20,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm2
+ .byte 137,217 // mov %ebx,%ecx
+ .byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
+ .byte 102,15,58,33,208,32 // insertps $0x20,%xmm0,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 243,15,16,20,168 // movss (%rax,%rbp,4),%xmm2
- .byte 102,15,58,33,20,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm2
- .byte 137,211 // mov %edx,%ebx
.byte 243,15,16,4,152 // movss (%rax,%rbx,4),%xmm0
- .byte 102,15,58,33,208,32 // insertps $0x20,%xmm0,%xmm2
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 243,15,16,4,144 // movss (%rax,%rdx,4),%xmm0
.byte 102,15,58,33,208,48 // insertps $0x30,%xmm0,%xmm2
- .byte 243,66,15,16,52,176 // movss (%rax,%r14,4),%xmm6
+ .byte 243,66,15,16,52,128 // movss (%rax,%r8,4),%xmm6
.byte 102,66,15,58,33,52,136,16 // insertps $0x10,(%rax,%r9,4),%xmm6
.byte 102,66,15,58,33,52,144,32 // insertps $0x20,(%rax,%r10,4),%xmm6
.byte 102,66,15,58,33,52,152,48 // insertps $0x30,(%rax,%r11,4),%xmm6
- .byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
+ .byte 243,66,15,16,4,168 // movss (%rax,%r13,4),%xmm0
.byte 102,66,15,58,33,4,184,16 // insertps $0x10,(%rax,%r15,4),%xmm0
.byte 102,66,15,58,33,4,160,32 // insertps $0x20,(%rax,%r12,4),%xmm0
- .byte 102,66,15,58,33,4,168,48 // insertps $0x30,(%rax,%r13,4),%xmm0
+ .byte 102,66,15,58,33,4,176,48 // insertps $0x30,(%rax,%r14,4),%xmm0
.byte 15,92,198 // subps %xmm6,%xmm0
.byte 65,15,89,198 // mulps %xmm14,%xmm0
.byte 15,88,198 // addps %xmm6,%xmm0
@@ -33774,9 +33748,7 @@ _sk_clut_3D_sse41:
.byte 15,89,213 // mulps %xmm5,%xmm2
.byte 65,15,88,209 // addps %xmm9,%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,137,194 // mov %r8,%rdx
- .byte 72,139,76,36,144 // mov -0x70(%rsp),%rcx
- .byte 76,139,68,36,152 // mov -0x68(%rsp),%r8
+ .byte 72,139,76,36,152 // mov -0x68(%rsp),%rcx
.byte 15,40,92,36,240 // movaps -0x10(%rsp),%xmm3
.byte 15,40,36,36 // movaps (%rsp),%xmm4
.byte 15,40,108,36,16 // movaps 0x10(%rsp),%xmm5
@@ -33806,13 +33778,11 @@ _sk_clut_4D_sse41:
.byte 15,41,116,36,112 // movaps %xmm6,0x70(%rsp)
.byte 15,41,108,36,96 // movaps %xmm5,0x60(%rsp)
.byte 15,41,100,36,80 // movaps %xmm4,0x50(%rsp)
- .byte 76,137,68,36,248 // mov %r8,-0x8(%rsp)
- .byte 72,137,76,36,240 // mov %rcx,-0x10(%rsp)
- .byte 73,137,208 // mov %rdx,%r8
+ .byte 72,137,76,36,248 // mov %rcx,-0x8(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,20 // mov 0x14(%rax),%r9d
- .byte 65,141,89,255 // lea -0x1(%r9),%ebx
- .byte 102,15,110,227 // movd %ebx,%xmm4
+ .byte 68,139,64,20 // mov 0x14(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 102,65,15,110,225 // movd %r9d,%xmm4
.byte 102,15,112,228,0 // pshufd $0x0,%xmm4,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
.byte 15,89,227 // mulps %xmm3,%xmm4
@@ -33820,12 +33790,12 @@ _sk_clut_4D_sse41:
.byte 102,15,127,44,36 // movdqa %xmm5,(%rsp)
.byte 68,15,40,212 // movaps %xmm4,%xmm10
.byte 68,15,41,84,36,64 // movaps %xmm10,0x40(%rsp)
- .byte 102,65,15,110,225 // movd %r9d,%xmm4
+ .byte 102,65,15,110,224 // movd %r8d,%xmm4
.byte 102,15,112,244,0 // pshufd $0x0,%xmm4,%xmm6
.byte 102,15,127,116,36,32 // movdqa %xmm6,0x20(%rsp)
- .byte 68,139,72,16 // mov 0x10(%rax),%r9d
- .byte 65,141,89,255 // lea -0x1(%r9),%ebx
- .byte 102,15,110,219 // movd %ebx,%xmm3
+ .byte 68,139,64,16 // mov 0x10(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 102,65,15,110,217 // movd %r9d,%xmm3
.byte 102,15,112,219,0 // pshufd $0x0,%xmm3,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
.byte 15,89,218 // mulps %xmm2,%xmm3
@@ -33836,21 +33806,21 @@ _sk_clut_4D_sse41:
.byte 102,68,15,56,64,230 // pmulld %xmm6,%xmm12
.byte 102,65,15,111,220 // movdqa %xmm12,%xmm3
.byte 102,15,254,221 // paddd %xmm5,%xmm3
- .byte 102,65,15,110,209 // movd %r9d,%xmm2
+ .byte 102,65,15,110,208 // movd %r8d,%xmm2
.byte 102,15,56,64,212 // pmulld %xmm4,%xmm2
.byte 102,15,112,234,0 // pshufd $0x0,%xmm2,%xmm5
.byte 102,15,127,108,36,144 // movdqa %xmm5,-0x70(%rsp)
- .byte 68,139,72,12 // mov 0xc(%rax),%r9d
- .byte 65,141,89,255 // lea -0x1(%r9),%ebx
- .byte 102,15,110,227 // movd %ebx,%xmm4
+ .byte 68,139,64,12 // mov 0xc(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 102,65,15,110,225 // movd %r9d,%xmm4
.byte 102,15,112,228,0 // pshufd $0x0,%xmm4,%xmm4
.byte 68,15,91,244 // cvtdq2ps %xmm4,%xmm14
.byte 68,15,89,241 // mulps %xmm1,%xmm14
- .byte 102,65,15,110,225 // movd %r9d,%xmm4
+ .byte 102,65,15,110,224 // movd %r8d,%xmm4
.byte 102,15,56,64,226 // pmulld %xmm2,%xmm4
- .byte 139,88,8 // mov 0x8(%rax),%ebx
- .byte 255,203 // dec %ebx
- .byte 102,15,110,203 // movd %ebx,%xmm1
+ .byte 68,139,64,8 // mov 0x8(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 102,65,15,110,200 // movd %r8d,%xmm1
.byte 102,15,112,201,0 // pshufd $0x0,%xmm1,%xmm1
.byte 68,15,91,249 // cvtdq2ps %xmm1,%xmm15
.byte 68,15,89,248 // mulps %xmm0,%xmm15
@@ -33867,42 +33837,42 @@ _sk_clut_4D_sse41:
.byte 102,65,15,111,197 // movdqa %xmm13,%xmm0
.byte 102,68,15,127,108,36,176 // movdqa %xmm13,-0x50(%rsp)
.byte 102,15,254,193 // paddd %xmm1,%xmm0
- .byte 102,15,56,64,5,184,55,1,0 // pmulld 0x137b8(%rip),%xmm0 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
- .byte 102,68,15,111,29,31,49,1,0 // movdqa 0x1311f(%rip),%xmm11 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,56,64,5,127,56,1,0 // pmulld 0x1387f(%rip),%xmm0 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
+ .byte 102,68,15,111,29,230,49,1,0 // movdqa 0x131e6(%rip),%xmm11 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,111,208 // movdqa %xmm0,%xmm2
.byte 102,65,15,254,211 // paddd %xmm11,%xmm2
- .byte 102,73,15,58,22,209,1 // pextrq $0x1,%xmm2,%r9
- .byte 102,72,15,126,211 // movq %xmm2,%rbx
+ .byte 102,73,15,58,22,208,1 // pextrq $0x1,%xmm2,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
.byte 72,139,0 // mov (%rax),%rax
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 72,193,235,32 // shr $0x20,%rbx
- .byte 69,137,203 // mov %r9d,%r11d
+ .byte 69,137,202 // mov %r9d,%r10d
+ .byte 73,193,233,32 // shr $0x20,%r9
+ .byte 69,137,195 // mov %r8d,%r11d
.byte 243,66,15,16,20,144 // movss (%rax,%r10,4),%xmm2
- .byte 102,15,58,33,20,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm2
+ .byte 102,66,15,58,33,20,136,16 // insertps $0x10,(%rax,%r9,4),%xmm2
.byte 243,66,15,16,44,152 // movss (%rax,%r11,4),%xmm5
.byte 102,15,58,33,213,32 // insertps $0x20,%xmm5,%xmm2
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 243,66,15,16,44,136 // movss (%rax,%r9,4),%xmm5
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 243,66,15,16,44,128 // movss (%rax,%r8,4),%xmm5
.byte 102,15,58,33,213,48 // insertps $0x30,%xmm5,%xmm2
- .byte 102,65,15,126,193 // movd %xmm0,%r9d
- .byte 102,65,15,58,22,194,1 // pextrd $0x1,%xmm0,%r10d
- .byte 102,65,15,58,22,195,2 // pextrd $0x2,%xmm0,%r11d
- .byte 102,65,15,58,22,198,3 // pextrd $0x3,%xmm0,%r14d
- .byte 102,68,15,111,5,209,48,1,0 // movdqa 0x130d1(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,65,15,126,192 // movd %xmm0,%r8d
+ .byte 102,65,15,58,22,193,1 // pextrd $0x1,%xmm0,%r9d
+ .byte 102,65,15,58,22,194,2 // pextrd $0x2,%xmm0,%r10d
+ .byte 102,65,15,58,22,195,3 // pextrd $0x3,%xmm0,%r11d
+ .byte 102,68,15,111,5,151,49,1,0 // movdqa 0x13197(%rip),%xmm8 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,65,15,254,192 // paddd %xmm8,%xmm0
- .byte 102,73,15,58,22,199,1 // pextrq $0x1,%xmm0,%r15
+ .byte 102,73,15,58,22,198,1 // pextrq $0x1,%xmm0,%r14
.byte 102,72,15,126,195 // movq %xmm0,%rbx
- .byte 65,137,220 // mov %ebx,%r12d
+ .byte 65,137,223 // mov %ebx,%r15d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 69,137,253 // mov %r15d,%r13d
- .byte 243,66,15,16,44,160 // movss (%rax,%r12,4),%xmm5
+ .byte 69,137,244 // mov %r14d,%r12d
+ .byte 243,66,15,16,44,184 // movss (%rax,%r15,4),%xmm5
.byte 102,15,58,33,44,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm5
- .byte 243,66,15,16,4,168 // movss (%rax,%r13,4),%xmm0
+ .byte 243,66,15,16,4,160 // movss (%rax,%r12,4),%xmm0
.byte 102,15,58,33,232,32 // insertps $0x20,%xmm0,%xmm5
- .byte 73,193,239,32 // shr $0x20,%r15
- .byte 243,66,15,16,4,184 // movss (%rax,%r15,4),%xmm0
+ .byte 73,193,238,32 // shr $0x20,%r14
+ .byte 243,66,15,16,4,176 // movss (%rax,%r14,4),%xmm0
.byte 102,15,58,33,232,48 // insertps $0x30,%xmm0,%xmm5
- .byte 15,40,53,230,54,1,0 // movaps 0x136e6(%rip),%xmm6 # 2c9a0 <_sk_overlay_sse2_8bit+0x14bb>
+ .byte 15,40,53,172,55,1,0 // movaps 0x137ac(%rip),%xmm6 # 2c9d0 <_sk_overlay_sse2_8bit+0x1533>
.byte 68,15,88,214 // addps %xmm6,%xmm10
.byte 68,15,41,84,36,48 // movaps %xmm10,0x30(%rsp)
.byte 15,88,254 // addps %xmm6,%xmm7
@@ -33915,49 +33885,49 @@ _sk_clut_4D_sse41:
.byte 102,15,254,206 // paddd %xmm6,%xmm1
.byte 102,68,15,111,214 // movdqa %xmm6,%xmm10
.byte 102,68,15,127,84,36,160 // movdqa %xmm10,-0x60(%rsp)
- .byte 102,15,56,64,13,183,54,1,0 // pmulld 0x136b7(%rip),%xmm1 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,56,64,13,125,55,1,0 // pmulld 0x1377d(%rip),%xmm1 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,111,225 // movdqa %xmm1,%xmm4
.byte 102,65,15,254,227 // paddd %xmm11,%xmm4
- .byte 102,73,15,58,22,231,1 // pextrq $0x1,%xmm4,%r15
+ .byte 102,73,15,58,22,230,1 // pextrq $0x1,%xmm4,%r14
.byte 102,72,15,126,227 // movq %xmm4,%rbx
- .byte 65,137,220 // mov %ebx,%r12d
+ .byte 65,137,223 // mov %ebx,%r15d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 69,137,253 // mov %r15d,%r13d
- .byte 243,66,15,16,52,160 // movss (%rax,%r12,4),%xmm6
+ .byte 69,137,244 // mov %r14d,%r12d
+ .byte 243,66,15,16,52,184 // movss (%rax,%r15,4),%xmm6
.byte 102,15,58,33,52,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm6
- .byte 243,66,15,16,36,168 // movss (%rax,%r13,4),%xmm4
+ .byte 243,66,15,16,36,160 // movss (%rax,%r12,4),%xmm4
.byte 102,15,58,33,244,32 // insertps $0x20,%xmm4,%xmm6
- .byte 73,193,239,32 // shr $0x20,%r15
- .byte 243,66,15,16,36,184 // movss (%rax,%r15,4),%xmm4
+ .byte 73,193,238,32 // shr $0x20,%r14
+ .byte 243,66,15,16,36,176 // movss (%rax,%r14,4),%xmm4
.byte 102,15,58,33,244,48 // insertps $0x30,%xmm4,%xmm6
- .byte 102,15,126,203 // movd %xmm1,%ebx
- .byte 102,65,15,58,22,207,1 // pextrd $0x1,%xmm1,%r15d
- .byte 102,65,15,58,22,204,2 // pextrd $0x2,%xmm1,%r12d
- .byte 102,65,15,58,22,205,3 // pextrd $0x3,%xmm1,%r13d
+ .byte 102,65,15,126,205 // movd %xmm1,%r13d
+ .byte 102,65,15,58,22,206,1 // pextrd $0x1,%xmm1,%r14d
+ .byte 102,65,15,58,22,207,2 // pextrd $0x2,%xmm1,%r15d
+ .byte 102,65,15,58,22,204,3 // pextrd $0x3,%xmm1,%r12d
.byte 102,65,15,254,200 // paddd %xmm8,%xmm1
.byte 102,69,15,111,216 // movdqa %xmm8,%xmm11
- .byte 102,72,15,58,22,205,1 // pextrq $0x1,%xmm1,%rbp
- .byte 102,72,15,126,201 // movq %xmm1,%rcx
- .byte 137,202 // mov %ecx,%edx
- .byte 72,193,233,32 // shr $0x20,%rcx
- .byte 243,15,16,36,144 // movss (%rax,%rdx,4),%xmm4
- .byte 102,15,58,33,36,136,16 // insertps $0x10,(%rax,%rcx,4),%xmm4
+ .byte 102,72,15,58,22,203,1 // pextrq $0x1,%xmm1,%rbx
+ .byte 102,72,15,126,205 // movq %xmm1,%rbp
.byte 137,233 // mov %ebp,%ecx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 243,15,16,36,136 // movss (%rax,%rcx,4),%xmm4
+ .byte 102,15,58,33,36,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm4
+ .byte 137,217 // mov %ebx,%ecx
.byte 243,15,16,12,136 // movss (%rax,%rcx,4),%xmm1
.byte 102,15,58,33,225,32 // insertps $0x20,%xmm1,%xmm4
- .byte 72,193,237,32 // shr $0x20,%rbp
- .byte 243,15,16,12,168 // movss (%rax,%rbp,4),%xmm1
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
.byte 102,15,58,33,225,48 // insertps $0x30,%xmm1,%xmm4
.byte 65,15,91,201 // cvtdq2ps %xmm9,%xmm1
.byte 68,15,92,249 // subps %xmm1,%xmm15
- .byte 243,66,15,16,12,136 // movss (%rax,%r9,4),%xmm1
- .byte 102,66,15,58,33,12,144,16 // insertps $0x10,(%rax,%r10,4),%xmm1
- .byte 102,66,15,58,33,12,152,32 // insertps $0x20,(%rax,%r11,4),%xmm1
- .byte 102,66,15,58,33,12,176,48 // insertps $0x30,(%rax,%r14,4),%xmm1
- .byte 243,15,16,60,152 // movss (%rax,%rbx,4),%xmm7
- .byte 102,66,15,58,33,60,184,16 // insertps $0x10,(%rax,%r15,4),%xmm7
- .byte 102,66,15,58,33,60,160,32 // insertps $0x20,(%rax,%r12,4),%xmm7
- .byte 102,66,15,58,33,60,168,48 // insertps $0x30,(%rax,%r13,4),%xmm7
+ .byte 243,66,15,16,12,128 // movss (%rax,%r8,4),%xmm1
+ .byte 102,66,15,58,33,12,136,16 // insertps $0x10,(%rax,%r9,4),%xmm1
+ .byte 102,66,15,58,33,12,144,32 // insertps $0x20,(%rax,%r10,4),%xmm1
+ .byte 102,66,15,58,33,12,152,48 // insertps $0x30,(%rax,%r11,4),%xmm1
+ .byte 243,66,15,16,60,168 // movss (%rax,%r13,4),%xmm7
+ .byte 102,66,15,58,33,60,176,16 // insertps $0x10,(%rax,%r14,4),%xmm7
+ .byte 102,66,15,58,33,60,184,32 // insertps $0x20,(%rax,%r15,4),%xmm7
+ .byte 102,66,15,58,33,60,160,48 // insertps $0x30,(%rax,%r12,4),%xmm7
.byte 15,92,249 // subps %xmm1,%xmm7
.byte 65,15,89,255 // mulps %xmm15,%xmm7
.byte 15,88,249 // addps %xmm1,%xmm7
@@ -33973,37 +33943,37 @@ _sk_clut_4D_sse41:
.byte 102,15,254,216 // paddd %xmm0,%xmm3
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,65,15,254,205 // paddd %xmm13,%xmm1
- .byte 102,15,111,5,139,53,1,0 // movdqa 0x1358b(%rip),%xmm0 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,5,79,54,1,0 // movdqa 0x1364f(%rip),%xmm0 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,56,64,200 // pmulld %xmm0,%xmm1
.byte 102,68,15,111,200 // movdqa %xmm0,%xmm9
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
- .byte 102,68,15,111,5,228,46,1,0 // movdqa 0x12ee4(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,68,15,111,5,168,47,1,0 // movdqa 0x12fa8(%rip),%xmm8 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,65,15,254,192 // paddd %xmm8,%xmm0
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,4,168 // movss (%rax,%rbp,4),%xmm0
- .byte 102,15,58,33,4,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm0
- .byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
+ .byte 102,72,15,126,197 // movq %xmm0,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,4,152 // movss (%rax,%rbx,4),%xmm0
+ .byte 102,15,58,33,4,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm0
+ .byte 243,66,15,16,20,128 // movss (%rax,%r8,4),%xmm2
.byte 102,15,58,33,194,32 // insertps $0x20,%xmm2,%xmm0
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
.byte 102,15,58,33,194,48 // insertps $0x30,%xmm2,%xmm0
- .byte 102,65,15,126,206 // movd %xmm1,%r14d
+ .byte 102,65,15,126,200 // movd %xmm1,%r8d
.byte 102,65,15,58,22,201,1 // pextrd $0x1,%xmm1,%r9d
.byte 102,65,15,58,22,202,2 // pextrd $0x2,%xmm1,%r10d
.byte 102,65,15,58,22,203,3 // pextrd $0x3,%xmm1,%r11d
.byte 102,65,15,254,203 // paddd %xmm11,%xmm1
.byte 102,72,15,58,22,201,1 // pextrq $0x1,%xmm1,%rcx
- .byte 102,72,15,126,202 // movq %xmm1,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
+ .byte 102,72,15,126,203 // movq %xmm1,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
.byte 243,15,16,12,168 // movss (%rax,%rbp,4),%xmm1
- .byte 102,15,58,33,12,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm1
- .byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
+ .byte 102,15,58,33,12,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm1
+ .byte 243,66,15,16,20,176 // movss (%rax,%r14,4),%xmm2
.byte 102,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm1
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
@@ -34013,42 +33983,42 @@ _sk_clut_4D_sse41:
.byte 102,15,111,211 // movdqa %xmm3,%xmm2
.byte 102,65,15,254,208 // paddd %xmm8,%xmm2
.byte 102,72,15,58,22,209,1 // pextrq $0x1,%xmm2,%rcx
- .byte 102,72,15,126,210 // movq %xmm2,%rdx
- .byte 137,211 // mov %edx,%ebx
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,205 // mov %ecx,%ebp
- .byte 243,68,15,16,20,152 // movss (%rax,%rbx,4),%xmm10
- .byte 102,68,15,58,33,20,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm10
- .byte 243,15,16,20,168 // movss (%rax,%rbp,4),%xmm2
+ .byte 102,72,15,126,211 // movq %xmm2,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
+ .byte 243,68,15,16,20,168 // movss (%rax,%rbp,4),%xmm10
+ .byte 102,68,15,58,33,20,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm10
+ .byte 243,66,15,16,20,176 // movss (%rax,%r14,4),%xmm2
.byte 102,68,15,58,33,210,32 // insertps $0x20,%xmm2,%xmm10
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
.byte 102,68,15,58,33,210,48 // insertps $0x30,%xmm2,%xmm10
- .byte 102,15,126,217 // movd %xmm3,%ecx
+ .byte 102,65,15,126,221 // movd %xmm3,%r13d
.byte 102,65,15,58,22,223,1 // pextrd $0x1,%xmm3,%r15d
.byte 102,65,15,58,22,220,2 // pextrd $0x2,%xmm3,%r12d
- .byte 102,65,15,58,22,221,3 // pextrd $0x3,%xmm3,%r13d
+ .byte 102,65,15,58,22,222,3 // pextrd $0x3,%xmm3,%r14d
.byte 102,65,15,254,219 // paddd %xmm11,%xmm3
- .byte 102,72,15,58,22,218,1 // pextrq $0x1,%xmm3,%rdx
- .byte 102,72,15,126,219 // movq %xmm3,%rbx
- .byte 137,221 // mov %ebx,%ebp
+ .byte 102,72,15,58,22,219,1 // pextrq $0x1,%xmm3,%rbx
+ .byte 102,72,15,126,221 // movq %xmm3,%rbp
+ .byte 137,233 // mov %ebp,%ecx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 243,68,15,16,12,136 // movss (%rax,%rcx,4),%xmm9
+ .byte 102,68,15,58,33,12,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm9
+ .byte 137,217 // mov %ebx,%ecx
+ .byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
+ .byte 102,68,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm9
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 243,68,15,16,12,168 // movss (%rax,%rbp,4),%xmm9
- .byte 102,68,15,58,33,12,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm9
- .byte 137,211 // mov %edx,%ebx
.byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
- .byte 102,68,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm9
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 243,15,16,20,144 // movss (%rax,%rdx,4),%xmm2
.byte 102,68,15,58,33,202,48 // insertps $0x30,%xmm2,%xmm9
- .byte 243,66,15,16,20,176 // movss (%rax,%r14,4),%xmm2
+ .byte 243,66,15,16,20,128 // movss (%rax,%r8,4),%xmm2
.byte 102,66,15,58,33,20,136,16 // insertps $0x10,(%rax,%r9,4),%xmm2
.byte 102,66,15,58,33,20,144,32 // insertps $0x20,(%rax,%r10,4),%xmm2
.byte 102,66,15,58,33,20,152,48 // insertps $0x30,(%rax,%r11,4),%xmm2
- .byte 243,68,15,16,4,136 // movss (%rax,%rcx,4),%xmm8
+ .byte 243,70,15,16,4,168 // movss (%rax,%r13,4),%xmm8
.byte 102,70,15,58,33,4,184,16 // insertps $0x10,(%rax,%r15,4),%xmm8
.byte 102,70,15,58,33,4,160,32 // insertps $0x20,(%rax,%r12,4),%xmm8
- .byte 102,70,15,58,33,4,168,48 // insertps $0x30,(%rax,%r13,4),%xmm8
+ .byte 102,70,15,58,33,4,176,48 // insertps $0x30,(%rax,%r14,4),%xmm8
.byte 68,15,92,194 // subps %xmm2,%xmm8
.byte 69,15,89,199 // mulps %xmm15,%xmm8
.byte 68,15,88,194 // addps %xmm2,%xmm8
@@ -34079,41 +34049,41 @@ _sk_clut_4D_sse41:
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
.byte 102,68,15,111,108,36,176 // movdqa -0x50(%rsp),%xmm13
.byte 102,65,15,254,205 // paddd %xmm13,%xmm1
- .byte 102,15,111,45,96,51,1,0 // movdqa 0x13360(%rip),%xmm5 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,45,29,52,1,0 // movdqa 0x1341d(%rip),%xmm5 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,56,64,205 // pmulld %xmm5,%xmm1
.byte 102,15,126,201 // movd %xmm1,%ecx
- .byte 102,15,58,22,202,1 // pextrd $0x1,%xmm1,%edx
- .byte 102,15,58,22,205,2 // pextrd $0x2,%xmm1,%ebp
+ .byte 102,15,58,22,205,1 // pextrd $0x1,%xmm1,%ebp
+ .byte 102,65,15,58,22,200,2 // pextrd $0x2,%xmm1,%r8d
.byte 102,15,58,22,203,3 // pextrd $0x3,%xmm1,%ebx
.byte 243,15,16,52,136 // movss (%rax,%rcx,4),%xmm6
- .byte 102,15,58,33,52,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm6
- .byte 102,15,58,33,52,168,32 // insertps $0x20,(%rax,%rbp,4),%xmm6
+ .byte 102,15,58,33,52,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm6
+ .byte 102,66,15,58,33,52,128,32 // insertps $0x20,(%rax,%r8,4),%xmm6
.byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
.byte 102,15,58,33,242,48 // insertps $0x30,%xmm2,%xmm6
.byte 102,15,111,209 // movdqa %xmm1,%xmm2
- .byte 102,15,111,29,139,44,1,0 // movdqa 0x12c8b(%rip),%xmm3 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,111,29,70,45,1,0 // movdqa 0x12d46(%rip),%xmm3 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,254,211 // paddd %xmm3,%xmm2
.byte 102,72,15,58,22,209,1 // pextrq $0x1,%xmm2,%rcx
- .byte 102,72,15,126,210 // movq %xmm2,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,60,168 // movss (%rax,%rbp,4),%xmm7
- .byte 102,15,58,33,60,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm7
- .byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
+ .byte 102,72,15,126,213 // movq %xmm2,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,60,152 // movss (%rax,%rbx,4),%xmm7
+ .byte 102,15,58,33,60,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm7
+ .byte 243,66,15,16,20,128 // movss (%rax,%r8,4),%xmm2
.byte 102,15,58,33,250,32 // insertps $0x20,%xmm2,%xmm7
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
.byte 102,15,58,33,250,48 // insertps $0x30,%xmm2,%xmm7
.byte 102,65,15,254,203 // paddd %xmm11,%xmm1
.byte 102,72,15,58,22,201,1 // pextrq $0x1,%xmm1,%rcx
- .byte 102,72,15,126,202 // movq %xmm1,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,12,168 // movss (%rax,%rbp,4),%xmm1
- .byte 102,15,58,33,12,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm1
- .byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
+ .byte 102,72,15,126,205 // movq %xmm1,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
+ .byte 102,15,58,33,12,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm1
+ .byte 243,66,15,16,20,128 // movss (%rax,%r8,4),%xmm2
.byte 102,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm1
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
@@ -34124,38 +34094,38 @@ _sk_clut_4D_sse41:
.byte 102,15,111,208 // movdqa %xmm0,%xmm2
.byte 102,15,254,211 // paddd %xmm3,%xmm2
.byte 102,72,15,58,22,209,1 // pextrq $0x1,%xmm2,%rcx
- .byte 102,72,15,126,210 // movq %xmm2,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,28,168 // movss (%rax,%rbp,4),%xmm3
- .byte 102,15,58,33,28,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm3
- .byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
+ .byte 102,72,15,126,213 // movq %xmm2,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,28,152 // movss (%rax,%rbx,4),%xmm3
+ .byte 102,15,58,33,28,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm3
+ .byte 243,66,15,16,20,128 // movss (%rax,%r8,4),%xmm2
.byte 102,15,58,33,218,32 // insertps $0x20,%xmm2,%xmm3
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
.byte 102,15,58,33,218,48 // insertps $0x30,%xmm2,%xmm3
.byte 102,65,15,126,193 // movd %xmm0,%r9d
- .byte 102,65,15,58,22,194,1 // pextrd $0x1,%xmm0,%r10d
- .byte 102,65,15,58,22,198,2 // pextrd $0x2,%xmm0,%r14d
- .byte 102,65,15,58,22,195,3 // pextrd $0x3,%xmm0,%r11d
- .byte 102,15,254,5,185,43,1,0 // paddd 0x12bb9(%rip),%xmm0 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,65,15,58,22,195,1 // pextrd $0x1,%xmm0,%r11d
+ .byte 102,65,15,58,22,194,2 // pextrd $0x2,%xmm0,%r10d
+ .byte 102,65,15,58,22,192,3 // pextrd $0x3,%xmm0,%r8d
+ .byte 102,15,254,5,110,44,1,0 // paddd 0x12c6e(%rip),%xmm0 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,211 // mov %edx,%ebx
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,205 // mov %ecx,%ebp
- .byte 243,15,16,44,152 // movss (%rax,%rbx,4),%xmm5
- .byte 102,15,58,33,44,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm5
- .byte 243,15,16,4,168 // movss (%rax,%rbp,4),%xmm0
+ .byte 102,72,15,126,195 // movq %xmm0,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
+ .byte 243,15,16,44,168 // movss (%rax,%rbp,4),%xmm5
+ .byte 102,15,58,33,44,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm5
+ .byte 243,66,15,16,4,176 // movss (%rax,%r14,4),%xmm0
.byte 102,15,58,33,232,32 // insertps $0x20,%xmm0,%xmm5
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
.byte 102,15,58,33,232,48 // insertps $0x30,%xmm0,%xmm5
.byte 243,66,15,16,20,136 // movss (%rax,%r9,4),%xmm2
- .byte 102,66,15,58,33,20,144,16 // insertps $0x10,(%rax,%r10,4),%xmm2
- .byte 102,66,15,58,33,20,176,32 // insertps $0x20,(%rax,%r14,4),%xmm2
- .byte 102,66,15,58,33,20,152,48 // insertps $0x30,(%rax,%r11,4),%xmm2
+ .byte 102,66,15,58,33,20,152,16 // insertps $0x10,(%rax,%r11,4),%xmm2
+ .byte 102,66,15,58,33,20,144,32 // insertps $0x20,(%rax,%r10,4),%xmm2
+ .byte 102,66,15,58,33,20,128,48 // insertps $0x30,(%rax,%r8,4),%xmm2
.byte 15,92,214 // subps %xmm6,%xmm2
.byte 65,15,89,215 // mulps %xmm15,%xmm2
.byte 15,88,214 // addps %xmm6,%xmm2
@@ -34168,37 +34138,37 @@ _sk_clut_4D_sse41:
.byte 102,15,254,100,36,144 // paddd -0x70(%rsp),%xmm4
.byte 102,15,111,196 // movdqa %xmm4,%xmm0
.byte 102,65,15,254,197 // paddd %xmm13,%xmm0
- .byte 102,68,15,111,45,155,49,1,0 // movdqa 0x1319b(%rip),%xmm13 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,68,15,111,45,78,50,1,0 // movdqa 0x1324e(%rip),%xmm13 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,65,15,56,64,197 // pmulld %xmm13,%xmm0
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
- .byte 102,15,111,53,249,42,1,0 // movdqa 0x12af9(%rip),%xmm6 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,111,53,172,43,1,0 // movdqa 0x12bac(%rip),%xmm6 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,254,206 // paddd %xmm6,%xmm1
.byte 102,72,15,58,22,201,1 // pextrq $0x1,%xmm1,%rcx
- .byte 102,72,15,126,202 // movq %xmm1,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,12,168 // movss (%rax,%rbp,4),%xmm1
- .byte 102,15,58,33,12,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm1
- .byte 243,15,16,52,152 // movss (%rax,%rbx,4),%xmm6
+ .byte 102,72,15,126,205 // movq %xmm1,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
+ .byte 102,15,58,33,12,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm1
+ .byte 243,66,15,16,52,128 // movss (%rax,%r8,4),%xmm6
.byte 102,15,58,33,206,32 // insertps $0x20,%xmm6,%xmm1
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,52,136 // movss (%rax,%rcx,4),%xmm6
.byte 102,15,58,33,206,48 // insertps $0x30,%xmm6,%xmm1
- .byte 102,65,15,126,198 // movd %xmm0,%r14d
+ .byte 102,65,15,126,192 // movd %xmm0,%r8d
.byte 102,65,15,58,22,193,1 // pextrd $0x1,%xmm0,%r9d
.byte 102,65,15,58,22,194,2 // pextrd $0x2,%xmm0,%r10d
.byte 102,65,15,58,22,195,3 // pextrd $0x3,%xmm0,%r11d
- .byte 102,15,111,61,185,42,1,0 // movdqa 0x12ab9(%rip),%xmm7 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,111,61,106,43,1,0 // movdqa 0x12b6a(%rip),%xmm7 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,254,199 // paddd %xmm7,%xmm0
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
+ .byte 102,72,15,126,195 // movq %xmm0,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
.byte 243,15,16,4,168 // movss (%rax,%rbp,4),%xmm0
- .byte 102,15,58,33,4,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm0
- .byte 243,15,16,52,152 // movss (%rax,%rbx,4),%xmm6
+ .byte 102,15,58,33,4,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm0
+ .byte 243,66,15,16,52,176 // movss (%rax,%r14,4),%xmm6
.byte 102,15,58,33,198,32 // insertps $0x20,%xmm6,%xmm0
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,52,136 // movss (%rax,%rcx,4),%xmm6
@@ -34206,45 +34176,45 @@ _sk_clut_4D_sse41:
.byte 102,65,15,254,227 // paddd %xmm11,%xmm4
.byte 102,65,15,56,64,229 // pmulld %xmm13,%xmm4
.byte 102,15,111,244 // movdqa %xmm4,%xmm6
- .byte 102,68,15,111,45,67,42,1,0 // movdqa 0x12a43(%rip),%xmm13 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,68,15,111,45,242,42,1,0 // movdqa 0x12af2(%rip),%xmm13 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,65,15,254,245 // paddd %xmm13,%xmm6
.byte 102,72,15,58,22,241,1 // pextrq $0x1,%xmm6,%rcx
- .byte 102,72,15,126,242 // movq %xmm6,%rdx
- .byte 137,211 // mov %edx,%ebx
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,205 // mov %ecx,%ebp
- .byte 243,68,15,16,28,152 // movss (%rax,%rbx,4),%xmm11
- .byte 102,68,15,58,33,28,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm11
- .byte 243,15,16,52,168 // movss (%rax,%rbp,4),%xmm6
+ .byte 102,72,15,126,243 // movq %xmm6,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
+ .byte 243,68,15,16,28,168 // movss (%rax,%rbp,4),%xmm11
+ .byte 102,68,15,58,33,28,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm11
+ .byte 243,66,15,16,52,176 // movss (%rax,%r14,4),%xmm6
.byte 102,68,15,58,33,222,32 // insertps $0x20,%xmm6,%xmm11
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,52,136 // movss (%rax,%rcx,4),%xmm6
.byte 102,68,15,58,33,222,48 // insertps $0x30,%xmm6,%xmm11
- .byte 102,15,126,225 // movd %xmm4,%ecx
+ .byte 102,65,15,126,229 // movd %xmm4,%r13d
.byte 102,65,15,58,22,231,1 // pextrd $0x1,%xmm4,%r15d
.byte 102,65,15,58,22,228,2 // pextrd $0x2,%xmm4,%r12d
- .byte 102,65,15,58,22,229,3 // pextrd $0x3,%xmm4,%r13d
+ .byte 102,65,15,58,22,230,3 // pextrd $0x3,%xmm4,%r14d
.byte 102,15,254,231 // paddd %xmm7,%xmm4
- .byte 102,72,15,58,22,226,1 // pextrq $0x1,%xmm4,%rdx
- .byte 102,72,15,126,227 // movq %xmm4,%rbx
- .byte 137,221 // mov %ebx,%ebp
+ .byte 102,72,15,58,22,227,1 // pextrq $0x1,%xmm4,%rbx
+ .byte 102,72,15,126,229 // movq %xmm4,%rbp
+ .byte 137,233 // mov %ebp,%ecx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 243,15,16,60,136 // movss (%rax,%rcx,4),%xmm7
+ .byte 102,15,58,33,60,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm7
+ .byte 137,217 // mov %ebx,%ecx
+ .byte 243,15,16,36,136 // movss (%rax,%rcx,4),%xmm4
+ .byte 102,15,58,33,252,32 // insertps $0x20,%xmm4,%xmm7
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 243,15,16,60,168 // movss (%rax,%rbp,4),%xmm7
- .byte 102,15,58,33,60,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm7
- .byte 137,211 // mov %edx,%ebx
.byte 243,15,16,36,152 // movss (%rax,%rbx,4),%xmm4
- .byte 102,15,58,33,252,32 // insertps $0x20,%xmm4,%xmm7
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 243,15,16,36,144 // movss (%rax,%rdx,4),%xmm4
.byte 102,15,58,33,252,48 // insertps $0x30,%xmm4,%xmm7
- .byte 243,66,15,16,36,176 // movss (%rax,%r14,4),%xmm4
+ .byte 243,66,15,16,36,128 // movss (%rax,%r8,4),%xmm4
.byte 102,66,15,58,33,36,136,16 // insertps $0x10,(%rax,%r9,4),%xmm4
.byte 102,66,15,58,33,36,144,32 // insertps $0x20,(%rax,%r10,4),%xmm4
.byte 102,66,15,58,33,36,152,48 // insertps $0x30,(%rax,%r11,4),%xmm4
- .byte 243,15,16,52,136 // movss (%rax,%rcx,4),%xmm6
+ .byte 243,66,15,16,52,168 // movss (%rax,%r13,4),%xmm6
.byte 102,66,15,58,33,52,184,16 // insertps $0x10,(%rax,%r15,4),%xmm6
.byte 102,66,15,58,33,52,160,32 // insertps $0x20,(%rax,%r12,4),%xmm6
- .byte 102,66,15,58,33,52,168,48 // insertps $0x30,(%rax,%r13,4),%xmm6
+ .byte 102,66,15,58,33,52,176,48 // insertps $0x30,(%rax,%r14,4),%xmm6
.byte 15,92,244 // subps %xmm4,%xmm6
.byte 65,15,89,247 // mulps %xmm15,%xmm6
.byte 15,88,244 // addps %xmm4,%xmm6
@@ -34285,37 +34255,37 @@ _sk_clut_4D_sse41:
.byte 102,68,15,111,76,36,176 // movdqa -0x50(%rsp),%xmm9
.byte 102,65,15,111,193 // movdqa %xmm9,%xmm0
.byte 102,15,254,194 // paddd %xmm2,%xmm0
- .byte 102,15,111,29,83,47,1,0 // movdqa 0x12f53(%rip),%xmm3 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,29,254,47,1,0 // movdqa 0x12ffe(%rip),%xmm3 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,56,64,195 // pmulld %xmm3,%xmm0
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
.byte 102,69,15,111,213 // movdqa %xmm13,%xmm10
.byte 102,65,15,254,202 // paddd %xmm10,%xmm1
.byte 102,72,15,58,22,201,1 // pextrq $0x1,%xmm1,%rcx
- .byte 102,72,15,126,202 // movq %xmm1,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,36,168 // movss (%rax,%rbp,4),%xmm4
- .byte 102,15,58,33,36,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm4
- .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
+ .byte 102,72,15,126,205 // movq %xmm1,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,36,152 // movss (%rax,%rbx,4),%xmm4
+ .byte 102,15,58,33,36,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm4
+ .byte 243,66,15,16,12,128 // movss (%rax,%r8,4),%xmm1
.byte 102,15,58,33,225,32 // insertps $0x20,%xmm1,%xmm4
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,12,136 // movss (%rax,%rcx,4),%xmm1
.byte 102,15,58,33,225,48 // insertps $0x30,%xmm1,%xmm4
- .byte 102,65,15,126,198 // movd %xmm0,%r14d
+ .byte 102,65,15,126,192 // movd %xmm0,%r8d
.byte 102,65,15,58,22,193,1 // pextrd $0x1,%xmm0,%r9d
.byte 102,65,15,58,22,194,2 // pextrd $0x2,%xmm0,%r10d
.byte 102,65,15,58,22,195,3 // pextrd $0x3,%xmm0,%r11d
- .byte 102,15,111,45,116,40,1,0 // movdqa 0x12874(%rip),%xmm5 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,111,45,29,41,1,0 // movdqa 0x1291d(%rip),%xmm5 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,254,197 // paddd %xmm5,%xmm0
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
+ .byte 102,72,15,126,195 // movq %xmm0,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
.byte 243,15,16,4,168 // movss (%rax,%rbp,4),%xmm0
- .byte 102,15,58,33,4,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm0
- .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
+ .byte 102,15,58,33,4,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm0
+ .byte 243,66,15,16,12,176 // movss (%rax,%r14,4),%xmm1
.byte 102,15,58,33,193,32 // insertps $0x20,%xmm1,%xmm0
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,12,136 // movss (%rax,%rcx,4),%xmm1
@@ -34327,42 +34297,42 @@ _sk_clut_4D_sse41:
.byte 102,15,111,202 // movdqa %xmm2,%xmm1
.byte 102,65,15,254,202 // paddd %xmm10,%xmm1
.byte 102,72,15,58,22,201,1 // pextrq $0x1,%xmm1,%rcx
- .byte 102,72,15,126,202 // movq %xmm1,%rdx
- .byte 137,211 // mov %edx,%ebx
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,205 // mov %ecx,%ebp
- .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
- .byte 102,15,58,33,12,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm1
- .byte 243,15,16,28,168 // movss (%rax,%rbp,4),%xmm3
+ .byte 102,72,15,126,203 // movq %xmm1,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
+ .byte 243,15,16,12,168 // movss (%rax,%rbp,4),%xmm1
+ .byte 102,15,58,33,12,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm1
+ .byte 243,66,15,16,28,176 // movss (%rax,%r14,4),%xmm3
.byte 102,15,58,33,203,32 // insertps $0x20,%xmm3,%xmm1
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,28,136 // movss (%rax,%rcx,4),%xmm3
.byte 102,15,58,33,203,48 // insertps $0x30,%xmm3,%xmm1
- .byte 102,15,126,209 // movd %xmm2,%ecx
+ .byte 102,65,15,126,213 // movd %xmm2,%r13d
.byte 102,65,15,58,22,215,1 // pextrd $0x1,%xmm2,%r15d
.byte 102,65,15,58,22,212,2 // pextrd $0x2,%xmm2,%r12d
- .byte 102,65,15,58,22,213,3 // pextrd $0x3,%xmm2,%r13d
+ .byte 102,65,15,58,22,214,3 // pextrd $0x3,%xmm2,%r14d
.byte 102,15,254,213 // paddd %xmm5,%xmm2
- .byte 102,72,15,58,22,210,1 // pextrq $0x1,%xmm2,%rdx
- .byte 102,72,15,126,211 // movq %xmm2,%rbx
- .byte 137,221 // mov %ebx,%ebp
+ .byte 102,72,15,58,22,211,1 // pextrq $0x1,%xmm2,%rbx
+ .byte 102,72,15,126,213 // movq %xmm2,%rbp
+ .byte 137,233 // mov %ebp,%ecx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
+ .byte 102,15,58,33,20,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm2
+ .byte 137,217 // mov %ebx,%ecx
+ .byte 243,15,16,28,136 // movss (%rax,%rcx,4),%xmm3
+ .byte 102,15,58,33,211,32 // insertps $0x20,%xmm3,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 243,15,16,20,168 // movss (%rax,%rbp,4),%xmm2
- .byte 102,15,58,33,20,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm2
- .byte 137,211 // mov %edx,%ebx
.byte 243,15,16,28,152 // movss (%rax,%rbx,4),%xmm3
- .byte 102,15,58,33,211,32 // insertps $0x20,%xmm3,%xmm2
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 243,15,16,28,144 // movss (%rax,%rdx,4),%xmm3
.byte 102,15,58,33,211,48 // insertps $0x30,%xmm3,%xmm2
- .byte 243,66,15,16,44,176 // movss (%rax,%r14,4),%xmm5
+ .byte 243,66,15,16,44,128 // movss (%rax,%r8,4),%xmm5
.byte 102,66,15,58,33,44,136,16 // insertps $0x10,(%rax,%r9,4),%xmm5
.byte 102,66,15,58,33,44,144,32 // insertps $0x20,(%rax,%r10,4),%xmm5
.byte 102,66,15,58,33,44,152,48 // insertps $0x30,(%rax,%r11,4),%xmm5
- .byte 243,15,16,28,136 // movss (%rax,%rcx,4),%xmm3
+ .byte 243,66,15,16,28,168 // movss (%rax,%r13,4),%xmm3
.byte 102,66,15,58,33,28,184,16 // insertps $0x10,(%rax,%r15,4),%xmm3
.byte 102,66,15,58,33,28,160,32 // insertps $0x20,(%rax,%r12,4),%xmm3
- .byte 102,66,15,58,33,28,168,48 // insertps $0x30,(%rax,%r13,4),%xmm3
+ .byte 102,66,15,58,33,28,176,48 // insertps $0x30,(%rax,%r14,4),%xmm3
.byte 15,92,221 // subps %xmm5,%xmm3
.byte 65,15,89,223 // mulps %xmm15,%xmm3
.byte 15,88,221 // addps %xmm5,%xmm3
@@ -34379,31 +34349,31 @@ _sk_clut_4D_sse41:
.byte 102,15,111,196 // movdqa %xmm4,%xmm0
.byte 102,65,15,254,194 // paddd %xmm10,%xmm0
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,4,168 // movss (%rax,%rbp,4),%xmm0
- .byte 102,15,58,33,4,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm0
- .byte 243,15,16,44,152 // movss (%rax,%rbx,4),%xmm5
+ .byte 102,72,15,126,197 // movq %xmm0,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,4,152 // movss (%rax,%rbx,4),%xmm0
+ .byte 102,15,58,33,4,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm0
+ .byte 243,66,15,16,44,128 // movss (%rax,%r8,4),%xmm5
.byte 102,15,58,33,197,32 // insertps $0x20,%xmm5,%xmm0
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,44,136 // movss (%rax,%rcx,4),%xmm5
.byte 102,15,58,33,197,48 // insertps $0x30,%xmm5,%xmm0
- .byte 102,65,15,126,230 // movd %xmm4,%r14d
+ .byte 102,65,15,126,224 // movd %xmm4,%r8d
.byte 102,65,15,58,22,225,1 // pextrd $0x1,%xmm4,%r9d
.byte 102,65,15,58,22,226,2 // pextrd $0x2,%xmm4,%r10d
.byte 102,65,15,58,22,227,3 // pextrd $0x3,%xmm4,%r11d
- .byte 102,68,15,111,13,176,38,1,0 // movdqa 0x126b0(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,68,15,111,13,81,39,1,0 // movdqa 0x12751(%rip),%xmm9 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,65,15,254,225 // paddd %xmm9,%xmm4
.byte 102,72,15,58,22,225,1 // pextrq $0x1,%xmm4,%rcx
- .byte 102,72,15,126,226 // movq %xmm4,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
+ .byte 102,72,15,126,227 // movq %xmm4,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
.byte 243,15,16,44,168 // movss (%rax,%rbp,4),%xmm5
- .byte 102,15,58,33,44,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm5
- .byte 243,15,16,36,152 // movss (%rax,%rbx,4),%xmm4
+ .byte 102,15,58,33,44,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm5
+ .byte 243,66,15,16,36,176 // movss (%rax,%r14,4),%xmm4
.byte 102,15,58,33,236,32 // insertps $0x20,%xmm4,%xmm5
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,36,136 // movss (%rax,%rcx,4),%xmm4
@@ -34413,42 +34383,42 @@ _sk_clut_4D_sse41:
.byte 102,65,15,111,228 // movdqa %xmm12,%xmm4
.byte 102,65,15,254,226 // paddd %xmm10,%xmm4
.byte 102,72,15,58,22,225,1 // pextrq $0x1,%xmm4,%rcx
- .byte 102,72,15,126,226 // movq %xmm4,%rdx
- .byte 137,211 // mov %edx,%ebx
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,205 // mov %ecx,%ebp
- .byte 243,68,15,16,20,152 // movss (%rax,%rbx,4),%xmm10
- .byte 102,68,15,58,33,20,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm10
- .byte 243,15,16,36,168 // movss (%rax,%rbp,4),%xmm4
+ .byte 102,72,15,126,227 // movq %xmm4,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
+ .byte 243,68,15,16,20,168 // movss (%rax,%rbp,4),%xmm10
+ .byte 102,68,15,58,33,20,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm10
+ .byte 243,66,15,16,36,176 // movss (%rax,%r14,4),%xmm4
.byte 102,68,15,58,33,212,32 // insertps $0x20,%xmm4,%xmm10
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,36,136 // movss (%rax,%rcx,4),%xmm4
.byte 102,68,15,58,33,212,48 // insertps $0x30,%xmm4,%xmm10
- .byte 102,68,15,126,225 // movd %xmm12,%ecx
+ .byte 102,69,15,126,229 // movd %xmm12,%r13d
.byte 102,69,15,58,22,231,1 // pextrd $0x1,%xmm12,%r15d
.byte 102,69,15,58,22,228,2 // pextrd $0x2,%xmm12,%r12d
- .byte 102,69,15,58,22,229,3 // pextrd $0x3,%xmm12,%r13d
+ .byte 102,69,15,58,22,230,3 // pextrd $0x3,%xmm12,%r14d
.byte 102,69,15,254,225 // paddd %xmm9,%xmm12
- .byte 102,76,15,58,22,226,1 // pextrq $0x1,%xmm12,%rdx
- .byte 102,76,15,126,227 // movq %xmm12,%rbx
- .byte 137,221 // mov %ebx,%ebp
+ .byte 102,76,15,58,22,227,1 // pextrq $0x1,%xmm12,%rbx
+ .byte 102,76,15,126,229 // movq %xmm12,%rbp
+ .byte 137,233 // mov %ebp,%ecx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 243,68,15,16,4,136 // movss (%rax,%rcx,4),%xmm8
+ .byte 102,68,15,58,33,4,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm8
+ .byte 137,217 // mov %ebx,%ecx
+ .byte 243,15,16,36,136 // movss (%rax,%rcx,4),%xmm4
+ .byte 102,68,15,58,33,196,32 // insertps $0x20,%xmm4,%xmm8
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 243,68,15,16,4,168 // movss (%rax,%rbp,4),%xmm8
- .byte 102,68,15,58,33,4,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm8
- .byte 137,211 // mov %edx,%ebx
.byte 243,15,16,36,152 // movss (%rax,%rbx,4),%xmm4
- .byte 102,68,15,58,33,196,32 // insertps $0x20,%xmm4,%xmm8
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 243,15,16,36,144 // movss (%rax,%rdx,4),%xmm4
.byte 102,68,15,58,33,196,48 // insertps $0x30,%xmm4,%xmm8
- .byte 243,70,15,16,36,176 // movss (%rax,%r14,4),%xmm12
+ .byte 243,70,15,16,36,128 // movss (%rax,%r8,4),%xmm12
.byte 102,70,15,58,33,36,136,16 // insertps $0x10,(%rax,%r9,4),%xmm12
.byte 102,70,15,58,33,36,144,32 // insertps $0x20,(%rax,%r10,4),%xmm12
.byte 102,70,15,58,33,36,152,48 // insertps $0x30,(%rax,%r11,4),%xmm12
- .byte 243,15,16,36,136 // movss (%rax,%rcx,4),%xmm4
+ .byte 243,66,15,16,36,168 // movss (%rax,%r13,4),%xmm4
.byte 102,66,15,58,33,36,184,16 // insertps $0x10,(%rax,%r15,4),%xmm4
.byte 102,66,15,58,33,36,160,32 // insertps $0x20,(%rax,%r12,4),%xmm4
- .byte 102,66,15,58,33,36,168,48 // insertps $0x30,(%rax,%r13,4),%xmm4
+ .byte 102,66,15,58,33,36,176,48 // insertps $0x30,(%rax,%r14,4),%xmm4
.byte 65,15,92,228 // subps %xmm12,%xmm4
.byte 65,15,89,231 // mulps %xmm15,%xmm4
.byte 65,15,88,228 // addps %xmm12,%xmm4
@@ -34476,34 +34446,34 @@ _sk_clut_4D_sse41:
.byte 102,15,254,76,36,176 // paddd -0x50(%rsp),%xmm1
.byte 102,65,15,56,64,205 // pmulld %xmm13,%xmm1
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
- .byte 102,68,15,111,37,233,36,1,0 // movdqa 0x124e9(%rip),%xmm12 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,68,15,111,37,133,37,1,0 // movdqa 0x12585(%rip),%xmm12 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,65,15,254,196 // paddd %xmm12,%xmm0
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,4,168 // movss (%rax,%rbp,4),%xmm0
- .byte 102,15,58,33,4,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm0
- .byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
+ .byte 102,72,15,126,197 // movq %xmm0,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,4,152 // movss (%rax,%rbx,4),%xmm0
+ .byte 102,15,58,33,4,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm0
+ .byte 243,66,15,16,20,128 // movss (%rax,%r8,4),%xmm2
.byte 102,15,58,33,194,32 // insertps $0x20,%xmm2,%xmm0
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
.byte 102,15,58,33,194,48 // insertps $0x30,%xmm2,%xmm0
- .byte 102,65,15,126,206 // movd %xmm1,%r14d
+ .byte 102,65,15,126,200 // movd %xmm1,%r8d
.byte 102,65,15,58,22,201,1 // pextrd $0x1,%xmm1,%r9d
.byte 102,65,15,58,22,202,2 // pextrd $0x2,%xmm1,%r10d
.byte 102,65,15,58,22,203,3 // pextrd $0x3,%xmm1,%r11d
- .byte 102,15,111,29,168,36,1,0 // movdqa 0x124a8(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,111,29,66,37,1,0 // movdqa 0x12542(%rip),%xmm3 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,254,203 // paddd %xmm3,%xmm1
.byte 102,72,15,58,22,201,1 // pextrq $0x1,%xmm1,%rcx
- .byte 102,72,15,126,202 // movq %xmm1,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
+ .byte 102,72,15,126,203 // movq %xmm1,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
.byte 243,15,16,12,168 // movss (%rax,%rbp,4),%xmm1
- .byte 102,15,58,33,12,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm1
- .byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
+ .byte 102,15,58,33,12,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm1
+ .byte 243,66,15,16,20,176 // movss (%rax,%r14,4),%xmm2
.byte 102,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm1
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
@@ -34513,44 +34483,44 @@ _sk_clut_4D_sse41:
.byte 102,15,111,213 // movdqa %xmm5,%xmm2
.byte 102,65,15,254,212 // paddd %xmm12,%xmm2
.byte 102,72,15,58,22,209,1 // pextrq $0x1,%xmm2,%rcx
- .byte 102,72,15,126,210 // movq %xmm2,%rdx
- .byte 137,211 // mov %edx,%ebx
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,205 // mov %ecx,%ebp
- .byte 243,68,15,16,12,152 // movss (%rax,%rbx,4),%xmm9
- .byte 102,68,15,58,33,12,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm9
- .byte 243,15,16,20,168 // movss (%rax,%rbp,4),%xmm2
+ .byte 102,72,15,126,211 // movq %xmm2,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
+ .byte 243,68,15,16,12,168 // movss (%rax,%rbp,4),%xmm9
+ .byte 102,68,15,58,33,12,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm9
+ .byte 243,66,15,16,20,176 // movss (%rax,%r14,4),%xmm2
.byte 102,68,15,58,33,202,32 // insertps $0x20,%xmm2,%xmm9
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
.byte 102,68,15,58,33,202,48 // insertps $0x30,%xmm2,%xmm9
.byte 102,15,111,213 // movdqa %xmm5,%xmm2
- .byte 102,15,126,209 // movd %xmm2,%ecx
+ .byte 102,65,15,126,213 // movd %xmm2,%r13d
.byte 102,65,15,58,22,215,1 // pextrd $0x1,%xmm2,%r15d
.byte 102,65,15,58,22,212,2 // pextrd $0x2,%xmm2,%r12d
- .byte 102,65,15,58,22,213,3 // pextrd $0x3,%xmm2,%r13d
+ .byte 102,65,15,58,22,214,3 // pextrd $0x3,%xmm2,%r14d
.byte 102,15,254,211 // paddd %xmm3,%xmm2
.byte 102,15,111,235 // movdqa %xmm3,%xmm5
- .byte 102,72,15,58,22,210,1 // pextrq $0x1,%xmm2,%rdx
- .byte 102,72,15,126,211 // movq %xmm2,%rbx
- .byte 137,221 // mov %ebx,%ebp
+ .byte 102,72,15,58,22,211,1 // pextrq $0x1,%xmm2,%rbx
+ .byte 102,72,15,126,213 // movq %xmm2,%rbp
+ .byte 137,233 // mov %ebp,%ecx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 243,68,15,16,36,136 // movss (%rax,%rcx,4),%xmm12
+ .byte 102,68,15,58,33,36,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm12
+ .byte 137,217 // mov %ebx,%ecx
+ .byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
+ .byte 102,68,15,58,33,226,32 // insertps $0x20,%xmm2,%xmm12
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 243,68,15,16,36,168 // movss (%rax,%rbp,4),%xmm12
- .byte 102,68,15,58,33,36,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm12
- .byte 137,211 // mov %edx,%ebx
.byte 243,15,16,20,152 // movss (%rax,%rbx,4),%xmm2
- .byte 102,68,15,58,33,226,32 // insertps $0x20,%xmm2,%xmm12
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 243,15,16,20,144 // movss (%rax,%rdx,4),%xmm2
.byte 102,68,15,58,33,226,48 // insertps $0x30,%xmm2,%xmm12
- .byte 243,66,15,16,20,176 // movss (%rax,%r14,4),%xmm2
+ .byte 243,66,15,16,20,128 // movss (%rax,%r8,4),%xmm2
.byte 102,66,15,58,33,20,136,16 // insertps $0x10,(%rax,%r9,4),%xmm2
.byte 102,66,15,58,33,20,144,32 // insertps $0x20,(%rax,%r10,4),%xmm2
.byte 102,66,15,58,33,20,152,48 // insertps $0x30,(%rax,%r11,4),%xmm2
- .byte 243,68,15,16,44,136 // movss (%rax,%rcx,4),%xmm13
+ .byte 243,70,15,16,44,168 // movss (%rax,%r13,4),%xmm13
.byte 102,70,15,58,33,44,184,16 // insertps $0x10,(%rax,%r15,4),%xmm13
.byte 102,70,15,58,33,44,160,32 // insertps $0x20,(%rax,%r12,4),%xmm13
- .byte 102,70,15,58,33,44,168,48 // insertps $0x30,(%rax,%r13,4),%xmm13
+ .byte 102,70,15,58,33,44,176,48 // insertps $0x30,(%rax,%r14,4),%xmm13
.byte 68,15,92,234 // subps %xmm2,%xmm13
.byte 69,15,89,239 // mulps %xmm15,%xmm13
.byte 68,15,88,234 // addps %xmm2,%xmm13
@@ -34563,81 +34533,81 @@ _sk_clut_4D_sse41:
.byte 102,68,15,254,116,36,144 // paddd -0x70(%rsp),%xmm14
.byte 102,15,111,68,36,176 // movdqa -0x50(%rsp),%xmm0
.byte 102,65,15,254,198 // paddd %xmm14,%xmm0
- .byte 102,15,56,64,5,169,41,1,0 // pmulld 0x129a9(%rip),%xmm0 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,56,64,5,62,42,1,0 // pmulld 0x12a3e(%rip),%xmm0 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
- .byte 102,15,254,5,13,35,1,0 // paddd 0x1230d(%rip),%xmm0 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,254,5,162,35,1,0 // paddd 0x123a2(%rip),%xmm0 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
- .byte 243,15,16,28,168 // movss (%rax,%rbp,4),%xmm3
- .byte 102,15,58,33,28,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm3
- .byte 243,15,16,4,152 // movss (%rax,%rbx,4),%xmm0
+ .byte 102,72,15,126,197 // movq %xmm0,%rbp
+ .byte 137,235 // mov %ebp,%ebx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 65,137,200 // mov %ecx,%r8d
+ .byte 243,15,16,28,152 // movss (%rax,%rbx,4),%xmm3
+ .byte 102,15,58,33,28,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm3
+ .byte 243,66,15,16,4,128 // movss (%rax,%r8,4),%xmm0
.byte 102,15,58,33,216,32 // insertps $0x20,%xmm0,%xmm3
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
.byte 102,15,58,33,216,48 // insertps $0x30,%xmm0,%xmm3
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
- .byte 102,65,15,126,198 // movd %xmm0,%r14d
+ .byte 102,65,15,126,192 // movd %xmm0,%r8d
.byte 102,65,15,58,22,193,1 // pextrd $0x1,%xmm0,%r9d
.byte 102,65,15,58,22,194,2 // pextrd $0x2,%xmm0,%r10d
.byte 102,65,15,58,22,195,3 // pextrd $0x3,%xmm0,%r11d
.byte 102,15,111,213 // movdqa %xmm5,%xmm2
.byte 102,15,254,194 // paddd %xmm2,%xmm0
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,213 // mov %edx,%ebp
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,203 // mov %ecx,%ebx
+ .byte 102,72,15,126,195 // movq %xmm0,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
.byte 243,15,16,44,168 // movss (%rax,%rbp,4),%xmm5
- .byte 102,15,58,33,44,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm5
- .byte 243,15,16,4,152 // movss (%rax,%rbx,4),%xmm0
+ .byte 102,15,58,33,44,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm5
+ .byte 243,66,15,16,4,176 // movss (%rax,%r14,4),%xmm0
.byte 102,15,58,33,232,32 // insertps $0x20,%xmm0,%xmm5
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
.byte 102,15,58,33,232,48 // insertps $0x30,%xmm0,%xmm5
.byte 102,68,15,254,116,36,160 // paddd -0x60(%rsp),%xmm14
- .byte 102,68,15,56,64,53,242,40,1,0 // pmulld 0x128f2(%rip),%xmm14 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
- .byte 102,15,111,5,90,34,1,0 // movdqa 0x1225a(%rip),%xmm0 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,68,15,56,64,53,131,41,1,0 // pmulld 0x12983(%rip),%xmm14 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
+ .byte 102,15,111,5,235,34,1,0 // movdqa 0x122eb(%rip),%xmm0 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,65,15,254,198 // paddd %xmm14,%xmm0
.byte 102,72,15,58,22,193,1 // pextrq $0x1,%xmm0,%rcx
- .byte 102,72,15,126,194 // movq %xmm0,%rdx
- .byte 137,211 // mov %edx,%ebx
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 137,205 // mov %ecx,%ebp
- .byte 243,15,16,12,152 // movss (%rax,%rbx,4),%xmm1
- .byte 102,15,58,33,12,144,16 // insertps $0x10,(%rax,%rdx,4),%xmm1
- .byte 243,15,16,4,168 // movss (%rax,%rbp,4),%xmm0
+ .byte 102,72,15,126,195 // movq %xmm0,%rbx
+ .byte 137,221 // mov %ebx,%ebp
+ .byte 72,193,235,32 // shr $0x20,%rbx
+ .byte 65,137,206 // mov %ecx,%r14d
+ .byte 243,15,16,12,168 // movss (%rax,%rbp,4),%xmm1
+ .byte 102,15,58,33,12,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm1
+ .byte 243,66,15,16,4,176 // movss (%rax,%r14,4),%xmm0
.byte 102,15,58,33,200,32 // insertps $0x20,%xmm0,%xmm1
.byte 72,193,233,32 // shr $0x20,%rcx
.byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
.byte 102,15,58,33,200,48 // insertps $0x30,%xmm0,%xmm1
- .byte 102,68,15,126,241 // movd %xmm14,%ecx
+ .byte 102,69,15,126,245 // movd %xmm14,%r13d
.byte 102,69,15,58,22,247,1 // pextrd $0x1,%xmm14,%r15d
.byte 102,69,15,58,22,244,2 // pextrd $0x2,%xmm14,%r12d
- .byte 102,69,15,58,22,245,3 // pextrd $0x3,%xmm14,%r13d
+ .byte 102,69,15,58,22,246,3 // pextrd $0x3,%xmm14,%r14d
.byte 102,68,15,254,242 // paddd %xmm2,%xmm14
- .byte 102,76,15,58,22,242,1 // pextrq $0x1,%xmm14,%rdx
- .byte 102,76,15,126,243 // movq %xmm14,%rbx
- .byte 137,221 // mov %ebx,%ebp
+ .byte 102,76,15,58,22,243,1 // pextrq $0x1,%xmm14,%rbx
+ .byte 102,76,15,126,245 // movq %xmm14,%rbp
+ .byte 137,233 // mov %ebp,%ecx
+ .byte 72,193,237,32 // shr $0x20,%rbp
+ .byte 243,15,16,20,136 // movss (%rax,%rcx,4),%xmm2
+ .byte 102,15,58,33,20,168,16 // insertps $0x10,(%rax,%rbp,4),%xmm2
+ .byte 137,217 // mov %ebx,%ecx
+ .byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
+ .byte 102,15,58,33,208,32 // insertps $0x20,%xmm0,%xmm2
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 243,15,16,20,168 // movss (%rax,%rbp,4),%xmm2
- .byte 102,15,58,33,20,152,16 // insertps $0x10,(%rax,%rbx,4),%xmm2
- .byte 137,211 // mov %edx,%ebx
.byte 243,15,16,4,152 // movss (%rax,%rbx,4),%xmm0
- .byte 102,15,58,33,208,32 // insertps $0x20,%xmm0,%xmm2
- .byte 72,193,234,32 // shr $0x20,%rdx
- .byte 243,15,16,4,144 // movss (%rax,%rdx,4),%xmm0
.byte 102,15,58,33,208,48 // insertps $0x30,%xmm0,%xmm2
- .byte 243,70,15,16,52,176 // movss (%rax,%r14,4),%xmm14
+ .byte 243,70,15,16,52,128 // movss (%rax,%r8,4),%xmm14
.byte 102,70,15,58,33,52,136,16 // insertps $0x10,(%rax,%r9,4),%xmm14
.byte 102,70,15,58,33,52,144,32 // insertps $0x20,(%rax,%r10,4),%xmm14
.byte 102,70,15,58,33,52,152,48 // insertps $0x30,(%rax,%r11,4),%xmm14
- .byte 243,15,16,4,136 // movss (%rax,%rcx,4),%xmm0
+ .byte 243,66,15,16,4,168 // movss (%rax,%r13,4),%xmm0
.byte 102,66,15,58,33,4,184,16 // insertps $0x10,(%rax,%r15,4),%xmm0
.byte 102,66,15,58,33,4,160,32 // insertps $0x20,(%rax,%r12,4),%xmm0
- .byte 102,66,15,58,33,4,168,48 // insertps $0x30,(%rax,%r13,4),%xmm0
+ .byte 102,66,15,58,33,4,176,48 // insertps $0x30,(%rax,%r14,4),%xmm0
.byte 65,15,92,198 // subps %xmm14,%xmm0
.byte 65,15,89,199 // mulps %xmm15,%xmm0
.byte 65,15,88,198 // addps %xmm14,%xmm0
@@ -34680,10 +34650,8 @@ _sk_clut_4D_sse41:
.byte 15,89,212 // mulps %xmm4,%xmm2
.byte 15,88,215 // addps %xmm7,%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,219,32,1,0 // movaps 0x120db(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
- .byte 76,137,194 // mov %r8,%rdx
- .byte 72,139,76,36,240 // mov -0x10(%rsp),%rcx
- .byte 76,139,68,36,248 // mov -0x8(%rsp),%r8
+ .byte 15,40,29,105,33,1,0 // movaps 0x12169(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
+ .byte 72,139,76,36,248 // mov -0x8(%rsp),%rcx
.byte 15,40,100,36,80 // movaps 0x50(%rsp),%xmm4
.byte 15,40,108,36,96 // movaps 0x60(%rsp),%xmm5
.byte 15,40,116,36,112 // movaps 0x70(%rsp),%xmm6
@@ -34708,53 +34676,44 @@ _sk_start_pipeline_sse2:
.byte 65,85 // push %r13
.byte 65,84 // push %r12
.byte 83 // push %rbx
- .byte 72,131,236,40 // sub $0x28,%rsp
- .byte 72,137,211 // mov %rdx,%rbx
- .byte 73,137,246 // mov %rsi,%r14
+ .byte 72,131,236,24 // sub $0x18,%rsp
+ .byte 73,137,215 // mov %rdx,%r15
+ .byte 72,137,243 // mov %rsi,%rbx
.byte 72,137,125,208 // mov %rdi,-0x30(%rbp)
.byte 76,137,198 // mov %r8,%rsi
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 72,137,194 // mov %rax,%rdx
- .byte 72,137,77,176 // mov %rcx,-0x50(%rbp)
- .byte 73,57,206 // cmp %rcx,%r14
- .byte 115,117 // jae 1a30d <_sk_start_pipeline_sse2+0xa1>
+ .byte 73,137,197 // mov %rax,%r13
+ .byte 73,137,246 // mov %rsi,%r14
+ .byte 72,137,77,192 // mov %rcx,-0x40(%rbp)
+ .byte 72,57,203 // cmp %rcx,%rbx
+ .byte 115,83 // jae 1a288 <_sk_start_pipeline_sse2+0x82>
.byte 72,139,69,208 // mov -0x30(%rbp),%rax
.byte 72,141,64,4 // lea 0x4(%rax),%rax
- .byte 72,137,69,184 // mov %rax,-0x48(%rbp)
- .byte 76,137,77,192 // mov %r9,-0x40(%rbp)
- .byte 72,137,85,200 // mov %rdx,-0x38(%rbp)
- .byte 73,137,221 // mov %rbx,%r13
- .byte 73,137,244 // mov %rsi,%r12
- .byte 72,57,93,184 // cmp %rbx,-0x48(%rbp)
+ .byte 72,137,69,200 // mov %rax,-0x38(%rbp)
+ .byte 76,57,125,200 // cmp %r15,-0x38(%rbp)
.byte 72,139,85,208 // mov -0x30(%rbp),%rdx
- .byte 119,45 // ja 1a2e9 <_sk_start_pipeline_sse2+0x7d>
- .byte 76,139,125,208 // mov -0x30(%rbp),%r15
- .byte 69,49,192 // xor %r8d,%r8d
- .byte 76,137,207 // mov %r9,%rdi
- .byte 76,137,230 // mov %r12,%rsi
- .byte 76,137,250 // mov %r15,%rdx
- .byte 76,137,241 // mov %r14,%rcx
- .byte 255,85,200 // callq *-0x38(%rbp)
- .byte 76,137,235 // mov %r13,%rbx
- .byte 76,139,77,192 // mov -0x40(%rbp),%r9
- .byte 73,141,87,4 // lea 0x4(%r15),%rdx
- .byte 73,131,199,8 // add $0x8,%r15
- .byte 73,57,223 // cmp %rbx,%r15
- .byte 73,137,215 // mov %rdx,%r15
- .byte 118,215 // jbe 1a2c0 <_sk_start_pipeline_sse2+0x54>
- .byte 73,137,216 // mov %rbx,%r8
- .byte 73,41,208 // sub %rdx,%r8
- .byte 116,19 // je 1a304 <_sk_start_pipeline_sse2+0x98>
- .byte 76,137,207 // mov %r9,%rdi
- .byte 76,137,230 // mov %r12,%rsi
- .byte 76,137,241 // mov %r14,%rcx
- .byte 255,85,200 // callq *-0x38(%rbp)
- .byte 76,137,235 // mov %r13,%rbx
- .byte 76,139,77,192 // mov -0x40(%rbp),%r9
- .byte 73,255,198 // inc %r14
- .byte 76,59,117,176 // cmp -0x50(%rbp),%r14
- .byte 117,165 // jne 1a2b2 <_sk_start_pipeline_sse2+0x46>
- .byte 72,131,196,40 // add $0x28,%rsp
+ .byte 119,35 // ja 1a26e <_sk_start_pipeline_sse2+0x68>
+ .byte 76,139,101,208 // mov -0x30(%rbp),%r12
+ .byte 49,255 // xor %edi,%edi
+ .byte 76,137,246 // mov %r14,%rsi
+ .byte 76,137,226 // mov %r12,%rdx
+ .byte 72,137,217 // mov %rbx,%rcx
+ .byte 65,255,213 // callq *%r13
+ .byte 73,141,84,36,4 // lea 0x4(%r12),%rdx
+ .byte 73,131,196,8 // add $0x8,%r12
+ .byte 77,57,252 // cmp %r15,%r12
+ .byte 73,137,212 // mov %rdx,%r12
+ .byte 118,225 // jbe 1a24f <_sk_start_pipeline_sse2+0x49>
+ .byte 76,137,255 // mov %r15,%rdi
+ .byte 72,41,215 // sub %rdx,%rdi
+ .byte 116,9 // je 1a27f <_sk_start_pipeline_sse2+0x79>
+ .byte 76,137,246 // mov %r14,%rsi
+ .byte 72,137,217 // mov %rbx,%rcx
+ .byte 65,255,213 // callq *%r13
+ .byte 72,255,195 // inc %rbx
+ .byte 72,59,93,192 // cmp -0x40(%rbp),%rbx
+ .byte 117,185 // jne 1a241 <_sk_start_pipeline_sse2+0x3b>
+ .byte 72,131,196,24 // add $0x18,%rsp
.byte 91 // pop %rbx
.byte 65,92 // pop %r12
.byte 65,93 // pop %r13
@@ -34775,17 +34734,16 @@ FUNCTION(_sk_seed_shader_sse2)
_sk_seed_shader_sse2:
.byte 102,15,110,194 // movd %edx,%xmm0
.byte 102,15,112,192,0 // pshufd $0x0,%xmm0,%xmm0
- .byte 15,91,200 // cvtdq2ps %xmm0,%xmm1
- .byte 15,40,21,208,31,1,0 // movaps 0x11fd0(%rip),%xmm2 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
- .byte 15,88,202 // addps %xmm2,%xmm1
- .byte 15,16,7 // movups (%rdi),%xmm0
- .byte 15,88,193 // addps %xmm1,%xmm0
+ .byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
+ .byte 15,40,21,117,32,1,0 // movaps 0x12075(%rip),%xmm2 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
+ .byte 15,88,194 // addps %xmm2,%xmm0
+ .byte 15,88,5,123,32,1,0 // addps 0x1207b(%rip),%xmm0 # 2c330 <_sk_overlay_sse2_8bit+0xe93>
.byte 102,15,110,201 // movd %ecx,%xmm1
.byte 102,15,112,201,0 // pshufd $0x0,%xmm1,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
.byte 15,88,202 // addps %xmm2,%xmm1
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,21,191,31,1,0 // movaps 0x11fbf(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,21,115,32,1,0 // movaps 0x12073(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,87,219 // xorps %xmm3,%xmm3
.byte 15,87,228 // xorps %xmm4,%xmm4
.byte 15,87,237 // xorps %xmm5,%xmm5
@@ -34799,20 +34757,19 @@ FUNCTION(_sk_dither_sse2)
_sk_dither_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 102,68,15,110,194 // movd %edx,%xmm8
- .byte 102,69,15,112,192,0 // pshufd $0x0,%xmm8,%xmm8
- .byte 243,68,15,111,79,32 // movdqu 0x20(%rdi),%xmm9
- .byte 102,69,15,254,200 // paddd %xmm8,%xmm9
+ .byte 102,69,15,112,200,0 // pshufd $0x0,%xmm8,%xmm9
+ .byte 102,68,15,254,13,12,32,1,0 // paddd 0x1200c(%rip),%xmm9 # 2c300 <_sk_overlay_sse2_8bit+0xe63>
.byte 102,68,15,110,193 // movd %ecx,%xmm8
.byte 102,69,15,112,192,0 // pshufd $0x0,%xmm8,%xmm8
.byte 102,69,15,239,193 // pxor %xmm9,%xmm8
- .byte 102,68,15,111,21,141,31,1,0 // movdqa 0x11f8d(%rip),%xmm10 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,68,15,111,21,67,32,1,0 // movdqa 0x12043(%rip),%xmm10 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,69,15,111,216 // movdqa %xmm8,%xmm11
.byte 102,69,15,219,218 // pand %xmm10,%xmm11
.byte 102,65,15,114,243,5 // pslld $0x5,%xmm11
.byte 102,69,15,219,209 // pand %xmm9,%xmm10
.byte 102,65,15,114,242,4 // pslld $0x4,%xmm10
- .byte 102,68,15,111,37,121,31,1,0 // movdqa 0x11f79(%rip),%xmm12 # 2c330 <_sk_overlay_sse2_8bit+0xe4b>
- .byte 102,68,15,111,45,128,31,1,0 // movdqa 0x11f80(%rip),%xmm13 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,68,15,111,37,47,32,1,0 // movdqa 0x1202f(%rip),%xmm12 # 2c360 <_sk_overlay_sse2_8bit+0xec3>
+ .byte 102,68,15,111,45,54,32,1,0 // movdqa 0x12036(%rip),%xmm13 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,69,15,111,240 // movdqa %xmm8,%xmm14
.byte 102,69,15,219,245 // pand %xmm13,%xmm14
.byte 102,65,15,114,246,2 // pslld $0x2,%xmm14
@@ -34828,8 +34785,8 @@ _sk_dither_sse2:
.byte 102,69,15,235,245 // por %xmm13,%xmm14
.byte 102,69,15,235,240 // por %xmm8,%xmm14
.byte 69,15,91,198 // cvtdq2ps %xmm14,%xmm8
- .byte 68,15,89,5,59,31,1,0 // mulps 0x11f3b(%rip),%xmm8 # 2c350 <_sk_overlay_sse2_8bit+0xe6b>
- .byte 68,15,88,5,67,31,1,0 // addps 0x11f43(%rip),%xmm8 # 2c360 <_sk_overlay_sse2_8bit+0xe7b>
+ .byte 68,15,89,5,241,31,1,0 // mulps 0x11ff1(%rip),%xmm8 # 2c380 <_sk_overlay_sse2_8bit+0xee3>
+ .byte 68,15,88,5,249,31,1,0 // addps 0x11ff9(%rip),%xmm8 # 2c390 <_sk_overlay_sse2_8bit+0xef3>
.byte 243,68,15,16,16 // movss (%rax),%xmm10
.byte 69,15,198,210,0 // shufps $0x0,%xmm10,%xmm10
.byte 69,15,89,208 // mulps %xmm8,%xmm10
@@ -34871,7 +34828,7 @@ HIDDEN _sk_black_color_sse2
FUNCTION(_sk_black_color_sse2)
_sk_black_color_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,121,30,1,0 // movaps 0x11e79(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,47,31,1,0 // movaps 0x11f2f(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 15,87,201 // xorps %xmm1,%xmm1
.byte 15,87,210 // xorps %xmm2,%xmm2
@@ -34882,7 +34839,7 @@ HIDDEN _sk_white_color_sse2
FUNCTION(_sk_white_color_sse2)
_sk_white_color_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,5,101,30,1,0 // movaps 0x11e65(%rip),%xmm0 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,5,27,31,1,0 // movaps 0x11f1b(%rip),%xmm0 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 15,40,216 // movaps %xmm0,%xmm3
@@ -34928,7 +34885,7 @@ HIDDEN _sk_srcatop_sse2
FUNCTION(_sk_srcatop_sse2)
_sk_srcatop_sse2:
.byte 15,89,199 // mulps %xmm7,%xmm0
- .byte 68,15,40,5,21,30,1,0 // movaps 0x11e15(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,203,30,1,0 // movaps 0x11ecb(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,195 // subps %xmm3,%xmm8
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 68,15,89,204 // mulps %xmm4,%xmm9
@@ -34953,7 +34910,7 @@ FUNCTION(_sk_dstatop_sse2)
_sk_dstatop_sse2:
.byte 68,15,40,195 // movaps %xmm3,%xmm8
.byte 68,15,89,196 // mulps %xmm4,%xmm8
- .byte 68,15,40,13,200,29,1,0 // movaps 0x11dc8(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,126,30,1,0 // movaps 0x11e7e(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,207 // subps %xmm7,%xmm9
.byte 65,15,89,193 // mulps %xmm9,%xmm0
.byte 65,15,88,192 // addps %xmm8,%xmm0
@@ -35000,7 +34957,7 @@ HIDDEN _sk_srcout_sse2
.globl _sk_srcout_sse2
FUNCTION(_sk_srcout_sse2)
_sk_srcout_sse2:
- .byte 68,15,40,5,92,29,1,0 // movaps 0x11d5c(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,18,30,1,0 // movaps 0x11e12(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,199 // subps %xmm7,%xmm8
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 65,15,89,200 // mulps %xmm8,%xmm1
@@ -35013,7 +34970,7 @@ HIDDEN _sk_dstout_sse2
.globl _sk_dstout_sse2
FUNCTION(_sk_dstout_sse2)
_sk_dstout_sse2:
- .byte 68,15,40,5,60,29,1,0 // movaps 0x11d3c(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,242,29,1,0 // movaps 0x11df2(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,195 // subps %xmm3,%xmm8
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 15,89,196 // mulps %xmm4,%xmm0
@@ -35030,7 +34987,7 @@ HIDDEN _sk_srcover_sse2
.globl _sk_srcover_sse2
FUNCTION(_sk_srcover_sse2)
_sk_srcover_sse2:
- .byte 68,15,40,5,15,29,1,0 // movaps 0x11d0f(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,197,29,1,0 // movaps 0x11dc5(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,195 // subps %xmm3,%xmm8
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 68,15,89,204 // mulps %xmm4,%xmm9
@@ -35050,7 +35007,7 @@ HIDDEN _sk_dstover_sse2
.globl _sk_dstover_sse2
FUNCTION(_sk_dstover_sse2)
_sk_dstover_sse2:
- .byte 68,15,40,5,211,28,1,0 // movaps 0x11cd3(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,137,29,1,0 // movaps 0x11d89(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,199 // subps %xmm7,%xmm8
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 15,88,196 // addps %xmm4,%xmm0
@@ -35078,7 +35035,7 @@ HIDDEN _sk_multiply_sse2
.globl _sk_multiply_sse2
FUNCTION(_sk_multiply_sse2)
_sk_multiply_sse2:
- .byte 68,15,40,5,151,28,1,0 // movaps 0x11c97(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,77,29,1,0 // movaps 0x11d4d(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 68,15,92,207 // subps %xmm7,%xmm9
.byte 69,15,40,209 // movaps %xmm9,%xmm10
@@ -35116,7 +35073,7 @@ HIDDEN _sk_plus__sse2
FUNCTION(_sk_plus__sse2)
_sk_plus__sse2:
.byte 15,88,196 // addps %xmm4,%xmm0
- .byte 68,15,40,5,24,28,1,0 // movaps 0x11c18(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,206,28,1,0 // movaps 0x11cce(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 65,15,93,192 // minps %xmm8,%xmm0
.byte 15,88,205 // addps %xmm5,%xmm1
.byte 65,15,93,200 // minps %xmm8,%xmm1
@@ -35158,7 +35115,7 @@ HIDDEN _sk_xor__sse2
FUNCTION(_sk_xor__sse2)
_sk_xor__sse2:
.byte 68,15,40,195 // movaps %xmm3,%xmm8
- .byte 15,40,29,164,27,1,0 // movaps 0x11ba4(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,90,28,1,0 // movaps 0x11c5a(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,40,203 // movaps %xmm3,%xmm9
.byte 68,15,92,207 // subps %xmm7,%xmm9
.byte 65,15,89,193 // mulps %xmm9,%xmm0
@@ -35206,7 +35163,7 @@ _sk_darken_sse2:
.byte 68,15,89,206 // mulps %xmm6,%xmm9
.byte 65,15,95,209 // maxps %xmm9,%xmm2
.byte 68,15,92,194 // subps %xmm2,%xmm8
- .byte 15,40,21,255,26,1,0 // movaps 0x11aff(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,21,181,27,1,0 // movaps 0x11bb5(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,211 // subps %xmm3,%xmm2
.byte 15,89,215 // mulps %xmm7,%xmm2
.byte 15,88,218 // addps %xmm2,%xmm3
@@ -35240,7 +35197,7 @@ _sk_lighten_sse2:
.byte 68,15,89,206 // mulps %xmm6,%xmm9
.byte 65,15,93,209 // minps %xmm9,%xmm2
.byte 68,15,92,194 // subps %xmm2,%xmm8
- .byte 15,40,21,148,26,1,0 // movaps 0x11a94(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,21,74,27,1,0 // movaps 0x11b4a(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,211 // subps %xmm3,%xmm2
.byte 15,89,215 // mulps %xmm7,%xmm2
.byte 15,88,218 // addps %xmm2,%xmm3
@@ -35277,7 +35234,7 @@ _sk_difference_sse2:
.byte 65,15,93,209 // minps %xmm9,%xmm2
.byte 15,88,210 // addps %xmm2,%xmm2
.byte 68,15,92,194 // subps %xmm2,%xmm8
- .byte 15,40,21,30,26,1,0 // movaps 0x11a1e(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,21,212,26,1,0 // movaps 0x11ad4(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,211 // subps %xmm3,%xmm2
.byte 15,89,215 // mulps %xmm7,%xmm2
.byte 15,88,218 // addps %xmm2,%xmm3
@@ -35305,7 +35262,7 @@ _sk_exclusion_sse2:
.byte 15,89,214 // mulps %xmm6,%xmm2
.byte 15,88,210 // addps %xmm2,%xmm2
.byte 68,15,92,194 // subps %xmm2,%xmm8
- .byte 15,40,21,206,25,1,0 // movaps 0x119ce(%rip),%xmm2 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,21,132,26,1,0 // movaps 0x11a84(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,211 // subps %xmm3,%xmm2
.byte 15,89,215 // mulps %xmm7,%xmm2
.byte 15,88,218 // addps %xmm2,%xmm3
@@ -35318,7 +35275,7 @@ HIDDEN _sk_colorburn_sse2
FUNCTION(_sk_colorburn_sse2)
_sk_colorburn_sse2:
.byte 68,15,40,192 // movaps %xmm0,%xmm8
- .byte 68,15,40,13,177,25,1,0 // movaps 0x119b1(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,103,26,1,0 // movaps 0x11a67(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,209 // movaps %xmm9,%xmm10
.byte 68,15,92,215 // subps %xmm7,%xmm10
.byte 69,15,40,218 // movaps %xmm10,%xmm11
@@ -35413,7 +35370,7 @@ HIDDEN _sk_colordodge_sse2
FUNCTION(_sk_colordodge_sse2)
_sk_colordodge_sse2:
.byte 68,15,40,200 // movaps %xmm0,%xmm9
- .byte 68,15,40,21,89,24,1,0 // movaps 0x11859(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,21,15,25,1,0 // movaps 0x1190f(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,218 // movaps %xmm10,%xmm11
.byte 68,15,92,223 // subps %xmm7,%xmm11
.byte 65,15,40,195 // movaps %xmm11,%xmm0
@@ -35505,7 +35462,7 @@ _sk_hardlight_sse2:
.byte 15,41,116,36,232 // movaps %xmm6,-0x18(%rsp)
.byte 15,40,245 // movaps %xmm5,%xmm6
.byte 15,40,236 // movaps %xmm4,%xmm5
- .byte 68,15,40,29,2,23,1,0 // movaps 0x11702(%rip),%xmm11 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,29,184,23,1,0 // movaps 0x117b8(%rip),%xmm11 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,211 // movaps %xmm11,%xmm10
.byte 68,15,92,215 // subps %xmm7,%xmm10
.byte 69,15,40,194 // movaps %xmm10,%xmm8
@@ -35593,7 +35550,7 @@ FUNCTION(_sk_overlay_sse2)
_sk_overlay_sse2:
.byte 68,15,40,193 // movaps %xmm1,%xmm8
.byte 68,15,40,232 // movaps %xmm0,%xmm13
- .byte 68,15,40,13,192,21,1,0 // movaps 0x115c0(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,118,22,1,0 // movaps 0x11676(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,209 // movaps %xmm9,%xmm10
.byte 68,15,92,215 // subps %xmm7,%xmm10
.byte 69,15,40,218 // movaps %xmm10,%xmm11
@@ -35684,7 +35641,7 @@ _sk_softlight_sse2:
.byte 68,15,40,213 // movaps %xmm5,%xmm10
.byte 68,15,94,215 // divps %xmm7,%xmm10
.byte 69,15,84,212 // andps %xmm12,%xmm10
- .byte 68,15,40,13,109,20,1,0 // movaps 0x1146d(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,35,21,1,0 // movaps 0x11523(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,249 // movaps %xmm9,%xmm15
.byte 69,15,92,250 // subps %xmm10,%xmm15
.byte 69,15,40,218 // movaps %xmm10,%xmm11
@@ -35697,10 +35654,10 @@ _sk_softlight_sse2:
.byte 65,15,40,194 // movaps %xmm10,%xmm0
.byte 15,89,192 // mulps %xmm0,%xmm0
.byte 65,15,88,194 // addps %xmm10,%xmm0
- .byte 68,15,40,53,151,20,1,0 // movaps 0x11497(%rip),%xmm14 # 2c370 <_sk_overlay_sse2_8bit+0xe8b>
+ .byte 68,15,40,53,77,21,1,0 // movaps 0x1154d(%rip),%xmm14 # 2c3a0 <_sk_overlay_sse2_8bit+0xf03>
.byte 69,15,88,222 // addps %xmm14,%xmm11
.byte 68,15,89,216 // mulps %xmm0,%xmm11
- .byte 68,15,40,21,151,20,1,0 // movaps 0x11497(%rip),%xmm10 # 2c380 <_sk_overlay_sse2_8bit+0xe9b>
+ .byte 68,15,40,21,77,21,1,0 // movaps 0x1154d(%rip),%xmm10 # 2c3b0 <_sk_overlay_sse2_8bit+0xf13>
.byte 69,15,89,234 // mulps %xmm10,%xmm13
.byte 69,15,88,235 // addps %xmm11,%xmm13
.byte 15,88,228 // addps %xmm4,%xmm4
@@ -35845,7 +35802,7 @@ _sk_hue_sse2:
.byte 68,15,40,209 // movaps %xmm1,%xmm10
.byte 68,15,40,225 // movaps %xmm1,%xmm12
.byte 68,15,89,211 // mulps %xmm3,%xmm10
- .byte 68,15,40,5,42,18,1,0 // movaps 0x1122a(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,224,18,1,0 // movaps 0x112e0(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,216 // movaps %xmm8,%xmm11
.byte 15,40,207 // movaps %xmm7,%xmm1
.byte 68,15,92,217 // subps %xmm1,%xmm11
@@ -35893,12 +35850,12 @@ _sk_hue_sse2:
.byte 69,15,84,206 // andps %xmm14,%xmm9
.byte 69,15,84,214 // andps %xmm14,%xmm10
.byte 65,15,84,214 // andps %xmm14,%xmm2
- .byte 68,15,40,61,231,17,1,0 // movaps 0x111e7(%rip),%xmm15 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 68,15,40,61,157,18,1,0 // movaps 0x1129d(%rip),%xmm15 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 65,15,89,231 // mulps %xmm15,%xmm4
- .byte 15,40,5,236,17,1,0 // movaps 0x111ec(%rip),%xmm0 # 2c3a0 <_sk_overlay_sse2_8bit+0xebb>
+ .byte 15,40,5,162,18,1,0 // movaps 0x112a2(%rip),%xmm0 # 2c3d0 <_sk_overlay_sse2_8bit+0xf33>
.byte 15,89,240 // mulps %xmm0,%xmm6
.byte 15,88,244 // addps %xmm4,%xmm6
- .byte 68,15,40,53,238,17,1,0 // movaps 0x111ee(%rip),%xmm14 # 2c3b0 <_sk_overlay_sse2_8bit+0xecb>
+ .byte 68,15,40,53,164,18,1,0 // movaps 0x112a4(%rip),%xmm14 # 2c3e0 <_sk_overlay_sse2_8bit+0xf43>
.byte 68,15,40,239 // movaps %xmm7,%xmm13
.byte 69,15,89,238 // mulps %xmm14,%xmm13
.byte 68,15,88,238 // addps %xmm6,%xmm13
@@ -36076,14 +36033,14 @@ _sk_saturation_sse2:
.byte 68,15,84,211 // andps %xmm3,%xmm10
.byte 68,15,84,203 // andps %xmm3,%xmm9
.byte 15,84,195 // andps %xmm3,%xmm0
- .byte 68,15,40,5,64,15,1,0 // movaps 0x10f40(%rip),%xmm8 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 68,15,40,5,246,15,1,0 // movaps 0x10ff6(%rip),%xmm8 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 15,40,214 // movaps %xmm6,%xmm2
.byte 65,15,89,208 // mulps %xmm8,%xmm2
- .byte 15,40,13,66,15,1,0 // movaps 0x10f42(%rip),%xmm1 # 2c3a0 <_sk_overlay_sse2_8bit+0xebb>
+ .byte 15,40,13,248,15,1,0 // movaps 0x10ff8(%rip),%xmm1 # 2c3d0 <_sk_overlay_sse2_8bit+0xf33>
.byte 15,40,221 // movaps %xmm5,%xmm3
.byte 15,89,217 // mulps %xmm1,%xmm3
.byte 15,88,218 // addps %xmm2,%xmm3
- .byte 68,15,40,37,65,15,1,0 // movaps 0x10f41(%rip),%xmm12 # 2c3b0 <_sk_overlay_sse2_8bit+0xecb>
+ .byte 68,15,40,37,247,15,1,0 // movaps 0x10ff7(%rip),%xmm12 # 2c3e0 <_sk_overlay_sse2_8bit+0xf43>
.byte 69,15,89,236 // mulps %xmm12,%xmm13
.byte 68,15,88,235 // addps %xmm3,%xmm13
.byte 65,15,40,210 // movaps %xmm10,%xmm2
@@ -36128,7 +36085,7 @@ _sk_saturation_sse2:
.byte 15,40,223 // movaps %xmm7,%xmm3
.byte 15,40,236 // movaps %xmm4,%xmm5
.byte 15,89,221 // mulps %xmm5,%xmm3
- .byte 68,15,40,5,246,13,1,0 // movaps 0x10df6(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,172,14,1,0 // movaps 0x10eac(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 65,15,40,224 // movaps %xmm8,%xmm4
.byte 68,15,92,199 // subps %xmm7,%xmm8
.byte 15,88,253 // addps %xmm5,%xmm7
@@ -36229,14 +36186,14 @@ _sk_color_sse2:
.byte 68,15,40,213 // movaps %xmm5,%xmm10
.byte 69,15,89,208 // mulps %xmm8,%xmm10
.byte 65,15,40,208 // movaps %xmm8,%xmm2
- .byte 68,15,40,45,4,13,1,0 // movaps 0x10d04(%rip),%xmm13 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 68,15,40,45,186,13,1,0 // movaps 0x10dba(%rip),%xmm13 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 68,15,40,198 // movaps %xmm6,%xmm8
.byte 69,15,89,197 // mulps %xmm13,%xmm8
- .byte 68,15,40,53,4,13,1,0 // movaps 0x10d04(%rip),%xmm14 # 2c3a0 <_sk_overlay_sse2_8bit+0xebb>
+ .byte 68,15,40,53,186,13,1,0 // movaps 0x10dba(%rip),%xmm14 # 2c3d0 <_sk_overlay_sse2_8bit+0xf33>
.byte 65,15,40,195 // movaps %xmm11,%xmm0
.byte 65,15,89,198 // mulps %xmm14,%xmm0
.byte 65,15,88,192 // addps %xmm8,%xmm0
- .byte 68,15,40,29,0,13,1,0 // movaps 0x10d00(%rip),%xmm11 # 2c3b0 <_sk_overlay_sse2_8bit+0xecb>
+ .byte 68,15,40,29,182,13,1,0 // movaps 0x10db6(%rip),%xmm11 # 2c3e0 <_sk_overlay_sse2_8bit+0xf43>
.byte 69,15,89,227 // mulps %xmm11,%xmm12
.byte 68,15,88,224 // addps %xmm0,%xmm12
.byte 65,15,40,193 // movaps %xmm9,%xmm0
@@ -36244,7 +36201,7 @@ _sk_color_sse2:
.byte 69,15,40,250 // movaps %xmm10,%xmm15
.byte 69,15,89,254 // mulps %xmm14,%xmm15
.byte 68,15,88,248 // addps %xmm0,%xmm15
- .byte 68,15,40,5,60,12,1,0 // movaps 0x10c3c(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,242,12,1,0 // movaps 0x10cf2(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 65,15,40,224 // movaps %xmm8,%xmm4
.byte 15,92,226 // subps %xmm2,%xmm4
.byte 15,89,252 // mulps %xmm4,%xmm7
@@ -36380,15 +36337,15 @@ _sk_luminosity_sse2:
.byte 68,15,40,205 // movaps %xmm5,%xmm9
.byte 68,15,89,204 // mulps %xmm4,%xmm9
.byte 15,89,222 // mulps %xmm6,%xmm3
- .byte 68,15,40,37,195,10,1,0 // movaps 0x10ac3(%rip),%xmm12 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 68,15,40,37,121,11,1,0 // movaps 0x10b79(%rip),%xmm12 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 68,15,40,199 // movaps %xmm7,%xmm8
.byte 69,15,89,196 // mulps %xmm12,%xmm8
- .byte 68,15,40,45,195,10,1,0 // movaps 0x10ac3(%rip),%xmm13 # 2c3a0 <_sk_overlay_sse2_8bit+0xebb>
+ .byte 68,15,40,45,121,11,1,0 // movaps 0x10b79(%rip),%xmm13 # 2c3d0 <_sk_overlay_sse2_8bit+0xf33>
.byte 68,15,40,241 // movaps %xmm1,%xmm14
.byte 69,15,89,245 // mulps %xmm13,%xmm14
.byte 69,15,88,240 // addps %xmm8,%xmm14
- .byte 68,15,40,29,191,10,1,0 // movaps 0x10abf(%rip),%xmm11 # 2c3b0 <_sk_overlay_sse2_8bit+0xecb>
- .byte 68,15,40,5,23,10,1,0 // movaps 0x10a17(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,29,117,11,1,0 // movaps 0x10b75(%rip),%xmm11 # 2c3e0 <_sk_overlay_sse2_8bit+0xf43>
+ .byte 68,15,40,5,205,10,1,0 // movaps 0x10acd(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,248 // movaps %xmm8,%xmm15
.byte 65,15,40,194 // movaps %xmm10,%xmm0
.byte 68,15,92,248 // subps %xmm0,%xmm15
@@ -36522,17 +36479,17 @@ HIDDEN _sk_srcover_rgba_8888_sse2
FUNCTION(_sk_srcover_rgba_8888_sse2)
_sk_srcover_rgba_8888_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,228,0,0,0 // jne 1bbe4 <_sk_srcover_rgba_8888_sse2+0x104>
- .byte 243,69,15,111,4,129 // movdqu (%r9,%rax,4),%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 102,15,111,53,175,8,1,0 // movdqa 0x108af(%rip),%xmm6 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,228,0,0,0 // jne 1bb5e <_sk_srcover_rgba_8888_sse2+0x104>
+ .byte 243,69,15,111,4,128 // movdqu (%r8,%rax,4),%xmm8
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 102,15,111,53,101,9,1,0 // movdqa 0x10965(%rip),%xmm6 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,65,15,111,224 // movdqa %xmm8,%xmm4
.byte 102,15,219,230 // pand %xmm6,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
@@ -36546,9 +36503,9 @@ _sk_srcover_rgba_8888_sse2:
.byte 15,91,247 // cvtdq2ps %xmm7,%xmm6
.byte 102,65,15,114,208,24 // psrld $0x18,%xmm8
.byte 65,15,91,248 // cvtdq2ps %xmm8,%xmm7
- .byte 68,15,40,5,191,7,1,0 // movaps 0x107bf(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,117,8,1,0 // movaps 0x10875(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,92,195 // subps %xmm3,%xmm8
- .byte 68,15,40,37,147,8,1,0 // movaps 0x10893(%rip),%xmm12 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 68,15,40,37,73,9,1,0 // movaps 0x10949(%rip),%xmm12 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 65,15,89,196 // mulps %xmm12,%xmm0
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 68,15,89,204 // mulps %xmm4,%xmm9
@@ -36574,43 +36531,43 @@ _sk_srcover_rgba_8888_sse2:
.byte 102,15,114,240,24 // pslld $0x18,%xmm0
.byte 102,15,235,194 // por %xmm2,%xmm0
.byte 102,15,235,193 // por %xmm1,%xmm0
- .byte 117,84 // jne 1bc1e <_sk_srcover_rgba_8888_sse2+0x13e>
- .byte 243,65,15,127,4,129 // movdqu %xmm0,(%r9,%rax,4)
+ .byte 117,84 // jne 1bb98 <_sk_srcover_rgba_8888_sse2+0x13e>
+ .byte 243,65,15,127,4,128 // movdqu %xmm0,(%r8,%rax,4)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 65,15,40,202 // movaps %xmm10,%xmm1
.byte 65,15,40,211 // movaps %xmm11,%xmm2
.byte 65,15,40,216 // movaps %xmm8,%xmm3
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,90 // je 1bc4b <_sk_srcover_rgba_8888_sse2+0x16b>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,90 // je 1bbc5 <_sk_srcover_rgba_8888_sse2+0x16b>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,23 // je 1bc13 <_sk_srcover_rgba_8888_sse2+0x133>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 15,133,0,255,255,255 // jne 1bb06 <_sk_srcover_rgba_8888_sse2+0x26>
- .byte 102,65,15,110,100,129,8 // movd 0x8(%r9,%rax,4),%xmm4
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,23 // je 1bb8d <_sk_srcover_rgba_8888_sse2+0x133>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 15,133,0,255,255,255 // jne 1ba80 <_sk_srcover_rgba_8888_sse2+0x26>
+ .byte 102,65,15,110,100,128,8 // movd 0x8(%r8,%rax,4),%xmm4
.byte 102,68,15,112,196,69 // pshufd $0x45,%xmm4,%xmm8
- .byte 102,69,15,18,4,129 // movlpd (%r9,%rax,4),%xmm8
- .byte 233,232,254,255,255 // jmpq 1bb06 <_sk_srcover_rgba_8888_sse2+0x26>
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,43 // je 1bc56 <_sk_srcover_rgba_8888_sse2+0x176>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,18 // je 1bc43 <_sk_srcover_rgba_8888_sse2+0x163>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,153 // jne 1bbd0 <_sk_srcover_rgba_8888_sse2+0xf0>
+ .byte 102,69,15,18,4,128 // movlpd (%r8,%rax,4),%xmm8
+ .byte 233,232,254,255,255 // jmpq 1ba80 <_sk_srcover_rgba_8888_sse2+0x26>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,43 // je 1bbd0 <_sk_srcover_rgba_8888_sse2+0x176>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,18 // je 1bbbd <_sk_srcover_rgba_8888_sse2+0x163>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,153 // jne 1bb4a <_sk_srcover_rgba_8888_sse2+0xf0>
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
- .byte 102,65,15,126,76,129,8 // movd %xmm1,0x8(%r9,%rax,4)
- .byte 102,65,15,214,4,129 // movq %xmm0,(%r9,%rax,4)
- .byte 235,133 // jmp 1bbd0 <_sk_srcover_rgba_8888_sse2+0xf0>
- .byte 102,69,15,110,4,129 // movd (%r9,%rax,4),%xmm8
- .byte 233,176,254,255,255 // jmpq 1bb06 <_sk_srcover_rgba_8888_sse2+0x26>
- .byte 102,65,15,126,4,129 // movd %xmm0,(%r9,%rax,4)
- .byte 233,111,255,255,255 // jmpq 1bbd0 <_sk_srcover_rgba_8888_sse2+0xf0>
+ .byte 102,65,15,126,76,128,8 // movd %xmm1,0x8(%r8,%rax,4)
+ .byte 102,65,15,214,4,128 // movq %xmm0,(%r8,%rax,4)
+ .byte 235,133 // jmp 1bb4a <_sk_srcover_rgba_8888_sse2+0xf0>
+ .byte 102,69,15,110,4,128 // movd (%r8,%rax,4),%xmm8
+ .byte 233,176,254,255,255 // jmpq 1ba80 <_sk_srcover_rgba_8888_sse2+0x26>
+ .byte 102,65,15,126,4,128 // movd %xmm0,(%r8,%rax,4)
+ .byte 233,111,255,255,255 // jmpq 1bb4a <_sk_srcover_rgba_8888_sse2+0xf0>
HIDDEN _sk_clamp_0_sse2
.globl _sk_clamp_0_sse2
@@ -36628,7 +36585,7 @@ HIDDEN _sk_clamp_1_sse2
.globl _sk_clamp_1_sse2
FUNCTION(_sk_clamp_1_sse2)
_sk_clamp_1_sse2:
- .byte 68,15,40,5,143,6,1,0 // movaps 0x1068f(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,69,7,1,0 // movaps 0x10745(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 65,15,93,192 // minps %xmm8,%xmm0
.byte 65,15,93,200 // minps %xmm8,%xmm1
.byte 65,15,93,208 // minps %xmm8,%xmm2
@@ -36640,7 +36597,7 @@ HIDDEN _sk_clamp_a_sse2
.globl _sk_clamp_a_sse2
FUNCTION(_sk_clamp_a_sse2)
_sk_clamp_a_sse2:
- .byte 15,93,29,116,6,1,0 // minps 0x10674(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,93,29,42,7,1,0 // minps 0x1072a(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,93,195 // minps %xmm3,%xmm0
.byte 15,93,203 // minps %xmm3,%xmm1
.byte 15,93,211 // minps %xmm3,%xmm2
@@ -36651,7 +36608,7 @@ HIDDEN _sk_clamp_a_dst_sse2
.globl _sk_clamp_a_dst_sse2
FUNCTION(_sk_clamp_a_dst_sse2)
_sk_clamp_a_dst_sse2:
- .byte 15,93,61,96,6,1,0 // minps 0x10660(%rip),%xmm7 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,93,61,22,7,1,0 // minps 0x10716(%rip),%xmm7 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,93,231 // minps %xmm7,%xmm4
.byte 15,93,239 // minps %xmm7,%xmm5
.byte 15,93,247 // minps %xmm7,%xmm6
@@ -36686,7 +36643,7 @@ HIDDEN _sk_invert_sse2
.globl _sk_invert_sse2
FUNCTION(_sk_invert_sse2)
_sk_invert_sse2:
- .byte 68,15,40,5,28,6,1,0 // movaps 0x1061c(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,5,210,6,1,0 // movaps 0x106d2(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 68,15,92,200 // subps %xmm0,%xmm9
.byte 69,15,40,208 // movaps %xmm8,%xmm10
@@ -36748,7 +36705,7 @@ HIDDEN _sk_unpremul_sse2
FUNCTION(_sk_unpremul_sse2)
_sk_unpremul_sse2:
.byte 69,15,87,192 // xorps %xmm8,%xmm8
- .byte 68,15,40,13,166,5,1,0 // movaps 0x105a6(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,92,6,1,0 // movaps 0x1065c(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,94,203 // divps %xmm3,%xmm9
.byte 68,15,194,195,4 // cmpneqps %xmm3,%xmm8
.byte 69,15,84,193 // andps %xmm9,%xmm8
@@ -36762,20 +36719,20 @@ HIDDEN _sk_from_srgb_sse2
.globl _sk_from_srgb_sse2
FUNCTION(_sk_from_srgb_sse2)
_sk_from_srgb_sse2:
- .byte 68,15,40,5,113,6,1,0 // movaps 0x10671(%rip),%xmm8 # 2c400 <_sk_overlay_sse2_8bit+0xf1b>
+ .byte 68,15,40,5,39,7,1,0 // movaps 0x10727(%rip),%xmm8 # 2c430 <_sk_overlay_sse2_8bit+0xf93>
.byte 68,15,40,232 // movaps %xmm0,%xmm13
.byte 69,15,89,232 // mulps %xmm8,%xmm13
.byte 68,15,40,216 // movaps %xmm0,%xmm11
.byte 69,15,89,219 // mulps %xmm11,%xmm11
- .byte 68,15,40,13,233,5,1,0 // movaps 0x105e9(%rip),%xmm9 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 68,15,40,13,159,6,1,0 // movaps 0x1069f(%rip),%xmm9 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 68,15,40,240 // movaps %xmm0,%xmm14
.byte 69,15,89,241 // mulps %xmm9,%xmm14
- .byte 68,15,40,21,89,6,1,0 // movaps 0x10659(%rip),%xmm10 # 2c410 <_sk_overlay_sse2_8bit+0xf2b>
+ .byte 68,15,40,21,15,7,1,0 // movaps 0x1070f(%rip),%xmm10 # 2c440 <_sk_overlay_sse2_8bit+0xfa3>
.byte 69,15,88,242 // addps %xmm10,%xmm14
.byte 69,15,89,243 // mulps %xmm11,%xmm14
- .byte 68,15,40,29,89,6,1,0 // movaps 0x10659(%rip),%xmm11 # 2c420 <_sk_overlay_sse2_8bit+0xf3b>
+ .byte 68,15,40,29,15,7,1,0 // movaps 0x1070f(%rip),%xmm11 # 2c450 <_sk_overlay_sse2_8bit+0xfb3>
.byte 69,15,88,243 // addps %xmm11,%xmm14
- .byte 68,15,40,37,93,6,1,0 // movaps 0x1065d(%rip),%xmm12 # 2c430 <_sk_overlay_sse2_8bit+0xf4b>
+ .byte 68,15,40,37,19,7,1,0 // movaps 0x10713(%rip),%xmm12 # 2c460 <_sk_overlay_sse2_8bit+0xfc3>
.byte 65,15,194,196,1 // cmpltps %xmm12,%xmm0
.byte 68,15,84,232 // andps %xmm0,%xmm13
.byte 65,15,85,198 // andnps %xmm14,%xmm0
@@ -36811,20 +36768,20 @@ HIDDEN _sk_from_srgb_dst_sse2
.globl _sk_from_srgb_dst_sse2
FUNCTION(_sk_from_srgb_dst_sse2)
_sk_from_srgb_dst_sse2:
- .byte 68,15,40,5,174,5,1,0 // movaps 0x105ae(%rip),%xmm8 # 2c400 <_sk_overlay_sse2_8bit+0xf1b>
+ .byte 68,15,40,5,100,6,1,0 // movaps 0x10664(%rip),%xmm8 # 2c430 <_sk_overlay_sse2_8bit+0xf93>
.byte 68,15,40,236 // movaps %xmm4,%xmm13
.byte 69,15,89,232 // mulps %xmm8,%xmm13
.byte 68,15,40,220 // movaps %xmm4,%xmm11
.byte 69,15,89,219 // mulps %xmm11,%xmm11
- .byte 68,15,40,13,38,5,1,0 // movaps 0x10526(%rip),%xmm9 # 2c390 <_sk_overlay_sse2_8bit+0xeab>
+ .byte 68,15,40,13,220,5,1,0 // movaps 0x105dc(%rip),%xmm9 # 2c3c0 <_sk_overlay_sse2_8bit+0xf23>
.byte 68,15,40,244 // movaps %xmm4,%xmm14
.byte 69,15,89,241 // mulps %xmm9,%xmm14
- .byte 68,15,40,21,150,5,1,0 // movaps 0x10596(%rip),%xmm10 # 2c410 <_sk_overlay_sse2_8bit+0xf2b>
+ .byte 68,15,40,21,76,6,1,0 // movaps 0x1064c(%rip),%xmm10 # 2c440 <_sk_overlay_sse2_8bit+0xfa3>
.byte 69,15,88,242 // addps %xmm10,%xmm14
.byte 69,15,89,243 // mulps %xmm11,%xmm14
- .byte 68,15,40,29,150,5,1,0 // movaps 0x10596(%rip),%xmm11 # 2c420 <_sk_overlay_sse2_8bit+0xf3b>
+ .byte 68,15,40,29,76,6,1,0 // movaps 0x1064c(%rip),%xmm11 # 2c450 <_sk_overlay_sse2_8bit+0xfb3>
.byte 69,15,88,243 // addps %xmm11,%xmm14
- .byte 68,15,40,37,154,5,1,0 // movaps 0x1059a(%rip),%xmm12 # 2c430 <_sk_overlay_sse2_8bit+0xf4b>
+ .byte 68,15,40,37,80,6,1,0 // movaps 0x10650(%rip),%xmm12 # 2c460 <_sk_overlay_sse2_8bit+0xfc3>
.byte 65,15,194,228,1 // cmpltps %xmm12,%xmm4
.byte 68,15,84,236 // andps %xmm4,%xmm13
.byte 65,15,85,230 // andnps %xmm14,%xmm4
@@ -36861,22 +36818,22 @@ HIDDEN _sk_to_srgb_sse2
FUNCTION(_sk_to_srgb_sse2)
_sk_to_srgb_sse2:
.byte 68,15,82,232 // rsqrtps %xmm0,%xmm13
- .byte 68,15,40,5,39,5,1,0 // movaps 0x10527(%rip),%xmm8 # 2c440 <_sk_overlay_sse2_8bit+0xf5b>
+ .byte 68,15,40,5,221,5,1,0 // movaps 0x105dd(%rip),%xmm8 # 2c470 <_sk_overlay_sse2_8bit+0xfd3>
.byte 68,15,40,240 // movaps %xmm0,%xmm14
.byte 69,15,89,240 // mulps %xmm8,%xmm14
- .byte 68,15,40,13,39,5,1,0 // movaps 0x10527(%rip),%xmm9 # 2c450 <_sk_overlay_sse2_8bit+0xf6b>
+ .byte 68,15,40,13,221,5,1,0 // movaps 0x105dd(%rip),%xmm9 # 2c480 <_sk_overlay_sse2_8bit+0xfe3>
.byte 69,15,40,253 // movaps %xmm13,%xmm15
.byte 69,15,89,249 // mulps %xmm9,%xmm15
- .byte 68,15,40,21,39,5,1,0 // movaps 0x10527(%rip),%xmm10 # 2c460 <_sk_overlay_sse2_8bit+0xf7b>
+ .byte 68,15,40,21,221,5,1,0 // movaps 0x105dd(%rip),%xmm10 # 2c490 <_sk_overlay_sse2_8bit+0xff3>
.byte 69,15,88,250 // addps %xmm10,%xmm15
.byte 69,15,89,253 // mulps %xmm13,%xmm15
- .byte 68,15,40,29,39,5,1,0 // movaps 0x10527(%rip),%xmm11 # 2c470 <_sk_overlay_sse2_8bit+0xf8b>
+ .byte 68,15,40,29,221,5,1,0 // movaps 0x105dd(%rip),%xmm11 # 2c4a0 <_sk_overlay_sse2_8bit+0x1003>
.byte 69,15,88,251 // addps %xmm11,%xmm15
- .byte 68,15,40,37,43,5,1,0 // movaps 0x1052b(%rip),%xmm12 # 2c480 <_sk_overlay_sse2_8bit+0xf9b>
+ .byte 68,15,40,37,225,5,1,0 // movaps 0x105e1(%rip),%xmm12 # 2c4b0 <_sk_overlay_sse2_8bit+0x1013>
.byte 69,15,88,236 // addps %xmm12,%xmm13
.byte 69,15,83,237 // rcpps %xmm13,%xmm13
.byte 69,15,89,239 // mulps %xmm15,%xmm13
- .byte 68,15,40,61,39,5,1,0 // movaps 0x10527(%rip),%xmm15 # 2c490 <_sk_overlay_sse2_8bit+0xfab>
+ .byte 68,15,40,61,221,5,1,0 // movaps 0x105dd(%rip),%xmm15 # 2c4c0 <_sk_overlay_sse2_8bit+0x1023>
.byte 65,15,194,199,1 // cmpltps %xmm15,%xmm0
.byte 68,15,84,240 // andps %xmm0,%xmm14
.byte 65,15,85,197 // andnps %xmm13,%xmm0
@@ -36928,7 +36885,7 @@ _sk_rgb_to_hsl_sse2:
.byte 68,15,93,216 // minps %xmm0,%xmm11
.byte 65,15,40,202 // movaps %xmm10,%xmm1
.byte 65,15,92,203 // subps %xmm11,%xmm1
- .byte 68,15,40,45,234,2,1,0 // movaps 0x102ea(%rip),%xmm13 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,45,160,3,1,0 // movaps 0x103a0(%rip),%xmm13 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 68,15,94,233 // divps %xmm1,%xmm13
.byte 65,15,40,194 // movaps %xmm10,%xmm0
.byte 65,15,194,192,0 // cmpeqps %xmm8,%xmm0
@@ -36937,30 +36894,30 @@ _sk_rgb_to_hsl_sse2:
.byte 69,15,89,229 // mulps %xmm13,%xmm12
.byte 69,15,40,241 // movaps %xmm9,%xmm14
.byte 68,15,194,242,1 // cmpltps %xmm2,%xmm14
- .byte 68,15,84,53,80,4,1,0 // andps 0x10450(%rip),%xmm14 # 2c4a0 <_sk_overlay_sse2_8bit+0xfbb>
+ .byte 68,15,84,53,6,5,1,0 // andps 0x10506(%rip),%xmm14 # 2c4d0 <_sk_overlay_sse2_8bit+0x1033>
.byte 69,15,88,244 // addps %xmm12,%xmm14
.byte 69,15,40,250 // movaps %xmm10,%xmm15
.byte 69,15,194,249,0 // cmpeqps %xmm9,%xmm15
.byte 65,15,92,208 // subps %xmm8,%xmm2
.byte 65,15,89,213 // mulps %xmm13,%xmm2
- .byte 68,15,40,37,67,4,1,0 // movaps 0x10443(%rip),%xmm12 # 2c4b0 <_sk_overlay_sse2_8bit+0xfcb>
+ .byte 68,15,40,37,249,4,1,0 // movaps 0x104f9(%rip),%xmm12 # 2c4e0 <_sk_overlay_sse2_8bit+0x1043>
.byte 65,15,88,212 // addps %xmm12,%xmm2
.byte 69,15,92,193 // subps %xmm9,%xmm8
.byte 69,15,89,197 // mulps %xmm13,%xmm8
- .byte 68,15,88,5,63,4,1,0 // addps 0x1043f(%rip),%xmm8 # 2c4c0 <_sk_overlay_sse2_8bit+0xfdb>
+ .byte 68,15,88,5,245,4,1,0 // addps 0x104f5(%rip),%xmm8 # 2c4f0 <_sk_overlay_sse2_8bit+0x1053>
.byte 65,15,84,215 // andps %xmm15,%xmm2
.byte 69,15,85,248 // andnps %xmm8,%xmm15
.byte 68,15,86,250 // orps %xmm2,%xmm15
.byte 68,15,84,240 // andps %xmm0,%xmm14
.byte 65,15,85,199 // andnps %xmm15,%xmm0
.byte 65,15,86,198 // orps %xmm14,%xmm0
- .byte 15,89,5,48,4,1,0 // mulps 0x10430(%rip),%xmm0 # 2c4d0 <_sk_overlay_sse2_8bit+0xfeb>
+ .byte 15,89,5,230,4,1,0 // mulps 0x104e6(%rip),%xmm0 # 2c500 <_sk_overlay_sse2_8bit+0x1063>
.byte 69,15,40,194 // movaps %xmm10,%xmm8
.byte 69,15,194,195,4 // cmpneqps %xmm11,%xmm8
.byte 65,15,84,192 // andps %xmm8,%xmm0
.byte 69,15,92,226 // subps %xmm10,%xmm12
.byte 69,15,88,211 // addps %xmm11,%xmm10
- .byte 68,15,40,13,67,2,1,0 // movaps 0x10243(%rip),%xmm9 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,13,233,2,1,0 // movaps 0x102e9(%rip),%xmm9 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 65,15,40,210 // movaps %xmm10,%xmm2
.byte 65,15,89,209 // mulps %xmm9,%xmm2
.byte 68,15,194,202,1 // cmpltps %xmm2,%xmm9
@@ -36984,7 +36941,7 @@ _sk_hsl_to_rgb_sse2:
.byte 15,41,92,36,168 // movaps %xmm3,-0x58(%rsp)
.byte 68,15,40,218 // movaps %xmm2,%xmm11
.byte 15,40,240 // movaps %xmm0,%xmm6
- .byte 68,15,40,13,242,1,1,0 // movaps 0x101f2(%rip),%xmm9 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,13,152,2,1,0 // movaps 0x10298(%rip),%xmm9 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 69,15,40,209 // movaps %xmm9,%xmm10
.byte 69,15,194,211,2 // cmpleps %xmm11,%xmm10
.byte 15,40,193 // movaps %xmm1,%xmm0
@@ -37001,28 +36958,28 @@ _sk_hsl_to_rgb_sse2:
.byte 69,15,88,211 // addps %xmm11,%xmm10
.byte 69,15,88,219 // addps %xmm11,%xmm11
.byte 69,15,92,218 // subps %xmm10,%xmm11
- .byte 15,40,5,139,3,1,0 // movaps 0x1038b(%rip),%xmm0 # 2c4e0 <_sk_overlay_sse2_8bit+0xffb>
+ .byte 15,40,5,65,4,1,0 // movaps 0x10441(%rip),%xmm0 # 2c510 <_sk_overlay_sse2_8bit+0x1073>
.byte 15,88,198 // addps %xmm6,%xmm0
.byte 243,15,91,200 // cvttps2dq %xmm0,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
.byte 15,40,216 // movaps %xmm0,%xmm3
.byte 15,194,217,1 // cmpltps %xmm1,%xmm3
- .byte 15,84,29,163,1,1,0 // andps 0x101a3(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,84,29,89,2,1,0 // andps 0x10259(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,203 // subps %xmm3,%xmm1
.byte 15,92,193 // subps %xmm1,%xmm0
- .byte 68,15,40,45,117,3,1,0 // movaps 0x10375(%rip),%xmm13 # 2c4f0 <_sk_overlay_sse2_8bit+0x100b>
+ .byte 68,15,40,45,43,4,1,0 // movaps 0x1042b(%rip),%xmm13 # 2c520 <_sk_overlay_sse2_8bit+0x1083>
.byte 69,15,40,197 // movaps %xmm13,%xmm8
.byte 68,15,194,192,2 // cmpleps %xmm0,%xmm8
.byte 69,15,40,242 // movaps %xmm10,%xmm14
.byte 69,15,92,243 // subps %xmm11,%xmm14
.byte 65,15,40,217 // movaps %xmm9,%xmm3
.byte 15,194,216,2 // cmpleps %xmm0,%xmm3
- .byte 15,40,21,53,3,1,0 // movaps 0x10335(%rip),%xmm2 # 2c4d0 <_sk_overlay_sse2_8bit+0xfeb>
+ .byte 15,40,21,235,3,1,0 // movaps 0x103eb(%rip),%xmm2 # 2c500 <_sk_overlay_sse2_8bit+0x1063>
.byte 68,15,40,250 // movaps %xmm2,%xmm15
.byte 68,15,194,248,2 // cmpleps %xmm0,%xmm15
- .byte 15,40,13,245,2,1,0 // movaps 0x102f5(%rip),%xmm1 # 2c4a0 <_sk_overlay_sse2_8bit+0xfbb>
+ .byte 15,40,13,171,3,1,0 // movaps 0x103ab(%rip),%xmm1 # 2c4d0 <_sk_overlay_sse2_8bit+0x1033>
.byte 15,89,193 // mulps %xmm1,%xmm0
- .byte 15,40,45,11,3,1,0 // movaps 0x1030b(%rip),%xmm5 # 2c4c0 <_sk_overlay_sse2_8bit+0xfdb>
+ .byte 15,40,45,193,3,1,0 // movaps 0x103c1(%rip),%xmm5 # 2c4f0 <_sk_overlay_sse2_8bit+0x1053>
.byte 15,40,229 // movaps %xmm5,%xmm4
.byte 15,92,224 // subps %xmm0,%xmm4
.byte 65,15,89,230 // mulps %xmm14,%xmm4
@@ -37045,7 +37002,7 @@ _sk_hsl_to_rgb_sse2:
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
.byte 15,40,222 // movaps %xmm6,%xmm3
.byte 15,194,216,1 // cmpltps %xmm0,%xmm3
- .byte 15,84,29,0,1,1,0 // andps 0x10100(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,84,29,182,1,1,0 // andps 0x101b6(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,195 // subps %xmm3,%xmm0
.byte 68,15,40,230 // movaps %xmm6,%xmm12
.byte 68,15,92,224 // subps %xmm0,%xmm12
@@ -37075,12 +37032,12 @@ _sk_hsl_to_rgb_sse2:
.byte 15,40,124,36,136 // movaps -0x78(%rsp),%xmm7
.byte 15,40,231 // movaps %xmm7,%xmm4
.byte 15,85,227 // andnps %xmm3,%xmm4
- .byte 15,88,53,120,2,1,0 // addps 0x10278(%rip),%xmm6 # 2c500 <_sk_overlay_sse2_8bit+0x101b>
+ .byte 15,88,53,46,3,1,0 // addps 0x1032e(%rip),%xmm6 # 2c530 <_sk_overlay_sse2_8bit+0x1093>
.byte 243,15,91,198 // cvttps2dq %xmm6,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
.byte 15,40,222 // movaps %xmm6,%xmm3
.byte 15,194,216,1 // cmpltps %xmm0,%xmm3
- .byte 15,84,29,115,0,1,0 // andps 0x10073(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,84,29,41,1,1,0 // andps 0x10129(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,92,195 // subps %xmm3,%xmm0
.byte 15,92,240 // subps %xmm0,%xmm6
.byte 15,89,206 // mulps %xmm6,%xmm1
@@ -37138,19 +37095,19 @@ HIDDEN _sk_scale_u8_sse2
FUNCTION(_sk_scale_u8_sse2)
_sk_scale_u8_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,61 // jne 1c39e <_sk_scale_u8_sse2+0x55>
- .byte 102,71,15,110,4,25 // movd (%r9,%r11,1),%xmm8
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,61 // jne 1c318 <_sk_scale_u8_sse2+0x55>
+ .byte 102,71,15,110,4,16 // movd (%r8,%r10,1),%xmm8
.byte 102,68,15,96,192 // punpcklbw %xmm0,%xmm8
.byte 102,68,15,97,192 // punpcklwd %xmm0,%xmm8
- .byte 102,68,15,219,5,70,0,1,0 // pand 0x10046(%rip),%xmm8 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,68,15,219,5,252,0,1,0 // pand 0x100fc(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 69,15,91,192 // cvtdq2ps %xmm8,%xmm8
- .byte 68,15,89,5,138,1,1,0 // mulps 0x1018a(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,89,5,64,2,1,0 // mulps 0x10240(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 65,15,89,200 // mulps %xmm8,%xmm1
.byte 65,15,89,208 // mulps %xmm8,%xmm2
@@ -37158,54 +37115,54 @@ _sk_scale_u8_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,216 // movaps %xmm8,%xmm3
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,61 // je 1c3e8 <_sk_scale_u8_sse2+0x9f>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,61 // je 1c362 <_sk_scale_u8_sse2+0x9f>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,23 // je 1c3cd <_sk_scale_u8_sse2+0x84>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,181 // jne 1c371 <_sk_scale_u8_sse2+0x28>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,23 // je 1c347 <_sk_scale_u8_sse2+0x84>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,181 // jne 1c2eb <_sk_scale_u8_sse2+0x28>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
.byte 102,69,15,112,192,69 // pshufd $0x45,%xmm8,%xmm8
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,68,15,110,200 // movd %eax,%xmm9
.byte 102,68,15,96,200 // punpcklbw %xmm0,%xmm9
.byte 102,68,15,97,200 // punpcklwd %xmm0,%xmm9
.byte 242,69,15,16,193 // movsd %xmm9,%xmm8
- .byte 235,137 // jmp 1c371 <_sk_scale_u8_sse2+0x28>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 235,137 // jmp 1c2eb <_sk_scale_u8_sse2+0x28>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
- .byte 233,122,255,255,255 // jmpq 1c371 <_sk_scale_u8_sse2+0x28>
+ .byte 233,122,255,255,255 // jmpq 1c2eb <_sk_scale_u8_sse2+0x28>
HIDDEN _sk_scale_565_sse2
.globl _sk_scale_565_sse2
FUNCTION(_sk_scale_565_sse2)
_sk_scale_565_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,173,0,0,0 // jne 1c4c3 <_sk_scale_565_sse2+0xcc>
- .byte 243,71,15,126,20,89 // movq (%r9,%r11,2),%xmm10
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,173,0,0,0 // jne 1c43d <_sk_scale_565_sse2+0xcc>
+ .byte 243,71,15,126,20,80 // movq (%r8,%r10,2),%xmm10
.byte 102,68,15,97,208 // punpcklwd %xmm0,%xmm10
- .byte 102,68,15,111,5,246,0,1,0 // movdqa 0x100f6(%rip),%xmm8 # 2c520 <_sk_overlay_sse2_8bit+0x103b>
+ .byte 102,68,15,111,5,172,1,1,0 // movdqa 0x101ac(%rip),%xmm8 # 2c550 <_sk_overlay_sse2_8bit+0x10b3>
.byte 102,69,15,219,194 // pand %xmm10,%xmm8
.byte 69,15,91,192 // cvtdq2ps %xmm8,%xmm8
- .byte 68,15,89,5,245,0,1,0 // mulps 0x100f5(%rip),%xmm8 # 2c530 <_sk_overlay_sse2_8bit+0x104b>
- .byte 102,68,15,111,13,252,0,1,0 // movdqa 0x100fc(%rip),%xmm9 # 2c540 <_sk_overlay_sse2_8bit+0x105b>
+ .byte 68,15,89,5,171,1,1,0 // mulps 0x101ab(%rip),%xmm8 # 2c560 <_sk_overlay_sse2_8bit+0x10c3>
+ .byte 102,68,15,111,13,178,1,1,0 // movdqa 0x101b2(%rip),%xmm9 # 2c570 <_sk_overlay_sse2_8bit+0x10d3>
.byte 102,69,15,219,202 // pand %xmm10,%xmm9
.byte 69,15,91,201 // cvtdq2ps %xmm9,%xmm9
- .byte 68,15,89,13,251,0,1,0 // mulps 0x100fb(%rip),%xmm9 # 2c550 <_sk_overlay_sse2_8bit+0x106b>
- .byte 102,68,15,219,21,2,1,1,0 // pand 0x10102(%rip),%xmm10 # 2c560 <_sk_overlay_sse2_8bit+0x107b>
+ .byte 68,15,89,13,177,1,1,0 // mulps 0x101b1(%rip),%xmm9 # 2c580 <_sk_overlay_sse2_8bit+0x10e3>
+ .byte 102,68,15,219,21,184,1,1,0 // pand 0x101b8(%rip),%xmm10 # 2c590 <_sk_overlay_sse2_8bit+0x10f3>
.byte 69,15,91,210 // cvtdq2ps %xmm10,%xmm10
- .byte 68,15,89,21,6,1,1,0 // mulps 0x10106(%rip),%xmm10 # 2c570 <_sk_overlay_sse2_8bit+0x108b>
+ .byte 68,15,89,21,188,1,1,0 // mulps 0x101bc(%rip),%xmm10 # 2c5a0 <_sk_overlay_sse2_8bit+0x1103>
.byte 68,15,40,219 // movaps %xmm3,%xmm11
.byte 68,15,194,223,1 // cmpltps %xmm7,%xmm11
.byte 69,15,40,225 // movaps %xmm9,%xmm12
@@ -37229,25 +37186,25 @@ _sk_scale_565_sse2:
.byte 65,15,40,210 // movaps %xmm10,%xmm2
.byte 65,15,40,219 // movaps %xmm11,%xmm3
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,59 // je 1c50b <_sk_scale_565_sse2+0x114>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,59 // je 1c485 <_sk_scale_565_sse2+0x114>
.byte 102,69,15,239,210 // pxor %xmm10,%xmm10
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,27 // je 1c4f6 <_sk_scale_565_sse2+0xff>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 15,133,60,255,255,255 // jne 1c421 <_sk_scale_565_sse2+0x2a>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,27 // je 1c470 <_sk_scale_565_sse2+0xff>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 15,133,60,255,255,255 // jne 1c39b <_sk_scale_565_sse2+0x2a>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
.byte 102,69,15,112,208,69 // pshufd $0x45,%xmm8,%xmm10
- .byte 102,71,15,110,4,89 // movd (%r9,%r11,2),%xmm8
+ .byte 102,71,15,110,4,80 // movd (%r8,%r10,2),%xmm8
.byte 102,68,15,97,192 // punpcklwd %xmm0,%xmm8
.byte 242,69,15,16,208 // movsd %xmm8,%xmm10
- .byte 233,22,255,255,255 // jmpq 1c421 <_sk_scale_565_sse2+0x2a>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,22,255,255,255 // jmpq 1c39b <_sk_scale_565_sse2+0x2a>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,68,15,110,208 // movd %eax,%xmm10
- .byte 233,7,255,255,255 // jmpq 1c421 <_sk_scale_565_sse2+0x2a>
+ .byte 233,7,255,255,255 // jmpq 1c39b <_sk_scale_565_sse2+0x2a>
HIDDEN _sk_lerp_1_float_sse2
.globl _sk_lerp_1_float_sse2
@@ -37276,19 +37233,19 @@ HIDDEN _sk_lerp_u8_sse2
FUNCTION(_sk_lerp_u8_sse2)
_sk_lerp_u8_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,81 // jne 1c5bb <_sk_lerp_u8_sse2+0x69>
- .byte 102,71,15,110,4,25 // movd (%r9,%r11,1),%xmm8
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,81 // jne 1c535 <_sk_lerp_u8_sse2+0x69>
+ .byte 102,71,15,110,4,16 // movd (%r8,%r10,1),%xmm8
.byte 102,68,15,96,192 // punpcklbw %xmm0,%xmm8
.byte 102,68,15,97,192 // punpcklwd %xmm0,%xmm8
- .byte 102,68,15,219,5,61,254,0,0 // pand 0xfe3d(%rip),%xmm8 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,68,15,219,5,243,254,0,0 // pand 0xfef3(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 69,15,91,192 // cvtdq2ps %xmm8,%xmm8
- .byte 68,15,89,5,129,255,0,0 // mulps 0xff81(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,89,5,55,0,1,0 // mulps 0x10037(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 15,92,196 // subps %xmm4,%xmm0
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 15,88,196 // addps %xmm4,%xmm0
@@ -37303,54 +37260,54 @@ _sk_lerp_u8_sse2:
.byte 15,88,223 // addps %xmm7,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,64 // je 1c608 <_sk_lerp_u8_sse2+0xb6>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,64 // je 1c582 <_sk_lerp_u8_sse2+0xb6>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,23 // je 1c5ea <_sk_lerp_u8_sse2+0x98>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,161 // jne 1c57a <_sk_lerp_u8_sse2+0x28>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,23 // je 1c564 <_sk_lerp_u8_sse2+0x98>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,161 // jne 1c4f4 <_sk_lerp_u8_sse2+0x28>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
.byte 102,69,15,112,192,69 // pshufd $0x45,%xmm8,%xmm8
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,68,15,110,200 // movd %eax,%xmm9
.byte 102,68,15,96,200 // punpcklbw %xmm0,%xmm9
.byte 102,68,15,97,200 // punpcklwd %xmm0,%xmm9
.byte 242,69,15,16,193 // movsd %xmm9,%xmm8
- .byte 233,114,255,255,255 // jmpq 1c57a <_sk_lerp_u8_sse2+0x28>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 233,114,255,255,255 // jmpq 1c4f4 <_sk_lerp_u8_sse2+0x28>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
- .byte 233,99,255,255,255 // jmpq 1c57a <_sk_lerp_u8_sse2+0x28>
+ .byte 233,99,255,255,255 // jmpq 1c4f4 <_sk_lerp_u8_sse2+0x28>
HIDDEN _sk_lerp_565_sse2
.globl _sk_lerp_565_sse2
FUNCTION(_sk_lerp_565_sse2)
_sk_lerp_565_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,173,0,0,0 // jne 1c6e3 <_sk_lerp_565_sse2+0xcc>
- .byte 243,71,15,126,4,89 // movq (%r9,%r11,2),%xmm8
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,173,0,0,0 // jne 1c65d <_sk_lerp_565_sse2+0xcc>
+ .byte 243,71,15,126,4,80 // movq (%r8,%r10,2),%xmm8
.byte 102,68,15,97,192 // punpcklwd %xmm0,%xmm8
- .byte 102,68,15,111,13,214,254,0,0 // movdqa 0xfed6(%rip),%xmm9 # 2c520 <_sk_overlay_sse2_8bit+0x103b>
+ .byte 102,68,15,111,13,140,255,0,0 // movdqa 0xff8c(%rip),%xmm9 # 2c550 <_sk_overlay_sse2_8bit+0x10b3>
.byte 102,69,15,219,200 // pand %xmm8,%xmm9
.byte 69,15,91,201 // cvtdq2ps %xmm9,%xmm9
- .byte 68,15,89,13,213,254,0,0 // mulps 0xfed5(%rip),%xmm9 # 2c530 <_sk_overlay_sse2_8bit+0x104b>
- .byte 102,68,15,111,21,220,254,0,0 // movdqa 0xfedc(%rip),%xmm10 # 2c540 <_sk_overlay_sse2_8bit+0x105b>
+ .byte 68,15,89,13,139,255,0,0 // mulps 0xff8b(%rip),%xmm9 # 2c560 <_sk_overlay_sse2_8bit+0x10c3>
+ .byte 102,68,15,111,21,146,255,0,0 // movdqa 0xff92(%rip),%xmm10 # 2c570 <_sk_overlay_sse2_8bit+0x10d3>
.byte 102,69,15,219,208 // pand %xmm8,%xmm10
.byte 69,15,91,218 // cvtdq2ps %xmm10,%xmm11
- .byte 68,15,89,29,219,254,0,0 // mulps 0xfedb(%rip),%xmm11 # 2c550 <_sk_overlay_sse2_8bit+0x106b>
- .byte 102,68,15,219,5,226,254,0,0 // pand 0xfee2(%rip),%xmm8 # 2c560 <_sk_overlay_sse2_8bit+0x107b>
+ .byte 68,15,89,29,145,255,0,0 // mulps 0xff91(%rip),%xmm11 # 2c580 <_sk_overlay_sse2_8bit+0x10e3>
+ .byte 102,68,15,219,5,152,255,0,0 // pand 0xff98(%rip),%xmm8 # 2c590 <_sk_overlay_sse2_8bit+0x10f3>
.byte 69,15,91,192 // cvtdq2ps %xmm8,%xmm8
- .byte 68,15,89,5,230,254,0,0 // mulps 0xfee6(%rip),%xmm8 # 2c570 <_sk_overlay_sse2_8bit+0x108b>
+ .byte 68,15,89,5,156,255,0,0 // mulps 0xff9c(%rip),%xmm8 # 2c5a0 <_sk_overlay_sse2_8bit+0x1103>
.byte 68,15,40,211 // movaps %xmm3,%xmm10
.byte 68,15,194,215,1 // cmpltps %xmm7,%xmm10
.byte 69,15,40,227 // movaps %xmm11,%xmm12
@@ -37376,128 +37333,125 @@ _sk_lerp_565_sse2:
.byte 15,88,223 // addps %xmm7,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,59 // je 1c72b <_sk_lerp_565_sse2+0x114>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,59 // je 1c6a5 <_sk_lerp_565_sse2+0x114>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,27 // je 1c716 <_sk_lerp_565_sse2+0xff>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 15,133,60,255,255,255 // jne 1c641 <_sk_lerp_565_sse2+0x2a>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,27 // je 1c690 <_sk_lerp_565_sse2+0xff>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 15,133,60,255,255,255 // jne 1c5bb <_sk_lerp_565_sse2+0x2a>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
.byte 102,69,15,112,192,69 // pshufd $0x45,%xmm8,%xmm8
- .byte 102,71,15,110,12,89 // movd (%r9,%r11,2),%xmm9
+ .byte 102,71,15,110,12,80 // movd (%r8,%r10,2),%xmm9
.byte 102,68,15,97,200 // punpcklwd %xmm0,%xmm9
.byte 242,69,15,16,193 // movsd %xmm9,%xmm8
- .byte 233,22,255,255,255 // jmpq 1c641 <_sk_lerp_565_sse2+0x2a>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,22,255,255,255 // jmpq 1c5bb <_sk_lerp_565_sse2+0x2a>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
- .byte 233,7,255,255,255 // jmpq 1c641 <_sk_lerp_565_sse2+0x2a>
+ .byte 233,7,255,255,255 // jmpq 1c5bb <_sk_lerp_565_sse2+0x2a>
HIDDEN _sk_load_tables_sse2
.globl _sk_load_tables_sse2
FUNCTION(_sk_load_tables_sse2)
_sk_load_tables_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,36,1,0,0 // jne 1c86c <_sk_load_tables_sse2+0x132>
- .byte 243,69,15,111,12,145 // movdqu (%r9,%rdx,4),%xmm9
- .byte 65,87 // push %r15
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,32,1,0,0 // jne 1c7e2 <_sk_load_tables_sse2+0x12e>
+ .byte 243,69,15,111,12,144 // movdqu (%r8,%rdx,4),%xmm9
.byte 65,86 // push %r14
.byte 83 // push %rbx
- .byte 102,68,15,111,5,100,252,0,0 // movdqa 0xfc64(%rip),%xmm8 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,68,15,111,5,28,253,0,0 // movdqa 0xfd1c(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,65,15,111,193 // movdqa %xmm9,%xmm0
.byte 102,65,15,219,192 // pand %xmm8,%xmm0
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
- .byte 102,73,15,126,201 // movq %xmm1,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 69,15,182,218 // movzbl %r10b,%r11d
- .byte 73,193,234,30 // shr $0x1e,%r10
- .byte 69,15,182,241 // movzbl %r9b,%r14d
+ .byte 102,73,15,126,200 // movq %xmm1,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 69,15,182,209 // movzbl %r9b,%r10d
.byte 73,193,233,30 // shr $0x1e,%r9
+ .byte 69,15,182,216 // movzbl %r8b,%r11d
+ .byte 73,193,232,30 // shr $0x1e,%r8
.byte 72,139,88,8 // mov 0x8(%rax),%rbx
- .byte 76,139,120,16 // mov 0x10(%rax),%r15
- .byte 243,66,15,16,12,19 // movss (%rbx,%r10,1),%xmm1
- .byte 243,66,15,16,4,11 // movss (%rbx,%r9,1),%xmm0
+ .byte 76,139,112,16 // mov 0x10(%rax),%r14
+ .byte 243,66,15,16,12,11 // movss (%rbx,%r9,1),%xmm1
+ .byte 243,66,15,16,4,3 // movss (%rbx,%r8,1),%xmm0
.byte 15,20,200 // unpcklps %xmm0,%xmm1
- .byte 243,66,15,16,4,155 // movss (%rbx,%r11,4),%xmm0
- .byte 243,66,15,16,20,179 // movss (%rbx,%r14,4),%xmm2
+ .byte 243,66,15,16,4,147 // movss (%rbx,%r10,4),%xmm0
+ .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
.byte 15,20,194 // unpcklps %xmm2,%xmm0
.byte 15,20,193 // unpcklps %xmm1,%xmm0
.byte 102,65,15,111,201 // movdqa %xmm9,%xmm1
.byte 102,15,114,209,8 // psrld $0x8,%xmm1
.byte 102,65,15,219,200 // pand %xmm8,%xmm1
.byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
- .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 102,73,15,126,208 // movq %xmm2,%r8
.byte 102,72,15,126,203 // movq %xmm1,%rbx
- .byte 68,15,182,211 // movzbl %bl,%r10d
+ .byte 68,15,182,203 // movzbl %bl,%r9d
.byte 72,193,235,30 // shr $0x1e,%rbx
- .byte 69,15,182,217 // movzbl %r9b,%r11d
- .byte 73,193,233,30 // shr $0x1e,%r9
- .byte 243,65,15,16,20,31 // movss (%r15,%rbx,1),%xmm2
- .byte 243,67,15,16,12,15 // movss (%r15,%r9,1),%xmm1
+ .byte 69,15,182,208 // movzbl %r8b,%r10d
+ .byte 73,193,232,30 // shr $0x1e,%r8
+ .byte 243,65,15,16,20,30 // movss (%r14,%rbx,1),%xmm2
+ .byte 243,67,15,16,12,6 // movss (%r14,%r8,1),%xmm1
.byte 15,20,209 // unpcklps %xmm1,%xmm2
- .byte 243,67,15,16,12,151 // movss (%r15,%r10,4),%xmm1
- .byte 243,67,15,16,28,159 // movss (%r15,%r11,4),%xmm3
+ .byte 243,67,15,16,12,142 // movss (%r14,%r9,4),%xmm1
+ .byte 243,67,15,16,28,150 // movss (%r14,%r10,4),%xmm3
.byte 15,20,203 // unpcklps %xmm3,%xmm1
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 76,139,72,24 // mov 0x18(%rax),%r9
+ .byte 76,139,64,24 // mov 0x18(%rax),%r8
.byte 102,65,15,111,209 // movdqa %xmm9,%xmm2
.byte 102,15,114,210,16 // psrld $0x10,%xmm2
.byte 102,65,15,219,208 // pand %xmm8,%xmm2
.byte 102,15,112,218,78 // pshufd $0x4e,%xmm2,%xmm3
.byte 102,72,15,126,219 // movq %xmm3,%rbx
.byte 102,72,15,126,208 // movq %xmm2,%rax
- .byte 68,15,182,208 // movzbl %al,%r10d
+ .byte 68,15,182,200 // movzbl %al,%r9d
.byte 72,193,232,30 // shr $0x1e,%rax
- .byte 68,15,182,219 // movzbl %bl,%r11d
+ .byte 68,15,182,211 // movzbl %bl,%r10d
.byte 72,193,235,30 // shr $0x1e,%rbx
- .byte 243,69,15,16,4,1 // movss (%r9,%rax,1),%xmm8
- .byte 243,65,15,16,20,25 // movss (%r9,%rbx,1),%xmm2
+ .byte 243,69,15,16,4,0 // movss (%r8,%rax,1),%xmm8
+ .byte 243,65,15,16,20,24 // movss (%r8,%rbx,1),%xmm2
.byte 68,15,20,194 // unpcklps %xmm2,%xmm8
- .byte 243,67,15,16,20,145 // movss (%r9,%r10,4),%xmm2
- .byte 243,67,15,16,28,153 // movss (%r9,%r11,4),%xmm3
+ .byte 243,67,15,16,20,136 // movss (%r8,%r9,4),%xmm2
+ .byte 243,67,15,16,28,144 // movss (%r8,%r10,4),%xmm3
.byte 15,20,211 // unpcklps %xmm3,%xmm2
.byte 65,15,20,208 // unpcklps %xmm8,%xmm2
.byte 102,65,15,114,209,24 // psrld $0x18,%xmm9
.byte 65,15,91,217 // cvtdq2ps %xmm9,%xmm3
- .byte 15,89,29,173,252,0,0 // mulps 0xfcad(%rip),%xmm3 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,29,101,253,0,0 // mulps 0xfd65(%rip),%xmm3 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,45 // je 1c8a6 <_sk_load_tables_sse2+0x16c>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,45 // je 1c81c <_sk_load_tables_sse2+0x168>
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,23 // je 1c89b <_sk_load_tables_sse2+0x161>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 15,133,192,254,255,255 // jne 1c74e <_sk_load_tables_sse2+0x14>
- .byte 102,65,15,110,68,145,8 // movd 0x8(%r9,%rdx,4),%xmm0
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,23 // je 1c811 <_sk_load_tables_sse2+0x15d>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 15,133,196,254,255,255 // jne 1c6c8 <_sk_load_tables_sse2+0x14>
+ .byte 102,65,15,110,68,144,8 // movd 0x8(%r8,%rdx,4),%xmm0
.byte 102,68,15,112,200,69 // pshufd $0x45,%xmm0,%xmm9
- .byte 102,69,15,18,12,145 // movlpd (%r9,%rdx,4),%xmm9
- .byte 233,168,254,255,255 // jmpq 1c74e <_sk_load_tables_sse2+0x14>
- .byte 102,69,15,110,12,145 // movd (%r9,%rdx,4),%xmm9
- .byte 233,157,254,255,255 // jmpq 1c74e <_sk_load_tables_sse2+0x14>
+ .byte 102,69,15,18,12,144 // movlpd (%r8,%rdx,4),%xmm9
+ .byte 233,172,254,255,255 // jmpq 1c6c8 <_sk_load_tables_sse2+0x14>
+ .byte 102,69,15,110,12,144 // movd (%r8,%rdx,4),%xmm9
+ .byte 233,161,254,255,255 // jmpq 1c6c8 <_sk_load_tables_sse2+0x14>
HIDDEN _sk_load_tables_u16_be_sse2
.globl _sk_load_tables_u16_be_sse2
FUNCTION(_sk_load_tables_u16_be_sse2)
_sk_load_tables_u16_be_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 76,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,101,1,0,0 // jne 1ca2c <_sk_load_tables_u16_be_sse2+0x17b>
- .byte 102,67,15,16,4,81 // movupd (%r9,%r10,2),%xmm0
- .byte 102,67,15,16,76,81,16 // movupd 0x10(%r9,%r10,2),%xmm1
- .byte 65,87 // push %r15
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 76,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,97,1,0,0 // jne 1c99e <_sk_load_tables_u16_be_sse2+0x177>
+ .byte 102,67,15,16,4,72 // movupd (%r8,%r9,2),%xmm0
+ .byte 102,67,15,16,76,72,16 // movupd 0x10(%r8,%r9,2),%xmm1
.byte 65,86 // push %r14
.byte 83 // push %rbx
.byte 102,68,15,40,200 // movapd %xmm0,%xmm9
@@ -37506,25 +37460,25 @@ _sk_load_tables_u16_be_sse2:
.byte 102,65,15,111,201 // movdqa %xmm9,%xmm1
.byte 102,15,97,200 // punpcklwd %xmm0,%xmm1
.byte 102,68,15,105,200 // punpckhwd %xmm0,%xmm9
- .byte 102,68,15,111,21,130,252,0,0 // movdqa 0xfc82(%rip),%xmm10 # 2c580 <_sk_overlay_sse2_8bit+0x109b>
+ .byte 102,68,15,111,21,62,253,0,0 // movdqa 0xfd3e(%rip),%xmm10 # 2c5b0 <_sk_overlay_sse2_8bit+0x1113>
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
.byte 102,65,15,219,194 // pand %xmm10,%xmm0
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
.byte 102,65,15,97,192 // punpcklwd %xmm8,%xmm0
.byte 102,15,112,216,78 // pshufd $0x4e,%xmm0,%xmm3
- .byte 102,73,15,126,217 // movq %xmm3,%r9
- .byte 69,15,182,209 // movzbl %r9b,%r10d
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 69,15,182,243 // movzbl %r11b,%r14d
- .byte 73,193,235,30 // shr $0x1e,%r11
+ .byte 102,73,15,126,216 // movq %xmm3,%r8
+ .byte 69,15,182,200 // movzbl %r8b,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,15,182,218 // movzbl %r10b,%r11d
+ .byte 73,193,234,30 // shr $0x1e,%r10
.byte 72,139,88,8 // mov 0x8(%rax),%rbx
- .byte 76,139,120,16 // mov 0x10(%rax),%r15
- .byte 243,66,15,16,28,27 // movss (%rbx,%r11,1),%xmm3
- .byte 243,66,15,16,4,139 // movss (%rbx,%r9,4),%xmm0
+ .byte 76,139,112,16 // mov 0x10(%rax),%r14
+ .byte 243,66,15,16,28,19 // movss (%rbx,%r10,1),%xmm3
+ .byte 243,66,15,16,4,131 // movss (%rbx,%r8,4),%xmm0
.byte 15,20,216 // unpcklps %xmm0,%xmm3
- .byte 243,66,15,16,4,179 // movss (%rbx,%r14,4),%xmm0
- .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
+ .byte 243,66,15,16,4,155 // movss (%rbx,%r11,4),%xmm0
+ .byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
.byte 15,20,194 // unpcklps %xmm2,%xmm0
.byte 15,20,195 // unpcklps %xmm3,%xmm0
.byte 102,15,115,217,8 // psrldq $0x8,%xmm1
@@ -37532,33 +37486,33 @@ _sk_load_tables_u16_be_sse2:
.byte 102,65,15,97,200 // punpcklwd %xmm8,%xmm1
.byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
.byte 102,72,15,126,211 // movq %xmm2,%rbx
- .byte 68,15,182,203 // movzbl %bl,%r9d
+ .byte 68,15,182,195 // movzbl %bl,%r8d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 69,15,182,218 // movzbl %r10b,%r11d
- .byte 73,193,234,30 // shr $0x1e,%r10
- .byte 243,67,15,16,20,23 // movss (%r15,%r10,1),%xmm2
- .byte 243,65,15,16,12,159 // movss (%r15,%rbx,4),%xmm1
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 69,15,182,209 // movzbl %r9b,%r10d
+ .byte 73,193,233,30 // shr $0x1e,%r9
+ .byte 243,67,15,16,20,14 // movss (%r14,%r9,1),%xmm2
+ .byte 243,65,15,16,12,158 // movss (%r14,%rbx,4),%xmm1
.byte 15,20,209 // unpcklps %xmm1,%xmm2
- .byte 243,67,15,16,12,159 // movss (%r15,%r11,4),%xmm1
- .byte 243,67,15,16,28,143 // movss (%r15,%r9,4),%xmm3
+ .byte 243,67,15,16,12,150 // movss (%r14,%r10,4),%xmm1
+ .byte 243,67,15,16,28,134 // movss (%r14,%r8,4),%xmm3
.byte 15,20,203 // unpcklps %xmm3,%xmm1
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 76,139,80,24 // mov 0x18(%rax),%r10
+ .byte 76,139,72,24 // mov 0x18(%rax),%r9
.byte 102,69,15,219,209 // pand %xmm9,%xmm10
.byte 102,69,15,97,208 // punpcklwd %xmm8,%xmm10
.byte 102,65,15,112,210,78 // pshufd $0x4e,%xmm10,%xmm2
.byte 102,72,15,126,211 // movq %xmm2,%rbx
- .byte 68,15,182,203 // movzbl %bl,%r9d
+ .byte 68,15,182,195 // movzbl %bl,%r8d
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 102,76,15,126,208 // movq %xmm10,%rax
- .byte 68,15,182,216 // movzbl %al,%r11d
+ .byte 68,15,182,208 // movzbl %al,%r10d
.byte 72,193,232,30 // shr $0x1e,%rax
- .byte 243,69,15,16,20,2 // movss (%r10,%rax,1),%xmm10
- .byte 243,65,15,16,20,154 // movss (%r10,%rbx,4),%xmm2
+ .byte 243,69,15,16,20,1 // movss (%r9,%rax,1),%xmm10
+ .byte 243,65,15,16,20,153 // movss (%r9,%rbx,4),%xmm2
.byte 68,15,20,210 // unpcklps %xmm2,%xmm10
- .byte 243,67,15,16,20,154 // movss (%r10,%r11,4),%xmm2
- .byte 243,67,15,16,28,138 // movss (%r10,%r9,4),%xmm3
+ .byte 243,67,15,16,20,145 // movss (%r9,%r10,4),%xmm2
+ .byte 243,67,15,16,28,129 // movss (%r9,%r8,4),%xmm3
.byte 15,20,211 // unpcklps %xmm3,%xmm2
.byte 65,15,20,210 // unpcklps %xmm10,%xmm2
.byte 102,65,15,112,217,78 // pshufd $0x4e,%xmm9,%xmm3
@@ -37568,210 +37522,206 @@ _sk_load_tables_u16_be_sse2:
.byte 102,65,15,235,217 // por %xmm9,%xmm3
.byte 102,65,15,97,216 // punpcklwd %xmm8,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
- .byte 15,89,29,125,251,0,0 // mulps 0xfb7d(%rip),%xmm3 # 2c5a0 <_sk_overlay_sse2_8bit+0x10bb>
+ .byte 15,89,29,57,252,0,0 // mulps 0xfc39(%rip),%xmm3 # 2c5d0 <_sk_overlay_sse2_8bit+0x1133>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
- .byte 242,67,15,16,4,81 // movsd (%r9,%r10,2),%xmm0
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,17 // jne 1ca49 <_sk_load_tables_u16_be_sse2+0x198>
+ .byte 242,67,15,16,4,72 // movsd (%r8,%r9,2),%xmm0
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,17 // jne 1c9bb <_sk_load_tables_u16_be_sse2+0x194>
.byte 102,15,87,201 // xorpd %xmm1,%xmm1
.byte 102,15,20,193 // unpcklpd %xmm1,%xmm0
.byte 102,15,87,201 // xorpd %xmm1,%xmm1
- .byte 233,139,254,255,255 // jmpq 1c8d4 <_sk_load_tables_u16_be_sse2+0x23>
- .byte 102,67,15,22,68,81,8 // movhpd 0x8(%r9,%r10,2),%xmm0
+ .byte 233,143,254,255,255 // jmpq 1c84a <_sk_load_tables_u16_be_sse2+0x23>
+ .byte 102,67,15,22,68,72,8 // movhpd 0x8(%r8,%r9,2),%xmm0
.byte 102,15,87,201 // xorpd %xmm1,%xmm1
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 15,130,118,254,255,255 // jb 1c8d4 <_sk_load_tables_u16_be_sse2+0x23>
- .byte 242,67,15,16,76,81,16 // movsd 0x10(%r9,%r10,2),%xmm1
- .byte 233,106,254,255,255 // jmpq 1c8d4 <_sk_load_tables_u16_be_sse2+0x23>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 15,130,122,254,255,255 // jb 1c84a <_sk_load_tables_u16_be_sse2+0x23>
+ .byte 242,67,15,16,76,72,16 // movsd 0x10(%r8,%r9,2),%xmm1
+ .byte 233,110,254,255,255 // jmpq 1c84a <_sk_load_tables_u16_be_sse2+0x23>
HIDDEN _sk_load_tables_rgb_u16_be_sse2
.globl _sk_load_tables_rgb_u16_be_sse2
FUNCTION(_sk_load_tables_rgb_u16_be_sse2)
_sk_load_tables_rgb_u16_be_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
- .byte 76,141,20,82 // lea (%rdx,%rdx,2),%r10
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,84,1,0,0 // jne 1cbd0 <_sk_load_tables_rgb_u16_be_sse2+0x166>
- .byte 243,71,15,111,28,81 // movdqu (%r9,%r10,2),%xmm11
- .byte 243,67,15,111,76,81,8 // movdqu 0x8(%r9,%r10,2),%xmm1
+ .byte 76,139,0 // mov (%rax),%r8
+ .byte 76,141,12,82 // lea (%rdx,%rdx,2),%r9
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,80,1,0,0 // jne 1cb3e <_sk_load_tables_rgb_u16_be_sse2+0x162>
+ .byte 243,71,15,111,28,72 // movdqu (%r8,%r9,2),%xmm11
+ .byte 243,67,15,111,76,72,8 // movdqu 0x8(%r8,%r9,2),%xmm1
.byte 102,15,115,217,4 // psrldq $0x4,%xmm1
.byte 102,69,15,111,211 // movdqa %xmm11,%xmm10
.byte 102,65,15,115,218,6 // psrldq $0x6,%xmm10
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
.byte 102,15,115,216,6 // psrldq $0x6,%xmm0
- .byte 65,87 // push %r15
.byte 65,86 // push %r14
.byte 83 // push %rbx
.byte 102,68,15,97,217 // punpcklwd %xmm1,%xmm11
.byte 102,68,15,97,208 // punpcklwd %xmm0,%xmm10
.byte 102,65,15,111,195 // movdqa %xmm11,%xmm0
.byte 102,65,15,97,194 // punpcklwd %xmm10,%xmm0
- .byte 102,68,15,111,5,188,250,0,0 // movdqa 0xfabc(%rip),%xmm8 # 2c580 <_sk_overlay_sse2_8bit+0x109b>
+ .byte 102,68,15,111,5,124,251,0,0 // movdqa 0xfb7c(%rip),%xmm8 # 2c5b0 <_sk_overlay_sse2_8bit+0x1113>
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,65,15,219,192 // pand %xmm8,%xmm0
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
.byte 102,65,15,97,193 // punpcklwd %xmm9,%xmm0
.byte 102,15,112,216,78 // pshufd $0x4e,%xmm0,%xmm3
- .byte 102,73,15,126,217 // movq %xmm3,%r9
- .byte 69,15,182,209 // movzbl %r9b,%r10d
- .byte 73,193,233,32 // shr $0x20,%r9
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 69,15,182,243 // movzbl %r11b,%r14d
- .byte 73,193,235,30 // shr $0x1e,%r11
+ .byte 102,73,15,126,216 // movq %xmm3,%r8
+ .byte 69,15,182,200 // movzbl %r8b,%r9d
+ .byte 73,193,232,32 // shr $0x20,%r8
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,15,182,218 // movzbl %r10b,%r11d
+ .byte 73,193,234,30 // shr $0x1e,%r10
.byte 72,139,88,8 // mov 0x8(%rax),%rbx
- .byte 76,139,120,16 // mov 0x10(%rax),%r15
- .byte 243,66,15,16,28,27 // movss (%rbx,%r11,1),%xmm3
- .byte 243,66,15,16,4,139 // movss (%rbx,%r9,4),%xmm0
+ .byte 76,139,112,16 // mov 0x10(%rax),%r14
+ .byte 243,66,15,16,28,19 // movss (%rbx,%r10,1),%xmm3
+ .byte 243,66,15,16,4,131 // movss (%rbx,%r8,4),%xmm0
.byte 15,20,216 // unpcklps %xmm0,%xmm3
- .byte 243,66,15,16,4,179 // movss (%rbx,%r14,4),%xmm0
- .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
+ .byte 243,66,15,16,4,155 // movss (%rbx,%r11,4),%xmm0
+ .byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
.byte 15,20,194 // unpcklps %xmm2,%xmm0
.byte 15,20,195 // unpcklps %xmm3,%xmm0
.byte 102,65,15,219,200 // pand %xmm8,%xmm1
.byte 102,65,15,97,201 // punpcklwd %xmm9,%xmm1
.byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
.byte 102,72,15,126,211 // movq %xmm2,%rbx
- .byte 68,15,182,203 // movzbl %bl,%r9d
+ .byte 68,15,182,195 // movzbl %bl,%r8d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 69,15,182,218 // movzbl %r10b,%r11d
- .byte 73,193,234,30 // shr $0x1e,%r10
- .byte 243,67,15,16,20,23 // movss (%r15,%r10,1),%xmm2
- .byte 243,65,15,16,12,159 // movss (%r15,%rbx,4),%xmm1
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 69,15,182,209 // movzbl %r9b,%r10d
+ .byte 73,193,233,30 // shr $0x1e,%r9
+ .byte 243,67,15,16,20,14 // movss (%r14,%r9,1),%xmm2
+ .byte 243,65,15,16,12,158 // movss (%r14,%rbx,4),%xmm1
.byte 15,20,209 // unpcklps %xmm1,%xmm2
- .byte 243,67,15,16,12,159 // movss (%r15,%r11,4),%xmm1
- .byte 243,67,15,16,28,143 // movss (%r15,%r9,4),%xmm3
+ .byte 243,67,15,16,12,150 // movss (%r14,%r10,4),%xmm1
+ .byte 243,67,15,16,28,134 // movss (%r14,%r8,4),%xmm3
.byte 15,20,203 // unpcklps %xmm3,%xmm1
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 76,139,80,24 // mov 0x18(%rax),%r10
+ .byte 76,139,72,24 // mov 0x18(%rax),%r9
.byte 102,69,15,105,218 // punpckhwd %xmm10,%xmm11
.byte 102,69,15,219,216 // pand %xmm8,%xmm11
.byte 102,69,15,97,217 // punpcklwd %xmm9,%xmm11
.byte 102,65,15,112,211,78 // pshufd $0x4e,%xmm11,%xmm2
.byte 102,72,15,126,211 // movq %xmm2,%rbx
- .byte 68,15,182,203 // movzbl %bl,%r9d
+ .byte 68,15,182,195 // movzbl %bl,%r8d
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 102,76,15,126,216 // movq %xmm11,%rax
- .byte 68,15,182,216 // movzbl %al,%r11d
+ .byte 68,15,182,208 // movzbl %al,%r10d
.byte 72,193,232,30 // shr $0x1e,%rax
- .byte 243,69,15,16,4,2 // movss (%r10,%rax,1),%xmm8
- .byte 243,65,15,16,20,154 // movss (%r10,%rbx,4),%xmm2
+ .byte 243,69,15,16,4,1 // movss (%r9,%rax,1),%xmm8
+ .byte 243,65,15,16,20,153 // movss (%r9,%rbx,4),%xmm2
.byte 68,15,20,194 // unpcklps %xmm2,%xmm8
- .byte 243,67,15,16,20,154 // movss (%r10,%r11,4),%xmm2
- .byte 243,67,15,16,28,138 // movss (%r10,%r9,4),%xmm3
+ .byte 243,67,15,16,20,145 // movss (%r9,%r10,4),%xmm2
+ .byte 243,67,15,16,28,129 // movss (%r9,%r8,4),%xmm3
.byte 15,20,211 // unpcklps %xmm3,%xmm2
.byte 65,15,20,208 // unpcklps %xmm8,%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,71,247,0,0 // movaps 0xf747(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,7,248,0,0 // movaps 0xf807(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
- .byte 102,71,15,110,28,81 // movd (%r9,%r10,2),%xmm11
- .byte 102,71,15,196,92,81,4,2 // pinsrw $0x2,0x4(%r9,%r10,2),%xmm11
+ .byte 102,71,15,110,28,72 // movd (%r8,%r9,2),%xmm11
+ .byte 102,71,15,196,92,72,4,2 // pinsrw $0x2,0x4(%r8,%r9,2),%xmm11
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,14 // jne 1cbf6 <_sk_load_tables_rgb_u16_be_sse2+0x18c>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,14 // jne 1cb64 <_sk_load_tables_rgb_u16_be_sse2+0x188>
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,69,15,239,210 // pxor %xmm10,%xmm10
- .byte 233,172,254,255,255 // jmpq 1caa2 <_sk_load_tables_rgb_u16_be_sse2+0x38>
- .byte 102,71,15,110,84,81,6 // movd 0x6(%r9,%r10,2),%xmm10
- .byte 102,71,15,196,84,81,10,2 // pinsrw $0x2,0xa(%r9,%r10,2),%xmm10
+ .byte 233,176,254,255,255 // jmpq 1ca14 <_sk_load_tables_rgb_u16_be_sse2+0x38>
+ .byte 102,71,15,110,84,72,6 // movd 0x6(%r8,%r9,2),%xmm10
+ .byte 102,71,15,196,84,72,10,2 // pinsrw $0x2,0xa(%r8,%r9,2),%xmm10
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,24 // jb 1cc27 <_sk_load_tables_rgb_u16_be_sse2+0x1bd>
- .byte 102,67,15,110,76,81,12 // movd 0xc(%r9,%r10,2),%xmm1
- .byte 102,67,15,196,76,81,16,2 // pinsrw $0x2,0x10(%r9,%r10,2),%xmm1
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,24 // jb 1cb95 <_sk_load_tables_rgb_u16_be_sse2+0x1b9>
+ .byte 102,67,15,110,76,72,12 // movd 0xc(%r8,%r9,2),%xmm1
+ .byte 102,67,15,196,76,72,16,2 // pinsrw $0x2,0x10(%r8,%r9,2),%xmm1
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 233,123,254,255,255 // jmpq 1caa2 <_sk_load_tables_rgb_u16_be_sse2+0x38>
+ .byte 233,127,254,255,255 // jmpq 1ca14 <_sk_load_tables_rgb_u16_be_sse2+0x38>
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 233,114,254,255,255 // jmpq 1caa2 <_sk_load_tables_rgb_u16_be_sse2+0x38>
+ .byte 233,118,254,255,255 // jmpq 1ca14 <_sk_load_tables_rgb_u16_be_sse2+0x38>
HIDDEN _sk_byte_tables_sse2
.globl _sk_byte_tables_sse2
FUNCTION(_sk_byte_tables_sse2)
_sk_byte_tables_sse2:
.byte 85 // push %rbp
- .byte 65,87 // push %r15
.byte 65,86 // push %r14
.byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,15,40,5,176,247,0,0 // movaps 0xf7b0(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 68,15,40,5,116,248,0,0 // movaps 0xf874(%rip),%xmm8 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,91,192 // cvtps2dq %xmm0,%xmm0
- .byte 102,73,15,126,193 // movq %xmm0,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
+ .byte 102,73,15,126,192 // movq %xmm0,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
.byte 102,15,112,192,78 // pshufd $0x4e,%xmm0,%xmm0
- .byte 102,73,15,126,193 // movq %xmm0,%r9
- .byte 69,137,206 // mov %r9d,%r14d
- .byte 77,137,207 // mov %r9,%r15
- .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 102,73,15,126,192 // movq %xmm0,%r8
+ .byte 69,137,195 // mov %r8d,%r11d
+ .byte 77,137,198 // mov %r8,%r14
+ .byte 73,193,238,32 // shr $0x20,%r14
.byte 72,139,24 // mov (%rax),%rbx
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
- .byte 70,15,182,52,51 // movzbl (%rbx,%r14,1),%r14d
- .byte 66,15,182,44,59 // movzbl (%rbx,%r15,1),%ebp
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 70,15,182,28,27 // movzbl (%rbx,%r11,1),%r11d
+ .byte 66,15,182,44,51 // movzbl (%rbx,%r14,1),%ebp
.byte 193,229,8 // shl $0x8,%ebp
- .byte 68,9,245 // or %r14d,%ebp
- .byte 70,15,182,20,19 // movzbl (%rbx,%r10,1),%r10d
- .byte 66,15,182,28,27 // movzbl (%rbx,%r11,1),%ebx
+ .byte 68,9,221 // or %r11d,%ebp
+ .byte 70,15,182,12,11 // movzbl (%rbx,%r9,1),%r9d
+ .byte 66,15,182,28,19 // movzbl (%rbx,%r10,1),%ebx
.byte 193,227,8 // shl $0x8,%ebx
- .byte 68,9,211 // or %r10d,%ebx
+ .byte 68,9,203 // or %r9d,%ebx
.byte 102,15,196,195,0 // pinsrw $0x0,%ebx,%xmm0
.byte 102,15,196,197,1 // pinsrw $0x1,%ebp,%xmm0
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
.byte 102,65,15,96,193 // punpcklbw %xmm9,%xmm0
.byte 102,65,15,97,193 // punpcklwd %xmm9,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 68,15,40,21,90,248,0,0 // movaps 0xf85a(%rip),%xmm10 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,21,30,249,0,0 // movaps 0xf91e(%rip),%xmm10 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,194 // mulps %xmm10,%xmm0
.byte 65,15,89,200 // mulps %xmm8,%xmm1
.byte 102,15,91,201 // cvtps2dq %xmm1,%xmm1
.byte 102,72,15,126,205 // movq %xmm1,%rbp
- .byte 65,137,234 // mov %ebp,%r10d
+ .byte 65,137,233 // mov %ebp,%r9d
.byte 72,193,237,32 // shr $0x20,%rbp
.byte 102,15,112,201,78 // pshufd $0x4e,%xmm1,%xmm1
.byte 102,72,15,126,203 // movq %xmm1,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 65,15,182,28,25 // movzbl (%r9,%rbx,1),%ebx
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 65,15,182,28,24 // movzbl (%r8,%rbx,1),%ebx
.byte 193,227,8 // shl $0x8,%ebx
- .byte 68,9,219 // or %r11d,%ebx
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 65,15,182,44,41 // movzbl (%r9,%rbp,1),%ebp
+ .byte 68,9,211 // or %r10d,%ebx
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 65,15,182,44,40 // movzbl (%r8,%rbp,1),%ebp
.byte 193,229,8 // shl $0x8,%ebp
- .byte 68,9,213 // or %r10d,%ebp
+ .byte 68,9,205 // or %r9d,%ebp
.byte 102,15,196,205,0 // pinsrw $0x0,%ebp,%xmm1
.byte 102,15,196,203,1 // pinsrw $0x1,%ebx,%xmm1
.byte 102,65,15,96,201 // punpcklbw %xmm9,%xmm1
.byte 102,65,15,97,201 // punpcklwd %xmm9,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
.byte 65,15,89,202 // mulps %xmm10,%xmm1
- .byte 76,139,80,16 // mov 0x10(%rax),%r10
+ .byte 76,139,72,16 // mov 0x10(%rax),%r9
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 102,15,91,210 // cvtps2dq %xmm2,%xmm2
.byte 102,72,15,126,211 // movq %xmm2,%rbx
- .byte 65,137,217 // mov %ebx,%r9d
+ .byte 65,137,216 // mov %ebx,%r8d
.byte 72,193,235,32 // shr $0x20,%rbx
.byte 102,15,112,210,78 // pshufd $0x4e,%xmm2,%xmm2
.byte 102,72,15,126,213 // movq %xmm2,%rbp
- .byte 65,137,235 // mov %ebp,%r11d
+ .byte 65,137,234 // mov %ebp,%r10d
.byte 72,193,237,32 // shr $0x20,%rbp
- .byte 71,15,182,28,26 // movzbl (%r10,%r11,1),%r11d
- .byte 65,15,182,44,42 // movzbl (%r10,%rbp,1),%ebp
+ .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
+ .byte 65,15,182,44,41 // movzbl (%r9,%rbp,1),%ebp
.byte 193,229,8 // shl $0x8,%ebp
- .byte 68,9,221 // or %r11d,%ebp
- .byte 71,15,182,12,10 // movzbl (%r10,%r9,1),%r9d
- .byte 65,15,182,28,26 // movzbl (%r10,%rbx,1),%ebx
+ .byte 68,9,213 // or %r10d,%ebp
+ .byte 71,15,182,4,1 // movzbl (%r9,%r8,1),%r8d
+ .byte 65,15,182,28,25 // movzbl (%r9,%rbx,1),%ebx
.byte 193,227,8 // shl $0x8,%ebx
- .byte 68,9,203 // or %r9d,%ebx
+ .byte 68,9,195 // or %r8d,%ebx
.byte 102,15,196,211,0 // pinsrw $0x0,%ebx,%xmm2
.byte 102,15,196,213,1 // pinsrw $0x1,%ebp,%xmm2
.byte 102,65,15,96,209 // punpcklbw %xmm9,%xmm2
@@ -37782,20 +37732,20 @@ _sk_byte_tables_sse2:
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 102,15,91,219 // cvtps2dq %xmm3,%xmm3
.byte 102,72,15,126,221 // movq %xmm3,%rbp
- .byte 65,137,233 // mov %ebp,%r9d
+ .byte 65,137,232 // mov %ebp,%r8d
.byte 72,193,237,32 // shr $0x20,%rbp
.byte 102,15,112,219,78 // pshufd $0x4e,%xmm3,%xmm3
.byte 102,72,15,126,219 // movq %xmm3,%rbx
- .byte 65,137,218 // mov %ebx,%r10d
+ .byte 65,137,217 // mov %ebx,%r9d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 70,15,182,20,16 // movzbl (%rax,%r10,1),%r10d
+ .byte 70,15,182,12,8 // movzbl (%rax,%r9,1),%r9d
.byte 15,182,28,24 // movzbl (%rax,%rbx,1),%ebx
.byte 193,227,8 // shl $0x8,%ebx
- .byte 68,9,211 // or %r10d,%ebx
- .byte 70,15,182,12,8 // movzbl (%rax,%r9,1),%r9d
+ .byte 68,9,203 // or %r9d,%ebx
+ .byte 70,15,182,4,0 // movzbl (%rax,%r8,1),%r8d
.byte 15,182,4,40 // movzbl (%rax,%rbp,1),%eax
.byte 193,224,8 // shl $0x8,%eax
- .byte 68,9,200 // or %r9d,%eax
+ .byte 68,9,192 // or %r8d,%eax
.byte 102,15,196,216,0 // pinsrw $0x0,%eax,%xmm3
.byte 102,15,196,219,1 // pinsrw $0x1,%ebx,%xmm3
.byte 102,65,15,96,217 // punpcklbw %xmm9,%xmm3
@@ -37805,7 +37755,6 @@ _sk_byte_tables_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 93 // pop %rbp
.byte 255,224 // jmpq *%rax
@@ -37814,61 +37763,60 @@ HIDDEN _sk_byte_tables_rgb_sse2
FUNCTION(_sk_byte_tables_rgb_sse2)
_sk_byte_tables_rgb_sse2:
.byte 85 // push %rbp
- .byte 65,87 // push %r15
.byte 65,86 // push %r14
.byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,24 // mov 0x18(%rax),%r9d
- .byte 65,255,201 // dec %r9d
- .byte 102,69,15,110,193 // movd %r9d,%xmm8
+ .byte 68,139,64,24 // mov 0x18(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 102,69,15,110,192 // movd %r8d,%xmm8
.byte 102,69,15,112,192,0 // pshufd $0x0,%xmm8,%xmm8
.byte 69,15,91,192 // cvtdq2ps %xmm8,%xmm8
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,91,192 // cvtps2dq %xmm0,%xmm0
- .byte 102,73,15,126,193 // movq %xmm0,%r9
- .byte 69,137,202 // mov %r9d,%r10d
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
+ .byte 102,73,15,126,192 // movq %xmm0,%r8
+ .byte 69,137,193 // mov %r8d,%r9d
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
.byte 102,15,112,192,78 // pshufd $0x4e,%xmm0,%xmm0
- .byte 102,73,15,126,193 // movq %xmm0,%r9
- .byte 69,137,206 // mov %r9d,%r14d
- .byte 77,137,207 // mov %r9,%r15
- .byte 73,193,239,32 // shr $0x20,%r15
+ .byte 102,73,15,126,192 // movq %xmm0,%r8
+ .byte 69,137,195 // mov %r8d,%r11d
+ .byte 77,137,198 // mov %r8,%r14
+ .byte 73,193,238,32 // shr $0x20,%r14
.byte 72,139,24 // mov (%rax),%rbx
- .byte 76,139,72,8 // mov 0x8(%rax),%r9
- .byte 70,15,182,52,51 // movzbl (%rbx,%r14,1),%r14d
- .byte 66,15,182,44,59 // movzbl (%rbx,%r15,1),%ebp
+ .byte 76,139,64,8 // mov 0x8(%rax),%r8
+ .byte 70,15,182,28,27 // movzbl (%rbx,%r11,1),%r11d
+ .byte 66,15,182,44,51 // movzbl (%rbx,%r14,1),%ebp
.byte 193,229,8 // shl $0x8,%ebp
- .byte 68,9,245 // or %r14d,%ebp
- .byte 70,15,182,20,19 // movzbl (%rbx,%r10,1),%r10d
- .byte 66,15,182,28,27 // movzbl (%rbx,%r11,1),%ebx
+ .byte 68,9,221 // or %r11d,%ebp
+ .byte 70,15,182,12,11 // movzbl (%rbx,%r9,1),%r9d
+ .byte 66,15,182,28,19 // movzbl (%rbx,%r10,1),%ebx
.byte 193,227,8 // shl $0x8,%ebx
- .byte 68,9,211 // or %r10d,%ebx
+ .byte 68,9,203 // or %r9d,%ebx
.byte 102,15,196,195,0 // pinsrw $0x0,%ebx,%xmm0
.byte 102,15,196,197,1 // pinsrw $0x1,%ebp,%xmm0
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
.byte 102,65,15,96,193 // punpcklbw %xmm9,%xmm0
.byte 102,65,15,97,193 // punpcklwd %xmm9,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 68,15,40,21,146,246,0,0 // movaps 0xf692(%rip),%xmm10 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,21,90,247,0,0 // movaps 0xf75a(%rip),%xmm10 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,194 // mulps %xmm10,%xmm0
.byte 65,15,89,200 // mulps %xmm8,%xmm1
.byte 102,15,91,201 // cvtps2dq %xmm1,%xmm1
.byte 102,72,15,126,205 // movq %xmm1,%rbp
- .byte 65,137,234 // mov %ebp,%r10d
+ .byte 65,137,233 // mov %ebp,%r9d
.byte 72,193,237,32 // shr $0x20,%rbp
.byte 102,15,112,201,78 // pshufd $0x4e,%xmm1,%xmm1
.byte 102,72,15,126,203 // movq %xmm1,%rbx
- .byte 65,137,219 // mov %ebx,%r11d
+ .byte 65,137,218 // mov %ebx,%r10d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 71,15,182,28,25 // movzbl (%r9,%r11,1),%r11d
- .byte 65,15,182,28,25 // movzbl (%r9,%rbx,1),%ebx
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 65,15,182,28,24 // movzbl (%r8,%rbx,1),%ebx
.byte 193,227,8 // shl $0x8,%ebx
- .byte 68,9,219 // or %r11d,%ebx
- .byte 71,15,182,20,17 // movzbl (%r9,%r10,1),%r10d
- .byte 65,15,182,44,41 // movzbl (%r9,%rbp,1),%ebp
+ .byte 68,9,211 // or %r10d,%ebx
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 65,15,182,44,40 // movzbl (%r8,%rbp,1),%ebp
.byte 193,229,8 // shl $0x8,%ebp
- .byte 68,9,213 // or %r10d,%ebp
+ .byte 68,9,205 // or %r9d,%ebp
.byte 102,15,196,205,0 // pinsrw $0x0,%ebp,%xmm1
.byte 102,15,196,203,1 // pinsrw $0x1,%ebx,%xmm1
.byte 102,65,15,96,201 // punpcklbw %xmm9,%xmm1
@@ -37879,20 +37827,20 @@ _sk_byte_tables_rgb_sse2:
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 102,15,91,210 // cvtps2dq %xmm2,%xmm2
.byte 102,72,15,126,213 // movq %xmm2,%rbp
- .byte 65,137,233 // mov %ebp,%r9d
+ .byte 65,137,232 // mov %ebp,%r8d
.byte 72,193,237,32 // shr $0x20,%rbp
.byte 102,15,112,210,78 // pshufd $0x4e,%xmm2,%xmm2
.byte 102,72,15,126,211 // movq %xmm2,%rbx
- .byte 65,137,218 // mov %ebx,%r10d
+ .byte 65,137,217 // mov %ebx,%r9d
.byte 72,193,235,32 // shr $0x20,%rbx
- .byte 70,15,182,20,16 // movzbl (%rax,%r10,1),%r10d
+ .byte 70,15,182,12,8 // movzbl (%rax,%r9,1),%r9d
.byte 15,182,28,24 // movzbl (%rax,%rbx,1),%ebx
.byte 193,227,8 // shl $0x8,%ebx
- .byte 68,9,211 // or %r10d,%ebx
- .byte 70,15,182,12,8 // movzbl (%rax,%r9,1),%r9d
+ .byte 68,9,203 // or %r9d,%ebx
+ .byte 70,15,182,4,0 // movzbl (%rax,%r8,1),%r8d
.byte 15,182,4,40 // movzbl (%rax,%rbp,1),%eax
.byte 193,224,8 // shl $0x8,%eax
- .byte 68,9,200 // or %r9d,%eax
+ .byte 68,9,192 // or %r8d,%eax
.byte 102,15,196,208,0 // pinsrw $0x0,%eax,%xmm2
.byte 102,15,196,211,1 // pinsrw $0x1,%ebx,%xmm2
.byte 102,65,15,96,209 // punpcklbw %xmm9,%xmm2
@@ -37902,7 +37850,6 @@ _sk_byte_tables_rgb_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 93 // pop %rbp
.byte 255,224 // jmpq *%rax
@@ -37910,9 +37857,8 @@ HIDDEN _sk_table_r_sse2
.globl _sk_table_r_sse2
FUNCTION(_sk_table_r_sse2)
_sk_table_r_sse2:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
@@ -37922,29 +37868,27 @@ _sk_table_r_sse2:
.byte 102,69,15,91,192 // cvtps2dq %xmm8,%xmm8
.byte 102,65,15,112,192,78 // pshufd $0x4e,%xmm8,%xmm0
.byte 102,72,15,126,192 // movq %xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,77,15,126,195 // movq %xmm8,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,71,15,16,4,153 // movss (%r9,%r11,4),%xmm8
- .byte 243,65,15,16,4,129 // movss (%r9,%rax,4),%xmm0
+ .byte 102,77,15,126,194 // movq %xmm8,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,71,15,16,4,144 // movss (%r8,%r10,4),%xmm8
+ .byte 243,65,15,16,4,128 // movss (%r8,%rax,4),%xmm0
.byte 68,15,20,192 // unpcklps %xmm0,%xmm8
- .byte 243,65,15,16,4,153 // movss (%r9,%rbx,4),%xmm0
- .byte 243,71,15,16,12,145 // movss (%r9,%r10,4),%xmm9
+ .byte 243,67,15,16,4,152 // movss (%r8,%r11,4),%xmm0
+ .byte 243,71,15,16,12,136 // movss (%r8,%r9,4),%xmm9
.byte 65,15,20,193 // unpcklps %xmm9,%xmm0
.byte 65,15,20,192 // unpcklps %xmm8,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_table_g_sse2
.globl _sk_table_g_sse2
FUNCTION(_sk_table_g_sse2)
_sk_table_g_sse2:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
@@ -37954,29 +37898,27 @@ _sk_table_g_sse2:
.byte 102,69,15,91,192 // cvtps2dq %xmm8,%xmm8
.byte 102,65,15,112,200,78 // pshufd $0x4e,%xmm8,%xmm1
.byte 102,72,15,126,200 // movq %xmm1,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,77,15,126,195 // movq %xmm8,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,71,15,16,4,153 // movss (%r9,%r11,4),%xmm8
- .byte 243,65,15,16,12,129 // movss (%r9,%rax,4),%xmm1
+ .byte 102,77,15,126,194 // movq %xmm8,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,71,15,16,4,144 // movss (%r8,%r10,4),%xmm8
+ .byte 243,65,15,16,12,128 // movss (%r8,%rax,4),%xmm1
.byte 68,15,20,193 // unpcklps %xmm1,%xmm8
- .byte 243,65,15,16,12,153 // movss (%r9,%rbx,4),%xmm1
- .byte 243,71,15,16,12,145 // movss (%r9,%r10,4),%xmm9
+ .byte 243,67,15,16,12,152 // movss (%r8,%r11,4),%xmm1
+ .byte 243,71,15,16,12,136 // movss (%r8,%r9,4),%xmm9
.byte 65,15,20,201 // unpcklps %xmm9,%xmm1
.byte 65,15,20,200 // unpcklps %xmm8,%xmm1
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_table_b_sse2
.globl _sk_table_b_sse2
FUNCTION(_sk_table_b_sse2)
_sk_table_b_sse2:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
@@ -37986,29 +37928,27 @@ _sk_table_b_sse2:
.byte 102,69,15,91,192 // cvtps2dq %xmm8,%xmm8
.byte 102,65,15,112,208,78 // pshufd $0x4e,%xmm8,%xmm2
.byte 102,72,15,126,208 // movq %xmm2,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,77,15,126,195 // movq %xmm8,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,71,15,16,4,153 // movss (%r9,%r11,4),%xmm8
- .byte 243,65,15,16,20,129 // movss (%r9,%rax,4),%xmm2
+ .byte 102,77,15,126,194 // movq %xmm8,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,71,15,16,4,144 // movss (%r8,%r10,4),%xmm8
+ .byte 243,65,15,16,20,128 // movss (%r8,%rax,4),%xmm2
.byte 68,15,20,194 // unpcklps %xmm2,%xmm8
- .byte 243,65,15,16,20,153 // movss (%r9,%rbx,4),%xmm2
- .byte 243,71,15,16,12,145 // movss (%r9,%r10,4),%xmm9
+ .byte 243,67,15,16,20,152 // movss (%r8,%r11,4),%xmm2
+ .byte 243,71,15,16,12,136 // movss (%r8,%r9,4),%xmm9
.byte 65,15,20,209 // unpcklps %xmm9,%xmm2
.byte 65,15,20,208 // unpcklps %xmm8,%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_table_a_sse2
.globl _sk_table_a_sse2
FUNCTION(_sk_table_a_sse2)
_sk_table_a_sse2:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 139,64,8 // mov 0x8(%rax),%eax
.byte 255,200 // dec %eax
.byte 102,68,15,110,192 // movd %eax,%xmm8
@@ -38018,20 +37958,19 @@ _sk_table_a_sse2:
.byte 102,69,15,91,192 // cvtps2dq %xmm8,%xmm8
.byte 102,65,15,112,216,78 // pshufd $0x4e,%xmm8,%xmm3
.byte 102,72,15,126,216 // movq %xmm3,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,77,15,126,195 // movq %xmm8,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,71,15,16,4,153 // movss (%r9,%r11,4),%xmm8
- .byte 243,65,15,16,28,129 // movss (%r9,%rax,4),%xmm3
+ .byte 102,77,15,126,194 // movq %xmm8,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,71,15,16,4,144 // movss (%r8,%r10,4),%xmm8
+ .byte 243,65,15,16,28,128 // movss (%r8,%rax,4),%xmm3
.byte 68,15,20,195 // unpcklps %xmm3,%xmm8
- .byte 243,65,15,16,28,153 // movss (%r9,%rbx,4),%xmm3
- .byte 243,71,15,16,12,145 // movss (%r9,%r10,4),%xmm9
+ .byte 243,67,15,16,28,152 // movss (%r8,%r11,4),%xmm3
+ .byte 243,71,15,16,12,136 // movss (%r8,%r9,4),%xmm9
.byte 65,15,20,217 // unpcklps %xmm9,%xmm3
.byte 65,15,20,216 // unpcklps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_parametric_r_sse2
@@ -38057,15 +37996,15 @@ _sk_parametric_r_sse2:
.byte 69,15,88,209 // addps %xmm9,%xmm10
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 69,15,91,202 // cvtdq2ps %xmm10,%xmm9
- .byte 68,15,89,13,102,244,0,0 // mulps 0xf466(%rip),%xmm9 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 68,15,84,21,110,244,0,0 // andps 0xf46e(%rip),%xmm10 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
- .byte 68,15,86,21,150,241,0,0 // orps 0xf196(%rip),%xmm10 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
- .byte 68,15,88,13,110,244,0,0 // addps 0xf46e(%rip),%xmm9 # 2c5e0 <_sk_overlay_sse2_8bit+0x10fb>
- .byte 68,15,40,37,118,244,0,0 // movaps 0xf476(%rip),%xmm12 # 2c5f0 <_sk_overlay_sse2_8bit+0x110b>
+ .byte 68,15,89,13,56,245,0,0 // mulps 0xf538(%rip),%xmm9 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 68,15,84,21,64,245,0,0 // andps 0xf540(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
+ .byte 68,15,86,21,88,242,0,0 // orps 0xf258(%rip),%xmm10 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
+ .byte 68,15,88,13,64,245,0,0 // addps 0xf540(%rip),%xmm9 # 2c610 <_sk_overlay_sse2_8bit+0x1173>
+ .byte 68,15,40,37,72,245,0,0 // movaps 0xf548(%rip),%xmm12 # 2c620 <_sk_overlay_sse2_8bit+0x1183>
.byte 69,15,89,226 // mulps %xmm10,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
- .byte 68,15,88,21,118,244,0,0 // addps 0xf476(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x111b>
- .byte 68,15,40,37,126,244,0,0 // movaps 0xf47e(%rip),%xmm12 # 2c610 <_sk_overlay_sse2_8bit+0x112b>
+ .byte 68,15,88,21,72,245,0,0 // addps 0xf548(%rip),%xmm10 # 2c630 <_sk_overlay_sse2_8bit+0x1193>
+ .byte 68,15,40,37,80,245,0,0 // movaps 0xf550(%rip),%xmm12 # 2c640 <_sk_overlay_sse2_8bit+0x11a3>
.byte 69,15,94,226 // divps %xmm10,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
.byte 69,15,89,203 // mulps %xmm11,%xmm9
@@ -38073,22 +38012,22 @@ _sk_parametric_r_sse2:
.byte 69,15,91,226 // cvtdq2ps %xmm10,%xmm12
.byte 69,15,40,233 // movaps %xmm9,%xmm13
.byte 69,15,194,236,1 // cmpltps %xmm12,%xmm13
- .byte 68,15,40,21,88,241,0,0 // movaps 0xf158(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,21,42,242,0,0 // movaps 0xf22a(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,84,234 // andps %xmm10,%xmm13
.byte 69,15,87,219 // xorps %xmm11,%xmm11
.byte 69,15,92,229 // subps %xmm13,%xmm12
.byte 69,15,40,233 // movaps %xmm9,%xmm13
.byte 69,15,92,236 // subps %xmm12,%xmm13
- .byte 68,15,88,13,76,244,0,0 // addps 0xf44c(%rip),%xmm9 # 2c620 <_sk_overlay_sse2_8bit+0x113b>
- .byte 68,15,40,37,84,244,0,0 // movaps 0xf454(%rip),%xmm12 # 2c630 <_sk_overlay_sse2_8bit+0x114b>
+ .byte 68,15,88,13,30,245,0,0 // addps 0xf51e(%rip),%xmm9 # 2c650 <_sk_overlay_sse2_8bit+0x11b3>
+ .byte 68,15,40,37,38,245,0,0 // movaps 0xf526(%rip),%xmm12 # 2c660 <_sk_overlay_sse2_8bit+0x11c3>
.byte 69,15,89,229 // mulps %xmm13,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
- .byte 68,15,40,37,84,244,0,0 // movaps 0xf454(%rip),%xmm12 # 2c640 <_sk_overlay_sse2_8bit+0x115b>
+ .byte 68,15,40,37,38,245,0,0 // movaps 0xf526(%rip),%xmm12 # 2c670 <_sk_overlay_sse2_8bit+0x11d3>
.byte 69,15,92,229 // subps %xmm13,%xmm12
- .byte 68,15,40,45,88,244,0,0 // movaps 0xf458(%rip),%xmm13 # 2c650 <_sk_overlay_sse2_8bit+0x116b>
+ .byte 68,15,40,45,42,245,0,0 // movaps 0xf52a(%rip),%xmm13 # 2c680 <_sk_overlay_sse2_8bit+0x11e3>
.byte 69,15,94,236 // divps %xmm12,%xmm13
.byte 69,15,88,233 // addps %xmm9,%xmm13
- .byte 68,15,89,45,88,244,0,0 // mulps 0xf458(%rip),%xmm13 # 2c660 <_sk_overlay_sse2_8bit+0x117b>
+ .byte 68,15,89,45,42,245,0,0 // mulps 0xf52a(%rip),%xmm13 # 2c690 <_sk_overlay_sse2_8bit+0x11f3>
.byte 102,69,15,91,205 // cvtps2dq %xmm13,%xmm9
.byte 243,68,15,16,96,20 // movss 0x14(%rax),%xmm12
.byte 69,15,198,228,0 // shufps $0x0,%xmm12,%xmm12
@@ -38124,15 +38063,15 @@ _sk_parametric_g_sse2:
.byte 69,15,88,209 // addps %xmm9,%xmm10
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 69,15,91,202 // cvtdq2ps %xmm10,%xmm9
- .byte 68,15,89,13,40,243,0,0 // mulps 0xf328(%rip),%xmm9 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 68,15,84,21,48,243,0,0 // andps 0xf330(%rip),%xmm10 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
- .byte 68,15,86,21,88,240,0,0 // orps 0xf058(%rip),%xmm10 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
- .byte 68,15,88,13,48,243,0,0 // addps 0xf330(%rip),%xmm9 # 2c5e0 <_sk_overlay_sse2_8bit+0x10fb>
- .byte 68,15,40,37,56,243,0,0 // movaps 0xf338(%rip),%xmm12 # 2c5f0 <_sk_overlay_sse2_8bit+0x110b>
+ .byte 68,15,89,13,250,243,0,0 // mulps 0xf3fa(%rip),%xmm9 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 68,15,84,21,2,244,0,0 // andps 0xf402(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
+ .byte 68,15,86,21,26,241,0,0 // orps 0xf11a(%rip),%xmm10 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
+ .byte 68,15,88,13,2,244,0,0 // addps 0xf402(%rip),%xmm9 # 2c610 <_sk_overlay_sse2_8bit+0x1173>
+ .byte 68,15,40,37,10,244,0,0 // movaps 0xf40a(%rip),%xmm12 # 2c620 <_sk_overlay_sse2_8bit+0x1183>
.byte 69,15,89,226 // mulps %xmm10,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
- .byte 68,15,88,21,56,243,0,0 // addps 0xf338(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x111b>
- .byte 68,15,40,37,64,243,0,0 // movaps 0xf340(%rip),%xmm12 # 2c610 <_sk_overlay_sse2_8bit+0x112b>
+ .byte 68,15,88,21,10,244,0,0 // addps 0xf40a(%rip),%xmm10 # 2c630 <_sk_overlay_sse2_8bit+0x1193>
+ .byte 68,15,40,37,18,244,0,0 // movaps 0xf412(%rip),%xmm12 # 2c640 <_sk_overlay_sse2_8bit+0x11a3>
.byte 69,15,94,226 // divps %xmm10,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
.byte 69,15,89,203 // mulps %xmm11,%xmm9
@@ -38140,22 +38079,22 @@ _sk_parametric_g_sse2:
.byte 69,15,91,226 // cvtdq2ps %xmm10,%xmm12
.byte 69,15,40,233 // movaps %xmm9,%xmm13
.byte 69,15,194,236,1 // cmpltps %xmm12,%xmm13
- .byte 68,15,40,21,26,240,0,0 // movaps 0xf01a(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,21,236,240,0,0 // movaps 0xf0ec(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,84,234 // andps %xmm10,%xmm13
.byte 69,15,87,219 // xorps %xmm11,%xmm11
.byte 69,15,92,229 // subps %xmm13,%xmm12
.byte 69,15,40,233 // movaps %xmm9,%xmm13
.byte 69,15,92,236 // subps %xmm12,%xmm13
- .byte 68,15,88,13,14,243,0,0 // addps 0xf30e(%rip),%xmm9 # 2c620 <_sk_overlay_sse2_8bit+0x113b>
- .byte 68,15,40,37,22,243,0,0 // movaps 0xf316(%rip),%xmm12 # 2c630 <_sk_overlay_sse2_8bit+0x114b>
+ .byte 68,15,88,13,224,243,0,0 // addps 0xf3e0(%rip),%xmm9 # 2c650 <_sk_overlay_sse2_8bit+0x11b3>
+ .byte 68,15,40,37,232,243,0,0 // movaps 0xf3e8(%rip),%xmm12 # 2c660 <_sk_overlay_sse2_8bit+0x11c3>
.byte 69,15,89,229 // mulps %xmm13,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
- .byte 68,15,40,37,22,243,0,0 // movaps 0xf316(%rip),%xmm12 # 2c640 <_sk_overlay_sse2_8bit+0x115b>
+ .byte 68,15,40,37,232,243,0,0 // movaps 0xf3e8(%rip),%xmm12 # 2c670 <_sk_overlay_sse2_8bit+0x11d3>
.byte 69,15,92,229 // subps %xmm13,%xmm12
- .byte 68,15,40,45,26,243,0,0 // movaps 0xf31a(%rip),%xmm13 # 2c650 <_sk_overlay_sse2_8bit+0x116b>
+ .byte 68,15,40,45,236,243,0,0 // movaps 0xf3ec(%rip),%xmm13 # 2c680 <_sk_overlay_sse2_8bit+0x11e3>
.byte 69,15,94,236 // divps %xmm12,%xmm13
.byte 69,15,88,233 // addps %xmm9,%xmm13
- .byte 68,15,89,45,26,243,0,0 // mulps 0xf31a(%rip),%xmm13 # 2c660 <_sk_overlay_sse2_8bit+0x117b>
+ .byte 68,15,89,45,236,243,0,0 // mulps 0xf3ec(%rip),%xmm13 # 2c690 <_sk_overlay_sse2_8bit+0x11f3>
.byte 102,69,15,91,205 // cvtps2dq %xmm13,%xmm9
.byte 243,68,15,16,96,20 // movss 0x14(%rax),%xmm12
.byte 69,15,198,228,0 // shufps $0x0,%xmm12,%xmm12
@@ -38191,15 +38130,15 @@ _sk_parametric_b_sse2:
.byte 69,15,88,209 // addps %xmm9,%xmm10
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 69,15,91,202 // cvtdq2ps %xmm10,%xmm9
- .byte 68,15,89,13,234,241,0,0 // mulps 0xf1ea(%rip),%xmm9 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 68,15,84,21,242,241,0,0 // andps 0xf1f2(%rip),%xmm10 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
- .byte 68,15,86,21,26,239,0,0 // orps 0xef1a(%rip),%xmm10 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
- .byte 68,15,88,13,242,241,0,0 // addps 0xf1f2(%rip),%xmm9 # 2c5e0 <_sk_overlay_sse2_8bit+0x10fb>
- .byte 68,15,40,37,250,241,0,0 // movaps 0xf1fa(%rip),%xmm12 # 2c5f0 <_sk_overlay_sse2_8bit+0x110b>
+ .byte 68,15,89,13,188,242,0,0 // mulps 0xf2bc(%rip),%xmm9 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 68,15,84,21,196,242,0,0 // andps 0xf2c4(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
+ .byte 68,15,86,21,220,239,0,0 // orps 0xefdc(%rip),%xmm10 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
+ .byte 68,15,88,13,196,242,0,0 // addps 0xf2c4(%rip),%xmm9 # 2c610 <_sk_overlay_sse2_8bit+0x1173>
+ .byte 68,15,40,37,204,242,0,0 // movaps 0xf2cc(%rip),%xmm12 # 2c620 <_sk_overlay_sse2_8bit+0x1183>
.byte 69,15,89,226 // mulps %xmm10,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
- .byte 68,15,88,21,250,241,0,0 // addps 0xf1fa(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x111b>
- .byte 68,15,40,37,2,242,0,0 // movaps 0xf202(%rip),%xmm12 # 2c610 <_sk_overlay_sse2_8bit+0x112b>
+ .byte 68,15,88,21,204,242,0,0 // addps 0xf2cc(%rip),%xmm10 # 2c630 <_sk_overlay_sse2_8bit+0x1193>
+ .byte 68,15,40,37,212,242,0,0 // movaps 0xf2d4(%rip),%xmm12 # 2c640 <_sk_overlay_sse2_8bit+0x11a3>
.byte 69,15,94,226 // divps %xmm10,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
.byte 69,15,89,203 // mulps %xmm11,%xmm9
@@ -38207,22 +38146,22 @@ _sk_parametric_b_sse2:
.byte 69,15,91,226 // cvtdq2ps %xmm10,%xmm12
.byte 69,15,40,233 // movaps %xmm9,%xmm13
.byte 69,15,194,236,1 // cmpltps %xmm12,%xmm13
- .byte 68,15,40,21,220,238,0,0 // movaps 0xeedc(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,21,174,239,0,0 // movaps 0xefae(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,84,234 // andps %xmm10,%xmm13
.byte 69,15,87,219 // xorps %xmm11,%xmm11
.byte 69,15,92,229 // subps %xmm13,%xmm12
.byte 69,15,40,233 // movaps %xmm9,%xmm13
.byte 69,15,92,236 // subps %xmm12,%xmm13
- .byte 68,15,88,13,208,241,0,0 // addps 0xf1d0(%rip),%xmm9 # 2c620 <_sk_overlay_sse2_8bit+0x113b>
- .byte 68,15,40,37,216,241,0,0 // movaps 0xf1d8(%rip),%xmm12 # 2c630 <_sk_overlay_sse2_8bit+0x114b>
+ .byte 68,15,88,13,162,242,0,0 // addps 0xf2a2(%rip),%xmm9 # 2c650 <_sk_overlay_sse2_8bit+0x11b3>
+ .byte 68,15,40,37,170,242,0,0 // movaps 0xf2aa(%rip),%xmm12 # 2c660 <_sk_overlay_sse2_8bit+0x11c3>
.byte 69,15,89,229 // mulps %xmm13,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
- .byte 68,15,40,37,216,241,0,0 // movaps 0xf1d8(%rip),%xmm12 # 2c640 <_sk_overlay_sse2_8bit+0x115b>
+ .byte 68,15,40,37,170,242,0,0 // movaps 0xf2aa(%rip),%xmm12 # 2c670 <_sk_overlay_sse2_8bit+0x11d3>
.byte 69,15,92,229 // subps %xmm13,%xmm12
- .byte 68,15,40,45,220,241,0,0 // movaps 0xf1dc(%rip),%xmm13 # 2c650 <_sk_overlay_sse2_8bit+0x116b>
+ .byte 68,15,40,45,174,242,0,0 // movaps 0xf2ae(%rip),%xmm13 # 2c680 <_sk_overlay_sse2_8bit+0x11e3>
.byte 69,15,94,236 // divps %xmm12,%xmm13
.byte 69,15,88,233 // addps %xmm9,%xmm13
- .byte 68,15,89,45,220,241,0,0 // mulps 0xf1dc(%rip),%xmm13 # 2c660 <_sk_overlay_sse2_8bit+0x117b>
+ .byte 68,15,89,45,174,242,0,0 // mulps 0xf2ae(%rip),%xmm13 # 2c690 <_sk_overlay_sse2_8bit+0x11f3>
.byte 102,69,15,91,205 // cvtps2dq %xmm13,%xmm9
.byte 243,68,15,16,96,20 // movss 0x14(%rax),%xmm12
.byte 69,15,198,228,0 // shufps $0x0,%xmm12,%xmm12
@@ -38258,15 +38197,15 @@ _sk_parametric_a_sse2:
.byte 69,15,88,209 // addps %xmm9,%xmm10
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 69,15,91,202 // cvtdq2ps %xmm10,%xmm9
- .byte 68,15,89,13,172,240,0,0 // mulps 0xf0ac(%rip),%xmm9 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 68,15,84,21,180,240,0,0 // andps 0xf0b4(%rip),%xmm10 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
- .byte 68,15,86,21,220,237,0,0 // orps 0xeddc(%rip),%xmm10 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
- .byte 68,15,88,13,180,240,0,0 // addps 0xf0b4(%rip),%xmm9 # 2c5e0 <_sk_overlay_sse2_8bit+0x10fb>
- .byte 68,15,40,37,188,240,0,0 // movaps 0xf0bc(%rip),%xmm12 # 2c5f0 <_sk_overlay_sse2_8bit+0x110b>
+ .byte 68,15,89,13,126,241,0,0 // mulps 0xf17e(%rip),%xmm9 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 68,15,84,21,134,241,0,0 // andps 0xf186(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
+ .byte 68,15,86,21,158,238,0,0 // orps 0xee9e(%rip),%xmm10 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
+ .byte 68,15,88,13,134,241,0,0 // addps 0xf186(%rip),%xmm9 # 2c610 <_sk_overlay_sse2_8bit+0x1173>
+ .byte 68,15,40,37,142,241,0,0 // movaps 0xf18e(%rip),%xmm12 # 2c620 <_sk_overlay_sse2_8bit+0x1183>
.byte 69,15,89,226 // mulps %xmm10,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
- .byte 68,15,88,21,188,240,0,0 // addps 0xf0bc(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x111b>
- .byte 68,15,40,37,196,240,0,0 // movaps 0xf0c4(%rip),%xmm12 # 2c610 <_sk_overlay_sse2_8bit+0x112b>
+ .byte 68,15,88,21,142,241,0,0 // addps 0xf18e(%rip),%xmm10 # 2c630 <_sk_overlay_sse2_8bit+0x1193>
+ .byte 68,15,40,37,150,241,0,0 // movaps 0xf196(%rip),%xmm12 # 2c640 <_sk_overlay_sse2_8bit+0x11a3>
.byte 69,15,94,226 // divps %xmm10,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
.byte 69,15,89,203 // mulps %xmm11,%xmm9
@@ -38274,22 +38213,22 @@ _sk_parametric_a_sse2:
.byte 69,15,91,226 // cvtdq2ps %xmm10,%xmm12
.byte 69,15,40,233 // movaps %xmm9,%xmm13
.byte 69,15,194,236,1 // cmpltps %xmm12,%xmm13
- .byte 68,15,40,21,158,237,0,0 // movaps 0xed9e(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,21,112,238,0,0 // movaps 0xee70(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,84,234 // andps %xmm10,%xmm13
.byte 69,15,87,219 // xorps %xmm11,%xmm11
.byte 69,15,92,229 // subps %xmm13,%xmm12
.byte 69,15,40,233 // movaps %xmm9,%xmm13
.byte 69,15,92,236 // subps %xmm12,%xmm13
- .byte 68,15,88,13,146,240,0,0 // addps 0xf092(%rip),%xmm9 # 2c620 <_sk_overlay_sse2_8bit+0x113b>
- .byte 68,15,40,37,154,240,0,0 // movaps 0xf09a(%rip),%xmm12 # 2c630 <_sk_overlay_sse2_8bit+0x114b>
+ .byte 68,15,88,13,100,241,0,0 // addps 0xf164(%rip),%xmm9 # 2c650 <_sk_overlay_sse2_8bit+0x11b3>
+ .byte 68,15,40,37,108,241,0,0 // movaps 0xf16c(%rip),%xmm12 # 2c660 <_sk_overlay_sse2_8bit+0x11c3>
.byte 69,15,89,229 // mulps %xmm13,%xmm12
.byte 69,15,92,204 // subps %xmm12,%xmm9
- .byte 68,15,40,37,154,240,0,0 // movaps 0xf09a(%rip),%xmm12 # 2c640 <_sk_overlay_sse2_8bit+0x115b>
+ .byte 68,15,40,37,108,241,0,0 // movaps 0xf16c(%rip),%xmm12 # 2c670 <_sk_overlay_sse2_8bit+0x11d3>
.byte 69,15,92,229 // subps %xmm13,%xmm12
- .byte 68,15,40,45,158,240,0,0 // movaps 0xf09e(%rip),%xmm13 # 2c650 <_sk_overlay_sse2_8bit+0x116b>
+ .byte 68,15,40,45,112,241,0,0 // movaps 0xf170(%rip),%xmm13 # 2c680 <_sk_overlay_sse2_8bit+0x11e3>
.byte 69,15,94,236 // divps %xmm12,%xmm13
.byte 69,15,88,233 // addps %xmm9,%xmm13
- .byte 68,15,89,45,158,240,0,0 // mulps 0xf09e(%rip),%xmm13 # 2c660 <_sk_overlay_sse2_8bit+0x117b>
+ .byte 68,15,89,45,112,241,0,0 // mulps 0xf170(%rip),%xmm13 # 2c690 <_sk_overlay_sse2_8bit+0x11f3>
.byte 102,69,15,91,205 // cvtps2dq %xmm13,%xmm9
.byte 243,68,15,16,96,20 // movss 0x14(%rax),%xmm12
.byte 69,15,198,228,0 // shufps $0x0,%xmm12,%xmm12
@@ -38314,19 +38253,19 @@ _sk_gamma_sse2:
.byte 15,40,218 // movaps %xmm2,%xmm3
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 15,91,194 // cvtdq2ps %xmm2,%xmm0
- .byte 15,89,5,169,239,0,0 // mulps 0xefa9(%rip),%xmm0 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 15,84,21,178,239,0,0 // andps 0xefb2(%rip),%xmm2 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
- .byte 68,15,40,53,218,236,0,0 // movaps 0xecda(%rip),%xmm14 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 15,89,5,123,240,0,0 // mulps 0xf07b(%rip),%xmm0 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 15,84,21,132,240,0,0 // andps 0xf084(%rip),%xmm2 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
+ .byte 68,15,40,53,156,237,0,0 // movaps 0xed9c(%rip),%xmm14 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 65,15,86,214 // orps %xmm14,%xmm2
- .byte 68,15,40,37,174,239,0,0 // movaps 0xefae(%rip),%xmm12 # 2c5e0 <_sk_overlay_sse2_8bit+0x10fb>
+ .byte 68,15,40,37,128,240,0,0 // movaps 0xf080(%rip),%xmm12 # 2c610 <_sk_overlay_sse2_8bit+0x1173>
.byte 65,15,88,196 // addps %xmm12,%xmm0
- .byte 68,15,40,29,178,239,0,0 // movaps 0xefb2(%rip),%xmm11 # 2c5f0 <_sk_overlay_sse2_8bit+0x110b>
+ .byte 68,15,40,29,132,240,0,0 // movaps 0xf084(%rip),%xmm11 # 2c620 <_sk_overlay_sse2_8bit+0x1183>
.byte 15,40,226 // movaps %xmm2,%xmm4
.byte 65,15,89,227 // mulps %xmm11,%xmm4
.byte 15,92,196 // subps %xmm4,%xmm0
- .byte 68,15,40,21,176,239,0,0 // movaps 0xefb0(%rip),%xmm10 # 2c600 <_sk_overlay_sse2_8bit+0x111b>
+ .byte 68,15,40,21,130,240,0,0 // movaps 0xf082(%rip),%xmm10 # 2c630 <_sk_overlay_sse2_8bit+0x1193>
.byte 65,15,88,210 // addps %xmm10,%xmm2
- .byte 68,15,40,45,180,239,0,0 // movaps 0xefb4(%rip),%xmm13 # 2c610 <_sk_overlay_sse2_8bit+0x112b>
+ .byte 68,15,40,45,134,240,0,0 // movaps 0xf086(%rip),%xmm13 # 2c640 <_sk_overlay_sse2_8bit+0x11a3>
.byte 65,15,40,229 // movaps %xmm13,%xmm4
.byte 15,94,226 // divps %xmm2,%xmm4
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -38338,27 +38277,27 @@ _sk_gamma_sse2:
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
.byte 15,40,224 // movaps %xmm0,%xmm4
.byte 15,194,226,1 // cmpltps %xmm2,%xmm4
- .byte 68,15,40,13,132,236,0,0 // movaps 0xec84(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,13,86,237,0,0 // movaps 0xed56(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 65,15,84,225 // andps %xmm9,%xmm4
.byte 15,92,212 // subps %xmm4,%xmm2
.byte 15,40,224 // movaps %xmm0,%xmm4
.byte 15,92,226 // subps %xmm2,%xmm4
- .byte 15,40,53,128,239,0,0 // movaps 0xef80(%rip),%xmm6 # 2c620 <_sk_overlay_sse2_8bit+0x113b>
+ .byte 15,40,53,82,240,0,0 // movaps 0xf052(%rip),%xmm6 # 2c650 <_sk_overlay_sse2_8bit+0x11b3>
.byte 15,88,198 // addps %xmm6,%xmm0
- .byte 15,40,61,150,239,0,0 // movaps 0xef96(%rip),%xmm7 # 2c640 <_sk_overlay_sse2_8bit+0x115b>
+ .byte 15,40,61,104,240,0,0 // movaps 0xf068(%rip),%xmm7 # 2c670 <_sk_overlay_sse2_8bit+0x11d3>
.byte 15,40,239 // movaps %xmm7,%xmm5
.byte 15,92,236 // subps %xmm4,%xmm5
.byte 15,40,212 // movaps %xmm4,%xmm2
- .byte 15,40,37,118,239,0,0 // movaps 0xef76(%rip),%xmm4 # 2c630 <_sk_overlay_sse2_8bit+0x114b>
+ .byte 15,40,37,72,240,0,0 // movaps 0xf048(%rip),%xmm4 # 2c660 <_sk_overlay_sse2_8bit+0x11c3>
.byte 15,89,212 // mulps %xmm4,%xmm2
.byte 15,92,194 // subps %xmm2,%xmm0
- .byte 68,15,40,61,136,239,0,0 // movaps 0xef88(%rip),%xmm15 # 2c650 <_sk_overlay_sse2_8bit+0x116b>
+ .byte 68,15,40,61,90,240,0,0 // movaps 0xf05a(%rip),%xmm15 # 2c680 <_sk_overlay_sse2_8bit+0x11e3>
.byte 65,15,40,215 // movaps %xmm15,%xmm2
.byte 15,94,213 // divps %xmm5,%xmm2
.byte 15,88,208 // addps %xmm0,%xmm2
.byte 15,91,193 // cvtdq2ps %xmm1,%xmm0
- .byte 15,89,5,228,238,0,0 // mulps 0xeee4(%rip),%xmm0 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 15,84,13,237,238,0,0 // andps 0xeeed(%rip),%xmm1 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
+ .byte 15,89,5,182,239,0,0 // mulps 0xefb6(%rip),%xmm0 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 15,84,13,191,239,0,0 // andps 0xefbf(%rip),%xmm1 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
.byte 65,15,86,206 // orps %xmm14,%xmm1
.byte 65,15,88,196 // addps %xmm12,%xmm0
.byte 15,40,233 // movaps %xmm1,%xmm5
@@ -38388,9 +38327,9 @@ _sk_gamma_sse2:
.byte 15,94,206 // divps %xmm6,%xmm1
.byte 15,88,200 // addps %xmm0,%xmm1
.byte 15,91,195 // cvtdq2ps %xmm3,%xmm0
- .byte 15,89,5,115,238,0,0 // mulps 0xee73(%rip),%xmm0 # 2c5c0 <_sk_overlay_sse2_8bit+0x10db>
- .byte 15,84,29,124,238,0,0 // andps 0xee7c(%rip),%xmm3 # 2c5d0 <_sk_overlay_sse2_8bit+0x10eb>
- .byte 15,86,29,165,235,0,0 // orps 0xeba5(%rip),%xmm3 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 15,89,5,69,239,0,0 // mulps 0xef45(%rip),%xmm0 # 2c5f0 <_sk_overlay_sse2_8bit+0x1153>
+ .byte 15,84,29,78,239,0,0 // andps 0xef4e(%rip),%xmm3 # 2c600 <_sk_overlay_sse2_8bit+0x1163>
+ .byte 15,86,29,103,236,0,0 // orps 0xec67(%rip),%xmm3 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 65,15,88,196 // addps %xmm12,%xmm0
.byte 68,15,89,219 // mulps %xmm3,%xmm11
.byte 65,15,92,195 // subps %xmm11,%xmm0
@@ -38412,7 +38351,7 @@ _sk_gamma_sse2:
.byte 15,92,253 // subps %xmm5,%xmm7
.byte 68,15,94,255 // divps %xmm7,%xmm15
.byte 68,15,88,248 // addps %xmm0,%xmm15
- .byte 15,40,5,178,238,0,0 // movaps 0xeeb2(%rip),%xmm0 # 2c660 <_sk_overlay_sse2_8bit+0x117b>
+ .byte 15,40,5,132,239,0,0 // movaps 0xef84(%rip),%xmm0 # 2c690 <_sk_overlay_sse2_8bit+0x11f3>
.byte 15,89,208 // mulps %xmm0,%xmm2
.byte 15,89,200 // mulps %xmm0,%xmm1
.byte 68,15,89,248 // mulps %xmm0,%xmm15
@@ -38431,29 +38370,29 @@ HIDDEN _sk_lab_to_xyz_sse2
.globl _sk_lab_to_xyz_sse2
FUNCTION(_sk_lab_to_xyz_sse2)
_sk_lab_to_xyz_sse2:
- .byte 15,89,5,135,238,0,0 // mulps 0xee87(%rip),%xmm0 # 2c670 <_sk_overlay_sse2_8bit+0x118b>
- .byte 68,15,40,5,255,235,0,0 // movaps 0xebff(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 15,89,5,89,239,0,0 // mulps 0xef59(%rip),%xmm0 # 2c6a0 <_sk_overlay_sse2_8bit+0x1203>
+ .byte 68,15,40,5,209,236,0,0 // movaps 0xecd1(%rip),%xmm8 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 65,15,89,200 // mulps %xmm8,%xmm1
- .byte 68,15,40,13,131,238,0,0 // movaps 0xee83(%rip),%xmm9 # 2c680 <_sk_overlay_sse2_8bit+0x119b>
+ .byte 68,15,40,13,85,239,0,0 // movaps 0xef55(%rip),%xmm9 # 2c6b0 <_sk_overlay_sse2_8bit+0x1213>
.byte 65,15,88,201 // addps %xmm9,%xmm1
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 65,15,88,209 // addps %xmm9,%xmm2
- .byte 15,88,5,128,238,0,0 // addps 0xee80(%rip),%xmm0 # 2c690 <_sk_overlay_sse2_8bit+0x11ab>
- .byte 15,89,5,137,238,0,0 // mulps 0xee89(%rip),%xmm0 # 2c6a0 <_sk_overlay_sse2_8bit+0x11bb>
- .byte 15,89,13,146,238,0,0 // mulps 0xee92(%rip),%xmm1 # 2c6b0 <_sk_overlay_sse2_8bit+0x11cb>
+ .byte 15,88,5,82,239,0,0 // addps 0xef52(%rip),%xmm0 # 2c6c0 <_sk_overlay_sse2_8bit+0x1223>
+ .byte 15,89,5,91,239,0,0 // mulps 0xef5b(%rip),%xmm0 # 2c6d0 <_sk_overlay_sse2_8bit+0x1233>
+ .byte 15,89,13,100,239,0,0 // mulps 0xef64(%rip),%xmm1 # 2c6e0 <_sk_overlay_sse2_8bit+0x1243>
.byte 15,88,200 // addps %xmm0,%xmm1
- .byte 15,89,21,152,238,0,0 // mulps 0xee98(%rip),%xmm2 # 2c6c0 <_sk_overlay_sse2_8bit+0x11db>
+ .byte 15,89,21,106,239,0,0 // mulps 0xef6a(%rip),%xmm2 # 2c6f0 <_sk_overlay_sse2_8bit+0x1253>
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 68,15,92,202 // subps %xmm2,%xmm9
.byte 68,15,40,225 // movaps %xmm1,%xmm12
.byte 69,15,89,228 // mulps %xmm12,%xmm12
.byte 68,15,89,225 // mulps %xmm1,%xmm12
- .byte 15,40,21,141,238,0,0 // movaps 0xee8d(%rip),%xmm2 # 2c6d0 <_sk_overlay_sse2_8bit+0x11eb>
+ .byte 15,40,21,95,239,0,0 // movaps 0xef5f(%rip),%xmm2 # 2c700 <_sk_overlay_sse2_8bit+0x1263>
.byte 68,15,40,194 // movaps %xmm2,%xmm8
.byte 69,15,194,196,1 // cmpltps %xmm12,%xmm8
- .byte 68,15,40,21,140,238,0,0 // movaps 0xee8c(%rip),%xmm10 # 2c6e0 <_sk_overlay_sse2_8bit+0x11fb>
+ .byte 68,15,40,21,94,239,0,0 // movaps 0xef5e(%rip),%xmm10 # 2c710 <_sk_overlay_sse2_8bit+0x1273>
.byte 65,15,88,202 // addps %xmm10,%xmm1
- .byte 68,15,40,29,144,238,0,0 // movaps 0xee90(%rip),%xmm11 # 2c6f0 <_sk_overlay_sse2_8bit+0x120b>
+ .byte 68,15,40,29,98,239,0,0 // movaps 0xef62(%rip),%xmm11 # 2c720 <_sk_overlay_sse2_8bit+0x1283>
.byte 65,15,89,203 // mulps %xmm11,%xmm1
.byte 69,15,84,224 // andps %xmm8,%xmm12
.byte 68,15,85,193 // andnps %xmm1,%xmm8
@@ -38477,8 +38416,8 @@ _sk_lab_to_xyz_sse2:
.byte 15,84,194 // andps %xmm2,%xmm0
.byte 65,15,85,209 // andnps %xmm9,%xmm2
.byte 15,86,208 // orps %xmm0,%xmm2
- .byte 68,15,89,5,64,238,0,0 // mulps 0xee40(%rip),%xmm8 # 2c700 <_sk_overlay_sse2_8bit+0x121b>
- .byte 15,89,21,73,238,0,0 // mulps 0xee49(%rip),%xmm2 # 2c710 <_sk_overlay_sse2_8bit+0x122b>
+ .byte 68,15,89,5,18,239,0,0 // mulps 0xef12(%rip),%xmm8 # 2c730 <_sk_overlay_sse2_8bit+0x1293>
+ .byte 15,89,21,27,239,0,0 // mulps 0xef1b(%rip),%xmm2 # 2c740 <_sk_overlay_sse2_8bit+0x12a3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 255,224 // jmpq *%rax
@@ -38488,99 +38427,97 @@ HIDDEN _sk_load_a8_sse2
FUNCTION(_sk_load_a8_sse2)
_sk_load_a8_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,46 // jne 1d915 <_sk_load_a8_sse2+0x46>
- .byte 102,67,15,110,4,25 // movd (%r9,%r11,1),%xmm0
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,46 // jne 1d873 <_sk_load_a8_sse2+0x46>
+ .byte 102,67,15,110,4,16 // movd (%r8,%r10,1),%xmm0
.byte 102,15,96,192 // punpcklbw %xmm0,%xmm0
.byte 102,15,97,192 // punpcklwd %xmm0,%xmm0
- .byte 102,15,219,5,195,234,0,0 // pand 0xeac3(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,15,219,5,149,235,0,0 // pand 0xeb95(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 15,91,216 // cvtdq2ps %xmm0,%xmm3
- .byte 15,89,29,9,236,0,0 // mulps 0xec09(%rip),%xmm3 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,29,219,236,0,0 // mulps 0xecdb(%rip),%xmm3 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 102,15,87,201 // xorpd %xmm1,%xmm1
.byte 15,87,210 // xorps %xmm2,%xmm2
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,54 // je 1d958 <_sk_load_a8_sse2+0x89>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,54 // je 1d8b6 <_sk_load_a8_sse2+0x89>
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 1d941 <_sk_load_a8_sse2+0x72>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,195 // jne 1d8f5 <_sk_load_a8_sse2+0x26>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 1d89f <_sk_load_a8_sse2+0x72>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,195 // jne 1d853 <_sk_load_a8_sse2+0x26>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,15,112,192,69 // pshufd $0x45,%xmm0,%xmm0
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,15,110,200 // movd %eax,%xmm1
.byte 102,15,96,200 // punpcklbw %xmm0,%xmm1
.byte 102,15,97,200 // punpcklwd %xmm0,%xmm1
.byte 242,15,16,193 // movsd %xmm1,%xmm0
- .byte 235,157 // jmp 1d8f5 <_sk_load_a8_sse2+0x26>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 235,157 // jmp 1d853 <_sk_load_a8_sse2+0x26>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
- .byte 235,146 // jmp 1d8f5 <_sk_load_a8_sse2+0x26>
+ .byte 235,146 // jmp 1d853 <_sk_load_a8_sse2+0x26>
HIDDEN _sk_load_a8_dst_sse2
.globl _sk_load_a8_dst_sse2
FUNCTION(_sk_load_a8_dst_sse2)
_sk_load_a8_dst_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,46 // jne 1d9a9 <_sk_load_a8_dst_sse2+0x46>
- .byte 102,67,15,110,36,25 // movd (%r9,%r11,1),%xmm4
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,46 // jne 1d907 <_sk_load_a8_dst_sse2+0x46>
+ .byte 102,67,15,110,36,16 // movd (%r8,%r10,1),%xmm4
.byte 102,15,96,224 // punpcklbw %xmm0,%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
- .byte 102,15,219,37,47,234,0,0 // pand 0xea2f(%rip),%xmm4 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,15,219,37,1,235,0,0 // pand 0xeb01(%rip),%xmm4 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 15,91,252 // cvtdq2ps %xmm4,%xmm7
- .byte 15,89,61,117,235,0,0 // mulps 0xeb75(%rip),%xmm7 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,61,71,236,0,0 // mulps 0xec47(%rip),%xmm7 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,87,228 // xorps %xmm4,%xmm4
.byte 102,15,87,237 // xorpd %xmm5,%xmm5
.byte 15,87,246 // xorps %xmm6,%xmm6
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,54 // je 1d9ec <_sk_load_a8_dst_sse2+0x89>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,54 // je 1d94a <_sk_load_a8_dst_sse2+0x89>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 1d9d5 <_sk_load_a8_dst_sse2+0x72>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,195 // jne 1d989 <_sk_load_a8_dst_sse2+0x26>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 1d933 <_sk_load_a8_dst_sse2+0x72>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,195 // jne 1d8e7 <_sk_load_a8_dst_sse2+0x26>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,15,110,232 // movd %eax,%xmm5
.byte 102,15,96,232 // punpcklbw %xmm0,%xmm5
.byte 102,15,97,232 // punpcklwd %xmm0,%xmm5
.byte 242,15,16,229 // movsd %xmm5,%xmm4
- .byte 235,157 // jmp 1d989 <_sk_load_a8_dst_sse2+0x26>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 235,157 // jmp 1d8e7 <_sk_load_a8_dst_sse2+0x26>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
- .byte 235,146 // jmp 1d989 <_sk_load_a8_dst_sse2+0x26>
+ .byte 235,146 // jmp 1d8e7 <_sk_load_a8_dst_sse2+0x26>
HIDDEN _sk_gather_a8_sse2
.globl _sk_gather_a8_sse2
FUNCTION(_sk_gather_a8_sse2)
_sk_gather_a8_sse2:
- .byte 85 // push %rbp
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -38593,33 +38530,31 @@ _sk_gather_a8_sse2:
.byte 243,15,91,192 // cvttps2dq %xmm0,%xmm0
.byte 102,15,254,193 // paddd %xmm1,%xmm0
.byte 102,72,15,126,192 // movq %xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
.byte 102,15,112,192,78 // pshufd $0x4e,%xmm0,%xmm0
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 65,15,182,44,25 // movzbl (%r9,%rbx,1),%ebp
- .byte 67,15,182,28,25 // movzbl (%r9,%r11,1),%ebx
- .byte 193,227,8 // shl $0x8,%ebx
- .byte 9,235 // or %ebp,%ebx
- .byte 67,15,182,44,17 // movzbl (%r9,%r10,1),%ebp
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 71,15,182,28,24 // movzbl (%r8,%r11,1),%r11d
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 65,193,226,8 // shl $0x8,%r10d
+ .byte 69,9,218 // or %r11d,%r10d
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 65,15,182,4,0 // movzbl (%r8,%rax,1),%eax
.byte 193,224,8 // shl $0x8,%eax
- .byte 9,232 // or %ebp,%eax
+ .byte 68,9,200 // or %r9d,%eax
.byte 102,15,196,192,0 // pinsrw $0x0,%eax,%xmm0
- .byte 102,15,196,195,1 // pinsrw $0x1,%ebx,%xmm0
+ .byte 102,65,15,196,194,1 // pinsrw $0x1,%r10d,%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,96,193 // punpcklbw %xmm1,%xmm0
.byte 102,15,97,193 // punpcklwd %xmm1,%xmm0
.byte 15,91,216 // cvtdq2ps %xmm0,%xmm3
- .byte 15,89,29,134,234,0,0 // mulps 0xea86(%rip),%xmm3 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,29,86,235,0,0 // mulps 0xeb56(%rip),%xmm3 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,239,210 // pxor %xmm2,%xmm2
- .byte 91 // pop %rbx
- .byte 93 // pop %rbp
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_a8_sse2
@@ -38627,146 +38562,144 @@ HIDDEN _sk_store_a8_sse2
FUNCTION(_sk_store_a8_sse2)
_sk_store_a8_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 68,15,40,5,58,233,0,0 // movaps 0xe93a(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 68,15,40,5,12,234,0,0 // movaps 0xea0c(%rip),%xmm8 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 68,15,89,195 // mulps %xmm3,%xmm8
.byte 102,69,15,91,192 // cvtps2dq %xmm8,%xmm8
.byte 102,65,15,114,240,16 // pslld $0x10,%xmm8
.byte 102,65,15,114,224,16 // psrad $0x10,%xmm8
.byte 102,69,15,107,192 // packssdw %xmm8,%xmm8
.byte 102,69,15,103,192 // packuswb %xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,13 // jne 1dae7 <_sk_store_a8_sse2+0x4c>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,13 // jne 1da45 <_sk_store_a8_sse2+0x4c>
.byte 102,68,15,126,192 // movd %xmm8,%eax
- .byte 67,137,4,25 // mov %eax,(%r9,%r11,1)
+ .byte 67,137,4,16 // mov %eax,(%r8,%r10,1)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 102,68,15,96,192 // punpcklbw %xmm0,%xmm8
.byte 102,68,15,97,192 // punpcklwd %xmm0,%xmm8
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,59 // je 1db39 <_sk_store_a8_sse2+0x9e>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,22 // je 1db1a <_sk_store_a8_sse2+0x7f>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,217 // jne 1dae3 <_sk_store_a8_sse2+0x48>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,59 // je 1da97 <_sk_store_a8_sse2+0x9e>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,22 // je 1da78 <_sk_store_a8_sse2+0x7f>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,217 // jne 1da41 <_sk_store_a8_sse2+0x48>
.byte 102,68,15,127,68,36,232 // movdqa %xmm8,-0x18(%rsp)
.byte 138,68,36,240 // mov -0x10(%rsp),%al
- .byte 67,136,68,25,2 // mov %al,0x2(%r9,%r11,1)
- .byte 102,68,15,219,5,157,232,0,0 // pand 0xe89d(%rip),%xmm8 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 67,136,68,16,2 // mov %al,0x2(%r8,%r10,1)
+ .byte 102,68,15,219,5,111,233,0,0 // pand 0xe96f(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,69,15,103,192 // packuswb %xmm8,%xmm8
.byte 102,69,15,103,192 // packuswb %xmm8,%xmm8
.byte 102,68,15,126,192 // movd %xmm8,%eax
- .byte 102,67,137,4,25 // mov %ax,(%r9,%r11,1)
- .byte 235,170 // jmp 1dae3 <_sk_store_a8_sse2+0x48>
+ .byte 102,67,137,4,16 // mov %ax,(%r8,%r10,1)
+ .byte 235,170 // jmp 1da41 <_sk_store_a8_sse2+0x48>
.byte 102,68,15,127,68,36,216 // movdqa %xmm8,-0x28(%rsp)
.byte 138,68,36,216 // mov -0x28(%rsp),%al
- .byte 67,136,4,25 // mov %al,(%r9,%r11,1)
- .byte 235,153 // jmp 1dae3 <_sk_store_a8_sse2+0x48>
+ .byte 67,136,4,16 // mov %al,(%r8,%r10,1)
+ .byte 235,153 // jmp 1da41 <_sk_store_a8_sse2+0x48>
HIDDEN _sk_load_g8_sse2
.globl _sk_load_g8_sse2
FUNCTION(_sk_load_g8_sse2)
_sk_load_g8_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,49 // jne 1db93 <_sk_load_g8_sse2+0x49>
- .byte 102,67,15,110,4,25 // movd (%r9,%r11,1),%xmm0
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,49 // jne 1daf1 <_sk_load_g8_sse2+0x49>
+ .byte 102,67,15,110,4,16 // movd (%r8,%r10,1),%xmm0
.byte 102,15,96,192 // punpcklbw %xmm0,%xmm0
.byte 102,15,97,192 // punpcklwd %xmm0,%xmm0
- .byte 102,15,219,5,72,232,0,0 // pand 0xe848(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,15,219,5,26,233,0,0 // pand 0xe91a(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,142,233,0,0 // mulps 0xe98e(%rip),%xmm0 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,5,96,234,0,0 // mulps 0xea60(%rip),%xmm0 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,133,231,0,0 // movaps 0xe785(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,87,232,0,0 // movaps 0xe857(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,54 // je 1dbd6 <_sk_load_g8_sse2+0x8c>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,54 // je 1db34 <_sk_load_g8_sse2+0x8c>
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 1dbbf <_sk_load_g8_sse2+0x75>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,192 // jne 1db70 <_sk_load_g8_sse2+0x26>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 1db1d <_sk_load_g8_sse2+0x75>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,192 // jne 1dace <_sk_load_g8_sse2+0x26>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,15,112,192,69 // pshufd $0x45,%xmm0,%xmm0
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,15,110,200 // movd %eax,%xmm1
.byte 102,15,96,200 // punpcklbw %xmm0,%xmm1
.byte 102,15,97,200 // punpcklwd %xmm0,%xmm1
.byte 242,15,16,193 // movsd %xmm1,%xmm0
- .byte 235,154 // jmp 1db70 <_sk_load_g8_sse2+0x26>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 235,154 // jmp 1dace <_sk_load_g8_sse2+0x26>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
- .byte 235,143 // jmp 1db70 <_sk_load_g8_sse2+0x26>
+ .byte 235,143 // jmp 1dace <_sk_load_g8_sse2+0x26>
HIDDEN _sk_load_g8_dst_sse2
.globl _sk_load_g8_dst_sse2
FUNCTION(_sk_load_g8_dst_sse2)
_sk_load_g8_dst_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,49 // jne 1dc2a <_sk_load_g8_dst_sse2+0x49>
- .byte 102,67,15,110,36,25 // movd (%r9,%r11,1),%xmm4
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,49 // jne 1db88 <_sk_load_g8_dst_sse2+0x49>
+ .byte 102,67,15,110,36,16 // movd (%r8,%r10,1),%xmm4
.byte 102,15,96,224 // punpcklbw %xmm0,%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
- .byte 102,15,219,37,177,231,0,0 // pand 0xe7b1(%rip),%xmm4 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,15,219,37,131,232,0,0 // pand 0xe883(%rip),%xmm4 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,37,247,232,0,0 // mulps 0xe8f7(%rip),%xmm4 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,37,201,233,0,0 // mulps 0xe9c9(%rip),%xmm4 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,61,238,230,0,0 // movaps 0xe6ee(%rip),%xmm7 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,61,192,231,0,0 // movaps 0xe7c0(%rip),%xmm7 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,40,236 // movaps %xmm4,%xmm5
.byte 15,40,244 // movaps %xmm4,%xmm6
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,54 // je 1dc6d <_sk_load_g8_dst_sse2+0x8c>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,54 // je 1dbcb <_sk_load_g8_dst_sse2+0x8c>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 1dc56 <_sk_load_g8_dst_sse2+0x75>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,192 // jne 1dc07 <_sk_load_g8_dst_sse2+0x26>
- .byte 67,15,182,68,25,2 // movzbl 0x2(%r9,%r11,1),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 1dbb4 <_sk_load_g8_dst_sse2+0x75>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,192 // jne 1db65 <_sk_load_g8_dst_sse2+0x26>
+ .byte 67,15,182,68,16,2 // movzbl 0x2(%r8,%r10,1),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
- .byte 67,15,183,4,25 // movzwl (%r9,%r11,1),%eax
+ .byte 67,15,183,4,16 // movzwl (%r8,%r10,1),%eax
.byte 102,15,110,232 // movd %eax,%xmm5
.byte 102,15,96,232 // punpcklbw %xmm0,%xmm5
.byte 102,15,97,232 // punpcklwd %xmm0,%xmm5
.byte 242,15,16,229 // movsd %xmm5,%xmm4
- .byte 235,154 // jmp 1dc07 <_sk_load_g8_dst_sse2+0x26>
- .byte 67,15,182,4,25 // movzbl (%r9,%r11,1),%eax
+ .byte 235,154 // jmp 1db65 <_sk_load_g8_dst_sse2+0x26>
+ .byte 67,15,182,4,16 // movzbl (%r8,%r10,1),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
- .byte 235,143 // jmp 1dc07 <_sk_load_g8_dst_sse2+0x26>
+ .byte 235,143 // jmp 1db65 <_sk_load_g8_dst_sse2+0x26>
HIDDEN _sk_gather_g8_sse2
.globl _sk_gather_g8_sse2
FUNCTION(_sk_gather_g8_sse2)
_sk_gather_g8_sse2:
- .byte 85 // push %rbp
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -38779,33 +38712,31 @@ _sk_gather_g8_sse2:
.byte 243,15,91,192 // cvttps2dq %xmm0,%xmm0
.byte 102,15,254,193 // paddd %xmm1,%xmm0
.byte 102,72,15,126,192 // movq %xmm0,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
.byte 102,15,112,192,78 // pshufd $0x4e,%xmm0,%xmm0
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 65,15,182,44,25 // movzbl (%r9,%rbx,1),%ebp
- .byte 67,15,182,28,25 // movzbl (%r9,%r11,1),%ebx
- .byte 193,227,8 // shl $0x8,%ebx
- .byte 9,235 // or %ebp,%ebx
- .byte 67,15,182,44,17 // movzbl (%r9,%r10,1),%ebp
- .byte 65,15,182,4,1 // movzbl (%r9,%rax,1),%eax
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 71,15,182,28,24 // movzbl (%r8,%r11,1),%r11d
+ .byte 71,15,182,20,16 // movzbl (%r8,%r10,1),%r10d
+ .byte 65,193,226,8 // shl $0x8,%r10d
+ .byte 69,9,218 // or %r11d,%r10d
+ .byte 71,15,182,12,8 // movzbl (%r8,%r9,1),%r9d
+ .byte 65,15,182,4,0 // movzbl (%r8,%rax,1),%eax
.byte 193,224,8 // shl $0x8,%eax
- .byte 9,232 // or %ebp,%eax
+ .byte 68,9,200 // or %r9d,%eax
.byte 102,15,196,192,0 // pinsrw $0x0,%eax,%xmm0
- .byte 102,15,196,195,1 // pinsrw $0x1,%ebx,%xmm0
+ .byte 102,65,15,196,194,1 // pinsrw $0x1,%r10d,%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,96,193 // punpcklbw %xmm1,%xmm0
.byte 102,15,97,193 // punpcklwd %xmm1,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,5,232,0,0 // mulps 0xe805(%rip),%xmm0 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 15,89,5,213,232,0,0 // mulps 0xe8d5(%rip),%xmm0 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,252,229,0,0 // movaps 0xe5fc(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,204,230,0,0 // movaps 0xe6cc(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
- .byte 91 // pop %rbx
- .byte 93 // pop %rbp
.byte 255,224 // jmpq *%rax
HIDDEN _sk_load_565_sse2
@@ -38813,106 +38744,105 @@ HIDDEN _sk_load_565_sse2
FUNCTION(_sk_load_565_sse2)
_sk_load_565_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,83 // jne 1dd8c <_sk_load_565_sse2+0x6e>
- .byte 243,67,15,126,20,89 // movq (%r9,%r11,2),%xmm2
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,83 // jne 1dcea <_sk_load_565_sse2+0x6e>
+ .byte 243,67,15,126,20,80 // movq (%r8,%r10,2),%xmm2
.byte 102,15,97,208 // punpcklwd %xmm0,%xmm2
- .byte 102,15,111,5,213,231,0,0 // movdqa 0xe7d5(%rip),%xmm0 # 2c520 <_sk_overlay_sse2_8bit+0x103b>
+ .byte 102,15,111,5,167,232,0,0 // movdqa 0xe8a7(%rip),%xmm0 # 2c550 <_sk_overlay_sse2_8bit+0x10b3>
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,215,231,0,0 // mulps 0xe7d7(%rip),%xmm0 # 2c530 <_sk_overlay_sse2_8bit+0x104b>
- .byte 102,15,111,13,223,231,0,0 // movdqa 0xe7df(%rip),%xmm1 # 2c540 <_sk_overlay_sse2_8bit+0x105b>
+ .byte 15,89,5,169,232,0,0 // mulps 0xe8a9(%rip),%xmm0 # 2c560 <_sk_overlay_sse2_8bit+0x10c3>
+ .byte 102,15,111,13,177,232,0,0 // movdqa 0xe8b1(%rip),%xmm1 # 2c570 <_sk_overlay_sse2_8bit+0x10d3>
.byte 102,15,219,202 // pand %xmm2,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,13,225,231,0,0 // mulps 0xe7e1(%rip),%xmm1 # 2c550 <_sk_overlay_sse2_8bit+0x106b>
- .byte 102,15,219,21,233,231,0,0 // pand 0xe7e9(%rip),%xmm2 # 2c560 <_sk_overlay_sse2_8bit+0x107b>
+ .byte 15,89,13,179,232,0,0 // mulps 0xe8b3(%rip),%xmm1 # 2c580 <_sk_overlay_sse2_8bit+0x10e3>
+ .byte 102,15,219,21,187,232,0,0 // pand 0xe8bb(%rip),%xmm2 # 2c590 <_sk_overlay_sse2_8bit+0x10f3>
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,21,239,231,0,0 // mulps 0xe7ef(%rip),%xmm2 # 2c570 <_sk_overlay_sse2_8bit+0x108b>
+ .byte 15,89,21,193,232,0,0 // mulps 0xe8c1(%rip),%xmm2 # 2c5a0 <_sk_overlay_sse2_8bit+0x1103>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,134,229,0,0 // movaps 0xe586(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,88,230,0,0 // movaps 0xe658(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,50 // je 1ddcb <_sk_load_565_sse2+0xad>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,50 // je 1dd29 <_sk_load_565_sse2+0xad>
.byte 102,15,239,210 // pxor %xmm2,%xmm2
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 1ddb8 <_sk_load_565_sse2+0x9a>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,154 // jne 1dd43 <_sk_load_565_sse2+0x25>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 1dd16 <_sk_load_565_sse2+0x9a>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,154 // jne 1dca1 <_sk_load_565_sse2+0x25>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,15,112,208,69 // pshufd $0x45,%xmm0,%xmm2
- .byte 102,67,15,110,4,89 // movd (%r9,%r11,2),%xmm0
+ .byte 102,67,15,110,4,80 // movd (%r8,%r10,2),%xmm0
.byte 102,15,97,192 // punpcklwd %xmm0,%xmm0
.byte 242,15,16,208 // movsd %xmm0,%xmm2
- .byte 233,120,255,255,255 // jmpq 1dd43 <_sk_load_565_sse2+0x25>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,120,255,255,255 // jmpq 1dca1 <_sk_load_565_sse2+0x25>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,15,110,208 // movd %eax,%xmm2
- .byte 233,106,255,255,255 // jmpq 1dd43 <_sk_load_565_sse2+0x25>
+ .byte 233,106,255,255,255 // jmpq 1dca1 <_sk_load_565_sse2+0x25>
HIDDEN _sk_load_565_dst_sse2
.globl _sk_load_565_dst_sse2
FUNCTION(_sk_load_565_dst_sse2)
_sk_load_565_dst_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,83 // jne 1de47 <_sk_load_565_dst_sse2+0x6e>
- .byte 243,67,15,126,52,89 // movq (%r9,%r11,2),%xmm6
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,83 // jne 1dda5 <_sk_load_565_dst_sse2+0x6e>
+ .byte 243,67,15,126,52,80 // movq (%r8,%r10,2),%xmm6
.byte 102,15,97,240 // punpcklwd %xmm0,%xmm6
- .byte 102,15,111,37,26,231,0,0 // movdqa 0xe71a(%rip),%xmm4 # 2c520 <_sk_overlay_sse2_8bit+0x103b>
+ .byte 102,15,111,37,236,231,0,0 // movdqa 0xe7ec(%rip),%xmm4 # 2c550 <_sk_overlay_sse2_8bit+0x10b3>
.byte 102,15,219,230 // pand %xmm6,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,37,28,231,0,0 // mulps 0xe71c(%rip),%xmm4 # 2c530 <_sk_overlay_sse2_8bit+0x104b>
- .byte 102,15,111,45,36,231,0,0 // movdqa 0xe724(%rip),%xmm5 # 2c540 <_sk_overlay_sse2_8bit+0x105b>
+ .byte 15,89,37,238,231,0,0 // mulps 0xe7ee(%rip),%xmm4 # 2c560 <_sk_overlay_sse2_8bit+0x10c3>
+ .byte 102,15,111,45,246,231,0,0 // movdqa 0xe7f6(%rip),%xmm5 # 2c570 <_sk_overlay_sse2_8bit+0x10d3>
.byte 102,15,219,238 // pand %xmm6,%xmm5
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
- .byte 15,89,45,38,231,0,0 // mulps 0xe726(%rip),%xmm5 # 2c550 <_sk_overlay_sse2_8bit+0x106b>
- .byte 102,15,219,53,46,231,0,0 // pand 0xe72e(%rip),%xmm6 # 2c560 <_sk_overlay_sse2_8bit+0x107b>
+ .byte 15,89,45,248,231,0,0 // mulps 0xe7f8(%rip),%xmm5 # 2c580 <_sk_overlay_sse2_8bit+0x10e3>
+ .byte 102,15,219,53,0,232,0,0 // pand 0xe800(%rip),%xmm6 # 2c590 <_sk_overlay_sse2_8bit+0x10f3>
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
- .byte 15,89,53,52,231,0,0 // mulps 0xe734(%rip),%xmm6 # 2c570 <_sk_overlay_sse2_8bit+0x108b>
+ .byte 15,89,53,6,232,0,0 // mulps 0xe806(%rip),%xmm6 # 2c5a0 <_sk_overlay_sse2_8bit+0x1103>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,61,203,228,0,0 // movaps 0xe4cb(%rip),%xmm7 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,61,157,229,0,0 // movaps 0xe59d(%rip),%xmm7 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,50 // je 1de86 <_sk_load_565_dst_sse2+0xad>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,50 // je 1dde4 <_sk_load_565_dst_sse2+0xad>
.byte 102,15,239,246 // pxor %xmm6,%xmm6
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 1de73 <_sk_load_565_dst_sse2+0x9a>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,154 // jne 1ddfe <_sk_load_565_dst_sse2+0x25>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 1ddd1 <_sk_load_565_dst_sse2+0x9a>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,154 // jne 1dd5c <_sk_load_565_dst_sse2+0x25>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,112,244,69 // pshufd $0x45,%xmm4,%xmm6
- .byte 102,67,15,110,36,89 // movd (%r9,%r11,2),%xmm4
+ .byte 102,67,15,110,36,80 // movd (%r8,%r10,2),%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
.byte 242,15,16,244 // movsd %xmm4,%xmm6
- .byte 233,120,255,255,255 // jmpq 1ddfe <_sk_load_565_dst_sse2+0x25>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,120,255,255,255 // jmpq 1dd5c <_sk_load_565_dst_sse2+0x25>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,15,110,240 // movd %eax,%xmm6
- .byte 233,106,255,255,255 // jmpq 1ddfe <_sk_load_565_dst_sse2+0x25>
+ .byte 233,106,255,255,255 // jmpq 1dd5c <_sk_load_565_dst_sse2+0x25>
HIDDEN _sk_gather_565_sse2
.globl _sk_gather_565_sse2
FUNCTION(_sk_gather_565_sse2)
_sk_gather_565_sse2:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -38926,33 +38856,32 @@ _sk_gather_565_sse2:
.byte 102,15,254,193 // paddd %xmm1,%xmm0
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,72,15,126,200 // movq %xmm1,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,65,15,196,20,89,0 // pinsrw $0x0,(%r9,%rbx,2),%xmm2
- .byte 102,67,15,196,20,89,1 // pinsrw $0x1,(%r9,%r11,2),%xmm2
- .byte 67,15,183,28,81 // movzwl (%r9,%r10,2),%ebx
- .byte 102,15,196,211,2 // pinsrw $0x2,%ebx,%xmm2
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,196,20,88,0 // pinsrw $0x0,(%r8,%r11,2),%xmm2
+ .byte 102,67,15,196,20,80,1 // pinsrw $0x1,(%r8,%r10,2),%xmm2
+ .byte 71,15,183,12,72 // movzwl (%r8,%r9,2),%r9d
+ .byte 102,65,15,196,209,2 // pinsrw $0x2,%r9d,%xmm2
+ .byte 65,15,183,4,64 // movzwl (%r8,%rax,2),%eax
.byte 102,15,196,208,3 // pinsrw $0x3,%eax,%xmm2
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 102,15,97,208 // punpcklwd %xmm0,%xmm2
- .byte 102,15,111,5,6,230,0,0 // movdqa 0xe606(%rip),%xmm0 # 2c520 <_sk_overlay_sse2_8bit+0x103b>
+ .byte 102,15,111,5,216,230,0,0 // movdqa 0xe6d8(%rip),%xmm0 # 2c550 <_sk_overlay_sse2_8bit+0x10b3>
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,8,230,0,0 // mulps 0xe608(%rip),%xmm0 # 2c530 <_sk_overlay_sse2_8bit+0x104b>
- .byte 102,15,111,13,16,230,0,0 // movdqa 0xe610(%rip),%xmm1 # 2c540 <_sk_overlay_sse2_8bit+0x105b>
+ .byte 15,89,5,218,230,0,0 // mulps 0xe6da(%rip),%xmm0 # 2c560 <_sk_overlay_sse2_8bit+0x10c3>
+ .byte 102,15,111,13,226,230,0,0 // movdqa 0xe6e2(%rip),%xmm1 # 2c570 <_sk_overlay_sse2_8bit+0x10d3>
.byte 102,15,219,202 // pand %xmm2,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,13,18,230,0,0 // mulps 0xe612(%rip),%xmm1 # 2c550 <_sk_overlay_sse2_8bit+0x106b>
- .byte 102,15,219,21,26,230,0,0 // pand 0xe61a(%rip),%xmm2 # 2c560 <_sk_overlay_sse2_8bit+0x107b>
+ .byte 15,89,13,228,230,0,0 // mulps 0xe6e4(%rip),%xmm1 # 2c580 <_sk_overlay_sse2_8bit+0x10e3>
+ .byte 102,15,219,21,236,230,0,0 // pand 0xe6ec(%rip),%xmm2 # 2c590 <_sk_overlay_sse2_8bit+0x10f3>
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,21,32,230,0,0 // mulps 0xe620(%rip),%xmm2 # 2c570 <_sk_overlay_sse2_8bit+0x108b>
+ .byte 15,89,21,242,230,0,0 // mulps 0xe6f2(%rip),%xmm2 # 2c5a0 <_sk_overlay_sse2_8bit+0x1103>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,183,227,0,0 // movaps 0xe3b7(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
- .byte 91 // pop %rbx
+ .byte 15,40,29,137,228,0,0 // movaps 0xe489(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_565_sse2
@@ -38960,18 +38889,18 @@ HIDDEN _sk_store_565_sse2
FUNCTION(_sk_store_565_sse2)
_sk_store_565_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 68,15,40,5,182,231,0,0 // movaps 0xe7b6(%rip),%xmm8 # 2c730 <_sk_overlay_sse2_8bit+0x124b>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 68,15,40,5,137,232,0,0 // movaps 0xe889(%rip),%xmm8 # 2c760 <_sk_overlay_sse2_8bit+0x12c3>
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 102,69,15,91,201 // cvtps2dq %xmm9,%xmm9
.byte 102,65,15,114,241,11 // pslld $0xb,%xmm9
- .byte 68,15,40,21,171,231,0,0 // movaps 0xe7ab(%rip),%xmm10 # 2c740 <_sk_overlay_sse2_8bit+0x125b>
+ .byte 68,15,40,21,126,232,0,0 // movaps 0xe87e(%rip),%xmm10 # 2c770 <_sk_overlay_sse2_8bit+0x12d3>
.byte 68,15,89,209 // mulps %xmm1,%xmm10
.byte 102,69,15,91,210 // cvtps2dq %xmm10,%xmm10
.byte 102,65,15,114,242,5 // pslld $0x5,%xmm10
@@ -38982,140 +38911,139 @@ _sk_store_565_sse2:
.byte 102,65,15,114,240,16 // pslld $0x10,%xmm8
.byte 102,65,15,114,224,16 // psrad $0x10,%xmm8
.byte 102,69,15,107,192 // packssdw %xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,10 // jne 1dfd7 <_sk_store_565_sse2+0x7b>
- .byte 242,71,15,17,4,89 // movsd %xmm8,(%r9,%r11,2)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 1df34 <_sk_store_565_sse2+0x7b>
+ .byte 242,71,15,17,4,80 // movsd %xmm8,(%r8,%r10,2)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 102,68,15,97,192 // punpcklwd %xmm0,%xmm8
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,38 // je 1e00f <_sk_store_565_sse2+0xb3>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,18 // je 1e001 <_sk_store_565_sse2+0xa5>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,222 // jne 1dfd3 <_sk_store_565_sse2+0x77>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,38 // je 1df6c <_sk_store_565_sse2+0xb3>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,18 // je 1df5e <_sk_store_565_sse2+0xa5>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,222 // jne 1df30 <_sk_store_565_sse2+0x77>
.byte 102,65,15,197,192,4 // pextrw $0x4,%xmm8,%eax
- .byte 102,67,137,68,89,4 // mov %ax,0x4(%r9,%r11,2)
+ .byte 102,67,137,68,80,4 // mov %ax,0x4(%r8,%r10,2)
.byte 242,69,15,112,192,232 // pshuflw $0xe8,%xmm8,%xmm8
- .byte 102,71,15,126,4,89 // movd %xmm8,(%r9,%r11,2)
- .byte 235,196 // jmp 1dfd3 <_sk_store_565_sse2+0x77>
+ .byte 102,71,15,126,4,80 // movd %xmm8,(%r8,%r10,2)
+ .byte 235,196 // jmp 1df30 <_sk_store_565_sse2+0x77>
.byte 102,68,15,126,192 // movd %xmm8,%eax
- .byte 102,67,137,4,89 // mov %ax,(%r9,%r11,2)
- .byte 235,184 // jmp 1dfd3 <_sk_store_565_sse2+0x77>
+ .byte 102,67,137,4,80 // mov %ax,(%r8,%r10,2)
+ .byte 235,184 // jmp 1df30 <_sk_store_565_sse2+0x77>
HIDDEN _sk_load_4444_sse2
.globl _sk_load_4444_sse2
FUNCTION(_sk_load_4444_sse2)
_sk_load_4444_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,98 // jne 1e098 <_sk_load_4444_sse2+0x7d>
- .byte 243,67,15,126,28,89 // movq (%r9,%r11,2),%xmm3
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,98 // jne 1dff5 <_sk_load_4444_sse2+0x7d>
+ .byte 243,67,15,126,28,80 // movq (%r8,%r10,2),%xmm3
.byte 102,15,97,216 // punpcklwd %xmm0,%xmm3
- .byte 102,15,111,5,8,231,0,0 // movdqa 0xe708(%rip),%xmm0 # 2c750 <_sk_overlay_sse2_8bit+0x126b>
+ .byte 102,15,111,5,219,231,0,0 // movdqa 0xe7db(%rip),%xmm0 # 2c780 <_sk_overlay_sse2_8bit+0x12e3>
.byte 102,15,219,195 // pand %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,10,231,0,0 // mulps 0xe70a(%rip),%xmm0 # 2c760 <_sk_overlay_sse2_8bit+0x127b>
- .byte 102,15,111,13,18,231,0,0 // movdqa 0xe712(%rip),%xmm1 # 2c770 <_sk_overlay_sse2_8bit+0x128b>
+ .byte 15,89,5,221,231,0,0 // mulps 0xe7dd(%rip),%xmm0 # 2c790 <_sk_overlay_sse2_8bit+0x12f3>
+ .byte 102,15,111,13,229,231,0,0 // movdqa 0xe7e5(%rip),%xmm1 # 2c7a0 <_sk_overlay_sse2_8bit+0x1303>
.byte 102,15,219,203 // pand %xmm3,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,13,20,231,0,0 // mulps 0xe714(%rip),%xmm1 # 2c780 <_sk_overlay_sse2_8bit+0x129b>
- .byte 102,15,111,21,28,231,0,0 // movdqa 0xe71c(%rip),%xmm2 # 2c790 <_sk_overlay_sse2_8bit+0x12ab>
+ .byte 15,89,13,231,231,0,0 // mulps 0xe7e7(%rip),%xmm1 # 2c7b0 <_sk_overlay_sse2_8bit+0x1313>
+ .byte 102,15,111,21,239,231,0,0 // movdqa 0xe7ef(%rip),%xmm2 # 2c7c0 <_sk_overlay_sse2_8bit+0x1323>
.byte 102,15,219,211 // pand %xmm3,%xmm2
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,21,30,231,0,0 // mulps 0xe71e(%rip),%xmm2 # 2c7a0 <_sk_overlay_sse2_8bit+0x12bb>
- .byte 102,15,219,29,38,231,0,0 // pand 0xe726(%rip),%xmm3 # 2c7b0 <_sk_overlay_sse2_8bit+0x12cb>
+ .byte 15,89,21,241,231,0,0 // mulps 0xe7f1(%rip),%xmm2 # 2c7d0 <_sk_overlay_sse2_8bit+0x1333>
+ .byte 102,15,219,29,249,231,0,0 // pand 0xe7f9(%rip),%xmm3 # 2c7e0 <_sk_overlay_sse2_8bit+0x1343>
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
- .byte 15,89,29,44,231,0,0 // mulps 0xe72c(%rip),%xmm3 # 2c7c0 <_sk_overlay_sse2_8bit+0x12db>
+ .byte 15,89,29,255,231,0,0 // mulps 0xe7ff(%rip),%xmm3 # 2c7f0 <_sk_overlay_sse2_8bit+0x1353>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,50 // je 1e0d7 <_sk_load_4444_sse2+0xbc>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,50 // je 1e034 <_sk_load_4444_sse2+0xbc>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 1e0c4 <_sk_load_4444_sse2+0xa9>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,139 // jne 1e040 <_sk_load_4444_sse2+0x25>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 1e021 <_sk_load_4444_sse2+0xa9>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,139 // jne 1df9d <_sk_load_4444_sse2+0x25>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,15,112,216,69 // pshufd $0x45,%xmm0,%xmm3
- .byte 102,67,15,110,4,89 // movd (%r9,%r11,2),%xmm0
+ .byte 102,67,15,110,4,80 // movd (%r8,%r10,2),%xmm0
.byte 102,15,97,192 // punpcklwd %xmm0,%xmm0
.byte 242,15,16,216 // movsd %xmm0,%xmm3
- .byte 233,105,255,255,255 // jmpq 1e040 <_sk_load_4444_sse2+0x25>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,105,255,255,255 // jmpq 1df9d <_sk_load_4444_sse2+0x25>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,15,110,216 // movd %eax,%xmm3
- .byte 233,91,255,255,255 // jmpq 1e040 <_sk_load_4444_sse2+0x25>
+ .byte 233,91,255,255,255 // jmpq 1df9d <_sk_load_4444_sse2+0x25>
HIDDEN _sk_load_4444_dst_sse2
.globl _sk_load_4444_dst_sse2
FUNCTION(_sk_load_4444_dst_sse2)
_sk_load_4444_dst_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 77,133,192 // test %r8,%r8
- .byte 117,98 // jne 1e162 <_sk_load_4444_dst_sse2+0x7d>
- .byte 243,67,15,126,60,89 // movq (%r9,%r11,2),%xmm7
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,98 // jne 1e0bf <_sk_load_4444_dst_sse2+0x7d>
+ .byte 243,67,15,126,60,80 // movq (%r8,%r10,2),%xmm7
.byte 102,15,97,248 // punpcklwd %xmm0,%xmm7
- .byte 102,15,111,37,62,230,0,0 // movdqa 0xe63e(%rip),%xmm4 # 2c750 <_sk_overlay_sse2_8bit+0x126b>
+ .byte 102,15,111,37,17,231,0,0 // movdqa 0xe711(%rip),%xmm4 # 2c780 <_sk_overlay_sse2_8bit+0x12e3>
.byte 102,15,219,231 // pand %xmm7,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,37,64,230,0,0 // mulps 0xe640(%rip),%xmm4 # 2c760 <_sk_overlay_sse2_8bit+0x127b>
- .byte 102,15,111,45,72,230,0,0 // movdqa 0xe648(%rip),%xmm5 # 2c770 <_sk_overlay_sse2_8bit+0x128b>
+ .byte 15,89,37,19,231,0,0 // mulps 0xe713(%rip),%xmm4 # 2c790 <_sk_overlay_sse2_8bit+0x12f3>
+ .byte 102,15,111,45,27,231,0,0 // movdqa 0xe71b(%rip),%xmm5 # 2c7a0 <_sk_overlay_sse2_8bit+0x1303>
.byte 102,15,219,239 // pand %xmm7,%xmm5
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
- .byte 15,89,45,74,230,0,0 // mulps 0xe64a(%rip),%xmm5 # 2c780 <_sk_overlay_sse2_8bit+0x129b>
- .byte 102,15,111,53,82,230,0,0 // movdqa 0xe652(%rip),%xmm6 # 2c790 <_sk_overlay_sse2_8bit+0x12ab>
+ .byte 15,89,45,29,231,0,0 // mulps 0xe71d(%rip),%xmm5 # 2c7b0 <_sk_overlay_sse2_8bit+0x1313>
+ .byte 102,15,111,53,37,231,0,0 // movdqa 0xe725(%rip),%xmm6 # 2c7c0 <_sk_overlay_sse2_8bit+0x1323>
.byte 102,15,219,247 // pand %xmm7,%xmm6
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
- .byte 15,89,53,84,230,0,0 // mulps 0xe654(%rip),%xmm6 # 2c7a0 <_sk_overlay_sse2_8bit+0x12bb>
- .byte 102,15,219,61,92,230,0,0 // pand 0xe65c(%rip),%xmm7 # 2c7b0 <_sk_overlay_sse2_8bit+0x12cb>
+ .byte 15,89,53,39,231,0,0 // mulps 0xe727(%rip),%xmm6 # 2c7d0 <_sk_overlay_sse2_8bit+0x1333>
+ .byte 102,15,219,61,47,231,0,0 // pand 0xe72f(%rip),%xmm7 # 2c7e0 <_sk_overlay_sse2_8bit+0x1343>
.byte 15,91,255 // cvtdq2ps %xmm7,%xmm7
- .byte 15,89,61,98,230,0,0 // mulps 0xe662(%rip),%xmm7 # 2c7c0 <_sk_overlay_sse2_8bit+0x12db>
+ .byte 15,89,61,53,231,0,0 // mulps 0xe735(%rip),%xmm7 # 2c7f0 <_sk_overlay_sse2_8bit+0x1353>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,50 // je 1e1a1 <_sk_load_4444_dst_sse2+0xbc>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,50 // je 1e0fe <_sk_load_4444_dst_sse2+0xbc>
.byte 102,15,239,255 // pxor %xmm7,%xmm7
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,21 // je 1e18e <_sk_load_4444_dst_sse2+0xa9>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,139 // jne 1e10a <_sk_load_4444_dst_sse2+0x25>
- .byte 67,15,183,68,89,4 // movzwl 0x4(%r9,%r11,2),%eax
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,21 // je 1e0eb <_sk_load_4444_dst_sse2+0xa9>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,139 // jne 1e067 <_sk_load_4444_dst_sse2+0x25>
+ .byte 67,15,183,68,80,4 // movzwl 0x4(%r8,%r10,2),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,112,252,69 // pshufd $0x45,%xmm4,%xmm7
- .byte 102,67,15,110,36,89 // movd (%r9,%r11,2),%xmm4
+ .byte 102,67,15,110,36,80 // movd (%r8,%r10,2),%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
.byte 242,15,16,252 // movsd %xmm4,%xmm7
- .byte 233,105,255,255,255 // jmpq 1e10a <_sk_load_4444_dst_sse2+0x25>
- .byte 67,15,183,4,89 // movzwl (%r9,%r11,2),%eax
+ .byte 233,105,255,255,255 // jmpq 1e067 <_sk_load_4444_dst_sse2+0x25>
+ .byte 67,15,183,4,80 // movzwl (%r8,%r10,2),%eax
.byte 102,15,110,248 // movd %eax,%xmm7
- .byte 233,91,255,255,255 // jmpq 1e10a <_sk_load_4444_dst_sse2+0x25>
+ .byte 233,91,255,255,255 // jmpq 1e067 <_sk_load_4444_dst_sse2+0x25>
HIDDEN _sk_gather_4444_sse2
.globl _sk_gather_4444_sse2
FUNCTION(_sk_gather_4444_sse2)
_sk_gather_4444_sse2:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -39129,36 +39057,35 @@ _sk_gather_4444_sse2:
.byte 102,15,254,193 // paddd %xmm1,%xmm0
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,72,15,126,200 // movq %xmm1,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,65,15,196,28,89,0 // pinsrw $0x0,(%r9,%rbx,2),%xmm3
- .byte 102,67,15,196,28,89,1 // pinsrw $0x1,(%r9,%r11,2),%xmm3
- .byte 67,15,183,28,81 // movzwl (%r9,%r10,2),%ebx
- .byte 102,15,196,219,2 // pinsrw $0x2,%ebx,%xmm3
- .byte 65,15,183,4,65 // movzwl (%r9,%rax,2),%eax
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,196,28,88,0 // pinsrw $0x0,(%r8,%r11,2),%xmm3
+ .byte 102,67,15,196,28,80,1 // pinsrw $0x1,(%r8,%r10,2),%xmm3
+ .byte 71,15,183,12,72 // movzwl (%r8,%r9,2),%r9d
+ .byte 102,65,15,196,217,2 // pinsrw $0x2,%r9d,%xmm3
+ .byte 65,15,183,4,64 // movzwl (%r8,%rax,2),%eax
.byte 102,15,196,216,3 // pinsrw $0x3,%eax,%xmm3
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 102,15,97,216 // punpcklwd %xmm0,%xmm3
- .byte 102,15,111,5,27,229,0,0 // movdqa 0xe51b(%rip),%xmm0 # 2c750 <_sk_overlay_sse2_8bit+0x126b>
+ .byte 102,15,111,5,238,229,0,0 // movdqa 0xe5ee(%rip),%xmm0 # 2c780 <_sk_overlay_sse2_8bit+0x12e3>
.byte 102,15,219,195 // pand %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,5,29,229,0,0 // mulps 0xe51d(%rip),%xmm0 # 2c760 <_sk_overlay_sse2_8bit+0x127b>
- .byte 102,15,111,13,37,229,0,0 // movdqa 0xe525(%rip),%xmm1 # 2c770 <_sk_overlay_sse2_8bit+0x128b>
+ .byte 15,89,5,240,229,0,0 // mulps 0xe5f0(%rip),%xmm0 # 2c790 <_sk_overlay_sse2_8bit+0x12f3>
+ .byte 102,15,111,13,248,229,0,0 // movdqa 0xe5f8(%rip),%xmm1 # 2c7a0 <_sk_overlay_sse2_8bit+0x1303>
.byte 102,15,219,203 // pand %xmm3,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,13,39,229,0,0 // mulps 0xe527(%rip),%xmm1 # 2c780 <_sk_overlay_sse2_8bit+0x129b>
- .byte 102,15,111,21,47,229,0,0 // movdqa 0xe52f(%rip),%xmm2 # 2c790 <_sk_overlay_sse2_8bit+0x12ab>
+ .byte 15,89,13,250,229,0,0 // mulps 0xe5fa(%rip),%xmm1 # 2c7b0 <_sk_overlay_sse2_8bit+0x1313>
+ .byte 102,15,111,21,2,230,0,0 // movdqa 0xe602(%rip),%xmm2 # 2c7c0 <_sk_overlay_sse2_8bit+0x1323>
.byte 102,15,219,211 // pand %xmm3,%xmm2
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,21,49,229,0,0 // mulps 0xe531(%rip),%xmm2 # 2c7a0 <_sk_overlay_sse2_8bit+0x12bb>
- .byte 102,15,219,29,57,229,0,0 // pand 0xe539(%rip),%xmm3 # 2c7b0 <_sk_overlay_sse2_8bit+0x12cb>
+ .byte 15,89,21,4,230,0,0 // mulps 0xe604(%rip),%xmm2 # 2c7d0 <_sk_overlay_sse2_8bit+0x1333>
+ .byte 102,15,219,29,12,230,0,0 // pand 0xe60c(%rip),%xmm3 # 2c7e0 <_sk_overlay_sse2_8bit+0x1343>
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
- .byte 15,89,29,63,229,0,0 // mulps 0xe53f(%rip),%xmm3 # 2c7c0 <_sk_overlay_sse2_8bit+0x12db>
+ .byte 15,89,29,18,230,0,0 // mulps 0xe612(%rip),%xmm3 # 2c7f0 <_sk_overlay_sse2_8bit+0x1353>
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_4444_sse2
@@ -39166,13 +39093,13 @@ HIDDEN _sk_store_4444_sse2
FUNCTION(_sk_store_4444_sse2)
_sk_store_4444_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 76,99,218 // movslq %edx,%r11
- .byte 68,15,40,5,44,229,0,0 // movaps 0xe52c(%rip),%xmm8 # 2c7d0 <_sk_overlay_sse2_8bit+0x12eb>
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 76,99,210 // movslq %edx,%r10
+ .byte 68,15,40,5,0,230,0,0 // movaps 0xe600(%rip),%xmm8 # 2c800 <_sk_overlay_sse2_8bit+0x1363>
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 102,69,15,91,201 // cvtps2dq %xmm9,%xmm9
@@ -39193,48 +39120,48 @@ _sk_store_4444_sse2:
.byte 102,65,15,114,240,16 // pslld $0x10,%xmm8
.byte 102,65,15,114,224,16 // psrad $0x10,%xmm8
.byte 102,69,15,107,192 // packssdw %xmm8,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,10 // jne 1e315 <_sk_store_4444_sse2+0x8f>
- .byte 242,71,15,17,4,89 // movsd %xmm8,(%r9,%r11,2)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 1e271 <_sk_store_4444_sse2+0x8f>
+ .byte 242,71,15,17,4,80 // movsd %xmm8,(%r8,%r10,2)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 102,68,15,97,192 // punpcklwd %xmm0,%xmm8
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,38 // je 1e34d <_sk_store_4444_sse2+0xc7>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,18 // je 1e33f <_sk_store_4444_sse2+0xb9>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,222 // jne 1e311 <_sk_store_4444_sse2+0x8b>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,38 // je 1e2a9 <_sk_store_4444_sse2+0xc7>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,18 // je 1e29b <_sk_store_4444_sse2+0xb9>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,222 // jne 1e26d <_sk_store_4444_sse2+0x8b>
.byte 102,65,15,197,192,4 // pextrw $0x4,%xmm8,%eax
- .byte 102,67,137,68,89,4 // mov %ax,0x4(%r9,%r11,2)
+ .byte 102,67,137,68,80,4 // mov %ax,0x4(%r8,%r10,2)
.byte 242,69,15,112,192,232 // pshuflw $0xe8,%xmm8,%xmm8
- .byte 102,71,15,126,4,89 // movd %xmm8,(%r9,%r11,2)
- .byte 235,196 // jmp 1e311 <_sk_store_4444_sse2+0x8b>
+ .byte 102,71,15,126,4,80 // movd %xmm8,(%r8,%r10,2)
+ .byte 235,196 // jmp 1e26d <_sk_store_4444_sse2+0x8b>
.byte 102,68,15,126,192 // movd %xmm8,%eax
- .byte 102,67,137,4,89 // mov %ax,(%r9,%r11,2)
- .byte 235,184 // jmp 1e311 <_sk_store_4444_sse2+0x8b>
+ .byte 102,67,137,4,80 // mov %ax,(%r8,%r10,2)
+ .byte 235,184 // jmp 1e26d <_sk_store_4444_sse2+0x8b>
HIDDEN _sk_load_8888_sse2
.globl _sk_load_8888_sse2
FUNCTION(_sk_load_8888_sse2)
_sk_load_8888_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 117,98 // jne 1e3d7 <_sk_load_8888_sse2+0x7e>
- .byte 243,69,15,111,12,129 // movdqu (%r9,%rax,4),%xmm9
- .byte 102,15,111,21,61,224,0,0 // movdqa 0xe03d(%rip),%xmm2 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,98 // jne 1e333 <_sk_load_8888_sse2+0x7e>
+ .byte 243,69,15,111,12,128 // movdqu (%r8,%rax,4),%xmm9
+ .byte 102,15,111,21,17,225,0,0 // movdqa 0xe111(%rip),%xmm2 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,65,15,111,193 // movdqa %xmm9,%xmm0
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 68,15,40,5,121,225,0,0 // movaps 0xe179(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,77,226,0,0 // movaps 0xe24d(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,65,15,111,201 // movdqa %xmm9,%xmm1
.byte 102,15,114,209,8 // psrld $0x8,%xmm1
@@ -39251,41 +39178,41 @@ _sk_load_8888_sse2:
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,41 // je 1e40d <_sk_load_8888_sse2+0xb4>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,41 // je 1e369 <_sk_load_8888_sse2+0xb4>
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,19 // je 1e402 <_sk_load_8888_sse2+0xa9>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,134 // jne 1e37b <_sk_load_8888_sse2+0x22>
- .byte 102,65,15,110,68,129,8 // movd 0x8(%r9,%rax,4),%xmm0
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,19 // je 1e35e <_sk_load_8888_sse2+0xa9>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,134 // jne 1e2d7 <_sk_load_8888_sse2+0x22>
+ .byte 102,65,15,110,68,128,8 // movd 0x8(%r8,%rax,4),%xmm0
.byte 102,68,15,112,200,69 // pshufd $0x45,%xmm0,%xmm9
- .byte 102,69,15,18,12,129 // movlpd (%r9,%rax,4),%xmm9
- .byte 233,110,255,255,255 // jmpq 1e37b <_sk_load_8888_sse2+0x22>
- .byte 102,69,15,110,12,129 // movd (%r9,%rax,4),%xmm9
- .byte 233,99,255,255,255 // jmpq 1e37b <_sk_load_8888_sse2+0x22>
+ .byte 102,69,15,18,12,128 // movlpd (%r8,%rax,4),%xmm9
+ .byte 233,110,255,255,255 // jmpq 1e2d7 <_sk_load_8888_sse2+0x22>
+ .byte 102,69,15,110,12,128 // movd (%r8,%rax,4),%xmm9
+ .byte 233,99,255,255,255 // jmpq 1e2d7 <_sk_load_8888_sse2+0x22>
HIDDEN _sk_load_8888_dst_sse2
.globl _sk_load_8888_dst_sse2
FUNCTION(_sk_load_8888_dst_sse2)
_sk_load_8888_dst_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 117,98 // jne 1e496 <_sk_load_8888_dst_sse2+0x7e>
- .byte 243,69,15,111,12,129 // movdqu (%r9,%rax,4),%xmm9
- .byte 102,15,111,53,126,223,0,0 // movdqa 0xdf7e(%rip),%xmm6 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,98 // jne 1e3f2 <_sk_load_8888_dst_sse2+0x7e>
+ .byte 243,69,15,111,12,128 // movdqu (%r8,%rax,4),%xmm9
+ .byte 102,15,111,53,82,224,0,0 // movdqa 0xe052(%rip),%xmm6 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,65,15,111,225 // movdqa %xmm9,%xmm4
.byte 102,15,219,230 // pand %xmm6,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 68,15,40,5,186,224,0,0 // movaps 0xe0ba(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,142,225,0,0 // movaps 0xe18e(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,224 // mulps %xmm8,%xmm4
.byte 102,65,15,111,233 // movdqa %xmm9,%xmm5
.byte 102,15,114,213,8 // psrld $0x8,%xmm5
@@ -39302,29 +39229,28 @@ _sk_load_8888_dst_sse2:
.byte 65,15,89,248 // mulps %xmm8,%xmm7
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,41 // je 1e4cc <_sk_load_8888_dst_sse2+0xb4>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,41 // je 1e428 <_sk_load_8888_dst_sse2+0xb4>
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,19 // je 1e4c1 <_sk_load_8888_dst_sse2+0xa9>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,134 // jne 1e43a <_sk_load_8888_dst_sse2+0x22>
- .byte 102,65,15,110,100,129,8 // movd 0x8(%r9,%rax,4),%xmm4
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,19 // je 1e41d <_sk_load_8888_dst_sse2+0xa9>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,134 // jne 1e396 <_sk_load_8888_dst_sse2+0x22>
+ .byte 102,65,15,110,100,128,8 // movd 0x8(%r8,%rax,4),%xmm4
.byte 102,68,15,112,204,69 // pshufd $0x45,%xmm4,%xmm9
- .byte 102,69,15,18,12,129 // movlpd (%r9,%rax,4),%xmm9
- .byte 233,110,255,255,255 // jmpq 1e43a <_sk_load_8888_dst_sse2+0x22>
- .byte 102,69,15,110,12,129 // movd (%r9,%rax,4),%xmm9
- .byte 233,99,255,255,255 // jmpq 1e43a <_sk_load_8888_dst_sse2+0x22>
+ .byte 102,69,15,18,12,128 // movlpd (%r8,%rax,4),%xmm9
+ .byte 233,110,255,255,255 // jmpq 1e396 <_sk_load_8888_dst_sse2+0x22>
+ .byte 102,69,15,110,12,128 // movd (%r8,%rax,4),%xmm9
+ .byte 233,99,255,255,255 // jmpq 1e396 <_sk_load_8888_dst_sse2+0x22>
HIDDEN _sk_gather_8888_sse2
.globl _sk_gather_8888_sse2
FUNCTION(_sk_gather_8888_sse2)
_sk_gather_8888_sse2:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -39338,23 +39264,23 @@ _sk_gather_8888_sse2:
.byte 102,15,254,193 // paddd %xmm1,%xmm0
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,72,15,126,200 // movq %xmm1,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,67,15,110,4,153 // movd (%r9,%r11,4),%xmm0
- .byte 102,65,15,110,12,129 // movd (%r9,%rax,4),%xmm1
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,110,4,144 // movd (%r8,%r10,4),%xmm0
+ .byte 102,65,15,110,12,128 // movd (%r8,%rax,4),%xmm1
.byte 102,15,98,193 // punpckldq %xmm1,%xmm0
- .byte 102,69,15,110,12,153 // movd (%r9,%rbx,4),%xmm9
- .byte 102,67,15,110,12,145 // movd (%r9,%r10,4),%xmm1
+ .byte 102,71,15,110,12,152 // movd (%r8,%r11,4),%xmm9
+ .byte 102,67,15,110,12,136 // movd (%r8,%r9,4),%xmm1
.byte 102,68,15,98,201 // punpckldq %xmm1,%xmm9
.byte 102,68,15,98,200 // punpckldq %xmm0,%xmm9
- .byte 102,15,111,21,103,222,0,0 // movdqa 0xde67(%rip),%xmm2 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,15,111,21,60,223,0,0 // movdqa 0xdf3c(%rip),%xmm2 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,65,15,111,193 // movdqa %xmm9,%xmm0
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 68,15,40,5,163,223,0,0 // movaps 0xdfa3(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,120,224,0,0 // movaps 0xe078(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,65,15,111,201 // movdqa %xmm9,%xmm1
.byte 102,15,114,209,8 // psrld $0x8,%xmm1
@@ -39370,7 +39296,6 @@ _sk_gather_8888_sse2:
.byte 65,15,91,217 // cvtdq2ps %xmm9,%xmm3
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_8888_sse2
@@ -39378,13 +39303,13 @@ HIDDEN _sk_store_8888_sse2
FUNCTION(_sk_store_8888_sse2)
_sk_store_8888_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 68,15,40,5,35,222,0,0 // movaps 0xde23(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 68,15,40,5,249,222,0,0 // movaps 0xdef9(%rip),%xmm8 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 102,69,15,91,201 // cvtps2dq %xmm9,%xmm9
@@ -39402,45 +39327,45 @@ _sk_store_8888_sse2:
.byte 102,65,15,114,240,24 // pslld $0x18,%xmm8
.byte 102,69,15,235,193 // por %xmm9,%xmm8
.byte 102,69,15,235,194 // por %xmm10,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,10 // jne 1e62d <_sk_store_8888_sse2+0x7f>
- .byte 243,69,15,127,4,129 // movdqu %xmm8,(%r9,%rax,4)
- .byte 72,173 // lods %ds:(%rsi),%rax
- .byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,33 // je 1e65b <_sk_store_8888_sse2+0xad>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,19 // je 1e653 <_sk_store_8888_sse2+0xa5>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,227 // jne 1e629 <_sk_store_8888_sse2+0x7b>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 1e587 <_sk_store_8888_sse2+0x7f>
+ .byte 243,69,15,127,4,128 // movdqu %xmm8,(%r8,%rax,4)
+ .byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,33 // je 1e5b5 <_sk_store_8888_sse2+0xad>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,19 // je 1e5ad <_sk_store_8888_sse2+0xa5>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,227 // jne 1e583 <_sk_store_8888_sse2+0x7b>
.byte 102,69,15,112,200,78 // pshufd $0x4e,%xmm8,%xmm9
- .byte 102,69,15,126,76,129,8 // movd %xmm9,0x8(%r9,%rax,4)
- .byte 102,69,15,214,4,129 // movq %xmm8,(%r9,%rax,4)
- .byte 235,206 // jmp 1e629 <_sk_store_8888_sse2+0x7b>
- .byte 102,69,15,126,4,129 // movd %xmm8,(%r9,%rax,4)
- .byte 235,198 // jmp 1e629 <_sk_store_8888_sse2+0x7b>
+ .byte 102,69,15,126,76,128,8 // movd %xmm9,0x8(%r8,%rax,4)
+ .byte 102,69,15,214,4,128 // movq %xmm8,(%r8,%rax,4)
+ .byte 235,206 // jmp 1e583 <_sk_store_8888_sse2+0x7b>
+ .byte 102,69,15,126,4,128 // movd %xmm8,(%r8,%rax,4)
+ .byte 235,198 // jmp 1e583 <_sk_store_8888_sse2+0x7b>
HIDDEN _sk_load_bgra_sse2
.globl _sk_load_bgra_sse2
FUNCTION(_sk_load_bgra_sse2)
_sk_load_bgra_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 117,98 // jne 1e6e1 <_sk_load_bgra_sse2+0x7e>
- .byte 243,69,15,111,12,129 // movdqu (%r9,%rax,4),%xmm9
- .byte 102,15,111,5,51,221,0,0 // movdqa 0xdd33(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,98 // jne 1e63b <_sk_load_bgra_sse2+0x7e>
+ .byte 243,69,15,111,12,128 // movdqu (%r8,%rax,4),%xmm9
+ .byte 102,15,111,5,9,222,0,0 // movdqa 0xde09(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,65,15,111,201 // movdqa %xmm9,%xmm1
.byte 102,15,219,200 // pand %xmm0,%xmm1
.byte 15,91,209 // cvtdq2ps %xmm1,%xmm2
- .byte 68,15,40,5,111,222,0,0 // movaps 0xde6f(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,69,223,0,0 // movaps 0xdf45(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 102,65,15,111,201 // movdqa %xmm9,%xmm1
.byte 102,15,114,209,8 // psrld $0x8,%xmm1
@@ -39457,41 +39382,41 @@ _sk_load_bgra_sse2:
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,41 // je 1e717 <_sk_load_bgra_sse2+0xb4>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,41 // je 1e671 <_sk_load_bgra_sse2+0xb4>
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,19 // je 1e70c <_sk_load_bgra_sse2+0xa9>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,134 // jne 1e685 <_sk_load_bgra_sse2+0x22>
- .byte 102,65,15,110,68,129,8 // movd 0x8(%r9,%rax,4),%xmm0
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,19 // je 1e666 <_sk_load_bgra_sse2+0xa9>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,134 // jne 1e5df <_sk_load_bgra_sse2+0x22>
+ .byte 102,65,15,110,68,128,8 // movd 0x8(%r8,%rax,4),%xmm0
.byte 102,68,15,112,200,69 // pshufd $0x45,%xmm0,%xmm9
- .byte 102,69,15,18,12,129 // movlpd (%r9,%rax,4),%xmm9
- .byte 233,110,255,255,255 // jmpq 1e685 <_sk_load_bgra_sse2+0x22>
- .byte 102,69,15,110,12,129 // movd (%r9,%rax,4),%xmm9
- .byte 233,99,255,255,255 // jmpq 1e685 <_sk_load_bgra_sse2+0x22>
+ .byte 102,69,15,18,12,128 // movlpd (%r8,%rax,4),%xmm9
+ .byte 233,110,255,255,255 // jmpq 1e5df <_sk_load_bgra_sse2+0x22>
+ .byte 102,69,15,110,12,128 // movd (%r8,%rax,4),%xmm9
+ .byte 233,99,255,255,255 // jmpq 1e5df <_sk_load_bgra_sse2+0x22>
HIDDEN _sk_load_bgra_dst_sse2
.globl _sk_load_bgra_dst_sse2
FUNCTION(_sk_load_bgra_dst_sse2)
_sk_load_bgra_dst_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 117,98 // jne 1e7a0 <_sk_load_bgra_dst_sse2+0x7e>
- .byte 243,69,15,111,12,129 // movdqu (%r9,%rax,4),%xmm9
- .byte 102,15,111,37,116,220,0,0 // movdqa 0xdc74(%rip),%xmm4 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,98 // jne 1e6fa <_sk_load_bgra_dst_sse2+0x7e>
+ .byte 243,69,15,111,12,128 // movdqu (%r8,%rax,4),%xmm9
+ .byte 102,15,111,37,74,221,0,0 // movdqa 0xdd4a(%rip),%xmm4 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,65,15,111,233 // movdqa %xmm9,%xmm5
.byte 102,15,219,236 // pand %xmm4,%xmm5
.byte 15,91,245 // cvtdq2ps %xmm5,%xmm6
- .byte 68,15,40,5,176,221,0,0 // movaps 0xddb0(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,134,222,0,0 // movaps 0xde86(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,240 // mulps %xmm8,%xmm6
.byte 102,65,15,111,233 // movdqa %xmm9,%xmm5
.byte 102,15,114,213,8 // psrld $0x8,%xmm5
@@ -39508,29 +39433,28 @@ _sk_load_bgra_dst_sse2:
.byte 65,15,89,248 // mulps %xmm8,%xmm7
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,41 // je 1e7d6 <_sk_load_bgra_dst_sse2+0xb4>
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,41 // je 1e730 <_sk_load_bgra_dst_sse2+0xb4>
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,19 // je 1e7cb <_sk_load_bgra_dst_sse2+0xa9>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,134 // jne 1e744 <_sk_load_bgra_dst_sse2+0x22>
- .byte 102,65,15,110,100,129,8 // movd 0x8(%r9,%rax,4),%xmm4
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,19 // je 1e725 <_sk_load_bgra_dst_sse2+0xa9>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,134 // jne 1e69e <_sk_load_bgra_dst_sse2+0x22>
+ .byte 102,65,15,110,100,128,8 // movd 0x8(%r8,%rax,4),%xmm4
.byte 102,68,15,112,204,69 // pshufd $0x45,%xmm4,%xmm9
- .byte 102,69,15,18,12,129 // movlpd (%r9,%rax,4),%xmm9
- .byte 233,110,255,255,255 // jmpq 1e744 <_sk_load_bgra_dst_sse2+0x22>
- .byte 102,69,15,110,12,129 // movd (%r9,%rax,4),%xmm9
- .byte 233,99,255,255,255 // jmpq 1e744 <_sk_load_bgra_dst_sse2+0x22>
+ .byte 102,69,15,18,12,128 // movlpd (%r8,%rax,4),%xmm9
+ .byte 233,110,255,255,255 // jmpq 1e69e <_sk_load_bgra_dst_sse2+0x22>
+ .byte 102,69,15,110,12,128 // movd (%r8,%rax,4),%xmm9
+ .byte 233,99,255,255,255 // jmpq 1e69e <_sk_load_bgra_dst_sse2+0x22>
HIDDEN _sk_gather_bgra_sse2
.globl _sk_gather_bgra_sse2
FUNCTION(_sk_gather_bgra_sse2)
_sk_gather_bgra_sse2:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -39544,23 +39468,23 @@ _sk_gather_bgra_sse2:
.byte 102,15,254,193 // paddd %xmm1,%xmm0
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,72,15,126,200 // movq %xmm1,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,67,15,110,4,153 // movd (%r9,%r11,4),%xmm0
- .byte 102,65,15,110,12,129 // movd (%r9,%rax,4),%xmm1
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,67,15,110,4,144 // movd (%r8,%r10,4),%xmm0
+ .byte 102,65,15,110,12,128 // movd (%r8,%rax,4),%xmm1
.byte 102,15,98,193 // punpckldq %xmm1,%xmm0
- .byte 102,69,15,110,12,153 // movd (%r9,%rbx,4),%xmm9
- .byte 102,67,15,110,12,145 // movd (%r9,%r10,4),%xmm1
+ .byte 102,71,15,110,12,152 // movd (%r8,%r11,4),%xmm9
+ .byte 102,67,15,110,12,136 // movd (%r8,%r9,4),%xmm1
.byte 102,68,15,98,201 // punpckldq %xmm1,%xmm9
.byte 102,68,15,98,200 // punpckldq %xmm0,%xmm9
- .byte 102,15,111,5,93,219,0,0 // movdqa 0xdb5d(%rip),%xmm0 # 2c3c0 <_sk_overlay_sse2_8bit+0xedb>
+ .byte 102,15,111,5,52,220,0,0 // movdqa 0xdc34(%rip),%xmm0 # 2c3f0 <_sk_overlay_sse2_8bit+0xf53>
.byte 102,65,15,111,201 // movdqa %xmm9,%xmm1
.byte 102,15,219,200 // pand %xmm0,%xmm1
.byte 15,91,209 // cvtdq2ps %xmm1,%xmm2
- .byte 68,15,40,5,153,220,0,0 // movaps 0xdc99(%rip),%xmm8 # 2c510 <_sk_overlay_sse2_8bit+0x102b>
+ .byte 68,15,40,5,112,221,0,0 // movaps 0xdd70(%rip),%xmm8 # 2c540 <_sk_overlay_sse2_8bit+0x10a3>
.byte 65,15,89,208 // mulps %xmm8,%xmm2
.byte 102,65,15,111,201 // movdqa %xmm9,%xmm1
.byte 102,15,114,209,8 // psrld $0x8,%xmm1
@@ -39576,7 +39500,6 @@ _sk_gather_bgra_sse2:
.byte 65,15,91,217 // cvtdq2ps %xmm9,%xmm3
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_bgra_sse2
@@ -39584,13 +39507,13 @@ HIDDEN _sk_store_bgra_sse2
FUNCTION(_sk_store_bgra_sse2)
_sk_store_bgra_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 68,15,40,5,25,219,0,0 // movaps 0xdb19(%rip),%xmm8 # 2c3f0 <_sk_overlay_sse2_8bit+0xf0b>
+ .byte 68,15,40,5,241,219,0,0 // movaps 0xdbf1(%rip),%xmm8 # 2c420 <_sk_overlay_sse2_8bit+0xf83>
.byte 68,15,40,202 // movaps %xmm2,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 102,69,15,91,201 // cvtps2dq %xmm9,%xmm9
@@ -39608,41 +39531,41 @@ _sk_store_bgra_sse2:
.byte 102,65,15,114,240,24 // pslld $0x18,%xmm8
.byte 102,69,15,235,193 // por %xmm9,%xmm8
.byte 102,69,15,235,194 // por %xmm10,%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,10 // jne 1e937 <_sk_store_bgra_sse2+0x7f>
- .byte 243,69,15,127,4,129 // movdqu %xmm8,(%r9,%rax,4)
- .byte 72,173 // lods %ds:(%rsi),%rax
- .byte 255,224 // jmpq *%rax
- .byte 69,137,194 // mov %r8d,%r10d
- .byte 65,128,226,3 // and $0x3,%r10b
- .byte 65,128,250,1 // cmp $0x1,%r10b
- .byte 116,33 // je 1e965 <_sk_store_bgra_sse2+0xad>
- .byte 65,128,250,2 // cmp $0x2,%r10b
- .byte 116,19 // je 1e95d <_sk_store_bgra_sse2+0xa5>
- .byte 65,128,250,3 // cmp $0x3,%r10b
- .byte 117,227 // jne 1e933 <_sk_store_bgra_sse2+0x7b>
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,10 // jne 1e88f <_sk_store_bgra_sse2+0x7f>
+ .byte 243,69,15,127,4,128 // movdqu %xmm8,(%r8,%rax,4)
+ .byte 72,173 // lods %ds:(%rsi),%rax
+ .byte 255,224 // jmpq *%rax
+ .byte 65,137,249 // mov %edi,%r9d
+ .byte 65,128,225,3 // and $0x3,%r9b
+ .byte 65,128,249,1 // cmp $0x1,%r9b
+ .byte 116,33 // je 1e8bd <_sk_store_bgra_sse2+0xad>
+ .byte 65,128,249,2 // cmp $0x2,%r9b
+ .byte 116,19 // je 1e8b5 <_sk_store_bgra_sse2+0xa5>
+ .byte 65,128,249,3 // cmp $0x3,%r9b
+ .byte 117,227 // jne 1e88b <_sk_store_bgra_sse2+0x7b>
.byte 102,69,15,112,200,78 // pshufd $0x4e,%xmm8,%xmm9
- .byte 102,69,15,126,76,129,8 // movd %xmm9,0x8(%r9,%rax,4)
- .byte 102,69,15,214,4,129 // movq %xmm8,(%r9,%rax,4)
- .byte 235,206 // jmp 1e933 <_sk_store_bgra_sse2+0x7b>
- .byte 102,69,15,126,4,129 // movd %xmm8,(%r9,%rax,4)
- .byte 235,198 // jmp 1e933 <_sk_store_bgra_sse2+0x7b>
+ .byte 102,69,15,126,76,128,8 // movd %xmm9,0x8(%r8,%rax,4)
+ .byte 102,69,15,214,4,128 // movq %xmm8,(%r8,%rax,4)
+ .byte 235,206 // jmp 1e88b <_sk_store_bgra_sse2+0x7b>
+ .byte 102,69,15,126,4,128 // movd %xmm8,(%r8,%rax,4)
+ .byte 235,198 // jmp 1e88b <_sk_store_bgra_sse2+0x7b>
HIDDEN _sk_load_f16_sse2
.globl _sk_load_f16_sse2
FUNCTION(_sk_load_f16_sse2)
_sk_load_f16_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,98,1,0,0 // jne 1eaef <_sk_load_f16_sse2+0x182>
- .byte 102,65,15,16,4,193 // movupd (%r9,%rax,8),%xmm0
- .byte 102,65,15,16,76,193,16 // movupd 0x10(%r9,%rax,8),%xmm1
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,98,1,0,0 // jne 1ea47 <_sk_load_f16_sse2+0x182>
+ .byte 102,65,15,16,4,192 // movupd (%r8,%rax,8),%xmm0
+ .byte 102,65,15,16,76,192,16 // movupd 0x10(%r8,%rax,8),%xmm1
.byte 102,68,15,40,192 // movapd %xmm0,%xmm8
.byte 102,68,15,97,193 // punpcklwd %xmm1,%xmm8
.byte 102,15,105,193 // punpckhwd %xmm1,%xmm0
@@ -39652,7 +39575,7 @@ _sk_load_f16_sse2:
.byte 102,69,15,239,210 // pxor %xmm10,%xmm10
.byte 102,65,15,111,206 // movdqa %xmm14,%xmm1
.byte 102,65,15,97,202 // punpcklwd %xmm10,%xmm1
- .byte 102,68,15,111,13,17,222,0,0 // movdqa 0xde11(%rip),%xmm9 # 2c7e0 <_sk_overlay_sse2_8bit+0x12fb>
+ .byte 102,68,15,111,13,233,222,0,0 // movdqa 0xdee9(%rip),%xmm9 # 2c810 <_sk_overlay_sse2_8bit+0x1373>
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
.byte 102,65,15,219,193 // pand %xmm9,%xmm0
.byte 102,15,239,200 // pxor %xmm0,%xmm1
@@ -39660,11 +39583,11 @@ _sk_load_f16_sse2:
.byte 102,68,15,111,233 // movdqa %xmm1,%xmm13
.byte 102,65,15,114,245,13 // pslld $0xd,%xmm13
.byte 102,68,15,235,232 // por %xmm0,%xmm13
- .byte 102,68,15,111,29,6,222,0,0 // movdqa 0xde06(%rip),%xmm11 # 2c800 <_sk_overlay_sse2_8bit+0x131b>
+ .byte 102,68,15,111,29,222,222,0,0 // movdqa 0xdede(%rip),%xmm11 # 2c830 <_sk_overlay_sse2_8bit+0x1393>
.byte 102,69,15,254,235 // paddd %xmm11,%xmm13
- .byte 102,68,15,111,37,8,222,0,0 // movdqa 0xde08(%rip),%xmm12 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
+ .byte 102,68,15,111,37,224,222,0,0 // movdqa 0xdee0(%rip),%xmm12 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
.byte 102,65,15,239,204 // pxor %xmm12,%xmm1
- .byte 102,15,111,29,171,223,0,0 // movdqa 0xdfab(%rip),%xmm3 # 2c9c0 <_sk_overlay_sse2_8bit+0x14db>
+ .byte 102,15,111,29,131,224,0,0 // movdqa 0xe083(%rip),%xmm3 # 2c9f0 <_sk_overlay_sse2_8bit+0x1553>
.byte 102,15,111,195 // movdqa %xmm3,%xmm0
.byte 102,15,102,193 // pcmpgtd %xmm1,%xmm0
.byte 102,65,15,223,197 // pandn %xmm13,%xmm0
@@ -39710,35 +39633,35 @@ _sk_load_f16_sse2:
.byte 102,65,15,223,218 // pandn %xmm10,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 242,65,15,16,4,193 // movsd (%r9,%rax,8),%xmm0
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,17 // jne 1eb0c <_sk_load_f16_sse2+0x19f>
+ .byte 242,65,15,16,4,192 // movsd (%r8,%rax,8),%xmm0
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,17 // jne 1ea64 <_sk_load_f16_sse2+0x19f>
.byte 102,15,87,201 // xorpd %xmm1,%xmm1
.byte 102,15,20,193 // unpcklpd %xmm1,%xmm0
.byte 102,15,87,201 // xorpd %xmm1,%xmm1
- .byte 233,142,254,255,255 // jmpq 1e99a <_sk_load_f16_sse2+0x2d>
- .byte 102,65,15,22,68,193,8 // movhpd 0x8(%r9,%rax,8),%xmm0
+ .byte 233,142,254,255,255 // jmpq 1e8f2 <_sk_load_f16_sse2+0x2d>
+ .byte 102,65,15,22,68,192,8 // movhpd 0x8(%r8,%rax,8),%xmm0
.byte 102,15,87,201 // xorpd %xmm1,%xmm1
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 15,130,121,254,255,255 // jb 1e99a <_sk_load_f16_sse2+0x2d>
- .byte 242,65,15,16,76,193,16 // movsd 0x10(%r9,%rax,8),%xmm1
- .byte 233,109,254,255,255 // jmpq 1e99a <_sk_load_f16_sse2+0x2d>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 15,130,121,254,255,255 // jb 1e8f2 <_sk_load_f16_sse2+0x2d>
+ .byte 242,65,15,16,76,192,16 // movsd 0x10(%r8,%rax,8),%xmm1
+ .byte 233,109,254,255,255 // jmpq 1e8f2 <_sk_load_f16_sse2+0x2d>
HIDDEN _sk_load_f16_dst_sse2
.globl _sk_load_f16_dst_sse2
FUNCTION(_sk_load_f16_dst_sse2)
_sk_load_f16_dst_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,98,1,0,0 // jne 1ecaf <_sk_load_f16_dst_sse2+0x182>
- .byte 102,65,15,16,36,193 // movupd (%r9,%rax,8),%xmm4
- .byte 102,65,15,16,108,193,16 // movupd 0x10(%r9,%rax,8),%xmm5
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,98,1,0,0 // jne 1ec07 <_sk_load_f16_dst_sse2+0x182>
+ .byte 102,65,15,16,36,192 // movupd (%r8,%rax,8),%xmm4
+ .byte 102,65,15,16,108,192,16 // movupd 0x10(%r8,%rax,8),%xmm5
.byte 102,68,15,40,196 // movapd %xmm4,%xmm8
.byte 102,68,15,97,197 // punpcklwd %xmm5,%xmm8
.byte 102,15,105,229 // punpckhwd %xmm5,%xmm4
@@ -39748,7 +39671,7 @@ _sk_load_f16_dst_sse2:
.byte 102,69,15,239,210 // pxor %xmm10,%xmm10
.byte 102,65,15,111,238 // movdqa %xmm14,%xmm5
.byte 102,65,15,97,234 // punpcklwd %xmm10,%xmm5
- .byte 102,68,15,111,13,81,220,0,0 // movdqa 0xdc51(%rip),%xmm9 # 2c7e0 <_sk_overlay_sse2_8bit+0x12fb>
+ .byte 102,68,15,111,13,41,221,0,0 // movdqa 0xdd29(%rip),%xmm9 # 2c810 <_sk_overlay_sse2_8bit+0x1373>
.byte 102,15,111,229 // movdqa %xmm5,%xmm4
.byte 102,65,15,219,225 // pand %xmm9,%xmm4
.byte 102,15,239,236 // pxor %xmm4,%xmm5
@@ -39756,11 +39679,11 @@ _sk_load_f16_dst_sse2:
.byte 102,68,15,111,237 // movdqa %xmm5,%xmm13
.byte 102,65,15,114,245,13 // pslld $0xd,%xmm13
.byte 102,68,15,235,236 // por %xmm4,%xmm13
- .byte 102,68,15,111,29,70,220,0,0 // movdqa 0xdc46(%rip),%xmm11 # 2c800 <_sk_overlay_sse2_8bit+0x131b>
+ .byte 102,68,15,111,29,30,221,0,0 // movdqa 0xdd1e(%rip),%xmm11 # 2c830 <_sk_overlay_sse2_8bit+0x1393>
.byte 102,69,15,254,235 // paddd %xmm11,%xmm13
- .byte 102,68,15,111,37,72,220,0,0 // movdqa 0xdc48(%rip),%xmm12 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
+ .byte 102,68,15,111,37,32,221,0,0 // movdqa 0xdd20(%rip),%xmm12 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
.byte 102,65,15,239,236 // pxor %xmm12,%xmm5
- .byte 102,15,111,61,235,221,0,0 // movdqa 0xddeb(%rip),%xmm7 # 2c9c0 <_sk_overlay_sse2_8bit+0x14db>
+ .byte 102,15,111,61,195,222,0,0 // movdqa 0xdec3(%rip),%xmm7 # 2c9f0 <_sk_overlay_sse2_8bit+0x1553>
.byte 102,15,111,231 // movdqa %xmm7,%xmm4
.byte 102,15,102,229 // pcmpgtd %xmm5,%xmm4
.byte 102,65,15,223,229 // pandn %xmm13,%xmm4
@@ -39806,27 +39729,26 @@ _sk_load_f16_dst_sse2:
.byte 102,65,15,223,250 // pandn %xmm10,%xmm7
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 242,65,15,16,36,193 // movsd (%r9,%rax,8),%xmm4
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,17 // jne 1eccc <_sk_load_f16_dst_sse2+0x19f>
+ .byte 242,65,15,16,36,192 // movsd (%r8,%rax,8),%xmm4
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,17 // jne 1ec24 <_sk_load_f16_dst_sse2+0x19f>
.byte 102,15,87,237 // xorpd %xmm5,%xmm5
.byte 102,15,20,229 // unpcklpd %xmm5,%xmm4
.byte 102,15,87,237 // xorpd %xmm5,%xmm5
- .byte 233,142,254,255,255 // jmpq 1eb5a <_sk_load_f16_dst_sse2+0x2d>
- .byte 102,65,15,22,100,193,8 // movhpd 0x8(%r9,%rax,8),%xmm4
+ .byte 233,142,254,255,255 // jmpq 1eab2 <_sk_load_f16_dst_sse2+0x2d>
+ .byte 102,65,15,22,100,192,8 // movhpd 0x8(%r8,%rax,8),%xmm4
.byte 102,15,87,237 // xorpd %xmm5,%xmm5
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 15,130,121,254,255,255 // jb 1eb5a <_sk_load_f16_dst_sse2+0x2d>
- .byte 242,65,15,16,108,193,16 // movsd 0x10(%r9,%rax,8),%xmm5
- .byte 233,109,254,255,255 // jmpq 1eb5a <_sk_load_f16_dst_sse2+0x2d>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 15,130,121,254,255,255 // jb 1eab2 <_sk_load_f16_dst_sse2+0x2d>
+ .byte 242,65,15,16,108,192,16 // movsd 0x10(%r8,%rax,8),%xmm5
+ .byte 233,109,254,255,255 // jmpq 1eab2 <_sk_load_f16_dst_sse2+0x2d>
HIDDEN _sk_gather_f16_sse2
.globl _sk_gather_f16_sse2
FUNCTION(_sk_gather_f16_sse2)
_sk_gather_f16_sse2:
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,110,80,8 // movd 0x8(%rax),%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
@@ -39840,16 +39762,16 @@ _sk_gather_f16_sse2:
.byte 102,15,254,193 // paddd %xmm1,%xmm0
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,72,15,126,200 // movq %xmm1,%rax
- .byte 65,137,194 // mov %eax,%r10d
+ .byte 65,137,193 // mov %eax,%r9d
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 102,73,15,126,195 // movq %xmm0,%r11
- .byte 68,137,219 // mov %r11d,%ebx
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 243,67,15,126,4,217 // movq (%r9,%r11,8),%xmm0
- .byte 243,65,15,126,12,217 // movq (%r9,%rbx,8),%xmm1
+ .byte 102,73,15,126,194 // movq %xmm0,%r10
+ .byte 69,137,211 // mov %r10d,%r11d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 243,67,15,126,4,208 // movq (%r8,%r10,8),%xmm0
+ .byte 243,67,15,126,12,216 // movq (%r8,%r11,8),%xmm1
.byte 102,15,108,200 // punpcklqdq %xmm0,%xmm1
- .byte 243,65,15,126,4,193 // movq (%r9,%rax,8),%xmm0
- .byte 243,67,15,126,20,209 // movq (%r9,%r10,8),%xmm2
+ .byte 243,65,15,126,4,192 // movq (%r8,%rax,8),%xmm0
+ .byte 243,67,15,126,20,200 // movq (%r8,%r9,8),%xmm2
.byte 102,15,108,208 // punpcklqdq %xmm0,%xmm2
.byte 102,68,15,111,193 // movdqa %xmm1,%xmm8
.byte 102,68,15,97,194 // punpcklwd %xmm2,%xmm8
@@ -39860,7 +39782,7 @@ _sk_gather_f16_sse2:
.byte 102,69,15,239,210 // pxor %xmm10,%xmm10
.byte 102,65,15,111,206 // movdqa %xmm14,%xmm1
.byte 102,65,15,97,202 // punpcklwd %xmm10,%xmm1
- .byte 102,68,15,111,13,74,218,0,0 // movdqa 0xda4a(%rip),%xmm9 # 2c7e0 <_sk_overlay_sse2_8bit+0x12fb>
+ .byte 102,68,15,111,13,35,219,0,0 // movdqa 0xdb23(%rip),%xmm9 # 2c810 <_sk_overlay_sse2_8bit+0x1373>
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
.byte 102,65,15,219,193 // pand %xmm9,%xmm0
.byte 102,15,239,200 // pxor %xmm0,%xmm1
@@ -39868,11 +39790,11 @@ _sk_gather_f16_sse2:
.byte 102,68,15,111,233 // movdqa %xmm1,%xmm13
.byte 102,65,15,114,245,13 // pslld $0xd,%xmm13
.byte 102,68,15,235,232 // por %xmm0,%xmm13
- .byte 102,68,15,111,29,63,218,0,0 // movdqa 0xda3f(%rip),%xmm11 # 2c800 <_sk_overlay_sse2_8bit+0x131b>
+ .byte 102,68,15,111,29,24,219,0,0 // movdqa 0xdb18(%rip),%xmm11 # 2c830 <_sk_overlay_sse2_8bit+0x1393>
.byte 102,69,15,254,235 // paddd %xmm11,%xmm13
- .byte 102,68,15,111,37,65,218,0,0 // movdqa 0xda41(%rip),%xmm12 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
+ .byte 102,68,15,111,37,26,219,0,0 // movdqa 0xdb1a(%rip),%xmm12 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
.byte 102,65,15,239,204 // pxor %xmm12,%xmm1
- .byte 102,15,111,29,228,219,0,0 // movdqa 0xdbe4(%rip),%xmm3 # 2c9c0 <_sk_overlay_sse2_8bit+0x14db>
+ .byte 102,15,111,29,189,220,0,0 // movdqa 0xdcbd(%rip),%xmm3 # 2c9f0 <_sk_overlay_sse2_8bit+0x1553>
.byte 102,15,111,195 // movdqa %xmm3,%xmm0
.byte 102,15,102,193 // pcmpgtd %xmm1,%xmm0
.byte 102,65,15,223,197 // pandn %xmm13,%xmm0
@@ -39917,7 +39839,6 @@ _sk_gather_f16_sse2:
.byte 102,65,15,102,216 // pcmpgtd %xmm8,%xmm3
.byte 102,65,15,223,218 // pandn %xmm10,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 91 // pop %rbx
.byte 255,224 // jmpq *%rax
HIDDEN _sk_store_f16_sse2
@@ -39925,23 +39846,23 @@ HIDDEN _sk_store_f16_sse2
FUNCTION(_sk_store_f16_sse2)
_sk_store_f16_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 73,193,225,3 // shl $0x3,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 73,193,224,3 // shl $0x3,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,99,194 // movslq %edx,%rax
- .byte 102,68,15,111,21,57,217,0,0 // movdqa 0xd939(%rip),%xmm10 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
+ .byte 102,68,15,111,21,19,218,0,0 // movdqa 0xda13(%rip),%xmm10 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
.byte 102,68,15,111,224 // movdqa %xmm0,%xmm12
.byte 102,69,15,219,226 // pand %xmm10,%xmm12
.byte 102,68,15,111,232 // movdqa %xmm0,%xmm13
.byte 102,69,15,239,236 // pxor %xmm12,%xmm13
- .byte 102,68,15,111,13,44,217,0,0 // movdqa 0xd92c(%rip),%xmm9 # 2c820 <_sk_overlay_sse2_8bit+0x133b>
+ .byte 102,68,15,111,13,6,218,0,0 // movdqa 0xda06(%rip),%xmm9 # 2c850 <_sk_overlay_sse2_8bit+0x13b3>
.byte 102,65,15,114,212,16 // psrld $0x10,%xmm12
.byte 102,69,15,111,193 // movdqa %xmm9,%xmm8
.byte 102,69,15,102,197 // pcmpgtd %xmm13,%xmm8
.byte 102,65,15,114,213,13 // psrld $0xd,%xmm13
- .byte 102,68,15,111,29,29,217,0,0 // movdqa 0xd91d(%rip),%xmm11 # 2c830 <_sk_overlay_sse2_8bit+0x134b>
+ .byte 102,68,15,111,29,247,217,0,0 // movdqa 0xd9f7(%rip),%xmm11 # 2c860 <_sk_overlay_sse2_8bit+0x13c3>
.byte 102,69,15,235,227 // por %xmm11,%xmm12
.byte 102,69,15,254,229 // paddd %xmm13,%xmm12
.byte 102,65,15,114,244,16 // pslld $0x10,%xmm12
@@ -39992,39 +39913,39 @@ _sk_store_f16_sse2:
.byte 102,69,15,97,225 // punpcklwd %xmm9,%xmm12
.byte 102,69,15,111,200 // movdqa %xmm8,%xmm9
.byte 102,69,15,98,204 // punpckldq %xmm12,%xmm9
- .byte 77,133,192 // test %r8,%r8
- .byte 117,21 // jne 1f035 <_sk_store_f16_sse2+0x17e>
- .byte 69,15,17,12,193 // movups %xmm9,(%r9,%rax,8)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,21 // jne 1ef8b <_sk_store_f16_sse2+0x17e>
+ .byte 69,15,17,12,192 // movups %xmm9,(%r8,%rax,8)
.byte 102,69,15,106,196 // punpckhdq %xmm12,%xmm8
- .byte 243,69,15,127,68,193,16 // movdqu %xmm8,0x10(%r9,%rax,8)
+ .byte 243,69,15,127,68,192,16 // movdqu %xmm8,0x10(%r8,%rax,8)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 102,69,15,214,12,193 // movq %xmm9,(%r9,%rax,8)
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,240 // je 1f031 <_sk_store_f16_sse2+0x17a>
- .byte 102,69,15,23,76,193,8 // movhpd %xmm9,0x8(%r9,%rax,8)
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,227 // jb 1f031 <_sk_store_f16_sse2+0x17a>
+ .byte 102,69,15,214,12,192 // movq %xmm9,(%r8,%rax,8)
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,240 // je 1ef87 <_sk_store_f16_sse2+0x17a>
+ .byte 102,69,15,23,76,192,8 // movhpd %xmm9,0x8(%r8,%rax,8)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,227 // jb 1ef87 <_sk_store_f16_sse2+0x17a>
.byte 102,69,15,106,196 // punpckhdq %xmm12,%xmm8
- .byte 102,69,15,214,68,193,16 // movq %xmm8,0x10(%r9,%rax,8)
- .byte 235,213 // jmp 1f031 <_sk_store_f16_sse2+0x17a>
+ .byte 102,69,15,214,68,192,16 // movq %xmm8,0x10(%r8,%rax,8)
+ .byte 235,213 // jmp 1ef87 <_sk_store_f16_sse2+0x17a>
HIDDEN _sk_load_u16_be_sse2
.globl _sk_load_u16_be_sse2
FUNCTION(_sk_load_u16_be_sse2)
_sk_load_u16_be_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,190,0,0,0 // jne 1f141 <_sk_load_u16_be_sse2+0xe5>
- .byte 102,65,15,16,4,65 // movupd (%r9,%rax,2),%xmm0
- .byte 102,65,15,16,76,65,16 // movupd 0x10(%r9,%rax,2),%xmm1
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,190,0,0,0 // jne 1f097 <_sk_load_u16_be_sse2+0xe5>
+ .byte 102,65,15,16,4,64 // movupd (%r8,%rax,2),%xmm0
+ .byte 102,65,15,16,76,64,16 // movupd 0x10(%r8,%rax,2),%xmm1
.byte 102,15,40,208 // movapd %xmm0,%xmm2
.byte 102,15,97,209 // punpcklwd %xmm1,%xmm2
.byte 102,15,105,193 // punpckhwd %xmm1,%xmm0
@@ -40039,7 +39960,7 @@ _sk_load_u16_be_sse2:
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
.byte 102,65,15,97,201 // punpcklwd %xmm9,%xmm1
.byte 15,91,193 // cvtdq2ps %xmm1,%xmm0
- .byte 68,15,40,5,204,212,0,0 // movaps 0xd4cc(%rip),%xmm8 # 2c5a0 <_sk_overlay_sse2_8bit+0x10bb>
+ .byte 68,15,40,5,166,213,0,0 // movaps 0xd5a6(%rip),%xmm8 # 2c5d0 <_sk_overlay_sse2_8bit+0x1133>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,15,113,241,8 // psllw $0x8,%xmm1
@@ -40065,38 +39986,38 @@ _sk_load_u16_be_sse2:
.byte 65,15,89,216 // mulps %xmm8,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 242,65,15,16,4,65 // movsd (%r9,%rax,2),%xmm0
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,17 // jne 1f15e <_sk_load_u16_be_sse2+0x102>
+ .byte 242,65,15,16,4,64 // movsd (%r8,%rax,2),%xmm0
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,17 // jne 1f0b4 <_sk_load_u16_be_sse2+0x102>
.byte 102,15,87,201 // xorpd %xmm1,%xmm1
.byte 102,15,20,193 // unpcklpd %xmm1,%xmm0
.byte 102,15,87,201 // xorpd %xmm1,%xmm1
- .byte 233,50,255,255,255 // jmpq 1f090 <_sk_load_u16_be_sse2+0x34>
- .byte 102,65,15,22,68,65,8 // movhpd 0x8(%r9,%rax,2),%xmm0
+ .byte 233,50,255,255,255 // jmpq 1efe6 <_sk_load_u16_be_sse2+0x34>
+ .byte 102,65,15,22,68,64,8 // movhpd 0x8(%r8,%rax,2),%xmm0
.byte 102,15,87,201 // xorpd %xmm1,%xmm1
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 15,130,29,255,255,255 // jb 1f090 <_sk_load_u16_be_sse2+0x34>
- .byte 242,65,15,16,76,65,16 // movsd 0x10(%r9,%rax,2),%xmm1
- .byte 233,17,255,255,255 // jmpq 1f090 <_sk_load_u16_be_sse2+0x34>
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 15,130,29,255,255,255 // jb 1efe6 <_sk_load_u16_be_sse2+0x34>
+ .byte 242,65,15,16,76,64,16 // movsd 0x10(%r8,%rax,2),%xmm1
+ .byte 233,17,255,255,255 // jmpq 1efe6 <_sk_load_u16_be_sse2+0x34>
HIDDEN _sk_load_rgb_u16_be_sse2
.globl _sk_load_rgb_u16_be_sse2
FUNCTION(_sk_load_rgb_u16_be_sse2)
_sk_load_rgb_u16_be_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,99,80,8 // movslq 0x8(%rax),%r10
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,202 // imul %r10,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
+ .byte 76,99,72,8 // movslq 0x8(%rax),%r9
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,193 // imul %r9,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
.byte 72,137,208 // mov %rdx,%rax
.byte 72,193,224,32 // shl $0x20,%rax
.byte 72,141,4,64 // lea (%rax,%rax,2),%rax
.byte 72,193,248,32 // sar $0x20,%rax
- .byte 77,133,192 // test %r8,%r8
- .byte 15,133,175,0,0,0 // jne 1f259 <_sk_load_rgb_u16_be_sse2+0xda>
- .byte 243,65,15,111,20,65 // movdqu (%r9,%rax,2),%xmm2
- .byte 243,65,15,111,92,65,8 // movdqu 0x8(%r9,%rax,2),%xmm3
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 15,133,175,0,0,0 // jne 1f1af <_sk_load_rgb_u16_be_sse2+0xda>
+ .byte 243,65,15,111,20,64 // movdqu (%r8,%rax,2),%xmm2
+ .byte 243,65,15,111,92,64,8 // movdqu 0x8(%r8,%rax,2),%xmm3
.byte 102,15,115,219,4 // psrldq $0x4,%xmm3
.byte 102,15,111,194 // movdqa %xmm2,%xmm0
.byte 102,15,115,216,6 // psrldq $0x6,%xmm0
@@ -40115,7 +40036,7 @@ _sk_load_rgb_u16_be_sse2:
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
.byte 102,65,15,97,200 // punpcklwd %xmm8,%xmm1
.byte 15,91,193 // cvtdq2ps %xmm1,%xmm0
- .byte 68,15,40,13,146,211,0,0 // movaps 0xd392(%rip),%xmm9 # 2c5a0 <_sk_overlay_sse2_8bit+0x10bb>
+ .byte 68,15,40,13,108,212,0,0 // movaps 0xd46c(%rip),%xmm9 # 2c5d0 <_sk_overlay_sse2_8bit+0x1133>
.byte 65,15,89,193 // mulps %xmm9,%xmm0
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,15,113,241,8 // psllw $0x8,%xmm1
@@ -40132,41 +40053,41 @@ _sk_load_rgb_u16_be_sse2:
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
.byte 65,15,89,209 // mulps %xmm9,%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,185,208,0,0 // movaps 0xd0b9(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,147,209,0,0 // movaps 0xd193(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 255,224 // jmpq *%rax
- .byte 102,65,15,110,20,65 // movd (%r9,%rax,2),%xmm2
- .byte 102,65,15,196,84,65,4,2 // pinsrw $0x2,0x4(%r9,%rax,2),%xmm2
+ .byte 102,65,15,110,20,64 // movd (%r8,%rax,2),%xmm2
+ .byte 102,65,15,196,84,64,4,2 // pinsrw $0x2,0x4(%r8,%rax,2),%xmm2
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,13 // jne 1f27e <_sk_load_rgb_u16_be_sse2+0xff>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,13 // jne 1f1d4 <_sk_load_rgb_u16_be_sse2+0xff>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 233,80,255,255,255 // jmpq 1f1ce <_sk_load_rgb_u16_be_sse2+0x4f>
- .byte 102,65,15,110,68,65,6 // movd 0x6(%r9,%rax,2),%xmm0
- .byte 102,65,15,196,68,65,10,2 // pinsrw $0x2,0xa(%r9,%rax,2),%xmm0
+ .byte 233,80,255,255,255 // jmpq 1f124 <_sk_load_rgb_u16_be_sse2+0x4f>
+ .byte 102,65,15,110,68,64,6 // movd 0x6(%r8,%rax,2),%xmm0
+ .byte 102,65,15,196,68,64,10,2 // pinsrw $0x2,0xa(%r8,%rax,2),%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,24 // jb 1f2af <_sk_load_rgb_u16_be_sse2+0x130>
- .byte 102,65,15,110,92,65,12 // movd 0xc(%r9,%rax,2),%xmm3
- .byte 102,65,15,196,92,65,16,2 // pinsrw $0x2,0x10(%r9,%rax,2),%xmm3
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,24 // jb 1f205 <_sk_load_rgb_u16_be_sse2+0x130>
+ .byte 102,65,15,110,92,64,12 // movd 0xc(%r8,%rax,2),%xmm3
+ .byte 102,65,15,196,92,64,16,2 // pinsrw $0x2,0x10(%r8,%rax,2),%xmm3
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 233,31,255,255,255 // jmpq 1f1ce <_sk_load_rgb_u16_be_sse2+0x4f>
+ .byte 233,31,255,255,255 // jmpq 1f124 <_sk_load_rgb_u16_be_sse2+0x4f>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
- .byte 233,22,255,255,255 // jmpq 1f1ce <_sk_load_rgb_u16_be_sse2+0x4f>
+ .byte 233,22,255,255,255 // jmpq 1f124 <_sk_load_rgb_u16_be_sse2+0x4f>
HIDDEN _sk_store_u16_be_sse2
.globl _sk_store_u16_be_sse2
FUNCTION(_sk_store_u16_be_sse2)
_sk_store_u16_be_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 77,1,201 // add %r9,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 68,15,40,21,98,213,0,0 // movaps 0xd562(%rip),%xmm10 # 2c840 <_sk_overlay_sse2_8bit+0x135b>
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 77,1,192 // add %r8,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 68,15,40,21,60,214,0,0 // movaps 0xd63c(%rip),%xmm10 # 2c870 <_sk_overlay_sse2_8bit+0x13d3>
.byte 68,15,40,192 // movaps %xmm0,%xmm8
.byte 69,15,89,194 // mulps %xmm10,%xmm8
.byte 102,69,15,91,192 // cvtps2dq %xmm8,%xmm8
@@ -40210,41 +40131,41 @@ _sk_store_u16_be_sse2:
.byte 102,69,15,97,202 // punpcklwd %xmm10,%xmm9
.byte 102,69,15,111,208 // movdqa %xmm8,%xmm10
.byte 102,69,15,98,209 // punpckldq %xmm9,%xmm10
- .byte 77,133,192 // test %r8,%r8
- .byte 117,21 // jne 1f3d8 <_sk_store_u16_be_sse2+0x120>
- .byte 69,15,17,20,65 // movups %xmm10,(%r9,%rax,2)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,21 // jne 1f32e <_sk_store_u16_be_sse2+0x120>
+ .byte 69,15,17,20,64 // movups %xmm10,(%r8,%rax,2)
.byte 102,69,15,106,193 // punpckhdq %xmm9,%xmm8
- .byte 243,69,15,127,68,65,16 // movdqu %xmm8,0x10(%r9,%rax,2)
+ .byte 243,69,15,127,68,64,16 // movdqu %xmm8,0x10(%r8,%rax,2)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 102,69,15,214,20,65 // movq %xmm10,(%r9,%rax,2)
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,240 // je 1f3d4 <_sk_store_u16_be_sse2+0x11c>
- .byte 102,69,15,23,84,65,8 // movhpd %xmm10,0x8(%r9,%rax,2)
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,227 // jb 1f3d4 <_sk_store_u16_be_sse2+0x11c>
+ .byte 102,69,15,214,20,64 // movq %xmm10,(%r8,%rax,2)
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,240 // je 1f32a <_sk_store_u16_be_sse2+0x11c>
+ .byte 102,69,15,23,84,64,8 // movhpd %xmm10,0x8(%r8,%rax,2)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,227 // jb 1f32a <_sk_store_u16_be_sse2+0x11c>
.byte 102,69,15,106,193 // punpckhdq %xmm9,%xmm8
- .byte 102,69,15,214,68,65,16 // movq %xmm8,0x10(%r9,%rax,2)
- .byte 235,213 // jmp 1f3d4 <_sk_store_u16_be_sse2+0x11c>
+ .byte 102,69,15,214,68,64,16 // movq %xmm8,0x10(%r8,%rax,2)
+ .byte 235,213 // jmp 1f32a <_sk_store_u16_be_sse2+0x11c>
HIDDEN _sk_load_f32_sse2
.globl _sk_load_f32_sse2
FUNCTION(_sk_load_f32_sse2)
_sk_load_f32_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 69,15,16,4,129 // movups (%r9,%rax,4),%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,66 // jne 1f46a <_sk_load_f32_sse2+0x6b>
- .byte 65,15,16,68,129,16 // movups 0x10(%r9,%rax,4),%xmm0
- .byte 65,15,16,92,129,32 // movups 0x20(%r9,%rax,4),%xmm3
- .byte 69,15,16,76,129,48 // movups 0x30(%r9,%rax,4),%xmm9
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 69,15,16,4,128 // movups (%r8,%rax,4),%xmm8
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,66 // jne 1f3c0 <_sk_load_f32_sse2+0x6b>
+ .byte 65,15,16,68,128,16 // movups 0x10(%r8,%rax,4),%xmm0
+ .byte 65,15,16,92,128,32 // movups 0x20(%r8,%rax,4),%xmm3
+ .byte 69,15,16,76,128,48 // movups 0x30(%r8,%rax,4),%xmm9
.byte 65,15,40,208 // movaps %xmm8,%xmm2
.byte 15,20,208 // unpcklps %xmm0,%xmm2
.byte 15,40,203 // movaps %xmm3,%xmm1
@@ -40260,37 +40181,37 @@ _sk_load_f32_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 69,15,87,201 // xorps %xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,8 // jne 1f47c <_sk_load_f32_sse2+0x7d>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,8 // jne 1f3d2 <_sk_load_f32_sse2+0x7d>
.byte 15,87,219 // xorps %xmm3,%xmm3
.byte 15,87,192 // xorps %xmm0,%xmm0
- .byte 235,190 // jmp 1f43a <_sk_load_f32_sse2+0x3b>
- .byte 65,15,16,68,129,16 // movups 0x10(%r9,%rax,4),%xmm0
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,8 // jb 1f490 <_sk_load_f32_sse2+0x91>
- .byte 65,15,16,92,129,32 // movups 0x20(%r9,%rax,4),%xmm3
- .byte 235,170 // jmp 1f43a <_sk_load_f32_sse2+0x3b>
+ .byte 235,190 // jmp 1f390 <_sk_load_f32_sse2+0x3b>
+ .byte 65,15,16,68,128,16 // movups 0x10(%r8,%rax,4),%xmm0
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,8 // jb 1f3e6 <_sk_load_f32_sse2+0x91>
+ .byte 65,15,16,92,128,32 // movups 0x20(%r8,%rax,4),%xmm3
+ .byte 235,170 // jmp 1f390 <_sk_load_f32_sse2+0x3b>
.byte 15,87,219 // xorps %xmm3,%xmm3
- .byte 235,165 // jmp 1f43a <_sk_load_f32_sse2+0x3b>
+ .byte 235,165 // jmp 1f390 <_sk_load_f32_sse2+0x3b>
HIDDEN _sk_load_f32_dst_sse2
.globl _sk_load_f32_dst_sse2
FUNCTION(_sk_load_f32_dst_sse2)
_sk_load_f32_dst_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
- .byte 69,15,16,4,129 // movups (%r9,%rax,4),%xmm8
- .byte 77,133,192 // test %r8,%r8
- .byte 117,66 // jne 1f500 <_sk_load_f32_dst_sse2+0x6b>
- .byte 65,15,16,100,129,16 // movups 0x10(%r9,%rax,4),%xmm4
- .byte 65,15,16,124,129,32 // movups 0x20(%r9,%rax,4),%xmm7
- .byte 69,15,16,76,129,48 // movups 0x30(%r9,%rax,4),%xmm9
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
+ .byte 69,15,16,4,128 // movups (%r8,%rax,4),%xmm8
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,66 // jne 1f456 <_sk_load_f32_dst_sse2+0x6b>
+ .byte 65,15,16,100,128,16 // movups 0x10(%r8,%rax,4),%xmm4
+ .byte 65,15,16,124,128,32 // movups 0x20(%r8,%rax,4),%xmm7
+ .byte 69,15,16,76,128,48 // movups 0x30(%r8,%rax,4),%xmm9
.byte 65,15,40,240 // movaps %xmm8,%xmm6
.byte 15,20,244 // unpcklps %xmm4,%xmm6
.byte 15,40,239 // movaps %xmm7,%xmm5
@@ -40306,31 +40227,31 @@ _sk_load_f32_dst_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 69,15,87,201 // xorps %xmm9,%xmm9
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 117,8 // jne 1f512 <_sk_load_f32_dst_sse2+0x7d>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 117,8 // jne 1f468 <_sk_load_f32_dst_sse2+0x7d>
.byte 15,87,255 // xorps %xmm7,%xmm7
.byte 15,87,228 // xorps %xmm4,%xmm4
- .byte 235,190 // jmp 1f4d0 <_sk_load_f32_dst_sse2+0x3b>
- .byte 65,15,16,100,129,16 // movups 0x10(%r9,%rax,4),%xmm4
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,8 // jb 1f526 <_sk_load_f32_dst_sse2+0x91>
- .byte 65,15,16,124,129,32 // movups 0x20(%r9,%rax,4),%xmm7
- .byte 235,170 // jmp 1f4d0 <_sk_load_f32_dst_sse2+0x3b>
+ .byte 235,190 // jmp 1f426 <_sk_load_f32_dst_sse2+0x3b>
+ .byte 65,15,16,100,128,16 // movups 0x10(%r8,%rax,4),%xmm4
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,8 // jb 1f47c <_sk_load_f32_dst_sse2+0x91>
+ .byte 65,15,16,124,128,32 // movups 0x20(%r8,%rax,4),%xmm7
+ .byte 235,170 // jmp 1f426 <_sk_load_f32_dst_sse2+0x3b>
.byte 15,87,255 // xorps %xmm7,%xmm7
- .byte 235,165 // jmp 1f4d0 <_sk_load_f32_dst_sse2+0x3b>
+ .byte 235,165 // jmp 1f426 <_sk_load_f32_dst_sse2+0x3b>
HIDDEN _sk_store_f32_sse2
.globl _sk_store_f32_sse2
FUNCTION(_sk_store_f32_sse2)
_sk_store_f32_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,141,20,149,0,0,0,0 // lea 0x0(,%rdx,4),%r10d
- .byte 76,99,88,8 // movslq 0x8(%rax),%r11
- .byte 76,99,201 // movslq %ecx,%r9
- .byte 77,15,175,203 // imul %r11,%r9
- .byte 73,193,225,2 // shl $0x2,%r9
- .byte 76,3,8 // add (%rax),%r9
- .byte 73,99,194 // movslq %r10d,%rax
+ .byte 68,141,12,149,0,0,0,0 // lea 0x0(,%rdx,4),%r9d
+ .byte 76,99,80,8 // movslq 0x8(%rax),%r10
+ .byte 76,99,193 // movslq %ecx,%r8
+ .byte 77,15,175,194 // imul %r10,%r8
+ .byte 73,193,224,2 // shl $0x2,%r8
+ .byte 76,3,0 // add (%rax),%r8
+ .byte 73,99,193 // movslq %r9d,%rax
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 68,15,20,201 // unpcklps %xmm1,%xmm9
.byte 68,15,40,194 // movaps %xmm2,%xmm8
@@ -40344,22 +40265,22 @@ _sk_store_f32_sse2:
.byte 69,15,18,193 // movhlps %xmm9,%xmm8
.byte 69,15,40,202 // movaps %xmm10,%xmm9
.byte 102,69,15,20,203 // unpcklpd %xmm11,%xmm9
- .byte 102,69,15,17,36,129 // movupd %xmm12,(%r9,%rax,4)
- .byte 77,133,192 // test %r8,%r8
- .byte 117,29 // jne 1f5a8 <_sk_store_f32_sse2+0x7d>
+ .byte 102,69,15,17,36,128 // movupd %xmm12,(%r8,%rax,4)
+ .byte 72,133,255 // test %rdi,%rdi
+ .byte 117,29 // jne 1f4fe <_sk_store_f32_sse2+0x7d>
.byte 102,69,15,21,211 // unpckhpd %xmm11,%xmm10
- .byte 69,15,17,68,129,16 // movups %xmm8,0x10(%r9,%rax,4)
- .byte 102,69,15,17,76,129,32 // movupd %xmm9,0x20(%r9,%rax,4)
- .byte 102,69,15,17,84,129,48 // movupd %xmm10,0x30(%r9,%rax,4)
+ .byte 69,15,17,68,128,16 // movups %xmm8,0x10(%r8,%rax,4)
+ .byte 102,69,15,17,76,128,32 // movupd %xmm9,0x20(%r8,%rax,4)
+ .byte 102,69,15,17,84,128,48 // movupd %xmm10,0x30(%r8,%rax,4)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
- .byte 73,131,248,1 // cmp $0x1,%r8
- .byte 116,246 // je 1f5a4 <_sk_store_f32_sse2+0x79>
- .byte 69,15,17,68,129,16 // movups %xmm8,0x10(%r9,%rax,4)
- .byte 73,131,248,3 // cmp $0x3,%r8
- .byte 114,234 // jb 1f5a4 <_sk_store_f32_sse2+0x79>
- .byte 102,69,15,17,76,129,32 // movupd %xmm9,0x20(%r9,%rax,4)
- .byte 235,225 // jmp 1f5a4 <_sk_store_f32_sse2+0x79>
+ .byte 72,131,255,1 // cmp $0x1,%rdi
+ .byte 116,246 // je 1f4fa <_sk_store_f32_sse2+0x79>
+ .byte 69,15,17,68,128,16 // movups %xmm8,0x10(%r8,%rax,4)
+ .byte 72,131,255,3 // cmp $0x3,%rdi
+ .byte 114,234 // jb 1f4fa <_sk_store_f32_sse2+0x79>
+ .byte 102,69,15,17,76,128,32 // movupd %xmm9,0x20(%r8,%rax,4)
+ .byte 235,225 // jmp 1f4fa <_sk_store_f32_sse2+0x79>
HIDDEN _sk_clamp_x_sse2
.globl _sk_clamp_x_sse2
@@ -40405,7 +40326,7 @@ _sk_repeat_x_sse2:
.byte 243,69,15,91,194 // cvttps2dq %xmm10,%xmm8
.byte 69,15,91,216 // cvtdq2ps %xmm8,%xmm11
.byte 69,15,194,211,1 // cmpltps %xmm11,%xmm10
- .byte 68,15,84,21,207,204,0,0 // andps 0xcccf(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,84,21,169,205,0,0 // andps 0xcda9(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,87,192 // xorps %xmm8,%xmm8
.byte 69,15,92,218 // subps %xmm10,%xmm11
.byte 69,15,198,201,0 // shufps $0x0,%xmm9,%xmm9
@@ -40431,7 +40352,7 @@ _sk_repeat_y_sse2:
.byte 243,69,15,91,194 // cvttps2dq %xmm10,%xmm8
.byte 69,15,91,216 // cvtdq2ps %xmm8,%xmm11
.byte 69,15,194,211,1 // cmpltps %xmm11,%xmm10
- .byte 68,15,84,21,117,204,0,0 // andps 0xcc75(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,84,21,79,205,0,0 // andps 0xcd4f(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,87,192 // xorps %xmm8,%xmm8
.byte 69,15,92,218 // subps %xmm10,%xmm11
.byte 69,15,198,201,0 // shufps $0x0,%xmm9,%xmm9
@@ -40457,13 +40378,13 @@ _sk_mirror_x_sse2:
.byte 65,15,92,193 // subps %xmm9,%xmm0
.byte 243,69,15,88,210 // addss %xmm10,%xmm10
.byte 69,15,198,210,0 // shufps $0x0,%xmm10,%xmm10
- .byte 243,68,15,89,29,46,194,0,0 // mulss 0xc22e(%rip),%xmm11 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 243,68,15,89,29,144,194,0,0 // mulss 0xc290(%rip),%xmm11 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 68,15,89,216 // mulps %xmm0,%xmm11
.byte 243,69,15,91,195 // cvttps2dq %xmm11,%xmm8
.byte 69,15,91,224 // cvtdq2ps %xmm8,%xmm12
.byte 69,15,194,220,1 // cmpltps %xmm12,%xmm11
- .byte 68,15,84,29,251,203,0,0 // andps 0xcbfb(%rip),%xmm11 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,84,29,213,204,0,0 // andps 0xccd5(%rip),%xmm11 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,87,192 // xorps %xmm8,%xmm8
.byte 69,15,92,227 // subps %xmm11,%xmm12
.byte 69,15,89,226 // mulps %xmm10,%xmm12
@@ -40492,13 +40413,13 @@ _sk_mirror_y_sse2:
.byte 65,15,92,201 // subps %xmm9,%xmm1
.byte 243,69,15,88,210 // addss %xmm10,%xmm10
.byte 69,15,198,210,0 // shufps $0x0,%xmm10,%xmm10
- .byte 243,68,15,89,29,169,193,0,0 // mulss 0xc1a9(%rip),%xmm11 # 2b924 <_sk_overlay_sse2_8bit+0x43f>
+ .byte 243,68,15,89,29,11,194,0,0 // mulss 0xc20b(%rip),%xmm11 # 2b8dc <_sk_overlay_sse2_8bit+0x43f>
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 68,15,89,217 // mulps %xmm1,%xmm11
.byte 243,69,15,91,195 // cvttps2dq %xmm11,%xmm8
.byte 69,15,91,224 // cvtdq2ps %xmm8,%xmm12
.byte 69,15,194,220,1 // cmpltps %xmm12,%xmm11
- .byte 68,15,84,29,118,203,0,0 // andps 0xcb76(%rip),%xmm11 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,84,29,80,204,0,0 // andps 0xcc50(%rip),%xmm11 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,87,192 // xorps %xmm8,%xmm8
.byte 69,15,92,227 // subps %xmm11,%xmm12
.byte 69,15,89,226 // mulps %xmm10,%xmm12
@@ -40521,7 +40442,7 @@ FUNCTION(_sk_clamp_x_1_sse2)
_sk_clamp_x_1_sse2:
.byte 69,15,87,192 // xorps %xmm8,%xmm8
.byte 68,15,95,192 // maxps %xmm0,%xmm8
- .byte 68,15,93,5,45,203,0,0 // minps 0xcb2d(%rip),%xmm8 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,93,5,7,204,0,0 // minps 0xcc07(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 255,224 // jmpq *%rax
@@ -40534,7 +40455,7 @@ _sk_repeat_x_1_sse2:
.byte 69,15,91,192 // cvtdq2ps %xmm8,%xmm8
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,194,200,1 // cmpltps %xmm8,%xmm9
- .byte 68,15,84,13,11,203,0,0 // andps 0xcb0b(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,84,13,229,203,0,0 // andps 0xcbe5(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,193 // subps %xmm9,%xmm8
.byte 65,15,92,192 // subps %xmm8,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -40544,14 +40465,14 @@ HIDDEN _sk_mirror_x_1_sse2
.globl _sk_mirror_x_1_sse2
FUNCTION(_sk_mirror_x_1_sse2)
_sk_mirror_x_1_sse2:
- .byte 68,15,40,5,87,203,0,0 // movaps 0xcb57(%rip),%xmm8 # 2c370 <_sk_overlay_sse2_8bit+0xe8b>
+ .byte 68,15,40,5,49,204,0,0 // movaps 0xcc31(%rip),%xmm8 # 2c3a0 <_sk_overlay_sse2_8bit+0xf03>
.byte 65,15,88,192 // addps %xmm8,%xmm0
- .byte 68,15,40,13,219,202,0,0 // movaps 0xcadb(%rip),%xmm9 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,13,165,203,0,0 // movaps 0xcba5(%rip),%xmm9 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 68,15,89,200 // mulps %xmm0,%xmm9
.byte 243,69,15,91,209 // cvttps2dq %xmm9,%xmm10
.byte 69,15,91,210 // cvtdq2ps %xmm10,%xmm10
.byte 69,15,194,202,1 // cmpltps %xmm10,%xmm9
- .byte 68,15,84,13,209,202,0,0 // andps 0xcad1(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,84,13,171,203,0,0 // andps 0xcbab(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,87,219 // xorps %xmm11,%xmm11
.byte 69,15,92,209 // subps %xmm9,%xmm10
.byte 69,15,88,210 // addps %xmm10,%xmm10
@@ -40567,10 +40488,10 @@ HIDDEN _sk_luminance_to_alpha_sse2
FUNCTION(_sk_luminance_to_alpha_sse2)
_sk_luminance_to_alpha_sse2:
.byte 15,40,218 // movaps %xmm2,%xmm3
- .byte 15,89,5,231,207,0,0 // mulps 0xcfe7(%rip),%xmm0 # 2c850 <_sk_overlay_sse2_8bit+0x136b>
- .byte 15,89,13,240,207,0,0 // mulps 0xcff0(%rip),%xmm1 # 2c860 <_sk_overlay_sse2_8bit+0x137b>
+ .byte 15,89,5,193,208,0,0 // mulps 0xd0c1(%rip),%xmm0 # 2c880 <_sk_overlay_sse2_8bit+0x13e3>
+ .byte 15,89,13,202,208,0,0 // mulps 0xd0ca(%rip),%xmm1 # 2c890 <_sk_overlay_sse2_8bit+0x13f3>
.byte 15,88,200 // addps %xmm0,%xmm1
- .byte 15,89,29,246,207,0,0 // mulps 0xcff6(%rip),%xmm3 # 2c870 <_sk_overlay_sse2_8bit+0x138b>
+ .byte 15,89,29,208,208,0,0 // mulps 0xd0d0(%rip),%xmm3 # 2c8a0 <_sk_overlay_sse2_8bit+0x1403>
.byte 15,88,217 // addps %xmm1,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,87,192 // xorps %xmm0,%xmm0
@@ -40882,86 +40803,86 @@ _sk_evenly_spaced_gradient_sse2:
.byte 72,139,24 // mov (%rax),%rbx
.byte 76,139,112,8 // mov 0x8(%rax),%r14
.byte 72,255,203 // dec %rbx
- .byte 120,7 // js 1fd1a <_sk_evenly_spaced_gradient_sse2+0x18>
+ .byte 120,7 // js 1fc70 <_sk_evenly_spaced_gradient_sse2+0x18>
.byte 243,72,15,42,203 // cvtsi2ss %rbx,%xmm1
- .byte 235,21 // jmp 1fd2f <_sk_evenly_spaced_gradient_sse2+0x2d>
- .byte 73,137,217 // mov %rbx,%r9
- .byte 73,209,233 // shr %r9
+ .byte 235,21 // jmp 1fc85 <_sk_evenly_spaced_gradient_sse2+0x2d>
+ .byte 73,137,216 // mov %rbx,%r8
+ .byte 73,209,232 // shr %r8
.byte 131,227,1 // and $0x1,%ebx
- .byte 76,9,203 // or %r9,%rbx
+ .byte 76,9,195 // or %r8,%rbx
.byte 243,72,15,42,203 // cvtsi2ss %rbx,%xmm1
.byte 243,15,88,201 // addss %xmm1,%xmm1
.byte 15,198,201,0 // shufps $0x0,%xmm1,%xmm1
.byte 15,89,200 // mulps %xmm0,%xmm1
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
.byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
- .byte 102,73,15,126,211 // movq %xmm2,%r11
+ .byte 102,73,15,126,210 // movq %xmm2,%r10
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,73,15,126,203 // movq %xmm1,%r11
.byte 69,137,217 // mov %r11d,%r9d
.byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,72,15,126,203 // movq %xmm1,%rbx
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 72,193,235,32 // shr $0x20,%rbx
- .byte 243,65,15,16,12,158 // movss (%r14,%rbx,4),%xmm1
- .byte 243,67,15,16,20,158 // movss (%r14,%r11,4),%xmm2
+ .byte 243,67,15,16,12,158 // movss (%r14,%r11,4),%xmm1
+ .byte 243,67,15,16,20,150 // movss (%r14,%r10,4),%xmm2
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 243,71,15,16,4,150 // movss (%r14,%r10,4),%xmm8
- .byte 243,67,15,16,20,142 // movss (%r14,%r9,4),%xmm2
+ .byte 243,71,15,16,4,142 // movss (%r14,%r9,4),%xmm8
+ .byte 243,67,15,16,20,134 // movss (%r14,%r8,4),%xmm2
.byte 68,15,20,194 // unpcklps %xmm2,%xmm8
.byte 68,15,20,193 // unpcklps %xmm1,%xmm8
- .byte 76,139,112,40 // mov 0x28(%rax),%r14
- .byte 243,65,15,16,12,158 // movss (%r14,%rbx,4),%xmm1
- .byte 243,67,15,16,20,158 // movss (%r14,%r11,4),%xmm2
+ .byte 72,139,88,40 // mov 0x28(%rax),%rbx
+ .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 243,71,15,16,12,150 // movss (%r14,%r10,4),%xmm9
- .byte 243,67,15,16,20,142 // movss (%r14,%r9,4),%xmm2
+ .byte 243,70,15,16,12,139 // movss (%rbx,%r9,4),%xmm9
+ .byte 243,66,15,16,20,131 // movss (%rbx,%r8,4),%xmm2
.byte 68,15,20,202 // unpcklps %xmm2,%xmm9
.byte 68,15,20,201 // unpcklps %xmm1,%xmm9
- .byte 76,139,112,16 // mov 0x10(%rax),%r14
- .byte 243,65,15,16,20,158 // movss (%r14,%rbx,4),%xmm2
- .byte 243,67,15,16,12,158 // movss (%r14,%r11,4),%xmm1
+ .byte 72,139,88,16 // mov 0x10(%rax),%rbx
+ .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,66,15,16,12,147 // movss (%rbx,%r10,4),%xmm1
.byte 15,20,209 // unpcklps %xmm1,%xmm2
- .byte 243,67,15,16,12,150 // movss (%r14,%r10,4),%xmm1
- .byte 243,67,15,16,28,142 // movss (%r14,%r9,4),%xmm3
+ .byte 243,66,15,16,12,139 // movss (%rbx,%r9,4),%xmm1
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 15,20,203 // unpcklps %xmm3,%xmm1
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 76,139,112,48 // mov 0x30(%rax),%r14
- .byte 243,65,15,16,20,158 // movss (%r14,%rbx,4),%xmm2
- .byte 243,67,15,16,28,158 // movss (%r14,%r11,4),%xmm3
+ .byte 72,139,88,48 // mov 0x30(%rax),%rbx
+ .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
.byte 15,20,211 // unpcklps %xmm3,%xmm2
- .byte 243,71,15,16,20,150 // movss (%r14,%r10,4),%xmm10
- .byte 243,67,15,16,28,142 // movss (%r14,%r9,4),%xmm3
+ .byte 243,70,15,16,20,139 // movss (%rbx,%r9,4),%xmm10
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 68,15,20,211 // unpcklps %xmm3,%xmm10
.byte 68,15,20,210 // unpcklps %xmm2,%xmm10
- .byte 76,139,112,24 // mov 0x18(%rax),%r14
- .byte 243,69,15,16,28,158 // movss (%r14,%rbx,4),%xmm11
- .byte 243,67,15,16,20,158 // movss (%r14,%r11,4),%xmm2
+ .byte 72,139,88,24 // mov 0x18(%rax),%rbx
+ .byte 243,70,15,16,28,155 // movss (%rbx,%r11,4),%xmm11
+ .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
.byte 68,15,20,218 // unpcklps %xmm2,%xmm11
- .byte 243,67,15,16,20,150 // movss (%r14,%r10,4),%xmm2
- .byte 243,67,15,16,28,142 // movss (%r14,%r9,4),%xmm3
+ .byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 15,20,211 // unpcklps %xmm3,%xmm2
.byte 65,15,20,211 // unpcklps %xmm11,%xmm2
- .byte 76,139,112,56 // mov 0x38(%rax),%r14
- .byte 243,69,15,16,36,158 // movss (%r14,%rbx,4),%xmm12
- .byte 243,67,15,16,28,158 // movss (%r14,%r11,4),%xmm3
+ .byte 72,139,88,56 // mov 0x38(%rax),%rbx
+ .byte 243,70,15,16,36,155 // movss (%rbx,%r11,4),%xmm12
+ .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
.byte 68,15,20,227 // unpcklps %xmm3,%xmm12
- .byte 243,71,15,16,28,150 // movss (%r14,%r10,4),%xmm11
- .byte 243,67,15,16,28,142 // movss (%r14,%r9,4),%xmm3
+ .byte 243,70,15,16,28,139 // movss (%rbx,%r9,4),%xmm11
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 68,15,20,219 // unpcklps %xmm3,%xmm11
.byte 69,15,20,220 // unpcklps %xmm12,%xmm11
- .byte 76,139,112,32 // mov 0x20(%rax),%r14
- .byte 243,69,15,16,36,158 // movss (%r14,%rbx,4),%xmm12
- .byte 243,67,15,16,28,158 // movss (%r14,%r11,4),%xmm3
+ .byte 72,139,88,32 // mov 0x20(%rax),%rbx
+ .byte 243,70,15,16,36,155 // movss (%rbx,%r11,4),%xmm12
+ .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
.byte 68,15,20,227 // unpcklps %xmm3,%xmm12
- .byte 243,67,15,16,28,150 // movss (%r14,%r10,4),%xmm3
- .byte 243,71,15,16,44,142 // movss (%r14,%r9,4),%xmm13
+ .byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 243,70,15,16,44,131 // movss (%rbx,%r8,4),%xmm13
.byte 65,15,20,221 // unpcklps %xmm13,%xmm3
.byte 65,15,20,220 // unpcklps %xmm12,%xmm3
.byte 72,139,64,64 // mov 0x40(%rax),%rax
- .byte 243,68,15,16,36,152 // movss (%rax,%rbx,4),%xmm12
- .byte 243,70,15,16,44,152 // movss (%rax,%r11,4),%xmm13
- .byte 69,15,20,229 // unpcklps %xmm13,%xmm12
+ .byte 243,70,15,16,36,152 // movss (%rax,%r11,4),%xmm12
.byte 243,70,15,16,44,144 // movss (%rax,%r10,4),%xmm13
- .byte 243,70,15,16,52,136 // movss (%rax,%r9,4),%xmm14
+ .byte 69,15,20,229 // unpcklps %xmm13,%xmm12
+ .byte 243,70,15,16,44,136 // movss (%rax,%r9,4),%xmm13
+ .byte 243,70,15,16,52,128 // movss (%rax,%r8,4),%xmm14
.byte 69,15,20,238 // unpcklps %xmm14,%xmm13
.byte 69,15,20,236 // unpcklps %xmm12,%xmm13
.byte 68,15,89,192 // mulps %xmm0,%xmm8
@@ -40982,15 +40903,15 @@ HIDDEN _sk_gauss_a_to_rgba_sse2
.globl _sk_gauss_a_to_rgba_sse2
FUNCTION(_sk_gauss_a_to_rgba_sse2)
_sk_gauss_a_to_rgba_sse2:
- .byte 15,40,5,197,201,0,0 // movaps 0xc9c5(%rip),%xmm0 # 2c880 <_sk_overlay_sse2_8bit+0x139b>
+ .byte 15,40,5,159,202,0,0 // movaps 0xca9f(%rip),%xmm0 # 2c8b0 <_sk_overlay_sse2_8bit+0x1413>
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,5,203,201,0,0 // addps 0xc9cb(%rip),%xmm0 # 2c890 <_sk_overlay_sse2_8bit+0x13ab>
+ .byte 15,88,5,165,202,0,0 // addps 0xcaa5(%rip),%xmm0 # 2c8c0 <_sk_overlay_sse2_8bit+0x1423>
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,5,209,201,0,0 // addps 0xc9d1(%rip),%xmm0 # 2c8a0 <_sk_overlay_sse2_8bit+0x13bb>
+ .byte 15,88,5,171,202,0,0 // addps 0xcaab(%rip),%xmm0 # 2c8d0 <_sk_overlay_sse2_8bit+0x1433>
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,5,215,201,0,0 // addps 0xc9d7(%rip),%xmm0 # 2c8b0 <_sk_overlay_sse2_8bit+0x13cb>
+ .byte 15,88,5,177,202,0,0 // addps 0xcab1(%rip),%xmm0 # 2c8e0 <_sk_overlay_sse2_8bit+0x1443>
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,5,221,201,0,0 // addps 0xc9dd(%rip),%xmm0 # 2c8c0 <_sk_overlay_sse2_8bit+0x13db>
+ .byte 15,88,5,183,202,0,0 // addps 0xcab7(%rip),%xmm0 # 2c8f0 <_sk_overlay_sse2_8bit+0x1453>
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
@@ -41001,96 +40922,95 @@ HIDDEN _sk_gradient_sse2
.globl _sk_gradient_sse2
FUNCTION(_sk_gradient_sse2)
_sk_gradient_sse2:
- .byte 65,87 // push %r15
- .byte 65,86 // push %r14
- .byte 83 // push %rbx
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,139,8 // mov (%rax),%r9
+ .byte 76,139,0 // mov (%rax),%r8
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 73,131,249,2 // cmp $0x2,%r9
- .byte 114,50 // jb 1ff36 <_sk_gradient_sse2+0x46>
- .byte 72,139,88,72 // mov 0x48(%rax),%rbx
- .byte 73,255,201 // dec %r9
- .byte 72,131,195,4 // add $0x4,%rbx
+ .byte 73,131,248,2 // cmp $0x2,%r8
+ .byte 114,51 // jb 1fe88 <_sk_gradient_sse2+0x42>
+ .byte 76,139,72,72 // mov 0x48(%rax),%r9
+ .byte 73,255,200 // dec %r8
+ .byte 73,131,193,4 // add $0x4,%r9
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 15,40,21,6,196,0,0 // movaps 0xc406(%rip),%xmm2 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
- .byte 243,15,16,27 // movss (%rbx),%xmm3
+ .byte 15,40,21,229,196,0,0 // movaps 0xc4e5(%rip),%xmm2 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
+ .byte 243,65,15,16,25 // movss (%r9),%xmm3
.byte 15,198,219,0 // shufps $0x0,%xmm3,%xmm3
.byte 15,194,216,2 // cmpleps %xmm0,%xmm3
.byte 15,84,218 // andps %xmm2,%xmm3
.byte 102,15,254,203 // paddd %xmm3,%xmm1
- .byte 72,131,195,4 // add $0x4,%rbx
- .byte 73,255,201 // dec %r9
- .byte 117,228 // jne 1ff1a <_sk_gradient_sse2+0x2a>
+ .byte 73,131,193,4 // add $0x4,%r9
+ .byte 73,255,200 // dec %r8
+ .byte 117,227 // jne 1fe6b <_sk_gradient_sse2+0x25>
+ .byte 65,86 // push %r14
+ .byte 83 // push %rbx
.byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
- .byte 102,73,15,126,211 // movq %xmm2,%r11
+ .byte 102,73,15,126,210 // movq %xmm2,%r10
+ .byte 69,137,208 // mov %r10d,%r8d
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 102,73,15,126,203 // movq %xmm1,%r11
.byte 69,137,217 // mov %r11d,%r9d
.byte 73,193,235,32 // shr $0x20,%r11
- .byte 102,72,15,126,203 // movq %xmm1,%rbx
- .byte 65,137,218 // mov %ebx,%r10d
- .byte 72,193,235,32 // shr $0x20,%rbx
- .byte 76,139,112,8 // mov 0x8(%rax),%r14
- .byte 76,139,120,16 // mov 0x10(%rax),%r15
- .byte 243,65,15,16,12,158 // movss (%r14,%rbx,4),%xmm1
- .byte 243,67,15,16,20,158 // movss (%r14,%r11,4),%xmm2
+ .byte 72,139,88,8 // mov 0x8(%rax),%rbx
+ .byte 76,139,112,16 // mov 0x10(%rax),%r14
+ .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 243,71,15,16,4,150 // movss (%r14,%r10,4),%xmm8
- .byte 243,67,15,16,20,142 // movss (%r14,%r9,4),%xmm2
+ .byte 243,70,15,16,4,139 // movss (%rbx,%r9,4),%xmm8
+ .byte 243,66,15,16,20,131 // movss (%rbx,%r8,4),%xmm2
.byte 68,15,20,194 // unpcklps %xmm2,%xmm8
.byte 68,15,20,193 // unpcklps %xmm1,%xmm8
- .byte 76,139,112,40 // mov 0x28(%rax),%r14
- .byte 243,65,15,16,12,158 // movss (%r14,%rbx,4),%xmm1
- .byte 243,67,15,16,20,158 // movss (%r14,%r11,4),%xmm2
+ .byte 72,139,88,40 // mov 0x28(%rax),%rbx
+ .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 243,71,15,16,12,150 // movss (%r14,%r10,4),%xmm9
- .byte 243,67,15,16,20,142 // movss (%r14,%r9,4),%xmm2
+ .byte 243,70,15,16,12,139 // movss (%rbx,%r9,4),%xmm9
+ .byte 243,66,15,16,20,131 // movss (%rbx,%r8,4),%xmm2
.byte 68,15,20,202 // unpcklps %xmm2,%xmm9
.byte 68,15,20,201 // unpcklps %xmm1,%xmm9
- .byte 243,65,15,16,20,159 // movss (%r15,%rbx,4),%xmm2
- .byte 243,67,15,16,12,159 // movss (%r15,%r11,4),%xmm1
+ .byte 243,67,15,16,20,158 // movss (%r14,%r11,4),%xmm2
+ .byte 243,67,15,16,12,150 // movss (%r14,%r10,4),%xmm1
.byte 15,20,209 // unpcklps %xmm1,%xmm2
- .byte 243,67,15,16,12,151 // movss (%r15,%r10,4),%xmm1
- .byte 243,67,15,16,28,143 // movss (%r15,%r9,4),%xmm3
+ .byte 243,67,15,16,12,142 // movss (%r14,%r9,4),%xmm1
+ .byte 243,67,15,16,28,134 // movss (%r14,%r8,4),%xmm3
.byte 15,20,203 // unpcklps %xmm3,%xmm1
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 76,139,112,48 // mov 0x30(%rax),%r14
- .byte 243,65,15,16,20,158 // movss (%r14,%rbx,4),%xmm2
- .byte 243,67,15,16,28,158 // movss (%r14,%r11,4),%xmm3
+ .byte 72,139,88,48 // mov 0x30(%rax),%rbx
+ .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
.byte 15,20,211 // unpcklps %xmm3,%xmm2
- .byte 243,71,15,16,20,150 // movss (%r14,%r10,4),%xmm10
- .byte 243,67,15,16,28,142 // movss (%r14,%r9,4),%xmm3
+ .byte 243,70,15,16,20,139 // movss (%rbx,%r9,4),%xmm10
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 68,15,20,211 // unpcklps %xmm3,%xmm10
.byte 68,15,20,210 // unpcklps %xmm2,%xmm10
- .byte 76,139,112,24 // mov 0x18(%rax),%r14
- .byte 243,69,15,16,28,158 // movss (%r14,%rbx,4),%xmm11
- .byte 243,67,15,16,20,158 // movss (%r14,%r11,4),%xmm2
+ .byte 72,139,88,24 // mov 0x18(%rax),%rbx
+ .byte 243,70,15,16,28,155 // movss (%rbx,%r11,4),%xmm11
+ .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
.byte 68,15,20,218 // unpcklps %xmm2,%xmm11
- .byte 243,67,15,16,20,150 // movss (%r14,%r10,4),%xmm2
- .byte 243,67,15,16,28,142 // movss (%r14,%r9,4),%xmm3
+ .byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 15,20,211 // unpcklps %xmm3,%xmm2
.byte 65,15,20,211 // unpcklps %xmm11,%xmm2
- .byte 76,139,112,56 // mov 0x38(%rax),%r14
- .byte 243,69,15,16,36,158 // movss (%r14,%rbx,4),%xmm12
- .byte 243,67,15,16,28,158 // movss (%r14,%r11,4),%xmm3
+ .byte 72,139,88,56 // mov 0x38(%rax),%rbx
+ .byte 243,70,15,16,36,155 // movss (%rbx,%r11,4),%xmm12
+ .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
.byte 68,15,20,227 // unpcklps %xmm3,%xmm12
- .byte 243,71,15,16,28,150 // movss (%r14,%r10,4),%xmm11
- .byte 243,67,15,16,28,142 // movss (%r14,%r9,4),%xmm3
+ .byte 243,70,15,16,28,139 // movss (%rbx,%r9,4),%xmm11
+ .byte 243,66,15,16,28,131 // movss (%rbx,%r8,4),%xmm3
.byte 68,15,20,219 // unpcklps %xmm3,%xmm11
.byte 69,15,20,220 // unpcklps %xmm12,%xmm11
- .byte 76,139,112,32 // mov 0x20(%rax),%r14
- .byte 243,69,15,16,36,158 // movss (%r14,%rbx,4),%xmm12
- .byte 243,67,15,16,28,158 // movss (%r14,%r11,4),%xmm3
+ .byte 72,139,88,32 // mov 0x20(%rax),%rbx
+ .byte 243,70,15,16,36,155 // movss (%rbx,%r11,4),%xmm12
+ .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
.byte 68,15,20,227 // unpcklps %xmm3,%xmm12
- .byte 243,67,15,16,28,150 // movss (%r14,%r10,4),%xmm3
- .byte 243,71,15,16,44,142 // movss (%r14,%r9,4),%xmm13
+ .byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 243,70,15,16,44,131 // movss (%rbx,%r8,4),%xmm13
.byte 65,15,20,221 // unpcklps %xmm13,%xmm3
.byte 65,15,20,220 // unpcklps %xmm12,%xmm3
.byte 72,139,64,64 // mov 0x40(%rax),%rax
- .byte 243,68,15,16,36,152 // movss (%rax,%rbx,4),%xmm12
- .byte 243,70,15,16,44,152 // movss (%rax,%r11,4),%xmm13
- .byte 69,15,20,229 // unpcklps %xmm13,%xmm12
+ .byte 243,70,15,16,36,152 // movss (%rax,%r11,4),%xmm12
.byte 243,70,15,16,44,144 // movss (%rax,%r10,4),%xmm13
- .byte 243,70,15,16,52,136 // movss (%rax,%r9,4),%xmm14
+ .byte 69,15,20,229 // unpcklps %xmm13,%xmm12
+ .byte 243,70,15,16,44,136 // movss (%rax,%r9,4),%xmm13
+ .byte 243,70,15,16,52,128 // movss (%rax,%r8,4),%xmm14
.byte 69,15,20,238 // unpcklps %xmm14,%xmm13
.byte 69,15,20,236 // unpcklps %xmm12,%xmm13
.byte 68,15,89,192 // mulps %xmm0,%xmm8
@@ -41105,7 +41025,6 @@ _sk_gradient_sse2:
.byte 65,15,40,192 // movaps %xmm8,%xmm0
.byte 91 // pop %rbx
.byte 65,94 // pop %r14
- .byte 65,95 // pop %r15
.byte 255,224 // jmpq *%rax
HIDDEN _sk_evenly_spaced_2_stop_gradient_sse2
@@ -41160,29 +41079,29 @@ _sk_xy_to_unit_angle_sse2:
.byte 69,15,94,220 // divps %xmm12,%xmm11
.byte 69,15,40,227 // movaps %xmm11,%xmm12
.byte 69,15,89,228 // mulps %xmm12,%xmm12
- .byte 68,15,40,45,103,199,0,0 // movaps 0xc767(%rip),%xmm13 # 2c8d0 <_sk_overlay_sse2_8bit+0x13eb>
+ .byte 68,15,40,45,68,200,0,0 // movaps 0xc844(%rip),%xmm13 # 2c900 <_sk_overlay_sse2_8bit+0x1463>
.byte 69,15,89,236 // mulps %xmm12,%xmm13
- .byte 68,15,88,45,107,199,0,0 // addps 0xc76b(%rip),%xmm13 # 2c8e0 <_sk_overlay_sse2_8bit+0x13fb>
+ .byte 68,15,88,45,72,200,0,0 // addps 0xc848(%rip),%xmm13 # 2c910 <_sk_overlay_sse2_8bit+0x1473>
.byte 69,15,89,236 // mulps %xmm12,%xmm13
- .byte 68,15,88,45,111,199,0,0 // addps 0xc76f(%rip),%xmm13 # 2c8f0 <_sk_overlay_sse2_8bit+0x140b>
+ .byte 68,15,88,45,76,200,0,0 // addps 0xc84c(%rip),%xmm13 # 2c920 <_sk_overlay_sse2_8bit+0x1483>
.byte 69,15,89,236 // mulps %xmm12,%xmm13
- .byte 68,15,88,45,115,199,0,0 // addps 0xc773(%rip),%xmm13 # 2c900 <_sk_overlay_sse2_8bit+0x141b>
+ .byte 68,15,88,45,80,200,0,0 // addps 0xc850(%rip),%xmm13 # 2c930 <_sk_overlay_sse2_8bit+0x1493>
.byte 69,15,89,235 // mulps %xmm11,%xmm13
.byte 69,15,194,202,1 // cmpltps %xmm10,%xmm9
- .byte 68,15,40,21,114,199,0,0 // movaps 0xc772(%rip),%xmm10 # 2c910 <_sk_overlay_sse2_8bit+0x142b>
+ .byte 68,15,40,21,79,200,0,0 // movaps 0xc84f(%rip),%xmm10 # 2c940 <_sk_overlay_sse2_8bit+0x14a3>
.byte 69,15,92,213 // subps %xmm13,%xmm10
.byte 69,15,84,209 // andps %xmm9,%xmm10
.byte 69,15,85,205 // andnps %xmm13,%xmm9
.byte 69,15,86,202 // orps %xmm10,%xmm9
.byte 68,15,194,192,1 // cmpltps %xmm0,%xmm8
- .byte 68,15,40,21,69,193,0,0 // movaps 0xc145(%rip),%xmm10 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,21,18,194,0,0 // movaps 0xc212(%rip),%xmm10 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 69,15,92,209 // subps %xmm9,%xmm10
.byte 69,15,84,208 // andps %xmm8,%xmm10
.byte 69,15,85,193 // andnps %xmm9,%xmm8
.byte 69,15,86,194 // orps %xmm10,%xmm8
.byte 68,15,40,201 // movaps %xmm1,%xmm9
.byte 68,15,194,200,1 // cmpltps %xmm0,%xmm9
- .byte 68,15,40,21,52,193,0,0 // movaps 0xc134(%rip),%xmm10 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,21,17,194,0,0 // movaps 0xc211(%rip),%xmm10 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,208 // subps %xmm8,%xmm10
.byte 69,15,84,209 // andps %xmm9,%xmm10
.byte 69,15,85,200 // andnps %xmm8,%xmm9
@@ -41217,7 +41136,7 @@ _sk_xy_to_2pt_conical_quadratic_max_sse2:
.byte 243,69,15,89,203 // mulss %xmm11,%xmm9
.byte 69,15,198,201,0 // shufps $0x0,%xmm9,%xmm9
.byte 68,15,88,200 // addps %xmm0,%xmm9
- .byte 68,15,89,13,219,198,0,0 // mulps 0xc6db(%rip),%xmm9 # 2c920 <_sk_overlay_sse2_8bit+0x143b>
+ .byte 68,15,89,13,184,199,0,0 // mulps 0xc7b8(%rip),%xmm9 # 2c950 <_sk_overlay_sse2_8bit+0x14b3>
.byte 15,89,192 // mulps %xmm0,%xmm0
.byte 68,15,40,225 // movaps %xmm1,%xmm12
.byte 69,15,89,228 // mulps %xmm12,%xmm12
@@ -41225,7 +41144,7 @@ _sk_xy_to_2pt_conical_quadratic_max_sse2:
.byte 243,69,15,89,219 // mulss %xmm11,%xmm11
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 69,15,92,227 // subps %xmm11,%xmm12
- .byte 68,15,89,21,198,198,0,0 // mulps 0xc6c6(%rip),%xmm10 # 2c930 <_sk_overlay_sse2_8bit+0x144b>
+ .byte 68,15,89,21,163,199,0,0 // mulps 0xc7a3(%rip),%xmm10 # 2c960 <_sk_overlay_sse2_8bit+0x14c3>
.byte 69,15,89,212 // mulps %xmm12,%xmm10
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 15,89,192 // mulps %xmm0,%xmm0
@@ -41234,8 +41153,8 @@ _sk_xy_to_2pt_conical_quadratic_max_sse2:
.byte 69,15,198,192,0 // shufps $0x0,%xmm8,%xmm8
.byte 65,15,40,194 // movaps %xmm10,%xmm0
.byte 65,15,92,193 // subps %xmm9,%xmm0
- .byte 68,15,87,13,126,197,0,0 // xorps 0xc57e(%rip),%xmm9 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
- .byte 68,15,89,5,102,192,0,0 // mulps 0xc066(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,87,13,91,198,0,0 // xorps 0xc65b(%rip),%xmm9 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
+ .byte 68,15,89,5,51,193,0,0 // mulps 0xc133(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 69,15,92,202 // subps %xmm10,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
@@ -41256,7 +41175,7 @@ _sk_xy_to_2pt_conical_quadratic_min_sse2:
.byte 243,69,15,89,203 // mulss %xmm11,%xmm9
.byte 69,15,198,201,0 // shufps $0x0,%xmm9,%xmm9
.byte 68,15,88,200 // addps %xmm0,%xmm9
- .byte 68,15,89,13,61,198,0,0 // mulps 0xc63d(%rip),%xmm9 # 2c920 <_sk_overlay_sse2_8bit+0x143b>
+ .byte 68,15,89,13,26,199,0,0 // mulps 0xc71a(%rip),%xmm9 # 2c950 <_sk_overlay_sse2_8bit+0x14b3>
.byte 15,89,192 // mulps %xmm0,%xmm0
.byte 68,15,40,225 // movaps %xmm1,%xmm12
.byte 69,15,89,228 // mulps %xmm12,%xmm12
@@ -41264,7 +41183,7 @@ _sk_xy_to_2pt_conical_quadratic_min_sse2:
.byte 243,69,15,89,219 // mulss %xmm11,%xmm11
.byte 69,15,198,219,0 // shufps $0x0,%xmm11,%xmm11
.byte 69,15,92,227 // subps %xmm11,%xmm12
- .byte 68,15,89,21,40,198,0,0 // mulps 0xc628(%rip),%xmm10 # 2c930 <_sk_overlay_sse2_8bit+0x144b>
+ .byte 68,15,89,21,5,199,0,0 // mulps 0xc705(%rip),%xmm10 # 2c960 <_sk_overlay_sse2_8bit+0x14c3>
.byte 69,15,89,212 // mulps %xmm12,%xmm10
.byte 65,15,40,193 // movaps %xmm9,%xmm0
.byte 15,89,192 // mulps %xmm0,%xmm0
@@ -41273,8 +41192,8 @@ _sk_xy_to_2pt_conical_quadratic_min_sse2:
.byte 69,15,198,192,0 // shufps $0x0,%xmm8,%xmm8
.byte 65,15,40,194 // movaps %xmm10,%xmm0
.byte 65,15,92,193 // subps %xmm9,%xmm0
- .byte 68,15,87,13,224,196,0,0 // xorps 0xc4e0(%rip),%xmm9 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
- .byte 68,15,89,5,200,191,0,0 // mulps 0xbfc8(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,87,13,189,197,0,0 // xorps 0xc5bd(%rip),%xmm9 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
+ .byte 68,15,89,5,149,192,0,0 // mulps 0xc095(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 65,15,89,192 // mulps %xmm8,%xmm0
.byte 69,15,92,202 // subps %xmm10,%xmm9
.byte 69,15,89,200 // mulps %xmm8,%xmm9
@@ -41292,7 +41211,7 @@ _sk_xy_to_2pt_conical_linear_sse2:
.byte 243,69,15,89,200 // mulss %xmm8,%xmm9
.byte 69,15,198,201,0 // shufps $0x0,%xmm9,%xmm9
.byte 68,15,88,200 // addps %xmm0,%xmm9
- .byte 68,15,89,13,176,197,0,0 // mulps 0xc5b0(%rip),%xmm9 # 2c920 <_sk_overlay_sse2_8bit+0x143b>
+ .byte 68,15,89,13,141,198,0,0 // mulps 0xc68d(%rip),%xmm9 # 2c950 <_sk_overlay_sse2_8bit+0x14b3>
.byte 15,89,192 // mulps %xmm0,%xmm0
.byte 68,15,40,209 // movaps %xmm1,%xmm10
.byte 69,15,89,210 // mulps %xmm10,%xmm10
@@ -41300,7 +41219,7 @@ _sk_xy_to_2pt_conical_linear_sse2:
.byte 243,69,15,89,192 // mulss %xmm8,%xmm8
.byte 69,15,198,192,0 // shufps $0x0,%xmm8,%xmm8
.byte 65,15,92,192 // subps %xmm8,%xmm0
- .byte 15,87,5,124,196,0,0 // xorps 0xc47c(%rip),%xmm0 # 2c810 <_sk_overlay_sse2_8bit+0x132b>
+ .byte 15,87,5,89,197,0,0 // xorps 0xc559(%rip),%xmm0 # 2c840 <_sk_overlay_sse2_8bit+0x13a3>
.byte 65,15,94,193 // divps %xmm9,%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -41343,7 +41262,7 @@ HIDDEN _sk_save_xy_sse2
FUNCTION(_sk_save_xy_sse2)
_sk_save_xy_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,15,40,5,2,191,0,0 // movaps 0xbf02(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,5,207,191,0,0 // movaps 0xbfcf(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 15,17,0 // movups %xmm0,(%rax)
.byte 68,15,40,200 // movaps %xmm0,%xmm9
.byte 69,15,88,200 // addps %xmm8,%xmm9
@@ -41351,7 +41270,7 @@ _sk_save_xy_sse2:
.byte 69,15,91,210 // cvtdq2ps %xmm10,%xmm10
.byte 69,15,40,217 // movaps %xmm9,%xmm11
.byte 69,15,194,218,1 // cmpltps %xmm10,%xmm11
- .byte 68,15,40,37,237,190,0,0 // movaps 0xbeed(%rip),%xmm12 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 68,15,40,37,202,191,0,0 // movaps 0xbfca(%rip),%xmm12 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,84,220 // andps %xmm12,%xmm11
.byte 69,15,92,211 // subps %xmm11,%xmm10
.byte 69,15,92,202 // subps %xmm10,%xmm9
@@ -41398,8 +41317,8 @@ _sk_bilinear_nx_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,64,64 // movups 0x40(%rax),%xmm8
- .byte 15,88,5,134,196,0,0 // addps 0xc486(%rip),%xmm0 # 2c940 <_sk_overlay_sse2_8bit+0x145b>
- .byte 68,15,40,13,78,190,0,0 // movaps 0xbe4e(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,5,99,197,0,0 // addps 0xc563(%rip),%xmm0 # 2c970 <_sk_overlay_sse2_8bit+0x14d3>
+ .byte 68,15,40,13,43,191,0,0 // movaps 0xbf2b(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
.byte 68,15,17,136,128,0,0,0 // movups %xmm9,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -41412,7 +41331,7 @@ _sk_bilinear_px_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,64,64 // movups 0x40(%rax),%xmm8
- .byte 15,88,5,29,190,0,0 // addps 0xbe1d(%rip),%xmm0 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 15,88,5,234,190,0,0 // addps 0xbeea(%rip),%xmm0 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 68,15,17,128,128,0,0,0 // movups %xmm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -41424,8 +41343,8 @@ _sk_bilinear_ny_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,64,96 // movups 0x60(%rax),%xmm8
- .byte 15,88,13,63,196,0,0 // addps 0xc43f(%rip),%xmm1 # 2c940 <_sk_overlay_sse2_8bit+0x145b>
- .byte 68,15,40,13,7,190,0,0 // movaps 0xbe07(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,13,28,197,0,0 // addps 0xc51c(%rip),%xmm1 # 2c970 <_sk_overlay_sse2_8bit+0x14d3>
+ .byte 68,15,40,13,228,190,0,0 // movaps 0xbee4(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
.byte 68,15,17,136,160,0,0,0 // movups %xmm9,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -41438,7 +41357,7 @@ _sk_bilinear_py_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,64,96 // movups 0x60(%rax),%xmm8
- .byte 15,88,13,213,189,0,0 // addps 0xbdd5(%rip),%xmm1 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 15,88,13,162,190,0,0 // addps 0xbea2(%rip),%xmm1 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 68,15,17,128,160,0,0,0 // movups %xmm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -41450,13 +41369,13 @@ _sk_bicubic_n3x_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,64,64 // movups 0x40(%rax),%xmm8
- .byte 15,88,5,8,196,0,0 // addps 0xc408(%rip),%xmm0 # 2c950 <_sk_overlay_sse2_8bit+0x146b>
- .byte 68,15,40,13,192,189,0,0 // movaps 0xbdc0(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,5,229,196,0,0 // addps 0xc4e5(%rip),%xmm0 # 2c980 <_sk_overlay_sse2_8bit+0x14e3>
+ .byte 68,15,40,13,157,190,0,0 // movaps 0xbe9d(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
.byte 69,15,40,193 // movaps %xmm9,%xmm8
.byte 69,15,89,192 // mulps %xmm8,%xmm8
- .byte 68,15,89,13,252,195,0,0 // mulps 0xc3fc(%rip),%xmm9 # 2c960 <_sk_overlay_sse2_8bit+0x147b>
- .byte 68,15,88,13,148,191,0,0 // addps 0xbf94(%rip),%xmm9 # 2c500 <_sk_overlay_sse2_8bit+0x101b>
+ .byte 68,15,89,13,217,196,0,0 // mulps 0xc4d9(%rip),%xmm9 # 2c990 <_sk_overlay_sse2_8bit+0x14f3>
+ .byte 68,15,88,13,113,192,0,0 // addps 0xc071(%rip),%xmm9 # 2c530 <_sk_overlay_sse2_8bit+0x1093>
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 68,15,17,136,128,0,0,0 // movups %xmm9,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -41469,16 +41388,16 @@ _sk_bicubic_n1x_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,64,64 // movups 0x40(%rax),%xmm8
- .byte 15,88,5,179,195,0,0 // addps 0xc3b3(%rip),%xmm0 # 2c940 <_sk_overlay_sse2_8bit+0x145b>
- .byte 68,15,40,13,123,189,0,0 // movaps 0xbd7b(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,5,144,196,0,0 // addps 0xc490(%rip),%xmm0 # 2c970 <_sk_overlay_sse2_8bit+0x14d3>
+ .byte 68,15,40,13,88,190,0,0 // movaps 0xbe58(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
- .byte 68,15,40,5,207,195,0,0 // movaps 0xc3cf(%rip),%xmm8 # 2c970 <_sk_overlay_sse2_8bit+0x148b>
+ .byte 68,15,40,5,172,196,0,0 // movaps 0xc4ac(%rip),%xmm8 # 2c9a0 <_sk_overlay_sse2_8bit+0x1503>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,211,195,0,0 // addps 0xc3d3(%rip),%xmm8 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 68,15,88,5,176,196,0,0 // addps 0xc4b0(%rip),%xmm8 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,71,189,0,0 // addps 0xbd47(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,88,5,20,190,0,0 // addps 0xbe14(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,203,195,0,0 // addps 0xc3cb(%rip),%xmm8 # 2c990 <_sk_overlay_sse2_8bit+0x14ab>
+ .byte 68,15,88,5,168,196,0,0 // addps 0xc4a8(%rip),%xmm8 # 2c9c0 <_sk_overlay_sse2_8bit+0x1523>
.byte 68,15,17,128,128,0,0,0 // movups %xmm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -41488,17 +41407,17 @@ HIDDEN _sk_bicubic_p1x_sse2
FUNCTION(_sk_bicubic_p1x_sse2)
_sk_bicubic_p1x_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,15,40,5,37,189,0,0 // movaps 0xbd25(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,5,242,189,0,0 // movaps 0xbdf2(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,72,64 // movups 0x40(%rax),%xmm9
.byte 65,15,88,192 // addps %xmm8,%xmm0
- .byte 68,15,40,21,129,195,0,0 // movaps 0xc381(%rip),%xmm10 # 2c970 <_sk_overlay_sse2_8bit+0x148b>
+ .byte 68,15,40,21,94,196,0,0 // movaps 0xc45e(%rip),%xmm10 # 2c9a0 <_sk_overlay_sse2_8bit+0x1503>
.byte 69,15,89,209 // mulps %xmm9,%xmm10
- .byte 68,15,88,21,133,195,0,0 // addps 0xc385(%rip),%xmm10 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 68,15,88,21,98,196,0,0 // addps 0xc462(%rip),%xmm10 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,89,209 // mulps %xmm9,%xmm10
.byte 69,15,88,208 // addps %xmm8,%xmm10
.byte 69,15,89,209 // mulps %xmm9,%xmm10
- .byte 68,15,88,21,129,195,0,0 // addps 0xc381(%rip),%xmm10 # 2c990 <_sk_overlay_sse2_8bit+0x14ab>
+ .byte 68,15,88,21,94,196,0,0 // addps 0xc45e(%rip),%xmm10 # 2c9c0 <_sk_overlay_sse2_8bit+0x1523>
.byte 68,15,17,144,128,0,0,0 // movups %xmm10,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -41510,11 +41429,11 @@ _sk_bicubic_p3x_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,0 // movups (%rax),%xmm0
.byte 68,15,16,64,64 // movups 0x40(%rax),%xmm8
- .byte 15,88,5,84,195,0,0 // addps 0xc354(%rip),%xmm0 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 15,88,5,49,196,0,0 // addps 0xc431(%rip),%xmm0 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 69,15,89,201 // mulps %xmm9,%xmm9
- .byte 68,15,89,5,36,195,0,0 // mulps 0xc324(%rip),%xmm8 # 2c960 <_sk_overlay_sse2_8bit+0x147b>
- .byte 68,15,88,5,188,190,0,0 // addps 0xbebc(%rip),%xmm8 # 2c500 <_sk_overlay_sse2_8bit+0x101b>
+ .byte 68,15,89,5,1,196,0,0 // mulps 0xc401(%rip),%xmm8 # 2c990 <_sk_overlay_sse2_8bit+0x14f3>
+ .byte 68,15,88,5,153,191,0,0 // addps 0xbf99(%rip),%xmm8 # 2c530 <_sk_overlay_sse2_8bit+0x1093>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
.byte 68,15,17,128,128,0,0,0 // movups %xmm8,0x80(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -41527,13 +41446,13 @@ _sk_bicubic_n3y_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,64,96 // movups 0x60(%rax),%xmm8
- .byte 15,88,13,234,194,0,0 // addps 0xc2ea(%rip),%xmm1 # 2c950 <_sk_overlay_sse2_8bit+0x146b>
- .byte 68,15,40,13,162,188,0,0 // movaps 0xbca2(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,13,199,195,0,0 // addps 0xc3c7(%rip),%xmm1 # 2c980 <_sk_overlay_sse2_8bit+0x14e3>
+ .byte 68,15,40,13,127,189,0,0 // movaps 0xbd7f(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
.byte 69,15,40,193 // movaps %xmm9,%xmm8
.byte 69,15,89,192 // mulps %xmm8,%xmm8
- .byte 68,15,89,13,222,194,0,0 // mulps 0xc2de(%rip),%xmm9 # 2c960 <_sk_overlay_sse2_8bit+0x147b>
- .byte 68,15,88,13,118,190,0,0 // addps 0xbe76(%rip),%xmm9 # 2c500 <_sk_overlay_sse2_8bit+0x101b>
+ .byte 68,15,89,13,187,195,0,0 // mulps 0xc3bb(%rip),%xmm9 # 2c990 <_sk_overlay_sse2_8bit+0x14f3>
+ .byte 68,15,88,13,83,191,0,0 // addps 0xbf53(%rip),%xmm9 # 2c530 <_sk_overlay_sse2_8bit+0x1093>
.byte 69,15,89,200 // mulps %xmm8,%xmm9
.byte 68,15,17,136,160,0,0,0 // movups %xmm9,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -41546,16 +41465,16 @@ _sk_bicubic_n1y_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,64,96 // movups 0x60(%rax),%xmm8
- .byte 15,88,13,148,194,0,0 // addps 0xc294(%rip),%xmm1 # 2c940 <_sk_overlay_sse2_8bit+0x145b>
- .byte 68,15,40,13,92,188,0,0 // movaps 0xbc5c(%rip),%xmm9 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,88,13,113,195,0,0 // addps 0xc371(%rip),%xmm1 # 2c970 <_sk_overlay_sse2_8bit+0x14d3>
+ .byte 68,15,40,13,57,189,0,0 // movaps 0xbd39(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 69,15,92,200 // subps %xmm8,%xmm9
- .byte 68,15,40,5,176,194,0,0 // movaps 0xc2b0(%rip),%xmm8 # 2c970 <_sk_overlay_sse2_8bit+0x148b>
+ .byte 68,15,40,5,141,195,0,0 // movaps 0xc38d(%rip),%xmm8 # 2c9a0 <_sk_overlay_sse2_8bit+0x1503>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,180,194,0,0 // addps 0xc2b4(%rip),%xmm8 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 68,15,88,5,145,195,0,0 // addps 0xc391(%rip),%xmm8 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,40,188,0,0 // addps 0xbc28(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,88,5,245,188,0,0 // addps 0xbcf5(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
- .byte 68,15,88,5,172,194,0,0 // addps 0xc2ac(%rip),%xmm8 # 2c990 <_sk_overlay_sse2_8bit+0x14ab>
+ .byte 68,15,88,5,137,195,0,0 // addps 0xc389(%rip),%xmm8 # 2c9c0 <_sk_overlay_sse2_8bit+0x1523>
.byte 68,15,17,128,160,0,0,0 // movups %xmm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -41565,17 +41484,17 @@ HIDDEN _sk_bicubic_p1y_sse2
FUNCTION(_sk_bicubic_p1y_sse2)
_sk_bicubic_p1y_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,15,40,5,6,188,0,0 // movaps 0xbc06(%rip),%xmm8 # 2c300 <_sk_overlay_sse2_8bit+0xe1b>
+ .byte 68,15,40,5,211,188,0,0 // movaps 0xbcd3(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe83>
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,72,96 // movups 0x60(%rax),%xmm9
.byte 65,15,88,200 // addps %xmm8,%xmm1
- .byte 68,15,40,21,97,194,0,0 // movaps 0xc261(%rip),%xmm10 # 2c970 <_sk_overlay_sse2_8bit+0x148b>
+ .byte 68,15,40,21,62,195,0,0 // movaps 0xc33e(%rip),%xmm10 # 2c9a0 <_sk_overlay_sse2_8bit+0x1503>
.byte 69,15,89,209 // mulps %xmm9,%xmm10
- .byte 68,15,88,21,101,194,0,0 // addps 0xc265(%rip),%xmm10 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 68,15,88,21,66,195,0,0 // addps 0xc342(%rip),%xmm10 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,89,209 // mulps %xmm9,%xmm10
.byte 69,15,88,208 // addps %xmm8,%xmm10
.byte 69,15,89,209 // mulps %xmm9,%xmm10
- .byte 68,15,88,21,97,194,0,0 // addps 0xc261(%rip),%xmm10 # 2c990 <_sk_overlay_sse2_8bit+0x14ab>
+ .byte 68,15,88,21,62,195,0,0 // addps 0xc33e(%rip),%xmm10 # 2c9c0 <_sk_overlay_sse2_8bit+0x1523>
.byte 68,15,17,144,160,0,0,0 // movups %xmm10,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
@@ -41587,11 +41506,11 @@ _sk_bicubic_p3y_sse2:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 15,16,72,32 // movups 0x20(%rax),%xmm1
.byte 68,15,16,64,96 // movups 0x60(%rax),%xmm8
- .byte 15,88,13,51,194,0,0 // addps 0xc233(%rip),%xmm1 # 2c980 <_sk_overlay_sse2_8bit+0x149b>
+ .byte 15,88,13,16,195,0,0 // addps 0xc310(%rip),%xmm1 # 2c9b0 <_sk_overlay_sse2_8bit+0x1513>
.byte 69,15,40,200 // movaps %xmm8,%xmm9
.byte 69,15,89,201 // mulps %xmm9,%xmm9
- .byte 68,15,89,5,3,194,0,0 // mulps 0xc203(%rip),%xmm8 # 2c960 <_sk_overlay_sse2_8bit+0x147b>
- .byte 68,15,88,5,155,189,0,0 // addps 0xbd9b(%rip),%xmm8 # 2c500 <_sk_overlay_sse2_8bit+0x101b>
+ .byte 68,15,89,5,224,194,0,0 // mulps 0xc2e0(%rip),%xmm8 # 2c990 <_sk_overlay_sse2_8bit+0x14f3>
+ .byte 68,15,88,5,120,190,0,0 // addps 0xbe78(%rip),%xmm8 # 2c530 <_sk_overlay_sse2_8bit+0x1093>
.byte 69,15,89,193 // mulps %xmm9,%xmm8
.byte 68,15,17,128,160,0,0,0 // movups %xmm8,0xa0(%rax)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -41613,13 +41532,12 @@ _sk_callback_sse2:
.byte 15,41,117,160 // movaps %xmm6,-0x60(%rbp)
.byte 15,41,109,176 // movaps %xmm5,-0x50(%rbp)
.byte 15,41,101,192 // movaps %xmm4,-0x40(%rbp)
- .byte 76,137,195 // mov %r8,%rbx
- .byte 72,137,77,208 // mov %rcx,-0x30(%rbp)
+ .byte 73,137,206 // mov %rcx,%r14
.byte 73,137,215 // mov %rdx,%r15
- .byte 73,137,252 // mov %rdi,%r12
+ .byte 73,137,253 // mov %rdi,%r13
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 73,137,198 // mov %rax,%r14
- .byte 73,137,245 // mov %rsi,%r13
+ .byte 72,137,195 // mov %rax,%rbx
+ .byte 73,137,244 // mov %rsi,%r12
.byte 15,40,224 // movaps %xmm0,%xmm4
.byte 15,20,225 // unpcklps %xmm1,%xmm4
.byte 15,40,234 // movaps %xmm2,%xmm5
@@ -41631,17 +41549,17 @@ _sk_callback_sse2:
.byte 15,18,236 // movhlps %xmm4,%xmm5
.byte 15,40,216 // movaps %xmm0,%xmm3
.byte 102,15,20,218 // unpcklpd %xmm2,%xmm3
- .byte 102,65,15,17,78,8 // movupd %xmm1,0x8(%r14)
+ .byte 102,15,17,75,8 // movupd %xmm1,0x8(%rbx)
.byte 15,18,208 // movhlps %xmm0,%xmm2
- .byte 65,15,17,110,24 // movups %xmm5,0x18(%r14)
- .byte 102,65,15,17,94,40 // movupd %xmm3,0x28(%r14)
- .byte 65,15,17,86,56 // movups %xmm2,0x38(%r14)
- .byte 72,133,219 // test %rbx,%rbx
+ .byte 15,17,107,24 // movups %xmm5,0x18(%rbx)
+ .byte 102,15,17,91,40 // movupd %xmm3,0x28(%rbx)
+ .byte 15,17,83,56 // movups %xmm2,0x38(%rbx)
+ .byte 77,133,237 // test %r13,%r13
.byte 190,4,0,0,0 // mov $0x4,%esi
- .byte 15,69,243 // cmovne %ebx,%esi
- .byte 76,137,247 // mov %r14,%rdi
- .byte 65,255,22 // callq *(%r14)
- .byte 73,139,134,136,0,0,0 // mov 0x88(%r14),%rax
+ .byte 65,15,69,245 // cmovne %r13d,%esi
+ .byte 72,137,223 // mov %rbx,%rdi
+ .byte 255,19 // callq *(%rbx)
+ .byte 72,139,131,136,0,0,0 // mov 0x88(%rbx),%rax
.byte 15,16,32 // movups (%rax),%xmm4
.byte 15,16,64,16 // movups 0x10(%rax),%xmm0
.byte 15,16,88,32 // movups 0x20(%rax),%xmm3
@@ -41658,12 +41576,11 @@ _sk_callback_sse2:
.byte 15,40,212 // movaps %xmm4,%xmm2
.byte 102,15,20,211 // unpcklpd %xmm3,%xmm2
.byte 15,18,220 // movhlps %xmm4,%xmm3
- .byte 76,137,238 // mov %r13,%rsi
+ .byte 76,137,230 // mov %r12,%rsi
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 76,137,231 // mov %r12,%rdi
+ .byte 76,137,239 // mov %r13,%rdi
.byte 76,137,250 // mov %r15,%rdx
- .byte 72,139,77,208 // mov -0x30(%rbp),%rcx
- .byte 73,137,216 // mov %rbx,%r8
+ .byte 76,137,241 // mov %r14,%rcx
.byte 15,40,101,192 // movaps -0x40(%rbp),%xmm4
.byte 15,40,109,176 // movaps -0x50(%rbp),%xmm5
.byte 15,40,117,160 // movaps -0x60(%rbp),%xmm6
@@ -41681,26 +41598,25 @@ HIDDEN _sk_clut_3D_sse2
.globl _sk_clut_3D_sse2
FUNCTION(_sk_clut_3D_sse2)
_sk_clut_3D_sse2:
- .byte 83 // push %rbx
- .byte 72,131,236,48 // sub $0x30,%rsp
+ .byte 72,131,236,56 // sub $0x38,%rsp
.byte 15,41,124,36,32 // movaps %xmm7,0x20(%rsp)
.byte 15,41,116,36,16 // movaps %xmm6,0x10(%rsp)
.byte 15,41,44,36 // movaps %xmm5,(%rsp)
.byte 15,41,100,36,240 // movaps %xmm4,-0x10(%rsp)
.byte 15,41,92,36,224 // movaps %xmm3,-0x20(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,16 // mov 0x10(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 102,65,15,110,218 // movd %r10d,%xmm3
+ .byte 68,139,64,16 // mov 0x10(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 102,65,15,110,217 // movd %r9d,%xmm3
.byte 102,15,112,219,0 // pshufd $0x0,%xmm3,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
.byte 15,89,218 // mulps %xmm2,%xmm3
.byte 15,40,235 // movaps %xmm3,%xmm5
- .byte 102,65,15,110,209 // movd %r9d,%xmm2
+ .byte 102,65,15,110,208 // movd %r8d,%xmm2
.byte 102,68,15,112,250,0 // pshufd $0x0,%xmm2,%xmm15
- .byte 68,139,72,12 // mov 0xc(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 102,65,15,110,218 // movd %r10d,%xmm3
+ .byte 68,139,64,12 // mov 0xc(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 102,65,15,110,217 // movd %r9d,%xmm3
.byte 102,15,112,219,0 // pshufd $0x0,%xmm3,%xmm3
.byte 68,15,91,211 // cvtdq2ps %xmm3,%xmm10
.byte 68,15,89,209 // mulps %xmm1,%xmm10
@@ -41714,12 +41630,12 @@ _sk_clut_3D_sse2:
.byte 102,65,15,244,207 // pmuludq %xmm15,%xmm1
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,68,15,98,201 // punpckldq %xmm1,%xmm9
- .byte 102,65,15,110,201 // movd %r9d,%xmm1
+ .byte 102,65,15,110,200 // movd %r8d,%xmm1
.byte 102,15,244,202 // pmuludq %xmm2,%xmm1
.byte 102,15,112,209,0 // pshufd $0x0,%xmm1,%xmm2
- .byte 68,139,72,8 // mov 0x8(%rax),%r9d
- .byte 65,255,201 // dec %r9d
- .byte 102,65,15,110,201 // movd %r9d,%xmm1
+ .byte 68,139,64,8 // mov 0x8(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 102,65,15,110,200 // movd %r8d,%xmm1
.byte 102,15,112,201,0 // pshufd $0x0,%xmm1,%xmm1
.byte 68,15,91,233 // cvtdq2ps %xmm1,%xmm13
.byte 68,15,89,232 // mulps %xmm0,%xmm13
@@ -41740,7 +41656,7 @@ _sk_clut_3D_sse2:
.byte 102,15,254,216 // paddd %xmm0,%xmm3
.byte 102,65,15,111,198 // movdqa %xmm14,%xmm0
.byte 102,15,254,195 // paddd %xmm3,%xmm0
- .byte 102,15,111,45,53,192,0,0 // movdqa 0xc035(%rip),%xmm5 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,45,31,193,0,0 // movdqa 0xc11f(%rip),%xmm5 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,112,200,245 // pshufd $0xf5,%xmm0,%xmm1
.byte 102,15,244,197 // pmuludq %xmm5,%xmm0
.byte 102,15,112,192,232 // pshufd $0xe8,%xmm0,%xmm0
@@ -41748,56 +41664,56 @@ _sk_clut_3D_sse2:
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,98,193 // punpckldq %xmm1,%xmm0
.byte 102,15,112,200,229 // pshufd $0xe5,%xmm0,%xmm1
- .byte 102,65,15,126,201 // movd %xmm1,%r9d
+ .byte 102,65,15,126,200 // movd %xmm1,%r8d
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
- .byte 102,65,15,126,202 // movd %xmm1,%r10d
+ .byte 102,65,15,126,201 // movd %xmm1,%r9d
.byte 102,15,112,200,231 // pshufd $0xe7,%xmm0,%xmm1
- .byte 102,65,15,126,203 // movd %xmm1,%r11d
- .byte 72,139,24 // mov (%rax),%rbx
- .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 102,65,15,126,202 // movd %xmm1,%r10d
+ .byte 76,139,24 // mov (%rax),%r11
+ .byte 243,67,15,16,12,147 // movss (%r11,%r10,4),%xmm1
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,233 // unpcklps %xmm1,%xmm5
.byte 102,15,126,192 // movd %xmm0,%eax
- .byte 243,15,16,52,131 // movss (%rbx,%rax,4),%xmm6
- .byte 243,66,15,16,12,147 // movss (%rbx,%r10,4),%xmm1
+ .byte 243,65,15,16,52,131 // movss (%r11,%rax,4),%xmm6
+ .byte 243,67,15,16,12,139 // movss (%r11,%r9,4),%xmm1
.byte 15,20,241 // unpcklps %xmm1,%xmm6
.byte 15,20,245 // unpcklps %xmm5,%xmm6
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
- .byte 102,15,254,13,57,185,0,0 // paddd 0xb939(%rip),%xmm1 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,254,13,34,186,0,0 // paddd 0xba22(%rip),%xmm1 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,112,233,78 // pshufd $0x4e,%xmm1,%xmm5
- .byte 102,73,15,126,233 // movq %xmm5,%r9
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,232 // movq %xmm5,%r8
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,44,155 // movss (%rbx,%r11,4),%xmm5
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,44,147 // movss (%r11,%r10,4),%xmm5
.byte 15,20,205 // unpcklps %xmm5,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,60,131 // movss (%rbx,%rax,4),%xmm7
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,60,131 // movss (%r11,%rax,4),%xmm7
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,253 // unpcklps %xmm5,%xmm7
.byte 15,20,249 // unpcklps %xmm1,%xmm7
- .byte 102,15,254,5,15,185,0,0 // paddd 0xb90f(%rip),%xmm0 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,254,5,246,185,0,0 // paddd 0xb9f6(%rip),%xmm0 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
- .byte 102,73,15,126,201 // movq %xmm1,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,200 // movq %xmm1,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,12,147 // movss (%r11,%r10,4),%xmm1
.byte 15,20,193 // unpcklps %xmm1,%xmm0
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,205 // unpcklps %xmm5,%xmm1
.byte 15,20,200 // unpcklps %xmm0,%xmm1
- .byte 15,40,45,38,191,0,0 // movaps 0xbf26(%rip),%xmm5 # 2c9a0 <_sk_overlay_sse2_8bit+0x14bb>
+ .byte 15,40,45,11,192,0,0 // movaps 0xc00b(%rip),%xmm5 # 2c9d0 <_sk_overlay_sse2_8bit+0x1533>
.byte 15,88,229 // addps %xmm5,%xmm4
.byte 15,41,100,36,192 // movaps %xmm4,-0x40(%rsp)
.byte 68,15,88,213 // addps %xmm5,%xmm10
@@ -41812,7 +41728,7 @@ _sk_clut_3D_sse2:
.byte 102,15,127,68,36,160 // movdqa %xmm0,-0x60(%rsp)
.byte 102,15,254,216 // paddd %xmm0,%xmm3
.byte 102,15,112,227,245 // pshufd $0xf5,%xmm3,%xmm4
- .byte 102,15,111,5,239,190,0,0 // movdqa 0xbeef(%rip),%xmm0 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,5,212,191,0,0 // movdqa 0xbfd4(%rip),%xmm0 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,244,216 // pmuludq %xmm0,%xmm3
.byte 102,15,112,211,232 // pshufd $0xe8,%xmm3,%xmm2
.byte 102,15,244,224 // pmuludq %xmm0,%xmm4
@@ -41820,52 +41736,52 @@ _sk_clut_3D_sse2:
.byte 102,15,112,220,232 // pshufd $0xe8,%xmm4,%xmm3
.byte 102,15,98,211 // punpckldq %xmm3,%xmm2
.byte 102,15,112,218,229 // pshufd $0xe5,%xmm2,%xmm3
- .byte 102,65,15,126,218 // movd %xmm3,%r10d
- .byte 102,15,112,218,78 // pshufd $0x4e,%xmm2,%xmm3
.byte 102,65,15,126,217 // movd %xmm3,%r9d
+ .byte 102,15,112,218,78 // pshufd $0x4e,%xmm2,%xmm3
+ .byte 102,65,15,126,216 // movd %xmm3,%r8d
.byte 102,15,112,218,231 // pshufd $0xe7,%xmm2,%xmm3
.byte 102,15,126,216 // movd %xmm3,%eax
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,44,147 // movss (%rbx,%r10,4),%xmm5
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,44,139 // movss (%r11,%r9,4),%xmm5
.byte 15,20,235 // unpcklps %xmm3,%xmm5
.byte 102,15,126,208 // movd %xmm2,%eax
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,28,131 // movss (%r11,%r8,4),%xmm3
.byte 15,20,227 // unpcklps %xmm3,%xmm4
.byte 15,20,229 // unpcklps %xmm5,%xmm4
.byte 102,15,111,218 // movdqa %xmm2,%xmm3
- .byte 102,15,254,29,248,183,0,0 // paddd 0xb7f8(%rip),%xmm3 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,254,29,219,184,0,0 // paddd 0xb8db(%rip),%xmm3 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,112,235,78 // pshufd $0x4e,%xmm3,%xmm5
- .byte 102,73,15,126,233 // movq %xmm5,%r9
- .byte 102,73,15,126,218 // movq %xmm3,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,232 // movq %xmm5,%r8
+ .byte 102,73,15,126,217 // movq %xmm3,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,28,147 // movss (%r11,%r10,4),%xmm3
.byte 15,20,235 // unpcklps %xmm3,%xmm5
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,4,139 // movss (%rbx,%r9,4),%xmm0
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,4,131 // movss (%r11,%r8,4),%xmm0
.byte 15,20,216 // unpcklps %xmm0,%xmm3
.byte 15,20,221 // unpcklps %xmm5,%xmm3
- .byte 102,15,254,21,206,183,0,0 // paddd 0xb7ce(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,254,21,175,184,0,0 // paddd 0xb8af(%rip),%xmm2 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,112,194,78 // pshufd $0x4e,%xmm2,%xmm0
- .byte 102,73,15,126,193 // movq %xmm0,%r9
- .byte 102,73,15,126,210 // movq %xmm2,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,192 // movq %xmm0,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,20,147 // movss (%r11,%r10,4),%xmm2
.byte 15,20,194 // unpcklps %xmm2,%xmm0
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,213 // unpcklps %xmm5,%xmm2
.byte 15,20,208 // unpcklps %xmm0,%xmm2
.byte 65,15,91,196 // cvtdq2ps %xmm12,%xmm0
@@ -41899,54 +41815,54 @@ _sk_clut_3D_sse2:
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,98,193 // punpckldq %xmm1,%xmm0
.byte 102,15,112,200,229 // pshufd $0xe5,%xmm0,%xmm1
- .byte 102,65,15,126,202 // movd %xmm1,%r10d
- .byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,65,15,126,201 // movd %xmm1,%r9d
+ .byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
+ .byte 102,65,15,126,200 // movd %xmm1,%r8d
.byte 102,15,112,200,231 // pshufd $0xe7,%xmm0,%xmm1
.byte 102,15,126,200 // movd %xmm1,%eax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,60,147 // movss (%rbx,%r10,4),%xmm7
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,60,139 // movss (%r11,%r9,4),%xmm7
.byte 15,20,249 // unpcklps %xmm1,%xmm7
.byte 102,15,126,192 // movd %xmm0,%eax
- .byte 243,68,15,16,4,131 // movss (%rbx,%rax,4),%xmm8
- .byte 243,66,15,16,12,139 // movss (%rbx,%r9,4),%xmm1
+ .byte 243,69,15,16,4,131 // movss (%r11,%rax,4),%xmm8
+ .byte 243,67,15,16,12,131 // movss (%r11,%r8,4),%xmm1
.byte 68,15,20,193 // unpcklps %xmm1,%xmm8
.byte 68,15,20,199 // unpcklps %xmm7,%xmm8
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
- .byte 102,68,15,111,21,153,182,0,0 // movdqa 0xb699(%rip),%xmm10 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,68,15,111,21,119,183,0,0 // movdqa 0xb777(%rip),%xmm10 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,65,15,254,202 // paddd %xmm10,%xmm1
.byte 102,15,112,249,78 // pshufd $0x4e,%xmm1,%xmm7
- .byte 102,73,15,126,249 // movq %xmm7,%r9
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,248 // movq %xmm7,%r8
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,60,131 // movss (%rbx,%rax,4),%xmm7
- .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 243,65,15,16,60,131 // movss (%r11,%rax,4),%xmm7
+ .byte 243,67,15,16,12,147 // movss (%r11,%r10,4),%xmm1
.byte 15,20,249 // unpcklps %xmm1,%xmm7
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,205 // unpcklps %xmm5,%xmm1
.byte 15,20,207 // unpcklps %xmm7,%xmm1
- .byte 102,15,111,45,106,182,0,0 // movdqa 0xb66a(%rip),%xmm5 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,111,45,70,183,0,0 // movdqa 0xb746(%rip),%xmm5 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,254,197 // paddd %xmm5,%xmm0
.byte 102,15,112,232,78 // pshufd $0x4e,%xmm0,%xmm5
- .byte 102,73,15,126,233 // movq %xmm5,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,232 // movq %xmm5,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,4,155 // movss (%rbx,%r11,4),%xmm0
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,4,147 // movss (%r11,%r10,4),%xmm0
.byte 15,20,232 // unpcklps %xmm0,%xmm5
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,199 // unpcklps %xmm7,%xmm0
.byte 15,20,197 // unpcklps %xmm5,%xmm0
.byte 102,15,254,116,36,160 // paddd -0x60(%rsp),%xmm6
@@ -41958,54 +41874,54 @@ _sk_clut_3D_sse2:
.byte 102,15,112,237,232 // pshufd $0xe8,%xmm5,%xmm5
.byte 102,15,98,245 // punpckldq %xmm5,%xmm6
.byte 102,15,112,238,229 // pshufd $0xe5,%xmm6,%xmm5
- .byte 102,65,15,126,234 // movd %xmm5,%r10d
- .byte 102,15,112,238,78 // pshufd $0x4e,%xmm6,%xmm5
.byte 102,65,15,126,233 // movd %xmm5,%r9d
+ .byte 102,15,112,238,78 // pshufd $0x4e,%xmm6,%xmm5
+ .byte 102,65,15,126,232 // movd %xmm5,%r8d
.byte 102,15,112,238,231 // pshufd $0xe7,%xmm6,%xmm5
.byte 102,15,126,232 // movd %xmm5,%eax
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,60,147 // movss (%rbx,%r10,4),%xmm7
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,60,139 // movss (%r11,%r9,4),%xmm7
.byte 15,20,253 // unpcklps %xmm5,%xmm7
.byte 102,15,126,240 // movd %xmm6,%eax
- .byte 243,68,15,16,60,131 // movss (%rbx,%rax,4),%xmm15
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 243,69,15,16,60,131 // movss (%r11,%rax,4),%xmm15
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 68,15,20,253 // unpcklps %xmm5,%xmm15
.byte 68,15,20,255 // unpcklps %xmm7,%xmm15
.byte 102,15,111,238 // movdqa %xmm6,%xmm5
.byte 102,65,15,254,234 // paddd %xmm10,%xmm5
.byte 102,15,112,253,78 // pshufd $0x4e,%xmm5,%xmm7
- .byte 102,73,15,126,249 // movq %xmm7,%r9
- .byte 102,73,15,126,234 // movq %xmm5,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,248 // movq %xmm7,%r8
+ .byte 102,73,15,126,233 // movq %xmm5,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,60,155 // movss (%rbx,%r11,4),%xmm7
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,60,147 // movss (%r11,%r10,4),%xmm7
.byte 15,20,239 // unpcklps %xmm7,%xmm5
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,68,15,16,28,131 // movss (%rbx,%rax,4),%xmm11
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,69,15,16,28,131 // movss (%r11,%rax,4),%xmm11
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 68,15,20,223 // unpcklps %xmm7,%xmm11
.byte 68,15,20,221 // unpcklps %xmm5,%xmm11
- .byte 102,15,111,45,101,181,0,0 // movdqa 0xb565(%rip),%xmm5 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,111,45,61,182,0,0 // movdqa 0xb63d(%rip),%xmm5 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,254,245 // paddd %xmm5,%xmm6
.byte 102,15,111,253 // movdqa %xmm5,%xmm7
.byte 102,15,112,238,78 // pshufd $0x4e,%xmm6,%xmm5
- .byte 102,73,15,126,233 // movq %xmm5,%r9
- .byte 102,73,15,126,242 // movq %xmm6,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,232 // movq %xmm5,%r8
+ .byte 102,73,15,126,241 // movq %xmm6,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,52,155 // movss (%rbx,%r11,4),%xmm6
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,52,147 // movss (%r11,%r10,4),%xmm6
.byte 15,20,238 // unpcklps %xmm6,%xmm5
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,68,15,16,20,131 // movss (%rbx,%rax,4),%xmm10
- .byte 243,66,15,16,52,139 // movss (%rbx,%r9,4),%xmm6
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,69,15,16,20,131 // movss (%r11,%rax,4),%xmm10
+ .byte 243,67,15,16,52,131 // movss (%r11,%r8,4),%xmm6
.byte 68,15,20,214 // unpcklps %xmm6,%xmm10
.byte 68,15,20,213 // unpcklps %xmm5,%xmm10
.byte 69,15,92,248 // subps %xmm8,%xmm15
@@ -42036,7 +41952,7 @@ _sk_clut_3D_sse2:
.byte 102,65,15,111,206 // movdqa %xmm14,%xmm1
.byte 102,65,15,254,201 // paddd %xmm9,%xmm1
.byte 102,15,112,209,245 // pshufd $0xf5,%xmm1,%xmm2
- .byte 102,15,111,5,6,187,0,0 // movdqa 0xbb06(%rip),%xmm0 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,5,221,187,0,0 // movdqa 0xbbdd(%rip),%xmm0 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,244,200 // pmuludq %xmm0,%xmm1
.byte 102,15,112,217,232 // pshufd $0xe8,%xmm1,%xmm3
.byte 102,15,244,208 // pmuludq %xmm0,%xmm2
@@ -42044,53 +41960,53 @@ _sk_clut_3D_sse2:
.byte 102,15,112,202,232 // pshufd $0xe8,%xmm2,%xmm1
.byte 102,15,98,217 // punpckldq %xmm1,%xmm3
.byte 102,15,112,203,229 // pshufd $0xe5,%xmm3,%xmm1
- .byte 102,65,15,126,202 // movd %xmm1,%r10d
- .byte 102,15,112,203,78 // pshufd $0x4e,%xmm3,%xmm1
.byte 102,65,15,126,201 // movd %xmm1,%r9d
+ .byte 102,15,112,203,78 // pshufd $0x4e,%xmm3,%xmm1
+ .byte 102,65,15,126,200 // movd %xmm1,%r8d
.byte 102,15,112,203,231 // pshufd $0xe7,%xmm3,%xmm1
.byte 102,15,126,200 // movd %xmm1,%eax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,20,139 // movss (%r11,%r9,4),%xmm2
.byte 15,20,209 // unpcklps %xmm1,%xmm2
.byte 102,15,126,216 // movd %xmm3,%eax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 15,20,204 // unpcklps %xmm4,%xmm1
.byte 15,20,202 // unpcklps %xmm2,%xmm1
.byte 102,15,111,211 // movdqa %xmm3,%xmm2
- .byte 102,15,111,5,16,180,0,0 // movdqa 0xb410(%rip),%xmm0 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,111,5,229,180,0,0 // movdqa 0xb4e5(%rip),%xmm0 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,254,208 // paddd %xmm0,%xmm2
.byte 102,15,112,226,78 // pshufd $0x4e,%xmm2,%xmm4
- .byte 102,73,15,126,225 // movq %xmm4,%r9
- .byte 102,73,15,126,210 // movq %xmm2,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,224 // movq %xmm4,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,20,147 // movss (%r11,%r10,4),%xmm2
.byte 15,20,226 // unpcklps %xmm2,%xmm4
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,213 // unpcklps %xmm5,%xmm2
.byte 15,20,212 // unpcklps %xmm4,%xmm2
.byte 102,15,254,223 // paddd %xmm7,%xmm3
.byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
- .byte 102,73,15,126,225 // movq %xmm4,%r9
- .byte 102,73,15,126,218 // movq %xmm3,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,224 // movq %xmm4,%r8
+ .byte 102,73,15,126,217 // movq %xmm3,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,36,155 // movss (%rbx,%r11,4),%xmm4
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,36,147 // movss (%r11,%r10,4),%xmm4
.byte 15,20,220 // unpcklps %xmm4,%xmm3
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,229 // unpcklps %xmm5,%xmm4
.byte 15,20,227 // unpcklps %xmm3,%xmm4
.byte 102,15,111,124,36,160 // movdqa -0x60(%rsp),%xmm7
@@ -42103,52 +42019,52 @@ _sk_clut_3D_sse2:
.byte 102,15,112,237,232 // pshufd $0xe8,%xmm5,%xmm5
.byte 102,15,98,221 // punpckldq %xmm5,%xmm3
.byte 102,15,112,235,229 // pshufd $0xe5,%xmm3,%xmm5
- .byte 102,65,15,126,234 // movd %xmm5,%r10d
- .byte 102,15,112,235,78 // pshufd $0x4e,%xmm3,%xmm5
.byte 102,65,15,126,233 // movd %xmm5,%r9d
+ .byte 102,15,112,235,78 // pshufd $0x4e,%xmm3,%xmm5
+ .byte 102,65,15,126,232 // movd %xmm5,%r8d
.byte 102,15,112,235,231 // pshufd $0xe7,%xmm3,%xmm5
.byte 102,15,126,232 // movd %xmm5,%eax
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,52,147 // movss (%rbx,%r10,4),%xmm6
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,52,139 // movss (%r11,%r9,4),%xmm6
.byte 15,20,245 // unpcklps %xmm5,%xmm6
.byte 102,15,126,216 // movd %xmm3,%eax
- .byte 243,68,15,16,4,131 // movss (%rbx,%rax,4),%xmm8
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 243,69,15,16,4,131 // movss (%r11,%rax,4),%xmm8
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 68,15,20,197 // unpcklps %xmm5,%xmm8
.byte 68,15,20,198 // unpcklps %xmm6,%xmm8
.byte 102,15,111,235 // movdqa %xmm3,%xmm5
.byte 102,15,254,232 // paddd %xmm0,%xmm5
.byte 102,15,112,245,78 // pshufd $0x4e,%xmm5,%xmm6
- .byte 102,73,15,126,241 // movq %xmm6,%r9
- .byte 102,73,15,126,234 // movq %xmm5,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,240 // movq %xmm6,%r8
+ .byte 102,73,15,126,233 // movq %xmm5,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,52,155 // movss (%rbx,%r11,4),%xmm6
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,52,147 // movss (%r11,%r10,4),%xmm6
.byte 15,20,238 // unpcklps %xmm6,%xmm5
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,52,131 // movss (%rbx,%rax,4),%xmm6
- .byte 243,66,15,16,4,139 // movss (%rbx,%r9,4),%xmm0
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,52,131 // movss (%r11,%rax,4),%xmm6
+ .byte 243,67,15,16,4,131 // movss (%r11,%r8,4),%xmm0
.byte 15,20,240 // unpcklps %xmm0,%xmm6
.byte 15,20,245 // unpcklps %xmm5,%xmm6
- .byte 102,15,254,29,225,178,0,0 // paddd 0xb2e1(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,254,29,175,179,0,0 // paddd 0xb3af(%rip),%xmm3 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,112,195,78 // pshufd $0x4e,%xmm3,%xmm0
- .byte 102,73,15,126,193 // movq %xmm0,%r9
- .byte 102,73,15,126,218 // movq %xmm3,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,192 // movq %xmm0,%r8
+ .byte 102,73,15,126,217 // movq %xmm3,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,28,147 // movss (%r11,%r10,4),%xmm3
.byte 15,20,195 // unpcklps %xmm3,%xmm0
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,28,131 // movss (%r11,%r8,4),%xmm3
.byte 15,20,235 // unpcklps %xmm3,%xmm5
.byte 15,20,232 // unpcklps %xmm0,%xmm5
.byte 68,15,92,193 // subps %xmm1,%xmm8
@@ -42171,52 +42087,52 @@ _sk_clut_3D_sse2:
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,98,193 // punpckldq %xmm1,%xmm0
.byte 102,15,112,200,229 // pshufd $0xe5,%xmm0,%xmm1
- .byte 102,65,15,126,202 // movd %xmm1,%r10d
- .byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,65,15,126,201 // movd %xmm1,%r9d
+ .byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
+ .byte 102,65,15,126,200 // movd %xmm1,%r8d
.byte 102,15,112,200,231 // pshufd $0xe7,%xmm0,%xmm1
.byte 102,15,126,200 // movd %xmm1,%eax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,20,139 // movss (%r11,%r9,4),%xmm2
.byte 15,20,209 // unpcklps %xmm1,%xmm2
.byte 102,15,126,192 // movd %xmm0,%eax
- .byte 243,68,15,16,12,131 // movss (%rbx,%rax,4),%xmm9
- .byte 243,66,15,16,12,139 // movss (%rbx,%r9,4),%xmm1
+ .byte 243,69,15,16,12,131 // movss (%r11,%rax,4),%xmm9
+ .byte 243,67,15,16,12,131 // movss (%r11,%r8,4),%xmm1
.byte 68,15,20,201 // unpcklps %xmm1,%xmm9
.byte 68,15,20,202 // unpcklps %xmm2,%xmm9
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
- .byte 102,15,254,13,221,177,0,0 // paddd 0xb1dd(%rip),%xmm1 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,254,13,168,178,0,0 // paddd 0xb2a8(%rip),%xmm1 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
- .byte 102,73,15,126,209 // movq %xmm2,%r9
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,208 // movq %xmm2,%r8
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,20,147 // movss (%r11,%r10,4),%xmm2
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,68,15,16,52,131 // movss (%rbx,%rax,4),%xmm14
- .byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,69,15,16,52,131 // movss (%r11,%rax,4),%xmm14
+ .byte 243,67,15,16,20,131 // movss (%r11,%r8,4),%xmm2
.byte 68,15,20,242 // unpcklps %xmm2,%xmm14
.byte 68,15,20,241 // unpcklps %xmm1,%xmm14
- .byte 102,15,254,5,176,177,0,0 // paddd 0xb1b0(%rip),%xmm0 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,254,5,122,178,0,0 // paddd 0xb27a(%rip),%xmm0 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
- .byte 102,73,15,126,201 // movq %xmm1,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,200 // movq %xmm1,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,12,147 // movss (%r11,%r10,4),%xmm1
.byte 15,20,193 // unpcklps %xmm1,%xmm0
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,12,139 // movss (%rbx,%r9,4),%xmm1
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,12,131 // movss (%r11,%r8,4),%xmm1
.byte 15,20,217 // unpcklps %xmm1,%xmm3
.byte 15,20,216 // unpcklps %xmm0,%xmm3
.byte 102,68,15,254,231 // paddd %xmm7,%xmm12
@@ -42227,52 +42143,52 @@ _sk_clut_3D_sse2:
.byte 102,15,112,192,232 // pshufd $0xe8,%xmm0,%xmm0
.byte 102,15,98,208 // punpckldq %xmm0,%xmm2
.byte 102,15,112,194,229 // pshufd $0xe5,%xmm2,%xmm0
- .byte 102,65,15,126,194 // movd %xmm0,%r10d
- .byte 102,15,112,194,78 // pshufd $0x4e,%xmm2,%xmm0
.byte 102,65,15,126,193 // movd %xmm0,%r9d
+ .byte 102,15,112,194,78 // pshufd $0x4e,%xmm2,%xmm0
+ .byte 102,65,15,126,192 // movd %xmm0,%r8d
.byte 102,15,112,194,231 // pshufd $0xe7,%xmm2,%xmm0
.byte 102,15,126,192 // movd %xmm0,%eax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,12,147 // movss (%rbx,%r10,4),%xmm1
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,12,139 // movss (%r11,%r9,4),%xmm1
.byte 15,20,200 // unpcklps %xmm0,%xmm1
.byte 102,15,126,208 // movd %xmm2,%eax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,199 // unpcklps %xmm7,%xmm0
.byte 15,20,193 // unpcklps %xmm1,%xmm0
- .byte 102,15,111,37,227,176,0,0 // movdqa 0xb0e3(%rip),%xmm4 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,111,37,169,177,0,0 // movdqa 0xb1a9(%rip),%xmm4 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,254,226 // paddd %xmm2,%xmm4
.byte 102,15,112,204,78 // pshufd $0x4e,%xmm4,%xmm1
- .byte 102,73,15,126,201 // movq %xmm1,%r9
- .byte 102,73,15,126,226 // movq %xmm4,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,200 // movq %xmm1,%r8
+ .byte 102,73,15,126,225 // movq %xmm4,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,60,131 // movss (%rbx,%rax,4),%xmm7
- .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 243,65,15,16,60,131 // movss (%r11,%rax,4),%xmm7
+ .byte 243,67,15,16,12,147 // movss (%r11,%r10,4),%xmm1
.byte 15,20,249 // unpcklps %xmm1,%xmm7
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 15,20,204 // unpcklps %xmm4,%xmm1
.byte 15,20,207 // unpcklps %xmm7,%xmm1
- .byte 102,15,254,21,181,176,0,0 // paddd 0xb0b5(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,254,21,121,177,0,0 // paddd 0xb179(%rip),%xmm2 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,112,226,78 // pshufd $0x4e,%xmm2,%xmm4
- .byte 102,73,15,126,225 // movq %xmm4,%r9
- .byte 102,73,15,126,210 // movq %xmm2,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,224 // movq %xmm4,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,20,147 // movss (%r11,%r10,4),%xmm2
.byte 15,20,226 // unpcklps %xmm2,%xmm4
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,215 // unpcklps %xmm7,%xmm2
.byte 15,20,212 // unpcklps %xmm4,%xmm2
.byte 65,15,92,193 // subps %xmm9,%xmm0
@@ -42312,33 +42228,31 @@ _sk_clut_3D_sse2:
.byte 15,40,44,36 // movaps (%rsp),%xmm5
.byte 15,40,116,36,16 // movaps 0x10(%rsp),%xmm6
.byte 15,40,124,36,32 // movaps 0x20(%rsp),%xmm7
- .byte 72,131,196,48 // add $0x30,%rsp
- .byte 91 // pop %rbx
+ .byte 72,131,196,56 // add $0x38,%rsp
.byte 255,224 // jmpq *%rax
HIDDEN _sk_clut_4D_sse2
.globl _sk_clut_4D_sse2
FUNCTION(_sk_clut_4D_sse2)
_sk_clut_4D_sse2:
- .byte 83 // push %rbx
- .byte 72,129,236,176,0,0,0 // sub $0xb0,%rsp
+ .byte 72,129,236,184,0,0,0 // sub $0xb8,%rsp
.byte 15,41,188,36,160,0,0,0 // movaps %xmm7,0xa0(%rsp)
.byte 15,41,180,36,144,0,0,0 // movaps %xmm6,0x90(%rsp)
.byte 15,41,172,36,128,0,0,0 // movaps %xmm5,0x80(%rsp)
.byte 15,41,100,36,112 // movaps %xmm4,0x70(%rsp)
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 68,139,72,20 // mov 0x14(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 102,65,15,110,226 // movd %r10d,%xmm4
+ .byte 68,139,64,20 // mov 0x14(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 102,65,15,110,225 // movd %r9d,%xmm4
.byte 102,15,112,228,0 // pshufd $0x0,%xmm4,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
.byte 15,89,227 // mulps %xmm3,%xmm4
.byte 15,40,236 // movaps %xmm4,%xmm5
- .byte 102,65,15,110,217 // movd %r9d,%xmm3
+ .byte 102,65,15,110,216 // movd %r8d,%xmm3
.byte 102,15,112,251,0 // pshufd $0x0,%xmm3,%xmm7
- .byte 68,139,72,16 // mov 0x10(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 102,65,15,110,226 // movd %r10d,%xmm4
+ .byte 68,139,64,16 // mov 0x10(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 102,65,15,110,225 // movd %r9d,%xmm4
.byte 102,15,112,228,0 // pshufd $0x0,%xmm4,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
.byte 15,89,226 // mulps %xmm2,%xmm4
@@ -42356,16 +42270,16 @@ _sk_clut_4D_sse2:
.byte 102,15,98,226 // punpckldq %xmm2,%xmm4
.byte 102,15,111,244 // movdqa %xmm4,%xmm6
.byte 102,15,127,116,36,80 // movdqa %xmm6,0x50(%rsp)
- .byte 102,65,15,110,209 // movd %r9d,%xmm2
+ .byte 102,65,15,110,208 // movd %r8d,%xmm2
.byte 102,15,244,211 // pmuludq %xmm3,%xmm2
.byte 102,15,112,210,232 // pshufd $0xe8,%xmm2,%xmm2
.byte 102,15,244,216 // pmuludq %xmm0,%xmm3
.byte 102,15,112,219,232 // pshufd $0xe8,%xmm3,%xmm3
.byte 102,15,98,211 // punpckldq %xmm3,%xmm2
.byte 102,68,15,112,250,0 // pshufd $0x0,%xmm2,%xmm15
- .byte 68,139,72,12 // mov 0xc(%rax),%r9d
- .byte 69,141,81,255 // lea -0x1(%r9),%r10d
- .byte 102,65,15,110,218 // movd %r10d,%xmm3
+ .byte 68,139,64,12 // mov 0xc(%rax),%r8d
+ .byte 69,141,72,255 // lea -0x1(%r8),%r9d
+ .byte 102,65,15,110,217 // movd %r9d,%xmm3
.byte 102,15,112,219,0 // pshufd $0x0,%xmm3,%xmm3
.byte 15,91,227 // cvtdq2ps %xmm3,%xmm4
.byte 15,89,225 // mulps %xmm1,%xmm4
@@ -42382,11 +42296,11 @@ _sk_clut_4D_sse2:
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,98,217 // punpckldq %xmm1,%xmm3
.byte 102,15,127,92,36,16 // movdqa %xmm3,0x10(%rsp)
- .byte 102,65,15,110,201 // movd %r9d,%xmm1
+ .byte 102,65,15,110,200 // movd %r8d,%xmm1
.byte 102,15,244,202 // pmuludq %xmm2,%xmm1
- .byte 68,139,72,8 // mov 0x8(%rax),%r9d
- .byte 65,255,201 // dec %r9d
- .byte 102,65,15,110,209 // movd %r9d,%xmm2
+ .byte 68,139,64,8 // mov 0x8(%rax),%r8d
+ .byte 65,255,200 // dec %r8d
+ .byte 102,65,15,110,208 // movd %r8d,%xmm2
.byte 102,15,112,210,0 // pshufd $0x0,%xmm2,%xmm2
.byte 68,15,91,242 // cvtdq2ps %xmm2,%xmm14
.byte 68,15,89,240 // mulps %xmm0,%xmm14
@@ -42411,7 +42325,7 @@ _sk_clut_4D_sse2:
.byte 102,15,254,209 // paddd %xmm1,%xmm2
.byte 102,15,111,220 // movdqa %xmm4,%xmm3
.byte 102,15,254,218 // paddd %xmm2,%xmm3
- .byte 102,68,15,111,21,159,180,0,0 // movdqa 0xb49f(%rip),%xmm10 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,68,15,111,21,99,181,0,0 // movdqa 0xb563(%rip),%xmm10 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,112,235,245 // pshufd $0xf5,%xmm3,%xmm5
.byte 102,65,15,244,218 // pmuludq %xmm10,%xmm3
.byte 102,15,112,227,232 // pshufd $0xe8,%xmm3,%xmm4
@@ -42419,56 +42333,56 @@ _sk_clut_4D_sse2:
.byte 102,15,112,221,232 // pshufd $0xe8,%xmm5,%xmm3
.byte 102,15,98,227 // punpckldq %xmm3,%xmm4
.byte 102,15,112,220,229 // pshufd $0xe5,%xmm4,%xmm3
- .byte 102,65,15,126,217 // movd %xmm3,%r9d
+ .byte 102,65,15,126,216 // movd %xmm3,%r8d
.byte 102,15,112,220,78 // pshufd $0x4e,%xmm4,%xmm3
- .byte 102,65,15,126,218 // movd %xmm3,%r10d
+ .byte 102,65,15,126,217 // movd %xmm3,%r9d
.byte 102,15,112,220,231 // pshufd $0xe7,%xmm4,%xmm3
- .byte 102,65,15,126,219 // movd %xmm3,%r11d
- .byte 72,139,24 // mov (%rax),%rbx
- .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 102,65,15,126,218 // movd %xmm3,%r10d
+ .byte 76,139,24 // mov (%rax),%r11
+ .byte 243,67,15,16,28,147 // movss (%r11,%r10,4),%xmm3
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,235 // unpcklps %xmm3,%xmm5
.byte 102,15,126,224 // movd %xmm4,%eax
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,52,147 // movss (%rbx,%r10,4),%xmm6
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,52,139 // movss (%r11,%r9,4),%xmm6
.byte 15,20,222 // unpcklps %xmm6,%xmm3
.byte 15,20,221 // unpcklps %xmm5,%xmm3
.byte 102,15,111,236 // movdqa %xmm4,%xmm5
- .byte 102,15,254,45,161,173,0,0 // paddd 0xada1(%rip),%xmm5 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,254,45,100,174,0,0 // paddd 0xae64(%rip),%xmm5 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,112,245,78 // pshufd $0x4e,%xmm5,%xmm6
- .byte 102,73,15,126,241 // movq %xmm6,%r9
- .byte 102,73,15,126,234 // movq %xmm5,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,240 // movq %xmm6,%r8
+ .byte 102,73,15,126,233 // movq %xmm5,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,52,155 // movss (%rbx,%r11,4),%xmm6
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,52,147 // movss (%r11,%r10,4),%xmm6
.byte 15,20,238 // unpcklps %xmm6,%xmm5
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,52,131 // movss (%rbx,%rax,4),%xmm6
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,52,131 // movss (%r11,%rax,4),%xmm6
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,247 // unpcklps %xmm7,%xmm6
.byte 15,20,245 // unpcklps %xmm5,%xmm6
- .byte 102,15,254,37,119,173,0,0 // paddd 0xad77(%rip),%xmm4 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,254,37,56,174,0,0 // paddd 0xae38(%rip),%xmm4 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,112,236,78 // pshufd $0x4e,%xmm4,%xmm5
- .byte 102,73,15,126,233 // movq %xmm5,%r9
- .byte 102,73,15,126,226 // movq %xmm4,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,232 // movq %xmm5,%r8
+ .byte 102,73,15,126,225 // movq %xmm4,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,44,155 // movss (%rbx,%r11,4),%xmm5
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,44,147 // movss (%r11,%r10,4),%xmm5
.byte 15,20,229 // unpcklps %xmm5,%xmm4
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,239 // unpcklps %xmm7,%xmm5
.byte 15,20,236 // unpcklps %xmm4,%xmm5
- .byte 15,40,61,142,179,0,0 // movaps 0xb38e(%rip),%xmm7 # 2c9a0 <_sk_overlay_sse2_8bit+0x14bb>
+ .byte 15,40,61,77,180,0,0 // movaps 0xb44d(%rip),%xmm7 # 2c9d0 <_sk_overlay_sse2_8bit+0x1533>
.byte 68,15,88,199 // addps %xmm7,%xmm8
.byte 68,15,41,68,36,176 // movaps %xmm8,-0x50(%rsp)
.byte 68,15,88,207 // addps %xmm7,%xmm9
@@ -42492,52 +42406,52 @@ _sk_clut_4D_sse2:
.byte 102,15,112,215,232 // pshufd $0xe8,%xmm7,%xmm2
.byte 102,15,98,194 // punpckldq %xmm2,%xmm0
.byte 102,15,112,208,229 // pshufd $0xe5,%xmm0,%xmm2
- .byte 102,65,15,126,210 // movd %xmm2,%r10d
- .byte 102,15,112,208,78 // pshufd $0x4e,%xmm0,%xmm2
.byte 102,65,15,126,209 // movd %xmm2,%r9d
+ .byte 102,15,112,208,78 // pshufd $0x4e,%xmm0,%xmm2
+ .byte 102,65,15,126,208 // movd %xmm2,%r8d
.byte 102,15,112,208,231 // pshufd $0xe7,%xmm0,%xmm2
.byte 102,15,126,208 // movd %xmm2,%eax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,60,147 // movss (%rbx,%r10,4),%xmm7
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,60,139 // movss (%r11,%r9,4),%xmm7
.byte 15,20,250 // unpcklps %xmm2,%xmm7
.byte 102,15,126,192 // movd %xmm0,%eax
- .byte 243,68,15,16,44,131 // movss (%rbx,%rax,4),%xmm13
- .byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
+ .byte 243,69,15,16,44,131 // movss (%r11,%rax,4),%xmm13
+ .byte 243,67,15,16,20,131 // movss (%r11,%r8,4),%xmm2
.byte 68,15,20,234 // unpcklps %xmm2,%xmm13
.byte 68,15,20,239 // unpcklps %xmm7,%xmm13
.byte 102,15,111,208 // movdqa %xmm0,%xmm2
- .byte 102,15,254,21,85,172,0,0 // paddd 0xac55(%rip),%xmm2 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,254,21,19,173,0,0 // paddd 0xad13(%rip),%xmm2 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,112,250,78 // pshufd $0x4e,%xmm2,%xmm7
- .byte 102,73,15,126,249 // movq %xmm7,%r9
- .byte 102,73,15,126,210 // movq %xmm2,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,248 // movq %xmm7,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,60,131 // movss (%rbx,%rax,4),%xmm7
- .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,65,15,16,60,131 // movss (%r11,%rax,4),%xmm7
+ .byte 243,67,15,16,20,147 // movss (%r11,%r10,4),%xmm2
.byte 15,20,250 // unpcklps %xmm2,%xmm7
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,70,15,16,12,139 // movss (%rbx,%r9,4),%xmm9
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,71,15,16,12,131 // movss (%r11,%r8,4),%xmm9
.byte 65,15,20,209 // unpcklps %xmm9,%xmm2
.byte 15,20,215 // unpcklps %xmm7,%xmm2
- .byte 102,15,254,5,42,172,0,0 // paddd 0xac2a(%rip),%xmm0 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,254,5,230,172,0,0 // paddd 0xace6(%rip),%xmm0 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,112,248,78 // pshufd $0x4e,%xmm0,%xmm7
- .byte 102,73,15,126,249 // movq %xmm7,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,248 // movq %xmm7,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,60,131 // movss (%rbx,%rax,4),%xmm7
- .byte 243,66,15,16,4,155 // movss (%rbx,%r11,4),%xmm0
+ .byte 243,65,15,16,60,131 // movss (%r11,%rax,4),%xmm7
+ .byte 243,67,15,16,4,147 // movss (%r11,%r10,4),%xmm0
.byte 15,20,248 // unpcklps %xmm0,%xmm7
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 15,20,196 // unpcklps %xmm4,%xmm0
.byte 15,20,199 // unpcklps %xmm7,%xmm0
.byte 65,15,91,228 // cvtdq2ps %xmm12,%xmm4
@@ -42564,61 +42478,61 @@ _sk_clut_4D_sse2:
.byte 102,15,111,217 // movdqa %xmm1,%xmm3
.byte 102,15,254,92,36,160 // paddd -0x60(%rsp),%xmm3
.byte 102,15,112,227,245 // pshufd $0xf5,%xmm3,%xmm4
- .byte 102,68,15,111,53,230,177,0,0 // movdqa 0xb1e6(%rip),%xmm14 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,68,15,111,53,160,178,0,0 // movdqa 0xb2a0(%rip),%xmm14 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,65,15,244,222 // pmuludq %xmm14,%xmm3
.byte 102,15,112,219,232 // pshufd $0xe8,%xmm3,%xmm3
.byte 102,65,15,244,230 // pmuludq %xmm14,%xmm4
.byte 102,15,112,228,232 // pshufd $0xe8,%xmm4,%xmm4
.byte 102,15,98,220 // punpckldq %xmm4,%xmm3
.byte 102,15,112,227,229 // pshufd $0xe5,%xmm3,%xmm4
- .byte 102,65,15,126,226 // movd %xmm4,%r10d
- .byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
.byte 102,65,15,126,225 // movd %xmm4,%r9d
+ .byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
+ .byte 102,65,15,126,224 // movd %xmm4,%r8d
.byte 102,15,112,227,231 // pshufd $0xe7,%xmm3,%xmm4
.byte 102,15,126,224 // movd %xmm4,%eax
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,44,147 // movss (%rbx,%r10,4),%xmm5
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,44,139 // movss (%r11,%r9,4),%xmm5
.byte 15,20,236 // unpcklps %xmm4,%xmm5
.byte 102,15,126,216 // movd %xmm3,%eax
- .byte 243,68,15,16,36,131 // movss (%rbx,%rax,4),%xmm12
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 243,69,15,16,36,131 // movss (%r11,%rax,4),%xmm12
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 68,15,20,228 // unpcklps %xmm4,%xmm12
.byte 68,15,20,229 // unpcklps %xmm5,%xmm12
.byte 102,15,111,227 // movdqa %xmm3,%xmm4
- .byte 102,15,111,61,239,170,0,0 // movdqa 0xaaef(%rip),%xmm7 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,111,61,168,171,0,0 // movdqa 0xaba8(%rip),%xmm7 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,254,231 // paddd %xmm7,%xmm4
.byte 102,15,112,236,78 // pshufd $0x4e,%xmm4,%xmm5
- .byte 102,73,15,126,233 // movq %xmm5,%r9
- .byte 102,73,15,126,226 // movq %xmm4,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,232 // movq %xmm5,%r8
+ .byte 102,73,15,126,225 // movq %xmm4,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,44,155 // movss (%rbx,%r11,4),%xmm5
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,44,147 // movss (%r11,%r10,4),%xmm5
.byte 15,20,229 // unpcklps %xmm5,%xmm4
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,52,131 // movss (%rbx,%rax,4),%xmm6
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,52,131 // movss (%r11,%rax,4),%xmm6
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,245 // unpcklps %xmm5,%xmm6
.byte 15,20,244 // unpcklps %xmm4,%xmm6
- .byte 102,68,15,111,5,192,170,0,0 // movdqa 0xaac0(%rip),%xmm8 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,68,15,111,5,119,171,0,0 // movdqa 0xab77(%rip),%xmm8 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,65,15,254,216 // paddd %xmm8,%xmm3
.byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
- .byte 102,73,15,126,225 // movq %xmm4,%r9
- .byte 102,73,15,126,218 // movq %xmm3,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,224 // movq %xmm4,%r8
+ .byte 102,73,15,126,217 // movq %xmm3,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,36,155 // movss (%rbx,%r11,4),%xmm4
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,36,147 // movss (%r11,%r10,4),%xmm4
.byte 15,20,220 // unpcklps %xmm4,%xmm3
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 15,20,236 // unpcklps %xmm4,%xmm5
.byte 15,20,235 // unpcklps %xmm3,%xmm5
.byte 102,65,15,254,203 // paddd %xmm11,%xmm1
@@ -42629,52 +42543,52 @@ _sk_clut_4D_sse2:
.byte 102,15,112,219,232 // pshufd $0xe8,%xmm3,%xmm3
.byte 102,15,98,203 // punpckldq %xmm3,%xmm1
.byte 102,15,112,217,229 // pshufd $0xe5,%xmm1,%xmm3
- .byte 102,65,15,126,218 // movd %xmm3,%r10d
- .byte 102,15,112,217,78 // pshufd $0x4e,%xmm1,%xmm3
.byte 102,65,15,126,217 // movd %xmm3,%r9d
+ .byte 102,15,112,217,78 // pshufd $0x4e,%xmm1,%xmm3
+ .byte 102,65,15,126,216 // movd %xmm3,%r8d
.byte 102,15,112,217,231 // pshufd $0xe7,%xmm1,%xmm3
.byte 102,15,126,216 // movd %xmm3,%eax
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,36,147 // movss (%rbx,%r10,4),%xmm4
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,36,139 // movss (%r11,%r9,4),%xmm4
.byte 15,20,227 // unpcklps %xmm3,%xmm4
.byte 102,15,126,200 // movd %xmm1,%eax
- .byte 243,68,15,16,60,131 // movss (%rbx,%rax,4),%xmm15
- .byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 243,69,15,16,60,131 // movss (%r11,%rax,4),%xmm15
+ .byte 243,67,15,16,28,131 // movss (%r11,%r8,4),%xmm3
.byte 68,15,20,251 // unpcklps %xmm3,%xmm15
.byte 68,15,20,252 // unpcklps %xmm4,%xmm15
.byte 102,15,111,217 // movdqa %xmm1,%xmm3
.byte 102,15,254,223 // paddd %xmm7,%xmm3
.byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
- .byte 102,73,15,126,225 // movq %xmm4,%r9
- .byte 102,73,15,126,218 // movq %xmm3,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,224 // movq %xmm4,%r8
+ .byte 102,73,15,126,217 // movq %xmm3,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,28,147 // movss (%r11,%r10,4),%xmm3
.byte 15,20,227 // unpcklps %xmm3,%xmm4
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,68,15,16,52,131 // movss (%rbx,%rax,4),%xmm14
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,69,15,16,52,131 // movss (%r11,%rax,4),%xmm14
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 68,15,20,247 // unpcklps %xmm7,%xmm14
.byte 68,15,20,244 // unpcklps %xmm4,%xmm14
.byte 102,65,15,254,200 // paddd %xmm8,%xmm1
.byte 102,15,112,225,78 // pshufd $0x4e,%xmm1,%xmm4
- .byte 102,73,15,126,225 // movq %xmm4,%r9
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,224 // movq %xmm4,%r8
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,36,155 // movss (%rbx,%r11,4),%xmm4
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,36,147 // movss (%r11,%r10,4),%xmm4
.byte 15,20,204 // unpcklps %xmm4,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,68,15,16,20,131 // movss (%rbx,%rax,4),%xmm10
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,69,15,16,20,131 // movss (%r11,%rax,4),%xmm10
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 68,15,20,215 // unpcklps %xmm7,%xmm10
.byte 68,15,20,209 // unpcklps %xmm1,%xmm10
.byte 69,15,92,252 // subps %xmm12,%xmm15
@@ -42717,7 +42631,7 @@ _sk_clut_4D_sse2:
.byte 102,68,15,111,108,36,160 // movdqa -0x60(%rsp),%xmm13
.byte 102,65,15,254,205 // paddd %xmm13,%xmm1
.byte 102,15,112,209,245 // pshufd $0xf5,%xmm1,%xmm2
- .byte 102,15,111,29,44,175,0,0 // movdqa 0xaf2c(%rip),%xmm3 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,29,222,175,0,0 // movdqa 0xafde(%rip),%xmm3 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,244,203 // pmuludq %xmm3,%xmm1
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,244,211 // pmuludq %xmm3,%xmm2
@@ -42725,54 +42639,54 @@ _sk_clut_4D_sse2:
.byte 102,15,112,210,232 // pshufd $0xe8,%xmm2,%xmm2
.byte 102,15,98,202 // punpckldq %xmm2,%xmm1
.byte 102,15,112,209,229 // pshufd $0xe5,%xmm1,%xmm2
- .byte 102,65,15,126,210 // movd %xmm2,%r10d
- .byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
.byte 102,65,15,126,209 // movd %xmm2,%r9d
+ .byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
+ .byte 102,65,15,126,208 // movd %xmm2,%r8d
.byte 102,15,112,209,231 // pshufd $0xe7,%xmm1,%xmm2
.byte 102,15,126,208 // movd %xmm2,%eax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,44,147 // movss (%rbx,%r10,4),%xmm5
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,44,139 // movss (%r11,%r9,4),%xmm5
.byte 15,20,234 // unpcklps %xmm2,%xmm5
.byte 102,15,126,200 // movd %xmm1,%eax
- .byte 243,68,15,16,12,131 // movss (%rbx,%rax,4),%xmm9
- .byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
+ .byte 243,69,15,16,12,131 // movss (%r11,%rax,4),%xmm9
+ .byte 243,67,15,16,20,131 // movss (%r11,%r8,4),%xmm2
.byte 68,15,20,202 // unpcklps %xmm2,%xmm9
.byte 68,15,20,205 // unpcklps %xmm5,%xmm9
.byte 102,15,111,209 // movdqa %xmm1,%xmm2
- .byte 102,15,111,29,51,168,0,0 // movdqa 0xa833(%rip),%xmm3 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,111,29,228,168,0,0 // movdqa 0xa8e4(%rip),%xmm3 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,254,211 // paddd %xmm3,%xmm2
.byte 102,15,112,234,78 // pshufd $0x4e,%xmm2,%xmm5
- .byte 102,73,15,126,233 // movq %xmm5,%r9
- .byte 102,73,15,126,210 // movq %xmm2,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,232 // movq %xmm5,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,20,147 // movss (%r11,%r10,4),%xmm2
.byte 15,20,234 // unpcklps %xmm2,%xmm5
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,52,139 // movss (%rbx,%r9,4),%xmm6
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,52,131 // movss (%r11,%r8,4),%xmm6
.byte 15,20,214 // unpcklps %xmm6,%xmm2
.byte 15,20,213 // unpcklps %xmm5,%xmm2
.byte 102,69,15,111,224 // movdqa %xmm8,%xmm12
.byte 102,65,15,254,204 // paddd %xmm12,%xmm1
.byte 102,15,112,233,78 // pshufd $0x4e,%xmm1,%xmm5
- .byte 102,73,15,126,233 // movq %xmm5,%r9
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,232 // movq %xmm5,%r8
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,44,155 // movss (%rbx,%r11,4),%xmm5
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,44,147 // movss (%r11,%r10,4),%xmm5
.byte 15,20,205 // unpcklps %xmm5,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,52,131 // movss (%rbx,%rax,4),%xmm6
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,52,131 // movss (%r11,%rax,4),%xmm6
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,245 // unpcklps %xmm5,%xmm6
.byte 15,20,241 // unpcklps %xmm1,%xmm6
.byte 102,15,111,36,36 // movdqa (%rsp),%xmm4
@@ -42784,52 +42698,52 @@ _sk_clut_4D_sse2:
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,98,193 // punpckldq %xmm1,%xmm0
.byte 102,15,112,200,229 // pshufd $0xe5,%xmm0,%xmm1
- .byte 102,65,15,126,202 // movd %xmm1,%r10d
- .byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,65,15,126,201 // movd %xmm1,%r9d
+ .byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
+ .byte 102,65,15,126,200 // movd %xmm1,%r8d
.byte 102,15,112,200,231 // pshufd $0xe7,%xmm0,%xmm1
.byte 102,15,126,200 // movd %xmm1,%eax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,44,147 // movss (%rbx,%r10,4),%xmm5
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,44,139 // movss (%r11,%r9,4),%xmm5
.byte 15,20,233 // unpcklps %xmm1,%xmm5
.byte 102,15,126,192 // movd %xmm0,%eax
- .byte 243,68,15,16,4,131 // movss (%rbx,%rax,4),%xmm8
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 243,69,15,16,4,131 // movss (%r11,%rax,4),%xmm8
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 68,15,20,199 // unpcklps %xmm7,%xmm8
.byte 68,15,20,197 // unpcklps %xmm5,%xmm8
.byte 102,15,111,232 // movdqa %xmm0,%xmm5
.byte 102,15,254,235 // paddd %xmm3,%xmm5
.byte 102,15,112,253,78 // pshufd $0x4e,%xmm5,%xmm7
- .byte 102,73,15,126,249 // movq %xmm7,%r9
- .byte 102,73,15,126,234 // movq %xmm5,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,248 // movq %xmm7,%r8
+ .byte 102,73,15,126,233 // movq %xmm5,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,60,131 // movss (%rbx,%rax,4),%xmm7
- .byte 243,66,15,16,44,155 // movss (%rbx,%r11,4),%xmm5
+ .byte 243,65,15,16,60,131 // movss (%r11,%rax,4),%xmm7
+ .byte 243,67,15,16,44,147 // movss (%r11,%r10,4),%xmm5
.byte 15,20,253 // unpcklps %xmm5,%xmm7
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,28,131 // movss (%r11,%r8,4),%xmm3
.byte 15,20,235 // unpcklps %xmm3,%xmm5
.byte 15,20,239 // unpcklps %xmm7,%xmm5
.byte 102,65,15,254,196 // paddd %xmm12,%xmm0
.byte 102,15,112,216,78 // pshufd $0x4e,%xmm0,%xmm3
- .byte 102,73,15,126,217 // movq %xmm3,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,216 // movq %xmm3,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,4,155 // movss (%rbx,%r11,4),%xmm0
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,4,147 // movss (%r11,%r10,4),%xmm0
.byte 15,20,216 // unpcklps %xmm0,%xmm3
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,207 // unpcklps %xmm7,%xmm1
.byte 15,20,203 // unpcklps %xmm3,%xmm1
.byte 69,15,92,193 // subps %xmm9,%xmm8
@@ -42847,118 +42761,118 @@ _sk_clut_4D_sse2:
.byte 102,65,15,111,211 // movdqa %xmm11,%xmm2
.byte 102,65,15,254,213 // paddd %xmm13,%xmm2
.byte 102,15,112,218,245 // pshufd $0xf5,%xmm2,%xmm3
- .byte 102,15,111,5,244,172,0,0 // movdqa 0xacf4(%rip),%xmm0 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,5,156,173,0,0 // movdqa 0xad9c(%rip),%xmm0 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,244,208 // pmuludq %xmm0,%xmm2
.byte 102,15,112,250,232 // pshufd $0xe8,%xmm2,%xmm7
.byte 102,15,244,216 // pmuludq %xmm0,%xmm3
.byte 102,15,112,211,232 // pshufd $0xe8,%xmm3,%xmm2
.byte 102,15,98,250 // punpckldq %xmm2,%xmm7
.byte 102,15,112,215,229 // pshufd $0xe5,%xmm7,%xmm2
- .byte 102,65,15,126,210 // movd %xmm2,%r10d
- .byte 102,15,112,215,78 // pshufd $0x4e,%xmm7,%xmm2
.byte 102,65,15,126,209 // movd %xmm2,%r9d
+ .byte 102,15,112,215,78 // pshufd $0x4e,%xmm7,%xmm2
+ .byte 102,65,15,126,208 // movd %xmm2,%r8d
.byte 102,15,112,215,231 // pshufd $0xe7,%xmm7,%xmm2
.byte 102,15,126,208 // movd %xmm2,%eax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,28,139 // movss (%r11,%r9,4),%xmm3
.byte 15,20,218 // unpcklps %xmm2,%xmm3
.byte 102,15,126,248 // movd %xmm7,%eax
- .byte 243,68,15,16,12,131 // movss (%rbx,%rax,4),%xmm9
- .byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
+ .byte 243,69,15,16,12,131 // movss (%r11,%rax,4),%xmm9
+ .byte 243,67,15,16,20,131 // movss (%r11,%r8,4),%xmm2
.byte 68,15,20,202 // unpcklps %xmm2,%xmm9
.byte 68,15,20,203 // unpcklps %xmm3,%xmm9
.byte 102,15,111,215 // movdqa %xmm7,%xmm2
- .byte 102,15,111,5,255,165,0,0 // movdqa 0xa5ff(%rip),%xmm0 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,111,5,166,166,0,0 // movdqa 0xa6a6(%rip),%xmm0 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,254,208 // paddd %xmm0,%xmm2
.byte 102,15,112,218,78 // pshufd $0x4e,%xmm2,%xmm3
- .byte 102,73,15,126,217 // movq %xmm3,%r9
- .byte 102,73,15,126,210 // movq %xmm2,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,216 // movq %xmm3,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,28,147 // movss (%r11,%r10,4),%xmm3
.byte 15,20,211 // unpcklps %xmm3,%xmm2
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,52,131 // movss (%rbx,%rax,4),%xmm6
- .byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,52,131 // movss (%r11,%rax,4),%xmm6
+ .byte 243,67,15,16,28,131 // movss (%r11,%r8,4),%xmm3
.byte 15,20,243 // unpcklps %xmm3,%xmm6
.byte 15,20,242 // unpcklps %xmm2,%xmm6
- .byte 102,68,15,111,45,208,165,0,0 // movdqa 0xa5d0(%rip),%xmm13 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,68,15,111,45,117,166,0,0 // movdqa 0xa675(%rip),%xmm13 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,65,15,254,253 // paddd %xmm13,%xmm7
.byte 102,15,112,215,78 // pshufd $0x4e,%xmm7,%xmm2
- .byte 102,73,15,126,209 // movq %xmm2,%r9
- .byte 102,73,15,126,250 // movq %xmm7,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,208 // movq %xmm2,%r8
+ .byte 102,73,15,126,249 // movq %xmm7,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,28,147 // movss (%r11,%r10,4),%xmm3
.byte 15,20,211 // unpcklps %xmm3,%xmm2
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,60,131 // movss (%rbx,%rax,4),%xmm7
- .byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,60,131 // movss (%r11,%rax,4),%xmm7
+ .byte 243,67,15,16,28,131 // movss (%r11,%r8,4),%xmm3
.byte 15,20,251 // unpcklps %xmm3,%xmm7
.byte 15,20,250 // unpcklps %xmm2,%xmm7
.byte 102,68,15,254,220 // paddd %xmm4,%xmm11
.byte 102,65,15,112,219,245 // pshufd $0xf5,%xmm11,%xmm3
- .byte 102,15,111,37,230,171,0,0 // movdqa 0xabe6(%rip),%xmm4 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,37,137,172,0,0 // movdqa 0xac89(%rip),%xmm4 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,68,15,244,220 // pmuludq %xmm4,%xmm11
.byte 102,65,15,112,211,232 // pshufd $0xe8,%xmm11,%xmm2
.byte 102,15,244,220 // pmuludq %xmm4,%xmm3
.byte 102,15,112,219,232 // pshufd $0xe8,%xmm3,%xmm3
.byte 102,15,98,211 // punpckldq %xmm3,%xmm2
.byte 102,15,112,218,229 // pshufd $0xe5,%xmm2,%xmm3
- .byte 102,65,15,126,218 // movd %xmm3,%r10d
- .byte 102,15,112,218,78 // pshufd $0x4e,%xmm2,%xmm3
.byte 102,65,15,126,217 // movd %xmm3,%r9d
+ .byte 102,15,112,218,78 // pshufd $0x4e,%xmm2,%xmm3
+ .byte 102,65,15,126,216 // movd %xmm3,%r8d
.byte 102,15,112,218,231 // pshufd $0xe7,%xmm2,%xmm3
.byte 102,15,126,216 // movd %xmm3,%eax
- .byte 243,68,15,16,28,131 // movss (%rbx,%rax,4),%xmm11
- .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
+ .byte 243,69,15,16,28,131 // movss (%r11,%rax,4),%xmm11
+ .byte 243,67,15,16,28,139 // movss (%r11,%r9,4),%xmm3
.byte 65,15,20,219 // unpcklps %xmm11,%xmm3
.byte 102,15,126,208 // movd %xmm2,%eax
- .byte 243,68,15,16,28,131 // movss (%rbx,%rax,4),%xmm11
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 243,69,15,16,28,131 // movss (%r11,%rax,4),%xmm11
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 68,15,20,220 // unpcklps %xmm4,%xmm11
.byte 68,15,20,219 // unpcklps %xmm3,%xmm11
.byte 102,15,111,218 // movdqa %xmm2,%xmm3
.byte 102,15,254,216 // paddd %xmm0,%xmm3
.byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
- .byte 102,73,15,126,225 // movq %xmm4,%r9
- .byte 102,73,15,126,218 // movq %xmm3,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,224 // movq %xmm4,%r8
+ .byte 102,73,15,126,217 // movq %xmm3,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,36,155 // movss (%rbx,%r11,4),%xmm4
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,36,147 // movss (%r11,%r10,4),%xmm4
.byte 15,20,220 // unpcklps %xmm4,%xmm3
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 15,20,196 // unpcklps %xmm4,%xmm0
.byte 15,20,195 // unpcklps %xmm3,%xmm0
.byte 102,65,15,254,213 // paddd %xmm13,%xmm2
.byte 102,15,112,218,78 // pshufd $0x4e,%xmm2,%xmm3
- .byte 102,73,15,126,217 // movq %xmm3,%r9
- .byte 102,73,15,126,210 // movq %xmm2,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,216 // movq %xmm3,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,28,147 // movss (%r11,%r10,4),%xmm3
.byte 15,20,211 // unpcklps %xmm3,%xmm2
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,68,15,16,44,131 // movss (%rbx,%rax,4),%xmm13
- .byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,69,15,16,44,131 // movss (%r11,%rax,4),%xmm13
+ .byte 243,67,15,16,28,131 // movss (%r11,%r8,4),%xmm3
.byte 68,15,20,235 // unpcklps %xmm3,%xmm13
.byte 68,15,20,234 // unpcklps %xmm2,%xmm13
.byte 69,15,92,217 // subps %xmm9,%xmm11
@@ -43007,7 +42921,7 @@ _sk_clut_4D_sse2:
.byte 102,65,15,111,202 // movdqa %xmm10,%xmm1
.byte 102,15,254,200 // paddd %xmm0,%xmm1
.byte 102,15,112,209,245 // pshufd $0xf5,%xmm1,%xmm2
- .byte 102,15,111,29,40,170,0,0 // movdqa 0xaa28(%rip),%xmm3 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,29,200,170,0,0 // movdqa 0xaac8(%rip),%xmm3 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,244,203 // pmuludq %xmm3,%xmm1
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,244,211 // pmuludq %xmm3,%xmm2
@@ -43015,54 +42929,54 @@ _sk_clut_4D_sse2:
.byte 102,15,112,210,232 // pshufd $0xe8,%xmm2,%xmm2
.byte 102,15,98,202 // punpckldq %xmm2,%xmm1
.byte 102,15,112,209,229 // pshufd $0xe5,%xmm1,%xmm2
- .byte 102,65,15,126,210 // movd %xmm2,%r10d
- .byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
.byte 102,65,15,126,209 // movd %xmm2,%r9d
+ .byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
+ .byte 102,65,15,126,208 // movd %xmm2,%r8d
.byte 102,15,112,209,231 // pshufd $0xe7,%xmm1,%xmm2
.byte 102,15,126,208 // movd %xmm2,%eax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,28,139 // movss (%r11,%r9,4),%xmm3
.byte 15,20,218 // unpcklps %xmm2,%xmm3
.byte 102,15,126,200 // movd %xmm1,%eax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 15,20,212 // unpcklps %xmm4,%xmm2
.byte 15,20,211 // unpcklps %xmm3,%xmm2
.byte 102,15,111,217 // movdqa %xmm1,%xmm3
- .byte 102,15,111,61,49,163,0,0 // movdqa 0xa331(%rip),%xmm7 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,111,61,207,163,0,0 // movdqa 0xa3cf(%rip),%xmm7 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,254,223 // paddd %xmm7,%xmm3
.byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
- .byte 102,73,15,126,225 // movq %xmm4,%r9
- .byte 102,73,15,126,218 // movq %xmm3,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,224 // movq %xmm4,%r8
+ .byte 102,73,15,126,217 // movq %xmm3,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,28,147 // movss (%r11,%r10,4),%xmm3
.byte 15,20,227 // unpcklps %xmm3,%xmm4
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,221 // unpcklps %xmm5,%xmm3
.byte 15,20,220 // unpcklps %xmm4,%xmm3
- .byte 102,68,15,111,13,2,163,0,0 // movdqa 0xa302(%rip),%xmm9 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,68,15,111,13,158,163,0,0 // movdqa 0xa39e(%rip),%xmm9 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,65,15,254,201 // paddd %xmm9,%xmm1
.byte 102,15,112,225,78 // pshufd $0x4e,%xmm1,%xmm4
- .byte 102,73,15,126,225 // movq %xmm4,%r9
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,224 // movq %xmm4,%r8
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,36,155 // movss (%rbx,%r11,4),%xmm4
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,36,147 // movss (%r11,%r10,4),%xmm4
.byte 15,20,204 // unpcklps %xmm4,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 15,20,229 // unpcklps %xmm5,%xmm4
.byte 15,20,225 // unpcklps %xmm1,%xmm4
.byte 102,68,15,111,60,36 // movdqa (%rsp),%xmm15
@@ -43074,52 +42988,52 @@ _sk_clut_4D_sse2:
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,98,193 // punpckldq %xmm1,%xmm0
.byte 102,15,112,200,229 // pshufd $0xe5,%xmm0,%xmm1
- .byte 102,65,15,126,202 // movd %xmm1,%r10d
- .byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,65,15,126,201 // movd %xmm1,%r9d
+ .byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
+ .byte 102,65,15,126,200 // movd %xmm1,%r8d
.byte 102,15,112,200,231 // pshufd $0xe7,%xmm0,%xmm1
.byte 102,15,126,200 // movd %xmm1,%eax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,44,147 // movss (%rbx,%r10,4),%xmm5
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,44,139 // movss (%r11,%r9,4),%xmm5
.byte 15,20,233 // unpcklps %xmm1,%xmm5
.byte 102,15,126,192 // movd %xmm0,%eax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,52,139 // movss (%rbx,%r9,4),%xmm6
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,52,131 // movss (%r11,%r8,4),%xmm6
.byte 15,20,206 // unpcklps %xmm6,%xmm1
.byte 15,20,205 // unpcklps %xmm5,%xmm1
.byte 102,15,111,232 // movdqa %xmm0,%xmm5
.byte 102,15,254,239 // paddd %xmm7,%xmm5
.byte 102,15,112,245,78 // pshufd $0x4e,%xmm5,%xmm6
- .byte 102,73,15,126,241 // movq %xmm6,%r9
- .byte 102,73,15,126,234 // movq %xmm5,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,240 // movq %xmm6,%r8
+ .byte 102,73,15,126,233 // movq %xmm5,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,52,131 // movss (%rbx,%rax,4),%xmm6
- .byte 243,66,15,16,44,155 // movss (%rbx,%r11,4),%xmm5
+ .byte 243,65,15,16,52,131 // movss (%r11,%rax,4),%xmm6
+ .byte 243,67,15,16,44,147 // movss (%r11,%r10,4),%xmm5
.byte 15,20,245 // unpcklps %xmm5,%xmm6
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,239 // unpcklps %xmm7,%xmm5
.byte 15,20,238 // unpcklps %xmm6,%xmm5
.byte 102,65,15,254,193 // paddd %xmm9,%xmm0
.byte 102,15,112,240,78 // pshufd $0x4e,%xmm0,%xmm6
- .byte 102,73,15,126,241 // movq %xmm6,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,240 // movq %xmm6,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,52,131 // movss (%rbx,%rax,4),%xmm6
- .byte 243,66,15,16,4,155 // movss (%rbx,%r11,4),%xmm0
+ .byte 243,65,15,16,52,131 // movss (%r11,%rax,4),%xmm6
+ .byte 243,67,15,16,4,147 // movss (%r11,%r10,4),%xmm0
.byte 15,20,240 // unpcklps %xmm0,%xmm6
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,199 // unpcklps %xmm7,%xmm0
.byte 15,20,198 // unpcklps %xmm6,%xmm0
.byte 15,92,202 // subps %xmm2,%xmm1
@@ -43145,53 +43059,53 @@ _sk_clut_4D_sse2:
.byte 102,15,112,211,232 // pshufd $0xe8,%xmm3,%xmm2
.byte 102,15,98,226 // punpckldq %xmm2,%xmm4
.byte 102,15,112,212,229 // pshufd $0xe5,%xmm4,%xmm2
- .byte 102,65,15,126,210 // movd %xmm2,%r10d
- .byte 102,15,112,212,78 // pshufd $0x4e,%xmm4,%xmm2
.byte 102,65,15,126,209 // movd %xmm2,%r9d
+ .byte 102,15,112,212,78 // pshufd $0x4e,%xmm4,%xmm2
+ .byte 102,65,15,126,208 // movd %xmm2,%r8d
.byte 102,15,112,212,231 // pshufd $0xe7,%xmm4,%xmm2
.byte 102,15,126,208 // movd %xmm2,%eax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,28,147 // movss (%rbx,%r10,4),%xmm3
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,28,139 // movss (%r11,%r9,4),%xmm3
.byte 15,20,218 // unpcklps %xmm2,%xmm3
.byte 102,15,126,224 // movd %xmm4,%eax
- .byte 243,68,15,16,52,131 // movss (%rbx,%rax,4),%xmm14
- .byte 243,66,15,16,52,139 // movss (%rbx,%r9,4),%xmm6
+ .byte 243,69,15,16,52,131 // movss (%r11,%rax,4),%xmm14
+ .byte 243,67,15,16,52,131 // movss (%r11,%r8,4),%xmm6
.byte 68,15,20,246 // unpcklps %xmm6,%xmm14
.byte 68,15,20,243 // unpcklps %xmm3,%xmm14
.byte 102,15,111,220 // movdqa %xmm4,%xmm3
- .byte 102,68,15,111,21,245,160,0,0 // movdqa 0xa0f5(%rip),%xmm10 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,68,15,111,21,136,161,0,0 // movdqa 0xa188(%rip),%xmm10 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,65,15,254,218 // paddd %xmm10,%xmm3
.byte 102,15,112,243,78 // pshufd $0x4e,%xmm3,%xmm6
- .byte 102,73,15,126,241 // movq %xmm6,%r9
- .byte 102,73,15,126,218 // movq %xmm3,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,240 // movq %xmm6,%r8
+ .byte 102,73,15,126,217 // movq %xmm3,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,52,131 // movss (%rbx,%rax,4),%xmm6
- .byte 243,66,15,16,28,155 // movss (%rbx,%r11,4),%xmm3
+ .byte 243,65,15,16,52,131 // movss (%r11,%rax,4),%xmm6
+ .byte 243,67,15,16,28,147 // movss (%r11,%r10,4),%xmm3
.byte 15,20,243 // unpcklps %xmm3,%xmm6
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,223 // unpcklps %xmm7,%xmm3
.byte 15,20,222 // unpcklps %xmm6,%xmm3
.byte 102,65,15,254,225 // paddd %xmm9,%xmm4
.byte 102,15,112,244,78 // pshufd $0x4e,%xmm4,%xmm6
- .byte 102,73,15,126,241 // movq %xmm6,%r9
- .byte 102,73,15,126,226 // movq %xmm4,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,240 // movq %xmm6,%r8
+ .byte 102,73,15,126,225 // movq %xmm4,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,52,131 // movss (%rbx,%rax,4),%xmm6
- .byte 243,66,15,16,36,155 // movss (%rbx,%r11,4),%xmm4
+ .byte 243,65,15,16,52,131 // movss (%r11,%rax,4),%xmm6
+ .byte 243,67,15,16,36,147 // movss (%r11,%r10,4),%xmm4
.byte 15,20,244 // unpcklps %xmm4,%xmm6
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,231 // unpcklps %xmm7,%xmm4
.byte 15,20,230 // unpcklps %xmm6,%xmm4
.byte 102,65,15,111,211 // movdqa %xmm11,%xmm2
@@ -43203,52 +43117,52 @@ _sk_clut_4D_sse2:
.byte 102,15,112,255,232 // pshufd $0xe8,%xmm7,%xmm7
.byte 102,15,98,247 // punpckldq %xmm7,%xmm6
.byte 102,15,112,254,229 // pshufd $0xe5,%xmm6,%xmm7
- .byte 102,65,15,126,250 // movd %xmm7,%r10d
- .byte 102,15,112,254,78 // pshufd $0x4e,%xmm6,%xmm7
.byte 102,65,15,126,249 // movd %xmm7,%r9d
+ .byte 102,15,112,254,78 // pshufd $0x4e,%xmm6,%xmm7
+ .byte 102,65,15,126,248 // movd %xmm7,%r8d
.byte 102,15,112,254,231 // pshufd $0xe7,%xmm6,%xmm7
.byte 102,15,126,248 // movd %xmm7,%eax
- .byte 243,15,16,60,131 // movss (%rbx,%rax,4),%xmm7
- .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
+ .byte 243,65,15,16,60,131 // movss (%r11,%rax,4),%xmm7
+ .byte 243,67,15,16,20,139 // movss (%r11,%r9,4),%xmm2
.byte 15,20,215 // unpcklps %xmm7,%xmm2
.byte 102,15,126,240 // movd %xmm6,%eax
- .byte 243,68,15,16,36,131 // movss (%rbx,%rax,4),%xmm12
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 243,69,15,16,36,131 // movss (%r11,%rax,4),%xmm12
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 68,15,20,231 // unpcklps %xmm7,%xmm12
.byte 68,15,20,226 // unpcklps %xmm2,%xmm12
.byte 102,15,111,214 // movdqa %xmm6,%xmm2
.byte 102,65,15,254,210 // paddd %xmm10,%xmm2
.byte 102,15,112,250,78 // pshufd $0x4e,%xmm2,%xmm7
- .byte 102,73,15,126,249 // movq %xmm7,%r9
- .byte 102,73,15,126,210 // movq %xmm2,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,248 // movq %xmm7,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,60,155 // movss (%rbx,%r11,4),%xmm7
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,60,147 // movss (%r11,%r10,4),%xmm7
.byte 15,20,215 // unpcklps %xmm7,%xmm2
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,68,15,16,28,131 // movss (%rbx,%rax,4),%xmm11
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,69,15,16,28,131 // movss (%r11,%rax,4),%xmm11
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 68,15,20,223 // unpcklps %xmm7,%xmm11
.byte 68,15,20,218 // unpcklps %xmm2,%xmm11
.byte 102,65,15,254,241 // paddd %xmm9,%xmm6
.byte 102,15,112,214,78 // pshufd $0x4e,%xmm6,%xmm2
- .byte 102,73,15,126,209 // movq %xmm2,%r9
- .byte 102,73,15,126,242 // movq %xmm6,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,208 // movq %xmm2,%r8
+ .byte 102,73,15,126,241 // movq %xmm6,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,52,155 // movss (%rbx,%r11,4),%xmm6
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,52,147 // movss (%r11,%r10,4),%xmm6
.byte 15,20,214 // unpcklps %xmm6,%xmm2
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,68,15,16,20,131 // movss (%rbx,%rax,4),%xmm10
- .byte 243,66,15,16,52,139 // movss (%rbx,%r9,4),%xmm6
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,69,15,16,20,131 // movss (%r11,%rax,4),%xmm10
+ .byte 243,67,15,16,52,131 // movss (%r11,%r8,4),%xmm6
.byte 68,15,20,214 // unpcklps %xmm6,%xmm10
.byte 68,15,20,210 // unpcklps %xmm2,%xmm10
.byte 69,15,92,230 // subps %xmm14,%xmm12
@@ -43280,7 +43194,7 @@ _sk_clut_4D_sse2:
.byte 102,15,111,116,36,160 // movdqa -0x60(%rsp),%xmm6
.byte 102,15,254,198 // paddd %xmm6,%xmm0
.byte 102,15,112,200,245 // pshufd $0xf5,%xmm0,%xmm1
- .byte 102,15,111,29,111,165,0,0 // movdqa 0xa56f(%rip),%xmm3 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,29,251,165,0,0 // movdqa 0xa5fb(%rip),%xmm3 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,244,195 // pmuludq %xmm3,%xmm0
.byte 102,15,112,208,232 // pshufd $0xe8,%xmm0,%xmm2
.byte 102,15,244,203 // pmuludq %xmm3,%xmm1
@@ -43288,53 +43202,53 @@ _sk_clut_4D_sse2:
.byte 102,15,112,193,232 // pshufd $0xe8,%xmm1,%xmm0
.byte 102,15,98,208 // punpckldq %xmm0,%xmm2
.byte 102,15,112,194,229 // pshufd $0xe5,%xmm2,%xmm0
- .byte 102,65,15,126,194 // movd %xmm0,%r10d
- .byte 102,15,112,194,78 // pshufd $0x4e,%xmm2,%xmm0
.byte 102,65,15,126,193 // movd %xmm0,%r9d
+ .byte 102,15,112,194,78 // pshufd $0x4e,%xmm2,%xmm0
+ .byte 102,65,15,126,192 // movd %xmm0,%r8d
.byte 102,15,112,194,231 // pshufd $0xe7,%xmm2,%xmm0
.byte 102,15,126,192 // movd %xmm0,%eax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,12,147 // movss (%rbx,%r10,4),%xmm1
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,12,139 // movss (%r11,%r9,4),%xmm1
.byte 15,20,200 // unpcklps %xmm0,%xmm1
.byte 102,15,126,208 // movd %xmm2,%eax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,28,139 // movss (%rbx,%r9,4),%xmm3
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,28,131 // movss (%r11,%r8,4),%xmm3
.byte 15,20,195 // unpcklps %xmm3,%xmm0
.byte 15,20,193 // unpcklps %xmm1,%xmm0
.byte 102,15,111,202 // movdqa %xmm2,%xmm1
- .byte 102,68,15,111,5,119,158,0,0 // movdqa 0x9e77(%rip),%xmm8 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,68,15,111,5,1,159,0,0 // movdqa 0x9f01(%rip),%xmm8 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,65,15,254,200 // paddd %xmm8,%xmm1
.byte 102,15,112,217,78 // pshufd $0x4e,%xmm1,%xmm3
- .byte 102,73,15,126,217 // movq %xmm3,%r9
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,216 // movq %xmm3,%r8
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,12,147 // movss (%r11,%r10,4),%xmm1
.byte 15,20,217 // unpcklps %xmm1,%xmm3
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 15,20,204 // unpcklps %xmm4,%xmm1
.byte 15,20,203 // unpcklps %xmm3,%xmm1
.byte 102,65,15,254,209 // paddd %xmm9,%xmm2
.byte 102,15,112,218,78 // pshufd $0x4e,%xmm2,%xmm3
- .byte 102,73,15,126,217 // movq %xmm3,%r9
- .byte 102,73,15,126,210 // movq %xmm2,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,216 // movq %xmm3,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,20,147 // movss (%r11,%r10,4),%xmm2
.byte 15,20,218 // unpcklps %xmm2,%xmm3
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 15,20,212 // unpcklps %xmm4,%xmm2
.byte 15,20,211 // unpcklps %xmm3,%xmm2
.byte 102,15,111,221 // movdqa %xmm5,%xmm3
@@ -43346,53 +43260,53 @@ _sk_clut_4D_sse2:
.byte 102,15,112,228,232 // pshufd $0xe8,%xmm4,%xmm4
.byte 102,15,98,220 // punpckldq %xmm4,%xmm3
.byte 102,15,112,227,229 // pshufd $0xe5,%xmm3,%xmm4
- .byte 102,65,15,126,226 // movd %xmm4,%r10d
- .byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
.byte 102,65,15,126,225 // movd %xmm4,%r9d
+ .byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
+ .byte 102,65,15,126,224 // movd %xmm4,%r8d
.byte 102,15,112,227,231 // pshufd $0xe7,%xmm3,%xmm4
.byte 102,15,126,224 // movd %xmm4,%eax
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,44,147 // movss (%rbx,%r10,4),%xmm5
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,44,139 // movss (%r11,%r9,4),%xmm5
.byte 15,20,236 // unpcklps %xmm4,%xmm5
.byte 102,15,126,216 // movd %xmm3,%eax
- .byte 243,68,15,16,52,131 // movss (%rbx,%rax,4),%xmm14
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 243,69,15,16,52,131 // movss (%r11,%rax,4),%xmm14
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 68,15,20,244 // unpcklps %xmm4,%xmm14
.byte 68,15,20,245 // unpcklps %xmm5,%xmm14
.byte 102,15,111,227 // movdqa %xmm3,%xmm4
.byte 102,65,15,254,224 // paddd %xmm8,%xmm4
.byte 102,15,112,236,78 // pshufd $0x4e,%xmm4,%xmm5
- .byte 102,73,15,126,233 // movq %xmm5,%r9
- .byte 102,73,15,126,226 // movq %xmm4,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,232 // movq %xmm5,%r8
+ .byte 102,73,15,126,225 // movq %xmm4,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,44,155 // movss (%rbx,%r11,4),%xmm5
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,44,147 // movss (%r11,%r10,4),%xmm5
.byte 15,20,229 // unpcklps %xmm5,%xmm4
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,68,15,16,4,131 // movss (%rbx,%rax,4),%xmm8
- .byte 243,66,15,16,44,139 // movss (%rbx,%r9,4),%xmm5
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,69,15,16,4,131 // movss (%r11,%rax,4),%xmm8
+ .byte 243,67,15,16,44,131 // movss (%r11,%r8,4),%xmm5
.byte 68,15,20,197 // unpcklps %xmm5,%xmm8
.byte 68,15,20,196 // unpcklps %xmm4,%xmm8
.byte 102,65,15,254,217 // paddd %xmm9,%xmm3
.byte 102,69,15,111,249 // movdqa %xmm9,%xmm15
.byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
- .byte 102,73,15,126,225 // movq %xmm4,%r9
- .byte 102,73,15,126,218 // movq %xmm3,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,224 // movq %xmm4,%r8
+ .byte 102,73,15,126,217 // movq %xmm3,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,36,155 // movss (%rbx,%r11,4),%xmm4
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,36,147 // movss (%r11,%r10,4),%xmm4
.byte 15,20,220 // unpcklps %xmm4,%xmm3
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,44,131 // movss (%rbx,%rax,4),%xmm5
- .byte 243,66,15,16,36,139 // movss (%rbx,%r9,4),%xmm4
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,44,131 // movss (%r11,%rax,4),%xmm5
+ .byte 243,67,15,16,36,131 // movss (%r11,%r8,4),%xmm4
.byte 15,20,236 // unpcklps %xmm4,%xmm5
.byte 15,20,235 // unpcklps %xmm3,%xmm5
.byte 68,15,92,240 // subps %xmm0,%xmm14
@@ -43408,7 +43322,7 @@ _sk_clut_4D_sse2:
.byte 102,15,254,124,36,128 // paddd -0x80(%rsp),%xmm7
.byte 102,15,254,247 // paddd %xmm7,%xmm6
.byte 102,15,112,206,245 // pshufd $0xf5,%xmm6,%xmm1
- .byte 102,15,111,21,57,163,0,0 // movdqa 0xa339(%rip),%xmm2 # 2c9b0 <_sk_overlay_sse2_8bit+0x14cb>
+ .byte 102,15,111,21,187,163,0,0 // movdqa 0xa3bb(%rip),%xmm2 # 2c9e0 <_sk_overlay_sse2_8bit+0x1543>
.byte 102,15,244,242 // pmuludq %xmm2,%xmm6
.byte 102,15,112,198,232 // pshufd $0xe8,%xmm6,%xmm0
.byte 102,15,244,202 // pmuludq %xmm2,%xmm1
@@ -43416,52 +43330,52 @@ _sk_clut_4D_sse2:
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,98,193 // punpckldq %xmm1,%xmm0
.byte 102,15,112,200,229 // pshufd $0xe5,%xmm0,%xmm1
- .byte 102,65,15,126,202 // movd %xmm1,%r10d
- .byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,65,15,126,201 // movd %xmm1,%r9d
+ .byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
+ .byte 102,65,15,126,200 // movd %xmm1,%r8d
.byte 102,15,112,200,231 // pshufd $0xe7,%xmm0,%xmm1
.byte 102,15,126,200 // movd %xmm1,%eax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,20,147 // movss (%rbx,%r10,4),%xmm2
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,20,139 // movss (%r11,%r9,4),%xmm2
.byte 15,20,209 // unpcklps %xmm1,%xmm2
.byte 102,15,126,192 // movd %xmm0,%eax
- .byte 243,68,15,16,12,131 // movss (%rbx,%rax,4),%xmm9
- .byte 243,66,15,16,12,139 // movss (%rbx,%r9,4),%xmm1
+ .byte 243,69,15,16,12,131 // movss (%r11,%rax,4),%xmm9
+ .byte 243,67,15,16,12,131 // movss (%r11,%r8,4),%xmm1
.byte 68,15,20,201 // unpcklps %xmm1,%xmm9
.byte 68,15,20,202 // unpcklps %xmm2,%xmm9
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
- .byte 102,15,254,13,64,156,0,0 // paddd 0x9c40(%rip),%xmm1 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,254,13,193,156,0,0 // paddd 0x9cc1(%rip),%xmm1 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
- .byte 102,73,15,126,209 // movq %xmm2,%r9
- .byte 102,73,15,126,202 // movq %xmm1,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,208 // movq %xmm2,%r8
+ .byte 102,73,15,126,201 // movq %xmm1,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,67,15,16,20,147 // movss (%r11,%r10,4),%xmm2
.byte 15,20,202 // unpcklps %xmm2,%xmm1
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,36,131 // movss (%rbx,%rax,4),%xmm4
- .byte 243,66,15,16,20,139 // movss (%rbx,%r9,4),%xmm2
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,36,131 // movss (%r11,%rax,4),%xmm4
+ .byte 243,67,15,16,20,131 // movss (%r11,%r8,4),%xmm2
.byte 15,20,226 // unpcklps %xmm2,%xmm4
.byte 15,20,225 // unpcklps %xmm1,%xmm4
.byte 102,65,15,254,199 // paddd %xmm15,%xmm0
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
- .byte 102,73,15,126,201 // movq %xmm1,%r9
- .byte 102,73,15,126,194 // movq %xmm0,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,200 // movq %xmm1,%r8
+ .byte 102,73,15,126,193 // movq %xmm0,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,12,147 // movss (%r11,%r10,4),%xmm1
.byte 15,20,193 // unpcklps %xmm1,%xmm0
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,28,131 // movss (%rbx,%rax,4),%xmm3
- .byte 243,66,15,16,12,139 // movss (%rbx,%r9,4),%xmm1
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,28,131 // movss (%r11,%rax,4),%xmm3
+ .byte 243,67,15,16,12,131 // movss (%r11,%r8,4),%xmm1
.byte 15,20,217 // unpcklps %xmm1,%xmm3
.byte 15,20,216 // unpcklps %xmm0,%xmm3
.byte 102,68,15,111,255 // movdqa %xmm7,%xmm15
@@ -43473,52 +43387,52 @@ _sk_clut_4D_sse2:
.byte 102,15,112,192,232 // pshufd $0xe8,%xmm0,%xmm0
.byte 102,15,98,208 // punpckldq %xmm0,%xmm2
.byte 102,15,112,194,229 // pshufd $0xe5,%xmm2,%xmm0
- .byte 102,65,15,126,194 // movd %xmm0,%r10d
- .byte 102,15,112,194,78 // pshufd $0x4e,%xmm2,%xmm0
.byte 102,65,15,126,193 // movd %xmm0,%r9d
+ .byte 102,15,112,194,78 // pshufd $0x4e,%xmm2,%xmm0
+ .byte 102,65,15,126,192 // movd %xmm0,%r8d
.byte 102,15,112,194,231 // pshufd $0xe7,%xmm2,%xmm0
.byte 102,15,126,192 // movd %xmm0,%eax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,12,147 // movss (%rbx,%r10,4),%xmm1
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,12,139 // movss (%r11,%r9,4),%xmm1
.byte 15,20,200 // unpcklps %xmm0,%xmm1
.byte 102,15,126,208 // movd %xmm2,%eax
- .byte 243,15,16,4,131 // movss (%rbx,%rax,4),%xmm0
- .byte 243,66,15,16,60,139 // movss (%rbx,%r9,4),%xmm7
+ .byte 243,65,15,16,4,131 // movss (%r11,%rax,4),%xmm0
+ .byte 243,67,15,16,60,131 // movss (%r11,%r8,4),%xmm7
.byte 15,20,199 // unpcklps %xmm7,%xmm0
.byte 15,20,193 // unpcklps %xmm1,%xmm0
- .byte 102,15,111,53,70,155,0,0 // movdqa 0x9b46(%rip),%xmm6 # 2c320 <_sk_overlay_sse2_8bit+0xe3b>
+ .byte 102,15,111,53,193,155,0,0 // movdqa 0x9bc1(%rip),%xmm6 # 2c350 <_sk_overlay_sse2_8bit+0xeb3>
.byte 102,15,254,242 // paddd %xmm2,%xmm6
.byte 102,15,112,206,78 // pshufd $0x4e,%xmm6,%xmm1
- .byte 102,73,15,126,201 // movq %xmm1,%r9
- .byte 102,73,15,126,242 // movq %xmm6,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,200 // movq %xmm1,%r8
+ .byte 102,73,15,126,241 // movq %xmm6,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,60,131 // movss (%rbx,%rax,4),%xmm7
- .byte 243,66,15,16,12,155 // movss (%rbx,%r11,4),%xmm1
+ .byte 243,65,15,16,60,131 // movss (%r11,%rax,4),%xmm7
+ .byte 243,67,15,16,12,147 // movss (%r11,%r10,4),%xmm1
.byte 15,20,249 // unpcklps %xmm1,%xmm7
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,12,131 // movss (%rbx,%rax,4),%xmm1
- .byte 243,70,15,16,60,139 // movss (%rbx,%r9,4),%xmm15
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,12,131 // movss (%r11,%rax,4),%xmm1
+ .byte 243,71,15,16,60,131 // movss (%r11,%r8,4),%xmm15
.byte 65,15,20,207 // unpcklps %xmm15,%xmm1
.byte 15,20,207 // unpcklps %xmm7,%xmm1
- .byte 102,15,254,21,23,155,0,0 // paddd 0x9b17(%rip),%xmm2 # 2c340 <_sk_overlay_sse2_8bit+0xe5b>
+ .byte 102,15,254,21,144,155,0,0 // paddd 0x9b90(%rip),%xmm2 # 2c370 <_sk_overlay_sse2_8bit+0xed3>
.byte 102,15,112,250,78 // pshufd $0x4e,%xmm2,%xmm7
- .byte 102,73,15,126,249 // movq %xmm7,%r9
- .byte 102,73,15,126,210 // movq %xmm2,%r10
- .byte 77,137,203 // mov %r9,%r11
- .byte 73,193,235,32 // shr $0x20,%r11
- .byte 76,137,208 // mov %r10,%rax
+ .byte 102,73,15,126,248 // movq %xmm7,%r8
+ .byte 102,73,15,126,209 // movq %xmm2,%r9
+ .byte 77,137,194 // mov %r8,%r10
+ .byte 73,193,234,32 // shr $0x20,%r10
+ .byte 76,137,200 // mov %r9,%rax
.byte 72,193,232,32 // shr $0x20,%rax
- .byte 243,15,16,60,131 // movss (%rbx,%rax,4),%xmm7
- .byte 243,66,15,16,20,155 // movss (%rbx,%r11,4),%xmm2
+ .byte 243,65,15,16,60,131 // movss (%r11,%rax,4),%xmm7
+ .byte 243,67,15,16,20,147 // movss (%r11,%r10,4),%xmm2
.byte 15,20,250 // unpcklps %xmm2,%xmm7
- .byte 68,137,208 // mov %r10d,%eax
- .byte 69,137,201 // mov %r9d,%r9d
- .byte 243,15,16,20,131 // movss (%rbx,%rax,4),%xmm2
- .byte 243,66,15,16,52,139 // movss (%rbx,%r9,4),%xmm6
+ .byte 68,137,200 // mov %r9d,%eax
+ .byte 69,137,192 // mov %r8d,%r8d
+ .byte 243,65,15,16,20,131 // movss (%r11,%rax,4),%xmm2
+ .byte 243,67,15,16,52,131 // movss (%r11,%r8,4),%xmm6
.byte 15,20,214 // unpcklps %xmm6,%xmm2
.byte 15,20,215 // unpcklps %xmm7,%xmm2
.byte 65,15,92,193 // subps %xmm9,%xmm0
@@ -43566,13 +43480,12 @@ _sk_clut_4D_sse2:
.byte 15,89,212 // mulps %xmm4,%xmm2
.byte 65,15,88,213 // addps %xmm13,%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,29,252,153,0,0 // movaps 0x99fc(%rip),%xmm3 # 2c310 <_sk_overlay_sse2_8bit+0xe2b>
+ .byte 15,40,29,115,154,0,0 // movaps 0x9a73(%rip),%xmm3 # 2c340 <_sk_overlay_sse2_8bit+0xea3>
.byte 15,40,100,36,112 // movaps 0x70(%rsp),%xmm4
.byte 15,40,172,36,128,0,0,0 // movaps 0x80(%rsp),%xmm5
.byte 15,40,180,36,144,0,0,0 // movaps 0x90(%rsp),%xmm6
.byte 15,40,188,36,160,0,0,0 // movaps 0xa0(%rsp),%xmm7
- .byte 72,129,196,176,0,0,0 // add $0xb0,%rsp
- .byte 91 // pop %rbx
+ .byte 72,129,196,184,0,0,0 // add $0xb8,%rsp
.byte 255,224 // jmpq *%rax
.byte 144 // nop
@@ -43597,7 +43510,7 @@ _sk_start_pipeline_hsw_8bit:
.byte 73,137,246 // mov %rsi,%r14
.byte 72,137,77,168 // mov %rcx,-0x58(%rbp)
.byte 73,57,207 // cmp %rcx,%r15
- .byte 115,102 // jae 229d1 <_sk_start_pipeline_hsw_8bit+0x95>
+ .byte 115,102 // jae 22989 <_sk_start_pipeline_hsw_8bit+0x95>
.byte 72,139,69,208 // mov -0x30(%rbp),%rax
.byte 72,141,64,16 // lea 0x10(%rax),%rax
.byte 72,137,69,176 // mov %rax,-0x50(%rbp)
@@ -43607,7 +43520,7 @@ _sk_start_pipeline_hsw_8bit:
.byte 76,137,125,192 // mov %r15,-0x40(%rbp)
.byte 72,199,69,200,0,0,0,0 // movq $0x0,-0x38(%rbp)
.byte 72,57,93,176 // cmp %rbx,-0x50(%rbp)
- .byte 119,30 // ja 229b3 <_sk_start_pipeline_hsw_8bit+0x77>
+ .byte 119,30 // ja 2296b <_sk_start_pipeline_hsw_8bit+0x77>
.byte 76,137,231 // mov %r12,%rdi
.byte 76,137,246 // mov %r14,%rsi
.byte 65,255,213 // callq *%r13
@@ -43616,17 +43529,17 @@ _sk_start_pipeline_hsw_8bit:
.byte 72,137,69,184 // mov %rax,-0x48(%rbp)
.byte 72,131,193,32 // add $0x20,%rcx
.byte 72,57,217 // cmp %rbx,%rcx
- .byte 118,226 // jbe 22995 <_sk_start_pipeline_hsw_8bit+0x59>
+ .byte 118,226 // jbe 2294d <_sk_start_pipeline_hsw_8bit+0x59>
.byte 72,137,217 // mov %rbx,%rcx
.byte 72,41,193 // sub %rax,%rcx
- .byte 116,13 // je 229c8 <_sk_start_pipeline_hsw_8bit+0x8c>
+ .byte 116,13 // je 22980 <_sk_start_pipeline_hsw_8bit+0x8c>
.byte 72,137,77,200 // mov %rcx,-0x38(%rbp)
.byte 76,137,231 // mov %r12,%rdi
.byte 76,137,246 // mov %r14,%rsi
.byte 65,255,213 // callq *%r13
.byte 73,255,199 // inc %r15
.byte 76,59,125,168 // cmp -0x58(%rbp),%r15
- .byte 117,170 // jne 2297b <_sk_start_pipeline_hsw_8bit+0x3f>
+ .byte 117,170 // jne 22933 <_sk_start_pipeline_hsw_8bit+0x3f>
.byte 72,131,196,56 // add $0x38,%rsp
.byte 91 // pop %rbx
.byte 65,92 // pop %r12
@@ -43658,7 +43571,7 @@ HIDDEN _sk_set_rgb_hsw_8bit
FUNCTION(_sk_set_rgb_hsw_8bit)
_sk_set_rgb_hsw_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 197,250,16,37,86,143,0,0 // vmovss 0x8f56(%rip),%xmm4 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 197,250,16,37,86,143,0,0 // vmovss 0x8f56(%rip),%xmm4 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 197,218,89,40 // vmulss (%rax),%xmm4,%xmm5
.byte 196,225,250,44,205 // vcvttss2si %xmm5,%rcx
.byte 197,218,89,104,4 // vmulss 0x4(%rax),%xmm4,%xmm5
@@ -43671,7 +43584,7 @@ _sk_set_rgb_hsw_8bit:
.byte 9,208 // or %edx,%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
.byte 196,226,125,88,228 // vpbroadcastd %xmm4,%ymm4
- .byte 197,253,111,45,170,148,0,0 // vmovdqa 0x94aa(%rip),%ymm5 # 2bee0 <_sk_overlay_sse2_8bit+0x9fb>
+ .byte 197,253,111,45,242,148,0,0 // vmovdqa 0x94f2(%rip),%ymm5 # 2bee0 <_sk_overlay_sse2_8bit+0xa43>
.byte 197,245,219,205 // vpand %ymm5,%ymm1,%ymm1
.byte 197,253,219,197 // vpand %ymm5,%ymm0,%ymm0
.byte 197,221,235,192 // vpor %ymm0,%ymm4,%ymm0
@@ -43683,10 +43596,10 @@ HIDDEN _sk_premul_hsw_8bit
.globl _sk_premul_hsw_8bit
FUNCTION(_sk_premul_hsw_8bit)
_sk_premul_hsw_8bit:
- .byte 197,253,111,37,174,148,0,0 // vmovdqa 0x94ae(%rip),%ymm4 # 2bf00 <_sk_overlay_sse2_8bit+0xa1b>
+ .byte 197,253,111,37,246,148,0,0 // vmovdqa 0x94f6(%rip),%ymm4 # 2bf00 <_sk_overlay_sse2_8bit+0xa63>
.byte 196,226,125,0,236 // vpshufb %ymm4,%ymm0,%ymm5
.byte 196,226,117,0,228 // vpshufb %ymm4,%ymm1,%ymm4
- .byte 197,253,111,53,188,148,0,0 // vmovdqa 0x94bc(%rip),%ymm6 # 2bf20 <_sk_overlay_sse2_8bit+0xa3b>
+ .byte 197,253,111,53,4,149,0,0 // vmovdqa 0x9504(%rip),%ymm6 # 2bf20 <_sk_overlay_sse2_8bit+0xa83>
.byte 197,221,235,230 // vpor %ymm6,%ymm4,%ymm4
.byte 197,213,235,238 // vpor %ymm6,%ymm5,%ymm5
.byte 196,226,125,48,240 // vpmovzxbw %xmm0,%ymm6
@@ -43726,7 +43639,7 @@ HIDDEN _sk_swap_rb_hsw_8bit
.globl _sk_swap_rb_hsw_8bit
FUNCTION(_sk_swap_rb_hsw_8bit)
_sk_swap_rb_hsw_8bit:
- .byte 197,253,111,37,52,148,0,0 // vmovdqa 0x9434(%rip),%ymm4 # 2bf40 <_sk_overlay_sse2_8bit+0xa5b>
+ .byte 197,253,111,37,124,148,0,0 // vmovdqa 0x947c(%rip),%ymm4 # 2bf40 <_sk_overlay_sse2_8bit+0xaa3>
.byte 196,226,125,0,196 // vpshufb %ymm4,%ymm0,%ymm0
.byte 196,226,117,0,204 // vpshufb %ymm4,%ymm1,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -43755,7 +43668,7 @@ _sk_load_8888_hsw_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,17 // jne 22b5c <_sk_load_8888_hsw_8bit+0x32>
+ .byte 117,17 // jne 22b14 <_sk_load_8888_hsw_8bit+0x32>
.byte 196,161,126,111,76,130,32 // vmovdqu 0x20(%rdx,%r8,4),%ymm1
.byte 196,161,126,111,4,130 // vmovdqu (%rdx,%r8,4),%ymm0
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -43765,14 +43678,14 @@ _sk_load_8888_hsw_8bit:
.byte 197,253,239,192 // vpxor %ymm0,%ymm0,%ymm0
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,231 // ja 22b58 <_sk_load_8888_hsw_8bit+0x2e>
+ .byte 119,231 // ja 22b10 <_sk_load_8888_hsw_8bit+0x2e>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,24,1,0,0 // lea 0x118(%rip),%rcx # 22c94 <_sk_load_8888_hsw_8bit+0x16a>
+ .byte 72,141,13,24,1,0,0 // lea 0x118(%rip),%rcx # 22c4c <_sk_load_8888_hsw_8bit+0x16a>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 196,161,121,110,4,130 // vmovd (%rdx,%r8,4),%xmm0
- .byte 235,203 // jmp 22b58 <_sk_load_8888_hsw_8bit+0x2e>
+ .byte 235,203 // jmp 22b10 <_sk_load_8888_hsw_8bit+0x2e>
.byte 196,161,121,110,68,130,8 // vmovd 0x8(%rdx,%r8,4),%xmm0
.byte 196,226,121,89,192 // vpbroadcastq %xmm0,%xmm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
@@ -43780,7 +43693,7 @@ _sk_load_8888_hsw_8bit:
.byte 196,162,121,53,36,130 // vpmovzxdq (%rdx,%r8,4),%xmm4
.byte 197,249,112,228,232 // vpshufd $0xe8,%xmm4,%xmm4
.byte 196,227,125,2,196,3 // vpblendd $0x3,%ymm4,%ymm0,%ymm0
- .byte 235,162 // jmp 22b58 <_sk_load_8888_hsw_8bit+0x2e>
+ .byte 235,162 // jmp 22b10 <_sk_load_8888_hsw_8bit+0x2e>
.byte 196,161,121,110,68,130,24 // vmovd 0x18(%rdx,%r8,4),%xmm0
.byte 196,226,125,89,192 // vpbroadcastq %xmm0,%ymm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
@@ -43793,7 +43706,7 @@ _sk_load_8888_hsw_8bit:
.byte 196,227,125,56,196,1 // vinserti128 $0x1,%xmm4,%ymm0,%ymm0
.byte 196,161,122,111,36,130 // vmovdqu (%rdx,%r8,4),%xmm4
.byte 196,227,93,2,192,240 // vpblendd $0xf0,%ymm0,%ymm4,%ymm0
- .byte 233,83,255,255,255 // jmpq 22b58 <_sk_load_8888_hsw_8bit+0x2e>
+ .byte 233,83,255,255,255 // jmpq 22b10 <_sk_load_8888_hsw_8bit+0x2e>
.byte 196,161,121,110,68,130,40 // vmovd 0x28(%rdx,%r8,4),%xmm0
.byte 196,226,121,89,192 // vpbroadcastq %xmm0,%xmm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
@@ -43802,7 +43715,7 @@ _sk_load_8888_hsw_8bit:
.byte 196,227,117,2,200,15 // vpblendd $0xf,%ymm0,%ymm1,%ymm1
.byte 196,161,121,110,68,130,32 // vmovd 0x20(%rdx,%r8,4),%xmm0
.byte 196,227,117,2,200,1 // vpblendd $0x1,%ymm0,%ymm1,%ymm1
- .byte 233,23,255,255,255 // jmpq 22b52 <_sk_load_8888_hsw_8bit+0x28>
+ .byte 233,23,255,255,255 // jmpq 22b0a <_sk_load_8888_hsw_8bit+0x28>
.byte 196,161,121,110,68,130,56 // vmovd 0x38(%rdx,%r8,4),%xmm0
.byte 196,226,125,89,192 // vpbroadcastq %xmm0,%ymm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
@@ -43816,7 +43729,7 @@ _sk_load_8888_hsw_8bit:
.byte 196,161,126,111,4,130 // vmovdqu (%rdx,%r8,4),%ymm0
.byte 196,161,122,111,100,130,32 // vmovdqu 0x20(%rdx,%r8,4),%xmm4
.byte 196,227,93,2,201,240 // vpblendd $0xf0,%ymm1,%ymm4,%ymm1
- .byte 233,199,254,255,255 // jmpq 22b58 <_sk_load_8888_hsw_8bit+0x2e>
+ .byte 233,199,254,255,255 // jmpq 22b10 <_sk_load_8888_hsw_8bit+0x2e>
.byte 15,31,0 // nopl (%rax)
.byte 241 // icebp
.byte 254 // (bad)
@@ -43869,7 +43782,7 @@ _sk_load_8888_dst_hsw_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,17 // jne 22d02 <_sk_load_8888_dst_hsw_8bit+0x32>
+ .byte 117,17 // jne 22cba <_sk_load_8888_dst_hsw_8bit+0x32>
.byte 196,161,126,111,92,130,32 // vmovdqu 0x20(%rdx,%r8,4),%ymm3
.byte 196,161,126,111,20,130 // vmovdqu (%rdx,%r8,4),%ymm2
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -43879,14 +43792,14 @@ _sk_load_8888_dst_hsw_8bit:
.byte 197,237,239,210 // vpxor %ymm2,%ymm2,%ymm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,231 // ja 22cfe <_sk_load_8888_dst_hsw_8bit+0x2e>
+ .byte 119,231 // ja 22cb6 <_sk_load_8888_dst_hsw_8bit+0x2e>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,22,1,0,0 // lea 0x116(%rip),%rcx # 22e38 <_sk_load_8888_dst_hsw_8bit+0x168>
+ .byte 72,141,13,22,1,0,0 // lea 0x116(%rip),%rcx # 22df0 <_sk_load_8888_dst_hsw_8bit+0x168>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 196,161,121,110,20,130 // vmovd (%rdx,%r8,4),%xmm2
- .byte 235,203 // jmp 22cfe <_sk_load_8888_dst_hsw_8bit+0x2e>
+ .byte 235,203 // jmp 22cb6 <_sk_load_8888_dst_hsw_8bit+0x2e>
.byte 196,161,121,110,84,130,8 // vmovd 0x8(%rdx,%r8,4),%xmm2
.byte 196,226,121,89,210 // vpbroadcastq %xmm2,%xmm2
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
@@ -43894,7 +43807,7 @@ _sk_load_8888_dst_hsw_8bit:
.byte 196,162,121,53,36,130 // vpmovzxdq (%rdx,%r8,4),%xmm4
.byte 197,249,112,228,232 // vpshufd $0xe8,%xmm4,%xmm4
.byte 196,227,109,2,212,3 // vpblendd $0x3,%ymm4,%ymm2,%ymm2
- .byte 235,162 // jmp 22cfe <_sk_load_8888_dst_hsw_8bit+0x2e>
+ .byte 235,162 // jmp 22cb6 <_sk_load_8888_dst_hsw_8bit+0x2e>
.byte 196,161,121,110,84,130,24 // vmovd 0x18(%rdx,%r8,4),%xmm2
.byte 196,226,125,89,210 // vpbroadcastq %xmm2,%ymm2
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
@@ -43907,7 +43820,7 @@ _sk_load_8888_dst_hsw_8bit:
.byte 196,227,109,56,212,1 // vinserti128 $0x1,%xmm4,%ymm2,%ymm2
.byte 196,161,122,111,36,130 // vmovdqu (%rdx,%r8,4),%xmm4
.byte 196,227,93,2,210,240 // vpblendd $0xf0,%ymm2,%ymm4,%ymm2
- .byte 233,83,255,255,255 // jmpq 22cfe <_sk_load_8888_dst_hsw_8bit+0x2e>
+ .byte 233,83,255,255,255 // jmpq 22cb6 <_sk_load_8888_dst_hsw_8bit+0x2e>
.byte 196,161,121,110,84,130,40 // vmovd 0x28(%rdx,%r8,4),%xmm2
.byte 196,226,121,89,210 // vpbroadcastq %xmm2,%xmm2
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
@@ -43916,7 +43829,7 @@ _sk_load_8888_dst_hsw_8bit:
.byte 196,227,101,2,218,15 // vpblendd $0xf,%ymm2,%ymm3,%ymm3
.byte 196,161,121,110,84,130,32 // vmovd 0x20(%rdx,%r8,4),%xmm2
.byte 196,227,101,2,218,1 // vpblendd $0x1,%ymm2,%ymm3,%ymm3
- .byte 233,23,255,255,255 // jmpq 22cf8 <_sk_load_8888_dst_hsw_8bit+0x28>
+ .byte 233,23,255,255,255 // jmpq 22cb0 <_sk_load_8888_dst_hsw_8bit+0x28>
.byte 196,161,121,110,84,130,56 // vmovd 0x38(%rdx,%r8,4),%xmm2
.byte 196,226,125,89,210 // vpbroadcastq %xmm2,%ymm2
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
@@ -43930,7 +43843,7 @@ _sk_load_8888_dst_hsw_8bit:
.byte 196,161,126,111,20,130 // vmovdqu (%rdx,%r8,4),%ymm2
.byte 196,161,122,111,100,130,32 // vmovdqu 0x20(%rdx,%r8,4),%xmm4
.byte 196,227,93,2,219,240 // vpblendd $0xf0,%ymm3,%ymm4,%ymm3
- .byte 233,199,254,255,255 // jmpq 22cfe <_sk_load_8888_dst_hsw_8bit+0x2e>
+ .byte 233,199,254,255,255 // jmpq 22cb6 <_sk_load_8888_dst_hsw_8bit+0x2e>
.byte 144 // nop
.byte 243,254 // repz (bad)
.byte 255 // (bad)
@@ -43983,7 +43896,7 @@ _sk_store_8888_hsw_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,17 // jne 22ea6 <_sk_store_8888_hsw_8bit+0x32>
+ .byte 117,17 // jne 22e5e <_sk_store_8888_hsw_8bit+0x32>
.byte 196,161,126,127,4,130 // vmovdqu %ymm0,(%rdx,%r8,4)
.byte 196,161,126,127,76,130,32 // vmovdqu %ymm1,0x20(%rdx,%r8,4)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -43991,17 +43904,17 @@ _sk_store_8888_hsw_8bit:
.byte 65,128,225,15 // and $0xf,%r9b
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,239 // ja 22ea2 <_sk_store_8888_hsw_8bit+0x2e>
+ .byte 119,239 // ja 22e5a <_sk_store_8888_hsw_8bit+0x2e>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,178,0,0,0 // lea 0xb2(%rip),%rcx # 22f70 <_sk_store_8888_hsw_8bit+0xfc>
+ .byte 72,141,13,178,0,0,0 // lea 0xb2(%rip),%rcx # 22f28 <_sk_store_8888_hsw_8bit+0xfc>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 196,161,121,126,4,130 // vmovd %xmm0,(%rdx,%r8,4)
- .byte 235,211 // jmp 22ea2 <_sk_store_8888_hsw_8bit+0x2e>
+ .byte 235,211 // jmp 22e5a <_sk_store_8888_hsw_8bit+0x2e>
.byte 196,163,121,22,68,130,8,2 // vpextrd $0x2,%xmm0,0x8(%rdx,%r8,4)
.byte 196,161,121,214,4,130 // vmovq %xmm0,(%rdx,%r8,4)
- .byte 235,195 // jmp 22ea2 <_sk_store_8888_hsw_8bit+0x2e>
+ .byte 235,195 // jmp 22e5a <_sk_store_8888_hsw_8bit+0x2e>
.byte 196,227,125,57,196,1 // vextracti128 $0x1,%ymm0,%xmm4
.byte 196,163,121,22,100,130,24,2 // vpextrd $0x2,%xmm4,0x18(%rdx,%r8,4)
.byte 196,227,125,57,196,1 // vextracti128 $0x1,%ymm0,%xmm4
@@ -44009,12 +43922,12 @@ _sk_store_8888_hsw_8bit:
.byte 196,227,125,57,196,1 // vextracti128 $0x1,%ymm0,%xmm4
.byte 196,161,121,126,100,130,16 // vmovd %xmm4,0x10(%rdx,%r8,4)
.byte 196,161,122,127,4,130 // vmovdqu %xmm0,(%rdx,%r8,4)
- .byte 235,146 // jmp 22ea2 <_sk_store_8888_hsw_8bit+0x2e>
+ .byte 235,146 // jmp 22e5a <_sk_store_8888_hsw_8bit+0x2e>
.byte 196,163,121,22,76,130,40,2 // vpextrd $0x2,%xmm1,0x28(%rdx,%r8,4)
.byte 196,163,121,22,76,130,36,1 // vpextrd $0x1,%xmm1,0x24(%rdx,%r8,4)
.byte 196,161,121,126,76,130,32 // vmovd %xmm1,0x20(%rdx,%r8,4)
.byte 196,161,126,127,4,130 // vmovdqu %ymm0,(%rdx,%r8,4)
- .byte 233,112,255,255,255 // jmpq 22ea2 <_sk_store_8888_hsw_8bit+0x2e>
+ .byte 233,112,255,255,255 // jmpq 22e5a <_sk_store_8888_hsw_8bit+0x2e>
.byte 196,227,125,57,204,1 // vextracti128 $0x1,%ymm1,%xmm4
.byte 196,163,121,22,100,130,56,2 // vpextrd $0x2,%xmm4,0x38(%rdx,%r8,4)
.byte 196,227,125,57,204,1 // vextracti128 $0x1,%ymm1,%xmm4
@@ -44023,7 +43936,7 @@ _sk_store_8888_hsw_8bit:
.byte 196,161,121,126,100,130,48 // vmovd %xmm4,0x30(%rdx,%r8,4)
.byte 196,161,126,127,4,130 // vmovdqu %ymm0,(%rdx,%r8,4)
.byte 196,161,122,127,76,130,32 // vmovdqu %xmm1,0x20(%rdx,%r8,4)
- .byte 233,53,255,255,255 // jmpq 22ea2 <_sk_store_8888_hsw_8bit+0x2e>
+ .byte 233,53,255,255,255 // jmpq 22e5a <_sk_store_8888_hsw_8bit+0x2e>
.byte 15,31,0 // nopl (%rax)
.byte 87 // push %rdi
.byte 255 // (bad)
@@ -44036,7 +43949,7 @@ _sk_store_8888_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 125,255 // jge 22f85 <_sk_store_8888_hsw_8bit+0x111>
+ .byte 125,255 // jge 22f3d <_sk_store_8888_hsw_8bit+0x111>
.byte 255 // (bad)
.byte 255,111,255 // ljmp *-0x1(%rdi)
.byte 255 // (bad)
@@ -44047,7 +43960,7 @@ _sk_store_8888_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 235,255 // jmp 22f9d <_sk_store_8888_hsw_8bit+0x129>
+ .byte 235,255 // jmp 22f55 <_sk_store_8888_hsw_8bit+0x129>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 222,255 // fdivrp %st,%st(7)
@@ -44073,10 +43986,10 @@ _sk_load_bgra_hsw_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,35 // jne 22ff0 <_sk_load_bgra_hsw_8bit+0x44>
+ .byte 117,35 // jne 22fa8 <_sk_load_bgra_hsw_8bit+0x44>
.byte 196,161,126,111,76,130,32 // vmovdqu 0x20(%rdx,%r8,4),%ymm1
.byte 196,161,126,111,4,130 // vmovdqu (%rdx,%r8,4),%ymm0
- .byte 197,253,111,37,126,143,0,0 // vmovdqa 0x8f7e(%rip),%ymm4 # 2bf60 <_sk_overlay_sse2_8bit+0xa7b>
+ .byte 197,253,111,37,198,143,0,0 // vmovdqa 0x8fc6(%rip),%ymm4 # 2bf60 <_sk_overlay_sse2_8bit+0xac3>
.byte 196,226,125,0,196 // vpshufb %ymm4,%ymm0,%ymm0
.byte 196,226,117,0,204 // vpshufb %ymm4,%ymm1,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -44086,14 +43999,14 @@ _sk_load_bgra_hsw_8bit:
.byte 197,253,239,192 // vpxor %ymm0,%ymm0,%ymm0
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,213 // ja 22fda <_sk_load_bgra_hsw_8bit+0x2e>
+ .byte 119,213 // ja 22f92 <_sk_load_bgra_hsw_8bit+0x2e>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,24,1,0,0 // lea 0x118(%rip),%rcx # 23128 <_sk_load_bgra_hsw_8bit+0x17c>
+ .byte 72,141,13,24,1,0,0 // lea 0x118(%rip),%rcx # 230e0 <_sk_load_bgra_hsw_8bit+0x17c>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 196,161,121,110,4,130 // vmovd (%rdx,%r8,4),%xmm0
- .byte 235,185 // jmp 22fda <_sk_load_bgra_hsw_8bit+0x2e>
+ .byte 235,185 // jmp 22f92 <_sk_load_bgra_hsw_8bit+0x2e>
.byte 196,161,121,110,68,130,8 // vmovd 0x8(%rdx,%r8,4),%xmm0
.byte 196,226,121,89,192 // vpbroadcastq %xmm0,%xmm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
@@ -44101,7 +44014,7 @@ _sk_load_bgra_hsw_8bit:
.byte 196,162,121,53,36,130 // vpmovzxdq (%rdx,%r8,4),%xmm4
.byte 197,249,112,228,232 // vpshufd $0xe8,%xmm4,%xmm4
.byte 196,227,125,2,196,3 // vpblendd $0x3,%ymm4,%ymm0,%ymm0
- .byte 235,144 // jmp 22fda <_sk_load_bgra_hsw_8bit+0x2e>
+ .byte 235,144 // jmp 22f92 <_sk_load_bgra_hsw_8bit+0x2e>
.byte 196,161,121,110,68,130,24 // vmovd 0x18(%rdx,%r8,4),%xmm0
.byte 196,226,125,89,192 // vpbroadcastq %xmm0,%ymm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
@@ -44114,7 +44027,7 @@ _sk_load_bgra_hsw_8bit:
.byte 196,227,125,56,196,1 // vinserti128 $0x1,%xmm4,%ymm0,%ymm0
.byte 196,161,122,111,36,130 // vmovdqu (%rdx,%r8,4),%xmm4
.byte 196,227,93,2,192,240 // vpblendd $0xf0,%ymm0,%ymm4,%ymm0
- .byte 233,65,255,255,255 // jmpq 22fda <_sk_load_bgra_hsw_8bit+0x2e>
+ .byte 233,65,255,255,255 // jmpq 22f92 <_sk_load_bgra_hsw_8bit+0x2e>
.byte 196,161,121,110,68,130,40 // vmovd 0x28(%rdx,%r8,4),%xmm0
.byte 196,226,121,89,192 // vpbroadcastq %xmm0,%xmm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
@@ -44123,7 +44036,7 @@ _sk_load_bgra_hsw_8bit:
.byte 196,227,117,2,200,15 // vpblendd $0xf,%ymm0,%ymm1,%ymm1
.byte 196,161,121,110,68,130,32 // vmovd 0x20(%rdx,%r8,4),%xmm0
.byte 196,227,117,2,200,1 // vpblendd $0x1,%ymm0,%ymm1,%ymm1
- .byte 233,5,255,255,255 // jmpq 22fd4 <_sk_load_bgra_hsw_8bit+0x28>
+ .byte 233,5,255,255,255 // jmpq 22f8c <_sk_load_bgra_hsw_8bit+0x28>
.byte 196,161,121,110,68,130,56 // vmovd 0x38(%rdx,%r8,4),%xmm0
.byte 196,226,125,89,192 // vpbroadcastq %xmm0,%ymm0
.byte 197,245,239,201 // vpxor %ymm1,%ymm1,%ymm1
@@ -44137,7 +44050,7 @@ _sk_load_bgra_hsw_8bit:
.byte 196,161,126,111,4,130 // vmovdqu (%rdx,%r8,4),%ymm0
.byte 196,161,122,111,100,130,32 // vmovdqu 0x20(%rdx,%r8,4),%xmm4
.byte 196,227,93,2,201,240 // vpblendd $0xf0,%ymm1,%ymm4,%ymm1
- .byte 233,181,254,255,255 // jmpq 22fda <_sk_load_bgra_hsw_8bit+0x2e>
+ .byte 233,181,254,255,255 // jmpq 22f92 <_sk_load_bgra_hsw_8bit+0x2e>
.byte 15,31,0 // nopl (%rax)
.byte 241 // icebp
.byte 254 // (bad)
@@ -44188,10 +44101,10 @@ _sk_load_bgra_dst_hsw_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,35 // jne 231a8 <_sk_load_bgra_dst_hsw_8bit+0x44>
+ .byte 117,35 // jne 23160 <_sk_load_bgra_dst_hsw_8bit+0x44>
.byte 196,161,126,111,92,130,32 // vmovdqu 0x20(%rdx,%r8,4),%ymm3
.byte 196,161,126,111,20,130 // vmovdqu (%rdx,%r8,4),%ymm2
- .byte 197,253,111,37,230,141,0,0 // vmovdqa 0x8de6(%rip),%ymm4 # 2bf80 <_sk_overlay_sse2_8bit+0xa9b>
+ .byte 197,253,111,37,46,142,0,0 // vmovdqa 0x8e2e(%rip),%ymm4 # 2bf80 <_sk_overlay_sse2_8bit+0xae3>
.byte 196,226,109,0,212 // vpshufb %ymm4,%ymm2,%ymm2
.byte 196,226,101,0,220 // vpshufb %ymm4,%ymm3,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -44201,14 +44114,14 @@ _sk_load_bgra_dst_hsw_8bit:
.byte 197,237,239,210 // vpxor %ymm2,%ymm2,%ymm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,213 // ja 23192 <_sk_load_bgra_dst_hsw_8bit+0x2e>
+ .byte 119,213 // ja 2314a <_sk_load_bgra_dst_hsw_8bit+0x2e>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,24,1,0,0 // lea 0x118(%rip),%rcx # 232e0 <_sk_load_bgra_dst_hsw_8bit+0x17c>
+ .byte 72,141,13,24,1,0,0 // lea 0x118(%rip),%rcx # 23298 <_sk_load_bgra_dst_hsw_8bit+0x17c>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 196,161,121,110,20,130 // vmovd (%rdx,%r8,4),%xmm2
- .byte 235,185 // jmp 23192 <_sk_load_bgra_dst_hsw_8bit+0x2e>
+ .byte 235,185 // jmp 2314a <_sk_load_bgra_dst_hsw_8bit+0x2e>
.byte 196,161,121,110,84,130,8 // vmovd 0x8(%rdx,%r8,4),%xmm2
.byte 196,226,121,89,210 // vpbroadcastq %xmm2,%xmm2
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
@@ -44216,7 +44129,7 @@ _sk_load_bgra_dst_hsw_8bit:
.byte 196,162,121,53,36,130 // vpmovzxdq (%rdx,%r8,4),%xmm4
.byte 197,249,112,228,232 // vpshufd $0xe8,%xmm4,%xmm4
.byte 196,227,109,2,212,3 // vpblendd $0x3,%ymm4,%ymm2,%ymm2
- .byte 235,144 // jmp 23192 <_sk_load_bgra_dst_hsw_8bit+0x2e>
+ .byte 235,144 // jmp 2314a <_sk_load_bgra_dst_hsw_8bit+0x2e>
.byte 196,161,121,110,84,130,24 // vmovd 0x18(%rdx,%r8,4),%xmm2
.byte 196,226,125,89,210 // vpbroadcastq %xmm2,%ymm2
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
@@ -44229,7 +44142,7 @@ _sk_load_bgra_dst_hsw_8bit:
.byte 196,227,109,56,212,1 // vinserti128 $0x1,%xmm4,%ymm2,%ymm2
.byte 196,161,122,111,36,130 // vmovdqu (%rdx,%r8,4),%xmm4
.byte 196,227,93,2,210,240 // vpblendd $0xf0,%ymm2,%ymm4,%ymm2
- .byte 233,65,255,255,255 // jmpq 23192 <_sk_load_bgra_dst_hsw_8bit+0x2e>
+ .byte 233,65,255,255,255 // jmpq 2314a <_sk_load_bgra_dst_hsw_8bit+0x2e>
.byte 196,161,121,110,84,130,40 // vmovd 0x28(%rdx,%r8,4),%xmm2
.byte 196,226,121,89,210 // vpbroadcastq %xmm2,%xmm2
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
@@ -44238,7 +44151,7 @@ _sk_load_bgra_dst_hsw_8bit:
.byte 196,227,101,2,218,15 // vpblendd $0xf,%ymm2,%ymm3,%ymm3
.byte 196,161,121,110,84,130,32 // vmovd 0x20(%rdx,%r8,4),%xmm2
.byte 196,227,101,2,218,1 // vpblendd $0x1,%ymm2,%ymm3,%ymm3
- .byte 233,5,255,255,255 // jmpq 2318c <_sk_load_bgra_dst_hsw_8bit+0x28>
+ .byte 233,5,255,255,255 // jmpq 23144 <_sk_load_bgra_dst_hsw_8bit+0x28>
.byte 196,161,121,110,84,130,56 // vmovd 0x38(%rdx,%r8,4),%xmm2
.byte 196,226,125,89,210 // vpbroadcastq %xmm2,%ymm2
.byte 197,229,239,219 // vpxor %ymm3,%ymm3,%ymm3
@@ -44252,7 +44165,7 @@ _sk_load_bgra_dst_hsw_8bit:
.byte 196,161,126,111,20,130 // vmovdqu (%rdx,%r8,4),%ymm2
.byte 196,161,122,111,100,130,32 // vmovdqu 0x20(%rdx,%r8,4),%xmm4
.byte 196,227,93,2,219,240 // vpblendd $0xf0,%ymm3,%ymm4,%ymm3
- .byte 233,181,254,255,255 // jmpq 23192 <_sk_load_bgra_dst_hsw_8bit+0x2e>
+ .byte 233,181,254,255,255 // jmpq 2314a <_sk_load_bgra_dst_hsw_8bit+0x2e>
.byte 15,31,0 // nopl (%rax)
.byte 241 // icebp
.byte 254 // (bad)
@@ -44302,11 +44215,11 @@ _sk_store_bgra_hsw_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
- .byte 197,253,111,37,96,140,0,0 // vmovdqa 0x8c60(%rip),%ymm4 # 2bfa0 <_sk_overlay_sse2_8bit+0xabb>
+ .byte 197,253,111,37,168,140,0,0 // vmovdqa 0x8ca8(%rip),%ymm4 # 2bfa0 <_sk_overlay_sse2_8bit+0xb03>
.byte 196,226,117,0,236 // vpshufb %ymm4,%ymm1,%ymm5
.byte 196,226,125,0,228 // vpshufb %ymm4,%ymm0,%ymm4
.byte 77,133,201 // test %r9,%r9
- .byte 117,17 // jne 23360 <_sk_store_bgra_hsw_8bit+0x44>
+ .byte 117,17 // jne 23318 <_sk_store_bgra_hsw_8bit+0x44>
.byte 196,161,126,127,36,130 // vmovdqu %ymm4,(%rdx,%r8,4)
.byte 196,161,126,127,108,130,32 // vmovdqu %ymm5,0x20(%rdx,%r8,4)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -44314,17 +44227,17 @@ _sk_store_bgra_hsw_8bit:
.byte 65,128,225,15 // and $0xf,%r9b
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,239 // ja 2335c <_sk_store_bgra_hsw_8bit+0x40>
+ .byte 119,239 // ja 23314 <_sk_store_bgra_hsw_8bit+0x40>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,176,0,0,0 // lea 0xb0(%rip),%rcx # 23428 <_sk_store_bgra_hsw_8bit+0x10c>
+ .byte 72,141,13,176,0,0,0 // lea 0xb0(%rip),%rcx # 233e0 <_sk_store_bgra_hsw_8bit+0x10c>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 196,161,121,126,36,130 // vmovd %xmm4,(%rdx,%r8,4)
- .byte 235,211 // jmp 2335c <_sk_store_bgra_hsw_8bit+0x40>
+ .byte 235,211 // jmp 23314 <_sk_store_bgra_hsw_8bit+0x40>
.byte 196,163,121,22,100,130,8,2 // vpextrd $0x2,%xmm4,0x8(%rdx,%r8,4)
.byte 196,161,121,214,36,130 // vmovq %xmm4,(%rdx,%r8,4)
- .byte 235,195 // jmp 2335c <_sk_store_bgra_hsw_8bit+0x40>
+ .byte 235,195 // jmp 23314 <_sk_store_bgra_hsw_8bit+0x40>
.byte 196,227,125,57,229,1 // vextracti128 $0x1,%ymm4,%xmm5
.byte 196,163,121,22,108,130,24,2 // vpextrd $0x2,%xmm5,0x18(%rdx,%r8,4)
.byte 196,227,125,57,229,1 // vextracti128 $0x1,%ymm4,%xmm5
@@ -44332,12 +44245,12 @@ _sk_store_bgra_hsw_8bit:
.byte 196,227,125,57,229,1 // vextracti128 $0x1,%ymm4,%xmm5
.byte 196,161,121,126,108,130,16 // vmovd %xmm5,0x10(%rdx,%r8,4)
.byte 196,161,122,127,36,130 // vmovdqu %xmm4,(%rdx,%r8,4)
- .byte 235,146 // jmp 2335c <_sk_store_bgra_hsw_8bit+0x40>
+ .byte 235,146 // jmp 23314 <_sk_store_bgra_hsw_8bit+0x40>
.byte 196,163,121,22,108,130,40,2 // vpextrd $0x2,%xmm5,0x28(%rdx,%r8,4)
.byte 196,163,121,22,108,130,36,1 // vpextrd $0x1,%xmm5,0x24(%rdx,%r8,4)
.byte 196,161,121,126,108,130,32 // vmovd %xmm5,0x20(%rdx,%r8,4)
.byte 196,161,126,127,36,130 // vmovdqu %ymm4,(%rdx,%r8,4)
- .byte 233,112,255,255,255 // jmpq 2335c <_sk_store_bgra_hsw_8bit+0x40>
+ .byte 233,112,255,255,255 // jmpq 23314 <_sk_store_bgra_hsw_8bit+0x40>
.byte 196,227,125,57,238,1 // vextracti128 $0x1,%ymm5,%xmm6
.byte 196,163,121,22,116,130,56,2 // vpextrd $0x2,%xmm6,0x38(%rdx,%r8,4)
.byte 196,227,125,57,238,1 // vextracti128 $0x1,%ymm5,%xmm6
@@ -44346,7 +44259,7 @@ _sk_store_bgra_hsw_8bit:
.byte 196,161,121,126,116,130,48 // vmovd %xmm6,0x30(%rdx,%r8,4)
.byte 196,161,126,127,36,130 // vmovdqu %ymm4,(%rdx,%r8,4)
.byte 196,161,122,127,108,130,32 // vmovdqu %xmm5,0x20(%rdx,%r8,4)
- .byte 233,53,255,255,255 // jmpq 2335c <_sk_store_bgra_hsw_8bit+0x40>
+ .byte 233,53,255,255,255 // jmpq 23314 <_sk_store_bgra_hsw_8bit+0x40>
.byte 144 // nop
.byte 89 // pop %rcx
.byte 255 // (bad)
@@ -44359,7 +44272,7 @@ _sk_store_bgra_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,255 // jg 2343d <_sk_store_bgra_hsw_8bit+0x121>
+ .byte 127,255 // jg 233f5 <_sk_store_bgra_hsw_8bit+0x121>
.byte 255 // (bad)
.byte 255,113,255 // pushq -0x1(%rcx)
.byte 255 // (bad)
@@ -44397,7 +44310,7 @@ _sk_load_a8_hsw_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,35 // jne 234a4 <_sk_load_a8_hsw_8bit+0x40>
+ .byte 117,35 // jne 2345c <_sk_load_a8_hsw_8bit+0x40>
.byte 196,161,122,111,4,2 // vmovdqu (%rdx,%r8,1),%xmm0
.byte 197,249,112,200,78 // vpshufd $0x4e,%xmm0,%xmm1
.byte 196,226,125,49,201 // vpmovzxbd %xmm1,%ymm1
@@ -44410,35 +44323,35 @@ _sk_load_a8_hsw_8bit:
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,210 // ja 23487 <_sk_load_a8_hsw_8bit+0x23>
+ .byte 119,210 // ja 2343f <_sk_load_a8_hsw_8bit+0x23>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,192,0,0,0 // lea 0xc0(%rip),%rcx # 23580 <_sk_load_a8_hsw_8bit+0x11c>
+ .byte 72,141,13,192,0,0,0 // lea 0xc0(%rip),%rcx # 23538 <_sk_load_a8_hsw_8bit+0x11c>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 197,249,110,192 // vmovd %eax,%xmm0
- .byte 235,179 // jmp 23487 <_sk_load_a8_hsw_8bit+0x23>
+ .byte 235,179 // jmp 2343f <_sk_load_a8_hsw_8bit+0x23>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,163,121,32,68,2,2,2 // vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm0,%xmm0
.byte 66,15,183,4,2 // movzwl (%rdx,%r8,1),%eax
.byte 197,249,110,200 // vmovd %eax,%xmm1
.byte 196,227,121,14,193,1 // vpblendw $0x1,%xmm1,%xmm0,%xmm0
- .byte 235,150 // jmp 23487 <_sk_load_a8_hsw_8bit+0x23>
+ .byte 235,150 // jmp 2343f <_sk_load_a8_hsw_8bit+0x23>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,163,121,32,68,2,6,6 // vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,163,121,32,68,2,5,5 // vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,163,121,32,68,2,4,4 // vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,161,121,110,12,2 // vmovd (%rdx,%r8,1),%xmm1
.byte 196,227,121,2,193,1 // vpblendd $0x1,%xmm1,%xmm0,%xmm0
- .byte 233,105,255,255,255 // jmpq 23487 <_sk_load_a8_hsw_8bit+0x23>
+ .byte 233,105,255,255,255 // jmpq 2343f <_sk_load_a8_hsw_8bit+0x23>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,163,121,32,68,2,10,10 // vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,163,121,32,68,2,9,9 // vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,163,121,32,68,2,8,8 // vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,161,122,126,12,2 // vmovq (%rdx,%r8,1),%xmm1
.byte 196,227,113,2,192,12 // vpblendd $0xc,%xmm0,%xmm1,%xmm0
- .byte 233,60,255,255,255 // jmpq 23487 <_sk_load_a8_hsw_8bit+0x23>
+ .byte 233,60,255,255,255 // jmpq 2343f <_sk_load_a8_hsw_8bit+0x23>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,163,121,32,68,2,14,14 // vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,163,121,32,68,2,13,13 // vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm0,%xmm0
@@ -44446,7 +44359,7 @@ _sk_load_a8_hsw_8bit:
.byte 196,161,122,126,12,2 // vmovq (%rdx,%r8,1),%xmm1
.byte 196,163,113,34,76,2,8,2 // vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm1,%xmm1
.byte 196,227,113,2,192,8 // vpblendd $0x8,%xmm0,%xmm1,%xmm0
- .byte 233,7,255,255,255 // jmpq 23487 <_sk_load_a8_hsw_8bit+0x23>
+ .byte 233,7,255,255,255 // jmpq 2343f <_sk_load_a8_hsw_8bit+0x23>
.byte 73,255 // rex.WB (bad)
.byte 255 // (bad)
.byte 255,96,255 // jmpq *-0x1(%rax)
@@ -44456,7 +44369,7 @@ _sk_load_a8_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 125,255 // jge 23595 <_sk_load_a8_hsw_8bit+0x131>
+ .byte 125,255 // jge 2354d <_sk_load_a8_hsw_8bit+0x131>
.byte 255 // (bad)
.byte 255,113,255 // pushq -0x1(%rcx)
.byte 255 // (bad)
@@ -44493,7 +44406,7 @@ _sk_load_a8_dst_hsw_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,35 // jne 235fc <_sk_load_a8_dst_hsw_8bit+0x40>
+ .byte 117,35 // jne 235b4 <_sk_load_a8_dst_hsw_8bit+0x40>
.byte 196,161,122,111,20,2 // vmovdqu (%rdx,%r8,1),%xmm2
.byte 197,249,112,218,78 // vpshufd $0x4e,%xmm2,%xmm3
.byte 196,226,125,49,219 // vpmovzxbd %xmm3,%ymm3
@@ -44506,35 +44419,35 @@ _sk_load_a8_dst_hsw_8bit:
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,210 // ja 235df <_sk_load_a8_dst_hsw_8bit+0x23>
+ .byte 119,210 // ja 23597 <_sk_load_a8_dst_hsw_8bit+0x23>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,192,0,0,0 // lea 0xc0(%rip),%rcx # 236d8 <_sk_load_a8_dst_hsw_8bit+0x11c>
+ .byte 72,141,13,192,0,0,0 // lea 0xc0(%rip),%rcx # 23690 <_sk_load_a8_dst_hsw_8bit+0x11c>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 197,249,110,208 // vmovd %eax,%xmm2
- .byte 235,179 // jmp 235df <_sk_load_a8_dst_hsw_8bit+0x23>
+ .byte 235,179 // jmp 23597 <_sk_load_a8_dst_hsw_8bit+0x23>
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,163,105,32,84,2,2,2 // vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm2,%xmm2
.byte 66,15,183,4,2 // movzwl (%rdx,%r8,1),%eax
.byte 197,249,110,216 // vmovd %eax,%xmm3
.byte 196,227,105,14,211,1 // vpblendw $0x1,%xmm3,%xmm2,%xmm2
- .byte 235,150 // jmp 235df <_sk_load_a8_dst_hsw_8bit+0x23>
+ .byte 235,150 // jmp 23597 <_sk_load_a8_dst_hsw_8bit+0x23>
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,163,105,32,84,2,6,6 // vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,163,105,32,84,2,5,5 // vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,163,105,32,84,2,4,4 // vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,161,121,110,28,2 // vmovd (%rdx,%r8,1),%xmm3
.byte 196,227,105,2,211,1 // vpblendd $0x1,%xmm3,%xmm2,%xmm2
- .byte 233,105,255,255,255 // jmpq 235df <_sk_load_a8_dst_hsw_8bit+0x23>
+ .byte 233,105,255,255,255 // jmpq 23597 <_sk_load_a8_dst_hsw_8bit+0x23>
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,163,105,32,84,2,10,10 // vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,163,105,32,84,2,9,9 // vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,163,105,32,84,2,8,8 // vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,161,122,126,28,2 // vmovq (%rdx,%r8,1),%xmm3
.byte 196,227,97,2,210,12 // vpblendd $0xc,%xmm2,%xmm3,%xmm2
- .byte 233,60,255,255,255 // jmpq 235df <_sk_load_a8_dst_hsw_8bit+0x23>
+ .byte 233,60,255,255,255 // jmpq 23597 <_sk_load_a8_dst_hsw_8bit+0x23>
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,163,105,32,84,2,14,14 // vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,163,105,32,84,2,13,13 // vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm2,%xmm2
@@ -44542,7 +44455,7 @@ _sk_load_a8_dst_hsw_8bit:
.byte 196,161,122,126,28,2 // vmovq (%rdx,%r8,1),%xmm3
.byte 196,163,97,34,92,2,8,2 // vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm3,%xmm3
.byte 196,227,97,2,210,8 // vpblendd $0x8,%xmm2,%xmm3,%xmm2
- .byte 233,7,255,255,255 // jmpq 235df <_sk_load_a8_dst_hsw_8bit+0x23>
+ .byte 233,7,255,255,255 // jmpq 23597 <_sk_load_a8_dst_hsw_8bit+0x23>
.byte 73,255 // rex.WB (bad)
.byte 255 // (bad)
.byte 255,96,255 // jmpq *-0x1(%rax)
@@ -44552,7 +44465,7 @@ _sk_load_a8_dst_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 125,255 // jge 236ed <_sk_load_a8_dst_hsw_8bit+0x131>
+ .byte 125,255 // jge 236a5 <_sk_load_a8_dst_hsw_8bit+0x131>
.byte 255 // (bad)
.byte 255,113,255 // pushq -0x1(%rcx)
.byte 255 // (bad)
@@ -44588,49 +44501,49 @@ _sk_store_a8_hsw_8bit:
.byte 72,99,87,8 // movslq 0x8(%rdi),%rdx
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
- .byte 197,253,111,37,140,136,0,0 // vmovdqa 0x888c(%rip),%ymm4 # 2bfc0 <_sk_overlay_sse2_8bit+0xadb>
+ .byte 197,253,111,37,212,136,0,0 // vmovdqa 0x88d4(%rip),%ymm4 # 2bfc0 <_sk_overlay_sse2_8bit+0xb23>
.byte 196,226,117,0,236 // vpshufb %ymm4,%ymm1,%ymm5
.byte 196,227,253,0,237,232 // vpermq $0xe8,%ymm5,%ymm5
- .byte 197,249,111,53,137,146,0,0 // vmovdqa 0x9289(%rip),%xmm6 # 2c9d0 <_sk_overlay_sse2_8bit+0x14eb>
+ .byte 197,249,111,53,1,147,0,0 // vmovdqa 0x9301(%rip),%xmm6 # 2ca00 <_sk_overlay_sse2_8bit+0x1563>
.byte 196,226,81,0,238 // vpshufb %xmm6,%xmm5,%xmm5
.byte 196,226,125,0,228 // vpshufb %ymm4,%ymm0,%ymm4
.byte 196,227,253,0,228,232 // vpermq $0xe8,%ymm4,%ymm4
.byte 196,226,89,0,230 // vpshufb %xmm6,%xmm4,%xmm4
.byte 197,217,108,229 // vpunpcklqdq %xmm5,%xmm4,%xmm4
.byte 77,133,201 // test %r9,%r9
- .byte 117,10 // jne 2376f <_sk_store_a8_hsw_8bit+0x5b>
+ .byte 117,10 // jne 23727 <_sk_store_a8_hsw_8bit+0x5b>
.byte 196,161,122,127,36,2 // vmovdqu %xmm4,(%rdx,%r8,1)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 65,128,225,15 // and $0xf,%r9b
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,239 // ja 2376b <_sk_store_a8_hsw_8bit+0x57>
+ .byte 119,239 // ja 23723 <_sk_store_a8_hsw_8bit+0x57>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,137,0,0,0 // lea 0x89(%rip),%rcx # 23810 <_sk_store_a8_hsw_8bit+0xfc>
+ .byte 72,141,13,137,0,0,0 // lea 0x89(%rip),%rcx # 237c8 <_sk_store_a8_hsw_8bit+0xfc>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 196,163,121,20,36,2,0 // vpextrb $0x0,%xmm4,(%rdx,%r8,1)
- .byte 235,210 // jmp 2376b <_sk_store_a8_hsw_8bit+0x57>
+ .byte 235,210 // jmp 23723 <_sk_store_a8_hsw_8bit+0x57>
.byte 196,163,121,20,100,2,2,2 // vpextrb $0x2,%xmm4,0x2(%rdx,%r8,1)
.byte 196,163,121,21,36,2,0 // vpextrw $0x0,%xmm4,(%rdx,%r8,1)
- .byte 235,193 // jmp 2376b <_sk_store_a8_hsw_8bit+0x57>
+ .byte 235,193 // jmp 23723 <_sk_store_a8_hsw_8bit+0x57>
.byte 196,163,121,20,100,2,6,6 // vpextrb $0x6,%xmm4,0x6(%rdx,%r8,1)
.byte 196,163,121,20,100,2,5,5 // vpextrb $0x5,%xmm4,0x5(%rdx,%r8,1)
.byte 196,163,121,20,100,2,4,4 // vpextrb $0x4,%xmm4,0x4(%rdx,%r8,1)
.byte 196,161,121,126,36,2 // vmovd %xmm4,(%rdx,%r8,1)
- .byte 235,161 // jmp 2376b <_sk_store_a8_hsw_8bit+0x57>
+ .byte 235,161 // jmp 23723 <_sk_store_a8_hsw_8bit+0x57>
.byte 196,163,121,20,100,2,10,10 // vpextrb $0xa,%xmm4,0xa(%rdx,%r8,1)
.byte 196,163,121,20,100,2,9,9 // vpextrb $0x9,%xmm4,0x9(%rdx,%r8,1)
.byte 196,163,121,20,100,2,8,8 // vpextrb $0x8,%xmm4,0x8(%rdx,%r8,1)
- .byte 235,32 // jmp 23804 <_sk_store_a8_hsw_8bit+0xf0>
+ .byte 235,32 // jmp 237bc <_sk_store_a8_hsw_8bit+0xf0>
.byte 196,163,121,20,100,2,14,14 // vpextrb $0xe,%xmm4,0xe(%rdx,%r8,1)
.byte 196,163,121,20,100,2,13,13 // vpextrb $0xd,%xmm4,0xd(%rdx,%r8,1)
.byte 196,163,121,20,100,2,12,12 // vpextrb $0xc,%xmm4,0xc(%rdx,%r8,1)
.byte 196,163,121,22,100,2,8,2 // vpextrd $0x2,%xmm4,0x8(%rdx,%r8,1)
.byte 196,161,121,214,36,2 // vmovq %xmm4,(%rdx,%r8,1)
- .byte 233,92,255,255,255 // jmpq 2376b <_sk_store_a8_hsw_8bit+0x57>
+ .byte 233,92,255,255,255 // jmpq 23723 <_sk_store_a8_hsw_8bit+0x57>
.byte 144 // nop
.byte 128,255,255 // cmp $0xff,%bh
.byte 255,145,255,255,255,137 // callq *-0x76000001(%rcx)
@@ -44678,15 +44591,15 @@ _sk_load_g8_hsw_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,61 // jne 238a6 <_sk_load_g8_hsw_8bit+0x5a>
+ .byte 117,61 // jne 2385e <_sk_load_g8_hsw_8bit+0x5a>
.byte 196,161,122,111,4,2 // vmovdqu (%rdx,%r8,1),%xmm0
.byte 196,226,125,49,200 // vpmovzxbd %xmm0,%ymm1
.byte 197,249,112,192,78 // vpshufd $0x4e,%xmm0,%xmm0
.byte 196,226,125,49,192 // vpmovzxbd %xmm0,%ymm0
- .byte 196,226,125,88,37,49,130,0,0 // vpbroadcastd 0x8231(%rip),%ymm4 # 2bab8 <_sk_overlay_sse2_8bit+0x5d3>
+ .byte 196,226,125,88,37,49,130,0,0 // vpbroadcastd 0x8231(%rip),%ymm4 # 2ba70 <_sk_overlay_sse2_8bit+0x5d3>
.byte 196,226,125,64,236 // vpmulld %ymm4,%ymm0,%ymm5
.byte 196,226,117,64,196 // vpmulld %ymm4,%ymm1,%ymm0
- .byte 196,226,125,88,13,34,130,0,0 // vpbroadcastd 0x8222(%rip),%ymm1 # 2babc <_sk_overlay_sse2_8bit+0x5d7>
+ .byte 196,226,125,88,13,34,130,0,0 // vpbroadcastd 0x8222(%rip),%ymm1 # 2ba74 <_sk_overlay_sse2_8bit+0x5d7>
.byte 197,253,235,193 // vpor %ymm1,%ymm0,%ymm0
.byte 197,213,235,201 // vpor %ymm1,%ymm5,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -44695,35 +44608,35 @@ _sk_load_g8_hsw_8bit:
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,184 // ja 2386f <_sk_load_g8_hsw_8bit+0x23>
+ .byte 119,184 // ja 23827 <_sk_load_g8_hsw_8bit+0x23>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,198,0,0,0 // lea 0xc6(%rip),%rcx # 23988 <_sk_load_g8_hsw_8bit+0x13c>
+ .byte 72,141,13,198,0,0,0 // lea 0xc6(%rip),%rcx # 23940 <_sk_load_g8_hsw_8bit+0x13c>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 197,249,110,192 // vmovd %eax,%xmm0
- .byte 235,153 // jmp 2386f <_sk_load_g8_hsw_8bit+0x23>
+ .byte 235,153 // jmp 23827 <_sk_load_g8_hsw_8bit+0x23>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,163,121,32,68,2,2,2 // vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm0,%xmm0
.byte 66,15,183,4,2 // movzwl (%rdx,%r8,1),%eax
.byte 197,249,110,200 // vmovd %eax,%xmm1
.byte 196,227,121,14,193,1 // vpblendw $0x1,%xmm1,%xmm0,%xmm0
- .byte 233,121,255,255,255 // jmpq 2386f <_sk_load_g8_hsw_8bit+0x23>
+ .byte 233,121,255,255,255 // jmpq 23827 <_sk_load_g8_hsw_8bit+0x23>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,163,121,32,68,2,6,6 // vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,163,121,32,68,2,5,5 // vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,163,121,32,68,2,4,4 // vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,161,121,110,12,2 // vmovd (%rdx,%r8,1),%xmm1
.byte 196,227,121,2,193,1 // vpblendd $0x1,%xmm1,%xmm0,%xmm0
- .byte 233,76,255,255,255 // jmpq 2386f <_sk_load_g8_hsw_8bit+0x23>
+ .byte 233,76,255,255,255 // jmpq 23827 <_sk_load_g8_hsw_8bit+0x23>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,163,121,32,68,2,10,10 // vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,163,121,32,68,2,9,9 // vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,163,121,32,68,2,8,8 // vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,161,122,126,12,2 // vmovq (%rdx,%r8,1),%xmm1
.byte 196,227,113,2,192,12 // vpblendd $0xc,%xmm0,%xmm1,%xmm0
- .byte 233,31,255,255,255 // jmpq 2386f <_sk_load_g8_hsw_8bit+0x23>
+ .byte 233,31,255,255,255 // jmpq 23827 <_sk_load_g8_hsw_8bit+0x23>
.byte 197,249,239,192 // vpxor %xmm0,%xmm0,%xmm0
.byte 196,163,121,32,68,2,14,14 // vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm0,%xmm0
.byte 196,163,121,32,68,2,13,13 // vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm0,%xmm0
@@ -44731,7 +44644,7 @@ _sk_load_g8_hsw_8bit:
.byte 196,161,122,126,12,2 // vmovq (%rdx,%r8,1),%xmm1
.byte 196,163,113,34,76,2,8,2 // vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm1,%xmm1
.byte 196,227,113,2,192,8 // vpblendd $0x8,%xmm0,%xmm1,%xmm0
- .byte 233,234,254,255,255 // jmpq 2386f <_sk_load_g8_hsw_8bit+0x23>
+ .byte 233,234,254,255,255 // jmpq 23827 <_sk_load_g8_hsw_8bit+0x23>
.byte 15,31,0 // nopl (%rax)
.byte 67,255 // rex.XB (bad)
.byte 255 // (bad)
@@ -44743,7 +44656,7 @@ _sk_load_g8_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 122,255 // jp 2399d <_sk_load_g8_hsw_8bit+0x151>
+ .byte 122,255 // jp 23955 <_sk_load_g8_hsw_8bit+0x151>
.byte 255 // (bad)
.byte 255,110,255 // ljmp *-0x1(%rsi)
.byte 255 // (bad)
@@ -44779,15 +44692,15 @@ _sk_load_g8_dst_hsw_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,61 // jne 23a1e <_sk_load_g8_dst_hsw_8bit+0x5a>
+ .byte 117,61 // jne 239d6 <_sk_load_g8_dst_hsw_8bit+0x5a>
.byte 196,161,122,111,20,2 // vmovdqu (%rdx,%r8,1),%xmm2
.byte 196,226,125,49,218 // vpmovzxbd %xmm2,%ymm3
.byte 197,249,112,210,78 // vpshufd $0x4e,%xmm2,%xmm2
.byte 196,226,125,49,210 // vpmovzxbd %xmm2,%ymm2
- .byte 196,226,125,88,37,185,128,0,0 // vpbroadcastd 0x80b9(%rip),%ymm4 # 2bab8 <_sk_overlay_sse2_8bit+0x5d3>
+ .byte 196,226,125,88,37,185,128,0,0 // vpbroadcastd 0x80b9(%rip),%ymm4 # 2ba70 <_sk_overlay_sse2_8bit+0x5d3>
.byte 196,226,109,64,236 // vpmulld %ymm4,%ymm2,%ymm5
.byte 196,226,101,64,212 // vpmulld %ymm4,%ymm3,%ymm2
- .byte 196,226,125,88,29,170,128,0,0 // vpbroadcastd 0x80aa(%rip),%ymm3 # 2babc <_sk_overlay_sse2_8bit+0x5d7>
+ .byte 196,226,125,88,29,170,128,0,0 // vpbroadcastd 0x80aa(%rip),%ymm3 # 2ba74 <_sk_overlay_sse2_8bit+0x5d7>
.byte 197,237,235,211 // vpor %ymm3,%ymm2,%ymm2
.byte 197,213,235,219 // vpor %ymm3,%ymm5,%ymm3
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -44796,35 +44709,35 @@ _sk_load_g8_dst_hsw_8bit:
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 119,184 // ja 239e7 <_sk_load_g8_dst_hsw_8bit+0x23>
+ .byte 119,184 // ja 2399f <_sk_load_g8_dst_hsw_8bit+0x23>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,198,0,0,0 // lea 0xc6(%rip),%rcx # 23b00 <_sk_load_g8_dst_hsw_8bit+0x13c>
+ .byte 72,141,13,198,0,0,0 // lea 0xc6(%rip),%rcx # 23ab8 <_sk_load_g8_dst_hsw_8bit+0x13c>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 197,249,110,208 // vmovd %eax,%xmm2
- .byte 235,153 // jmp 239e7 <_sk_load_g8_dst_hsw_8bit+0x23>
+ .byte 235,153 // jmp 2399f <_sk_load_g8_dst_hsw_8bit+0x23>
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,163,105,32,84,2,2,2 // vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm2,%xmm2
.byte 66,15,183,4,2 // movzwl (%rdx,%r8,1),%eax
.byte 197,249,110,216 // vmovd %eax,%xmm3
.byte 196,227,105,14,211,1 // vpblendw $0x1,%xmm3,%xmm2,%xmm2
- .byte 233,121,255,255,255 // jmpq 239e7 <_sk_load_g8_dst_hsw_8bit+0x23>
+ .byte 233,121,255,255,255 // jmpq 2399f <_sk_load_g8_dst_hsw_8bit+0x23>
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,163,105,32,84,2,6,6 // vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,163,105,32,84,2,5,5 // vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,163,105,32,84,2,4,4 // vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,161,121,110,28,2 // vmovd (%rdx,%r8,1),%xmm3
.byte 196,227,105,2,211,1 // vpblendd $0x1,%xmm3,%xmm2,%xmm2
- .byte 233,76,255,255,255 // jmpq 239e7 <_sk_load_g8_dst_hsw_8bit+0x23>
+ .byte 233,76,255,255,255 // jmpq 2399f <_sk_load_g8_dst_hsw_8bit+0x23>
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,163,105,32,84,2,10,10 // vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,163,105,32,84,2,9,9 // vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,163,105,32,84,2,8,8 // vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,161,122,126,28,2 // vmovq (%rdx,%r8,1),%xmm3
.byte 196,227,97,2,210,12 // vpblendd $0xc,%xmm2,%xmm3,%xmm2
- .byte 233,31,255,255,255 // jmpq 239e7 <_sk_load_g8_dst_hsw_8bit+0x23>
+ .byte 233,31,255,255,255 // jmpq 2399f <_sk_load_g8_dst_hsw_8bit+0x23>
.byte 197,233,239,210 // vpxor %xmm2,%xmm2,%xmm2
.byte 196,163,105,32,84,2,14,14 // vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm2,%xmm2
.byte 196,163,105,32,84,2,13,13 // vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm2,%xmm2
@@ -44832,7 +44745,7 @@ _sk_load_g8_dst_hsw_8bit:
.byte 196,161,122,126,28,2 // vmovq (%rdx,%r8,1),%xmm3
.byte 196,163,97,34,92,2,8,2 // vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm3,%xmm3
.byte 196,227,97,2,210,8 // vpblendd $0x8,%xmm2,%xmm3,%xmm2
- .byte 233,234,254,255,255 // jmpq 239e7 <_sk_load_g8_dst_hsw_8bit+0x23>
+ .byte 233,234,254,255,255 // jmpq 2399f <_sk_load_g8_dst_hsw_8bit+0x23>
.byte 15,31,0 // nopl (%rax)
.byte 67,255 // rex.XB (bad)
.byte 255 // (bad)
@@ -44844,7 +44757,7 @@ _sk_load_g8_dst_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 122,255 // jp 23b15 <_sk_load_g8_dst_hsw_8bit+0x151>
+ .byte 122,255 // jp 23acd <_sk_load_g8_dst_hsw_8bit+0x151>
.byte 255 // (bad)
.byte 255,110,255 // ljmp *-0x1(%rsi)
.byte 255 // (bad)
@@ -44881,10 +44794,10 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,192 // test %r8,%r8
- .byte 15,133,222,0,0,0 // jne 23c3f <_sk_srcover_rgba_8888_hsw_8bit+0x103>
+ .byte 15,133,222,0,0,0 // jne 23bf7 <_sk_srcover_rgba_8888_hsw_8bit+0x103>
.byte 196,33,126,111,76,138,32 // vmovdqu 0x20(%rdx,%r9,4),%ymm9
.byte 196,33,126,111,28,138 // vmovdqu (%rdx,%r9,4),%ymm11
- .byte 197,253,111,53,106,132,0,0 // vmovdqa 0x846a(%rip),%ymm6 # 2bfe0 <_sk_overlay_sse2_8bit+0xafb>
+ .byte 197,253,111,53,178,132,0,0 // vmovdqa 0x84b2(%rip),%ymm6 # 2bfe0 <_sk_overlay_sse2_8bit+0xb43>
.byte 196,226,117,0,254 // vpshufb %ymm6,%ymm1,%ymm7
.byte 196,226,125,0,246 // vpshufb %ymm6,%ymm0,%ymm6
.byte 196,66,125,48,195 // vpmovzxbw %xmm11,%ymm8
@@ -44922,7 +44835,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 197,221,252,224 // vpaddb %ymm0,%ymm4,%ymm4
.byte 197,213,252,233 // vpaddb %ymm1,%ymm5,%ymm5
.byte 77,133,192 // test %r8,%r8
- .byte 117,72 // jne 23c76 <_sk_srcover_rgba_8888_hsw_8bit+0x13a>
+ .byte 117,72 // jne 23c2e <_sk_srcover_rgba_8888_hsw_8bit+0x13a>
.byte 196,161,126,127,36,138 // vmovdqu %ymm4,(%rdx,%r9,4)
.byte 196,161,126,127,108,138,32 // vmovdqu %ymm5,0x20(%rdx,%r9,4)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -44933,25 +44846,25 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 196,65,37,239,219 // vpxor %ymm11,%ymm11,%ymm11
.byte 254,200 // dec %al
.byte 60,14 // cmp $0xe,%al
- .byte 15,135,22,255,255,255 // ja 23b6e <_sk_srcover_rgba_8888_hsw_8bit+0x32>
+ .byte 15,135,22,255,255,255 // ja 23b26 <_sk_srcover_rgba_8888_hsw_8bit+0x32>
.byte 15,182,192 // movzbl %al,%eax
- .byte 72,141,13,234,1,0,0 // lea 0x1ea(%rip),%rcx # 23e4c <_sk_srcover_rgba_8888_hsw_8bit+0x310>
+ .byte 72,141,13,234,1,0,0 // lea 0x1ea(%rip),%rcx # 23e04 <_sk_srcover_rgba_8888_hsw_8bit+0x310>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 196,33,121,110,28,138 // vmovd (%rdx,%r9,4),%xmm11
- .byte 233,248,254,255,255 // jmpq 23b6e <_sk_srcover_rgba_8888_hsw_8bit+0x32>
+ .byte 233,248,254,255,255 // jmpq 23b26 <_sk_srcover_rgba_8888_hsw_8bit+0x32>
.byte 65,128,224,15 // and $0xf,%r8b
.byte 65,254,200 // dec %r8b
.byte 65,128,248,14 // cmp $0xe,%r8b
- .byte 119,184 // ja 23c3b <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ .byte 119,184 // ja 23bf3 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
.byte 65,15,182,192 // movzbl %r8b,%eax
- .byte 72,141,13,250,1,0,0 // lea 0x1fa(%rip),%rcx # 23e88 <_sk_srcover_rgba_8888_hsw_8bit+0x34c>
+ .byte 72,141,13,250,1,0,0 // lea 0x1fa(%rip),%rcx # 23e40 <_sk_srcover_rgba_8888_hsw_8bit+0x34c>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 196,161,121,126,36,138 // vmovd %xmm4,(%rdx,%r9,4)
- .byte 235,156 // jmp 23c3b <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ .byte 235,156 // jmp 23bf3 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
.byte 196,161,121,110,100,138,8 // vmovd 0x8(%rdx,%r9,4),%xmm4
.byte 196,226,121,89,236 // vpbroadcastq %xmm4,%xmm5
.byte 196,65,53,239,201 // vpxor %ymm9,%ymm9,%ymm9
@@ -44959,7 +44872,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 196,162,121,53,52,138 // vpmovzxdq (%rdx,%r9,4),%xmm6
.byte 197,249,112,246,232 // vpshufd $0xe8,%xmm6,%xmm6
.byte 196,99,37,2,222,3 // vpblendd $0x3,%ymm6,%ymm11,%ymm11
- .byte 233,162,254,255,255 // jmpq 23b6e <_sk_srcover_rgba_8888_hsw_8bit+0x32>
+ .byte 233,162,254,255,255 // jmpq 23b26 <_sk_srcover_rgba_8888_hsw_8bit+0x32>
.byte 196,161,121,110,100,138,24 // vmovd 0x18(%rdx,%r9,4),%xmm4
.byte 196,226,125,89,236 // vpbroadcastq %xmm4,%ymm5
.byte 196,65,53,239,201 // vpxor %ymm9,%ymm9,%ymm9
@@ -44972,7 +44885,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 196,99,37,56,222,1 // vinserti128 $0x1,%xmm6,%ymm11,%ymm11
.byte 196,161,122,111,52,138 // vmovdqu (%rdx,%r9,4),%xmm6
.byte 196,67,77,2,219,240 // vpblendd $0xf0,%ymm11,%ymm6,%ymm11
- .byte 233,82,254,255,255 // jmpq 23b6e <_sk_srcover_rgba_8888_hsw_8bit+0x32>
+ .byte 233,82,254,255,255 // jmpq 23b26 <_sk_srcover_rgba_8888_hsw_8bit+0x32>
.byte 196,161,121,110,100,138,40 // vmovd 0x28(%rdx,%r9,4),%xmm4
.byte 196,226,121,89,228 // vpbroadcastq %xmm4,%xmm4
.byte 197,213,239,237 // vpxor %ymm5,%ymm5,%ymm5
@@ -44981,7 +44894,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 196,99,53,2,205,15 // vpblendd $0xf,%ymm5,%ymm9,%ymm9
.byte 196,161,121,110,108,138,32 // vmovd 0x20(%rdx,%r9,4),%xmm5
.byte 196,99,53,2,205,1 // vpblendd $0x1,%ymm5,%ymm9,%ymm9
- .byte 233,22,254,255,255 // jmpq 23b68 <_sk_srcover_rgba_8888_hsw_8bit+0x2c>
+ .byte 233,22,254,255,255 // jmpq 23b20 <_sk_srcover_rgba_8888_hsw_8bit+0x2c>
.byte 196,161,121,110,100,138,56 // vmovd 0x38(%rdx,%r9,4),%xmm4
.byte 196,226,125,89,228 // vpbroadcastq %xmm4,%ymm4
.byte 197,213,239,237 // vpxor %ymm5,%ymm5,%ymm5
@@ -44995,10 +44908,10 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 196,33,126,111,28,138 // vmovdqu (%rdx,%r9,4),%ymm11
.byte 196,161,122,111,116,138,32 // vmovdqu 0x20(%rdx,%r9,4),%xmm6
.byte 196,67,77,2,201,240 // vpblendd $0xf0,%ymm9,%ymm6,%ymm9
- .byte 233,198,253,255,255 // jmpq 23b6e <_sk_srcover_rgba_8888_hsw_8bit+0x32>
+ .byte 233,198,253,255,255 // jmpq 23b26 <_sk_srcover_rgba_8888_hsw_8bit+0x32>
.byte 196,163,121,22,100,138,8,2 // vpextrd $0x2,%xmm4,0x8(%rdx,%r9,4)
.byte 196,161,121,214,36,138 // vmovq %xmm4,(%rdx,%r9,4)
- .byte 233,128,254,255,255 // jmpq 23c3b <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ .byte 233,128,254,255,255 // jmpq 23bf3 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
.byte 196,227,125,57,229,1 // vextracti128 $0x1,%ymm4,%xmm5
.byte 196,163,121,22,108,138,24,2 // vpextrd $0x2,%xmm5,0x18(%rdx,%r9,4)
.byte 196,227,125,57,229,1 // vextracti128 $0x1,%ymm4,%xmm5
@@ -45006,12 +44919,12 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 196,227,125,57,229,1 // vextracti128 $0x1,%ymm4,%xmm5
.byte 196,161,121,126,108,138,16 // vmovd %xmm5,0x10(%rdx,%r9,4)
.byte 196,161,122,127,36,138 // vmovdqu %xmm4,(%rdx,%r9,4)
- .byte 233,76,254,255,255 // jmpq 23c3b <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ .byte 233,76,254,255,255 // jmpq 23bf3 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
.byte 196,163,121,22,108,138,40,2 // vpextrd $0x2,%xmm5,0x28(%rdx,%r9,4)
.byte 196,163,121,22,108,138,36,1 // vpextrd $0x1,%xmm5,0x24(%rdx,%r9,4)
.byte 196,161,121,126,108,138,32 // vmovd %xmm5,0x20(%rdx,%r9,4)
.byte 196,161,126,127,36,138 // vmovdqu %ymm4,(%rdx,%r9,4)
- .byte 233,42,254,255,255 // jmpq 23c3b <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ .byte 233,42,254,255,255 // jmpq 23bf3 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
.byte 196,227,125,57,238,1 // vextracti128 $0x1,%ymm5,%xmm6
.byte 196,163,121,22,116,138,56,2 // vpextrd $0x2,%xmm6,0x38(%rdx,%r9,4)
.byte 196,227,125,57,238,1 // vextracti128 $0x1,%ymm5,%xmm6
@@ -45020,7 +44933,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 196,161,121,126,116,138,48 // vmovd %xmm6,0x30(%rdx,%r9,4)
.byte 196,161,126,127,36,138 // vmovdqu %ymm4,(%rdx,%r9,4)
.byte 196,161,122,127,108,138,32 // vmovdqu %xmm5,0x20(%rdx,%r9,4)
- .byte 233,239,253,255,255 // jmpq 23c3b <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ .byte 233,239,253,255,255 // jmpq 23bf3 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
.byte 31 // (bad)
.byte 254 // (bad)
.byte 255 // (bad)
@@ -45070,7 +44983,7 @@ _sk_srcover_rgba_8888_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 126,255 // jle 23ea5 <_sk_srcover_rgba_8888_hsw_8bit+0x369>
+ .byte 126,255 // jle 23e5d <_sk_srcover_rgba_8888_hsw_8bit+0x369>
.byte 255 // (bad)
.byte 255,119,255 // pushq -0x1(%rdi)
.byte 255 // (bad)
@@ -45092,7 +45005,7 @@ FUNCTION(_sk_scale_1_float_hsw_8bit)
_sk_scale_1_float_hsw_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,250,16,32 // vmovss (%rax),%xmm4
- .byte 197,218,89,37,130,122,0,0 // vmulss 0x7a82(%rip),%xmm4,%xmm4 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 197,218,89,37,130,122,0,0 // vmulss 0x7a82(%rip),%xmm4,%xmm4 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 197,250,44,196 // vcvttss2si %xmm4,%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
.byte 196,226,125,120,228 // vpbroadcastb %xmm4,%ymm4
@@ -45102,7 +45015,7 @@ _sk_scale_1_float_hsw_8bit:
.byte 196,226,125,48,241 // vpmovzxbw %xmm1,%ymm6
.byte 196,227,125,57,201,1 // vextracti128 $0x1,%ymm1,%xmm1
.byte 196,226,125,48,201 // vpmovzxbw %xmm1,%ymm1
- .byte 197,221,219,37,249,128,0,0 // vpand 0x80f9(%rip),%ymm4,%ymm4 # 2c000 <_sk_overlay_sse2_8bit+0xb1b>
+ .byte 197,221,219,37,65,129,0,0 // vpand 0x8141(%rip),%ymm4,%ymm4 # 2c000 <_sk_overlay_sse2_8bit+0xb63>
.byte 197,221,213,249 // vpmullw %ymm1,%ymm4,%ymm7
.byte 197,93,213,198 // vpmullw %ymm6,%ymm4,%ymm8
.byte 197,93,213,200 // vpmullw %ymm0,%ymm4,%ymm9
@@ -45136,12 +45049,12 @@ _sk_scale_u8_hsw_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 15,133,191,0,0,0 // jne 2403f <_sk_scale_u8_hsw_8bit+0xe0>
+ .byte 15,133,191,0,0,0 // jne 23ff7 <_sk_scale_u8_hsw_8bit+0xe0>
.byte 196,161,122,111,36,2 // vmovdqu (%rdx,%r8,1),%xmm4
.byte 196,226,125,49,236 // vpmovzxbd %xmm4,%ymm5
.byte 197,249,112,228,78 // vpshufd $0x4e,%xmm4,%xmm4
.byte 196,226,125,49,228 // vpmovzxbd %xmm4,%ymm4
- .byte 197,253,111,53,131,128,0,0 // vmovdqa 0x8083(%rip),%ymm6 # 2c020 <_sk_overlay_sse2_8bit+0xb3b>
+ .byte 197,253,111,53,203,128,0,0 // vmovdqa 0x80cb(%rip),%ymm6 # 2c020 <_sk_overlay_sse2_8bit+0xb83>
.byte 196,226,93,0,230 // vpshufb %ymm6,%ymm4,%ymm4
.byte 196,226,85,0,238 // vpshufb %ymm6,%ymm5,%ymm5
.byte 196,226,125,48,240 // vpmovzxbw %xmm0,%ymm6
@@ -45180,35 +45093,35 @@ _sk_scale_u8_hsw_8bit:
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 15,135,50,255,255,255 // ja 23f86 <_sk_scale_u8_hsw_8bit+0x27>
+ .byte 15,135,50,255,255,255 // ja 23f3e <_sk_scale_u8_hsw_8bit+0x27>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,201,0,0,0 // lea 0xc9(%rip),%rcx # 24128 <_sk_scale_u8_hsw_8bit+0x1c9>
+ .byte 72,141,13,201,0,0,0 // lea 0xc9(%rip),%rcx # 240e0 <_sk_scale_u8_hsw_8bit+0x1c9>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
- .byte 233,16,255,255,255 // jmpq 23f86 <_sk_scale_u8_hsw_8bit+0x27>
+ .byte 233,16,255,255,255 // jmpq 23f3e <_sk_scale_u8_hsw_8bit+0x27>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 196,163,89,32,100,2,2,2 // vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm4,%xmm4
.byte 66,15,183,4,2 // movzwl (%rdx,%r8,1),%eax
.byte 197,249,110,232 // vmovd %eax,%xmm5
.byte 196,227,89,14,229,1 // vpblendw $0x1,%xmm5,%xmm4,%xmm4
- .byte 233,240,254,255,255 // jmpq 23f86 <_sk_scale_u8_hsw_8bit+0x27>
+ .byte 233,240,254,255,255 // jmpq 23f3e <_sk_scale_u8_hsw_8bit+0x27>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 196,163,89,32,100,2,6,6 // vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,163,89,32,100,2,5,5 // vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,163,89,32,100,2,4,4 // vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,161,121,110,44,2 // vmovd (%rdx,%r8,1),%xmm5
.byte 196,227,89,2,229,1 // vpblendd $0x1,%xmm5,%xmm4,%xmm4
- .byte 233,195,254,255,255 // jmpq 23f86 <_sk_scale_u8_hsw_8bit+0x27>
+ .byte 233,195,254,255,255 // jmpq 23f3e <_sk_scale_u8_hsw_8bit+0x27>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 196,163,89,32,100,2,10,10 // vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,163,89,32,100,2,9,9 // vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,163,89,32,100,2,8,8 // vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,161,122,126,44,2 // vmovq (%rdx,%r8,1),%xmm5
.byte 196,227,81,2,228,12 // vpblendd $0xc,%xmm4,%xmm5,%xmm4
- .byte 233,150,254,255,255 // jmpq 23f86 <_sk_scale_u8_hsw_8bit+0x27>
+ .byte 233,150,254,255,255 // jmpq 23f3e <_sk_scale_u8_hsw_8bit+0x27>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 196,163,89,32,100,2,14,14 // vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,163,89,32,100,2,13,13 // vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm4,%xmm4
@@ -45216,7 +45129,7 @@ _sk_scale_u8_hsw_8bit:
.byte 196,161,122,126,44,2 // vmovq (%rdx,%r8,1),%xmm5
.byte 196,163,81,34,108,2,8,2 // vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm5,%xmm5
.byte 196,227,81,2,228,8 // vpblendd $0x8,%xmm4,%xmm5,%xmm4
- .byte 233,97,254,255,255 // jmpq 23f86 <_sk_scale_u8_hsw_8bit+0x27>
+ .byte 233,97,254,255,255 // jmpq 23f3e <_sk_scale_u8_hsw_8bit+0x27>
.byte 15,31,0 // nopl (%rax)
.byte 64,255 // rex (bad)
.byte 255 // (bad)
@@ -45228,7 +45141,7 @@ _sk_scale_u8_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 122,255 // jp 2413d <_sk_scale_u8_hsw_8bit+0x1de>
+ .byte 122,255 // jp 240f5 <_sk_scale_u8_hsw_8bit+0x1de>
.byte 255 // (bad)
.byte 255,110,255 // ljmp *-0x1(%rsi)
.byte 255 // (bad)
@@ -45258,7 +45171,7 @@ FUNCTION(_sk_lerp_1_float_hsw_8bit)
_sk_lerp_1_float_hsw_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 197,250,16,32 // vmovss (%rax),%xmm4
- .byte 197,218,89,37,226,119,0,0 // vmulss 0x77e2(%rip),%xmm4,%xmm4 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 197,218,89,37,226,119,0,0 // vmulss 0x77e2(%rip),%xmm4,%xmm4 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 197,250,44,196 // vcvttss2si %xmm4,%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
.byte 196,226,125,120,228 // vpbroadcastb %xmm4,%ymm4
@@ -45268,7 +45181,7 @@ _sk_lerp_1_float_hsw_8bit:
.byte 196,226,125,48,241 // vpmovzxbw %xmm1,%ymm6
.byte 196,227,125,57,201,1 // vextracti128 $0x1,%ymm1,%xmm1
.byte 196,226,125,48,201 // vpmovzxbw %xmm1,%ymm1
- .byte 197,221,219,61,153,126,0,0 // vpand 0x7e99(%rip),%ymm4,%ymm7 # 2c040 <_sk_overlay_sse2_8bit+0xb5b>
+ .byte 197,221,219,61,225,126,0,0 // vpand 0x7ee1(%rip),%ymm4,%ymm7 # 2c040 <_sk_overlay_sse2_8bit+0xba3>
.byte 197,69,213,193 // vpmullw %ymm1,%ymm7,%ymm8
.byte 197,69,213,206 // vpmullw %ymm6,%ymm7,%ymm9
.byte 197,69,213,208 // vpmullw %ymm0,%ymm7,%ymm10
@@ -45333,12 +45246,12 @@ _sk_lerp_u8_hsw_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 15,133,106,1,0,0 // jne 2441f <_sk_lerp_u8_hsw_8bit+0x18b>
+ .byte 15,133,106,1,0,0 // jne 243d7 <_sk_lerp_u8_hsw_8bit+0x18b>
.byte 196,161,122,111,36,2 // vmovdqu (%rdx,%r8,1),%xmm4
.byte 196,226,125,49,236 // vpmovzxbd %xmm4,%ymm5
.byte 197,249,112,228,78 // vpshufd $0x4e,%xmm4,%xmm4
.byte 196,226,125,49,228 // vpmovzxbd %xmm4,%ymm4
- .byte 197,253,111,53,142,125,0,0 // vmovdqa 0x7d8e(%rip),%ymm6 # 2c060 <_sk_overlay_sse2_8bit+0xb7b>
+ .byte 197,253,111,53,214,125,0,0 // vmovdqa 0x7dd6(%rip),%ymm6 # 2c060 <_sk_overlay_sse2_8bit+0xbc3>
.byte 196,98,93,0,206 // vpshufb %ymm6,%ymm4,%ymm9
.byte 196,98,85,0,222 // vpshufb %ymm6,%ymm5,%ymm11
.byte 196,226,125,48,240 // vpmovzxbw %xmm0,%ymm6
@@ -45412,35 +45325,35 @@ _sk_lerp_u8_hsw_8bit:
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 65,254,201 // dec %r9b
.byte 65,128,249,14 // cmp $0xe,%r9b
- .byte 15,135,135,254,255,255 // ja 242bb <_sk_lerp_u8_hsw_8bit+0x27>
+ .byte 15,135,135,254,255,255 // ja 24273 <_sk_lerp_u8_hsw_8bit+0x27>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,201,0,0,0 // lea 0xc9(%rip),%rcx # 24508 <_sk_lerp_u8_hsw_8bit+0x274>
+ .byte 72,141,13,201,0,0,0 // lea 0xc9(%rip),%rcx # 244c0 <_sk_lerp_u8_hsw_8bit+0x274>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 197,249,110,224 // vmovd %eax,%xmm4
- .byte 233,101,254,255,255 // jmpq 242bb <_sk_lerp_u8_hsw_8bit+0x27>
+ .byte 233,101,254,255,255 // jmpq 24273 <_sk_lerp_u8_hsw_8bit+0x27>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 196,163,89,32,100,2,2,2 // vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm4,%xmm4
.byte 66,15,183,4,2 // movzwl (%rdx,%r8,1),%eax
.byte 197,249,110,232 // vmovd %eax,%xmm5
.byte 196,227,89,14,229,1 // vpblendw $0x1,%xmm5,%xmm4,%xmm4
- .byte 233,69,254,255,255 // jmpq 242bb <_sk_lerp_u8_hsw_8bit+0x27>
+ .byte 233,69,254,255,255 // jmpq 24273 <_sk_lerp_u8_hsw_8bit+0x27>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 196,163,89,32,100,2,6,6 // vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,163,89,32,100,2,5,5 // vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,163,89,32,100,2,4,4 // vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,161,121,110,44,2 // vmovd (%rdx,%r8,1),%xmm5
.byte 196,227,89,2,229,1 // vpblendd $0x1,%xmm5,%xmm4,%xmm4
- .byte 233,24,254,255,255 // jmpq 242bb <_sk_lerp_u8_hsw_8bit+0x27>
+ .byte 233,24,254,255,255 // jmpq 24273 <_sk_lerp_u8_hsw_8bit+0x27>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 196,163,89,32,100,2,10,10 // vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,163,89,32,100,2,9,9 // vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,163,89,32,100,2,8,8 // vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,161,122,126,44,2 // vmovq (%rdx,%r8,1),%xmm5
.byte 196,227,81,2,228,12 // vpblendd $0xc,%xmm4,%xmm5,%xmm4
- .byte 233,235,253,255,255 // jmpq 242bb <_sk_lerp_u8_hsw_8bit+0x27>
+ .byte 233,235,253,255,255 // jmpq 24273 <_sk_lerp_u8_hsw_8bit+0x27>
.byte 197,217,239,228 // vpxor %xmm4,%xmm4,%xmm4
.byte 196,163,89,32,100,2,14,14 // vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm4,%xmm4
.byte 196,163,89,32,100,2,13,13 // vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm4,%xmm4
@@ -45448,7 +45361,7 @@ _sk_lerp_u8_hsw_8bit:
.byte 196,161,122,126,44,2 // vmovq (%rdx,%r8,1),%xmm5
.byte 196,163,81,34,108,2,8,2 // vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm5,%xmm5
.byte 196,227,81,2,228,8 // vpblendd $0x8,%xmm4,%xmm5,%xmm4
- .byte 233,182,253,255,255 // jmpq 242bb <_sk_lerp_u8_hsw_8bit+0x27>
+ .byte 233,182,253,255,255 // jmpq 24273 <_sk_lerp_u8_hsw_8bit+0x27>
.byte 15,31,0 // nopl (%rax)
.byte 64,255 // rex (bad)
.byte 255 // (bad)
@@ -45460,7 +45373,7 @@ _sk_lerp_u8_hsw_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 122,255 // jp 2451d <_sk_lerp_u8_hsw_8bit+0x289>
+ .byte 122,255 // jp 244d5 <_sk_lerp_u8_hsw_8bit+0x289>
.byte 255 // (bad)
.byte 255,110,255 // ljmp *-0x1(%rsi)
.byte 255 // (bad)
@@ -45507,7 +45420,7 @@ HIDDEN _sk_black_color_hsw_8bit
FUNCTION(_sk_black_color_hsw_8bit)
_sk_black_color_hsw_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 196,226,125,24,5,85,117,0,0 // vbroadcastss 0x7555(%rip),%ymm0 # 2babc <_sk_overlay_sse2_8bit+0x5d7>
+ .byte 196,226,125,24,5,85,117,0,0 // vbroadcastss 0x7555(%rip),%ymm0 # 2ba74 <_sk_overlay_sse2_8bit+0x5d7>
.byte 197,252,40,200 // vmovaps %ymm0,%ymm1
.byte 255,224 // jmpq *%rax
@@ -45533,7 +45446,7 @@ HIDDEN _sk_srcatop_hsw_8bit
.globl _sk_srcatop_hsw_8bit
FUNCTION(_sk_srcatop_hsw_8bit)
_sk_srcatop_hsw_8bit:
- .byte 197,125,111,5,243,122,0,0 // vmovdqa 0x7af3(%rip),%ymm8 # 2c080 <_sk_overlay_sse2_8bit+0xb9b>
+ .byte 197,125,111,5,59,123,0,0 // vmovdqa 0x7b3b(%rip),%ymm8 # 2c080 <_sk_overlay_sse2_8bit+0xbe3>
.byte 196,194,101,0,224 // vpshufb %ymm8,%ymm3,%ymm4
.byte 196,194,109,0,232 // vpshufb %ymm8,%ymm2,%ymm5
.byte 196,98,125,48,208 // vpmovzxbw %xmm0,%ymm10
@@ -45610,7 +45523,7 @@ HIDDEN _sk_dstatop_hsw_8bit
.globl _sk_dstatop_hsw_8bit
FUNCTION(_sk_dstatop_hsw_8bit)
_sk_dstatop_hsw_8bit:
- .byte 197,125,111,5,174,121,0,0 // vmovdqa 0x79ae(%rip),%ymm8 # 2c0a0 <_sk_overlay_sse2_8bit+0xbbb>
+ .byte 197,125,111,5,246,121,0,0 // vmovdqa 0x79f6(%rip),%ymm8 # 2c0a0 <_sk_overlay_sse2_8bit+0xc03>
.byte 196,194,117,0,224 // vpshufb %ymm8,%ymm1,%ymm4
.byte 196,194,125,0,232 // vpshufb %ymm8,%ymm0,%ymm5
.byte 196,98,125,48,210 // vpmovzxbw %xmm2,%ymm10
@@ -45687,7 +45600,7 @@ HIDDEN _sk_srcin_hsw_8bit
.globl _sk_srcin_hsw_8bit
FUNCTION(_sk_srcin_hsw_8bit)
_sk_srcin_hsw_8bit:
- .byte 197,253,111,37,101,120,0,0 // vmovdqa 0x7865(%rip),%ymm4 # 2c0c0 <_sk_overlay_sse2_8bit+0xbdb>
+ .byte 197,253,111,37,173,120,0,0 // vmovdqa 0x78ad(%rip),%ymm4 # 2c0c0 <_sk_overlay_sse2_8bit+0xc23>
.byte 196,226,101,0,236 // vpshufb %ymm4,%ymm3,%ymm5
.byte 196,226,109,0,228 // vpshufb %ymm4,%ymm2,%ymm4
.byte 196,226,125,48,240 // vpmovzxbw %xmm0,%ymm6
@@ -45727,7 +45640,7 @@ HIDDEN _sk_dstin_hsw_8bit
.globl _sk_dstin_hsw_8bit
FUNCTION(_sk_dstin_hsw_8bit)
_sk_dstin_hsw_8bit:
- .byte 197,253,111,37,219,119,0,0 // vmovdqa 0x77db(%rip),%ymm4 # 2c0e0 <_sk_overlay_sse2_8bit+0xbfb>
+ .byte 197,253,111,37,35,120,0,0 // vmovdqa 0x7823(%rip),%ymm4 # 2c0e0 <_sk_overlay_sse2_8bit+0xc43>
.byte 196,226,117,0,204 // vpshufb %ymm4,%ymm1,%ymm1
.byte 196,226,125,0,196 // vpshufb %ymm4,%ymm0,%ymm0
.byte 196,226,125,48,226 // vpmovzxbw %xmm2,%ymm4
@@ -45767,7 +45680,7 @@ HIDDEN _sk_srcout_hsw_8bit
.globl _sk_srcout_hsw_8bit
FUNCTION(_sk_srcout_hsw_8bit)
_sk_srcout_hsw_8bit:
- .byte 197,253,111,37,79,119,0,0 // vmovdqa 0x774f(%rip),%ymm4 # 2c100 <_sk_overlay_sse2_8bit+0xc1b>
+ .byte 197,253,111,37,151,119,0,0 // vmovdqa 0x7797(%rip),%ymm4 # 2c100 <_sk_overlay_sse2_8bit+0xc63>
.byte 196,226,109,0,236 // vpshufb %ymm4,%ymm2,%ymm5
.byte 196,226,101,0,228 // vpshufb %ymm4,%ymm3,%ymm4
.byte 197,205,118,246 // vpcmpeqd %ymm6,%ymm6,%ymm6
@@ -45810,7 +45723,7 @@ HIDDEN _sk_dstout_hsw_8bit
.globl _sk_dstout_hsw_8bit
FUNCTION(_sk_dstout_hsw_8bit)
_sk_dstout_hsw_8bit:
- .byte 197,253,111,37,185,118,0,0 // vmovdqa 0x76b9(%rip),%ymm4 # 2c120 <_sk_overlay_sse2_8bit+0xc3b>
+ .byte 197,253,111,37,1,119,0,0 // vmovdqa 0x7701(%rip),%ymm4 # 2c120 <_sk_overlay_sse2_8bit+0xc83>
.byte 196,226,125,0,196 // vpshufb %ymm4,%ymm0,%ymm0
.byte 196,226,117,0,204 // vpshufb %ymm4,%ymm1,%ymm1
.byte 197,221,118,228 // vpcmpeqd %ymm4,%ymm4,%ymm4
@@ -45853,7 +45766,7 @@ HIDDEN _sk_srcover_hsw_8bit
.globl _sk_srcover_hsw_8bit
FUNCTION(_sk_srcover_hsw_8bit)
_sk_srcover_hsw_8bit:
- .byte 197,253,111,37,33,118,0,0 // vmovdqa 0x7621(%rip),%ymm4 # 2c140 <_sk_overlay_sse2_8bit+0xc5b>
+ .byte 197,253,111,37,105,118,0,0 // vmovdqa 0x7669(%rip),%ymm4 # 2c140 <_sk_overlay_sse2_8bit+0xca3>
.byte 196,226,117,0,236 // vpshufb %ymm4,%ymm1,%ymm5
.byte 196,226,125,0,228 // vpshufb %ymm4,%ymm0,%ymm4
.byte 196,98,125,48,202 // vpmovzxbw %xmm2,%ymm9
@@ -45897,7 +45810,7 @@ HIDDEN _sk_dstover_hsw_8bit
.globl _sk_dstover_hsw_8bit
FUNCTION(_sk_dstover_hsw_8bit)
_sk_dstover_hsw_8bit:
- .byte 197,253,111,37,130,117,0,0 // vmovdqa 0x7582(%rip),%ymm4 # 2c160 <_sk_overlay_sse2_8bit+0xc7b>
+ .byte 197,253,111,37,202,117,0,0 // vmovdqa 0x75ca(%rip),%ymm4 # 2c160 <_sk_overlay_sse2_8bit+0xcc3>
.byte 196,226,101,0,236 // vpshufb %ymm4,%ymm3,%ymm5
.byte 196,226,109,0,228 // vpshufb %ymm4,%ymm2,%ymm4
.byte 196,98,125,48,200 // vpmovzxbw %xmm0,%ymm9
@@ -45980,7 +45893,7 @@ FUNCTION(_sk_multiply_hsw_8bit)
_sk_multiply_hsw_8bit:
.byte 197,253,111,243 // vmovdqa %ymm3,%ymm6
.byte 197,253,111,218 // vmovdqa %ymm2,%ymm3
- .byte 197,125,111,13,67,116,0,0 // vmovdqa 0x7443(%rip),%ymm9 # 2c180 <_sk_overlay_sse2_8bit+0xc9b>
+ .byte 197,125,111,13,139,116,0,0 // vmovdqa 0x748b(%rip),%ymm9 # 2c180 <_sk_overlay_sse2_8bit+0xce3>
.byte 196,194,101,0,225 // vpshufb %ymm9,%ymm3,%ymm4
.byte 196,194,77,0,233 // vpshufb %ymm9,%ymm6,%ymm5
.byte 196,65,45,118,210 // vpcmpeqd %ymm10,%ymm10,%ymm10
@@ -46124,7 +46037,7 @@ HIDDEN _sk_xor__hsw_8bit
.globl _sk_xor__hsw_8bit
FUNCTION(_sk_xor__hsw_8bit)
_sk_xor__hsw_8bit:
- .byte 197,125,111,13,209,113,0,0 // vmovdqa 0x71d1(%rip),%ymm9 # 2c1a0 <_sk_overlay_sse2_8bit+0xcbb>
+ .byte 197,125,111,13,25,114,0,0 // vmovdqa 0x7219(%rip),%ymm9 # 2c1a0 <_sk_overlay_sse2_8bit+0xd03>
.byte 196,194,109,0,225 // vpshufb %ymm9,%ymm2,%ymm4
.byte 196,194,101,0,249 // vpshufb %ymm9,%ymm3,%ymm7
.byte 196,65,37,118,219 // vpcmpeqd %ymm11,%ymm11,%ymm11
@@ -46212,7 +46125,7 @@ HIDDEN _sk_darken_hsw_8bit
.globl _sk_darken_hsw_8bit
FUNCTION(_sk_darken_hsw_8bit)
_sk_darken_hsw_8bit:
- .byte 197,125,111,5,115,112,0,0 // vmovdqa 0x7073(%rip),%ymm8 # 2c1c0 <_sk_overlay_sse2_8bit+0xcdb>
+ .byte 197,125,111,5,187,112,0,0 // vmovdqa 0x70bb(%rip),%ymm8 # 2c1c0 <_sk_overlay_sse2_8bit+0xd23>
.byte 196,194,101,0,224 // vpshufb %ymm8,%ymm3,%ymm4
.byte 196,194,109,0,240 // vpshufb %ymm8,%ymm2,%ymm6
.byte 196,98,125,48,208 // vpmovzxbw %xmm0,%ymm10
@@ -46285,7 +46198,7 @@ _sk_darken_hsw_8bit:
.byte 197,253,248,246 // vpsubb %ymm6,%ymm0,%ymm6
.byte 197,245,248,205 // vpsubb %ymm5,%ymm1,%ymm1
.byte 197,253,248,196 // vpsubb %ymm4,%ymm0,%ymm0
- .byte 196,226,125,88,37,4,104,0,0 // vpbroadcastd 0x6804(%rip),%ymm4 # 2bac0 <_sk_overlay_sse2_8bit+0x5db>
+ .byte 196,226,125,88,37,4,104,0,0 // vpbroadcastd 0x6804(%rip),%ymm4 # 2ba78 <_sk_overlay_sse2_8bit+0x5db>
.byte 196,227,125,76,198,64 // vpblendvb %ymm4,%ymm6,%ymm0,%ymm0
.byte 196,227,117,76,207,64 // vpblendvb %ymm4,%ymm7,%ymm1,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -46295,7 +46208,7 @@ HIDDEN _sk_lighten_hsw_8bit
.globl _sk_lighten_hsw_8bit
FUNCTION(_sk_lighten_hsw_8bit)
_sk_lighten_hsw_8bit:
- .byte 197,125,111,5,12,111,0,0 // vmovdqa 0x6f0c(%rip),%ymm8 # 2c1e0 <_sk_overlay_sse2_8bit+0xcfb>
+ .byte 197,125,111,5,84,111,0,0 // vmovdqa 0x6f54(%rip),%ymm8 # 2c1e0 <_sk_overlay_sse2_8bit+0xd43>
.byte 196,194,101,0,224 // vpshufb %ymm8,%ymm3,%ymm4
.byte 196,194,109,0,240 // vpshufb %ymm8,%ymm2,%ymm6
.byte 196,98,125,48,208 // vpmovzxbw %xmm0,%ymm10
@@ -46368,7 +46281,7 @@ _sk_lighten_hsw_8bit:
.byte 197,253,248,246 // vpsubb %ymm6,%ymm0,%ymm6
.byte 197,245,248,205 // vpsubb %ymm5,%ymm1,%ymm1
.byte 197,253,248,196 // vpsubb %ymm4,%ymm0,%ymm0
- .byte 196,226,125,88,37,125,102,0,0 // vpbroadcastd 0x667d(%rip),%ymm4 # 2bac0 <_sk_overlay_sse2_8bit+0x5db>
+ .byte 196,226,125,88,37,125,102,0,0 // vpbroadcastd 0x667d(%rip),%ymm4 # 2ba78 <_sk_overlay_sse2_8bit+0x5db>
.byte 196,227,125,76,198,64 // vpblendvb %ymm4,%ymm6,%ymm0,%ymm0
.byte 196,227,117,76,207,64 // vpblendvb %ymm4,%ymm7,%ymm1,%ymm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -46408,7 +46321,7 @@ _sk_exclusion_hsw_8bit:
.byte 196,227,77,56,252,1 // vinserti128 $0x1,%xmm4,%ymm6,%ymm7
.byte 196,227,77,70,228,49 // vperm2i128 $0x31,%ymm4,%ymm6,%ymm4
.byte 197,197,103,228 // vpackuswb %ymm4,%ymm7,%ymm4
- .byte 197,253,111,53,14,109,0,0 // vmovdqa 0x6d0e(%rip),%ymm6 # 2c200 <_sk_overlay_sse2_8bit+0xd1b>
+ .byte 197,253,111,53,86,109,0,0 // vmovdqa 0x6d56(%rip),%ymm6 # 2c200 <_sk_overlay_sse2_8bit+0xd63>
.byte 197,221,219,254 // vpand %ymm6,%ymm4,%ymm7
.byte 197,213,219,246 // vpand %ymm6,%ymm5,%ymm6
.byte 197,237,252,192 // vpaddb %ymm0,%ymm2,%ymm0
@@ -46424,7 +46337,7 @@ HIDDEN _sk_difference_hsw_8bit
.globl _sk_difference_hsw_8bit
FUNCTION(_sk_difference_hsw_8bit)
_sk_difference_hsw_8bit:
- .byte 197,125,111,5,2,109,0,0 // vmovdqa 0x6d02(%rip),%ymm8 # 2c220 <_sk_overlay_sse2_8bit+0xd3b>
+ .byte 197,125,111,5,74,109,0,0 // vmovdqa 0x6d4a(%rip),%ymm8 # 2c220 <_sk_overlay_sse2_8bit+0xd83>
.byte 196,194,101,0,224 // vpshufb %ymm8,%ymm3,%ymm4
.byte 196,194,109,0,240 // vpshufb %ymm8,%ymm2,%ymm6
.byte 196,98,125,48,208 // vpmovzxbw %xmm0,%ymm10
@@ -46491,7 +46404,7 @@ _sk_difference_hsw_8bit:
.byte 197,197,103,237 // vpackuswb %ymm5,%ymm7,%ymm5
.byte 197,181,218,228 // vpminub %ymm4,%ymm9,%ymm4
.byte 197,165,218,237 // vpminub %ymm5,%ymm11,%ymm5
- .byte 197,253,111,53,204,107,0,0 // vmovdqa 0x6bcc(%rip),%ymm6 # 2c240 <_sk_overlay_sse2_8bit+0xd5b>
+ .byte 197,253,111,53,20,108,0,0 // vmovdqa 0x6c14(%rip),%ymm6 # 2c240 <_sk_overlay_sse2_8bit+0xda3>
.byte 197,213,219,254 // vpand %ymm6,%ymm5,%ymm7
.byte 197,221,219,246 // vpand %ymm6,%ymm4,%ymm6
.byte 197,237,252,192 // vpaddb %ymm0,%ymm2,%ymm0
@@ -46517,7 +46430,7 @@ _sk_hardlight_hsw_8bit:
.byte 196,227,125,57,203,1 // vextracti128 $0x1,%ymm1,%xmm3
.byte 196,98,125,48,195 // vpmovzxbw %xmm3,%ymm8
.byte 197,126,127,132,36,192,0,0,0 // vmovdqu %ymm8,0xc0(%rsp)
- .byte 197,253,111,29,129,107,0,0 // vmovdqa 0x6b81(%rip),%ymm3 # 2c260 <_sk_overlay_sse2_8bit+0xd7b>
+ .byte 197,253,111,29,201,107,0,0 // vmovdqa 0x6bc9(%rip),%ymm3 # 2c260 <_sk_overlay_sse2_8bit+0xdc3>
.byte 196,226,125,0,227 // vpshufb %ymm3,%ymm0,%ymm4
.byte 196,226,117,0,203 // vpshufb %ymm3,%ymm1,%ymm1
.byte 197,125,111,251 // vmovdqa %ymm3,%ymm15
@@ -46546,7 +46459,7 @@ _sk_hardlight_hsw_8bit:
.byte 196,65,125,111,231 // vmovdqa %ymm15,%ymm12
.byte 196,194,93,0,220 // vpshufb %ymm12,%ymm4,%ymm3
.byte 196,226,125,48,211 // vpmovzxbw %xmm3,%ymm2
- .byte 196,226,125,121,5,3,107,0,0 // vpbroadcastw 0x6b03(%rip),%ymm0 # 2c280 <_sk_overlay_sse2_8bit+0xd9b>
+ .byte 196,226,125,121,5,75,107,0,0 // vpbroadcastw 0x6b4b(%rip),%ymm0 # 2c280 <_sk_overlay_sse2_8bit+0xde3>
.byte 197,109,239,248 // vpxor %ymm0,%ymm2,%ymm15
.byte 197,133,213,207 // vpmullw %ymm7,%ymm15,%ymm1
.byte 197,254,127,140,36,32,1,0,0 // vmovdqu %ymm1,0x120(%rsp)
@@ -46646,7 +46559,7 @@ _sk_hardlight_hsw_8bit:
.byte 197,254,111,116,36,224 // vmovdqu -0x20(%rsp),%ymm6
.byte 197,205,253,52,36 // vpaddw (%rsp),%ymm6,%ymm6
.byte 196,193,53,253,252 // vpaddw %ymm12,%ymm9,%ymm7
- .byte 196,98,125,121,5,251,104,0,0 // vpbroadcastw 0x68fb(%rip),%ymm8 # 2c282 <_sk_overlay_sse2_8bit+0xd9d>
+ .byte 196,98,125,121,5,67,105,0,0 // vpbroadcastw 0x6943(%rip),%ymm8 # 2c282 <_sk_overlay_sse2_8bit+0xde5>
.byte 196,193,93,253,224 // vpaddw %ymm8,%ymm4,%ymm4
.byte 197,229,253,220 // vpaddw %ymm4,%ymm3,%ymm3
.byte 196,193,85,253,224 // vpaddw %ymm8,%ymm5,%ymm4
@@ -46655,7 +46568,7 @@ _sk_hardlight_hsw_8bit:
.byte 197,245,253,204 // vpaddw %ymm4,%ymm1,%ymm1
.byte 196,193,69,253,224 // vpaddw %ymm8,%ymm7,%ymm4
.byte 197,253,253,196 // vpaddw %ymm4,%ymm0,%ymm0
- .byte 196,226,125,121,37,208,104,0,0 // vpbroadcastw 0x68d0(%rip),%ymm4 # 2c284 <_sk_overlay_sse2_8bit+0xd9f>
+ .byte 196,226,125,121,37,24,105,0,0 // vpbroadcastw 0x6918(%rip),%ymm4 # 2c284 <_sk_overlay_sse2_8bit+0xde7>
.byte 197,253,228,196 // vpmulhuw %ymm4,%ymm0,%ymm0
.byte 197,245,228,204 // vpmulhuw %ymm4,%ymm1,%ymm1
.byte 197,237,228,212 // vpmulhuw %ymm4,%ymm2,%ymm2
@@ -46682,7 +46595,7 @@ FUNCTION(_sk_overlay_hsw_8bit)
_sk_overlay_hsw_8bit:
.byte 72,129,236,152,1,0,0 // sub $0x198,%rsp
.byte 197,252,17,140,36,64,1,0,0 // vmovups %ymm1,0x140(%rsp)
- .byte 197,253,111,45,118,104,0,0 // vmovdqa 0x6876(%rip),%ymm5 # 2c2a0 <_sk_overlay_sse2_8bit+0xdbb>
+ .byte 197,253,111,45,190,104,0,0 // vmovdqa 0x68be(%rip),%ymm5 # 2c2a0 <_sk_overlay_sse2_8bit+0xe03>
.byte 197,253,111,226 // vmovdqa %ymm2,%ymm4
.byte 196,227,125,57,225,1 // vextracti128 $0x1,%ymm4,%xmm1
.byte 196,98,125,48,193 // vpmovzxbw %xmm1,%ymm8
@@ -46717,7 +46630,7 @@ _sk_overlay_hsw_8bit:
.byte 197,93,117,251 // vpcmpeqw %ymm3,%ymm4,%ymm15
.byte 197,253,111,216 // vmovdqa %ymm0,%ymm3
.byte 196,226,125,48,227 // vpmovzxbw %xmm3,%ymm4
- .byte 196,226,125,121,5,208,103,0,0 // vpbroadcastw 0x67d0(%rip),%ymm0 # 2c2c0 <_sk_overlay_sse2_8bit+0xddb>
+ .byte 196,226,125,121,5,24,104,0,0 // vpbroadcastw 0x6818(%rip),%ymm0 # 2c2c0 <_sk_overlay_sse2_8bit+0xe23>
.byte 197,117,239,232 // vpxor %ymm0,%ymm1,%ymm13
.byte 197,21,213,212 // vpmullw %ymm4,%ymm13,%ymm10
.byte 197,126,127,148,36,192,0,0,0 // vmovdqu %ymm10,0xc0(%rsp)
@@ -46818,7 +46731,7 @@ _sk_overlay_hsw_8bit:
.byte 197,254,111,116,36,192 // vmovdqu -0x40(%rsp),%ymm6
.byte 197,205,253,116,36,224 // vpaddw -0x20(%rsp),%ymm6,%ymm6
.byte 196,193,29,253,253 // vpaddw %ymm13,%ymm12,%ymm7
- .byte 196,98,125,121,5,219,101,0,0 // vpbroadcastw 0x65db(%rip),%ymm8 # 2c2c2 <_sk_overlay_sse2_8bit+0xddd>
+ .byte 196,98,125,121,5,35,102,0,0 // vpbroadcastw 0x6623(%rip),%ymm8 # 2c2c2 <_sk_overlay_sse2_8bit+0xe25>
.byte 196,193,109,253,208 // vpaddw %ymm8,%ymm2,%ymm2
.byte 197,229,253,210 // vpaddw %ymm2,%ymm3,%ymm2
.byte 196,193,85,253,216 // vpaddw %ymm8,%ymm5,%ymm3
@@ -46827,7 +46740,7 @@ _sk_overlay_hsw_8bit:
.byte 197,245,253,204 // vpaddw %ymm4,%ymm1,%ymm1
.byte 196,193,69,253,224 // vpaddw %ymm8,%ymm7,%ymm4
.byte 197,253,253,196 // vpaddw %ymm4,%ymm0,%ymm0
- .byte 196,226,125,121,37,176,101,0,0 // vpbroadcastw 0x65b0(%rip),%ymm4 # 2c2c4 <_sk_overlay_sse2_8bit+0xddf>
+ .byte 196,226,125,121,37,248,101,0,0 // vpbroadcastw 0x65f8(%rip),%ymm4 # 2c2c4 <_sk_overlay_sse2_8bit+0xe27>
.byte 197,253,228,196 // vpmulhuw %ymm4,%ymm0,%ymm0
.byte 197,245,228,204 // vpmulhuw %ymm4,%ymm1,%ymm1
.byte 197,229,228,220 // vpmulhuw %ymm4,%ymm3,%ymm3
@@ -46872,7 +46785,7 @@ _sk_start_pipeline_sse41_8bit:
.byte 73,137,246 // mov %rsi,%r14
.byte 72,137,77,168 // mov %rcx,-0x58(%rbp)
.byte 73,57,207 // cmp %rcx,%r15
- .byte 115,102 // jae 25e0d <_sk_start_pipeline_sse41_8bit+0x95>
+ .byte 115,102 // jae 25dc5 <_sk_start_pipeline_sse41_8bit+0x95>
.byte 72,139,69,208 // mov -0x30(%rbp),%rax
.byte 72,141,64,8 // lea 0x8(%rax),%rax
.byte 72,137,69,176 // mov %rax,-0x50(%rbp)
@@ -46882,7 +46795,7 @@ _sk_start_pipeline_sse41_8bit:
.byte 72,137,69,184 // mov %rax,-0x48(%rbp)
.byte 76,137,125,192 // mov %r15,-0x40(%rbp)
.byte 72,199,69,200,0,0,0,0 // movq $0x0,-0x38(%rbp)
- .byte 119,30 // ja 25def <_sk_start_pipeline_sse41_8bit+0x77>
+ .byte 119,30 // ja 25da7 <_sk_start_pipeline_sse41_8bit+0x77>
.byte 76,137,231 // mov %r12,%rdi
.byte 76,137,246 // mov %r14,%rsi
.byte 65,255,213 // callq *%r13
@@ -46891,17 +46804,17 @@ _sk_start_pipeline_sse41_8bit:
.byte 72,137,69,184 // mov %rax,-0x48(%rbp)
.byte 72,131,193,16 // add $0x10,%rcx
.byte 72,57,217 // cmp %rbx,%rcx
- .byte 118,226 // jbe 25dd1 <_sk_start_pipeline_sse41_8bit+0x59>
+ .byte 118,226 // jbe 25d89 <_sk_start_pipeline_sse41_8bit+0x59>
.byte 72,137,217 // mov %rbx,%rcx
.byte 72,41,193 // sub %rax,%rcx
- .byte 116,13 // je 25e04 <_sk_start_pipeline_sse41_8bit+0x8c>
+ .byte 116,13 // je 25dbc <_sk_start_pipeline_sse41_8bit+0x8c>
.byte 72,137,77,200 // mov %rcx,-0x38(%rbp)
.byte 76,137,231 // mov %r12,%rdi
.byte 76,137,246 // mov %r14,%rsi
.byte 65,255,213 // callq *%r13
.byte 73,255,199 // inc %r15
.byte 76,59,125,168 // cmp -0x58(%rbp),%r15
- .byte 117,170 // jne 25db7 <_sk_start_pipeline_sse41_8bit+0x3f>
+ .byte 117,170 // jne 25d6f <_sk_start_pipeline_sse41_8bit+0x3f>
.byte 72,131,196,56 // add $0x38,%rsp
.byte 91 // pop %rbx
.byte 65,92 // pop %r12
@@ -46933,7 +46846,7 @@ HIDDEN _sk_set_rgb_sse41_8bit
FUNCTION(_sk_set_rgb_sse41_8bit)
_sk_set_rgb_sse41_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 243,15,16,37,25,91,0,0 // movss 0x5b19(%rip),%xmm4 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 243,15,16,37,25,91,0,0 // movss 0x5b19(%rip),%xmm4 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 243,15,16,40 // movss (%rax),%xmm5
.byte 243,15,89,236 // mulss %xmm4,%xmm5
.byte 243,72,15,44,205 // cvttss2si %xmm5,%rcx
@@ -46948,7 +46861,7 @@ _sk_set_rgb_sse41_8bit:
.byte 9,208 // or %edx,%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,112,228,0 // pshufd $0x0,%xmm4,%xmm4
- .byte 102,15,111,45,101,107,0,0 // movdqa 0x6b65(%rip),%xmm5 # 2c9e0 <_sk_overlay_sse2_8bit+0x14fb>
+ .byte 102,15,111,45,221,107,0,0 // movdqa 0x6bdd(%rip),%xmm5 # 2ca10 <_sk_overlay_sse2_8bit+0x1573>
.byte 102,15,219,205 // pand %xmm5,%xmm1
.byte 102,15,219,197 // pand %xmm5,%xmm0
.byte 102,15,235,196 // por %xmm4,%xmm0
@@ -46962,12 +46875,12 @@ FUNCTION(_sk_premul_sse41_8bit)
_sk_premul_sse41_8bit:
.byte 102,15,111,225 // movdqa %xmm1,%xmm4
.byte 102,15,111,232 // movdqa %xmm0,%xmm5
- .byte 102,15,111,5,81,107,0,0 // movdqa 0x6b51(%rip),%xmm0 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,5,201,107,0,0 // movdqa 0x6bc9(%rip),%xmm0 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,15,111,253 // movdqa %xmm5,%xmm7
.byte 102,15,56,0,248 // pshufb %xmm0,%xmm7
.byte 102,15,111,244 // movdqa %xmm4,%xmm6
.byte 102,15,56,0,240 // pshufb %xmm0,%xmm6
- .byte 102,15,111,5,39,107,0,0 // movdqa 0x6b27(%rip),%xmm0 # 2c9e0 <_sk_overlay_sse2_8bit+0x14fb>
+ .byte 102,15,111,5,159,107,0,0 // movdqa 0x6b9f(%rip),%xmm0 # 2ca10 <_sk_overlay_sse2_8bit+0x1573>
.byte 102,15,235,240 // por %xmm0,%xmm6
.byte 102,15,235,248 // por %xmm0,%xmm7
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
@@ -47000,7 +46913,7 @@ HIDDEN _sk_swap_rb_sse41_8bit
.globl _sk_swap_rb_sse41_8bit
FUNCTION(_sk_swap_rb_sse41_8bit)
_sk_swap_rb_sse41_8bit:
- .byte 102,15,111,37,196,106,0,0 // movdqa 0x6ac4(%rip),%xmm4 # 2ca00 <_sk_overlay_sse2_8bit+0x151b>
+ .byte 102,15,111,37,60,107,0,0 // movdqa 0x6b3c(%rip),%xmm4 # 2ca30 <_sk_overlay_sse2_8bit+0x1593>
.byte 102,15,56,0,196 // pshufb %xmm4,%xmm0
.byte 102,15,56,0,204 // pshufb %xmm4,%xmm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -47029,7 +46942,7 @@ _sk_load_8888_sse41_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,17 // jne 25f8c <_sk_load_8888_sse41_8bit+0x32>
+ .byte 117,17 // jne 25f44 <_sk_load_8888_sse41_8bit+0x32>
.byte 243,66,15,111,76,130,16 // movdqu 0x10(%rdx,%r8,4),%xmm1
.byte 243,66,15,111,4,130 // movdqu (%rdx,%r8,4),%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -47039,24 +46952,24 @@ _sk_load_8888_sse41_8bit:
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,231 // ja 25f88 <_sk_load_8888_sse41_8bit+0x2e>
+ .byte 119,231 // ja 25f40 <_sk_load_8888_sse41_8bit+0x2e>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,76,0,0,0 // lea 0x4c(%rip),%rcx # 25ff8 <_sk_load_8888_sse41_8bit+0x9e>
+ .byte 72,141,13,76,0,0,0 // lea 0x4c(%rip),%rcx # 25fb0 <_sk_load_8888_sse41_8bit+0x9e>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,66,15,110,4,130 // movd (%rdx,%r8,4),%xmm0
- .byte 235,203 // jmp 25f88 <_sk_load_8888_sse41_8bit+0x2e>
+ .byte 235,203 // jmp 25f40 <_sk_load_8888_sse41_8bit+0x2e>
.byte 102,66,15,110,68,130,8 // movd 0x8(%rdx,%r8,4),%xmm0
.byte 102,15,112,192,69 // pshufd $0x45,%xmm0,%xmm0
.byte 243,66,15,126,36,130 // movq (%rdx,%r8,4),%xmm4
.byte 102,15,58,14,196,15 // pblendw $0xf,%xmm4,%xmm0
- .byte 235,177 // jmp 25f88 <_sk_load_8888_sse41_8bit+0x2e>
+ .byte 235,177 // jmp 25f40 <_sk_load_8888_sse41_8bit+0x2e>
.byte 102,66,15,110,68,130,24 // movd 0x18(%rdx,%r8,4),%xmm0
.byte 102,15,112,200,69 // pshufd $0x45,%xmm0,%xmm1
.byte 102,66,15,58,34,76,130,20,1 // pinsrd $0x1,0x14(%rdx,%r8,4),%xmm1
.byte 102,66,15,58,34,76,130,16,0 // pinsrd $0x0,0x10(%rdx,%r8,4),%xmm1
- .byte 235,139 // jmp 25f82 <_sk_load_8888_sse41_8bit+0x28>
+ .byte 235,139 // jmp 25f3a <_sk_load_8888_sse41_8bit+0x28>
.byte 144 // nop
.byte 189,255,255,255,209 // mov $0xd1ffffff,%ebp
.byte 255 // (bad)
@@ -47068,7 +46981,7 @@ _sk_load_8888_sse41_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 235,255 // jmp 2600d <_sk_load_8888_sse41_8bit+0xb3>
+ .byte 235,255 // jmp 25fc5 <_sk_load_8888_sse41_8bit+0xb3>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 223,255 // (bad)
@@ -47088,7 +47001,7 @@ _sk_load_8888_dst_sse41_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,17 // jne 26046 <_sk_load_8888_dst_sse41_8bit+0x32>
+ .byte 117,17 // jne 25ffe <_sk_load_8888_dst_sse41_8bit+0x32>
.byte 243,66,15,111,92,130,16 // movdqu 0x10(%rdx,%r8,4),%xmm3
.byte 243,66,15,111,20,130 // movdqu (%rdx,%r8,4),%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -47098,24 +47011,24 @@ _sk_load_8888_dst_sse41_8bit:
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,231 // ja 26042 <_sk_load_8888_dst_sse41_8bit+0x2e>
+ .byte 119,231 // ja 25ffa <_sk_load_8888_dst_sse41_8bit+0x2e>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,78,0,0,0 // lea 0x4e(%rip),%rcx # 260b4 <_sk_load_8888_dst_sse41_8bit+0xa0>
+ .byte 72,141,13,78,0,0,0 // lea 0x4e(%rip),%rcx # 2606c <_sk_load_8888_dst_sse41_8bit+0xa0>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,66,15,110,20,130 // movd (%rdx,%r8,4),%xmm2
- .byte 235,203 // jmp 26042 <_sk_load_8888_dst_sse41_8bit+0x2e>
+ .byte 235,203 // jmp 25ffa <_sk_load_8888_dst_sse41_8bit+0x2e>
.byte 102,66,15,110,84,130,8 // movd 0x8(%rdx,%r8,4),%xmm2
.byte 102,15,112,210,69 // pshufd $0x45,%xmm2,%xmm2
.byte 243,66,15,126,36,130 // movq (%rdx,%r8,4),%xmm4
.byte 102,15,58,14,212,15 // pblendw $0xf,%xmm4,%xmm2
- .byte 235,177 // jmp 26042 <_sk_load_8888_dst_sse41_8bit+0x2e>
+ .byte 235,177 // jmp 25ffa <_sk_load_8888_dst_sse41_8bit+0x2e>
.byte 102,66,15,110,84,130,24 // movd 0x18(%rdx,%r8,4),%xmm2
.byte 102,15,112,218,69 // pshufd $0x45,%xmm2,%xmm3
.byte 102,66,15,58,34,92,130,20,1 // pinsrd $0x1,0x14(%rdx,%r8,4),%xmm3
.byte 102,66,15,58,34,92,130,16,0 // pinsrd $0x0,0x10(%rdx,%r8,4),%xmm3
- .byte 235,139 // jmp 2603c <_sk_load_8888_dst_sse41_8bit+0x28>
+ .byte 235,139 // jmp 25ff4 <_sk_load_8888_dst_sse41_8bit+0x28>
.byte 15,31,0 // nopl (%rax)
.byte 187,255,255,255,207 // mov $0xcfffffff,%ebx
.byte 255 // (bad)
@@ -47127,7 +47040,7 @@ _sk_load_8888_dst_sse41_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 233,255,255,255,221 // jmpq ffffffffde0260cc <_sk_overlay_sse2_8bit+0xffffffffddffabe7>
+ .byte 233,255,255,255,221 // jmpq ffffffffde026084 <_sk_overlay_sse2_8bit+0xffffffffddffabe7>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // .byte 0xff
@@ -47145,7 +47058,7 @@ _sk_store_8888_sse41_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,192 // test %r8,%r8
- .byte 117,17 // jne 26102 <_sk_store_8888_sse41_8bit+0x32>
+ .byte 117,17 // jne 260ba <_sk_store_8888_sse41_8bit+0x32>
.byte 243,66,15,127,4,138 // movdqu %xmm0,(%rdx,%r9,4)
.byte 243,66,15,127,76,138,16 // movdqu %xmm1,0x10(%rdx,%r9,4)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -47153,22 +47066,22 @@ _sk_store_8888_sse41_8bit:
.byte 65,128,224,7 // and $0x7,%r8b
.byte 65,254,200 // dec %r8b
.byte 65,128,248,6 // cmp $0x6,%r8b
- .byte 119,239 // ja 260fe <_sk_store_8888_sse41_8bit+0x2e>
+ .byte 119,239 // ja 260b6 <_sk_store_8888_sse41_8bit+0x2e>
.byte 65,15,182,192 // movzbl %r8b,%eax
- .byte 72,141,13,70,0,0,0 // lea 0x46(%rip),%rcx # 26160 <_sk_store_8888_sse41_8bit+0x90>
+ .byte 72,141,13,70,0,0,0 // lea 0x46(%rip),%rcx # 26118 <_sk_store_8888_sse41_8bit+0x90>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,66,15,126,4,138 // movd %xmm0,(%rdx,%r9,4)
- .byte 235,211 // jmp 260fe <_sk_store_8888_sse41_8bit+0x2e>
+ .byte 235,211 // jmp 260b6 <_sk_store_8888_sse41_8bit+0x2e>
.byte 102,66,15,58,22,68,138,8,2 // pextrd $0x2,%xmm0,0x8(%rdx,%r9,4)
.byte 102,66,15,214,4,138 // movq %xmm0,(%rdx,%r9,4)
- .byte 235,194 // jmp 260fe <_sk_store_8888_sse41_8bit+0x2e>
+ .byte 235,194 // jmp 260b6 <_sk_store_8888_sse41_8bit+0x2e>
.byte 102,66,15,58,22,76,138,24,2 // pextrd $0x2,%xmm1,0x18(%rdx,%r9,4)
.byte 102,66,15,58,22,76,138,20,1 // pextrd $0x1,%xmm1,0x14(%rdx,%r9,4)
.byte 102,66,15,126,76,138,16 // movd %xmm1,0x10(%rdx,%r9,4)
.byte 243,66,15,127,4,138 // movdqu %xmm0,(%rdx,%r9,4)
- .byte 235,161 // jmp 260fe <_sk_store_8888_sse41_8bit+0x2e>
+ .byte 235,161 // jmp 260b6 <_sk_store_8888_sse41_8bit+0x2e>
.byte 15,31,0 // nopl (%rax)
.byte 195 // retq
.byte 255 // (bad)
@@ -47207,10 +47120,10 @@ _sk_load_bgra_sse41_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,35 // jne 261c0 <_sk_load_bgra_sse41_8bit+0x44>
+ .byte 117,35 // jne 26178 <_sk_load_bgra_sse41_8bit+0x44>
.byte 243,66,15,111,76,130,16 // movdqu 0x10(%rdx,%r8,4),%xmm1
.byte 243,66,15,111,4,130 // movdqu (%rdx,%r8,4),%xmm0
- .byte 102,15,111,37,78,104,0,0 // movdqa 0x684e(%rip),%xmm4 # 2ca00 <_sk_overlay_sse2_8bit+0x151b>
+ .byte 102,15,111,37,198,104,0,0 // movdqa 0x68c6(%rip),%xmm4 # 2ca30 <_sk_overlay_sse2_8bit+0x1593>
.byte 102,15,56,0,196 // pshufb %xmm4,%xmm0
.byte 102,15,56,0,204 // pshufb %xmm4,%xmm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -47220,24 +47133,24 @@ _sk_load_bgra_sse41_8bit:
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,213 // ja 261aa <_sk_load_bgra_sse41_8bit+0x2e>
+ .byte 119,213 // ja 26162 <_sk_load_bgra_sse41_8bit+0x2e>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,80,0,0,0 // lea 0x50(%rip),%rcx # 26230 <_sk_load_bgra_sse41_8bit+0xb4>
+ .byte 72,141,13,80,0,0,0 // lea 0x50(%rip),%rcx # 261e8 <_sk_load_bgra_sse41_8bit+0xb4>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,66,15,110,4,130 // movd (%rdx,%r8,4),%xmm0
- .byte 235,185 // jmp 261aa <_sk_load_bgra_sse41_8bit+0x2e>
+ .byte 235,185 // jmp 26162 <_sk_load_bgra_sse41_8bit+0x2e>
.byte 102,66,15,110,68,130,8 // movd 0x8(%rdx,%r8,4),%xmm0
.byte 102,15,112,192,69 // pshufd $0x45,%xmm0,%xmm0
.byte 243,66,15,126,36,130 // movq (%rdx,%r8,4),%xmm4
.byte 102,15,58,14,196,15 // pblendw $0xf,%xmm4,%xmm0
- .byte 235,159 // jmp 261aa <_sk_load_bgra_sse41_8bit+0x2e>
+ .byte 235,159 // jmp 26162 <_sk_load_bgra_sse41_8bit+0x2e>
.byte 102,66,15,110,68,130,24 // movd 0x18(%rdx,%r8,4),%xmm0
.byte 102,15,112,200,69 // pshufd $0x45,%xmm0,%xmm1
.byte 102,66,15,58,34,76,130,20,1 // pinsrd $0x1,0x14(%rdx,%r8,4),%xmm1
.byte 102,66,15,58,34,76,130,16,0 // pinsrd $0x0,0x10(%rdx,%r8,4),%xmm1
- .byte 233,118,255,255,255 // jmpq 261a4 <_sk_load_bgra_sse41_8bit+0x28>
+ .byte 233,118,255,255,255 // jmpq 2615c <_sk_load_bgra_sse41_8bit+0x28>
.byte 102,144 // xchg %ax,%ax
.byte 185,255,255,255,205 // mov $0xcdffffff,%ecx
.byte 255 // (bad)
@@ -47270,10 +47183,10 @@ _sk_load_bgra_dst_sse41_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,35 // jne 26290 <_sk_load_bgra_dst_sse41_8bit+0x44>
+ .byte 117,35 // jne 26248 <_sk_load_bgra_dst_sse41_8bit+0x44>
.byte 243,66,15,111,92,130,16 // movdqu 0x10(%rdx,%r8,4),%xmm3
.byte 243,66,15,111,20,130 // movdqu (%rdx,%r8,4),%xmm2
- .byte 102,15,111,37,126,103,0,0 // movdqa 0x677e(%rip),%xmm4 # 2ca00 <_sk_overlay_sse2_8bit+0x151b>
+ .byte 102,15,111,37,246,103,0,0 // movdqa 0x67f6(%rip),%xmm4 # 2ca30 <_sk_overlay_sse2_8bit+0x1593>
.byte 102,15,56,0,212 // pshufb %xmm4,%xmm2
.byte 102,15,56,0,220 // pshufb %xmm4,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -47283,24 +47196,24 @@ _sk_load_bgra_dst_sse41_8bit:
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,213 // ja 2627a <_sk_load_bgra_dst_sse41_8bit+0x2e>
+ .byte 119,213 // ja 26232 <_sk_load_bgra_dst_sse41_8bit+0x2e>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,80,0,0,0 // lea 0x50(%rip),%rcx # 26300 <_sk_load_bgra_dst_sse41_8bit+0xb4>
+ .byte 72,141,13,80,0,0,0 // lea 0x50(%rip),%rcx # 262b8 <_sk_load_bgra_dst_sse41_8bit+0xb4>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,66,15,110,20,130 // movd (%rdx,%r8,4),%xmm2
- .byte 235,185 // jmp 2627a <_sk_load_bgra_dst_sse41_8bit+0x2e>
+ .byte 235,185 // jmp 26232 <_sk_load_bgra_dst_sse41_8bit+0x2e>
.byte 102,66,15,110,84,130,8 // movd 0x8(%rdx,%r8,4),%xmm2
.byte 102,15,112,210,69 // pshufd $0x45,%xmm2,%xmm2
.byte 243,66,15,126,36,130 // movq (%rdx,%r8,4),%xmm4
.byte 102,15,58,14,212,15 // pblendw $0xf,%xmm4,%xmm2
- .byte 235,159 // jmp 2627a <_sk_load_bgra_dst_sse41_8bit+0x2e>
+ .byte 235,159 // jmp 26232 <_sk_load_bgra_dst_sse41_8bit+0x2e>
.byte 102,66,15,110,84,130,24 // movd 0x18(%rdx,%r8,4),%xmm2
.byte 102,15,112,218,69 // pshufd $0x45,%xmm2,%xmm3
.byte 102,66,15,58,34,92,130,20,1 // pinsrd $0x1,0x14(%rdx,%r8,4),%xmm3
.byte 102,66,15,58,34,92,130,16,0 // pinsrd $0x0,0x10(%rdx,%r8,4),%xmm3
- .byte 233,118,255,255,255 // jmpq 26274 <_sk_load_bgra_dst_sse41_8bit+0x28>
+ .byte 233,118,255,255,255 // jmpq 2622c <_sk_load_bgra_dst_sse41_8bit+0x28>
.byte 102,144 // xchg %ax,%ax
.byte 185,255,255,255,205 // mov $0xcdffffff,%ecx
.byte 255 // (bad)
@@ -47332,13 +47245,13 @@ _sk_store_bgra_sse41_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
- .byte 102,15,111,53,192,102,0,0 // movdqa 0x66c0(%rip),%xmm6 # 2ca00 <_sk_overlay_sse2_8bit+0x151b>
+ .byte 102,15,111,53,56,103,0,0 // movdqa 0x6738(%rip),%xmm6 # 2ca30 <_sk_overlay_sse2_8bit+0x1593>
.byte 102,15,111,233 // movdqa %xmm1,%xmm5
.byte 102,15,56,0,238 // pshufb %xmm6,%xmm5
.byte 102,15,111,224 // movdqa %xmm0,%xmm4
.byte 102,15,56,0,230 // pshufb %xmm6,%xmm4
.byte 77,133,192 // test %r8,%r8
- .byte 117,17 // jne 26368 <_sk_store_bgra_sse41_8bit+0x4c>
+ .byte 117,17 // jne 26320 <_sk_store_bgra_sse41_8bit+0x4c>
.byte 243,66,15,127,36,138 // movdqu %xmm4,(%rdx,%r9,4)
.byte 243,66,15,127,108,138,16 // movdqu %xmm5,0x10(%rdx,%r9,4)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -47346,22 +47259,22 @@ _sk_store_bgra_sse41_8bit:
.byte 65,128,224,7 // and $0x7,%r8b
.byte 65,254,200 // dec %r8b
.byte 65,128,248,6 // cmp $0x6,%r8b
- .byte 119,239 // ja 26364 <_sk_store_bgra_sse41_8bit+0x48>
+ .byte 119,239 // ja 2631c <_sk_store_bgra_sse41_8bit+0x48>
.byte 65,15,182,192 // movzbl %r8b,%eax
- .byte 72,141,13,68,0,0,0 // lea 0x44(%rip),%rcx # 263c4 <_sk_store_bgra_sse41_8bit+0xa8>
+ .byte 72,141,13,68,0,0,0 // lea 0x44(%rip),%rcx # 2637c <_sk_store_bgra_sse41_8bit+0xa8>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,66,15,126,36,138 // movd %xmm4,(%rdx,%r9,4)
- .byte 235,211 // jmp 26364 <_sk_store_bgra_sse41_8bit+0x48>
+ .byte 235,211 // jmp 2631c <_sk_store_bgra_sse41_8bit+0x48>
.byte 102,66,15,58,22,100,138,8,2 // pextrd $0x2,%xmm4,0x8(%rdx,%r9,4)
.byte 102,66,15,214,36,138 // movq %xmm4,(%rdx,%r9,4)
- .byte 235,194 // jmp 26364 <_sk_store_bgra_sse41_8bit+0x48>
+ .byte 235,194 // jmp 2631c <_sk_store_bgra_sse41_8bit+0x48>
.byte 102,66,15,58,22,108,138,24,2 // pextrd $0x2,%xmm5,0x18(%rdx,%r9,4)
.byte 102,66,15,58,22,108,138,20,1 // pextrd $0x1,%xmm5,0x14(%rdx,%r9,4)
.byte 102,66,15,126,108,138,16 // movd %xmm5,0x10(%rdx,%r9,4)
.byte 243,66,15,127,36,138 // movdqu %xmm4,(%rdx,%r9,4)
- .byte 235,161 // jmp 26364 <_sk_store_bgra_sse41_8bit+0x48>
+ .byte 235,161 // jmp 2631c <_sk_store_bgra_sse41_8bit+0x48>
.byte 144 // nop
.byte 197,255,255 // (bad)
.byte 255,214 // callq *%rsi
@@ -47396,9 +47309,9 @@ _sk_load_a8_sse41_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,42 // jne 26427 <_sk_load_a8_sse41_8bit+0x47>
+ .byte 117,42 // jne 263df <_sk_load_a8_sse41_8bit+0x47>
.byte 102,66,15,56,48,12,2 // pmovzxbw (%rdx,%r8,1),%xmm1
- .byte 102,15,219,13,196,94,0,0 // pand 0x5ec4(%rip),%xmm1 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,13,12,95,0,0 // pand 0x5f0c(%rip),%xmm1 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,56,51,193 // pmovzxwd %xmm1,%xmm0
.byte 102,15,105,204 // punpckhwd %xmm4,%xmm1
@@ -47410,15 +47323,15 @@ _sk_load_a8_sse41_8bit:
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,204 // ja 26404 <_sk_load_a8_sse41_8bit+0x24>
+ .byte 119,204 // ja 263bc <_sk_load_a8_sse41_8bit+0x24>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,117,0,0,0 // lea 0x75(%rip),%rcx # 264b8 <_sk_load_a8_sse41_8bit+0xd8>
+ .byte 72,141,13,117,0,0,0 // lea 0x75(%rip),%rcx # 26470 <_sk_load_a8_sse41_8bit+0xd8>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,200 // movd %eax,%xmm1
- .byte 235,173 // jmp 26404 <_sk_load_a8_sse41_8bit+0x24>
+ .byte 235,173 // jmp 263bc <_sk_load_a8_sse41_8bit+0x24>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,196,200,2 // pinsrw $0x2,%eax,%xmm1
@@ -47426,7 +47339,7 @@ _sk_load_a8_sse41_8bit:
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,15,56,48,192 // pmovzxbw %xmm0,%xmm0
.byte 102,15,58,14,200,3 // pblendw $0x3,%xmm0,%xmm1
- .byte 235,136 // jmp 26404 <_sk_load_a8_sse41_8bit+0x24>
+ .byte 235,136 // jmp 263bc <_sk_load_a8_sse41_8bit+0x24>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,196,200,6 // pinsrw $0x6,%eax,%xmm1
@@ -47437,7 +47350,7 @@ _sk_load_a8_sse41_8bit:
.byte 102,66,15,110,4,2 // movd (%rdx,%r8,1),%xmm0
.byte 102,15,56,48,192 // pmovzxbw %xmm0,%xmm0
.byte 102,15,58,14,200,15 // pblendw $0xf,%xmm0,%xmm1
- .byte 233,77,255,255,255 // jmpq 26404 <_sk_load_a8_sse41_8bit+0x24>
+ .byte 233,77,255,255,255 // jmpq 263bc <_sk_load_a8_sse41_8bit+0x24>
.byte 144 // nop
.byte 148 // xchg %eax,%esp
.byte 255 // (bad)
@@ -47446,7 +47359,7 @@ _sk_load_a8_sse41_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 233,255,255,255,222 // jmpq ffffffffdf0264c8 <_sk_overlay_sse2_8bit+0xffffffffdeffafe3>
+ .byte 233,255,255,255,222 // jmpq ffffffffdf026480 <_sk_overlay_sse2_8bit+0xffffffffdeffafe3>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,211 // callq *%rbx
@@ -47469,9 +47382,9 @@ _sk_load_a8_dst_sse41_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,42 // jne 2651b <_sk_load_a8_dst_sse41_8bit+0x47>
+ .byte 117,42 // jne 264d3 <_sk_load_a8_dst_sse41_8bit+0x47>
.byte 102,66,15,56,48,28,2 // pmovzxbw (%rdx,%r8,1),%xmm3
- .byte 102,15,219,29,208,93,0,0 // pand 0x5dd0(%rip),%xmm3 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,29,24,94,0,0 // pand 0x5e18(%rip),%xmm3 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,56,51,211 // pmovzxwd %xmm3,%xmm2
.byte 102,15,105,220 // punpckhwd %xmm4,%xmm3
@@ -47483,15 +47396,15 @@ _sk_load_a8_dst_sse41_8bit:
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,204 // ja 264f8 <_sk_load_a8_dst_sse41_8bit+0x24>
+ .byte 119,204 // ja 264b0 <_sk_load_a8_dst_sse41_8bit+0x24>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,117,0,0,0 // lea 0x75(%rip),%rcx # 265ac <_sk_load_a8_dst_sse41_8bit+0xd8>
+ .byte 72,141,13,117,0,0,0 // lea 0x75(%rip),%rcx # 26564 <_sk_load_a8_dst_sse41_8bit+0xd8>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,216 // movd %eax,%xmm3
- .byte 235,173 // jmp 264f8 <_sk_load_a8_dst_sse41_8bit+0x24>
+ .byte 235,173 // jmp 264b0 <_sk_load_a8_dst_sse41_8bit+0x24>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,196,216,2 // pinsrw $0x2,%eax,%xmm3
@@ -47499,7 +47412,7 @@ _sk_load_a8_dst_sse41_8bit:
.byte 102,15,110,208 // movd %eax,%xmm2
.byte 102,15,56,48,210 // pmovzxbw %xmm2,%xmm2
.byte 102,15,58,14,218,3 // pblendw $0x3,%xmm2,%xmm3
- .byte 235,136 // jmp 264f8 <_sk_load_a8_dst_sse41_8bit+0x24>
+ .byte 235,136 // jmp 264b0 <_sk_load_a8_dst_sse41_8bit+0x24>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,196,216,6 // pinsrw $0x6,%eax,%xmm3
@@ -47510,7 +47423,7 @@ _sk_load_a8_dst_sse41_8bit:
.byte 102,66,15,110,20,2 // movd (%rdx,%r8,1),%xmm2
.byte 102,15,56,48,210 // pmovzxbw %xmm2,%xmm2
.byte 102,15,58,14,218,15 // pblendw $0xf,%xmm2,%xmm3
- .byte 233,77,255,255,255 // jmpq 264f8 <_sk_load_a8_dst_sse41_8bit+0x24>
+ .byte 233,77,255,255,255 // jmpq 264b0 <_sk_load_a8_dst_sse41_8bit+0x24>
.byte 144 // nop
.byte 148 // xchg %eax,%esp
.byte 255 // (bad)
@@ -47519,7 +47432,7 @@ _sk_load_a8_dst_sse41_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 233,255,255,255,222 // jmpq ffffffffdf0265bc <_sk_overlay_sse2_8bit+0xffffffffdeffb0d7>
+ .byte 233,255,255,255,222 // jmpq ffffffffdf026574 <_sk_overlay_sse2_8bit+0xffffffffdeffb0d7>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,211 // callq *%rbx
@@ -47541,39 +47454,39 @@ _sk_store_a8_sse41_8bit:
.byte 72,99,87,8 // movslq 0x8(%rdi),%rdx
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
- .byte 102,15,111,45,40,100,0,0 // movdqa 0x6428(%rip),%xmm5 # 2ca10 <_sk_overlay_sse2_8bit+0x152b>
+ .byte 102,15,111,45,160,100,0,0 // movdqa 0x64a0(%rip),%xmm5 # 2ca40 <_sk_overlay_sse2_8bit+0x15a3>
.byte 102,15,111,241 // movdqa %xmm1,%xmm6
.byte 102,15,56,0,245 // pshufb %xmm5,%xmm6
.byte 102,15,111,224 // movdqa %xmm0,%xmm4
.byte 102,15,56,0,229 // pshufb %xmm5,%xmm4
.byte 102,15,108,230 // punpcklqdq %xmm6,%xmm4
.byte 77,133,201 // test %r9,%r9
- .byte 117,19 // jne 26616 <_sk_store_a8_sse41_8bit+0x4e>
- .byte 102,15,56,0,37,196,99,0,0 // pshufb 0x63c4(%rip),%xmm4 # 2c9d0 <_sk_overlay_sse2_8bit+0x14eb>
+ .byte 117,19 // jne 265ce <_sk_store_a8_sse41_8bit+0x4e>
+ .byte 102,15,56,0,37,60,100,0,0 // pshufb 0x643c(%rip),%xmm4 # 2ca00 <_sk_overlay_sse2_8bit+0x1563>
.byte 102,66,15,214,36,2 // movq %xmm4,(%rdx,%r8,1)
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 255,224 // jmpq *%rax
.byte 65,128,225,7 // and $0x7,%r9b
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,239 // ja 26612 <_sk_store_a8_sse41_8bit+0x4a>
+ .byte 119,239 // ja 265ca <_sk_store_a8_sse41_8bit+0x4a>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,94,0,0,0 // lea 0x5e(%rip),%rcx # 2668c <_sk_store_a8_sse41_8bit+0xc4>
+ .byte 72,141,13,94,0,0,0 // lea 0x5e(%rip),%rcx # 26644 <_sk_store_a8_sse41_8bit+0xc4>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,66,15,58,20,36,2,0 // pextrb $0x0,%xmm4,(%rdx,%r8,1)
- .byte 235,209 // jmp 26612 <_sk_store_a8_sse41_8bit+0x4a>
+ .byte 235,209 // jmp 265ca <_sk_store_a8_sse41_8bit+0x4a>
.byte 102,66,15,58,20,100,2,2,4 // pextrb $0x4,%xmm4,0x2(%rdx,%r8,1)
- .byte 102,15,56,0,37,141,92,0,0 // pshufb 0x5c8d(%rip),%xmm4 # 2c2e0 <_sk_overlay_sse2_8bit+0xdfb>
+ .byte 102,15,56,0,37,213,92,0,0 // pshufb 0x5cd5(%rip),%xmm4 # 2c2e0 <_sk_overlay_sse2_8bit+0xe43>
.byte 102,66,15,58,21,36,2,0 // pextrw $0x0,%xmm4,(%rdx,%r8,1)
- .byte 235,181 // jmp 26612 <_sk_store_a8_sse41_8bit+0x4a>
+ .byte 235,181 // jmp 265ca <_sk_store_a8_sse41_8bit+0x4a>
.byte 102,66,15,58,20,100,2,6,12 // pextrb $0xc,%xmm4,0x6(%rdx,%r8,1)
.byte 102,66,15,58,20,100,2,5,10 // pextrb $0xa,%xmm4,0x5(%rdx,%r8,1)
.byte 102,66,15,58,20,100,2,4,8 // pextrb $0x8,%xmm4,0x4(%rdx,%r8,1)
- .byte 102,15,56,0,37,111,92,0,0 // pshufb 0x5c6f(%rip),%xmm4 # 2c2f0 <_sk_overlay_sse2_8bit+0xe0b>
+ .byte 102,15,56,0,37,183,92,0,0 // pshufb 0x5cb7(%rip),%xmm4 # 2c2f0 <_sk_overlay_sse2_8bit+0xe53>
.byte 102,66,15,126,36,2 // movd %xmm4,(%rdx,%r8,1)
- .byte 235,137 // jmp 26612 <_sk_store_a8_sse41_8bit+0x4a>
+ .byte 235,137 // jmp 265ca <_sk_store_a8_sse41_8bit+0x4a>
.byte 15,31,0 // nopl (%rax)
.byte 171 // stos %eax,%es:(%rdi)
.byte 255 // (bad)
@@ -47609,16 +47522,16 @@ _sk_load_g8_sse41_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,66 // jne 26707 <_sk_load_g8_sse41_8bit+0x5f>
+ .byte 117,66 // jne 266bf <_sk_load_g8_sse41_8bit+0x5f>
.byte 102,66,15,56,48,12,2 // pmovzxbw (%rdx,%r8,1),%xmm1
- .byte 102,15,219,13,252,91,0,0 // pand 0x5bfc(%rip),%xmm1 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,13,68,92,0,0 // pand 0x5c44(%rip),%xmm1 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,56,51,193 // pmovzxwd %xmm1,%xmm0
.byte 102,15,105,204 // punpckhwd %xmm4,%xmm1
- .byte 102,15,111,37,55,99,0,0 // movdqa 0x6337(%rip),%xmm4 # 2ca20 <_sk_overlay_sse2_8bit+0x153b>
+ .byte 102,15,111,37,175,99,0,0 // movdqa 0x63af(%rip),%xmm4 # 2ca50 <_sk_overlay_sse2_8bit+0x15b3>
.byte 102,15,56,64,204 // pmulld %xmm4,%xmm1
.byte 102,15,56,64,196 // pmulld %xmm4,%xmm0
- .byte 102,15,111,37,229,98,0,0 // movdqa 0x62e5(%rip),%xmm4 # 2c9e0 <_sk_overlay_sse2_8bit+0x14fb>
+ .byte 102,15,111,37,93,99,0,0 // movdqa 0x635d(%rip),%xmm4 # 2ca10 <_sk_overlay_sse2_8bit+0x1573>
.byte 102,15,235,196 // por %xmm4,%xmm0
.byte 102,15,235,204 // por %xmm4,%xmm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -47627,15 +47540,15 @@ _sk_load_g8_sse41_8bit:
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,180 // ja 266cc <_sk_load_g8_sse41_8bit+0x24>
+ .byte 119,180 // ja 26684 <_sk_load_g8_sse41_8bit+0x24>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,121,0,0,0 // lea 0x79(%rip),%rcx # 2679c <_sk_load_g8_sse41_8bit+0xf4>
+ .byte 72,141,13,121,0,0,0 // lea 0x79(%rip),%rcx # 26754 <_sk_load_g8_sse41_8bit+0xf4>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,200 // movd %eax,%xmm1
- .byte 235,149 // jmp 266cc <_sk_load_g8_sse41_8bit+0x24>
+ .byte 235,149 // jmp 26684 <_sk_load_g8_sse41_8bit+0x24>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,196,200,2 // pinsrw $0x2,%eax,%xmm1
@@ -47643,7 +47556,7 @@ _sk_load_g8_sse41_8bit:
.byte 102,15,110,192 // movd %eax,%xmm0
.byte 102,15,56,48,192 // pmovzxbw %xmm0,%xmm0
.byte 102,15,58,14,200,3 // pblendw $0x3,%xmm0,%xmm1
- .byte 233,109,255,255,255 // jmpq 266cc <_sk_load_g8_sse41_8bit+0x24>
+ .byte 233,109,255,255,255 // jmpq 26684 <_sk_load_g8_sse41_8bit+0x24>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,196,200,6 // pinsrw $0x6,%eax,%xmm1
@@ -47654,7 +47567,7 @@ _sk_load_g8_sse41_8bit:
.byte 102,66,15,110,4,2 // movd (%rdx,%r8,1),%xmm0
.byte 102,15,56,48,192 // pmovzxbw %xmm0,%xmm0
.byte 102,15,58,14,200,15 // pblendw $0xf,%xmm0,%xmm1
- .byte 233,50,255,255,255 // jmpq 266cc <_sk_load_g8_sse41_8bit+0x24>
+ .byte 233,50,255,255,255 // jmpq 26684 <_sk_load_g8_sse41_8bit+0x24>
.byte 102,144 // xchg %ax,%ax
.byte 144 // nop
.byte 255 // (bad)
@@ -47663,7 +47576,7 @@ _sk_load_g8_sse41_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 232,255,255,255,221 // callq ffffffffde0267ac <_sk_overlay_sse2_8bit+0xffffffffddffb2c7>
+ .byte 232,255,255,255,221 // callq ffffffffde026764 <_sk_overlay_sse2_8bit+0xffffffffddffb2c7>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,210 // callq *%rdx
@@ -47686,16 +47599,16 @@ _sk_load_g8_dst_sse41_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,66 // jne 26817 <_sk_load_g8_dst_sse41_8bit+0x5f>
+ .byte 117,66 // jne 267cf <_sk_load_g8_dst_sse41_8bit+0x5f>
.byte 102,66,15,56,48,28,2 // pmovzxbw (%rdx,%r8,1),%xmm3
- .byte 102,15,219,29,236,90,0,0 // pand 0x5aec(%rip),%xmm3 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,29,52,91,0,0 // pand 0x5b34(%rip),%xmm3 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,56,51,211 // pmovzxwd %xmm3,%xmm2
.byte 102,15,105,220 // punpckhwd %xmm4,%xmm3
- .byte 102,15,111,37,39,98,0,0 // movdqa 0x6227(%rip),%xmm4 # 2ca20 <_sk_overlay_sse2_8bit+0x153b>
+ .byte 102,15,111,37,159,98,0,0 // movdqa 0x629f(%rip),%xmm4 # 2ca50 <_sk_overlay_sse2_8bit+0x15b3>
.byte 102,15,56,64,220 // pmulld %xmm4,%xmm3
.byte 102,15,56,64,212 // pmulld %xmm4,%xmm2
- .byte 102,15,111,37,213,97,0,0 // movdqa 0x61d5(%rip),%xmm4 # 2c9e0 <_sk_overlay_sse2_8bit+0x14fb>
+ .byte 102,15,111,37,77,98,0,0 // movdqa 0x624d(%rip),%xmm4 # 2ca10 <_sk_overlay_sse2_8bit+0x1573>
.byte 102,15,235,212 // por %xmm4,%xmm2
.byte 102,15,235,220 // por %xmm4,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -47704,15 +47617,15 @@ _sk_load_g8_dst_sse41_8bit:
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,180 // ja 267dc <_sk_load_g8_dst_sse41_8bit+0x24>
+ .byte 119,180 // ja 26794 <_sk_load_g8_dst_sse41_8bit+0x24>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,121,0,0,0 // lea 0x79(%rip),%rcx # 268ac <_sk_load_g8_dst_sse41_8bit+0xf4>
+ .byte 72,141,13,121,0,0,0 // lea 0x79(%rip),%rcx # 26864 <_sk_load_g8_dst_sse41_8bit+0xf4>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,216 // movd %eax,%xmm3
- .byte 235,149 // jmp 267dc <_sk_load_g8_dst_sse41_8bit+0x24>
+ .byte 235,149 // jmp 26794 <_sk_load_g8_dst_sse41_8bit+0x24>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,196,216,2 // pinsrw $0x2,%eax,%xmm3
@@ -47720,7 +47633,7 @@ _sk_load_g8_dst_sse41_8bit:
.byte 102,15,110,208 // movd %eax,%xmm2
.byte 102,15,56,48,210 // pmovzxbw %xmm2,%xmm2
.byte 102,15,58,14,218,3 // pblendw $0x3,%xmm2,%xmm3
- .byte 233,109,255,255,255 // jmpq 267dc <_sk_load_g8_dst_sse41_8bit+0x24>
+ .byte 233,109,255,255,255 // jmpq 26794 <_sk_load_g8_dst_sse41_8bit+0x24>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,196,216,6 // pinsrw $0x6,%eax,%xmm3
@@ -47731,7 +47644,7 @@ _sk_load_g8_dst_sse41_8bit:
.byte 102,66,15,110,20,2 // movd (%rdx,%r8,1),%xmm2
.byte 102,15,56,48,210 // pmovzxbw %xmm2,%xmm2
.byte 102,15,58,14,218,15 // pblendw $0xf,%xmm2,%xmm3
- .byte 233,50,255,255,255 // jmpq 267dc <_sk_load_g8_dst_sse41_8bit+0x24>
+ .byte 233,50,255,255,255 // jmpq 26794 <_sk_load_g8_dst_sse41_8bit+0x24>
.byte 102,144 // xchg %ax,%ax
.byte 144 // nop
.byte 255 // (bad)
@@ -47740,7 +47653,7 @@ _sk_load_g8_dst_sse41_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 232,255,255,255,221 // callq ffffffffde0268bc <_sk_overlay_sse2_8bit+0xffffffffddffb3d7>
+ .byte 232,255,255,255,221 // callq ffffffffde026874 <_sk_overlay_sse2_8bit+0xffffffffddffb3d7>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,210 // callq *%rdx
@@ -47764,11 +47677,11 @@ _sk_srcover_rgba_8888_sse41_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,192 // test %r8,%r8
- .byte 15,133,206,0,0,0 // jne 269bb <_sk_srcover_rgba_8888_sse41_8bit+0xf3>
+ .byte 15,133,206,0,0,0 // jne 26973 <_sk_srcover_rgba_8888_sse41_8bit+0xf3>
.byte 243,70,15,111,68,138,16 // movdqu 0x10(%rdx,%r9,4),%xmm8
.byte 243,70,15,111,12,138 // movdqu (%rdx,%r9,4),%xmm9
.byte 77,133,192 // test %r8,%r8
- .byte 102,15,111,37,235,96,0,0 // movdqa 0x60eb(%rip),%xmm4 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,37,99,97,0,0 // movdqa 0x6163(%rip),%xmm4 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,15,111,241 // movdqa %xmm1,%xmm6
.byte 102,15,56,0,244 // pshufb %xmm4,%xmm6
.byte 102,15,111,248 // movdqa %xmm0,%xmm7
@@ -47802,7 +47715,7 @@ _sk_srcover_rgba_8888_sse41_8bit:
.byte 102,68,15,248,204 // psubb %xmm4,%xmm9
.byte 102,68,15,252,200 // paddb %xmm0,%xmm9
.byte 102,68,15,252,193 // paddb %xmm1,%xmm8
- .byte 117,72 // jne 269f2 <_sk_srcover_rgba_8888_sse41_8bit+0x12a>
+ .byte 117,72 // jne 269aa <_sk_srcover_rgba_8888_sse41_8bit+0x12a>
.byte 243,70,15,127,12,138 // movdqu %xmm9,(%rdx,%r9,4)
.byte 243,70,15,127,68,138,16 // movdqu %xmm8,0x10(%rdx,%r9,4)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -47813,43 +47726,43 @@ _sk_srcover_rgba_8888_sse41_8bit:
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
.byte 254,200 // dec %al
.byte 60,6 // cmp $0x6,%al
- .byte 15,135,38,255,255,255 // ja 268fa <_sk_srcover_rgba_8888_sse41_8bit+0x32>
+ .byte 15,135,38,255,255,255 // ja 268b2 <_sk_srcover_rgba_8888_sse41_8bit+0x32>
.byte 15,182,192 // movzbl %al,%eax
- .byte 72,141,13,186,0,0,0 // lea 0xba(%rip),%rcx # 26a98 <_sk_srcover_rgba_8888_sse41_8bit+0x1d0>
+ .byte 72,141,13,186,0,0,0 // lea 0xba(%rip),%rcx # 26a50 <_sk_srcover_rgba_8888_sse41_8bit+0x1d0>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,70,15,110,12,138 // movd (%rdx,%r9,4),%xmm9
- .byte 233,8,255,255,255 // jmpq 268fa <_sk_srcover_rgba_8888_sse41_8bit+0x32>
+ .byte 233,8,255,255,255 // jmpq 268b2 <_sk_srcover_rgba_8888_sse41_8bit+0x32>
.byte 65,128,224,7 // and $0x7,%r8b
.byte 65,254,200 // dec %r8b
.byte 65,128,248,6 // cmp $0x6,%r8b
- .byte 119,184 // ja 269b7 <_sk_srcover_rgba_8888_sse41_8bit+0xef>
+ .byte 119,184 // ja 2696f <_sk_srcover_rgba_8888_sse41_8bit+0xef>
.byte 65,15,182,192 // movzbl %r8b,%eax
- .byte 72,141,13,170,0,0,0 // lea 0xaa(%rip),%rcx # 26ab4 <_sk_srcover_rgba_8888_sse41_8bit+0x1ec>
+ .byte 72,141,13,170,0,0,0 // lea 0xaa(%rip),%rcx # 26a6c <_sk_srcover_rgba_8888_sse41_8bit+0x1ec>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,70,15,126,12,138 // movd %xmm9,(%rdx,%r9,4)
- .byte 235,156 // jmp 269b7 <_sk_srcover_rgba_8888_sse41_8bit+0xef>
+ .byte 235,156 // jmp 2696f <_sk_srcover_rgba_8888_sse41_8bit+0xef>
.byte 102,66,15,110,100,138,8 // movd 0x8(%rdx,%r9,4),%xmm4
.byte 102,68,15,112,204,69 // pshufd $0x45,%xmm4,%xmm9
.byte 243,66,15,126,36,138 // movq (%rdx,%r9,4),%xmm4
.byte 102,68,15,58,14,204,15 // pblendw $0xf,%xmm4,%xmm9
- .byte 233,192,254,255,255 // jmpq 268fa <_sk_srcover_rgba_8888_sse41_8bit+0x32>
+ .byte 233,192,254,255,255 // jmpq 268b2 <_sk_srcover_rgba_8888_sse41_8bit+0x32>
.byte 102,66,15,110,100,138,24 // movd 0x18(%rdx,%r9,4),%xmm4
.byte 102,68,15,112,196,69 // pshufd $0x45,%xmm4,%xmm8
.byte 102,70,15,58,34,68,138,20,1 // pinsrd $0x1,0x14(%rdx,%r9,4),%xmm8
.byte 102,70,15,58,34,68,138,16,0 // pinsrd $0x0,0x10(%rdx,%r9,4),%xmm8
- .byte 233,150,254,255,255 // jmpq 268f4 <_sk_srcover_rgba_8888_sse41_8bit+0x2c>
+ .byte 233,150,254,255,255 // jmpq 268ac <_sk_srcover_rgba_8888_sse41_8bit+0x2c>
.byte 102,70,15,58,22,76,138,8,2 // pextrd $0x2,%xmm9,0x8(%rdx,%r9,4)
.byte 102,70,15,214,12,138 // movq %xmm9,(%rdx,%r9,4)
- .byte 233,69,255,255,255 // jmpq 269b7 <_sk_srcover_rgba_8888_sse41_8bit+0xef>
+ .byte 233,69,255,255,255 // jmpq 2696f <_sk_srcover_rgba_8888_sse41_8bit+0xef>
.byte 102,70,15,58,22,68,138,24,2 // pextrd $0x2,%xmm8,0x18(%rdx,%r9,4)
.byte 102,70,15,58,22,68,138,20,1 // pextrd $0x1,%xmm8,0x14(%rdx,%r9,4)
.byte 102,70,15,126,68,138,16 // movd %xmm8,0x10(%rdx,%r9,4)
.byte 243,70,15,127,12,138 // movdqu %xmm9,(%rdx,%r9,4)
- .byte 233,33,255,255,255 // jmpq 269b7 <_sk_srcover_rgba_8888_sse41_8bit+0xef>
+ .byte 233,33,255,255,255 // jmpq 2696f <_sk_srcover_rgba_8888_sse41_8bit+0xef>
.byte 102,144 // xchg %ax,%ax
.byte 79,255 // rex.WRXB (bad)
.byte 255 // (bad)
@@ -47890,7 +47803,7 @@ _sk_scale_1_float_sse41_8bit:
.byte 102,15,111,232 // movdqa %xmm0,%xmm5
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 243,15,16,0 // movss (%rax),%xmm0
- .byte 243,15,89,5,110,78,0,0 // mulss 0x4e6e(%rip),%xmm0 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 243,15,89,5,110,78,0,0 // mulss 0x4e6e(%rip),%xmm0 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 243,15,44,192 // cvttss2si %xmm0,%eax
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 102,68,15,56,48,197 // pmovzxbw %xmm5,%xmm8
@@ -47898,7 +47811,7 @@ _sk_scale_1_float_sse41_8bit:
.byte 102,68,15,56,48,204 // pmovzxbw %xmm4,%xmm9
.byte 102,15,104,224 // punpckhbw %xmm0,%xmm4
.byte 102,15,110,240 // movd %eax,%xmm6
- .byte 102,15,56,0,53,34,95,0,0 // pshufb 0x5f22(%rip),%xmm6 # 2ca30 <_sk_overlay_sse2_8bit+0x154b>
+ .byte 102,15,56,0,53,154,95,0,0 // pshufb 0x5f9a(%rip),%xmm6 # 2ca60 <_sk_overlay_sse2_8bit+0x15c3>
.byte 102,15,111,206 // movdqa %xmm6,%xmm1
.byte 102,65,15,213,201 // pmullw %xmm9,%xmm1
.byte 102,15,111,198 // movdqa %xmm6,%xmm0
@@ -47931,13 +47844,13 @@ _sk_scale_u8_sse41_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 15,133,160,0,0,0 // jne 26c1f <_sk_scale_u8_sse41_8bit+0xc1>
+ .byte 15,133,160,0,0,0 // jne 26bd7 <_sk_scale_u8_sse41_8bit+0xc1>
.byte 102,66,15,56,48,52,2 // pmovzxbw (%rdx,%r8,1),%xmm6
- .byte 102,15,219,53,66,87,0,0 // pand 0x5742(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,53,138,87,0,0 // pand 0x578a(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
.byte 102,15,111,254 // movdqa %xmm6,%xmm7
- .byte 102,15,56,0,61,160,94,0,0 // pshufb 0x5ea0(%rip),%xmm7 # 2ca40 <_sk_overlay_sse2_8bit+0x155b>
- .byte 102,15,56,0,53,167,94,0,0 // pshufb 0x5ea7(%rip),%xmm6 # 2ca50 <_sk_overlay_sse2_8bit+0x156b>
+ .byte 102,15,56,0,61,24,95,0,0 // pshufb 0x5f18(%rip),%xmm7 # 2ca70 <_sk_overlay_sse2_8bit+0x15d3>
+ .byte 102,15,56,0,53,31,95,0,0 // pshufb 0x5f1f(%rip),%xmm6 # 2ca80 <_sk_overlay_sse2_8bit+0x15e3>
.byte 102,68,15,56,48,200 // pmovzxbw %xmm0,%xmm9
.byte 102,65,15,104,192 // punpckhbw %xmm8,%xmm0
.byte 102,68,15,56,48,209 // pmovzxbw %xmm1,%xmm10
@@ -47968,15 +47881,15 @@ _sk_scale_u8_sse41_8bit:
.byte 102,15,239,246 // pxor %xmm6,%xmm6
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 15,135,82,255,255,255 // ja 26b86 <_sk_scale_u8_sse41_8bit+0x28>
+ .byte 15,135,82,255,255,255 // ja 26b3e <_sk_scale_u8_sse41_8bit+0x28>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,125,0,0,0 // lea 0x7d(%rip),%rcx # 26cbc <_sk_scale_u8_sse41_8bit+0x15e>
+ .byte 72,141,13,125,0,0,0 // lea 0x7d(%rip),%rcx # 26c74 <_sk_scale_u8_sse41_8bit+0x15e>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,240 // movd %eax,%xmm6
- .byte 233,48,255,255,255 // jmpq 26b86 <_sk_scale_u8_sse41_8bit+0x28>
+ .byte 233,48,255,255,255 // jmpq 26b3e <_sk_scale_u8_sse41_8bit+0x28>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,246 // pxor %xmm6,%xmm6
.byte 102,15,196,240,2 // pinsrw $0x2,%eax,%xmm6
@@ -47984,7 +47897,7 @@ _sk_scale_u8_sse41_8bit:
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,56,48,228 // pmovzxbw %xmm4,%xmm4
.byte 102,15,58,14,244,3 // pblendw $0x3,%xmm4,%xmm6
- .byte 233,8,255,255,255 // jmpq 26b86 <_sk_scale_u8_sse41_8bit+0x28>
+ .byte 233,8,255,255,255 // jmpq 26b3e <_sk_scale_u8_sse41_8bit+0x28>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,246 // pxor %xmm6,%xmm6
.byte 102,15,196,240,6 // pinsrw $0x6,%eax,%xmm6
@@ -47995,7 +47908,7 @@ _sk_scale_u8_sse41_8bit:
.byte 102,66,15,110,36,2 // movd (%rdx,%r8,1),%xmm4
.byte 102,15,56,48,228 // pmovzxbw %xmm4,%xmm4
.byte 102,15,58,14,244,15 // pblendw $0xf,%xmm4,%xmm6
- .byte 233,205,254,255,255 // jmpq 26b86 <_sk_scale_u8_sse41_8bit+0x28>
+ .byte 233,205,254,255,255 // jmpq 26b3e <_sk_scale_u8_sse41_8bit+0x28>
.byte 15,31,0 // nopl (%rax)
.byte 140,255 // mov %?,%edi
.byte 255 // (bad)
@@ -48022,7 +47935,7 @@ FUNCTION(_sk_lerp_1_float_sse41_8bit)
_sk_lerp_1_float_sse41_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 243,15,16,32 // movss (%rax),%xmm4
- .byte 243,15,89,37,110,76,0,0 // mulss 0x4c6e(%rip),%xmm4 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 243,15,89,37,110,76,0,0 // mulss 0x4c6e(%rip),%xmm4 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 243,15,44,196 // cvttss2si %xmm4,%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,96,228 // punpcklbw %xmm4,%xmm4
@@ -48033,7 +47946,7 @@ _sk_lerp_1_float_sse41_8bit:
.byte 102,65,15,104,193 // punpckhbw %xmm9,%xmm0
.byte 102,68,15,56,48,217 // pmovzxbw %xmm1,%xmm11
.byte 102,65,15,104,201 // punpckhbw %xmm9,%xmm1
- .byte 102,15,56,0,61,63,93,0,0 // pshufb 0x5d3f(%rip),%xmm7 # 2ca60 <_sk_overlay_sse2_8bit+0x157b>
+ .byte 102,15,56,0,61,183,93,0,0 // pshufb 0x5db7(%rip),%xmm7 # 2ca90 <_sk_overlay_sse2_8bit+0x15f3>
.byte 102,68,15,111,231 // movdqa %xmm7,%xmm12
.byte 102,69,15,213,227 // pmullw %xmm11,%xmm12
.byte 102,68,15,111,239 // movdqa %xmm7,%xmm13
@@ -48094,13 +48007,13 @@ _sk_lerp_u8_sse41_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 15,133,46,1,0,0 // jne 26f49 <_sk_lerp_u8_sse41_8bit+0x14f>
+ .byte 15,133,46,1,0,0 // jne 26f01 <_sk_lerp_u8_sse41_8bit+0x14f>
.byte 102,66,15,56,48,60,2 // pmovzxbw (%rdx,%r8,1),%xmm7
- .byte 102,15,219,61,166,84,0,0 // pand 0x54a6(%rip),%xmm7 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,61,238,84,0,0 // pand 0x54ee(%rip),%xmm7 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
.byte 102,15,111,247 // movdqa %xmm7,%xmm6
- .byte 102,15,56,0,53,4,92,0,0 // pshufb 0x5c04(%rip),%xmm6 # 2ca40 <_sk_overlay_sse2_8bit+0x155b>
- .byte 102,15,56,0,61,11,92,0,0 // pshufb 0x5c0b(%rip),%xmm7 # 2ca50 <_sk_overlay_sse2_8bit+0x156b>
+ .byte 102,15,56,0,53,124,92,0,0 // pshufb 0x5c7c(%rip),%xmm6 # 2ca70 <_sk_overlay_sse2_8bit+0x15d3>
+ .byte 102,15,56,0,61,131,92,0,0 // pshufb 0x5c83(%rip),%xmm7 # 2ca80 <_sk_overlay_sse2_8bit+0x15e3>
.byte 102,68,15,56,48,200 // pmovzxbw %xmm0,%xmm9
.byte 102,65,15,104,192 // punpckhbw %xmm8,%xmm0
.byte 102,68,15,56,48,209 // pmovzxbw %xmm1,%xmm10
@@ -48160,15 +48073,15 @@ _sk_lerp_u8_sse41_8bit:
.byte 102,15,239,255 // pxor %xmm7,%xmm7
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 15,135,196,254,255,255 // ja 26e22 <_sk_lerp_u8_sse41_8bit+0x28>
+ .byte 15,135,196,254,255,255 // ja 26dda <_sk_lerp_u8_sse41_8bit+0x28>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,123,0,0,0 // lea 0x7b(%rip),%rcx # 26fe4 <_sk_lerp_u8_sse41_8bit+0x1ea>
+ .byte 72,141,13,123,0,0,0 // lea 0x7b(%rip),%rcx # 26f9c <_sk_lerp_u8_sse41_8bit+0x1ea>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,248 // movd %eax,%xmm7
- .byte 233,162,254,255,255 // jmpq 26e22 <_sk_lerp_u8_sse41_8bit+0x28>
+ .byte 233,162,254,255,255 // jmpq 26dda <_sk_lerp_u8_sse41_8bit+0x28>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,255 // pxor %xmm7,%xmm7
.byte 102,15,196,248,2 // pinsrw $0x2,%eax,%xmm7
@@ -48176,7 +48089,7 @@ _sk_lerp_u8_sse41_8bit:
.byte 102,15,110,232 // movd %eax,%xmm5
.byte 102,15,56,48,237 // pmovzxbw %xmm5,%xmm5
.byte 102,15,58,14,253,3 // pblendw $0x3,%xmm5,%xmm7
- .byte 233,122,254,255,255 // jmpq 26e22 <_sk_lerp_u8_sse41_8bit+0x28>
+ .byte 233,122,254,255,255 // jmpq 26dda <_sk_lerp_u8_sse41_8bit+0x28>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,255 // pxor %xmm7,%xmm7
.byte 102,15,196,248,6 // pinsrw $0x6,%eax,%xmm7
@@ -48187,7 +48100,7 @@ _sk_lerp_u8_sse41_8bit:
.byte 102,66,15,110,44,2 // movd (%rdx,%r8,1),%xmm5
.byte 102,15,56,48,237 // pmovzxbw %xmm5,%xmm5
.byte 102,15,58,14,253,15 // pblendw $0xf,%xmm5,%xmm7
- .byte 233,63,254,255,255 // jmpq 26e22 <_sk_lerp_u8_sse41_8bit+0x28>
+ .byte 233,63,254,255,255 // jmpq 26dda <_sk_lerp_u8_sse41_8bit+0x28>
.byte 144 // nop
.byte 142,255 // mov %edi,%?
.byte 255 // (bad)
@@ -48195,7 +48108,7 @@ _sk_lerp_u8_sse41_8bit:
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 233,255,255,255,222 // jmpq ffffffffdf026ff4 <_sk_overlay_sse2_8bit+0xffffffffdeffbb0f>
+ .byte 233,255,255,255,222 // jmpq ffffffffdf026fac <_sk_overlay_sse2_8bit+0xffffffffdeffbb0f>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,211 // callq *%rbx
@@ -48229,7 +48142,7 @@ HIDDEN _sk_black_color_sse41_8bit
FUNCTION(_sk_black_color_sse41_8bit)
_sk_black_color_sse41_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,5,195,89,0,0 // movaps 0x59c3(%rip),%xmm0 # 2c9e0 <_sk_overlay_sse2_8bit+0x14fb>
+ .byte 15,40,5,59,90,0,0 // movaps 0x5a3b(%rip),%xmm0 # 2ca10 <_sk_overlay_sse2_8bit+0x1573>
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 255,224 // jmpq *%rax
@@ -48255,7 +48168,7 @@ HIDDEN _sk_srcatop_sse41_8bit
.globl _sk_srcatop_sse41_8bit
FUNCTION(_sk_srcatop_sse41_8bit)
_sk_srcatop_sse41_8bit:
- .byte 102,68,15,111,21,175,89,0,0 // movdqa 0x59af(%rip),%xmm10 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,68,15,111,21,39,90,0,0 // movdqa 0x5a27(%rip),%xmm10 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,111,219 // movdqa %xmm3,%xmm11
.byte 102,68,15,56,48,195 // pmovzxbw %xmm3,%xmm8
.byte 102,15,111,235 // movdqa %xmm3,%xmm5
@@ -48325,7 +48238,7 @@ HIDDEN _sk_dstatop_sse41_8bit
.globl _sk_dstatop_sse41_8bit
FUNCTION(_sk_dstatop_sse41_8bit)
_sk_dstatop_sse41_8bit:
- .byte 102,68,15,111,29,116,88,0,0 // movdqa 0x5874(%rip),%xmm11 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,68,15,111,29,236,88,0,0 // movdqa 0x58ec(%rip),%xmm11 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,111,233 // movdqa %xmm1,%xmm13
.byte 102,69,15,56,0,235 // pshufb %xmm11,%xmm13
.byte 102,68,15,111,248 // movdqa %xmm0,%xmm15
@@ -48397,7 +48310,7 @@ FUNCTION(_sk_srcin_sse41_8bit)
_sk_srcin_sse41_8bit:
.byte 102,15,111,225 // movdqa %xmm1,%xmm4
.byte 102,15,111,232 // movdqa %xmm0,%xmm5
- .byte 102,15,111,5,43,87,0,0 // movdqa 0x572b(%rip),%xmm0 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,5,163,87,0,0 // movdqa 0x57a3(%rip),%xmm0 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,15,111,243 // movdqa %xmm3,%xmm6
.byte 102,15,56,0,240 // pshufb %xmm0,%xmm6
.byte 102,15,111,250 // movdqa %xmm2,%xmm7
@@ -48432,7 +48345,7 @@ HIDDEN _sk_dstin_sse41_8bit
.globl _sk_dstin_sse41_8bit
FUNCTION(_sk_dstin_sse41_8bit)
_sk_dstin_sse41_8bit:
- .byte 102,15,111,37,158,86,0,0 // movdqa 0x569e(%rip),%xmm4 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,37,22,87,0,0 // movdqa 0x5716(%rip),%xmm4 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,15,56,0,204 // pshufb %xmm4,%xmm1
.byte 102,15,56,0,196 // pshufb %xmm4,%xmm0
.byte 102,69,15,239,210 // pxor %xmm10,%xmm10
@@ -48471,7 +48384,7 @@ FUNCTION(_sk_srcout_sse41_8bit)
_sk_srcout_sse41_8bit:
.byte 102,15,111,225 // movdqa %xmm1,%xmm4
.byte 102,15,111,232 // movdqa %xmm0,%xmm5
- .byte 102,15,111,5,1,86,0,0 // movdqa 0x5601(%rip),%xmm0 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,5,121,86,0,0 // movdqa 0x5679(%rip),%xmm0 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,15,111,250 // movdqa %xmm2,%xmm7
.byte 102,15,56,0,248 // pshufb %xmm0,%xmm7
.byte 102,15,111,243 // movdqa %xmm3,%xmm6
@@ -48509,7 +48422,7 @@ HIDDEN _sk_dstout_sse41_8bit
.globl _sk_dstout_sse41_8bit
FUNCTION(_sk_dstout_sse41_8bit)
_sk_dstout_sse41_8bit:
- .byte 102,15,111,37,104,85,0,0 // movdqa 0x5568(%rip),%xmm4 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,37,224,85,0,0 // movdqa 0x55e0(%rip),%xmm4 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,15,56,0,196 // pshufb %xmm4,%xmm0
.byte 102,15,56,0,204 // pshufb %xmm4,%xmm1
.byte 102,15,118,228 // pcmpeqd %xmm4,%xmm4
@@ -48549,7 +48462,7 @@ HIDDEN _sk_srcover_sse41_8bit
.globl _sk_srcover_sse41_8bit
FUNCTION(_sk_srcover_sse41_8bit)
_sk_srcover_sse41_8bit:
- .byte 102,15,111,53,199,84,0,0 // movdqa 0x54c7(%rip),%xmm6 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,53,63,85,0,0 // movdqa 0x553f(%rip),%xmm6 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,111,217 // movdqa %xmm1,%xmm11
.byte 102,68,15,56,0,222 // pshufb %xmm6,%xmm11
.byte 102,15,111,232 // movdqa %xmm0,%xmm5
@@ -48590,7 +48503,7 @@ HIDDEN _sk_dstover_sse41_8bit
.globl _sk_dstover_sse41_8bit
FUNCTION(_sk_dstover_sse41_8bit)
_sk_dstover_sse41_8bit:
- .byte 102,68,15,111,5,23,84,0,0 // movdqa 0x5417(%rip),%xmm8 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,68,15,111,5,143,84,0,0 // movdqa 0x548f(%rip),%xmm8 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,111,209 // movdqa %xmm1,%xmm10
.byte 102,68,15,56,48,201 // pmovzxbw %xmm1,%xmm9
.byte 102,15,252,203 // paddb %xmm3,%xmm1
@@ -48669,7 +48582,7 @@ _sk_multiply_sse41_8bit:
.byte 102,15,111,218 // movdqa %xmm2,%xmm3
.byte 102,15,111,209 // movdqa %xmm1,%xmm2
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
- .byte 102,68,15,111,53,213,82,0,0 // movdqa 0x52d5(%rip),%xmm14 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,68,15,111,53,77,83,0,0 // movdqa 0x534d(%rip),%xmm14 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,111,195 // movdqa %xmm3,%xmm8
.byte 102,15,111,235 // movdqa %xmm3,%xmm5
.byte 102,65,15,56,0,238 // pshufb %xmm14,%xmm5
@@ -48798,7 +48711,7 @@ HIDDEN _sk_xor__sse41_8bit
.globl _sk_xor__sse41_8bit
FUNCTION(_sk_xor__sse41_8bit)
_sk_xor__sse41_8bit:
- .byte 102,68,15,111,21,147,80,0,0 // movdqa 0x5093(%rip),%xmm10 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,68,15,111,21,11,81,0,0 // movdqa 0x510b(%rip),%xmm10 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,111,226 // movdqa %xmm2,%xmm12
.byte 102,68,15,56,48,194 // pmovzxbw %xmm2,%xmm8
.byte 102,15,111,234 // movdqa %xmm2,%xmm5
@@ -48880,7 +48793,7 @@ HIDDEN _sk_darken_sse41_8bit
FUNCTION(_sk_darken_sse41_8bit)
_sk_darken_sse41_8bit:
.byte 102,68,15,111,240 // movdqa %xmm0,%xmm14
- .byte 102,68,15,111,5,58,79,0,0 // movdqa 0x4f3a(%rip),%xmm8 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,68,15,111,5,178,79,0,0 // movdqa 0x4fb2(%rip),%xmm8 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,111,219 // movdqa %xmm3,%xmm11
.byte 102,68,15,56,48,203 // pmovzxbw %xmm3,%xmm9
.byte 102,15,111,243 // movdqa %xmm3,%xmm6
@@ -48947,7 +48860,7 @@ _sk_darken_sse41_8bit:
.byte 102,15,248,231 // psubb %xmm7,%xmm4
.byte 102,15,248,206 // psubb %xmm6,%xmm1
.byte 102,68,15,248,245 // psubb %xmm5,%xmm14
- .byte 15,40,5,110,78,0,0 // movaps 0x4e6e(%rip),%xmm0 # 2ca70 <_sk_overlay_sse2_8bit+0x158b>
+ .byte 15,40,5,230,78,0,0 // movaps 0x4ee6(%rip),%xmm0 # 2caa0 <_sk_overlay_sse2_8bit+0x1603>
.byte 102,68,15,56,16,244 // pblendvb %xmm0,%xmm4,%xmm14
.byte 102,65,15,56,16,200 // pblendvb %xmm0,%xmm8,%xmm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -48959,7 +48872,7 @@ HIDDEN _sk_lighten_sse41_8bit
FUNCTION(_sk_lighten_sse41_8bit)
_sk_lighten_sse41_8bit:
.byte 102,68,15,111,240 // movdqa %xmm0,%xmm14
- .byte 102,68,15,111,5,203,77,0,0 // movdqa 0x4dcb(%rip),%xmm8 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,68,15,111,5,67,78,0,0 // movdqa 0x4e43(%rip),%xmm8 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,111,219 // movdqa %xmm3,%xmm11
.byte 102,68,15,56,48,203 // pmovzxbw %xmm3,%xmm9
.byte 102,15,111,243 // movdqa %xmm3,%xmm6
@@ -49026,7 +48939,7 @@ _sk_lighten_sse41_8bit:
.byte 102,15,248,231 // psubb %xmm7,%xmm4
.byte 102,15,248,206 // psubb %xmm6,%xmm1
.byte 102,68,15,248,245 // psubb %xmm5,%xmm14
- .byte 15,40,5,255,76,0,0 // movaps 0x4cff(%rip),%xmm0 # 2ca70 <_sk_overlay_sse2_8bit+0x158b>
+ .byte 15,40,5,119,77,0,0 // movaps 0x4d77(%rip),%xmm0 # 2caa0 <_sk_overlay_sse2_8bit+0x1603>
.byte 102,68,15,56,16,244 // pblendvb %xmm0,%xmm4,%xmm14
.byte 102,65,15,56,16,200 // pblendvb %xmm0,%xmm8,%xmm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -49066,7 +48979,7 @@ _sk_exclusion_sse41_8bit:
.byte 102,15,113,215,8 // psrlw $0x8,%xmm7
.byte 102,15,103,253 // packuswb %xmm5,%xmm7
.byte 102,15,103,230 // packuswb %xmm6,%xmm4
- .byte 102,15,111,45,85,76,0,0 // movdqa 0x4c55(%rip),%xmm5 # 2ca70 <_sk_overlay_sse2_8bit+0x158b>
+ .byte 102,15,111,45,205,76,0,0 // movdqa 0x4ccd(%rip),%xmm5 # 2caa0 <_sk_overlay_sse2_8bit+0x1603>
.byte 102,15,248,204 // psubb %xmm4,%xmm1
.byte 102,15,219,229 // pand %xmm5,%xmm4
.byte 102,15,219,239 // pand %xmm7,%xmm5
@@ -49081,7 +48994,7 @@ HIDDEN _sk_difference_sse41_8bit
FUNCTION(_sk_difference_sse41_8bit)
_sk_difference_sse41_8bit:
.byte 102,68,15,111,193 // movdqa %xmm1,%xmm8
- .byte 102,15,111,13,172,75,0,0 // movdqa 0x4bac(%rip),%xmm1 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,13,36,76,0,0 // movdqa 0x4c24(%rip),%xmm1 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,111,219 // movdqa %xmm3,%xmm11
.byte 102,68,15,56,48,203 // pmovzxbw %xmm3,%xmm9
.byte 102,15,111,243 // movdqa %xmm3,%xmm6
@@ -49119,7 +49032,7 @@ _sk_difference_sse41_8bit:
.byte 102,15,113,214,8 // psrlw $0x8,%xmm6
.byte 102,15,113,215,8 // psrlw $0x8,%xmm7
.byte 102,15,103,254 // packuswb %xmm6,%xmm7
- .byte 102,15,111,37,241,74,0,0 // movdqa 0x4af1(%rip),%xmm4 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,37,105,75,0,0 // movdqa 0x4b69(%rip),%xmm4 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,15,56,0,204 // pshufb %xmm4,%xmm1
.byte 102,15,56,0,236 // pshufb %xmm4,%xmm5
.byte 102,69,15,104,236 // punpckhbw %xmm12,%xmm13
@@ -49144,7 +49057,7 @@ _sk_difference_sse41_8bit:
.byte 102,15,103,241 // packuswb %xmm1,%xmm6
.byte 102,65,15,218,230 // pminub %xmm14,%xmm4
.byte 102,15,218,247 // pminub %xmm7,%xmm6
- .byte 102,15,111,13,244,74,0,0 // movdqa 0x4af4(%rip),%xmm1 # 2ca70 <_sk_overlay_sse2_8bit+0x158b>
+ .byte 102,15,111,13,108,75,0,0 // movdqa 0x4b6c(%rip),%xmm1 # 2caa0 <_sk_overlay_sse2_8bit+0x1603>
.byte 102,68,15,248,198 // psubb %xmm6,%xmm8
.byte 102,15,219,241 // pand %xmm1,%xmm6
.byte 102,15,219,204 // pand %xmm4,%xmm1
@@ -49173,7 +49086,7 @@ _sk_hardlight_sse41_8bit:
.byte 102,15,127,76,36,128 // movdqa %xmm1,-0x80(%rsp)
.byte 102,69,15,56,48,221 // pmovzxbw %xmm13,%xmm11
.byte 102,68,15,127,92,36,48 // movdqa %xmm11,0x30(%rsp)
- .byte 102,15,111,13,254,73,0,0 // movdqa 0x49fe(%rip),%xmm1 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,13,118,74,0,0 // movdqa 0x4a76(%rip),%xmm1 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,56,0,241 // pshufb %xmm1,%xmm14
.byte 102,68,15,56,0,233 // pshufb %xmm1,%xmm13
.byte 102,69,15,56,48,205 // pmovzxbw %xmm13,%xmm9
@@ -49222,7 +49135,7 @@ _sk_hardlight_sse41_8bit:
.byte 102,65,15,56,58,242 // pminuw %xmm10,%xmm6
.byte 102,15,117,240 // pcmpeqw %xmm0,%xmm6
.byte 102,15,127,116,36,64 // movdqa %xmm6,0x40(%rsp)
- .byte 102,15,111,53,226,65,0,0 // movdqa 0x41e2(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,111,53,42,66,0,0 // movdqa 0x422a(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,111,199 // movdqa %xmm7,%xmm0
.byte 102,15,239,198 // pxor %xmm6,%xmm0
.byte 102,65,15,213,192 // pmullw %xmm8,%xmm0
@@ -49329,7 +49242,7 @@ _sk_hardlight_sse41_8bit:
.byte 102,15,253,116,36,32 // paddw 0x20(%rsp),%xmm6
.byte 102,15,253,124,36,144 // paddw -0x70(%rsp),%xmm7
.byte 102,15,253,108,36,128 // paddw -0x80(%rsp),%xmm5
- .byte 102,15,111,5,114,71,0,0 // movdqa 0x4772(%rip),%xmm0 # 2ca80 <_sk_overlay_sse2_8bit+0x159b>
+ .byte 102,15,111,5,234,71,0,0 // movdqa 0x47ea(%rip),%xmm0 # 2cab0 <_sk_overlay_sse2_8bit+0x1613>
.byte 102,68,15,253,216 // paddw %xmm0,%xmm11
.byte 102,68,15,253,219 // paddw %xmm3,%xmm11
.byte 102,15,253,240 // paddw %xmm0,%xmm6
@@ -49338,7 +49251,7 @@ _sk_hardlight_sse41_8bit:
.byte 102,15,253,252 // paddw %xmm4,%xmm7
.byte 102,15,253,232 // paddw %xmm0,%xmm5
.byte 102,15,253,234 // paddw %xmm2,%xmm5
- .byte 102,15,111,5,88,71,0,0 // movdqa 0x4758(%rip),%xmm0 # 2ca90 <_sk_overlay_sse2_8bit+0x15ab>
+ .byte 102,15,111,5,208,71,0,0 // movdqa 0x47d0(%rip),%xmm0 # 2cac0 <_sk_overlay_sse2_8bit+0x1623>
.byte 102,15,228,240 // pmulhuw %xmm0,%xmm6
.byte 102,68,15,228,216 // pmulhuw %xmm0,%xmm11
.byte 102,15,228,232 // pmulhuw %xmm0,%xmm5
@@ -49373,7 +49286,7 @@ _sk_overlay_sse41_8bit:
.byte 102,15,127,76,36,128 // movdqa %xmm1,-0x80(%rsp)
.byte 102,65,15,56,48,206 // pmovzxbw %xmm14,%xmm1
.byte 102,15,127,140,36,144,0,0,0 // movdqa %xmm1,0x90(%rsp)
- .byte 102,15,111,13,33,70,0,0 // movdqa 0x4621(%rip),%xmm1 # 2c9f0 <_sk_overlay_sse2_8bit+0x150b>
+ .byte 102,15,111,13,153,70,0,0 // movdqa 0x4699(%rip),%xmm1 # 2ca20 <_sk_overlay_sse2_8bit+0x1583>
.byte 102,68,15,56,0,249 // pshufb %xmm1,%xmm15
.byte 102,68,15,56,0,241 // pshufb %xmm1,%xmm14
.byte 102,65,15,56,48,238 // pmovzxbw %xmm14,%xmm5
@@ -49425,7 +49338,7 @@ _sk_overlay_sse41_8bit:
.byte 102,65,15,56,58,221 // pminuw %xmm13,%xmm3
.byte 102,15,117,216 // pcmpeqw %xmm0,%xmm3
.byte 102,15,127,92,36,48 // movdqa %xmm3,0x30(%rsp)
- .byte 102,15,111,53,243,61,0,0 // movdqa 0x3df3(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,111,53,59,62,0,0 // movdqa 0x3e3b(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,65,15,111,193 // movdqa %xmm9,%xmm0
.byte 102,15,239,198 // pxor %xmm6,%xmm0
.byte 102,15,213,196 // pmullw %xmm4,%xmm0
@@ -49534,7 +49447,7 @@ _sk_overlay_sse41_8bit:
.byte 102,15,253,116,36,32 // paddw 0x20(%rsp),%xmm6
.byte 102,68,15,253,4,36 // paddw (%rsp),%xmm8
.byte 102,15,253,108,36,128 // paddw -0x80(%rsp),%xmm5
- .byte 102,15,111,5,127,67,0,0 // movdqa 0x437f(%rip),%xmm0 # 2ca80 <_sk_overlay_sse2_8bit+0x159b>
+ .byte 102,15,111,5,247,67,0,0 // movdqa 0x43f7(%rip),%xmm0 # 2cab0 <_sk_overlay_sse2_8bit+0x1613>
.byte 102,68,15,253,216 // paddw %xmm0,%xmm11
.byte 102,69,15,253,217 // paddw %xmm9,%xmm11
.byte 102,15,253,240 // paddw %xmm0,%xmm6
@@ -49543,7 +49456,7 @@ _sk_overlay_sse41_8bit:
.byte 102,68,15,253,195 // paddw %xmm3,%xmm8
.byte 102,15,253,232 // paddw %xmm0,%xmm5
.byte 102,15,253,234 // paddw %xmm2,%xmm5
- .byte 102,15,111,5,99,67,0,0 // movdqa 0x4363(%rip),%xmm0 # 2ca90 <_sk_overlay_sse2_8bit+0x15ab>
+ .byte 102,15,111,5,219,67,0,0 // movdqa 0x43db(%rip),%xmm0 # 2cac0 <_sk_overlay_sse2_8bit+0x1623>
.byte 102,15,228,240 // pmulhuw %xmm0,%xmm6
.byte 102,68,15,228,216 // pmulhuw %xmm0,%xmm11
.byte 102,15,228,232 // pmulhuw %xmm0,%xmm5
@@ -49585,7 +49498,7 @@ _sk_start_pipeline_sse2_8bit:
.byte 73,137,246 // mov %rsi,%r14
.byte 72,137,77,168 // mov %rcx,-0x58(%rbp)
.byte 73,57,207 // cmp %rcx,%r15
- .byte 115,102 // jae 28819 <_sk_start_pipeline_sse2_8bit+0x95>
+ .byte 115,102 // jae 287d1 <_sk_start_pipeline_sse2_8bit+0x95>
.byte 72,139,69,208 // mov -0x30(%rbp),%rax
.byte 72,141,64,8 // lea 0x8(%rax),%rax
.byte 72,137,69,176 // mov %rax,-0x50(%rbp)
@@ -49595,7 +49508,7 @@ _sk_start_pipeline_sse2_8bit:
.byte 72,137,69,184 // mov %rax,-0x48(%rbp)
.byte 76,137,125,192 // mov %r15,-0x40(%rbp)
.byte 72,199,69,200,0,0,0,0 // movq $0x0,-0x38(%rbp)
- .byte 119,30 // ja 287fb <_sk_start_pipeline_sse2_8bit+0x77>
+ .byte 119,30 // ja 287b3 <_sk_start_pipeline_sse2_8bit+0x77>
.byte 76,137,231 // mov %r12,%rdi
.byte 76,137,246 // mov %r14,%rsi
.byte 65,255,213 // callq *%r13
@@ -49604,17 +49517,17 @@ _sk_start_pipeline_sse2_8bit:
.byte 72,137,69,184 // mov %rax,-0x48(%rbp)
.byte 72,131,193,16 // add $0x10,%rcx
.byte 72,57,217 // cmp %rbx,%rcx
- .byte 118,226 // jbe 287dd <_sk_start_pipeline_sse2_8bit+0x59>
+ .byte 118,226 // jbe 28795 <_sk_start_pipeline_sse2_8bit+0x59>
.byte 72,137,217 // mov %rbx,%rcx
.byte 72,41,193 // sub %rax,%rcx
- .byte 116,13 // je 28810 <_sk_start_pipeline_sse2_8bit+0x8c>
+ .byte 116,13 // je 287c8 <_sk_start_pipeline_sse2_8bit+0x8c>
.byte 72,137,77,200 // mov %rcx,-0x38(%rbp)
.byte 76,137,231 // mov %r12,%rdi
.byte 76,137,246 // mov %r14,%rsi
.byte 65,255,213 // callq *%r13
.byte 73,255,199 // inc %r15
.byte 76,59,125,168 // cmp -0x58(%rbp),%r15
- .byte 117,170 // jne 287c3 <_sk_start_pipeline_sse2_8bit+0x3f>
+ .byte 117,170 // jne 2877b <_sk_start_pipeline_sse2_8bit+0x3f>
.byte 72,131,196,56 // add $0x38,%rsp
.byte 91 // pop %rbx
.byte 65,92 // pop %r12
@@ -49646,7 +49559,7 @@ HIDDEN _sk_set_rgb_sse2_8bit
FUNCTION(_sk_set_rgb_sse2_8bit)
_sk_set_rgb_sse2_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 243,15,16,37,13,49,0,0 // movss 0x310d(%rip),%xmm4 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 243,15,16,37,13,49,0,0 // movss 0x310d(%rip),%xmm4 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 243,15,16,40 // movss (%rax),%xmm5
.byte 243,15,89,236 // mulss %xmm4,%xmm5
.byte 243,72,15,44,205 // cvttss2si %xmm5,%rcx
@@ -49661,7 +49574,7 @@ _sk_set_rgb_sse2_8bit:
.byte 9,208 // or %edx,%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,112,228,0 // pshufd $0x0,%xmm4,%xmm4
- .byte 102,15,111,45,89,65,0,0 // movdqa 0x4159(%rip),%xmm5 # 2c9e0 <_sk_overlay_sse2_8bit+0x14fb>
+ .byte 102,15,111,45,209,65,0,0 // movdqa 0x41d1(%rip),%xmm5 # 2ca10 <_sk_overlay_sse2_8bit+0x1573>
.byte 102,15,219,205 // pand %xmm5,%xmm1
.byte 102,15,219,197 // pand %xmm5,%xmm0
.byte 102,15,235,196 // por %xmm4,%xmm0
@@ -49686,7 +49599,7 @@ _sk_premul_sse2_8bit:
.byte 102,15,96,192 // punpcklbw %xmm0,%xmm0
.byte 242,15,112,192,95 // pshuflw $0x5f,%xmm0,%xmm0
.byte 243,15,112,248,95 // pshufhw $0x5f,%xmm0,%xmm7
- .byte 102,15,111,5,253,64,0,0 // movdqa 0x40fd(%rip),%xmm0 # 2c9e0 <_sk_overlay_sse2_8bit+0x14fb>
+ .byte 102,15,111,5,117,65,0,0 // movdqa 0x4175(%rip),%xmm0 # 2ca10 <_sk_overlay_sse2_8bit+0x1573>
.byte 102,15,235,248 // por %xmm0,%xmm7
.byte 102,15,235,240 // por %xmm0,%xmm6
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
@@ -49767,7 +49680,7 @@ _sk_load_8888_sse2_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,16 // jne 28a03 <_sk_load_8888_sse2_8bit+0x31>
+ .byte 117,16 // jne 289bb <_sk_load_8888_sse2_8bit+0x31>
.byte 66,15,16,76,130,16 // movups 0x10(%rdx,%r8,4),%xmm1
.byte 102,66,15,16,4,130 // movupd (%rdx,%r8,4),%xmm0
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -49777,18 +49690,18 @@ _sk_load_8888_sse2_8bit:
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,231 // ja 289ff <_sk_load_8888_sse2_8bit+0x2d>
+ .byte 119,231 // ja 289b7 <_sk_load_8888_sse2_8bit+0x2d>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,81,0,0,0 // lea 0x51(%rip),%rcx # 28a74 <_sk_load_8888_sse2_8bit+0xa2>
+ .byte 72,141,13,81,0,0,0 // lea 0x51(%rip),%rcx # 28a2c <_sk_load_8888_sse2_8bit+0xa2>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 243,66,15,16,4,130 // movss (%rdx,%r8,4),%xmm0
- .byte 235,203 // jmp 289ff <_sk_load_8888_sse2_8bit+0x2d>
+ .byte 235,203 // jmp 289b7 <_sk_load_8888_sse2_8bit+0x2d>
.byte 102,66,15,110,68,130,8 // movd 0x8(%rdx,%r8,4),%xmm0
.byte 102,15,112,192,69 // pshufd $0x45,%xmm0,%xmm0
.byte 102,66,15,18,4,130 // movlpd (%rdx,%r8,4),%xmm0
- .byte 235,183 // jmp 289ff <_sk_load_8888_sse2_8bit+0x2d>
+ .byte 235,183 // jmp 289b7 <_sk_load_8888_sse2_8bit+0x2d>
.byte 102,66,15,110,68,130,24 // movd 0x18(%rdx,%r8,4),%xmm0
.byte 102,15,112,200,69 // pshufd $0x45,%xmm0,%xmm1
.byte 243,66,15,16,68,130,20 // movss 0x14(%rdx,%r8,4),%xmm0
@@ -49797,7 +49710,7 @@ _sk_load_8888_sse2_8bit:
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 243,66,15,16,68,130,16 // movss 0x10(%rdx,%r8,4),%xmm0
.byte 243,15,16,200 // movss %xmm0,%xmm1
- .byte 235,134 // jmp 289f9 <_sk_load_8888_sse2_8bit+0x27>
+ .byte 235,134 // jmp 289b1 <_sk_load_8888_sse2_8bit+0x27>
.byte 144 // nop
.byte 184,255,255,255,204 // mov $0xccffffff,%eax
.byte 255 // (bad)
@@ -49829,7 +49742,7 @@ _sk_load_8888_dst_sse2_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,16 // jne 28ac1 <_sk_load_8888_dst_sse2_8bit+0x31>
+ .byte 117,16 // jne 28a79 <_sk_load_8888_dst_sse2_8bit+0x31>
.byte 66,15,16,92,130,16 // movups 0x10(%rdx,%r8,4),%xmm3
.byte 102,66,15,16,20,130 // movupd (%rdx,%r8,4),%xmm2
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -49839,18 +49752,18 @@ _sk_load_8888_dst_sse2_8bit:
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,231 // ja 28abd <_sk_load_8888_dst_sse2_8bit+0x2d>
+ .byte 119,231 // ja 28a75 <_sk_load_8888_dst_sse2_8bit+0x2d>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,83,0,0,0 // lea 0x53(%rip),%rcx # 28b34 <_sk_load_8888_dst_sse2_8bit+0xa4>
+ .byte 72,141,13,83,0,0,0 // lea 0x53(%rip),%rcx # 28aec <_sk_load_8888_dst_sse2_8bit+0xa4>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 243,66,15,16,20,130 // movss (%rdx,%r8,4),%xmm2
- .byte 235,203 // jmp 28abd <_sk_load_8888_dst_sse2_8bit+0x2d>
+ .byte 235,203 // jmp 28a75 <_sk_load_8888_dst_sse2_8bit+0x2d>
.byte 102,66,15,110,84,130,8 // movd 0x8(%rdx,%r8,4),%xmm2
.byte 102,15,112,210,69 // pshufd $0x45,%xmm2,%xmm2
.byte 102,66,15,18,20,130 // movlpd (%rdx,%r8,4),%xmm2
- .byte 235,183 // jmp 28abd <_sk_load_8888_dst_sse2_8bit+0x2d>
+ .byte 235,183 // jmp 28a75 <_sk_load_8888_dst_sse2_8bit+0x2d>
.byte 102,66,15,110,84,130,24 // movd 0x18(%rdx,%r8,4),%xmm2
.byte 102,15,112,218,69 // pshufd $0x45,%xmm2,%xmm3
.byte 243,66,15,16,84,130,20 // movss 0x14(%rdx,%r8,4),%xmm2
@@ -49859,7 +49772,7 @@ _sk_load_8888_dst_sse2_8bit:
.byte 15,40,218 // movaps %xmm2,%xmm3
.byte 243,66,15,16,84,130,16 // movss 0x10(%rdx,%r8,4),%xmm2
.byte 243,15,16,218 // movss %xmm2,%xmm3
- .byte 235,134 // jmp 28ab7 <_sk_load_8888_dst_sse2_8bit+0x27>
+ .byte 235,134 // jmp 28a6f <_sk_load_8888_dst_sse2_8bit+0x27>
.byte 15,31,0 // nopl (%rax)
.byte 182,255 // mov $0xff,%dh
.byte 255 // (bad)
@@ -49894,7 +49807,7 @@ _sk_store_8888_sse2_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,192 // test %r8,%r8
- .byte 117,17 // jne 28b82 <_sk_store_8888_sse2_8bit+0x32>
+ .byte 117,17 // jne 28b3a <_sk_store_8888_sse2_8bit+0x32>
.byte 243,66,15,127,4,138 // movdqu %xmm0,(%rdx,%r9,4)
.byte 243,66,15,127,76,138,16 // movdqu %xmm1,0x10(%rdx,%r9,4)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -49902,25 +49815,25 @@ _sk_store_8888_sse2_8bit:
.byte 65,128,224,7 // and $0x7,%r8b
.byte 65,254,200 // dec %r8b
.byte 65,128,248,6 // cmp $0x6,%r8b
- .byte 119,239 // ja 28b7e <_sk_store_8888_sse2_8bit+0x2e>
+ .byte 119,239 // ja 28b36 <_sk_store_8888_sse2_8bit+0x2e>
.byte 65,15,182,192 // movzbl %r8b,%eax
- .byte 72,141,13,78,0,0,0 // lea 0x4e(%rip),%rcx # 28be8 <_sk_store_8888_sse2_8bit+0x98>
+ .byte 72,141,13,78,0,0,0 // lea 0x4e(%rip),%rcx # 28ba0 <_sk_store_8888_sse2_8bit+0x98>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,66,15,126,4,138 // movd %xmm0,(%rdx,%r9,4)
- .byte 235,211 // jmp 28b7e <_sk_store_8888_sse2_8bit+0x2e>
+ .byte 235,211 // jmp 28b36 <_sk_store_8888_sse2_8bit+0x2e>
.byte 102,15,112,224,78 // pshufd $0x4e,%xmm0,%xmm4
.byte 102,66,15,126,100,138,8 // movd %xmm4,0x8(%rdx,%r9,4)
.byte 102,66,15,214,4,138 // movq %xmm0,(%rdx,%r9,4)
- .byte 235,191 // jmp 28b7e <_sk_store_8888_sse2_8bit+0x2e>
+ .byte 235,191 // jmp 28b36 <_sk_store_8888_sse2_8bit+0x2e>
.byte 102,15,112,225,78 // pshufd $0x4e,%xmm1,%xmm4
.byte 102,66,15,126,100,138,24 // movd %xmm4,0x18(%rdx,%r9,4)
.byte 102,15,112,225,229 // pshufd $0xe5,%xmm1,%xmm4
.byte 102,66,15,126,100,138,20 // movd %xmm4,0x14(%rdx,%r9,4)
.byte 102,66,15,126,76,138,16 // movd %xmm1,0x10(%rdx,%r9,4)
.byte 243,66,15,127,4,138 // movdqu %xmm0,(%rdx,%r9,4)
- .byte 235,152 // jmp 28b7e <_sk_store_8888_sse2_8bit+0x2e>
+ .byte 235,152 // jmp 28b36 <_sk_store_8888_sse2_8bit+0x2e>
.byte 102,144 // xchg %ax,%ax
.byte 187,255,255,255,207 // mov $0xcfffffff,%ebx
.byte 255 // (bad)
@@ -49956,7 +49869,7 @@ _sk_load_bgra_sse2_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,92 // jne 28c81 <_sk_load_bgra_sse2_8bit+0x7d>
+ .byte 117,92 // jne 28c39 <_sk_load_bgra_sse2_8bit+0x7d>
.byte 66,15,16,76,130,16 // movups 0x10(%rdx,%r8,4),%xmm1
.byte 102,66,15,16,4,130 // movupd (%rdx,%r8,4),%xmm0
.byte 102,15,239,228 // pxor %xmm4,%xmm4
@@ -49983,18 +49896,18 @@ _sk_load_bgra_sse2_8bit:
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,155 // ja 28c31 <_sk_load_bgra_sse2_8bit+0x2d>
+ .byte 119,155 // ja 28be9 <_sk_load_bgra_sse2_8bit+0x2d>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,91,0,0,0 // lea 0x5b(%rip),%rcx # 28cfc <_sk_load_bgra_sse2_8bit+0xf8>
+ .byte 72,141,13,91,0,0,0 // lea 0x5b(%rip),%rcx # 28cb4 <_sk_load_bgra_sse2_8bit+0xf8>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 243,66,15,16,4,130 // movss (%rdx,%r8,4),%xmm0
- .byte 233,124,255,255,255 // jmpq 28c31 <_sk_load_bgra_sse2_8bit+0x2d>
+ .byte 233,124,255,255,255 // jmpq 28be9 <_sk_load_bgra_sse2_8bit+0x2d>
.byte 102,66,15,110,68,130,8 // movd 0x8(%rdx,%r8,4),%xmm0
.byte 102,15,112,192,69 // pshufd $0x45,%xmm0,%xmm0
.byte 102,66,15,18,4,130 // movlpd (%rdx,%r8,4),%xmm0
- .byte 233,101,255,255,255 // jmpq 28c31 <_sk_load_bgra_sse2_8bit+0x2d>
+ .byte 233,101,255,255,255 // jmpq 28be9 <_sk_load_bgra_sse2_8bit+0x2d>
.byte 102,66,15,110,68,130,24 // movd 0x18(%rdx,%r8,4),%xmm0
.byte 102,15,112,200,69 // pshufd $0x45,%xmm0,%xmm1
.byte 243,66,15,16,68,130,20 // movss 0x14(%rdx,%r8,4),%xmm0
@@ -50003,7 +49916,7 @@ _sk_load_bgra_sse2_8bit:
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 243,66,15,16,68,130,16 // movss 0x10(%rdx,%r8,4),%xmm0
.byte 243,15,16,200 // movss %xmm0,%xmm1
- .byte 233,49,255,255,255 // jmpq 28c2b <_sk_load_bgra_sse2_8bit+0x27>
+ .byte 233,49,255,255,255 // jmpq 28be3 <_sk_load_bgra_sse2_8bit+0x27>
.byte 102,144 // xchg %ax,%ax
.byte 174 // scas %es:(%rdi),%al
.byte 255 // (bad)
@@ -50040,7 +49953,7 @@ _sk_load_bgra_dst_sse2_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,92 // jne 28d95 <_sk_load_bgra_dst_sse2_8bit+0x7d>
+ .byte 117,92 // jne 28d4d <_sk_load_bgra_dst_sse2_8bit+0x7d>
.byte 66,15,16,92,130,16 // movups 0x10(%rdx,%r8,4),%xmm3
.byte 102,66,15,16,20,130 // movupd (%rdx,%r8,4),%xmm2
.byte 102,15,239,228 // pxor %xmm4,%xmm4
@@ -50067,18 +49980,18 @@ _sk_load_bgra_dst_sse2_8bit:
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,155 // ja 28d45 <_sk_load_bgra_dst_sse2_8bit+0x2d>
+ .byte 119,155 // ja 28cfd <_sk_load_bgra_dst_sse2_8bit+0x2d>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,91,0,0,0 // lea 0x5b(%rip),%rcx # 28e10 <_sk_load_bgra_dst_sse2_8bit+0xf8>
+ .byte 72,141,13,91,0,0,0 // lea 0x5b(%rip),%rcx # 28dc8 <_sk_load_bgra_dst_sse2_8bit+0xf8>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 243,66,15,16,20,130 // movss (%rdx,%r8,4),%xmm2
- .byte 233,124,255,255,255 // jmpq 28d45 <_sk_load_bgra_dst_sse2_8bit+0x2d>
+ .byte 233,124,255,255,255 // jmpq 28cfd <_sk_load_bgra_dst_sse2_8bit+0x2d>
.byte 102,66,15,110,84,130,8 // movd 0x8(%rdx,%r8,4),%xmm2
.byte 102,15,112,210,69 // pshufd $0x45,%xmm2,%xmm2
.byte 102,66,15,18,20,130 // movlpd (%rdx,%r8,4),%xmm2
- .byte 233,101,255,255,255 // jmpq 28d45 <_sk_load_bgra_dst_sse2_8bit+0x2d>
+ .byte 233,101,255,255,255 // jmpq 28cfd <_sk_load_bgra_dst_sse2_8bit+0x2d>
.byte 102,66,15,110,84,130,24 // movd 0x18(%rdx,%r8,4),%xmm2
.byte 102,15,112,218,69 // pshufd $0x45,%xmm2,%xmm3
.byte 243,66,15,16,84,130,20 // movss 0x14(%rdx,%r8,4),%xmm2
@@ -50087,7 +50000,7 @@ _sk_load_bgra_dst_sse2_8bit:
.byte 15,40,218 // movaps %xmm2,%xmm3
.byte 243,66,15,16,84,130,16 // movss 0x10(%rdx,%r8,4),%xmm2
.byte 243,15,16,218 // movss %xmm2,%xmm3
- .byte 233,49,255,255,255 // jmpq 28d3f <_sk_load_bgra_dst_sse2_8bit+0x27>
+ .byte 233,49,255,255,255 // jmpq 28cf7 <_sk_load_bgra_dst_sse2_8bit+0x27>
.byte 102,144 // xchg %ax,%ax
.byte 174 // scas %es:(%rdi),%al
.byte 255 // (bad)
@@ -50143,7 +50056,7 @@ _sk_store_bgra_sse2_8bit:
.byte 243,15,112,237,198 // pshufhw $0xc6,%xmm5,%xmm5
.byte 102,15,103,238 // packuswb %xmm6,%xmm5
.byte 77,133,192 // test %r8,%r8
- .byte 117,17 // jne 28eb2 <_sk_store_bgra_sse2_8bit+0x86>
+ .byte 117,17 // jne 28e6a <_sk_store_bgra_sse2_8bit+0x86>
.byte 243,66,15,127,44,138 // movdqu %xmm5,(%rdx,%r9,4)
.byte 243,66,15,127,100,138,16 // movdqu %xmm4,0x10(%rdx,%r9,4)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -50151,25 +50064,25 @@ _sk_store_bgra_sse2_8bit:
.byte 65,128,224,7 // and $0x7,%r8b
.byte 65,254,200 // dec %r8b
.byte 65,128,248,6 // cmp $0x6,%r8b
- .byte 119,239 // ja 28eae <_sk_store_bgra_sse2_8bit+0x82>
+ .byte 119,239 // ja 28e66 <_sk_store_bgra_sse2_8bit+0x82>
.byte 65,15,182,192 // movzbl %r8b,%eax
- .byte 72,141,13,78,0,0,0 // lea 0x4e(%rip),%rcx # 28f18 <_sk_store_bgra_sse2_8bit+0xec>
+ .byte 72,141,13,78,0,0,0 // lea 0x4e(%rip),%rcx # 28ed0 <_sk_store_bgra_sse2_8bit+0xec>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,66,15,126,44,138 // movd %xmm5,(%rdx,%r9,4)
- .byte 235,211 // jmp 28eae <_sk_store_bgra_sse2_8bit+0x82>
+ .byte 235,211 // jmp 28e66 <_sk_store_bgra_sse2_8bit+0x82>
.byte 102,15,112,229,78 // pshufd $0x4e,%xmm5,%xmm4
.byte 102,66,15,126,100,138,8 // movd %xmm4,0x8(%rdx,%r9,4)
.byte 102,66,15,214,44,138 // movq %xmm5,(%rdx,%r9,4)
- .byte 235,191 // jmp 28eae <_sk_store_bgra_sse2_8bit+0x82>
+ .byte 235,191 // jmp 28e66 <_sk_store_bgra_sse2_8bit+0x82>
.byte 102,15,112,244,78 // pshufd $0x4e,%xmm4,%xmm6
.byte 102,66,15,126,116,138,24 // movd %xmm6,0x18(%rdx,%r9,4)
.byte 102,15,112,244,229 // pshufd $0xe5,%xmm4,%xmm6
.byte 102,66,15,126,116,138,20 // movd %xmm6,0x14(%rdx,%r9,4)
.byte 102,66,15,126,100,138,16 // movd %xmm4,0x10(%rdx,%r9,4)
.byte 243,66,15,127,44,138 // movdqu %xmm5,(%rdx,%r9,4)
- .byte 235,152 // jmp 28eae <_sk_store_bgra_sse2_8bit+0x82>
+ .byte 235,152 // jmp 28e66 <_sk_store_bgra_sse2_8bit+0x82>
.byte 102,144 // xchg %ax,%ax
.byte 187,255,255,255,207 // mov $0xcfffffff,%ebx
.byte 255 // (bad)
@@ -50204,10 +50117,10 @@ _sk_load_a8_sse2_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,48 // jne 28f81 <_sk_load_a8_sse2_8bit+0x4d>
+ .byte 117,48 // jne 28f39 <_sk_load_a8_sse2_8bit+0x4d>
.byte 243,66,15,126,4,2 // movq (%rdx,%r8,1),%xmm0
.byte 102,15,96,192 // punpcklbw %xmm0,%xmm0
- .byte 102,15,219,5,109,51,0,0 // pand 0x336d(%rip),%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,5,181,51,0,0 // pand 0x33b5(%rip),%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
.byte 102,15,105,204 // punpckhwd %xmm4,%xmm1
@@ -50220,15 +50133,15 @@ _sk_load_a8_sse2_8bit:
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,201 // ja 28f5b <_sk_load_a8_sse2_8bit+0x27>
+ .byte 119,201 // ja 28f13 <_sk_load_a8_sse2_8bit+0x27>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,111,0,0,0 // lea 0x6f(%rip),%rcx # 2900c <_sk_load_a8_sse2_8bit+0xd8>
+ .byte 72,141,13,111,0,0,0 // lea 0x6f(%rip),%rcx # 28fc4 <_sk_load_a8_sse2_8bit+0xd8>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
- .byte 235,170 // jmp 28f5b <_sk_load_a8_sse2_8bit+0x27>
+ .byte 235,170 // jmp 28f13 <_sk_load_a8_sse2_8bit+0x27>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 102,15,196,192,2 // pinsrw $0x2,%eax,%xmm0
@@ -50236,7 +50149,7 @@ _sk_load_a8_sse2_8bit:
.byte 102,15,110,200 // movd %eax,%xmm1
.byte 102,15,96,200 // punpcklbw %xmm0,%xmm1
.byte 243,15,16,193 // movss %xmm1,%xmm0
- .byte 235,136 // jmp 28f5b <_sk_load_a8_sse2_8bit+0x27>
+ .byte 235,136 // jmp 28f13 <_sk_load_a8_sse2_8bit+0x27>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 102,15,196,192,6 // pinsrw $0x6,%eax,%xmm0
@@ -50247,7 +50160,7 @@ _sk_load_a8_sse2_8bit:
.byte 102,66,15,110,12,2 // movd (%rdx,%r8,1),%xmm1
.byte 102,15,96,200 // punpcklbw %xmm0,%xmm1
.byte 242,15,16,193 // movsd %xmm1,%xmm0
- .byte 233,80,255,255,255 // jmpq 28f5b <_sk_load_a8_sse2_8bit+0x27>
+ .byte 233,80,255,255,255 // jmpq 28f13 <_sk_load_a8_sse2_8bit+0x27>
.byte 144 // nop
.byte 154 // (bad)
.byte 255 // (bad)
@@ -50281,10 +50194,10 @@ _sk_load_a8_dst_sse2_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,48 // jne 29075 <_sk_load_a8_dst_sse2_8bit+0x4d>
+ .byte 117,48 // jne 2902d <_sk_load_a8_dst_sse2_8bit+0x4d>
.byte 243,66,15,126,20,2 // movq (%rdx,%r8,1),%xmm2
.byte 102,15,96,208 // punpcklbw %xmm0,%xmm2
- .byte 102,15,219,21,121,50,0,0 // pand 0x3279(%rip),%xmm2 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,21,193,50,0,0 // pand 0x32c1(%rip),%xmm2 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,111,218 // movdqa %xmm2,%xmm3
.byte 102,15,105,220 // punpckhwd %xmm4,%xmm3
@@ -50297,15 +50210,15 @@ _sk_load_a8_dst_sse2_8bit:
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,201 // ja 2904f <_sk_load_a8_dst_sse2_8bit+0x27>
+ .byte 119,201 // ja 29007 <_sk_load_a8_dst_sse2_8bit+0x27>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,111,0,0,0 // lea 0x6f(%rip),%rcx # 29100 <_sk_load_a8_dst_sse2_8bit+0xd8>
+ .byte 72,141,13,111,0,0,0 // lea 0x6f(%rip),%rcx # 290b8 <_sk_load_a8_dst_sse2_8bit+0xd8>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,208 // movd %eax,%xmm2
- .byte 235,170 // jmp 2904f <_sk_load_a8_dst_sse2_8bit+0x27>
+ .byte 235,170 // jmp 29007 <_sk_load_a8_dst_sse2_8bit+0x27>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 102,15,196,208,2 // pinsrw $0x2,%eax,%xmm2
@@ -50313,7 +50226,7 @@ _sk_load_a8_dst_sse2_8bit:
.byte 102,15,110,216 // movd %eax,%xmm3
.byte 102,15,96,216 // punpcklbw %xmm0,%xmm3
.byte 243,15,16,211 // movss %xmm3,%xmm2
- .byte 235,136 // jmp 2904f <_sk_load_a8_dst_sse2_8bit+0x27>
+ .byte 235,136 // jmp 29007 <_sk_load_a8_dst_sse2_8bit+0x27>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 102,15,196,208,6 // pinsrw $0x6,%eax,%xmm2
@@ -50324,7 +50237,7 @@ _sk_load_a8_dst_sse2_8bit:
.byte 102,66,15,110,28,2 // movd (%rdx,%r8,1),%xmm3
.byte 102,15,96,216 // punpcklbw %xmm0,%xmm3
.byte 242,15,16,211 // movsd %xmm3,%xmm2
- .byte 233,80,255,255,255 // jmpq 2904f <_sk_load_a8_dst_sse2_8bit+0x27>
+ .byte 233,80,255,255,255 // jmpq 29007 <_sk_load_a8_dst_sse2_8bit+0x27>
.byte 144 // nop
.byte 154 // (bad)
.byte 255 // (bad)
@@ -50367,8 +50280,8 @@ _sk_store_a8_sse2_8bit:
.byte 102,15,114,228,16 // psrad $0x10,%xmm4
.byte 102,15,107,229 // packssdw %xmm5,%xmm4
.byte 77,133,201 // test %r9,%r9
- .byte 117,22 // jne 29179 <_sk_store_a8_sse2_8bit+0x5d>
- .byte 102,15,219,37,101,49,0,0 // pand 0x3165(%rip),%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 117,22 // jne 29131 <_sk_store_a8_sse2_8bit+0x5d>
+ .byte 102,15,219,37,173,49,0,0 // pand 0x31ad(%rip),%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,103,228 // packuswb %xmm4,%xmm4
.byte 102,66,15,214,36,2 // movq %xmm4,(%rdx,%r8,1)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -50376,24 +50289,24 @@ _sk_store_a8_sse2_8bit:
.byte 65,128,225,7 // and $0x7,%r9b
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,239 // ja 29175 <_sk_store_a8_sse2_8bit+0x59>
+ .byte 119,239 // ja 2912d <_sk_store_a8_sse2_8bit+0x59>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,131,0,0,0 // lea 0x83(%rip),%rcx # 29214 <_sk_store_a8_sse2_8bit+0xf8>
+ .byte 72,141,13,131,0,0,0 // lea 0x83(%rip),%rcx # 291cc <_sk_store_a8_sse2_8bit+0xf8>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,15,127,100,36,232 // movdqa %xmm4,-0x18(%rsp)
.byte 138,68,36,232 // mov -0x18(%rsp),%al
.byte 66,136,4,2 // mov %al,(%rdx,%r8,1)
- .byte 235,203 // jmp 29175 <_sk_store_a8_sse2_8bit+0x59>
+ .byte 235,203 // jmp 2912d <_sk_store_a8_sse2_8bit+0x59>
.byte 102,15,127,100,36,216 // movdqa %xmm4,-0x28(%rsp)
.byte 138,68,36,220 // mov -0x24(%rsp),%al
.byte 66,136,68,2,2 // mov %al,0x2(%rdx,%r8,1)
- .byte 102,15,219,37,15,49,0,0 // pand 0x310f(%rip),%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,37,87,49,0,0 // pand 0x3157(%rip),%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,103,228 // packuswb %xmm4,%xmm4
.byte 102,15,126,224 // movd %xmm4,%eax
.byte 102,66,137,4,2 // mov %ax,(%rdx,%r8,1)
- .byte 235,165 // jmp 29175 <_sk_store_a8_sse2_8bit+0x59>
+ .byte 235,165 // jmp 2912d <_sk_store_a8_sse2_8bit+0x59>
.byte 102,15,127,100,36,200 // movdqa %xmm4,-0x38(%rsp)
.byte 138,68,36,212 // mov -0x2c(%rsp),%al
.byte 66,136,68,2,6 // mov %al,0x6(%rdx,%r8,1)
@@ -50403,17 +50316,17 @@ _sk_store_a8_sse2_8bit:
.byte 102,15,127,100,36,168 // movdqa %xmm4,-0x58(%rsp)
.byte 138,68,36,176 // mov -0x50(%rsp),%al
.byte 66,136,68,2,4 // mov %al,0x4(%rdx,%r8,1)
- .byte 102,15,219,37,203,48,0,0 // pand 0x30cb(%rip),%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,37,19,49,0,0 // pand 0x3113(%rip),%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,103,228 // packuswb %xmm4,%xmm4
.byte 102,66,15,126,36,2 // movd %xmm4,(%rdx,%r8,1)
- .byte 233,97,255,255,255 // jmpq 29175 <_sk_store_a8_sse2_8bit+0x59>
+ .byte 233,97,255,255,255 // jmpq 2912d <_sk_store_a8_sse2_8bit+0x59>
.byte 134,255 // xchg %bh,%bh
.byte 255 // (bad)
.byte 255,165,255,255,255,150 // jmpq *-0x69000001(%rbp)
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 233,255,255,255,218 // jmpq ffffffffdb029224 <_sk_overlay_sse2_8bit+0xffffffffdaffdd3f>
+ .byte 233,255,255,255,218 // jmpq ffffffffdb0291dc <_sk_overlay_sse2_8bit+0xffffffffdaffdd3f>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,203 // dec %ebx
@@ -50437,15 +50350,15 @@ _sk_load_g8_sse2_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,116 // jne 292c1 <_sk_load_g8_sse2_8bit+0x91>
+ .byte 117,116 // jne 29279 <_sk_load_g8_sse2_8bit+0x91>
.byte 243,66,15,126,4,2 // movq (%rdx,%r8,1),%xmm0
.byte 102,15,96,192 // punpcklbw %xmm0,%xmm0
- .byte 102,15,219,5,113,48,0,0 // pand 0x3071(%rip),%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,5,185,48,0,0 // pand 0x30b9(%rip),%xmm0 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,111,224 // movdqa %xmm0,%xmm4
.byte 102,15,97,225 // punpcklwd %xmm1,%xmm4
.byte 102,15,105,193 // punpckhwd %xmm1,%xmm0
- .byte 102,15,111,45,169,55,0,0 // movdqa 0x37a9(%rip),%xmm5 # 2ca20 <_sk_overlay_sse2_8bit+0x153b>
+ .byte 102,15,111,45,33,56,0,0 // movdqa 0x3821(%rip),%xmm5 # 2ca50 <_sk_overlay_sse2_8bit+0x15b3>
.byte 102,15,112,240,245 // pshufd $0xf5,%xmm0,%xmm6
.byte 102,15,244,197 // pmuludq %xmm5,%xmm0
.byte 102,15,112,200,232 // pshufd $0xe8,%xmm0,%xmm1
@@ -50458,7 +50371,7 @@ _sk_load_g8_sse2_8bit:
.byte 102,15,244,245 // pmuludq %xmm5,%xmm6
.byte 102,15,112,230,232 // pshufd $0xe8,%xmm6,%xmm4
.byte 102,15,98,196 // punpckldq %xmm4,%xmm0
- .byte 102,15,111,37,43,55,0,0 // movdqa 0x372b(%rip),%xmm4 # 2c9e0 <_sk_overlay_sse2_8bit+0x14fb>
+ .byte 102,15,111,37,163,55,0,0 // movdqa 0x37a3(%rip),%xmm4 # 2ca10 <_sk_overlay_sse2_8bit+0x1573>
.byte 102,15,235,196 // por %xmm4,%xmm0
.byte 102,15,235,204 // por %xmm4,%xmm1
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -50467,15 +50380,15 @@ _sk_load_g8_sse2_8bit:
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,133 // ja 29257 <_sk_load_g8_sse2_8bit+0x27>
+ .byte 119,133 // ja 2920f <_sk_load_g8_sse2_8bit+0x27>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,119,0,0,0 // lea 0x77(%rip),%rcx # 29354 <_sk_load_g8_sse2_8bit+0x124>
+ .byte 72,141,13,119,0,0,0 // lea 0x77(%rip),%rcx # 2930c <_sk_load_g8_sse2_8bit+0x124>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,192 // movd %eax,%xmm0
- .byte 233,99,255,255,255 // jmpq 29257 <_sk_load_g8_sse2_8bit+0x27>
+ .byte 233,99,255,255,255 // jmpq 2920f <_sk_load_g8_sse2_8bit+0x27>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 102,15,196,192,2 // pinsrw $0x2,%eax,%xmm0
@@ -50483,7 +50396,7 @@ _sk_load_g8_sse2_8bit:
.byte 102,15,110,200 // movd %eax,%xmm1
.byte 102,15,96,200 // punpcklbw %xmm0,%xmm1
.byte 243,15,16,193 // movss %xmm1,%xmm0
- .byte 233,62,255,255,255 // jmpq 29257 <_sk_load_g8_sse2_8bit+0x27>
+ .byte 233,62,255,255,255 // jmpq 2920f <_sk_load_g8_sse2_8bit+0x27>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 102,15,196,192,6 // pinsrw $0x6,%eax,%xmm0
@@ -50494,7 +50407,7 @@ _sk_load_g8_sse2_8bit:
.byte 102,66,15,110,12,2 // movd (%rdx,%r8,1),%xmm1
.byte 102,15,96,200 // punpcklbw %xmm0,%xmm1
.byte 242,15,16,193 // movsd %xmm1,%xmm0
- .byte 233,6,255,255,255 // jmpq 29257 <_sk_load_g8_sse2_8bit+0x27>
+ .byte 233,6,255,255,255 // jmpq 2920f <_sk_load_g8_sse2_8bit+0x27>
.byte 15,31,0 // nopl (%rax)
.byte 146 // xchg %eax,%edx
.byte 255 // (bad)
@@ -50529,15 +50442,15 @@ _sk_load_g8_dst_sse2_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 117,116 // jne 29401 <_sk_load_g8_dst_sse2_8bit+0x91>
+ .byte 117,116 // jne 293b9 <_sk_load_g8_dst_sse2_8bit+0x91>
.byte 243,66,15,126,20,2 // movq (%rdx,%r8,1),%xmm2
.byte 102,15,96,208 // punpcklbw %xmm0,%xmm2
- .byte 102,15,219,21,49,47,0,0 // pand 0x2f31(%rip),%xmm2 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,21,121,47,0,0 // pand 0x2f79(%rip),%xmm2 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,111,226 // movdqa %xmm2,%xmm4
.byte 102,15,97,227 // punpcklwd %xmm3,%xmm4
.byte 102,15,105,211 // punpckhwd %xmm3,%xmm2
- .byte 102,15,111,45,105,54,0,0 // movdqa 0x3669(%rip),%xmm5 # 2ca20 <_sk_overlay_sse2_8bit+0x153b>
+ .byte 102,15,111,45,225,54,0,0 // movdqa 0x36e1(%rip),%xmm5 # 2ca50 <_sk_overlay_sse2_8bit+0x15b3>
.byte 102,15,112,242,245 // pshufd $0xf5,%xmm2,%xmm6
.byte 102,15,244,213 // pmuludq %xmm5,%xmm2
.byte 102,15,112,218,232 // pshufd $0xe8,%xmm2,%xmm3
@@ -50550,7 +50463,7 @@ _sk_load_g8_dst_sse2_8bit:
.byte 102,15,244,245 // pmuludq %xmm5,%xmm6
.byte 102,15,112,230,232 // pshufd $0xe8,%xmm6,%xmm4
.byte 102,15,98,212 // punpckldq %xmm4,%xmm2
- .byte 102,15,111,37,235,53,0,0 // movdqa 0x35eb(%rip),%xmm4 # 2c9e0 <_sk_overlay_sse2_8bit+0x14fb>
+ .byte 102,15,111,37,99,54,0,0 // movdqa 0x3663(%rip),%xmm4 # 2ca10 <_sk_overlay_sse2_8bit+0x1573>
.byte 102,15,235,212 // por %xmm4,%xmm2
.byte 102,15,235,220 // por %xmm4,%xmm3
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -50559,15 +50472,15 @@ _sk_load_g8_dst_sse2_8bit:
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 119,133 // ja 29397 <_sk_load_g8_dst_sse2_8bit+0x27>
+ .byte 119,133 // ja 2934f <_sk_load_g8_dst_sse2_8bit+0x27>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,119,0,0,0 // lea 0x77(%rip),%rcx # 29494 <_sk_load_g8_dst_sse2_8bit+0x124>
+ .byte 72,141,13,119,0,0,0 // lea 0x77(%rip),%rcx # 2944c <_sk_load_g8_dst_sse2_8bit+0x124>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,208 // movd %eax,%xmm2
- .byte 233,99,255,255,255 // jmpq 29397 <_sk_load_g8_dst_sse2_8bit+0x27>
+ .byte 233,99,255,255,255 // jmpq 2934f <_sk_load_g8_dst_sse2_8bit+0x27>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 102,15,196,208,2 // pinsrw $0x2,%eax,%xmm2
@@ -50575,7 +50488,7 @@ _sk_load_g8_dst_sse2_8bit:
.byte 102,15,110,216 // movd %eax,%xmm3
.byte 102,15,96,216 // punpcklbw %xmm0,%xmm3
.byte 243,15,16,211 // movss %xmm3,%xmm2
- .byte 233,62,255,255,255 // jmpq 29397 <_sk_load_g8_dst_sse2_8bit+0x27>
+ .byte 233,62,255,255,255 // jmpq 2934f <_sk_load_g8_dst_sse2_8bit+0x27>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 102,15,196,208,6 // pinsrw $0x6,%eax,%xmm2
@@ -50586,7 +50499,7 @@ _sk_load_g8_dst_sse2_8bit:
.byte 102,66,15,110,28,2 // movd (%rdx,%r8,1),%xmm3
.byte 102,15,96,216 // punpcklbw %xmm0,%xmm3
.byte 242,15,16,211 // movsd %xmm3,%xmm2
- .byte 233,6,255,255,255 // jmpq 29397 <_sk_load_g8_dst_sse2_8bit+0x27>
+ .byte 233,6,255,255,255 // jmpq 2934f <_sk_load_g8_dst_sse2_8bit+0x27>
.byte 15,31,0 // nopl (%rax)
.byte 146 // xchg %eax,%edx
.byte 255 // (bad)
@@ -50622,7 +50535,7 @@ _sk_srcover_rgba_8888_sse2_8bit:
.byte 72,193,226,2 // shl $0x2,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,192 // test %r8,%r8
- .byte 15,133,253,0,0,0 // jne 295d2 <_sk_srcover_rgba_8888_sse2_8bit+0x122>
+ .byte 15,133,253,0,0,0 // jne 2958a <_sk_srcover_rgba_8888_sse2_8bit+0x122>
.byte 70,15,16,68,138,16 // movups 0x10(%rdx,%r9,4),%xmm8
.byte 102,70,15,16,12,138 // movupd (%rdx,%r9,4),%xmm9
.byte 77,133,192 // test %r8,%r8
@@ -50671,7 +50584,7 @@ _sk_srcover_rgba_8888_sse2_8bit:
.byte 102,68,15,248,207 // psubb %xmm7,%xmm9
.byte 102,68,15,252,200 // paddb %xmm0,%xmm9
.byte 102,68,15,252,193 // paddb %xmm1,%xmm8
- .byte 117,72 // jne 29609 <_sk_srcover_rgba_8888_sse2_8bit+0x159>
+ .byte 117,72 // jne 295c1 <_sk_srcover_rgba_8888_sse2_8bit+0x159>
.byte 243,70,15,127,12,138 // movdqu %xmm9,(%rdx,%r9,4)
.byte 243,70,15,127,68,138,16 // movdqu %xmm8,0x10(%rdx,%r9,4)
.byte 72,173 // lods %ds:(%rsi),%rax
@@ -50682,29 +50595,29 @@ _sk_srcover_rgba_8888_sse2_8bit:
.byte 102,69,15,239,201 // pxor %xmm9,%xmm9
.byte 254,200 // dec %al
.byte 60,6 // cmp $0x6,%al
- .byte 15,135,246,254,255,255 // ja 294e1 <_sk_srcover_rgba_8888_sse2_8bit+0x31>
+ .byte 15,135,246,254,255,255 // ja 29499 <_sk_srcover_rgba_8888_sse2_8bit+0x31>
.byte 15,182,192 // movzbl %al,%eax
- .byte 72,141,13,207,0,0,0 // lea 0xcf(%rip),%rcx # 296c4 <_sk_srcover_rgba_8888_sse2_8bit+0x214>
+ .byte 72,141,13,207,0,0,0 // lea 0xcf(%rip),%rcx # 2967c <_sk_srcover_rgba_8888_sse2_8bit+0x214>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 243,70,15,16,12,138 // movss (%rdx,%r9,4),%xmm9
- .byte 233,216,254,255,255 // jmpq 294e1 <_sk_srcover_rgba_8888_sse2_8bit+0x31>
+ .byte 233,216,254,255,255 // jmpq 29499 <_sk_srcover_rgba_8888_sse2_8bit+0x31>
.byte 65,128,224,7 // and $0x7,%r8b
.byte 65,254,200 // dec %r8b
.byte 65,128,248,6 // cmp $0x6,%r8b
- .byte 119,184 // ja 295ce <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
+ .byte 119,184 // ja 29586 <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
.byte 65,15,182,192 // movzbl %r8b,%eax
- .byte 72,141,13,191,0,0,0 // lea 0xbf(%rip),%rcx # 296e0 <_sk_srcover_rgba_8888_sse2_8bit+0x230>
+ .byte 72,141,13,191,0,0,0 // lea 0xbf(%rip),%rcx # 29698 <_sk_srcover_rgba_8888_sse2_8bit+0x230>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 102,70,15,126,12,138 // movd %xmm9,(%rdx,%r9,4)
- .byte 235,156 // jmp 295ce <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
+ .byte 235,156 // jmp 29586 <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
.byte 102,66,15,110,100,138,8 // movd 0x8(%rdx,%r9,4),%xmm4
.byte 102,68,15,112,204,69 // pshufd $0x45,%xmm4,%xmm9
.byte 102,70,15,18,12,138 // movlpd (%rdx,%r9,4),%xmm9
- .byte 233,151,254,255,255 // jmpq 294e1 <_sk_srcover_rgba_8888_sse2_8bit+0x31>
+ .byte 233,151,254,255,255 // jmpq 29499 <_sk_srcover_rgba_8888_sse2_8bit+0x31>
.byte 102,66,15,110,100,138,24 // movd 0x18(%rdx,%r9,4),%xmm4
.byte 102,68,15,112,196,69 // pshufd $0x45,%xmm4,%xmm8
.byte 243,66,15,16,100,138,20 // movss 0x14(%rdx,%r9,4),%xmm4
@@ -50713,23 +50626,23 @@ _sk_srcover_rgba_8888_sse2_8bit:
.byte 68,15,40,196 // movaps %xmm4,%xmm8
.byte 243,66,15,16,100,138,16 // movss 0x10(%rdx,%r9,4),%xmm4
.byte 243,68,15,16,196 // movss %xmm4,%xmm8
- .byte 233,94,254,255,255 // jmpq 294db <_sk_srcover_rgba_8888_sse2_8bit+0x2b>
+ .byte 233,94,254,255,255 // jmpq 29493 <_sk_srcover_rgba_8888_sse2_8bit+0x2b>
.byte 102,65,15,112,225,78 // pshufd $0x4e,%xmm9,%xmm4
.byte 102,66,15,126,100,138,8 // movd %xmm4,0x8(%rdx,%r9,4)
.byte 102,70,15,214,12,138 // movq %xmm9,(%rdx,%r9,4)
- .byte 233,57,255,255,255 // jmpq 295ce <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
+ .byte 233,57,255,255,255 // jmpq 29586 <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
.byte 102,65,15,112,224,78 // pshufd $0x4e,%xmm8,%xmm4
.byte 102,66,15,126,100,138,24 // movd %xmm4,0x18(%rdx,%r9,4)
.byte 102,65,15,112,224,229 // pshufd $0xe5,%xmm8,%xmm4
.byte 102,66,15,126,100,138,20 // movd %xmm4,0x14(%rdx,%r9,4)
.byte 102,70,15,126,68,138,16 // movd %xmm8,0x10(%rdx,%r9,4)
.byte 243,70,15,127,12,138 // movdqu %xmm9,(%rdx,%r9,4)
- .byte 233,13,255,255,255 // jmpq 295ce <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
+ .byte 233,13,255,255,255 // jmpq 29586 <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
.byte 15,31,0 // nopl (%rax)
.byte 58,255 // cmp %bh,%bh
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 123,255 // jnp 296c9 <_sk_srcover_rgba_8888_sse2_8bit+0x219>
+ .byte 123,255 // jnp 29681 <_sk_srcover_rgba_8888_sse2_8bit+0x219>
.byte 255 // (bad)
.byte 255,110,255 // ljmp *-0x1(%rsi)
.byte 255 // (bad)
@@ -50767,7 +50680,7 @@ _sk_scale_1_float_sse2_8bit:
.byte 102,68,15,111,200 // movdqa %xmm0,%xmm9
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 243,15,16,0 // movss (%rax),%xmm0
- .byte 243,15,89,5,64,34,0,0 // mulss 0x2240(%rip),%xmm0 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 243,15,89,5,64,34,0,0 // mulss 0x2240(%rip),%xmm0 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 243,15,44,192 // cvttss2si %xmm0,%eax
.byte 102,15,239,246 // pxor %xmm6,%xmm6
.byte 102,65,15,111,193 // movdqa %xmm9,%xmm0
@@ -50779,7 +50692,7 @@ _sk_scale_1_float_sse2_8bit:
.byte 102,15,96,246 // punpcklbw %xmm6,%xmm6
.byte 242,15,112,246,0 // pshuflw $0x0,%xmm6,%xmm6
.byte 102,15,112,246,80 // pshufd $0x50,%xmm6,%xmm6
- .byte 102,15,219,53,131,43,0,0 // pand 0x2b83(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,53,203,43,0,0 // pand 0x2bcb(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,111,254 // movdqa %xmm6,%xmm7
.byte 102,65,15,213,248 // pmullw %xmm8,%xmm7
.byte 102,15,111,230 // movdqa %xmm6,%xmm4
@@ -50812,10 +50725,10 @@ _sk_scale_u8_sse2_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 15,133,239,0,0,0 // jne 298ad <_sk_scale_u8_sse2_8bit+0x110>
+ .byte 15,133,239,0,0,0 // jne 29865 <_sk_scale_u8_sse2_8bit+0x110>
.byte 243,66,15,126,36,2 // movq (%rdx,%r8,1),%xmm4
.byte 102,15,96,224 // punpcklbw %xmm0,%xmm4
- .byte 102,15,219,37,0,43,0,0 // pand 0x2b00(%rip),%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,37,72,43,0,0 // pand 0x2b48(%rip),%xmm4 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
.byte 102,15,111,236 // movdqa %xmm4,%xmm5
.byte 102,65,15,105,232 // punpckhwd %xmm8,%xmm5
@@ -50868,15 +50781,15 @@ _sk_scale_u8_sse2_8bit:
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 15,135,6,255,255,255 // ja 297c8 <_sk_scale_u8_sse2_8bit+0x2b>
+ .byte 15,135,6,255,255,255 // ja 29780 <_sk_scale_u8_sse2_8bit+0x2b>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,119,0,0,0 // lea 0x77(%rip),%rcx # 29944 <_sk_scale_u8_sse2_8bit+0x1a7>
+ .byte 72,141,13,119,0,0,0 // lea 0x77(%rip),%rcx # 298fc <_sk_scale_u8_sse2_8bit+0x1a7>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,224 // movd %eax,%xmm4
- .byte 233,228,254,255,255 // jmpq 297c8 <_sk_scale_u8_sse2_8bit+0x2b>
+ .byte 233,228,254,255,255 // jmpq 29780 <_sk_scale_u8_sse2_8bit+0x2b>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,196,224,2 // pinsrw $0x2,%eax,%xmm4
@@ -50884,7 +50797,7 @@ _sk_scale_u8_sse2_8bit:
.byte 102,15,110,232 // movd %eax,%xmm5
.byte 102,15,96,232 // punpcklbw %xmm0,%xmm5
.byte 243,15,16,229 // movss %xmm5,%xmm4
- .byte 233,191,254,255,255 // jmpq 297c8 <_sk_scale_u8_sse2_8bit+0x2b>
+ .byte 233,191,254,255,255 // jmpq 29780 <_sk_scale_u8_sse2_8bit+0x2b>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 102,15,196,224,6 // pinsrw $0x6,%eax,%xmm4
@@ -50895,7 +50808,7 @@ _sk_scale_u8_sse2_8bit:
.byte 102,66,15,110,44,2 // movd (%rdx,%r8,1),%xmm5
.byte 102,15,96,232 // punpcklbw %xmm0,%xmm5
.byte 242,15,16,229 // movsd %xmm5,%xmm4
- .byte 233,135,254,255,255 // jmpq 297c8 <_sk_scale_u8_sse2_8bit+0x2b>
+ .byte 233,135,254,255,255 // jmpq 29780 <_sk_scale_u8_sse2_8bit+0x2b>
.byte 15,31,0 // nopl (%rax)
.byte 146 // xchg %eax,%edx
.byte 255 // (bad)
@@ -50924,7 +50837,7 @@ FUNCTION(_sk_lerp_1_float_sse2_8bit)
_sk_lerp_1_float_sse2_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
.byte 243,15,16,32 // movss (%rax),%xmm4
- .byte 243,15,89,37,230,31,0,0 // mulss 0x1fe6(%rip),%xmm4 # 2b954 <_sk_overlay_sse2_8bit+0x46f>
+ .byte 243,15,89,37,230,31,0,0 // mulss 0x1fe6(%rip),%xmm4 # 2b90c <_sk_overlay_sse2_8bit+0x46f>
.byte 243,15,44,196 // cvttss2si %xmm4,%eax
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,96,228 // punpcklbw %xmm4,%xmm4
@@ -50937,7 +50850,7 @@ _sk_lerp_1_float_sse2_8bit:
.byte 102,68,15,111,217 // movdqa %xmm1,%xmm11
.byte 102,69,15,96,217 // punpcklbw %xmm9,%xmm11
.byte 102,65,15,104,201 // punpckhbw %xmm9,%xmm1
- .byte 102,15,111,53,33,41,0,0 // movdqa 0x2921(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,111,53,105,41,0,0 // movdqa 0x2969(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,65,15,219,240 // pand %xmm8,%xmm6
.byte 102,15,111,230 // movdqa %xmm6,%xmm4
.byte 102,15,213,225 // pmullw %xmm1,%xmm4
@@ -51002,10 +50915,10 @@ _sk_lerp_u8_sse2_8bit:
.byte 72,15,175,209 // imul %rcx,%rdx
.byte 72,3,16 // add (%rax),%rdx
.byte 77,133,201 // test %r9,%r9
- .byte 15,133,141,1,0,0 // jne 29c44 <_sk_lerp_u8_sse2_8bit+0x1ae>
+ .byte 15,133,141,1,0,0 // jne 29bfc <_sk_lerp_u8_sse2_8bit+0x1ae>
.byte 243,66,15,126,44,2 // movq (%rdx,%r8,1),%xmm5
.byte 102,15,96,232 // punpcklbw %xmm0,%xmm5
- .byte 102,15,219,45,7,40,0,0 // pand 0x2807(%rip),%xmm5 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,219,45,79,40,0,0 // pand 0x284f(%rip),%xmm5 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,69,15,239,192 // pxor %xmm8,%xmm8
.byte 102,15,111,229 // movdqa %xmm5,%xmm4
.byte 102,65,15,105,224 // punpckhwd %xmm8,%xmm4
@@ -51091,15 +51004,15 @@ _sk_lerp_u8_sse2_8bit:
.byte 102,15,239,237 // pxor %xmm5,%xmm5
.byte 65,254,201 // dec %r9b
.byte 65,128,249,6 // cmp $0x6,%r9b
- .byte 15,135,104,254,255,255 // ja 29ac1 <_sk_lerp_u8_sse2_8bit+0x2b>
+ .byte 15,135,104,254,255,255 // ja 29a79 <_sk_lerp_u8_sse2_8bit+0x2b>
.byte 65,15,182,193 // movzbl %r9b,%eax
- .byte 72,141,13,116,0,0,0 // lea 0x74(%rip),%rcx # 29cd8 <_sk_lerp_u8_sse2_8bit+0x242>
+ .byte 72,141,13,116,0,0,0 // lea 0x74(%rip),%rcx # 29c90 <_sk_lerp_u8_sse2_8bit+0x242>
.byte 72,99,4,129 // movslq (%rcx,%rax,4),%rax
.byte 72,1,200 // add %rcx,%rax
.byte 255,224 // jmpq *%rax
.byte 66,15,182,4,2 // movzbl (%rdx,%r8,1),%eax
.byte 102,15,110,232 // movd %eax,%xmm5
- .byte 233,70,254,255,255 // jmpq 29ac1 <_sk_lerp_u8_sse2_8bit+0x2b>
+ .byte 233,70,254,255,255 // jmpq 29a79 <_sk_lerp_u8_sse2_8bit+0x2b>
.byte 66,15,182,68,2,2 // movzbl 0x2(%rdx,%r8,1),%eax
.byte 102,15,239,237 // pxor %xmm5,%xmm5
.byte 102,15,196,232,2 // pinsrw $0x2,%eax,%xmm5
@@ -51107,7 +51020,7 @@ _sk_lerp_u8_sse2_8bit:
.byte 102,15,110,224 // movd %eax,%xmm4
.byte 102,15,96,224 // punpcklbw %xmm0,%xmm4
.byte 243,15,16,236 // movss %xmm4,%xmm5
- .byte 233,33,254,255,255 // jmpq 29ac1 <_sk_lerp_u8_sse2_8bit+0x2b>
+ .byte 233,33,254,255,255 // jmpq 29a79 <_sk_lerp_u8_sse2_8bit+0x2b>
.byte 66,15,182,68,2,6 // movzbl 0x6(%rdx,%r8,1),%eax
.byte 102,15,239,237 // pxor %xmm5,%xmm5
.byte 102,15,196,232,6 // pinsrw $0x6,%eax,%xmm5
@@ -51118,7 +51031,7 @@ _sk_lerp_u8_sse2_8bit:
.byte 102,66,15,110,36,2 // movd (%rdx,%r8,1),%xmm4
.byte 102,15,96,224 // punpcklbw %xmm0,%xmm4
.byte 242,15,16,236 // movsd %xmm4,%xmm5
- .byte 233,233,253,255,255 // jmpq 29ac1 <_sk_lerp_u8_sse2_8bit+0x2b>
+ .byte 233,233,253,255,255 // jmpq 29a79 <_sk_lerp_u8_sse2_8bit+0x2b>
.byte 149 // xchg %eax,%ebp
.byte 255 // (bad)
.byte 255 // (bad)
@@ -51163,7 +51076,7 @@ HIDDEN _sk_black_color_sse2_8bit
FUNCTION(_sk_black_color_sse2_8bit)
_sk_black_color_sse2_8bit:
.byte 72,173 // lods %ds:(%rsi),%rax
- .byte 15,40,5,207,44,0,0 // movaps 0x2ccf(%rip),%xmm0 # 2c9e0 <_sk_overlay_sse2_8bit+0x14fb>
+ .byte 15,40,5,71,45,0,0 // movaps 0x2d47(%rip),%xmm0 # 2ca10 <_sk_overlay_sse2_8bit+0x1573>
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 255,224 // jmpq *%rax
@@ -52064,7 +51977,7 @@ _sk_darken_sse2_8bit:
.byte 102,65,15,248,234 // psubb %xmm10,%xmm5
.byte 102,15,248,207 // psubb %xmm7,%xmm1
.byte 102,15,248,196 // psubb %xmm4,%xmm0
- .byte 102,15,111,37,94,30,0,0 // movdqa 0x1e5e(%rip),%xmm4 # 2ca70 <_sk_overlay_sse2_8bit+0x158b>
+ .byte 102,15,111,37,214,30,0,0 // movdqa 0x1ed6(%rip),%xmm4 # 2caa0 <_sk_overlay_sse2_8bit+0x1603>
.byte 102,15,219,236 // pand %xmm4,%xmm5
.byte 102,15,111,252 // movdqa %xmm4,%xmm7
.byte 102,15,223,248 // pandn %xmm0,%xmm7
@@ -52172,7 +52085,7 @@ _sk_lighten_sse2_8bit:
.byte 102,65,15,248,234 // psubb %xmm10,%xmm5
.byte 102,15,248,207 // psubb %xmm7,%xmm1
.byte 102,15,248,196 // psubb %xmm4,%xmm0
- .byte 102,15,111,37,114,28,0,0 // movdqa 0x1c72(%rip),%xmm4 # 2ca70 <_sk_overlay_sse2_8bit+0x158b>
+ .byte 102,15,111,37,234,28,0,0 // movdqa 0x1cea(%rip),%xmm4 # 2caa0 <_sk_overlay_sse2_8bit+0x1603>
.byte 102,15,219,236 // pand %xmm4,%xmm5
.byte 102,15,111,252 // movdqa %xmm4,%xmm7
.byte 102,15,223,248 // pandn %xmm0,%xmm7
@@ -52222,7 +52135,7 @@ _sk_exclusion_sse2_8bit:
.byte 102,15,113,214,8 // psrlw $0x8,%xmm6
.byte 102,15,103,244 // packuswb %xmm4,%xmm6
.byte 102,15,103,239 // packuswb %xmm7,%xmm5
- .byte 102,15,111,37,165,27,0,0 // movdqa 0x1ba5(%rip),%xmm4 # 2ca70 <_sk_overlay_sse2_8bit+0x158b>
+ .byte 102,15,111,37,29,28,0,0 // movdqa 0x1c1d(%rip),%xmm4 # 2caa0 <_sk_overlay_sse2_8bit+0x1603>
.byte 102,15,248,205 // psubb %xmm5,%xmm1
.byte 102,15,219,236 // pand %xmm4,%xmm5
.byte 102,15,219,230 // pand %xmm6,%xmm4
@@ -52321,7 +52234,7 @@ _sk_difference_sse2_8bit:
.byte 102,65,15,103,244 // packuswb %xmm12,%xmm6
.byte 102,65,15,218,226 // pminub %xmm10,%xmm4
.byte 102,65,15,218,243 // pminub %xmm11,%xmm6
- .byte 102,15,111,45,226,25,0,0 // movdqa 0x19e2(%rip),%xmm5 # 2ca70 <_sk_overlay_sse2_8bit+0x158b>
+ .byte 102,15,111,45,90,26,0,0 // movdqa 0x1a5a(%rip),%xmm5 # 2caa0 <_sk_overlay_sse2_8bit+0x1603>
.byte 102,15,248,206 // psubb %xmm6,%xmm1
.byte 102,15,219,245 // pand %xmm5,%xmm6
.byte 102,15,219,236 // pand %xmm4,%xmm5
@@ -52418,7 +52331,7 @@ _sk_hardlight_sse2_8bit:
.byte 102,68,15,111,220 // movdqa %xmm4,%xmm11
.byte 102,69,15,217,211 // psubusw %xmm11,%xmm10
.byte 102,68,15,117,213 // pcmpeqw %xmm5,%xmm10
- .byte 102,15,111,45,125,16,0,0 // movdqa 0x107d(%rip),%xmm5 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,111,45,197,16,0,0 // movdqa 0x10c5(%rip),%xmm5 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,111,198 // movdqa %xmm6,%xmm0
.byte 102,15,239,197 // pxor %xmm5,%xmm0
.byte 102,65,15,213,198 // pmullw %xmm14,%xmm0
@@ -52522,7 +52435,7 @@ _sk_hardlight_sse2_8bit:
.byte 102,68,15,253,124,36,32 // paddw 0x20(%rsp),%xmm15
.byte 102,68,15,253,76,36,144 // paddw -0x70(%rsp),%xmm9
.byte 102,15,253,108,36,128 // paddw -0x80(%rsp),%xmm5
- .byte 102,15,111,5,33,22,0,0 // movdqa 0x1621(%rip),%xmm0 # 2ca80 <_sk_overlay_sse2_8bit+0x159b>
+ .byte 102,15,111,5,153,22,0,0 // movdqa 0x1699(%rip),%xmm0 # 2cab0 <_sk_overlay_sse2_8bit+0x1613>
.byte 102,15,253,208 // paddw %xmm0,%xmm2
.byte 102,68,15,253,210 // paddw %xmm2,%xmm10
.byte 102,68,15,253,248 // paddw %xmm0,%xmm15
@@ -52531,7 +52444,7 @@ _sk_hardlight_sse2_8bit:
.byte 102,69,15,253,193 // paddw %xmm9,%xmm8
.byte 102,15,253,232 // paddw %xmm0,%xmm5
.byte 102,15,253,233 // paddw %xmm1,%xmm5
- .byte 102,15,111,5,4,22,0,0 // movdqa 0x1604(%rip),%xmm0 # 2ca90 <_sk_overlay_sse2_8bit+0x15ab>
+ .byte 102,15,111,5,124,22,0,0 // movdqa 0x167c(%rip),%xmm0 # 2cac0 <_sk_overlay_sse2_8bit+0x1623>
.byte 102,15,228,232 // pmulhuw %xmm0,%xmm5
.byte 102,68,15,228,192 // pmulhuw %xmm0,%xmm8
.byte 102,68,15,228,248 // pmulhuw %xmm0,%xmm15
@@ -52636,7 +52549,7 @@ _sk_overlay_sse2_8bit:
.byte 102,15,217,234 // psubusw %xmm2,%xmm5
.byte 102,15,117,236 // pcmpeqw %xmm4,%xmm5
.byte 102,15,127,108,36,32 // movdqa %xmm5,0x20(%rsp)
- .byte 102,15,111,53,77,12,0,0 // movdqa 0xc4d(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xdeb>
+ .byte 102,15,111,53,149,12,0,0 // movdqa 0xc95(%rip),%xmm6 # 2c2d0 <_sk_overlay_sse2_8bit+0xe33>
.byte 102,15,111,194 // movdqa %xmm2,%xmm0
.byte 102,15,239,198 // pxor %xmm6,%xmm0
.byte 102,65,15,213,199 // pmullw %xmm15,%xmm0
@@ -52744,7 +52657,7 @@ _sk_overlay_sse2_8bit:
.byte 102,68,15,253,92,36,240 // paddw -0x10(%rsp),%xmm11
.byte 102,15,253,108,36,128 // paddw -0x80(%rsp),%xmm5
.byte 102,15,253,116,36,144 // paddw -0x70(%rsp),%xmm6
- .byte 102,15,111,5,224,17,0,0 // movdqa 0x11e0(%rip),%xmm0 # 2ca80 <_sk_overlay_sse2_8bit+0x159b>
+ .byte 102,15,111,5,88,18,0,0 // movdqa 0x1258(%rip),%xmm0 # 2cab0 <_sk_overlay_sse2_8bit+0x1613>
.byte 102,68,15,253,224 // paddw %xmm0,%xmm12
.byte 102,68,15,253,227 // paddw %xmm3,%xmm12
.byte 102,68,15,253,216 // paddw %xmm0,%xmm11
@@ -52753,7 +52666,7 @@ _sk_overlay_sse2_8bit:
.byte 102,15,253,234 // paddw %xmm2,%xmm5
.byte 102,15,253,240 // paddw %xmm0,%xmm6
.byte 102,15,253,241 // paddw %xmm1,%xmm6
- .byte 102,15,111,5,196,17,0,0 // movdqa 0x11c4(%rip),%xmm0 # 2ca90 <_sk_overlay_sse2_8bit+0x15ab>
+ .byte 102,15,111,5,60,18,0,0 // movdqa 0x123c(%rip),%xmm0 # 2cac0 <_sk_overlay_sse2_8bit+0x1623>
.byte 102,15,228,240 // pmulhuw %xmm0,%xmm6
.byte 102,15,228,232 // pmulhuw %xmm0,%xmm5
.byte 102,68,15,228,216 // pmulhuw %xmm0,%xmm11
@@ -52787,14 +52700,14 @@ BALIGN4
.byte 252 // cld
.byte 190,0,0,128,191 // mov $0xbf800000,%esi
.byte 0,0 // add %al,(%rax)
- .byte 224,64 // loopne 2b988 <.literal4+0x64>
+ .byte 224,64 // loopne 2b940 <.literal4+0x64>
.byte 154 // (bad)
.byte 153 // cltd
.byte 153 // cltd
.byte 62,61,10,23,63,174 // ds cmp $0xae3f170a,%eax
- .byte 71,225,61 // rex.RXB loope 2b991 <.literal4+0x6d>
+ .byte 71,225,61 // rex.RXB loope 2b949 <.literal4+0x6d>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 2b99b <.literal4+0x77>
+ .byte 127,67 // jg 2b953 <.literal4+0x77>
.byte 145 // xchg %eax,%ecx
.byte 131,158,61,92,143,50,63 // sbbl $0x3f,0x328f5c3d(%rsi)
.byte 10,215 // or %bh,%dl
@@ -52827,7 +52740,7 @@ BALIGN4
.byte 0,0 // add %al,(%rax)
.byte 8,33 // or %ah,(%rcx)
.byte 132,55 // test %dh,(%rdi)
- .byte 224,7 // loopne 2b9b1 <.literal4+0x8d>
+ .byte 224,7 // loopne 2b969 <.literal4+0x8d>
.byte 0,0 // add %al,(%rax)
.byte 33,8 // and %ecx,(%rax)
.byte 2,58 // add (%rdx),%bh
@@ -52838,8 +52751,8 @@ BALIGN4
.byte 0,0 // add %al,(%rax)
.byte 0,52,255 // add %dh,(%rdi,%rdi,8)
.byte 255 // (bad)
- .byte 127,0 // jg 2b9c4 <.literal4+0xa0>
- .byte 119,115 // ja 2ba39 <.literal4+0x115>
+ .byte 127,0 // jg 2b97c <.literal4+0xa0>
+ .byte 119,115 // ja 2b9f1 <.literal4+0x115>
.byte 248 // clc
.byte 194,117,191 // retq $0xbf75
.byte 191,63,249,68,180 // mov $0xb444f93f,%edi
@@ -52862,12 +52775,12 @@ BALIGN4
.byte 190,80,128,3,62 // mov $0x3e038050,%esi
.byte 31 // (bad)
.byte 215 // xlat %ds:(%rbx)
- .byte 118,63 // jbe 2ba4f <.literal4+0x12b>
+ .byte 118,63 // jbe 2ba07 <.literal4+0x12b>
.byte 246,64,83,63 // testb $0x3f,0x53(%rax)
.byte 0,0 // add %al,(%rax)
.byte 248 // clc
.byte 65,0,0 // add %al,(%r8)
- .byte 124,66 // jl 2ba5e <.literal4+0x13a>
+ .byte 124,66 // jl 2ba16 <.literal4+0x13a>
.byte 0,240 // add %dh,%al
.byte 0,0 // add %al,(%rax)
.byte 137,136,136,55,0,15 // mov %ecx,0xf003788(%rax)
@@ -52877,9 +52790,9 @@ BALIGN4
.byte 137,136,136,59,15,0 // mov %ecx,0xf3b88(%rax)
.byte 0,0 // add %al,(%rax)
.byte 137,136,136,61,0,0 // mov %ecx,0x3d88(%rax)
- .byte 112,65 // jo 2ba81 <.literal4+0x15d>
+ .byte 112,65 // jo 2ba39 <.literal4+0x15d>
.byte 0,255 // add %bh,%bh
- .byte 127,71 // jg 2ba8b <.literal4+0x167>
+ .byte 127,71 // jg 2ba43 <.literal4+0x167>
.byte 208 // (bad)
.byte 179,89 // mov $0x59,%bl
.byte 62,89 // ds pop %rcx
@@ -52906,15 +52819,15 @@ BALIGN4
.byte 0,0 // add %al,(%rax)
.byte 128,0,0 // addb $0x0,(%rax)
.byte 0,191,0,0,192,191 // add %bh,-0x40400000(%rdi)
- .byte 114,28 // jb 2baaa <.literal4+0x186>
+ .byte 114,28 // jb 2ba62 <.literal4+0x186>
.byte 199 // (bad)
.byte 62,0,0 // add %al,%ds:(%rax)
.byte 192,63,85 // sarb $0x55,(%rdi)
.byte 85 // push %rbp
.byte 149 // xchg %eax,%ebp
.byte 191,57,142,99,61 // mov $0x3d638e39,%edi
- .byte 114,249 // jb 2ba97 <.literal4+0x173>
- .byte 127,63 // jg 2badf <_sk_overlay_sse2_8bit+0x5fa>
+ .byte 114,249 // jb 2ba4f <.literal4+0x173>
+ .byte 127,63 // jg 2ba97 <_sk_overlay_sse2_8bit+0x5fa>
.byte 3,0 // add (%rax),%eax
.byte 0,0 // add %al,(%rax)
.byte 0,128,0,0,0,4 // add %al,0x4000000(%rax)
@@ -52932,34 +52845,59 @@ BALIGN4
.byte 255,0 // incl (%rax)
BALIGN32
- .byte 255,0 // incl (%rax)
.byte 0,0 // add %al,(%rax)
- .byte 255,0 // incl (%rax)
.byte 0,0 // add %al,(%rax)
- .byte 255,0 // incl (%rax)
.byte 0,0 // add %al,(%rax)
- .byte 255,0 // incl (%rax)
+ .byte 128,63,0 // cmpb $0x0,(%rdi)
.byte 0,0 // add %al,(%rax)
- .byte 255,0 // incl (%rax)
+ .byte 64,0,0 // add %al,(%rax)
+ .byte 64 // rex
+ .byte 64,0,0 // add %al,(%rax)
+ .byte 128,64,0,0 // addb $0x0,0x0(%rax)
+ .byte 160,64,0,0,192,64,0,0,224 // movabs 0xe0000040c0000040,%al
+ .byte 64,0,0 // add %al,(%rax)
.byte 0,0 // add %al,(%rax)
- .byte 255,0 // incl (%rax)
+ .byte 1,0 // add %eax,(%rax)
.byte 0,0 // add %al,(%rax)
- .byte 255,0 // incl (%rax)
+ .byte 2,0 // add (%rax),%al
.byte 0,0 // add %al,(%rax)
- .byte 255,0 // incl (%rax)
+ .byte 3,0 // add (%rax),%eax
.byte 0,0 // add %al,(%rax)
- .byte 1,255 // add %edi,%edi
+ .byte 4,0 // add $0x0,%al
+ .byte 0,0 // add %al,(%rax)
+ .byte 5,0,0,0,6 // add $0x6000000,%eax
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,7 // add %al,(%rdi)
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,255 // add %bh,%bh
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,255 // add %bh,%bh
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,255 // add %bh,%bh
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,255 // add %bh,%bh
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,255 // add %bh,%bh
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,255 // add %bh,%bh
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,255 // add %bh,%bh
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,255 // add %bh,%bh
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,1 // add %al,(%rcx)
.byte 255 // (bad)
- .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bb08 <_sk_overlay_sse2_8bit+0xa000623>
.byte 255 // (bad)
+ .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bae8 <_sk_overlay_sse2_8bit+0xa00064b>
.byte 255 // (bad)
- .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bb10 <_sk_overlay_sse2_8bit+0x1200062b>
.byte 255 // (bad)
+ .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202baf0 <_sk_overlay_sse2_8bit+0x12000653>
.byte 255 // (bad)
- .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bb18 <_sk_overlay_sse2_8bit+0x1a000633>
.byte 255 // (bad)
+ .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02baf8 <_sk_overlay_sse2_8bit+0x1a00065b>
.byte 255 // (bad)
- .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bb20 <_sk_overlay_sse2_8bit+0x300063b>
+ .byte 255 // (bad)
+ .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bb00 <_sk_overlay_sse2_8bit+0x3000663>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,6 // incl (%rsi)
@@ -53002,16 +52940,16 @@ BALIGN32
.byte 0,0 // add %al,(%rax)
.byte 1,255 // add %edi,%edi
.byte 255 // (bad)
- .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bb68 <_sk_overlay_sse2_8bit+0xa000683>
+ .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bb48 <_sk_overlay_sse2_8bit+0xa0006ab>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bb70 <_sk_overlay_sse2_8bit+0x1200068b>
+ .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bb50 <_sk_overlay_sse2_8bit+0x120006b3>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bb78 <_sk_overlay_sse2_8bit+0x1a000693>
+ .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bb58 <_sk_overlay_sse2_8bit+0x1a0006bb>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bb80 <_sk_overlay_sse2_8bit+0x300069b>
+ .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bb60 <_sk_overlay_sse2_8bit+0x30006c3>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,6 // incl (%rsi)
@@ -53054,16 +52992,16 @@ BALIGN32
.byte 0,0 // add %al,(%rax)
.byte 1,255 // add %edi,%edi
.byte 255 // (bad)
- .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bbc8 <_sk_overlay_sse2_8bit+0xa0006e3>
+ .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bba8 <_sk_overlay_sse2_8bit+0xa00070b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bbd0 <_sk_overlay_sse2_8bit+0x120006eb>
+ .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bbb0 <_sk_overlay_sse2_8bit+0x12000713>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bbd8 <_sk_overlay_sse2_8bit+0x1a0006f3>
+ .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bbb8 <_sk_overlay_sse2_8bit+0x1a00071b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bbe0 <_sk_overlay_sse2_8bit+0x30006fb>
+ .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bbc0 <_sk_overlay_sse2_8bit+0x3000723>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,6 // incl (%rsi)
@@ -53106,16 +53044,16 @@ BALIGN32
.byte 0,0 // add %al,(%rax)
.byte 1,255 // add %edi,%edi
.byte 255 // (bad)
- .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bc28 <_sk_overlay_sse2_8bit+0xa000743>
+ .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bc08 <_sk_overlay_sse2_8bit+0xa00076b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bc30 <_sk_overlay_sse2_8bit+0x1200074b>
+ .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bc10 <_sk_overlay_sse2_8bit+0x12000773>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bc38 <_sk_overlay_sse2_8bit+0x1a000753>
+ .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bc18 <_sk_overlay_sse2_8bit+0x1a00077b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bc40 <_sk_overlay_sse2_8bit+0x300075b>
+ .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bc20 <_sk_overlay_sse2_8bit+0x3000783>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,6 // incl (%rsi)
@@ -53158,16 +53096,16 @@ BALIGN32
.byte 0,0 // add %al,(%rax)
.byte 1,255 // add %edi,%edi
.byte 255 // (bad)
- .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bc88 <_sk_overlay_sse2_8bit+0xa0007a3>
+ .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bc68 <_sk_overlay_sse2_8bit+0xa0007cb>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bc90 <_sk_overlay_sse2_8bit+0x120007ab>
+ .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bc70 <_sk_overlay_sse2_8bit+0x120007d3>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bc98 <_sk_overlay_sse2_8bit+0x1a0007b3>
+ .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bc78 <_sk_overlay_sse2_8bit+0x1a0007db>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bca0 <_sk_overlay_sse2_8bit+0x30007bb>
+ .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bc80 <_sk_overlay_sse2_8bit+0x30007e3>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,6 // incl (%rsi)
@@ -53210,16 +53148,16 @@ BALIGN32
.byte 0,0 // add %al,(%rax)
.byte 1,255 // add %edi,%edi
.byte 255 // (bad)
- .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bce8 <_sk_overlay_sse2_8bit+0xa000803>
+ .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bcc8 <_sk_overlay_sse2_8bit+0xa00082b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bcf0 <_sk_overlay_sse2_8bit+0x1200080b>
+ .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bcd0 <_sk_overlay_sse2_8bit+0x12000833>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bcf8 <_sk_overlay_sse2_8bit+0x1a000813>
+ .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bcd8 <_sk_overlay_sse2_8bit+0x1a00083b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bd00 <_sk_overlay_sse2_8bit+0x300081b>
+ .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bce0 <_sk_overlay_sse2_8bit+0x3000843>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,6 // incl (%rsi)
@@ -53262,16 +53200,16 @@ BALIGN32
.byte 0,0 // add %al,(%rax)
.byte 1,255 // add %edi,%edi
.byte 255 // (bad)
- .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bd48 <_sk_overlay_sse2_8bit+0xa000863>
+ .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bd28 <_sk_overlay_sse2_8bit+0xa00088b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bd50 <_sk_overlay_sse2_8bit+0x1200086b>
+ .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bd30 <_sk_overlay_sse2_8bit+0x12000893>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bd58 <_sk_overlay_sse2_8bit+0x1a000873>
+ .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bd38 <_sk_overlay_sse2_8bit+0x1a00089b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bd60 <_sk_overlay_sse2_8bit+0x300087b>
+ .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bd40 <_sk_overlay_sse2_8bit+0x30008a3>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,6 // incl (%rsi)
@@ -53314,16 +53252,16 @@ BALIGN32
.byte 0,0 // add %al,(%rax)
.byte 1,255 // add %edi,%edi
.byte 255 // (bad)
- .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bda8 <_sk_overlay_sse2_8bit+0xa0008c3>
+ .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02bd88 <_sk_overlay_sse2_8bit+0xa0008eb>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bdb0 <_sk_overlay_sse2_8bit+0x120008cb>
+ .byte 255,13,255,255,255,17 // decl 0x11ffffff(%rip) # 1202bd90 <_sk_overlay_sse2_8bit+0x120008f3>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bdb8 <_sk_overlay_sse2_8bit+0x1a0008d3>
+ .byte 255,21,255,255,255,25 // callq *0x19ffffff(%rip) # 1a02bd98 <_sk_overlay_sse2_8bit+0x1a0008fb>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bdc0 <_sk_overlay_sse2_8bit+0x30008db>
+ .byte 255,29,255,255,255,2 // lcall *0x2ffffff(%rip) # 302bda0 <_sk_overlay_sse2_8bit+0x3000903>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,6 // incl (%rsi)
@@ -53347,9 +53285,17 @@ BALIGN32
.byte 255,30 // lcall *(%rsi)
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255 // (bad)
.byte 255,0 // incl (%rax)
.byte 0,0 // add %al,(%rax)
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,128,63,0,0,0 // add %al,0x3f(%rax)
+ .byte 64,0,0 // add %al,(%rax)
+ .byte 64 // rex
+ .byte 64,0,0 // add %al,(%rax)
+ .byte 128,64,0,0 // addb $0x0,0x0(%rax)
+ .byte 160,64,0,0,192,64,0,0,224 // movabs 0xe0000040c0000040,%al
+ .byte 64,255,0 // rex incl (%rax)
+ .byte 0,0 // add %al,(%rax)
.byte 255,0 // incl (%rax)
.byte 0,0 // add %al,(%rax)
.byte 255,0 // incl (%rax)
@@ -54109,7 +54055,22 @@ BALIGN16
.byte 0,0 // add %al,(%rax)
.byte 0,0 // add %al,(%rax)
.byte 0,0 // add %al,(%rax)
- .byte 0,63 // add %bh,(%rdi)
+ .byte 0,0 // add %al,(%rax)
+ .byte 1,0 // add %eax,(%rax)
+ .byte 0,0 // add %al,(%rax)
+ .byte 2,0 // add (%rax),%al
+ .byte 0,0 // add %al,(%rax)
+ .byte 3,0 // add (%rax),%eax
+ .byte 0,0 // add %al,(%rax)
+ .byte 4,0 // add $0x0,%al
+ .byte 0,0 // add %al,(%rax)
+ .byte 5,0,0,0,6 // add $0x6000000,%eax
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,7 // add %al,(%rdi)
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,0 // add %al,(%rax)
+ .byte 63 // (bad)
.byte 0,0 // add %al,(%rax)
.byte 0,63 // add %bh,(%rdi)
.byte 0,0 // add %al,(%rax)
@@ -54117,6 +54078,13 @@ BALIGN16
.byte 0,0 // add %al,(%rax)
.byte 0,63 // add %bh,(%rdi)
.byte 0,0 // add %al,(%rax)
+ .byte 0,0 // add %al,(%rax)
+ .byte 0,0 // add %al,(%rax)
+ .byte 128,63,0 // cmpb $0x0,(%rdi)
+ .byte 0,0 // add %al,(%rax)
+ .byte 64,0,0 // add %al,(%rax)
+ .byte 64 // rex
+ .byte 64,0,0 // add %al,(%rax)
.byte 128,63,0 // cmpb $0x0,(%rdi)
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%rax)
.byte 63 // (bad)
@@ -54160,11 +54128,11 @@ BALIGN16
.byte 0,128,191,0,0,128 // add %al,-0x7fffff41(%rax)
.byte 191,0,0,224,64 // mov $0x40e00000,%edi
.byte 0,0 // add %al,(%rax)
- .byte 224,64 // loopne 2c3c8 <.literal16+0xf8>
+ .byte 224,64 // loopne 2c3f8 <.literal16+0x128>
.byte 0,0 // add %al,(%rax)
- .byte 224,64 // loopne 2c3cc <.literal16+0xfc>
+ .byte 224,64 // loopne 2c3fc <.literal16+0x12c>
.byte 0,0 // add %al,(%rax)
- .byte 224,64 // loopne 2c3d0 <.literal16+0x100>
+ .byte 224,64 // loopne 2c400 <.literal16+0x130>
.byte 154 // (bad)
.byte 153 // cltd
.byte 153 // cltd
@@ -54184,13 +54152,13 @@ BALIGN16
.byte 10,23 // or (%rdi),%dl
.byte 63 // (bad)
.byte 174 // scas %es:(%rdi),%al
- .byte 71,225,61 // rex.RXB loope 2c3f1 <.literal16+0x121>
+ .byte 71,225,61 // rex.RXB loope 2c421 <.literal16+0x151>
.byte 174 // scas %es:(%rdi),%al
- .byte 71,225,61 // rex.RXB loope 2c3f5 <.literal16+0x125>
+ .byte 71,225,61 // rex.RXB loope 2c425 <.literal16+0x155>
.byte 174 // scas %es:(%rdi),%al
- .byte 71,225,61 // rex.RXB loope 2c3f9 <.literal16+0x129>
+ .byte 71,225,61 // rex.RXB loope 2c429 <.literal16+0x159>
.byte 174 // scas %es:(%rdi),%al
- .byte 71,225,61 // rex.RXB loope 2c3fd <.literal16+0x12d>
+ .byte 71,225,61 // rex.RXB loope 2c42d <.literal16+0x15d>
.byte 255,0 // incl (%rax)
.byte 0,0 // add %al,(%rax)
.byte 255,0 // incl (%rax)
@@ -54201,10 +54169,10 @@ BALIGN16
.byte 0,0 // add %al,(%rax)
.byte 1,255 // add %edi,%edi
.byte 255 // (bad)
- .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02c3d8 <_sk_overlay_sse2_8bit+0xa000ef3>
+ .byte 255,5,255,255,255,9 // incl 0x9ffffff(%rip) # a02c408 <_sk_overlay_sse2_8bit+0xa000f6b>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 255,13,255,255,255,2 // decl 0x2ffffff(%rip) # 302c3e0 <_sk_overlay_sse2_8bit+0x3000efb>
+ .byte 255,13,255,255,255,2 // decl 0x2ffffff(%rip) # 302c410 <_sk_overlay_sse2_8bit+0x3000f73>
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,6 // incl (%rsi)
@@ -54219,11 +54187,11 @@ BALIGN16
.byte 255,0 // incl (%rax)
.byte 0,127,67 // add %bh,0x43(%rdi)
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 2c43b <.literal16+0x16b>
+ .byte 127,67 // jg 2c46b <.literal16+0x19b>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 2c43f <.literal16+0x16f>
+ .byte 127,67 // jg 2c46f <.literal16+0x19f>
.byte 0,0 // add %al,(%rax)
- .byte 127,67 // jg 2c443 <.literal16+0x173>
+ .byte 127,67 // jg 2c473 <.literal16+0x1a3>
.byte 145 // xchg %eax,%ecx
.byte 131,158,61,145,131,158,61 // sbbl $0x3d,-0x617c6ec3(%rsi)
.byte 145 // xchg %eax,%ecx
@@ -54374,13 +54342,13 @@ BALIGN16
.byte 132,55 // test %dh,(%rdi)
.byte 8,33 // or %ah,(%rcx)
.byte 132,55 // test %dh,(%rdi)
- .byte 224,7 // loopne 2c549 <.literal16+0x279>
+ .byte 224,7 // loopne 2c579 <.literal16+0x2a9>
.byte 0,0 // add %al,(%rax)
- .byte 224,7 // loopne 2c54d <.literal16+0x27d>
+ .byte 224,7 // loopne 2c57d <.literal16+0x2ad>
.byte 0,0 // add %al,(%rax)
- .byte 224,7 // loopne 2c551 <.literal16+0x281>
+ .byte 224,7 // loopne 2c581 <.literal16+0x2b1>
.byte 0,0 // add %al,(%rax)
- .byte 224,7 // loopne 2c555 <.literal16+0x285>
+ .byte 224,7 // loopne 2c585 <.literal16+0x2b5>
.byte 0,0 // add %al,(%rax)
.byte 33,8 // and %ecx,(%rax)
.byte 2,58 // add (%rdx),%bh
@@ -54440,17 +54408,17 @@ BALIGN16
.byte 0,0 // add %al,(%rax)
.byte 52,255 // xor $0xff,%al
.byte 255 // (bad)
- .byte 127,0 // jg 2c5d4 <.literal16+0x304>
+ .byte 127,0 // jg 2c604 <.literal16+0x334>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 2c5d8 <.literal16+0x308>
+ .byte 127,0 // jg 2c608 <.literal16+0x338>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 2c5dc <.literal16+0x30c>
+ .byte 127,0 // jg 2c60c <.literal16+0x33c>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 2c5e0 <.literal16+0x310>
- .byte 119,115 // ja 2c655 <.literal16+0x385>
+ .byte 127,0 // jg 2c610 <.literal16+0x340>
+ .byte 119,115 // ja 2c685 <.literal16+0x3b5>
.byte 248 // clc
.byte 194,119,115 // retq $0x7377
.byte 248 // clc
@@ -54461,7 +54429,7 @@ BALIGN16
.byte 194,117,191 // retq $0xbf75
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // (bad)
- .byte 117,191 // jne 2c5b9 <.literal16+0x2e9>
+ .byte 117,191 // jne 2c5e9 <.literal16+0x319>
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // (bad)
.byte 249 // stc
@@ -54473,7 +54441,7 @@ BALIGN16
.byte 249 // stc
.byte 68,180,62 // rex.R mov $0x3e,%spl
.byte 163,233,220,63,163,233,220,63,163 // movabs %eax,0xa33fdce9a33fdce9
- .byte 233,220,63,163,233 // jmpq ffffffffe9a605fa <_sk_overlay_sse2_8bit+0xffffffffe9a35115>
+ .byte 233,220,63,163,233 // jmpq ffffffffe9a6062a <_sk_overlay_sse2_8bit+0xffffffffe9a3518d>
.byte 220,63 // fdivrl (%rdi)
.byte 81 // push %rcx
.byte 140,242 // mov %?,%edx
@@ -54563,16 +54531,16 @@ BALIGN16
.byte 128,3,62 // addb $0x3e,(%rbx)
.byte 31 // (bad)
.byte 215 // xlat %ds:(%rbx)
- .byte 118,63 // jbe 2c743 <.literal16+0x473>
+ .byte 118,63 // jbe 2c773 <.literal16+0x4a3>
.byte 31 // (bad)
.byte 215 // xlat %ds:(%rbx)
- .byte 118,63 // jbe 2c747 <.literal16+0x477>
+ .byte 118,63 // jbe 2c777 <.literal16+0x4a7>
.byte 31 // (bad)
.byte 215 // xlat %ds:(%rbx)
- .byte 118,63 // jbe 2c74b <.literal16+0x47b>
+ .byte 118,63 // jbe 2c77b <.literal16+0x4ab>
.byte 31 // (bad)
.byte 215 // xlat %ds:(%rbx)
- .byte 118,63 // jbe 2c74f <.literal16+0x47f>
+ .byte 118,63 // jbe 2c77f <.literal16+0x4af>
.byte 246,64,83,63 // testb $0x3f,0x53(%rax)
.byte 246,64,83,63 // testb $0x3f,0x53(%rax)
.byte 246,64,83,63 // testb $0x3f,0x53(%rax)
@@ -54593,13 +54561,13 @@ BALIGN16
.byte 65,0,0 // add %al,(%r8)
.byte 248 // clc
.byte 65,0,0 // add %al,(%r8)
- .byte 124,66 // jl 2c786 <.literal16+0x4b6>
+ .byte 124,66 // jl 2c7b6 <.literal16+0x4e6>
.byte 0,0 // add %al,(%rax)
- .byte 124,66 // jl 2c78a <.literal16+0x4ba>
+ .byte 124,66 // jl 2c7ba <.literal16+0x4ea>
.byte 0,0 // add %al,(%rax)
- .byte 124,66 // jl 2c78e <.literal16+0x4be>
+ .byte 124,66 // jl 2c7be <.literal16+0x4ee>
.byte 0,0 // add %al,(%rax)
- .byte 124,66 // jl 2c792 <.literal16+0x4c2>
+ .byte 124,66 // jl 2c7c2 <.literal16+0x4f2>
.byte 0,240 // add %dh,%al
.byte 0,0 // add %al,(%rax)
.byte 0,240 // add %dh,%al
@@ -54645,13 +54613,13 @@ BALIGN16
.byte 136,136,61,137,136,136 // mov %cl,-0x777776c3(%rax)
.byte 61,137,136,136,61 // cmp $0x3d888889,%eax
.byte 0,0 // add %al,(%rax)
- .byte 112,65 // jo 2c815 <.literal16+0x545>
+ .byte 112,65 // jo 2c845 <.literal16+0x575>
.byte 0,0 // add %al,(%rax)
- .byte 112,65 // jo 2c819 <.literal16+0x549>
+ .byte 112,65 // jo 2c849 <.literal16+0x579>
.byte 0,0 // add %al,(%rax)
- .byte 112,65 // jo 2c81d <.literal16+0x54d>
+ .byte 112,65 // jo 2c84d <.literal16+0x57d>
.byte 0,0 // add %al,(%rax)
- .byte 112,65 // jo 2c821 <.literal16+0x551>
+ .byte 112,65 // jo 2c851 <.literal16+0x581>
.byte 0,128,0,0,0,128 // add %al,-0x80000000(%rax)
.byte 0,0 // add %al,(%rax)
.byte 0,128,0,0,0,128 // add %al,-0x80000000(%rax)
@@ -54690,13 +54658,13 @@ BALIGN16
.byte 64,254 // rex (bad)
.byte 255,0 // incl (%rax)
.byte 255 // (bad)
- .byte 127,71 // jg 2c88b <.literal16+0x5bb>
+ .byte 127,71 // jg 2c8bb <.literal16+0x5eb>
.byte 0,255 // add %bh,%bh
- .byte 127,71 // jg 2c88f <.literal16+0x5bf>
+ .byte 127,71 // jg 2c8bf <.literal16+0x5ef>
.byte 0,255 // add %bh,%bh
- .byte 127,71 // jg 2c893 <.literal16+0x5c3>
+ .byte 127,71 // jg 2c8c3 <.literal16+0x5f3>
.byte 0,255 // add %bh,%bh
- .byte 127,71 // jg 2c897 <.literal16+0x5c7>
+ .byte 127,71 // jg 2c8c7 <.literal16+0x5f7>
.byte 208 // (bad)
.byte 179,89 // mov $0x59,%bl
.byte 62,208 // ds (bad)
@@ -54726,10 +54694,10 @@ BALIGN16
.byte 61,152,221,147,61 // cmp $0x3d93dd98,%eax
.byte 152 // cwtl
.byte 221,147,61,45,16,17 // fstl 0x11102d3d(%rbx)
- .byte 192,45,16,17,192,45,16 // shrb $0x10,0x2dc01110(%rip) # 2dc2d99a <_sk_overlay_sse2_8bit+0x2dc024b5>
+ .byte 192,45,16,17,192,45,16 // shrb $0x10,0x2dc01110(%rip) # 2dc2d9ca <_sk_overlay_sse2_8bit+0x2dc0252d>
.byte 17,192 // adc %eax,%eax
.byte 45,16,17,192,18 // sub $0x12c01110,%eax
- .byte 120,57 // js 2c8cc <.literal16+0x5fc>
+ .byte 120,57 // js 2c8fc <.literal16+0x62c>
.byte 64,18,120,57 // adc 0x39(%rax),%dil
.byte 64,18,120,57 // adc 0x39(%rax),%dil
.byte 64,18,120,57 // adc 0x39(%rax),%dil
@@ -54794,13 +54762,13 @@ BALIGN16
.byte 192,191,0,0,192,191,0 // sarb $0x0,-0x40400000(%rdi)
.byte 0,192 // add %al,%al
.byte 191,0,0,192,191 // mov $0xbfc00000,%edi
- .byte 114,28 // jb 2c97e <.literal16+0x6ae>
+ .byte 114,28 // jb 2c9ae <.literal16+0x6de>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt 2c982 <.literal16+0x6b2>
+ .byte 62,114,28 // jb,pt 2c9b2 <.literal16+0x6e2>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt 2c986 <.literal16+0x6b6>
+ .byte 62,114,28 // jb,pt 2c9b6 <.literal16+0x6e6>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt 2c98a <.literal16+0x6ba>
+ .byte 62,114,28 // jb,pt 2c9ba <.literal16+0x6ea>
.byte 199 // (bad)
.byte 62,85 // ds push %rbp
.byte 85 // push %rbp
@@ -54819,15 +54787,15 @@ BALIGN16
.byte 0,192 // add %al,%al
.byte 63 // (bad)
.byte 57,142,99,61,57,142 // cmp %ecx,-0x71c6c29d(%rsi)
- .byte 99,61,57,142,99,61 // movslq 0x3d638e39(%rip),%edi # 3d6657d5 <_sk_overlay_sse2_8bit+0x3d63a2f0>
+ .byte 99,61,57,142,99,61 // movslq 0x3d638e39(%rip),%edi # 3d665805 <_sk_overlay_sse2_8bit+0x3d63a368>
.byte 57,142,99,61,114,249 // cmp %ecx,-0x68dc29d(%rsi)
- .byte 127,63 // jg 2c9e3 <.literal16+0x713>
- .byte 114,249 // jb 2c99f <.literal16+0x6cf>
- .byte 127,63 // jg 2c9e7 <.literal16+0x717>
- .byte 114,249 // jb 2c9a3 <.literal16+0x6d3>
- .byte 127,63 // jg 2c9eb <.literal16+0x71b>
- .byte 114,249 // jb 2c9a7 <.literal16+0x6d7>
- .byte 127,63 // jg 2c9ef <.literal16+0x71f>
+ .byte 127,63 // jg 2ca13 <.literal16+0x743>
+ .byte 114,249 // jb 2c9cf <.literal16+0x6ff>
+ .byte 127,63 // jg 2ca17 <.literal16+0x747>
+ .byte 114,249 // jb 2c9d3 <.literal16+0x703>
+ .byte 127,63 // jg 2ca1b <.literal16+0x74b>
+ .byte 114,249 // jb 2c9d7 <.literal16+0x707>
+ .byte 127,63 // jg 2ca1f <.literal16+0x74f>
.byte 3,0 // add (%rax),%eax
.byte 0,0 // add %al,(%rax)
.byte 3,0 // add (%rax),%eax
@@ -54934,14 +54902,14 @@ BALIGN16
.byte 255 // (bad)
.byte 255 // (bad)
.byte 255,0 // incl (%rax)
- .byte 127,0 // jg 2ca82 <.literal16+0x7b2>
- .byte 127,0 // jg 2ca84 <.literal16+0x7b4>
- .byte 127,0 // jg 2ca86 <.literal16+0x7b6>
- .byte 127,0 // jg 2ca88 <.literal16+0x7b8>
- .byte 127,0 // jg 2ca8a <.literal16+0x7ba>
- .byte 127,0 // jg 2ca8c <.literal16+0x7bc>
- .byte 127,0 // jg 2ca8e <.literal16+0x7be>
- .byte 127,0 // jg 2ca90 <.literal16+0x7c0>
+ .byte 127,0 // jg 2cab2 <.literal16+0x7e2>
+ .byte 127,0 // jg 2cab4 <.literal16+0x7e4>
+ .byte 127,0 // jg 2cab6 <.literal16+0x7e6>
+ .byte 127,0 // jg 2cab8 <.literal16+0x7e8>
+ .byte 127,0 // jg 2caba <.literal16+0x7ea>
+ .byte 127,0 // jg 2cabc <.literal16+0x7ec>
+ .byte 127,0 // jg 2cabe <.literal16+0x7ee>
+ .byte 127,0 // jg 2cac0 <.literal16+0x7f0>
.byte 129,128,129,128,129,128,129,128,129,128// addl $0x80818081,-0x7f7e7f7f(%rax)
.byte 129 // .byte 0x81
.byte 128 // .byte 0x80
@@ -54964,7 +54932,7 @@ _sk_start_pipeline_sse2:
.byte 131,236,92 // sub $0x5c,%esp
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 59,69,20 // cmp 0x14(%ebp),%eax
- .byte 115,118 // jae 87 <_sk_start_pipeline_sse2+0x87>
+ .byte 115,112 // jae 81 <_sk_start_pipeline_sse2+0x81>
.byte 139,85,16 // mov 0x10(%ebp),%edx
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,117,24 // mov 0x18(%ebp),%esi
@@ -54978,11 +54946,9 @@ _sk_start_pipeline_sse2:
.byte 137,69,236 // mov %eax,-0x14(%ebp)
.byte 137,69,156 // mov %eax,-0x64(%ebp)
.byte 199,69,160,0,0,0,0 // movl $0x0,-0x60(%ebp)
- .byte 139,69,28 // mov 0x1c(%ebp),%eax
- .byte 137,69,164 // mov %eax,-0x5c(%ebp)
.byte 137,200 // mov %ecx,%eax
.byte 141,93,152 // lea -0x68(%ebp),%ebx
- .byte 119,29 // ja 65 <_sk_start_pipeline_sse2+0x65>
+ .byte 119,29 // ja 5f <_sk_start_pipeline_sse2+0x5f>
.byte 131,236,8 // sub $0x8,%esp
.byte 86 // push %esi
.byte 83 // push %ebx
@@ -54994,10 +54960,10 @@ _sk_start_pipeline_sse2:
.byte 137,69,152 // mov %eax,-0x68(%ebp)
.byte 131,193,8 // add $0x8,%ecx
.byte 57,209 // cmp %edx,%ecx
- .byte 118,227 // jbe 48 <_sk_start_pipeline_sse2+0x48>
+ .byte 118,227 // jbe 42 <_sk_start_pipeline_sse2+0x42>
.byte 137,209 // mov %edx,%ecx
.byte 41,193 // sub %eax,%ecx
- .byte 116,19 // je 7e <_sk_start_pipeline_sse2+0x7e>
+ .byte 116,19 // je 78 <_sk_start_pipeline_sse2+0x78>
.byte 137,77,160 // mov %ecx,-0x60(%ebp)
.byte 131,236,8 // sub $0x8,%esp
.byte 86 // push %esi
@@ -55009,7 +54975,7 @@ _sk_start_pipeline_sse2:
.byte 139,69,236 // mov -0x14(%ebp),%eax
.byte 64 // inc %eax
.byte 59,69,20 // cmp 0x14(%ebp),%eax
- .byte 117,158 // jne 25 <_sk_start_pipeline_sse2+0x25>
+ .byte 117,164 // jne 25 <_sk_start_pipeline_sse2+0x25>
.byte 131,196,92 // add $0x5c,%esp
.byte 94 // pop %esi
.byte 95 // pop %edi
@@ -55031,18 +54997,16 @@ _sk_seed_shader_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 9a <_sk_seed_shader_sse2+0xa>
+ .byte 232,0,0,0,0 // call 94 <_sk_seed_shader_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 139,85,8 // mov 0x8(%ebp),%edx
- .byte 139,114,12 // mov 0xc(%edx),%esi
.byte 102,15,110,2 // movd (%edx),%xmm0
.byte 102,15,112,192,0 // pshufd $0x0,%xmm0,%xmm0
- .byte 15,91,200 // cvtdq2ps %xmm0,%xmm1
- .byte 15,40,144,102,146,0,0 // movaps 0x9266(%eax),%xmm2
- .byte 15,88,202 // addps %xmm2,%xmm1
- .byte 15,16,6 // movups (%esi),%xmm0
- .byte 15,88,193 // addps %xmm1,%xmm0
+ .byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
+ .byte 15,40,144,92,146,0,0 // movaps 0x925c(%eax),%xmm2
+ .byte 15,88,194 // addps %xmm2,%xmm0
+ .byte 15,88,128,108,146,0,0 // addps 0x926c(%eax),%xmm0
.byte 102,15,110,74,4 // movd 0x4(%edx),%xmm1
.byte 102,15,112,201,0 // pshufd $0x0,%xmm1,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
@@ -55054,7 +55018,7 @@ _sk_seed_shader_sse2:
.byte 15,41,82,32 // movaps %xmm2,0x20(%edx)
.byte 15,41,82,16 // movaps %xmm2,0x10(%edx)
.byte 131,236,8 // sub $0x8,%esp
- .byte 15,40,144,118,146,0,0 // movaps 0x9276(%eax),%xmm2
+ .byte 15,40,144,124,146,0,0 // movaps 0x927c(%eax),%xmm2
.byte 15,87,219 // xorps %xmm3,%xmm3
.byte 86 // push %esi
.byte 82 // push %edx
@@ -55076,27 +55040,25 @@ _sk_dither_sse2:
.byte 15,41,85,232 // movaps %xmm2,-0x18(%ebp)
.byte 15,40,217 // movaps %xmm1,%xmm3
.byte 15,40,208 // movaps %xmm0,%xmm2
- .byte 232,0,0,0,0 // call 117 <_sk_dither_sse2+0x1a>
+ .byte 232,0,0,0,0 // call 10f <_sk_dither_sse2+0x1a>
.byte 89 // pop %ecx
.byte 139,69,8 // mov 0x8(%ebp),%eax
- .byte 139,80,12 // mov 0xc(%eax),%edx
.byte 102,15,110,32 // movd (%eax),%xmm4
- .byte 102,15,112,228,0 // pshufd $0x0,%xmm4,%xmm4
- .byte 243,15,111,106,32 // movdqu 0x20(%edx),%xmm5
- .byte 102,15,254,236 // paddd %xmm4,%xmm5
+ .byte 102,15,112,236,0 // pshufd $0x0,%xmm4,%xmm5
+ .byte 102,15,254,169,17,146,0,0 // paddd 0x9211(%ecx),%xmm5
.byte 102,15,110,96,4 // movd 0x4(%eax),%xmm4
.byte 102,15,112,252,0 // pshufd $0x0,%xmm4,%xmm7
.byte 102,15,239,253 // pxor %xmm5,%xmm7
- .byte 102,15,111,177,9,146,0,0 // movdqa 0x9209(%ecx),%xmm6
+ .byte 102,15,111,177,33,146,0,0 // movdqa 0x9221(%ecx),%xmm6
.byte 102,15,111,207 // movdqa %xmm7,%xmm1
.byte 102,15,219,206 // pand %xmm6,%xmm1
.byte 102,15,219,245 // pand %xmm5,%xmm6
- .byte 102,15,111,129,41,146,0,0 // movdqa 0x9229(%ecx),%xmm0
+ .byte 102,15,111,129,65,146,0,0 // movdqa 0x9241(%ecx),%xmm0
.byte 102,15,111,231 // movdqa %xmm7,%xmm4
.byte 102,15,219,224 // pand %xmm0,%xmm4
.byte 102,15,219,197 // pand %xmm5,%xmm0
- .byte 102,15,219,185,25,146,0,0 // pand 0x9219(%ecx),%xmm7
- .byte 102,15,219,169,25,146,0,0 // pand 0x9219(%ecx),%xmm5
+ .byte 102,15,219,185,49,146,0,0 // pand 0x9231(%ecx),%xmm7
+ .byte 102,15,219,169,49,146,0,0 // pand 0x9231(%ecx),%xmm5
.byte 102,15,114,246,4 // pslld $0x4,%xmm6
.byte 102,15,254,192 // paddd %xmm0,%xmm0
.byte 102,15,235,198 // por %xmm6,%xmm0
@@ -55111,8 +55073,8 @@ _sk_dither_sse2:
.byte 102,15,114,215,1 // psrld $0x1,%xmm7
.byte 102,15,235,231 // por %xmm7,%xmm4
.byte 15,91,196 // cvtdq2ps %xmm4,%xmm0
- .byte 15,89,129,57,146,0,0 // mulps 0x9239(%ecx),%xmm0
- .byte 15,88,129,73,146,0,0 // addps 0x9249(%ecx),%xmm0
+ .byte 15,89,129,81,146,0,0 // mulps 0x9251(%ecx),%xmm0
+ .byte 15,88,129,97,146,0,0 // addps 0x9261(%ecx),%xmm0
.byte 243,15,16,14 // movss (%esi),%xmm1
.byte 15,198,201,0 // shufps $0x0,%xmm1,%xmm1
.byte 15,89,200 // mulps %xmm0,%xmm1
@@ -55175,12 +55137,12 @@ _sk_black_color_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 257 <_sk_black_color_sse2+0xb>
+ .byte 232,0,0,0,0 // call 24b <_sk_black_color_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 141,81,4 // lea 0x4(%ecx),%edx
.byte 131,236,8 // sub $0x8,%esp
- .byte 15,40,152,25,145,0,0 // movaps 0x9119(%eax),%xmm3
+ .byte 15,40,152,53,145,0,0 // movaps 0x9135(%eax),%xmm3
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 15,87,201 // xorps %xmm1,%xmm1
.byte 15,87,210 // xorps %xmm2,%xmm2
@@ -55198,12 +55160,12 @@ _sk_white_color_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 287 <_sk_white_color_sse2+0xb>
+ .byte 232,0,0,0,0 // call 27b <_sk_white_color_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 141,81,4 // lea 0x4(%ecx),%edx
.byte 131,236,8 // sub $0x8,%esp
- .byte 15,40,128,249,144,0,0 // movaps 0x90f9(%eax),%xmm0
+ .byte 15,40,128,21,145,0,0 // movaps 0x9115(%eax),%xmm0
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 15,40,216 // movaps %xmm0,%xmm3
@@ -55287,13 +55249,13 @@ _sk_srcatop_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 336 <_sk_srcatop_sse2+0xb>
+ .byte 232,0,0,0,0 // call 32a <_sk_srcatop_sse2+0xb>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 15,40,97,64 // movaps 0x40(%ecx),%xmm4
.byte 15,89,196 // mulps %xmm4,%xmm0
- .byte 15,40,170,90,144,0,0 // movaps 0x905a(%edx),%xmm5
+ .byte 15,40,170,118,144,0,0 // movaps 0x9076(%edx),%xmm5
.byte 15,92,235 // subps %xmm3,%xmm5
.byte 15,40,113,16 // movaps 0x10(%ecx),%xmm6
.byte 15,89,245 // mulps %xmm5,%xmm6
@@ -55325,14 +55287,14 @@ _sk_dstatop_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 395 <_sk_dstatop_sse2+0xb>
+ .byte 232,0,0,0,0 // call 389 <_sk_dstatop_sse2+0xb>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 15,40,105,64 // movaps 0x40(%ecx),%xmm5
.byte 15,40,113,16 // movaps 0x10(%ecx),%xmm6
.byte 15,89,243 // mulps %xmm3,%xmm6
- .byte 15,40,162,11,144,0,0 // movaps 0x900b(%edx),%xmm4
+ .byte 15,40,162,39,144,0,0 // movaps 0x9027(%edx),%xmm4
.byte 15,92,229 // subps %xmm5,%xmm4
.byte 15,89,196 // mulps %xmm4,%xmm0
.byte 15,88,198 // addps %xmm6,%xmm0
@@ -55412,11 +55374,11 @@ _sk_srcout_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 456 <_sk_srcout_sse2+0xb>
+ .byte 232,0,0,0,0 // call 44a <_sk_srcout_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 139,85,8 // mov 0x8(%ebp),%edx
- .byte 15,40,160,90,143,0,0 // movaps 0x8f5a(%eax),%xmm4
+ .byte 15,40,160,118,143,0,0 // movaps 0x8f76(%eax),%xmm4
.byte 15,92,98,64 // subps 0x40(%edx),%xmm4
.byte 15,89,196 // mulps %xmm4,%xmm0
.byte 15,89,204 // mulps %xmm4,%xmm1
@@ -55438,11 +55400,11 @@ _sk_dstout_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 48e <_sk_dstout_sse2+0xb>
+ .byte 232,0,0,0,0 // call 482 <_sk_dstout_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 139,85,8 // mov 0x8(%ebp),%edx
- .byte 15,40,160,50,143,0,0 // movaps 0x8f32(%eax),%xmm4
+ .byte 15,40,160,78,143,0,0 // movaps 0x8f4e(%eax),%xmm4
.byte 15,92,227 // subps %xmm3,%xmm4
.byte 15,40,66,16 // movaps 0x10(%edx),%xmm0
.byte 15,89,196 // mulps %xmm4,%xmm0
@@ -55468,11 +55430,11 @@ _sk_srcover_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 4d5 <_sk_srcover_sse2+0xb>
+ .byte 232,0,0,0,0 // call 4c9 <_sk_srcover_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 139,85,8 // mov 0x8(%ebp),%edx
- .byte 15,40,160,251,142,0,0 // movaps 0x8efb(%eax),%xmm4
+ .byte 15,40,160,23,143,0,0 // movaps 0x8f17(%eax),%xmm4
.byte 15,92,227 // subps %xmm3,%xmm4
.byte 15,40,106,16 // movaps 0x10(%edx),%xmm5
.byte 15,89,236 // mulps %xmm4,%xmm5
@@ -55501,12 +55463,12 @@ _sk_dstover_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 525 <_sk_dstover_sse2+0xb>
+ .byte 232,0,0,0,0 // call 519 <_sk_dstover_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 139,85,8 // mov 0x8(%ebp),%edx
.byte 15,40,106,64 // movaps 0x40(%edx),%xmm5
- .byte 15,40,160,187,142,0,0 // movaps 0x8ebb(%eax),%xmm4
+ .byte 15,40,160,215,142,0,0 // movaps 0x8ed7(%eax),%xmm4
.byte 15,92,229 // subps %xmm5,%xmm4
.byte 15,89,196 // mulps %xmm4,%xmm0
.byte 15,88,66,16 // addps 0x10(%edx),%xmm0
@@ -55557,12 +55519,12 @@ _sk_multiply_sse2:
.byte 131,236,56 // sub $0x38,%esp
.byte 15,41,85,216 // movaps %xmm2,-0x28(%ebp)
.byte 15,40,232 // movaps %xmm0,%xmm5
- .byte 232,0,0,0,0 // call 5a4 <_sk_multiply_sse2+0x12>
+ .byte 232,0,0,0,0 // call 598 <_sk_multiply_sse2+0x12>
.byte 89 // pop %ecx
.byte 139,69,8 // mov 0x8(%ebp),%eax
.byte 15,40,80,64 // movaps 0x40(%eax),%xmm2
.byte 15,41,85,200 // movaps %xmm2,-0x38(%ebp)
- .byte 15,40,129,76,142,0,0 // movaps 0x8e4c(%ecx),%xmm0
+ .byte 15,40,129,104,142,0,0 // movaps 0x8e68(%ecx),%xmm0
.byte 15,40,240 // movaps %xmm0,%xmm6
.byte 15,92,242 // subps %xmm2,%xmm6
.byte 15,40,254 // movaps %xmm6,%xmm7
@@ -55617,12 +55579,12 @@ _sk_plus__sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 64a <_sk_plus__sse2+0xb>
+ .byte 232,0,0,0,0 // call 63e <_sk_plus__sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 139,85,8 // mov 0x8(%ebp),%edx
.byte 15,88,66,16 // addps 0x10(%edx),%xmm0
- .byte 15,40,160,182,141,0,0 // movaps 0x8db6(%eax),%xmm4
+ .byte 15,40,160,210,141,0,0 // movaps 0x8dd2(%eax),%xmm4
.byte 15,93,196 // minps %xmm4,%xmm0
.byte 15,88,74,32 // addps 0x20(%edx),%xmm1
.byte 15,93,204 // minps %xmm4,%xmm1
@@ -55689,12 +55651,12 @@ _sk_xor__sse2:
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
.byte 15,40,227 // movaps %xmm3,%xmm4
- .byte 232,0,0,0,0 // call 6f8 <_sk_xor__sse2+0xe>
+ .byte 232,0,0,0,0 // call 6ec <_sk_xor__sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 15,40,105,64 // movaps 0x40(%ecx),%xmm5
- .byte 15,40,154,24,141,0,0 // movaps 0x8d18(%edx),%xmm3
+ .byte 15,40,154,52,141,0,0 // movaps 0x8d34(%edx),%xmm3
.byte 15,40,243 // movaps %xmm3,%xmm6
.byte 15,92,245 // subps %xmm5,%xmm6
.byte 15,89,198 // mulps %xmm6,%xmm0
@@ -55730,7 +55692,7 @@ _sk_darken_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
.byte 15,40,224 // movaps %xmm0,%xmm4
- .byte 232,0,0,0,0 // call 760 <_sk_darken_sse2+0xe>
+ .byte 232,0,0,0,0 // call 754 <_sk_darken_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -55756,7 +55718,7 @@ _sk_darken_sse2:
.byte 15,89,203 // mulps %xmm3,%xmm1
.byte 15,95,209 // maxps %xmm1,%xmm2
.byte 15,92,234 // subps %xmm2,%xmm5
- .byte 15,40,138,192,140,0,0 // movaps 0x8cc0(%edx),%xmm1
+ .byte 15,40,138,220,140,0,0 // movaps 0x8cdc(%edx),%xmm1
.byte 15,92,203 // subps %xmm3,%xmm1
.byte 15,89,206 // mulps %xmm6,%xmm1
.byte 15,88,217 // addps %xmm1,%xmm3
@@ -55779,7 +55741,7 @@ _sk_lighten_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
.byte 15,40,224 // movaps %xmm0,%xmm4
- .byte 232,0,0,0,0 // call 7e0 <_sk_lighten_sse2+0xe>
+ .byte 232,0,0,0,0 // call 7d4 <_sk_lighten_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -55805,7 +55767,7 @@ _sk_lighten_sse2:
.byte 15,89,203 // mulps %xmm3,%xmm1
.byte 15,93,209 // minps %xmm1,%xmm2
.byte 15,92,234 // subps %xmm2,%xmm5
- .byte 15,40,138,80,140,0,0 // movaps 0x8c50(%edx),%xmm1
+ .byte 15,40,138,108,140,0,0 // movaps 0x8c6c(%edx),%xmm1
.byte 15,92,203 // subps %xmm3,%xmm1
.byte 15,89,206 // mulps %xmm6,%xmm1
.byte 15,88,217 // addps %xmm1,%xmm3
@@ -55829,7 +55791,7 @@ _sk_difference_sse2:
.byte 131,236,8 // sub $0x8,%esp
.byte 15,40,225 // movaps %xmm1,%xmm4
.byte 15,40,200 // movaps %xmm0,%xmm1
- .byte 232,0,0,0,0 // call 863 <_sk_difference_sse2+0x11>
+ .byte 232,0,0,0,0 // call 857 <_sk_difference_sse2+0x11>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -55858,7 +55820,7 @@ _sk_difference_sse2:
.byte 15,93,214 // minps %xmm6,%xmm2
.byte 15,88,210 // addps %xmm2,%xmm2
.byte 15,92,226 // subps %xmm2,%xmm4
- .byte 15,40,146,221,139,0,0 // movaps 0x8bdd(%edx),%xmm2
+ .byte 15,40,146,249,139,0,0 // movaps 0x8bf9(%edx),%xmm2
.byte 15,92,211 // subps %xmm3,%xmm2
.byte 15,89,213 // mulps %xmm5,%xmm2
.byte 15,88,218 // addps %xmm2,%xmm3
@@ -55880,7 +55842,7 @@ _sk_exclusion_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
.byte 15,40,224 // movaps %xmm0,%xmm4
- .byte 232,0,0,0,0 // call 8e9 <_sk_exclusion_sse2+0xe>
+ .byte 232,0,0,0,0 // call 8dd <_sk_exclusion_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -55902,7 +55864,7 @@ _sk_exclusion_sse2:
.byte 15,89,202 // mulps %xmm2,%xmm1
.byte 15,88,201 // addps %xmm1,%xmm1
.byte 15,92,233 // subps %xmm1,%xmm5
- .byte 15,40,138,103,139,0,0 // movaps 0x8b67(%edx),%xmm1
+ .byte 15,40,138,131,139,0,0 // movaps 0x8b83(%edx),%xmm1
.byte 15,92,203 // subps %xmm3,%xmm1
.byte 15,89,73,64 // mulps 0x40(%ecx),%xmm1
.byte 15,88,217 // addps %xmm1,%xmm3
@@ -55928,7 +55890,7 @@ _sk_colorburn_sse2:
.byte 15,41,85,168 // movaps %xmm2,-0x58(%ebp)
.byte 15,40,209 // movaps %xmm1,%xmm2
.byte 15,40,224 // movaps %xmm0,%xmm4
- .byte 232,0,0,0,0 // call 968 <_sk_colorburn_sse2+0x19>
+ .byte 232,0,0,0,0 // call 95c <_sk_colorburn_sse2+0x19>
.byte 89 // pop %ecx
.byte 139,69,8 // mov 0x8(%ebp),%eax
.byte 15,40,72,64 // movaps 0x40(%eax),%xmm1
@@ -55943,7 +55905,7 @@ _sk_colorburn_sse2:
.byte 15,93,198 // minps %xmm6,%xmm0
.byte 15,40,233 // movaps %xmm1,%xmm5
.byte 15,92,232 // subps %xmm0,%xmm5
- .byte 15,40,177,248,138,0,0 // movaps 0x8af8(%ecx),%xmm6
+ .byte 15,40,177,20,139,0,0 // movaps 0x8b14(%ecx),%xmm6
.byte 15,40,198 // movaps %xmm6,%xmm0
.byte 15,92,193 // subps %xmm1,%xmm0
.byte 15,41,69,200 // movaps %xmm0,-0x38(%ebp)
@@ -56056,11 +56018,11 @@ _sk_colordodge_sse2:
.byte 15,40,243 // movaps %xmm3,%xmm6
.byte 15,41,85,168 // movaps %xmm2,-0x58(%ebp)
.byte 15,41,77,232 // movaps %xmm1,-0x18(%ebp)
- .byte 232,0,0,0,0 // call af1 <_sk_colordodge_sse2+0x16>
+ .byte 232,0,0,0,0 // call ae5 <_sk_colordodge_sse2+0x16>
.byte 89 // pop %ecx
.byte 139,69,8 // mov 0x8(%ebp),%eax
.byte 15,40,72,16 // movaps 0x10(%eax),%xmm1
- .byte 15,40,145,127,137,0,0 // movaps 0x897f(%ecx),%xmm2
+ .byte 15,40,145,155,137,0,0 // movaps 0x899b(%ecx),%xmm2
.byte 15,40,226 // movaps %xmm2,%xmm4
.byte 15,92,214 // subps %xmm6,%xmm2
.byte 15,40,250 // movaps %xmm2,%xmm7
@@ -56173,11 +56135,11 @@ _sk_hardlight_sse2:
.byte 15,40,243 // movaps %xmm3,%xmm6
.byte 15,41,85,168 // movaps %xmm2,-0x58(%ebp)
.byte 15,41,77,232 // movaps %xmm1,-0x18(%ebp)
- .byte 232,0,0,0,0 // call c52 <_sk_hardlight_sse2+0x16>
+ .byte 232,0,0,0,0 // call c46 <_sk_hardlight_sse2+0x16>
.byte 89 // pop %ecx
.byte 139,69,8 // mov 0x8(%ebp),%eax
.byte 15,40,72,64 // movaps 0x40(%eax),%xmm1
- .byte 15,40,145,46,136,0,0 // movaps 0x882e(%ecx),%xmm2
+ .byte 15,40,145,74,136,0,0 // movaps 0x884a(%ecx),%xmm2
.byte 15,40,234 // movaps %xmm2,%xmm5
.byte 15,92,233 // subps %xmm1,%xmm5
.byte 15,40,225 // movaps %xmm1,%xmm4
@@ -56283,11 +56245,11 @@ _sk_overlay_sse2:
.byte 15,41,85,152 // movaps %xmm2,-0x68(%ebp)
.byte 15,41,77,168 // movaps %xmm1,-0x58(%ebp)
.byte 15,40,232 // movaps %xmm0,%xmm5
- .byte 232,0,0,0,0 // call d9d <_sk_overlay_sse2+0x1a>
+ .byte 232,0,0,0,0 // call d91 <_sk_overlay_sse2+0x1a>
.byte 89 // pop %ecx
.byte 139,69,8 // mov 0x8(%ebp),%eax
.byte 15,40,80,64 // movaps 0x40(%eax),%xmm2
- .byte 15,40,161,243,134,0,0 // movaps 0x86f3(%ecx),%xmm4
+ .byte 15,40,161,15,135,0,0 // movaps 0x870f(%ecx),%xmm4
.byte 15,40,244 // movaps %xmm4,%xmm6
.byte 15,92,242 // subps %xmm2,%xmm6
.byte 15,40,206 // movaps %xmm6,%xmm1
@@ -56412,20 +56374,20 @@ _sk_softlight_sse2:
.byte 15,40,241 // movaps %xmm1,%xmm6
.byte 15,89,246 // mulps %xmm6,%xmm6
.byte 15,88,241 // addps %xmm1,%xmm6
- .byte 232,0,0,0,0 // call f2d <_sk_softlight_sse2+0x52>
+ .byte 232,0,0,0,0 // call f21 <_sk_softlight_sse2+0x52>
.byte 89 // pop %ecx
.byte 15,40,194 // movaps %xmm2,%xmm0
- .byte 15,40,137,131,133,0,0 // movaps 0x8583(%ecx),%xmm1
+ .byte 15,40,137,159,133,0,0 // movaps 0x859f(%ecx),%xmm1
.byte 15,41,141,104,255,255,255 // movaps %xmm1,-0x98(%ebp)
.byte 15,88,193 // addps %xmm1,%xmm0
.byte 15,89,198 // mulps %xmm6,%xmm0
- .byte 15,40,185,115,133,0,0 // movaps 0x8573(%ecx),%xmm7
+ .byte 15,40,185,143,133,0,0 // movaps 0x858f(%ecx),%xmm7
.byte 15,41,125,232 // movaps %xmm7,-0x18(%ebp)
.byte 15,92,250 // subps %xmm2,%xmm7
.byte 15,82,242 // rsqrtps %xmm2,%xmm6
.byte 15,83,206 // rcpps %xmm6,%xmm1
.byte 15,92,202 // subps %xmm2,%xmm1
- .byte 15,40,161,147,133,0,0 // movaps 0x8593(%ecx),%xmm4
+ .byte 15,40,161,175,133,0,0 // movaps 0x85af(%ecx),%xmm4
.byte 15,41,101,152 // movaps %xmm4,-0x68(%ebp)
.byte 15,89,212 // mulps %xmm4,%xmm2
.byte 15,88,208 // addps %xmm0,%xmm2
@@ -56621,7 +56583,7 @@ _sk_hue_sse2:
.byte 15,93,200 // minps %xmm0,%xmm1
.byte 15,92,225 // subps %xmm1,%xmm4
.byte 15,41,101,168 // movaps %xmm4,-0x58(%ebp)
- .byte 232,0,0,0,0 // call 11ee <_sk_hue_sse2+0x4f>
+ .byte 232,0,0,0,0 // call 11e2 <_sk_hue_sse2+0x4f>
.byte 89 // pop %ecx
.byte 15,40,221 // movaps %xmm5,%xmm3
.byte 15,40,197 // movaps %xmm5,%xmm0
@@ -56631,7 +56593,7 @@ _sk_hue_sse2:
.byte 15,40,226 // movaps %xmm2,%xmm4
.byte 15,40,72,64 // movaps 0x40(%eax),%xmm1
.byte 15,41,77,216 // movaps %xmm1,-0x28(%ebp)
- .byte 15,40,169,18,131,0,0 // movaps 0x8312(%ecx),%xmm5
+ .byte 15,40,169,46,131,0,0 // movaps 0x832e(%ecx),%xmm5
.byte 15,92,233 // subps %xmm1,%xmm5
.byte 15,89,197 // mulps %xmm5,%xmm0
.byte 15,41,133,72,255,255,255 // movaps %xmm0,-0xb8(%ebp)
@@ -56664,17 +56626,17 @@ _sk_hue_sse2:
.byte 15,89,233 // mulps %xmm1,%xmm5
.byte 15,41,173,120,255,255,255 // movaps %xmm5,-0x88(%ebp)
.byte 15,89,193 // mulps %xmm1,%xmm0
- .byte 15,40,153,226,130,0,0 // movaps 0x82e2(%ecx),%xmm3
+ .byte 15,40,153,254,130,0,0 // movaps 0x82fe(%ecx),%xmm3
.byte 15,41,93,232 // movaps %xmm3,-0x18(%ebp)
.byte 15,40,117,152 // movaps -0x68(%ebp),%xmm6
.byte 15,40,206 // movaps %xmm6,%xmm1
.byte 15,89,203 // mulps %xmm3,%xmm1
- .byte 15,40,153,242,130,0,0 // movaps 0x82f2(%ecx),%xmm3
+ .byte 15,40,153,14,131,0,0 // movaps 0x830e(%ecx),%xmm3
.byte 15,40,109,136 // movaps -0x78(%ebp),%xmm5
.byte 15,40,253 // movaps %xmm5,%xmm7
.byte 15,89,251 // mulps %xmm3,%xmm7
.byte 15,88,249 // addps %xmm1,%xmm7
- .byte 15,40,137,18,131,0,0 // movaps 0x8312(%ecx),%xmm1
+ .byte 15,40,137,46,131,0,0 // movaps 0x832e(%ecx),%xmm1
.byte 15,92,77,184 // subps -0x48(%ebp),%xmm1
.byte 15,89,241 // mulps %xmm1,%xmm6
.byte 15,41,117,152 // movaps %xmm6,-0x68(%ebp)
@@ -56684,7 +56646,7 @@ _sk_hue_sse2:
.byte 15,40,77,200 // movaps -0x38(%ebp),%xmm1
.byte 15,89,241 // mulps %xmm1,%xmm6
.byte 15,41,117,168 // movaps %xmm6,-0x58(%ebp)
- .byte 15,40,169,2,131,0,0 // movaps 0x8302(%ecx),%xmm5
+ .byte 15,40,169,30,131,0,0 // movaps 0x831e(%ecx),%xmm5
.byte 15,89,205 // mulps %xmm5,%xmm1
.byte 15,88,207 // addps %xmm7,%xmm1
.byte 15,94,212 // divps %xmm4,%xmm2
@@ -56875,19 +56837,19 @@ _sk_saturation_sse2:
.byte 15,89,221 // mulps %xmm5,%xmm3
.byte 15,40,211 // movaps %xmm3,%xmm2
.byte 15,89,253 // mulps %xmm5,%xmm7
- .byte 232,0,0,0,0 // call 1542 <_sk_saturation_sse2+0xb0>
+ .byte 232,0,0,0,0 // call 1536 <_sk_saturation_sse2+0xb0>
.byte 89 // pop %ecx
- .byte 15,40,153,206,127,0,0 // movaps 0x7fce(%ecx),%xmm3
+ .byte 15,40,153,234,127,0,0 // movaps 0x7fea(%ecx),%xmm3
.byte 15,41,157,88,255,255,255 // movaps %xmm3,-0xa8(%ebp)
.byte 15,40,77,184 // movaps -0x48(%ebp),%xmm1
.byte 15,40,193 // movaps %xmm1,%xmm0
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,40,153,222,127,0,0 // movaps 0x7fde(%ecx),%xmm3
+ .byte 15,40,153,250,127,0,0 // movaps 0x7ffa(%ecx),%xmm3
.byte 15,41,93,232 // movaps %xmm3,-0x18(%ebp)
.byte 15,40,238 // movaps %xmm6,%xmm5
.byte 15,89,235 // mulps %xmm3,%xmm5
.byte 15,88,232 // addps %xmm0,%xmm5
- .byte 15,40,129,254,127,0,0 // movaps 0x7ffe(%ecx),%xmm0
+ .byte 15,40,129,26,128,0,0 // movaps 0x801a(%ecx),%xmm0
.byte 15,41,133,104,255,255,255 // movaps %xmm0,-0x98(%ebp)
.byte 15,92,69,216 // subps -0x28(%ebp),%xmm0
.byte 15,89,200 // mulps %xmm0,%xmm1
@@ -56899,7 +56861,7 @@ _sk_saturation_sse2:
.byte 15,89,200 // mulps %xmm0,%xmm1
.byte 15,41,141,120,255,255,255 // movaps %xmm1,-0x88(%ebp)
.byte 15,40,200 // movaps %xmm0,%xmm1
- .byte 15,40,129,238,127,0,0 // movaps 0x7fee(%ecx),%xmm0
+ .byte 15,40,129,10,128,0,0 // movaps 0x800a(%ecx),%xmm0
.byte 15,89,200 // mulps %xmm0,%xmm1
.byte 15,88,205 // addps %xmm5,%xmm1
.byte 15,40,109,168 // movaps -0x58(%ebp),%xmm5
@@ -57053,21 +57015,21 @@ _sk_color_sse2:
.byte 15,41,165,104,255,255,255 // movaps %xmm4,-0x98(%ebp)
.byte 15,40,232 // movaps %xmm0,%xmm5
.byte 15,41,173,120,255,255,255 // movaps %xmm5,-0x88(%ebp)
- .byte 232,0,0,0,0 // call 179d <_sk_color_sse2+0x2a>
+ .byte 232,0,0,0,0 // call 1791 <_sk_color_sse2+0x2a>
.byte 89 // pop %ecx
.byte 139,69,8 // mov 0x8(%ebp),%eax
.byte 15,40,80,16 // movaps 0x10(%eax),%xmm2
.byte 15,40,72,32 // movaps 0x20(%eax),%xmm1
- .byte 15,40,177,179,125,0,0 // movaps 0x7db3(%ecx),%xmm6
+ .byte 15,40,177,207,125,0,0 // movaps 0x7dcf(%ecx),%xmm6
.byte 15,41,117,216 // movaps %xmm6,-0x28(%ebp)
.byte 15,40,194 // movaps %xmm2,%xmm0
.byte 15,89,198 // mulps %xmm6,%xmm0
- .byte 15,40,153,195,125,0,0 // movaps 0x7dc3(%ecx),%xmm3
+ .byte 15,40,153,223,125,0,0 // movaps 0x7ddf(%ecx),%xmm3
.byte 15,41,93,184 // movaps %xmm3,-0x48(%ebp)
.byte 15,40,241 // movaps %xmm1,%xmm6
.byte 15,89,243 // mulps %xmm3,%xmm6
.byte 15,88,240 // addps %xmm0,%xmm6
- .byte 15,40,129,227,125,0,0 // movaps 0x7de3(%ecx),%xmm0
+ .byte 15,40,129,255,125,0,0 // movaps 0x7dff(%ecx),%xmm0
.byte 15,41,69,168 // movaps %xmm0,-0x58(%ebp)
.byte 15,92,69,200 // subps -0x38(%ebp),%xmm0
.byte 15,89,208 // mulps %xmm0,%xmm2
@@ -57077,7 +57039,7 @@ _sk_color_sse2:
.byte 15,40,80,48 // movaps 0x30(%eax),%xmm2
.byte 15,89,194 // mulps %xmm2,%xmm0
.byte 15,41,133,72,255,255,255 // movaps %xmm0,-0xb8(%ebp)
- .byte 15,40,137,211,125,0,0 // movaps 0x7dd3(%ecx),%xmm1
+ .byte 15,40,137,239,125,0,0 // movaps 0x7def(%ecx),%xmm1
.byte 15,89,209 // mulps %xmm1,%xmm2
.byte 15,88,214 // addps %xmm6,%xmm2
.byte 15,40,88,64 // movaps 0x40(%eax),%xmm3
@@ -57233,21 +57195,21 @@ _sk_luminosity_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 129,236,184,0,0,0 // sub $0xb8,%esp
.byte 15,40,242 // movaps %xmm2,%xmm6
- .byte 232,0,0,0,0 // call 1a00 <_sk_luminosity_sse2+0x11>
+ .byte 232,0,0,0,0 // call 19f4 <_sk_luminosity_sse2+0x11>
.byte 89 // pop %ecx
.byte 139,69,8 // mov 0x8(%ebp),%eax
- .byte 15,40,161,144,123,0,0 // movaps 0x7b90(%ecx),%xmm4
+ .byte 15,40,161,172,123,0,0 // movaps 0x7bac(%ecx),%xmm4
.byte 15,41,101,232 // movaps %xmm4,-0x18(%ebp)
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 15,89,212 // mulps %xmm4,%xmm2
- .byte 15,40,161,160,123,0,0 // movaps 0x7ba0(%ecx),%xmm4
+ .byte 15,40,161,188,123,0,0 // movaps 0x7bbc(%ecx),%xmm4
.byte 15,41,101,216 // movaps %xmm4,-0x28(%ebp)
.byte 15,40,233 // movaps %xmm1,%xmm5
.byte 15,89,236 // mulps %xmm4,%xmm5
.byte 15,88,234 // addps %xmm2,%xmm5
.byte 15,40,80,64 // movaps 0x40(%eax),%xmm2
.byte 15,41,85,184 // movaps %xmm2,-0x48(%ebp)
- .byte 15,40,161,192,123,0,0 // movaps 0x7bc0(%ecx),%xmm4
+ .byte 15,40,161,220,123,0,0 // movaps 0x7bdc(%ecx),%xmm4
.byte 15,40,252 // movaps %xmm4,%xmm7
.byte 15,92,250 // subps %xmm2,%xmm7
.byte 15,89,199 // mulps %xmm7,%xmm0
@@ -57257,7 +57219,7 @@ _sk_luminosity_sse2:
.byte 15,89,254 // mulps %xmm6,%xmm7
.byte 15,41,189,104,255,255,255 // movaps %xmm7,-0x98(%ebp)
.byte 15,40,214 // movaps %xmm6,%xmm2
- .byte 15,40,137,176,123,0,0 // movaps 0x7bb0(%ecx),%xmm1
+ .byte 15,40,137,204,123,0,0 // movaps 0x7bcc(%ecx),%xmm1
.byte 15,89,209 // mulps %xmm1,%xmm2
.byte 15,88,213 // addps %xmm5,%xmm2
.byte 15,40,104,16 // movaps 0x10(%eax),%xmm5
@@ -57419,7 +57381,7 @@ _sk_srcover_rgba_8888_sse2:
.byte 131,236,44 // sub $0x2c,%esp
.byte 102,15,127,85,200 // movdqa %xmm2,-0x38(%ebp)
.byte 15,41,77,216 // movaps %xmm1,-0x28(%ebp)
- .byte 232,0,0,0,0 // call 1c6b <_sk_srcover_rgba_8888_sse2+0x17>
+ .byte 232,0,0,0,0 // call 1c5f <_sk_srcover_rgba_8888_sse2+0x17>
.byte 95 // pop %edi
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -57431,9 +57393,9 @@ _sk_srcover_rgba_8888_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,49 // mov (%ecx),%esi
- .byte 15,133,224,0,0,0 // jne 1d6d <_sk_srcover_rgba_8888_sse2+0x119>
+ .byte 15,133,224,0,0,0 // jne 1d61 <_sk_srcover_rgba_8888_sse2+0x119>
.byte 243,15,111,20,178 // movdqu (%edx,%esi,4),%xmm2
- .byte 102,15,111,167,101,121,0,0 // movdqa 0x7965(%edi),%xmm4
+ .byte 102,15,111,167,129,121,0,0 // movdqa 0x7981(%edi),%xmm4
.byte 102,15,111,234 // movdqa %xmm2,%xmm5
.byte 102,15,219,236 // pand %xmm4,%xmm5
.byte 102,15,111,242 // movdqa %xmm2,%xmm6
@@ -57444,9 +57406,9 @@ _sk_srcover_rgba_8888_sse2:
.byte 102,15,219,252 // pand %xmm4,%xmm7
.byte 15,91,229 // cvtdq2ps %xmm5,%xmm4
.byte 15,41,97,16 // movaps %xmm4,0x10(%ecx)
- .byte 15,40,175,117,121,0,0 // movaps 0x7975(%edi),%xmm5
+ .byte 15,40,175,145,121,0,0 // movaps 0x7991(%edi),%xmm5
.byte 15,92,235 // subps %xmm3,%xmm5
- .byte 15,40,143,133,121,0,0 // movaps 0x7985(%edi),%xmm1
+ .byte 15,40,143,161,121,0,0 // movaps 0x79a1(%edi),%xmm1
.byte 15,89,193 // mulps %xmm1,%xmm0
.byte 15,89,229 // mulps %xmm5,%xmm4
.byte 15,88,224 // addps %xmm0,%xmm4
@@ -57479,7 +57441,7 @@ _sk_srcover_rgba_8888_sse2:
.byte 102,15,235,194 // por %xmm2,%xmm0
.byte 102,15,235,193 // por %xmm1,%xmm0
.byte 133,219 // test %ebx,%ebx
- .byte 117,95 // jne 1da8 <_sk_srcover_rgba_8888_sse2+0x154>
+ .byte 117,95 // jne 1d9c <_sk_srcover_rgba_8888_sse2+0x154>
.byte 243,15,127,4,178 // movdqu %xmm0,(%edx,%esi,4)
.byte 141,80,8 // lea 0x8(%eax),%edx
.byte 131,236,8 // sub $0x8,%esp
@@ -57500,33 +57462,33 @@ _sk_srcover_rgba_8888_sse2:
.byte 136,69,243 // mov %al,-0xd(%ebp)
.byte 128,101,243,3 // andb $0x3,-0xd(%ebp)
.byte 128,125,243,1 // cmpb $0x1,-0xd(%ebp)
- .byte 116,80 // je 1dcc <_sk_srcover_rgba_8888_sse2+0x178>
+ .byte 116,80 // je 1dc0 <_sk_srcover_rgba_8888_sse2+0x178>
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 128,125,243,2 // cmpb $0x2,-0xd(%ebp)
.byte 139,69,12 // mov 0xc(%ebp),%eax
- .byte 116,21 // je 1d9e <_sk_srcover_rgba_8888_sse2+0x14a>
+ .byte 116,21 // je 1d92 <_sk_srcover_rgba_8888_sse2+0x14a>
.byte 128,125,243,3 // cmpb $0x3,-0xd(%ebp)
- .byte 15,133,255,254,255,255 // jne 1c92 <_sk_srcover_rgba_8888_sse2+0x3e>
+ .byte 15,133,255,254,255,255 // jne 1c86 <_sk_srcover_rgba_8888_sse2+0x3e>
.byte 102,15,110,84,178,8 // movd 0x8(%edx,%esi,4),%xmm2
.byte 102,15,112,210,69 // pshufd $0x45,%xmm2,%xmm2
.byte 102,15,18,20,178 // movlpd (%edx,%esi,4),%xmm2
- .byte 233,234,254,255,255 // jmp 1c92 <_sk_srcover_rgba_8888_sse2+0x3e>
+ .byte 233,234,254,255,255 // jmp 1c86 <_sk_srcover_rgba_8888_sse2+0x3e>
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,41 // je 1dd9 <_sk_srcover_rgba_8888_sse2+0x185>
+ .byte 116,41 // je 1dcd <_sk_srcover_rgba_8888_sse2+0x185>
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,16 // je 1dc5 <_sk_srcover_rgba_8888_sse2+0x171>
+ .byte 116,16 // je 1db9 <_sk_srcover_rgba_8888_sse2+0x171>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,148 // jne 1d4e <_sk_srcover_rgba_8888_sse2+0xfa>
+ .byte 117,148 // jne 1d42 <_sk_srcover_rgba_8888_sse2+0xfa>
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
.byte 102,15,126,76,178,8 // movd %xmm1,0x8(%edx,%esi,4)
.byte 102,15,214,4,178 // movq %xmm0,(%edx,%esi,4)
- .byte 235,130 // jmp 1d4e <_sk_srcover_rgba_8888_sse2+0xfa>
+ .byte 235,130 // jmp 1d42 <_sk_srcover_rgba_8888_sse2+0xfa>
.byte 102,15,110,20,178 // movd (%edx,%esi,4),%xmm2
.byte 139,69,12 // mov 0xc(%ebp),%eax
- .byte 233,185,254,255,255 // jmp 1c92 <_sk_srcover_rgba_8888_sse2+0x3e>
+ .byte 233,185,254,255,255 // jmp 1c86 <_sk_srcover_rgba_8888_sse2+0x3e>
.byte 102,15,126,4,178 // movd %xmm0,(%edx,%esi,4)
- .byte 233,107,255,255,255 // jmp 1d4e <_sk_srcover_rgba_8888_sse2+0xfa>
+ .byte 233,107,255,255,255 // jmp 1d42 <_sk_srcover_rgba_8888_sse2+0xfa>
HIDDEN _sk_clamp_0_sse2
.globl _sk_clamp_0_sse2
@@ -57557,10 +57519,10 @@ _sk_clamp_1_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 1e17 <_sk_clamp_1_sse2+0xb>
+ .byte 232,0,0,0,0 // call 1e0b <_sk_clamp_1_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
- .byte 15,40,160,233,119,0,0 // movaps 0x77e9(%eax),%xmm4
+ .byte 15,40,160,5,120,0,0 // movaps 0x7805(%eax),%xmm4
.byte 15,93,196 // minps %xmm4,%xmm0
.byte 15,93,204 // minps %xmm4,%xmm1
.byte 15,93,212 // minps %xmm4,%xmm2
@@ -57581,10 +57543,10 @@ _sk_clamp_a_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 1e4a <_sk_clamp_a_sse2+0xb>
+ .byte 232,0,0,0,0 // call 1e3e <_sk_clamp_a_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
- .byte 15,93,152,198,119,0,0 // minps 0x77c6(%eax),%xmm3
+ .byte 15,93,152,226,119,0,0 // minps 0x77e2(%eax),%xmm3
.byte 15,93,195 // minps %xmm3,%xmm0
.byte 15,93,203 // minps %xmm3,%xmm1
.byte 15,93,211 // minps %xmm3,%xmm2
@@ -57604,12 +57566,12 @@ _sk_clamp_a_dst_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 1e7a <_sk_clamp_a_dst_sse2+0xb>
+ .byte 232,0,0,0,0 // call 1e6e <_sk_clamp_a_dst_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 139,85,8 // mov 0x8(%ebp),%edx
.byte 15,40,98,64 // movaps 0x40(%edx),%xmm4
- .byte 15,93,160,166,119,0,0 // minps 0x77a6(%eax),%xmm4
+ .byte 15,93,160,194,119,0,0 // minps 0x77c2(%eax),%xmm4
.byte 15,41,98,64 // movaps %xmm4,0x40(%edx)
.byte 15,40,106,16 // movaps 0x10(%edx),%xmm5
.byte 15,93,236 // minps %xmm4,%xmm5
@@ -57680,10 +57642,10 @@ _sk_invert_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 1f25 <_sk_invert_sse2+0xb>
+ .byte 232,0,0,0,0 // call 1f19 <_sk_invert_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
- .byte 15,40,160,11,119,0,0 // movaps 0x770b(%eax),%xmm4
+ .byte 15,40,160,39,119,0,0 // movaps 0x7727(%eax),%xmm4
.byte 15,40,236 // movaps %xmm4,%xmm5
.byte 15,92,232 // subps %xmm0,%xmm5
.byte 15,40,244 // movaps %xmm4,%xmm6
@@ -57802,11 +57764,11 @@ _sk_unpremul_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 2023 <_sk_unpremul_sse2+0xb>
+ .byte 232,0,0,0,0 // call 2017 <_sk_unpremul_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 15,87,228 // xorps %xmm4,%xmm4
- .byte 15,40,168,29,118,0,0 // movaps 0x761d(%eax),%xmm5
+ .byte 15,40,168,57,118,0,0 // movaps 0x7639(%eax),%xmm5
.byte 15,94,235 // divps %xmm3,%xmm5
.byte 15,194,227,4 // cmpneqps %xmm3,%xmm4
.byte 15,84,229 // andps %xmm5,%xmm4
@@ -57833,23 +57795,23 @@ _sk_from_srgb_sse2:
.byte 15,40,234 // movaps %xmm2,%xmm5
.byte 15,40,217 // movaps %xmm1,%xmm3
.byte 15,40,208 // movaps %xmm0,%xmm2
- .byte 232,0,0,0,0 // call 206d <_sk_from_srgb_sse2+0x18>
+ .byte 232,0,0,0,0 // call 2061 <_sk_from_srgb_sse2+0x18>
.byte 88 // pop %eax
.byte 15,40,202 // movaps %xmm2,%xmm1
.byte 15,89,201 // mulps %xmm1,%xmm1
- .byte 15,40,160,243,117,0,0 // movaps 0x75f3(%eax),%xmm4
+ .byte 15,40,160,15,118,0,0 // movaps 0x760f(%eax),%xmm4
.byte 15,89,196 // mulps %xmm4,%xmm0
- .byte 15,40,176,3,118,0,0 // movaps 0x7603(%eax),%xmm6
+ .byte 15,40,176,31,118,0,0 // movaps 0x761f(%eax),%xmm6
.byte 15,41,117,216 // movaps %xmm6,-0x28(%ebp)
.byte 15,88,198 // addps %xmm6,%xmm0
.byte 15,89,193 // mulps %xmm1,%xmm0
- .byte 15,40,176,227,117,0,0 // movaps 0x75e3(%eax),%xmm6
+ .byte 15,40,176,255,117,0,0 // movaps 0x75ff(%eax),%xmm6
.byte 15,40,202 // movaps %xmm2,%xmm1
.byte 15,89,206 // mulps %xmm6,%xmm1
- .byte 15,40,184,19,118,0,0 // movaps 0x7613(%eax),%xmm7
+ .byte 15,40,184,47,118,0,0 // movaps 0x762f(%eax),%xmm7
.byte 15,41,125,232 // movaps %xmm7,-0x18(%ebp)
.byte 15,88,199 // addps %xmm7,%xmm0
- .byte 15,40,184,35,118,0,0 // movaps 0x7623(%eax),%xmm7
+ .byte 15,40,184,63,118,0,0 // movaps 0x763f(%eax),%xmm7
.byte 15,194,215,1 // cmpltps %xmm7,%xmm2
.byte 15,84,202 // andps %xmm2,%xmm1
.byte 15,85,208 // andnps %xmm0,%xmm2
@@ -57903,24 +57865,24 @@ _sk_from_srgb_dst_sse2:
.byte 15,41,85,200 // movaps %xmm2,-0x38(%ebp)
.byte 15,41,77,216 // movaps %xmm1,-0x28(%ebp)
.byte 15,41,69,232 // movaps %xmm0,-0x18(%ebp)
- .byte 232,0,0,0,0 // call 2148 <_sk_from_srgb_dst_sse2+0x1b>
+ .byte 232,0,0,0,0 // call 213c <_sk_from_srgb_dst_sse2+0x1b>
.byte 89 // pop %ecx
.byte 139,69,8 // mov 0x8(%ebp),%eax
.byte 15,40,72,16 // movaps 0x10(%eax),%xmm1
.byte 15,40,233 // movaps %xmm1,%xmm5
.byte 15,89,237 // mulps %xmm5,%xmm5
- .byte 15,40,161,104,117,0,0 // movaps 0x7568(%ecx),%xmm4
+ .byte 15,40,161,132,117,0,0 // movaps 0x7584(%ecx),%xmm4
.byte 15,40,193 // movaps %xmm1,%xmm0
.byte 15,89,196 // mulps %xmm4,%xmm0
- .byte 15,40,177,120,117,0,0 // movaps 0x7578(%ecx),%xmm6
+ .byte 15,40,177,148,117,0,0 // movaps 0x7594(%ecx),%xmm6
.byte 15,88,198 // addps %xmm6,%xmm0
.byte 15,89,197 // mulps %xmm5,%xmm0
- .byte 15,40,169,88,117,0,0 // movaps 0x7558(%ecx),%xmm5
+ .byte 15,40,169,116,117,0,0 // movaps 0x7574(%ecx),%xmm5
.byte 15,40,209 // movaps %xmm1,%xmm2
.byte 15,89,213 // mulps %xmm5,%xmm2
- .byte 15,40,185,136,117,0,0 // movaps 0x7588(%ecx),%xmm7
+ .byte 15,40,185,164,117,0,0 // movaps 0x75a4(%ecx),%xmm7
.byte 15,88,199 // addps %xmm7,%xmm0
- .byte 15,40,153,152,117,0,0 // movaps 0x7598(%ecx),%xmm3
+ .byte 15,40,153,180,117,0,0 // movaps 0x75b4(%ecx),%xmm3
.byte 15,194,203,1 // cmpltps %xmm3,%xmm1
.byte 15,84,209 // andps %xmm1,%xmm2
.byte 15,85,200 // andnps %xmm0,%xmm1
@@ -57979,28 +57941,28 @@ _sk_to_srgb_sse2:
.byte 15,40,250 // movaps %xmm2,%xmm7
.byte 15,40,241 // movaps %xmm1,%xmm6
.byte 15,40,208 // movaps %xmm0,%xmm2
- .byte 232,0,0,0,0 // call 2233 <_sk_to_srgb_sse2+0x18>
+ .byte 232,0,0,0,0 // call 2227 <_sk_to_srgb_sse2+0x18>
.byte 88 // pop %eax
.byte 15,82,218 // rsqrtps %xmm2,%xmm3
- .byte 15,40,160,205,116,0,0 // movaps 0x74cd(%eax),%xmm4
+ .byte 15,40,160,233,116,0,0 // movaps 0x74e9(%eax),%xmm4
.byte 15,40,235 // movaps %xmm3,%xmm5
.byte 15,89,236 // mulps %xmm4,%xmm5
- .byte 15,40,128,221,116,0,0 // movaps 0x74dd(%eax),%xmm0
+ .byte 15,40,128,249,116,0,0 // movaps 0x74f9(%eax),%xmm0
.byte 15,41,69,232 // movaps %xmm0,-0x18(%ebp)
.byte 15,88,232 // addps %xmm0,%xmm5
.byte 15,89,235 // mulps %xmm3,%xmm5
- .byte 15,40,128,237,116,0,0 // movaps 0x74ed(%eax),%xmm0
+ .byte 15,40,128,9,117,0,0 // movaps 0x7509(%eax),%xmm0
.byte 15,41,69,200 // movaps %xmm0,-0x38(%ebp)
.byte 15,88,232 // addps %xmm0,%xmm5
- .byte 15,40,128,253,116,0,0 // movaps 0x74fd(%eax),%xmm0
+ .byte 15,40,128,25,117,0,0 // movaps 0x7519(%eax),%xmm0
.byte 15,41,69,216 // movaps %xmm0,-0x28(%ebp)
.byte 15,88,216 // addps %xmm0,%xmm3
.byte 15,83,195 // rcpps %xmm3,%xmm0
.byte 15,89,197 // mulps %xmm5,%xmm0
- .byte 15,40,168,189,116,0,0 // movaps 0x74bd(%eax),%xmm5
+ .byte 15,40,168,217,116,0,0 // movaps 0x74d9(%eax),%xmm5
.byte 15,40,202 // movaps %xmm2,%xmm1
.byte 15,89,205 // mulps %xmm5,%xmm1
- .byte 15,40,152,13,117,0,0 // movaps 0x750d(%eax),%xmm3
+ .byte 15,40,152,41,117,0,0 // movaps 0x7529(%eax),%xmm3
.byte 15,194,211,1 // cmpltps %xmm3,%xmm2
.byte 15,84,202 // andps %xmm2,%xmm1
.byte 15,85,208 // andnps %xmm0,%xmm2
@@ -58057,7 +58019,7 @@ _sk_rgb_to_hsl_sse2:
.byte 15,41,93,200 // movaps %xmm3,-0x38(%ebp)
.byte 15,40,249 // movaps %xmm1,%xmm7
.byte 15,40,224 // movaps %xmm0,%xmm4
- .byte 232,0,0,0,0 // call 232a <_sk_rgb_to_hsl_sse2+0x15>
+ .byte 232,0,0,0,0 // call 231e <_sk_rgb_to_hsl_sse2+0x15>
.byte 88 // pop %eax
.byte 15,40,199 // movaps %xmm7,%xmm0
.byte 15,95,194 // maxps %xmm2,%xmm0
@@ -58071,14 +58033,14 @@ _sk_rgb_to_hsl_sse2:
.byte 15,40,195 // movaps %xmm3,%xmm0
.byte 15,92,193 // subps %xmm1,%xmm0
.byte 15,41,69,216 // movaps %xmm0,-0x28(%ebp)
- .byte 15,40,136,38,116,0,0 // movaps 0x7426(%eax),%xmm1
+ .byte 15,40,136,66,116,0,0 // movaps 0x7442(%eax),%xmm1
.byte 15,94,200 // divps %xmm0,%xmm1
.byte 15,40,199 // movaps %xmm7,%xmm0
.byte 15,92,194 // subps %xmm2,%xmm0
.byte 15,89,193 // mulps %xmm1,%xmm0
.byte 15,40,239 // movaps %xmm7,%xmm5
.byte 15,194,234,1 // cmpltps %xmm2,%xmm5
- .byte 15,84,168,54,116,0,0 // andps 0x7436(%eax),%xmm5
+ .byte 15,84,168,82,116,0,0 // andps 0x7452(%eax),%xmm5
.byte 15,88,232 // addps %xmm0,%xmm5
.byte 15,40,195 // movaps %xmm3,%xmm0
.byte 15,194,196,0 // cmpeqps %xmm4,%xmm0
@@ -58088,9 +58050,9 @@ _sk_rgb_to_hsl_sse2:
.byte 15,92,231 // subps %xmm7,%xmm4
.byte 15,89,209 // mulps %xmm1,%xmm2
.byte 15,89,225 // mulps %xmm1,%xmm4
- .byte 15,40,136,70,116,0,0 // movaps 0x7446(%eax),%xmm1
+ .byte 15,40,136,98,116,0,0 // movaps 0x7462(%eax),%xmm1
.byte 15,88,209 // addps %xmm1,%xmm2
- .byte 15,88,160,86,116,0,0 // addps 0x7456(%eax),%xmm4
+ .byte 15,88,160,114,116,0,0 // addps 0x7472(%eax),%xmm4
.byte 15,84,214 // andps %xmm6,%xmm2
.byte 15,85,244 // andnps %xmm4,%xmm6
.byte 15,86,242 // orps %xmm2,%xmm6
@@ -58102,7 +58064,7 @@ _sk_rgb_to_hsl_sse2:
.byte 15,194,226,4 // cmpneqps %xmm2,%xmm4
.byte 15,92,203 // subps %xmm3,%xmm1
.byte 15,88,218 // addps %xmm2,%xmm3
- .byte 15,40,168,118,116,0,0 // movaps 0x7476(%eax),%xmm5
+ .byte 15,40,168,146,116,0,0 // movaps 0x7492(%eax),%xmm5
.byte 15,92,202 // subps %xmm2,%xmm1
.byte 15,40,211 // movaps %xmm3,%xmm2
.byte 15,89,213 // mulps %xmm5,%xmm2
@@ -58112,7 +58074,7 @@ _sk_rgb_to_hsl_sse2:
.byte 15,86,233 // orps %xmm1,%xmm5
.byte 15,40,77,216 // movaps -0x28(%ebp),%xmm1
.byte 15,94,205 // divps %xmm5,%xmm1
- .byte 15,89,128,102,116,0,0 // mulps 0x7466(%eax),%xmm0
+ .byte 15,89,128,130,116,0,0 // mulps 0x7482(%eax),%xmm0
.byte 15,84,196 // andps %xmm4,%xmm0
.byte 15,84,204 // andps %xmm4,%xmm1
.byte 139,69,12 // mov 0xc(%ebp),%eax
@@ -58135,9 +58097,9 @@ _sk_hsl_to_rgb_sse2:
.byte 129,236,200,0,0,0 // sub $0xc8,%esp
.byte 15,41,157,56,255,255,255 // movaps %xmm3,-0xc8(%ebp)
.byte 15,41,69,184 // movaps %xmm0,-0x48(%ebp)
- .byte 232,0,0,0,0 // call 2425 <_sk_hsl_to_rgb_sse2+0x19>
+ .byte 232,0,0,0,0 // call 2419 <_sk_hsl_to_rgb_sse2+0x19>
.byte 88 // pop %eax
- .byte 15,40,160,139,115,0,0 // movaps 0x738b(%eax),%xmm4
+ .byte 15,40,160,167,115,0,0 // movaps 0x73a7(%eax),%xmm4
.byte 15,40,220 // movaps %xmm4,%xmm3
.byte 15,41,165,104,255,255,255 // movaps %xmm4,-0x98(%ebp)
.byte 15,194,218,2 // cmpleps %xmm2,%xmm3
@@ -58150,13 +58112,13 @@ _sk_hsl_to_rgb_sse2:
.byte 15,84,243 // andps %xmm3,%xmm6
.byte 15,85,217 // andnps %xmm1,%xmm3
.byte 15,86,222 // orps %xmm6,%xmm3
- .byte 15,40,168,155,115,0,0 // movaps 0x739b(%eax),%xmm5
+ .byte 15,40,168,183,115,0,0 // movaps 0x73b7(%eax),%xmm5
.byte 15,88,232 // addps %xmm0,%xmm5
.byte 243,15,91,205 // cvttps2dq %xmm5,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,194,193,1 // cmpltps %xmm1,%xmm0
- .byte 15,40,176,171,115,0,0 // movaps 0x73ab(%eax),%xmm6
+ .byte 15,40,176,199,115,0,0 // movaps 0x73c7(%eax),%xmm6
.byte 15,41,117,136 // movaps %xmm6,-0x78(%ebp)
.byte 15,84,198 // andps %xmm6,%xmm0
.byte 15,92,200 // subps %xmm0,%xmm1
@@ -58166,19 +58128,19 @@ _sk_hsl_to_rgb_sse2:
.byte 15,41,93,216 // movaps %xmm3,-0x28(%ebp)
.byte 15,88,210 // addps %xmm2,%xmm2
.byte 15,92,211 // subps %xmm3,%xmm2
- .byte 15,40,184,187,115,0,0 // movaps 0x73bb(%eax),%xmm7
+ .byte 15,40,184,215,115,0,0 // movaps 0x73d7(%eax),%xmm7
.byte 15,41,189,88,255,255,255 // movaps %xmm7,-0xa8(%ebp)
.byte 15,194,253,2 // cmpleps %xmm5,%xmm7
.byte 15,92,218 // subps %xmm2,%xmm3
.byte 15,41,93,200 // movaps %xmm3,-0x38(%ebp)
.byte 15,40,204 // movaps %xmm4,%xmm1
.byte 15,194,205,2 // cmpleps %xmm5,%xmm1
- .byte 15,40,160,235,115,0,0 // movaps 0x73eb(%eax),%xmm4
+ .byte 15,40,160,7,116,0,0 // movaps 0x7407(%eax),%xmm4
.byte 15,41,165,120,255,255,255 // movaps %xmm4,-0x88(%ebp)
.byte 15,194,229,2 // cmpleps %xmm5,%xmm4
- .byte 15,40,176,203,115,0,0 // movaps 0x73cb(%eax),%xmm6
+ .byte 15,40,176,231,115,0,0 // movaps 0x73e7(%eax),%xmm6
.byte 15,89,238 // mulps %xmm6,%xmm5
- .byte 15,40,128,219,115,0,0 // movaps 0x73db(%eax),%xmm0
+ .byte 15,40,128,247,115,0,0 // movaps 0x73f7(%eax),%xmm0
.byte 15,41,69,168 // movaps %xmm0,-0x58(%ebp)
.byte 15,92,197 // subps %xmm5,%xmm0
.byte 15,89,195 // mulps %xmm3,%xmm0
@@ -58204,18 +58166,18 @@ _sk_hsl_to_rgb_sse2:
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
.byte 15,40,203 // movaps %xmm3,%xmm1
.byte 15,194,200,1 // cmpltps %xmm0,%xmm1
- .byte 15,84,136,171,115,0,0 // andps 0x73ab(%eax),%xmm1
+ .byte 15,84,136,199,115,0,0 // andps 0x73c7(%eax),%xmm1
.byte 15,92,193 // subps %xmm1,%xmm0
.byte 15,40,203 // movaps %xmm3,%xmm1
.byte 15,92,200 // subps %xmm0,%xmm1
- .byte 15,40,128,187,115,0,0 // movaps 0x73bb(%eax),%xmm0
+ .byte 15,40,128,215,115,0,0 // movaps 0x73d7(%eax),%xmm0
.byte 15,194,193,2 // cmpleps %xmm1,%xmm0
- .byte 15,40,152,139,115,0,0 // movaps 0x738b(%eax),%xmm3
+ .byte 15,40,152,167,115,0,0 // movaps 0x73a7(%eax),%xmm3
.byte 15,194,217,2 // cmpleps %xmm1,%xmm3
- .byte 15,40,160,235,115,0,0 // movaps 0x73eb(%eax),%xmm4
+ .byte 15,40,160,7,116,0,0 // movaps 0x7407(%eax),%xmm4
.byte 15,194,225,2 // cmpleps %xmm1,%xmm4
.byte 15,89,206 // mulps %xmm6,%xmm1
- .byte 15,40,168,219,115,0,0 // movaps 0x73db(%eax),%xmm5
+ .byte 15,40,168,247,115,0,0 // movaps 0x73f7(%eax),%xmm5
.byte 15,92,233 // subps %xmm1,%xmm5
.byte 15,89,239 // mulps %xmm7,%xmm5
.byte 15,88,234 // addps %xmm2,%xmm5
@@ -58235,7 +58197,7 @@ _sk_hsl_to_rgb_sse2:
.byte 15,40,125,232 // movaps -0x18(%ebp),%xmm7
.byte 15,85,252 // andnps %xmm4,%xmm7
.byte 15,40,93,184 // movaps -0x48(%ebp),%xmm3
- .byte 15,88,152,251,115,0,0 // addps 0x73fb(%eax),%xmm3
+ .byte 15,88,152,23,116,0,0 // addps 0x7417(%eax),%xmm3
.byte 243,15,91,195 // cvttps2dq %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
.byte 15,40,203 // movaps %xmm3,%xmm1
@@ -58322,7 +58284,7 @@ _sk_scale_u8_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 269f <_sk_scale_u8_sse2+0xe>
+ .byte 232,0,0,0,0 // call 2693 <_sk_scale_u8_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -58333,13 +58295,13 @@ _sk_scale_u8_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,65 // jne 26fb <_sk_scale_u8_sse2+0x6a>
+ .byte 117,65 // jne 26ef <_sk_scale_u8_sse2+0x6a>
.byte 102,15,110,36,62 // movd (%esi,%edi,1),%xmm4
.byte 102,15,96,224 // punpcklbw %xmm0,%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
- .byte 102,15,219,162,145,113,0,0 // pand 0x7191(%edx),%xmm4
+ .byte 102,15,219,162,173,113,0,0 // pand 0x71ad(%edx),%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,162,161,113,0,0 // mulps 0x71a1(%edx),%xmm4
+ .byte 15,89,162,189,113,0,0 // mulps 0x71bd(%edx),%xmm4
.byte 15,89,196 // mulps %xmm4,%xmm0
.byte 15,89,204 // mulps %xmm4,%xmm1
.byte 15,89,212 // mulps %xmm4,%xmm2
@@ -58358,12 +58320,12 @@ _sk_scale_u8_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,50 // je 2735 <_sk_scale_u8_sse2+0xa4>
+ .byte 116,50 // je 2729 <_sk_scale_u8_sse2+0xa4>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,19 // je 271f <_sk_scale_u8_sse2+0x8e>
+ .byte 116,19 // je 2713 <_sk_scale_u8_sse2+0x8e>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,182 // jne 26c7 <_sk_scale_u8_sse2+0x36>
+ .byte 117,182 // jne 26bb <_sk_scale_u8_sse2+0x36>
.byte 15,182,92,62,2 // movzbl 0x2(%esi,%edi,1),%ebx
.byte 102,15,110,227 // movd %ebx,%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
@@ -58372,10 +58334,10 @@ _sk_scale_u8_sse2:
.byte 102,15,96,232 // punpcklbw %xmm0,%xmm5
.byte 102,15,97,232 // punpcklwd %xmm0,%xmm5
.byte 242,15,16,229 // movsd %xmm5,%xmm4
- .byte 235,146 // jmp 26c7 <_sk_scale_u8_sse2+0x36>
+ .byte 235,146 // jmp 26bb <_sk_scale_u8_sse2+0x36>
.byte 15,182,52,62 // movzbl (%esi,%edi,1),%esi
.byte 102,15,110,230 // movd %esi,%xmm4
- .byte 235,136 // jmp 26c7 <_sk_scale_u8_sse2+0x36>
+ .byte 235,136 // jmp 26bb <_sk_scale_u8_sse2+0x36>
HIDDEN _sk_scale_565_sse2
.globl _sk_scale_565_sse2
@@ -58390,7 +58352,7 @@ _sk_scale_565_sse2:
.byte 15,41,85,200 // movaps %xmm2,-0x38(%ebp)
.byte 15,41,77,216 // movaps %xmm1,-0x28(%ebp)
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
- .byte 232,0,0,0,0 // call 2759 <_sk_scale_565_sse2+0x1a>
+ .byte 232,0,0,0,0 // call 274d <_sk_scale_565_sse2+0x1a>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -58402,20 +58364,20 @@ _sk_scale_565_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 15,133,157,0,0,0 // jne 2817 <_sk_scale_565_sse2+0xd8>
+ .byte 15,133,157,0,0,0 // jne 280b <_sk_scale_565_sse2+0xd8>
.byte 243,15,126,52,126 // movq (%esi,%edi,2),%xmm6
.byte 102,15,97,240 // punpcklwd %xmm0,%xmm6
- .byte 102,15,111,162,247,112,0,0 // movdqa 0x70f7(%edx),%xmm4
+ .byte 102,15,111,162,19,113,0,0 // movdqa 0x7113(%edx),%xmm4
.byte 102,15,219,230 // pand %xmm6,%xmm4
.byte 15,91,212 // cvtdq2ps %xmm4,%xmm2
- .byte 15,89,146,7,113,0,0 // mulps 0x7107(%edx),%xmm2
- .byte 102,15,111,170,23,113,0,0 // movdqa 0x7117(%edx),%xmm5
+ .byte 15,89,146,35,113,0,0 // mulps 0x7123(%edx),%xmm2
+ .byte 102,15,111,170,51,113,0,0 // movdqa 0x7133(%edx),%xmm5
.byte 102,15,219,238 // pand %xmm6,%xmm5
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
- .byte 15,89,170,39,113,0,0 // mulps 0x7127(%edx),%xmm5
- .byte 102,15,219,178,55,113,0,0 // pand 0x7137(%edx),%xmm6
+ .byte 15,89,170,67,113,0,0 // mulps 0x7143(%edx),%xmm5
+ .byte 102,15,219,178,83,113,0,0 // pand 0x7153(%edx),%xmm6
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
- .byte 15,89,178,71,113,0,0 // mulps 0x7147(%edx),%xmm6
+ .byte 15,89,178,99,113,0,0 // mulps 0x7163(%edx),%xmm6
.byte 15,40,253 // movaps %xmm5,%xmm7
.byte 15,93,254 // minps %xmm6,%xmm7
.byte 15,40,226 // movaps %xmm2,%xmm4
@@ -58450,22 +58412,22 @@ _sk_scale_565_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,50 // je 2851 <_sk_scale_565_sse2+0x112>
+ .byte 116,50 // je 2845 <_sk_scale_565_sse2+0x112>
.byte 102,15,239,246 // pxor %xmm6,%xmm6
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,23 // je 283f <_sk_scale_565_sse2+0x100>
+ .byte 116,23 // je 2833 <_sk_scale_565_sse2+0x100>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 15,133,82,255,255,255 // jne 2783 <_sk_scale_565_sse2+0x44>
+ .byte 15,133,82,255,255,255 // jne 2777 <_sk_scale_565_sse2+0x44>
.byte 15,183,92,126,4 // movzwl 0x4(%esi,%edi,2),%ebx
.byte 102,15,110,227 // movd %ebx,%xmm4
.byte 102,15,112,244,69 // pshufd $0x45,%xmm4,%xmm6
.byte 102,15,110,36,126 // movd (%esi,%edi,2),%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
.byte 242,15,16,244 // movsd %xmm4,%xmm6
- .byte 233,50,255,255,255 // jmp 2783 <_sk_scale_565_sse2+0x44>
+ .byte 233,50,255,255,255 // jmp 2777 <_sk_scale_565_sse2+0x44>
.byte 15,183,52,126 // movzwl (%esi,%edi,2),%esi
.byte 102,15,110,246 // movd %esi,%xmm6
- .byte 233,37,255,255,255 // jmp 2783 <_sk_scale_565_sse2+0x44>
+ .byte 233,37,255,255,255 // jmp 2777 <_sk_scale_565_sse2+0x44>
HIDDEN _sk_lerp_1_float_sse2
.globl _sk_lerp_1_float_sse2
@@ -58514,7 +58476,7 @@ _sk_lerp_u8_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 28c6 <_sk_lerp_u8_sse2+0xe>
+ .byte 232,0,0,0,0 // call 28ba <_sk_lerp_u8_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -58525,13 +58487,13 @@ _sk_lerp_u8_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,102 // jne 2947 <_sk_lerp_u8_sse2+0x8f>
+ .byte 117,102 // jne 293b <_sk_lerp_u8_sse2+0x8f>
.byte 102,15,110,36,62 // movd (%esi,%edi,1),%xmm4
.byte 102,15,96,224 // punpcklbw %xmm0,%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
- .byte 102,15,219,162,234,111,0,0 // pand 0x6fea(%edx),%xmm4
+ .byte 102,15,219,162,6,112,0,0 // pand 0x7006(%edx),%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,162,250,111,0,0 // mulps 0x6ffa(%edx),%xmm4
+ .byte 15,89,162,22,112,0,0 // mulps 0x7016(%edx),%xmm4
.byte 15,40,105,16 // movaps 0x10(%ecx),%xmm5
.byte 15,40,113,32 // movaps 0x20(%ecx),%xmm6
.byte 15,92,197 // subps %xmm5,%xmm0
@@ -58561,12 +58523,12 @@ _sk_lerp_u8_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,53 // je 2984 <_sk_lerp_u8_sse2+0xcc>
+ .byte 116,53 // je 2978 <_sk_lerp_u8_sse2+0xcc>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,19 // je 296b <_sk_lerp_u8_sse2+0xb3>
+ .byte 116,19 // je 295f <_sk_lerp_u8_sse2+0xb3>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,145 // jne 28ee <_sk_lerp_u8_sse2+0x36>
+ .byte 117,145 // jne 28e2 <_sk_lerp_u8_sse2+0x36>
.byte 15,182,92,62,2 // movzbl 0x2(%esi,%edi,1),%ebx
.byte 102,15,110,227 // movd %ebx,%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
@@ -58575,10 +58537,10 @@ _sk_lerp_u8_sse2:
.byte 102,15,96,232 // punpcklbw %xmm0,%xmm5
.byte 102,15,97,232 // punpcklwd %xmm0,%xmm5
.byte 242,15,16,229 // movsd %xmm5,%xmm4
- .byte 233,106,255,255,255 // jmp 28ee <_sk_lerp_u8_sse2+0x36>
+ .byte 233,106,255,255,255 // jmp 28e2 <_sk_lerp_u8_sse2+0x36>
.byte 15,182,52,62 // movzbl (%esi,%edi,1),%esi
.byte 102,15,110,230 // movd %esi,%xmm4
- .byte 233,93,255,255,255 // jmp 28ee <_sk_lerp_u8_sse2+0x36>
+ .byte 233,93,255,255,255 // jmp 28e2 <_sk_lerp_u8_sse2+0x36>
HIDDEN _sk_lerp_565_sse2
.globl _sk_lerp_565_sse2
@@ -58594,7 +58556,7 @@ _sk_lerp_565_sse2:
.byte 15,41,85,136 // movaps %xmm2,-0x78(%ebp)
.byte 15,41,77,152 // movaps %xmm1,-0x68(%ebp)
.byte 102,15,127,69,184 // movdqa %xmm0,-0x48(%ebp)
- .byte 232,0,0,0,0 // call 29b0 <_sk_lerp_565_sse2+0x1f>
+ .byte 232,0,0,0,0 // call 29a4 <_sk_lerp_565_sse2+0x1f>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -58606,20 +58568,20 @@ _sk_lerp_565_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 15,133,211,0,0,0 // jne 2aa4 <_sk_lerp_565_sse2+0x113>
+ .byte 15,133,211,0,0,0 // jne 2a98 <_sk_lerp_565_sse2+0x113>
.byte 243,15,126,44,126 // movq (%esi,%edi,2),%xmm5
.byte 102,15,97,232 // punpcklwd %xmm0,%xmm5
- .byte 102,15,111,162,32,111,0,0 // movdqa 0x6f20(%edx),%xmm4
+ .byte 102,15,111,162,60,111,0,0 // movdqa 0x6f3c(%edx),%xmm4
.byte 102,15,219,229 // pand %xmm5,%xmm4
.byte 15,91,204 // cvtdq2ps %xmm4,%xmm1
- .byte 15,89,138,48,111,0,0 // mulps 0x6f30(%edx),%xmm1
- .byte 102,15,111,178,64,111,0,0 // movdqa 0x6f40(%edx),%xmm6
+ .byte 15,89,138,76,111,0,0 // mulps 0x6f4c(%edx),%xmm1
+ .byte 102,15,111,178,92,111,0,0 // movdqa 0x6f5c(%edx),%xmm6
.byte 102,15,219,245 // pand %xmm5,%xmm6
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
- .byte 15,89,178,80,111,0,0 // mulps 0x6f50(%edx),%xmm6
- .byte 102,15,219,170,96,111,0,0 // pand 0x6f60(%edx),%xmm5
+ .byte 15,89,178,108,111,0,0 // mulps 0x6f6c(%edx),%xmm6
+ .byte 102,15,219,170,124,111,0,0 // pand 0x6f7c(%edx),%xmm5
.byte 15,91,213 // cvtdq2ps %xmm5,%xmm2
- .byte 15,89,146,112,111,0,0 // mulps 0x6f70(%edx),%xmm2
+ .byte 15,89,146,140,111,0,0 // mulps 0x6f8c(%edx),%xmm2
.byte 15,40,218 // movaps %xmm2,%xmm3
.byte 15,41,93,200 // movaps %xmm3,-0x38(%ebp)
.byte 15,40,254 // movaps %xmm6,%xmm7
@@ -58669,22 +58631,22 @@ _sk_lerp_565_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,50 // je 2ade <_sk_lerp_565_sse2+0x14d>
+ .byte 116,50 // je 2ad2 <_sk_lerp_565_sse2+0x14d>
.byte 102,15,239,237 // pxor %xmm5,%xmm5
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,23 // je 2acc <_sk_lerp_565_sse2+0x13b>
+ .byte 116,23 // je 2ac0 <_sk_lerp_565_sse2+0x13b>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 15,133,28,255,255,255 // jne 29da <_sk_lerp_565_sse2+0x49>
+ .byte 15,133,28,255,255,255 // jne 29ce <_sk_lerp_565_sse2+0x49>
.byte 15,183,92,126,4 // movzwl 0x4(%esi,%edi,2),%ebx
.byte 102,15,110,227 // movd %ebx,%xmm4
.byte 102,15,112,236,69 // pshufd $0x45,%xmm4,%xmm5
.byte 102,15,110,36,126 // movd (%esi,%edi,2),%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
.byte 242,15,16,236 // movsd %xmm4,%xmm5
- .byte 233,252,254,255,255 // jmp 29da <_sk_lerp_565_sse2+0x49>
+ .byte 233,252,254,255,255 // jmp 29ce <_sk_lerp_565_sse2+0x49>
.byte 15,183,52,126 // movzwl (%esi,%edi,2),%esi
.byte 102,15,110,238 // movd %esi,%xmm5
- .byte 233,239,254,255,255 // jmp 29da <_sk_lerp_565_sse2+0x49>
+ .byte 233,239,254,255,255 // jmp 29ce <_sk_lerp_565_sse2+0x49>
HIDDEN _sk_load_tables_sse2
.globl _sk_load_tables_sse2
@@ -58696,7 +58658,7 @@ _sk_load_tables_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 2af9 <_sk_load_tables_sse2+0xe>
+ .byte 232,0,0,0,0 // call 2aed <_sk_load_tables_sse2+0xe>
.byte 90 // pop %edx
.byte 139,117,12 // mov 0xc(%ebp),%esi
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -58705,9 +58667,9 @@ _sk_load_tables_sse2:
.byte 133,192 // test %eax,%eax
.byte 139,54 // mov (%esi),%esi
.byte 139,30 // mov (%esi),%ebx
- .byte 15,133,19,1,0,0 // jne 2c24 <_sk_load_tables_sse2+0x139>
+ .byte 15,133,19,1,0,0 // jne 2c18 <_sk_load_tables_sse2+0x139>
.byte 243,15,111,28,187 // movdqu (%ebx,%edi,4),%xmm3
- .byte 102,15,111,146,55,110,0,0 // movdqa 0x6e37(%edx),%xmm2
+ .byte 102,15,111,146,83,110,0,0 // movdqa 0x6e53(%edx),%xmm2
.byte 102,15,111,195 // movdqa %xmm3,%xmm0
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 102,15,112,200,229 // pshufd $0xe5,%xmm0,%xmm1
@@ -58763,7 +58725,7 @@ _sk_load_tables_sse2:
.byte 15,20,215 // unpcklps %xmm7,%xmm2
.byte 102,15,114,211,24 // psrld $0x18,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
- .byte 15,89,154,71,110,0,0 // mulps 0x6e47(%edx),%xmm3
+ .byte 15,89,154,99,110,0,0 // mulps 0x6e63(%edx),%xmm3
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 137,194 // mov %eax,%edx
.byte 141,66,8 // lea 0x8(%edx),%eax
@@ -58779,18 +58741,18 @@ _sk_load_tables_sse2:
.byte 195 // ret
.byte 36,3 // and $0x3,%al
.byte 60,1 // cmp $0x1,%al
- .byte 116,37 // je 2c4f <_sk_load_tables_sse2+0x164>
+ .byte 116,37 // je 2c43 <_sk_load_tables_sse2+0x164>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 60,2 // cmp $0x2,%al
- .byte 116,19 // je 2c45 <_sk_load_tables_sse2+0x15a>
+ .byte 116,19 // je 2c39 <_sk_load_tables_sse2+0x15a>
.byte 60,3 // cmp $0x3,%al
- .byte 15,133,220,254,255,255 // jne 2b16 <_sk_load_tables_sse2+0x2b>
+ .byte 15,133,220,254,255,255 // jne 2b0a <_sk_load_tables_sse2+0x2b>
.byte 102,15,110,68,187,8 // movd 0x8(%ebx,%edi,4),%xmm0
.byte 102,15,112,216,69 // pshufd $0x45,%xmm0,%xmm3
.byte 102,15,18,28,187 // movlpd (%ebx,%edi,4),%xmm3
- .byte 233,199,254,255,255 // jmp 2b16 <_sk_load_tables_sse2+0x2b>
+ .byte 233,199,254,255,255 // jmp 2b0a <_sk_load_tables_sse2+0x2b>
.byte 102,15,110,28,187 // movd (%ebx,%edi,4),%xmm3
- .byte 233,189,254,255,255 // jmp 2b16 <_sk_load_tables_sse2+0x2b>
+ .byte 233,189,254,255,255 // jmp 2b0a <_sk_load_tables_sse2+0x2b>
HIDDEN _sk_load_tables_u16_be_sse2
.globl _sk_load_tables_u16_be_sse2
@@ -58802,7 +58764,7 @@ _sk_load_tables_u16_be_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,44 // sub $0x2c,%esp
- .byte 232,0,0,0,0 // call 2c67 <_sk_load_tables_u16_be_sse2+0xe>
+ .byte 232,0,0,0,0 // call 2c5b <_sk_load_tables_u16_be_sse2+0xe>
.byte 90 // pop %edx
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 139,69,8 // mov 0x8(%ebp),%eax
@@ -58813,7 +58775,7 @@ _sk_load_tables_u16_be_sse2:
.byte 139,57 // mov (%ecx),%edi
.byte 139,15 // mov (%edi),%ecx
.byte 190,255,0,255,0 // mov $0xff00ff,%esi
- .byte 15,133,166,1,0,0 // jne 2e2d <_sk_load_tables_u16_be_sse2+0x1d4>
+ .byte 15,133,166,1,0,0 // jne 2e21 <_sk_load_tables_u16_be_sse2+0x1d4>
.byte 102,15,16,4,89 // movupd (%ecx,%ebx,2),%xmm0
.byte 243,15,111,76,89,16 // movdqu 0x10(%ecx,%ebx,2),%xmm1
.byte 102,15,40,216 // movapd %xmm0,%xmm3
@@ -58910,7 +58872,7 @@ _sk_load_tables_u16_be_sse2:
.byte 243,15,126,93,208 // movq -0x30(%ebp),%xmm3
.byte 102,15,97,223 // punpcklwd %xmm7,%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
- .byte 15,89,154,233,108,0,0 // mulps 0x6ce9(%edx),%xmm3
+ .byte 15,89,154,5,109,0,0 // mulps 0x6d05(%edx),%xmm3
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 137,193 // mov %eax,%ecx
.byte 141,65,8 // lea 0x8(%ecx),%eax
@@ -58927,12 +58889,12 @@ _sk_load_tables_u16_be_sse2:
.byte 242,15,16,4,89 // movsd (%ecx,%ebx,2),%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 131,248,1 // cmp $0x1,%eax
- .byte 15,132,83,254,255,255 // je 2c92 <_sk_load_tables_u16_be_sse2+0x39>
+ .byte 15,132,83,254,255,255 // je 2c86 <_sk_load_tables_u16_be_sse2+0x39>
.byte 102,15,22,68,89,8 // movhpd 0x8(%ecx,%ebx,2),%xmm0
.byte 131,248,3 // cmp $0x3,%eax
- .byte 15,130,68,254,255,255 // jb 2c92 <_sk_load_tables_u16_be_sse2+0x39>
+ .byte 15,130,68,254,255,255 // jb 2c86 <_sk_load_tables_u16_be_sse2+0x39>
.byte 243,15,126,76,89,16 // movq 0x10(%ecx,%ebx,2),%xmm1
- .byte 233,57,254,255,255 // jmp 2c92 <_sk_load_tables_u16_be_sse2+0x39>
+ .byte 233,57,254,255,255 // jmp 2c86 <_sk_load_tables_u16_be_sse2+0x39>
HIDDEN _sk_load_tables_rgb_u16_be_sse2
.globl _sk_load_tables_rgb_u16_be_sse2
@@ -58944,7 +58906,7 @@ _sk_load_tables_rgb_u16_be_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,28 // sub $0x1c,%esp
- .byte 232,0,0,0,0 // call 2e67 <_sk_load_tables_rgb_u16_be_sse2+0xe>
+ .byte 232,0,0,0,0 // call 2e5b <_sk_load_tables_rgb_u16_be_sse2+0xe>
.byte 88 // pop %eax
.byte 137,69,240 // mov %eax,-0x10(%ebp)
.byte 139,69,12 // mov 0xc(%ebp),%eax
@@ -58955,7 +58917,7 @@ _sk_load_tables_rgb_u16_be_sse2:
.byte 139,56 // mov (%eax),%edi
.byte 139,7 // mov (%edi),%eax
.byte 190,255,0,255,0 // mov $0xff00ff,%esi
- .byte 15,133,141,1,0,0 // jne 3015 <_sk_load_tables_rgb_u16_be_sse2+0x1bc>
+ .byte 15,133,141,1,0,0 // jne 3009 <_sk_load_tables_rgb_u16_be_sse2+0x1bc>
.byte 243,15,111,12,88 // movdqu (%eax,%ebx,2),%xmm1
.byte 243,15,111,92,88,8 // movdqu 0x8(%eax,%ebx,2),%xmm3
.byte 102,15,115,219,4 // psrldq $0x4,%xmm3
@@ -59049,7 +59011,7 @@ _sk_load_tables_rgb_u16_be_sse2:
.byte 141,65,8 // lea 0x8(%ecx),%eax
.byte 131,236,8 // sub $0x8,%esp
.byte 139,85,240 // mov -0x10(%ebp),%edx
- .byte 15,40,162,249,106,0,0 // movaps 0x6af9(%edx),%xmm4
+ .byte 15,40,162,21,107,0,0 // movaps 0x6b15(%edx),%xmm4
.byte 15,40,195 // movaps %xmm3,%xmm0
.byte 15,40,220 // movaps %xmm4,%xmm3
.byte 80 // push %eax
@@ -59065,20 +59027,20 @@ _sk_load_tables_rgb_u16_be_sse2:
.byte 102,15,196,76,88,4,2 // pinsrw $0x2,0x4(%eax,%ebx,2),%xmm1
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 131,249,1 // cmp $0x1,%ecx
- .byte 117,13 // jne 3037 <_sk_load_tables_rgb_u16_be_sse2+0x1de>
+ .byte 117,13 // jne 302b <_sk_load_tables_rgb_u16_be_sse2+0x1de>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 233,115,254,255,255 // jmp 2eaa <_sk_load_tables_rgb_u16_be_sse2+0x51>
+ .byte 233,115,254,255,255 // jmp 2e9e <_sk_load_tables_rgb_u16_be_sse2+0x51>
.byte 102,15,110,68,88,6 // movd 0x6(%eax,%ebx,2),%xmm0
.byte 102,15,196,68,88,10,2 // pinsrw $0x2,0xa(%eax,%ebx,2),%xmm0
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 131,249,3 // cmp $0x3,%ecx
- .byte 114,18 // jb 305f <_sk_load_tables_rgb_u16_be_sse2+0x206>
+ .byte 114,18 // jb 3053 <_sk_load_tables_rgb_u16_be_sse2+0x206>
.byte 102,15,110,92,88,12 // movd 0xc(%eax,%ebx,2),%xmm3
.byte 102,15,196,92,88,16,2 // pinsrw $0x2,0x10(%eax,%ebx,2),%xmm3
- .byte 233,75,254,255,255 // jmp 2eaa <_sk_load_tables_rgb_u16_be_sse2+0x51>
+ .byte 233,75,254,255,255 // jmp 2e9e <_sk_load_tables_rgb_u16_be_sse2+0x51>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
- .byte 233,66,254,255,255 // jmp 2eaa <_sk_load_tables_rgb_u16_be_sse2+0x51>
+ .byte 233,66,254,255,255 // jmp 2e9e <_sk_load_tables_rgb_u16_be_sse2+0x51>
HIDDEN _sk_byte_tables_sse2
.globl _sk_byte_tables_sse2
@@ -59090,11 +59052,11 @@ _sk_byte_tables_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 3076 <_sk_byte_tables_sse2+0xe>
+ .byte 232,0,0,0,0 // call 306a <_sk_byte_tables_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,8 // mov (%eax),%ecx
- .byte 15,40,162,250,104,0,0 // movaps 0x68fa(%edx),%xmm4
+ .byte 15,40,162,22,105,0,0 // movaps 0x6916(%edx),%xmm4
.byte 15,89,196 // mulps %xmm4,%xmm0
.byte 102,15,91,192 // cvtps2dq %xmm0,%xmm0
.byte 102,15,112,232,78 // pshufd $0x4e,%xmm0,%xmm5
@@ -59116,7 +59078,7 @@ _sk_byte_tables_sse2:
.byte 102,15,196,192,0 // pinsrw $0x0,%eax,%xmm0
.byte 139,65,4 // mov 0x4(%ecx),%eax
.byte 102,15,196,195,1 // pinsrw $0x1,%ebx,%xmm0
- .byte 15,40,170,10,105,0,0 // movaps 0x690a(%edx),%xmm5
+ .byte 15,40,170,38,105,0,0 // movaps 0x6926(%edx),%xmm5
.byte 15,89,204 // mulps %xmm4,%xmm1
.byte 102,15,91,201 // cvtps2dq %xmm1,%xmm1
.byte 102,15,112,241,78 // pshufd $0x4e,%xmm1,%xmm6
@@ -59241,12 +59203,12 @@ _sk_byte_tables_rgb_sse2:
.byte 15,182,60,31 // movzbl (%edi,%ebx,1),%edi
.byte 193,231,8 // shl $0x8,%edi
.byte 9,215 // or %edx,%edi
- .byte 232,0,0,0,0 // call 3276 <_sk_byte_tables_rgb_sse2+0x65>
+ .byte 232,0,0,0,0 // call 326a <_sk_byte_tables_rgb_sse2+0x65>
.byte 90 // pop %edx
.byte 102,15,196,199,0 // pinsrw $0x0,%edi,%xmm0
.byte 139,121,4 // mov 0x4(%ecx),%edi
.byte 102,15,196,198,1 // pinsrw $0x1,%esi,%xmm0
- .byte 15,40,170,26,103,0,0 // movaps 0x671a(%edx),%xmm5
+ .byte 15,40,170,54,103,0,0 // movaps 0x6736(%edx),%xmm5
.byte 15,89,204 // mulps %xmm4,%xmm1
.byte 102,15,91,201 // cvtps2dq %xmm1,%xmm1
.byte 102,15,112,241,78 // pshufd $0x4e,%xmm1,%xmm6
@@ -59482,7 +59444,7 @@ _sk_parametric_r_sse2:
.byte 15,40,218 // movaps %xmm2,%xmm3
.byte 15,40,209 // movaps %xmm1,%xmm2
.byte 15,40,200 // movaps %xmm0,%xmm1
- .byte 232,0,0,0,0 // call 3545 <_sk_parametric_r_sse2+0x18>
+ .byte 232,0,0,0,0 // call 3539 <_sk_parametric_r_sse2+0x18>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,8 // mov (%eax),%ecx
@@ -59502,15 +59464,15 @@ _sk_parametric_r_sse2:
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
.byte 15,88,245 // addps %xmm5,%xmm6
.byte 15,91,238 // cvtdq2ps %xmm6,%xmm5
- .byte 15,89,170,91,100,0,0 // mulps 0x645b(%edx),%xmm5
- .byte 15,84,178,107,100,0,0 // andps 0x646b(%edx),%xmm6
- .byte 15,86,178,123,100,0,0 // orps 0x647b(%edx),%xmm6
- .byte 15,88,170,139,100,0,0 // addps 0x648b(%edx),%xmm5
- .byte 15,40,186,155,100,0,0 // movaps 0x649b(%edx),%xmm7
+ .byte 15,89,170,119,100,0,0 // mulps 0x6477(%edx),%xmm5
+ .byte 15,84,178,135,100,0,0 // andps 0x6487(%edx),%xmm6
+ .byte 15,86,178,151,100,0,0 // orps 0x6497(%edx),%xmm6
+ .byte 15,88,170,167,100,0,0 // addps 0x64a7(%edx),%xmm5
+ .byte 15,40,186,183,100,0,0 // movaps 0x64b7(%edx),%xmm7
.byte 15,89,254 // mulps %xmm6,%xmm7
.byte 15,92,239 // subps %xmm7,%xmm5
- .byte 15,88,178,171,100,0,0 // addps 0x64ab(%edx),%xmm6
- .byte 15,40,186,187,100,0,0 // movaps 0x64bb(%edx),%xmm7
+ .byte 15,88,178,199,100,0,0 // addps 0x64c7(%edx),%xmm6
+ .byte 15,40,186,215,100,0,0 // movaps 0x64d7(%edx),%xmm7
.byte 15,94,254 // divps %xmm6,%xmm7
.byte 243,15,16,49 // movss (%ecx),%xmm6
.byte 15,198,246,0 // shufps $0x0,%xmm6,%xmm6
@@ -59520,21 +59482,21 @@ _sk_parametric_r_sse2:
.byte 15,91,254 // cvtdq2ps %xmm6,%xmm7
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,194,199,1 // cmpltps %xmm7,%xmm0
- .byte 15,40,178,203,100,0,0 // movaps 0x64cb(%edx),%xmm6
+ .byte 15,40,178,231,100,0,0 // movaps 0x64e7(%edx),%xmm6
.byte 15,84,198 // andps %xmm6,%xmm0
.byte 15,92,248 // subps %xmm0,%xmm7
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,92,199 // subps %xmm7,%xmm0
- .byte 15,88,170,219,100,0,0 // addps 0x64db(%edx),%xmm5
- .byte 15,40,186,235,100,0,0 // movaps 0x64eb(%edx),%xmm7
+ .byte 15,88,170,247,100,0,0 // addps 0x64f7(%edx),%xmm5
+ .byte 15,40,186,7,101,0,0 // movaps 0x6507(%edx),%xmm7
.byte 15,89,248 // mulps %xmm0,%xmm7
.byte 15,92,239 // subps %xmm7,%xmm5
- .byte 15,40,186,251,100,0,0 // movaps 0x64fb(%edx),%xmm7
+ .byte 15,40,186,23,101,0,0 // movaps 0x6517(%edx),%xmm7
.byte 15,92,248 // subps %xmm0,%xmm7
- .byte 15,40,130,11,101,0,0 // movaps 0x650b(%edx),%xmm0
+ .byte 15,40,130,39,101,0,0 // movaps 0x6527(%edx),%xmm0
.byte 15,94,199 // divps %xmm7,%xmm0
.byte 15,88,197 // addps %xmm5,%xmm0
- .byte 15,89,130,27,101,0,0 // mulps 0x651b(%edx),%xmm0
+ .byte 15,89,130,55,101,0,0 // mulps 0x6537(%edx),%xmm0
.byte 102,15,91,192 // cvtps2dq %xmm0,%xmm0
.byte 243,15,16,105,20 // movss 0x14(%ecx),%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
@@ -59568,7 +59530,7 @@ _sk_parametric_g_sse2:
.byte 15,41,93,232 // movaps %xmm3,-0x18(%ebp)
.byte 15,40,218 // movaps %xmm2,%xmm3
.byte 15,40,208 // movaps %xmm0,%xmm2
- .byte 232,0,0,0,0 // call 367c <_sk_parametric_g_sse2+0x15>
+ .byte 232,0,0,0,0 // call 3670 <_sk_parametric_g_sse2+0x15>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,8 // mov (%eax),%ecx
@@ -59588,15 +59550,15 @@ _sk_parametric_g_sse2:
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
.byte 15,88,245 // addps %xmm5,%xmm6
.byte 15,91,238 // cvtdq2ps %xmm6,%xmm5
- .byte 15,89,170,244,99,0,0 // mulps 0x63f4(%edx),%xmm5
- .byte 15,84,178,4,100,0,0 // andps 0x6404(%edx),%xmm6
- .byte 15,86,178,20,100,0,0 // orps 0x6414(%edx),%xmm6
- .byte 15,88,170,36,100,0,0 // addps 0x6424(%edx),%xmm5
- .byte 15,40,186,52,100,0,0 // movaps 0x6434(%edx),%xmm7
+ .byte 15,89,170,16,100,0,0 // mulps 0x6410(%edx),%xmm5
+ .byte 15,84,178,32,100,0,0 // andps 0x6420(%edx),%xmm6
+ .byte 15,86,178,48,100,0,0 // orps 0x6430(%edx),%xmm6
+ .byte 15,88,170,64,100,0,0 // addps 0x6440(%edx),%xmm5
+ .byte 15,40,186,80,100,0,0 // movaps 0x6450(%edx),%xmm7
.byte 15,89,254 // mulps %xmm6,%xmm7
.byte 15,92,239 // subps %xmm7,%xmm5
- .byte 15,88,178,68,100,0,0 // addps 0x6444(%edx),%xmm6
- .byte 15,40,186,84,100,0,0 // movaps 0x6454(%edx),%xmm7
+ .byte 15,88,178,96,100,0,0 // addps 0x6460(%edx),%xmm6
+ .byte 15,40,186,112,100,0,0 // movaps 0x6470(%edx),%xmm7
.byte 15,94,254 // divps %xmm6,%xmm7
.byte 243,15,16,49 // movss (%ecx),%xmm6
.byte 15,198,246,0 // shufps $0x0,%xmm6,%xmm6
@@ -59606,21 +59568,21 @@ _sk_parametric_g_sse2:
.byte 15,91,254 // cvtdq2ps %xmm6,%xmm7
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,194,199,1 // cmpltps %xmm7,%xmm0
- .byte 15,40,178,100,100,0,0 // movaps 0x6464(%edx),%xmm6
+ .byte 15,40,178,128,100,0,0 // movaps 0x6480(%edx),%xmm6
.byte 15,84,198 // andps %xmm6,%xmm0
.byte 15,92,248 // subps %xmm0,%xmm7
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,92,199 // subps %xmm7,%xmm0
- .byte 15,88,170,116,100,0,0 // addps 0x6474(%edx),%xmm5
- .byte 15,40,186,132,100,0,0 // movaps 0x6484(%edx),%xmm7
+ .byte 15,88,170,144,100,0,0 // addps 0x6490(%edx),%xmm5
+ .byte 15,40,186,160,100,0,0 // movaps 0x64a0(%edx),%xmm7
.byte 15,89,248 // mulps %xmm0,%xmm7
.byte 15,92,239 // subps %xmm7,%xmm5
- .byte 15,40,186,148,100,0,0 // movaps 0x6494(%edx),%xmm7
+ .byte 15,40,186,176,100,0,0 // movaps 0x64b0(%edx),%xmm7
.byte 15,92,248 // subps %xmm0,%xmm7
- .byte 15,40,130,164,100,0,0 // movaps 0x64a4(%edx),%xmm0
+ .byte 15,40,130,192,100,0,0 // movaps 0x64c0(%edx),%xmm0
.byte 15,94,199 // divps %xmm7,%xmm0
.byte 15,88,197 // addps %xmm5,%xmm0
- .byte 15,89,130,180,100,0,0 // mulps 0x64b4(%edx),%xmm0
+ .byte 15,89,130,208,100,0,0 // mulps 0x64d0(%edx),%xmm0
.byte 102,15,91,192 // cvtps2dq %xmm0,%xmm0
.byte 243,15,16,105,20 // movss 0x14(%ecx),%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
@@ -59653,7 +59615,7 @@ _sk_parametric_b_sse2:
.byte 15,41,93,232 // movaps %xmm3,-0x18(%ebp)
.byte 15,40,217 // movaps %xmm1,%xmm3
.byte 15,40,200 // movaps %xmm0,%xmm1
- .byte 232,0,0,0,0 // call 37b0 <_sk_parametric_b_sse2+0x15>
+ .byte 232,0,0,0,0 // call 37a4 <_sk_parametric_b_sse2+0x15>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,8 // mov (%eax),%ecx
@@ -59673,15 +59635,15 @@ _sk_parametric_b_sse2:
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
.byte 15,88,245 // addps %xmm5,%xmm6
.byte 15,91,238 // cvtdq2ps %xmm6,%xmm5
- .byte 15,89,170,144,99,0,0 // mulps 0x6390(%edx),%xmm5
- .byte 15,84,178,160,99,0,0 // andps 0x63a0(%edx),%xmm6
- .byte 15,86,178,176,99,0,0 // orps 0x63b0(%edx),%xmm6
- .byte 15,88,170,192,99,0,0 // addps 0x63c0(%edx),%xmm5
- .byte 15,40,186,208,99,0,0 // movaps 0x63d0(%edx),%xmm7
+ .byte 15,89,170,172,99,0,0 // mulps 0x63ac(%edx),%xmm5
+ .byte 15,84,178,188,99,0,0 // andps 0x63bc(%edx),%xmm6
+ .byte 15,86,178,204,99,0,0 // orps 0x63cc(%edx),%xmm6
+ .byte 15,88,170,220,99,0,0 // addps 0x63dc(%edx),%xmm5
+ .byte 15,40,186,236,99,0,0 // movaps 0x63ec(%edx),%xmm7
.byte 15,89,254 // mulps %xmm6,%xmm7
.byte 15,92,239 // subps %xmm7,%xmm5
- .byte 15,88,178,224,99,0,0 // addps 0x63e0(%edx),%xmm6
- .byte 15,40,186,240,99,0,0 // movaps 0x63f0(%edx),%xmm7
+ .byte 15,88,178,252,99,0,0 // addps 0x63fc(%edx),%xmm6
+ .byte 15,40,186,12,100,0,0 // movaps 0x640c(%edx),%xmm7
.byte 15,94,254 // divps %xmm6,%xmm7
.byte 243,15,16,49 // movss (%ecx),%xmm6
.byte 15,198,246,0 // shufps $0x0,%xmm6,%xmm6
@@ -59691,21 +59653,21 @@ _sk_parametric_b_sse2:
.byte 15,91,254 // cvtdq2ps %xmm6,%xmm7
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,194,199,1 // cmpltps %xmm7,%xmm0
- .byte 15,40,178,0,100,0,0 // movaps 0x6400(%edx),%xmm6
+ .byte 15,40,178,28,100,0,0 // movaps 0x641c(%edx),%xmm6
.byte 15,84,198 // andps %xmm6,%xmm0
.byte 15,92,248 // subps %xmm0,%xmm7
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,92,199 // subps %xmm7,%xmm0
- .byte 15,88,170,16,100,0,0 // addps 0x6410(%edx),%xmm5
- .byte 15,40,186,32,100,0,0 // movaps 0x6420(%edx),%xmm7
+ .byte 15,88,170,44,100,0,0 // addps 0x642c(%edx),%xmm5
+ .byte 15,40,186,60,100,0,0 // movaps 0x643c(%edx),%xmm7
.byte 15,89,248 // mulps %xmm0,%xmm7
.byte 15,92,239 // subps %xmm7,%xmm5
- .byte 15,40,186,48,100,0,0 // movaps 0x6430(%edx),%xmm7
+ .byte 15,40,186,76,100,0,0 // movaps 0x644c(%edx),%xmm7
.byte 15,92,248 // subps %xmm0,%xmm7
- .byte 15,40,130,64,100,0,0 // movaps 0x6440(%edx),%xmm0
+ .byte 15,40,130,92,100,0,0 // movaps 0x645c(%edx),%xmm0
.byte 15,94,199 // divps %xmm7,%xmm0
.byte 15,88,197 // addps %xmm5,%xmm0
- .byte 15,89,130,80,100,0,0 // mulps 0x6450(%edx),%xmm0
+ .byte 15,89,130,108,100,0,0 // mulps 0x646c(%edx),%xmm0
.byte 102,15,91,192 // cvtps2dq %xmm0,%xmm0
.byte 243,15,16,105,20 // movss 0x14(%ecx),%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
@@ -59738,7 +59700,7 @@ _sk_parametric_a_sse2:
.byte 15,41,85,232 // movaps %xmm2,-0x18(%ebp)
.byte 15,40,209 // movaps %xmm1,%xmm2
.byte 15,40,200 // movaps %xmm0,%xmm1
- .byte 232,0,0,0,0 // call 38e4 <_sk_parametric_a_sse2+0x15>
+ .byte 232,0,0,0,0 // call 38d8 <_sk_parametric_a_sse2+0x15>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,8 // mov (%eax),%ecx
@@ -59758,15 +59720,15 @@ _sk_parametric_a_sse2:
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
.byte 15,88,245 // addps %xmm5,%xmm6
.byte 15,91,238 // cvtdq2ps %xmm6,%xmm5
- .byte 15,89,170,44,99,0,0 // mulps 0x632c(%edx),%xmm5
- .byte 15,84,178,60,99,0,0 // andps 0x633c(%edx),%xmm6
- .byte 15,86,178,76,99,0,0 // orps 0x634c(%edx),%xmm6
- .byte 15,88,170,92,99,0,0 // addps 0x635c(%edx),%xmm5
- .byte 15,40,186,108,99,0,0 // movaps 0x636c(%edx),%xmm7
+ .byte 15,89,170,72,99,0,0 // mulps 0x6348(%edx),%xmm5
+ .byte 15,84,178,88,99,0,0 // andps 0x6358(%edx),%xmm6
+ .byte 15,86,178,104,99,0,0 // orps 0x6368(%edx),%xmm6
+ .byte 15,88,170,120,99,0,0 // addps 0x6378(%edx),%xmm5
+ .byte 15,40,186,136,99,0,0 // movaps 0x6388(%edx),%xmm7
.byte 15,89,254 // mulps %xmm6,%xmm7
.byte 15,92,239 // subps %xmm7,%xmm5
- .byte 15,88,178,124,99,0,0 // addps 0x637c(%edx),%xmm6
- .byte 15,40,186,140,99,0,0 // movaps 0x638c(%edx),%xmm7
+ .byte 15,88,178,152,99,0,0 // addps 0x6398(%edx),%xmm6
+ .byte 15,40,186,168,99,0,0 // movaps 0x63a8(%edx),%xmm7
.byte 15,94,254 // divps %xmm6,%xmm7
.byte 243,15,16,49 // movss (%ecx),%xmm6
.byte 15,198,246,0 // shufps $0x0,%xmm6,%xmm6
@@ -59776,21 +59738,21 @@ _sk_parametric_a_sse2:
.byte 15,91,254 // cvtdq2ps %xmm6,%xmm7
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,194,199,1 // cmpltps %xmm7,%xmm0
- .byte 15,40,178,156,99,0,0 // movaps 0x639c(%edx),%xmm6
+ .byte 15,40,178,184,99,0,0 // movaps 0x63b8(%edx),%xmm6
.byte 15,84,198 // andps %xmm6,%xmm0
.byte 15,92,248 // subps %xmm0,%xmm7
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,92,199 // subps %xmm7,%xmm0
- .byte 15,88,170,172,99,0,0 // addps 0x63ac(%edx),%xmm5
- .byte 15,40,186,188,99,0,0 // movaps 0x63bc(%edx),%xmm7
+ .byte 15,88,170,200,99,0,0 // addps 0x63c8(%edx),%xmm5
+ .byte 15,40,186,216,99,0,0 // movaps 0x63d8(%edx),%xmm7
.byte 15,89,248 // mulps %xmm0,%xmm7
.byte 15,92,239 // subps %xmm7,%xmm5
- .byte 15,40,186,204,99,0,0 // movaps 0x63cc(%edx),%xmm7
+ .byte 15,40,186,232,99,0,0 // movaps 0x63e8(%edx),%xmm7
.byte 15,92,248 // subps %xmm0,%xmm7
- .byte 15,40,130,220,99,0,0 // movaps 0x63dc(%edx),%xmm0
+ .byte 15,40,130,248,99,0,0 // movaps 0x63f8(%edx),%xmm0
.byte 15,94,199 // divps %xmm7,%xmm0
.byte 15,88,197 // addps %xmm5,%xmm0
- .byte 15,89,130,236,99,0,0 // mulps 0x63ec(%edx),%xmm0
+ .byte 15,89,130,8,100,0,0 // mulps 0x6408(%edx),%xmm0
.byte 102,15,91,192 // cvtps2dq %xmm0,%xmm0
.byte 243,15,16,105,20 // movss 0x14(%ecx),%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
@@ -59822,18 +59784,18 @@ _sk_gamma_sse2:
.byte 131,236,40 // sub $0x28,%esp
.byte 15,41,93,216 // movaps %xmm3,-0x28(%ebp)
.byte 15,40,216 // movaps %xmm0,%xmm3
- .byte 232,0,0,0,0 // call 3a15 <_sk_gamma_sse2+0x12>
+ .byte 232,0,0,0,0 // call 3a09 <_sk_gamma_sse2+0x12>
.byte 88 // pop %eax
.byte 15,91,195 // cvtdq2ps %xmm3,%xmm0
- .byte 15,89,128,203,98,0,0 // mulps 0x62cb(%eax),%xmm0
- .byte 15,84,152,219,98,0,0 // andps 0x62db(%eax),%xmm3
- .byte 15,86,152,235,98,0,0 // orps 0x62eb(%eax),%xmm3
- .byte 15,88,128,251,98,0,0 // addps 0x62fb(%eax),%xmm0
+ .byte 15,89,128,231,98,0,0 // mulps 0x62e7(%eax),%xmm0
+ .byte 15,84,152,247,98,0,0 // andps 0x62f7(%eax),%xmm3
+ .byte 15,86,152,7,99,0,0 // orps 0x6307(%eax),%xmm3
+ .byte 15,88,128,23,99,0,0 // addps 0x6317(%eax),%xmm0
.byte 15,40,227 // movaps %xmm3,%xmm4
- .byte 15,89,160,11,99,0,0 // mulps 0x630b(%eax),%xmm4
+ .byte 15,89,160,39,99,0,0 // mulps 0x6327(%eax),%xmm4
.byte 15,92,196 // subps %xmm4,%xmm0
- .byte 15,88,152,27,99,0,0 // addps 0x631b(%eax),%xmm3
- .byte 15,40,160,43,99,0,0 // movaps 0x632b(%eax),%xmm4
+ .byte 15,88,152,55,99,0,0 // addps 0x6337(%eax),%xmm3
+ .byte 15,40,160,71,99,0,0 // movaps 0x6347(%eax),%xmm4
.byte 15,94,227 // divps %xmm3,%xmm4
.byte 15,92,196 // subps %xmm4,%xmm0
.byte 139,77,12 // mov 0xc(%ebp),%ecx
@@ -59846,30 +59808,30 @@ _sk_gamma_sse2:
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
.byte 15,40,224 // movaps %xmm0,%xmm4
.byte 15,194,227,1 // cmpltps %xmm3,%xmm4
- .byte 15,84,160,59,99,0,0 // andps 0x633b(%eax),%xmm4
+ .byte 15,84,160,87,99,0,0 // andps 0x6357(%eax),%xmm4
.byte 15,92,220 // subps %xmm4,%xmm3
.byte 15,40,224 // movaps %xmm0,%xmm4
.byte 15,92,227 // subps %xmm3,%xmm4
- .byte 15,88,128,75,99,0,0 // addps 0x634b(%eax),%xmm0
- .byte 15,40,176,107,99,0,0 // movaps 0x636b(%eax),%xmm6
+ .byte 15,88,128,103,99,0,0 // addps 0x6367(%eax),%xmm0
+ .byte 15,40,176,135,99,0,0 // movaps 0x6387(%eax),%xmm6
.byte 15,92,244 // subps %xmm4,%xmm6
- .byte 15,40,168,91,99,0,0 // movaps 0x635b(%eax),%xmm5
+ .byte 15,40,168,119,99,0,0 // movaps 0x6377(%eax),%xmm5
.byte 15,89,229 // mulps %xmm5,%xmm4
.byte 15,92,196 // subps %xmm4,%xmm0
- .byte 15,40,152,123,99,0,0 // movaps 0x637b(%eax),%xmm3
+ .byte 15,40,152,151,99,0,0 // movaps 0x6397(%eax),%xmm3
.byte 15,40,227 // movaps %xmm3,%xmm4
.byte 15,94,230 // divps %xmm6,%xmm4
.byte 15,88,224 // addps %xmm0,%xmm4
.byte 15,91,193 // cvtdq2ps %xmm1,%xmm0
- .byte 15,89,128,203,98,0,0 // mulps 0x62cb(%eax),%xmm0
- .byte 15,84,136,219,98,0,0 // andps 0x62db(%eax),%xmm1
- .byte 15,86,136,235,98,0,0 // orps 0x62eb(%eax),%xmm1
- .byte 15,88,128,251,98,0,0 // addps 0x62fb(%eax),%xmm0
+ .byte 15,89,128,231,98,0,0 // mulps 0x62e7(%eax),%xmm0
+ .byte 15,84,136,247,98,0,0 // andps 0x62f7(%eax),%xmm1
+ .byte 15,86,136,7,99,0,0 // orps 0x6307(%eax),%xmm1
+ .byte 15,88,128,23,99,0,0 // addps 0x6317(%eax),%xmm0
.byte 15,40,241 // movaps %xmm1,%xmm6
- .byte 15,89,176,11,99,0,0 // mulps 0x630b(%eax),%xmm6
+ .byte 15,89,176,39,99,0,0 // mulps 0x6327(%eax),%xmm6
.byte 15,92,198 // subps %xmm6,%xmm0
- .byte 15,88,136,27,99,0,0 // addps 0x631b(%eax),%xmm1
- .byte 15,40,176,43,99,0,0 // movaps 0x632b(%eax),%xmm6
+ .byte 15,88,136,55,99,0,0 // addps 0x6337(%eax),%xmm1
+ .byte 15,40,176,71,99,0,0 // movaps 0x6347(%eax),%xmm6
.byte 15,94,241 // divps %xmm1,%xmm6
.byte 15,92,198 // subps %xmm6,%xmm0
.byte 15,89,199 // mulps %xmm7,%xmm0
@@ -59877,12 +59839,12 @@ _sk_gamma_sse2:
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
.byte 15,40,240 // movaps %xmm0,%xmm6
.byte 15,194,241,1 // cmpltps %xmm1,%xmm6
- .byte 15,84,176,59,99,0,0 // andps 0x633b(%eax),%xmm6
+ .byte 15,84,176,87,99,0,0 // andps 0x6357(%eax),%xmm6
.byte 15,92,206 // subps %xmm6,%xmm1
.byte 15,40,240 // movaps %xmm0,%xmm6
.byte 15,92,241 // subps %xmm1,%xmm6
- .byte 15,88,128,75,99,0,0 // addps 0x634b(%eax),%xmm0
- .byte 15,40,184,107,99,0,0 // movaps 0x636b(%eax),%xmm7
+ .byte 15,88,128,103,99,0,0 // addps 0x6367(%eax),%xmm0
+ .byte 15,40,184,135,99,0,0 // movaps 0x6387(%eax),%xmm7
.byte 15,92,254 // subps %xmm6,%xmm7
.byte 15,89,245 // mulps %xmm5,%xmm6
.byte 15,92,198 // subps %xmm6,%xmm0
@@ -59890,15 +59852,15 @@ _sk_gamma_sse2:
.byte 15,94,207 // divps %xmm7,%xmm1
.byte 15,88,200 // addps %xmm0,%xmm1
.byte 15,91,194 // cvtdq2ps %xmm2,%xmm0
- .byte 15,89,128,203,98,0,0 // mulps 0x62cb(%eax),%xmm0
- .byte 15,84,144,219,98,0,0 // andps 0x62db(%eax),%xmm2
- .byte 15,86,144,235,98,0,0 // orps 0x62eb(%eax),%xmm2
- .byte 15,88,128,251,98,0,0 // addps 0x62fb(%eax),%xmm0
- .byte 15,40,176,11,99,0,0 // movaps 0x630b(%eax),%xmm6
+ .byte 15,89,128,231,98,0,0 // mulps 0x62e7(%eax),%xmm0
+ .byte 15,84,144,247,98,0,0 // andps 0x62f7(%eax),%xmm2
+ .byte 15,86,144,7,99,0,0 // orps 0x6307(%eax),%xmm2
+ .byte 15,88,128,23,99,0,0 // addps 0x6317(%eax),%xmm0
+ .byte 15,40,176,39,99,0,0 // movaps 0x6327(%eax),%xmm6
.byte 15,89,242 // mulps %xmm2,%xmm6
.byte 15,92,198 // subps %xmm6,%xmm0
- .byte 15,88,144,27,99,0,0 // addps 0x631b(%eax),%xmm2
- .byte 15,40,176,43,99,0,0 // movaps 0x632b(%eax),%xmm6
+ .byte 15,88,144,55,99,0,0 // addps 0x6337(%eax),%xmm2
+ .byte 15,40,176,71,99,0,0 // movaps 0x6347(%eax),%xmm6
.byte 15,94,242 // divps %xmm2,%xmm6
.byte 15,92,198 // subps %xmm6,%xmm0
.byte 15,89,69,232 // mulps -0x18(%ebp),%xmm0
@@ -59906,18 +59868,18 @@ _sk_gamma_sse2:
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
.byte 15,40,240 // movaps %xmm0,%xmm6
.byte 15,194,242,1 // cmpltps %xmm2,%xmm6
- .byte 15,84,176,59,99,0,0 // andps 0x633b(%eax),%xmm6
+ .byte 15,84,176,87,99,0,0 // andps 0x6357(%eax),%xmm6
.byte 15,92,214 // subps %xmm6,%xmm2
.byte 15,40,240 // movaps %xmm0,%xmm6
.byte 15,92,242 // subps %xmm2,%xmm6
- .byte 15,88,128,75,99,0,0 // addps 0x634b(%eax),%xmm0
+ .byte 15,88,128,103,99,0,0 // addps 0x6367(%eax),%xmm0
.byte 15,89,238 // mulps %xmm6,%xmm5
.byte 15,92,197 // subps %xmm5,%xmm0
- .byte 15,40,144,107,99,0,0 // movaps 0x636b(%eax),%xmm2
+ .byte 15,40,144,135,99,0,0 // movaps 0x6387(%eax),%xmm2
.byte 15,92,214 // subps %xmm6,%xmm2
.byte 15,94,218 // divps %xmm2,%xmm3
.byte 15,88,216 // addps %xmm0,%xmm3
- .byte 15,40,128,139,99,0,0 // movaps 0x638b(%eax),%xmm0
+ .byte 15,40,128,167,99,0,0 // movaps 0x63a7(%eax),%xmm0
.byte 15,89,224 // mulps %xmm0,%xmm4
.byte 15,89,200 // mulps %xmm0,%xmm1
.byte 15,89,216 // mulps %xmm0,%xmm3
@@ -59944,31 +59906,31 @@ _sk_lab_to_xyz_sse2:
.byte 15,41,93,232 // movaps %xmm3,-0x18(%ebp)
.byte 15,40,218 // movaps %xmm2,%xmm3
.byte 15,40,208 // movaps %xmm0,%xmm2
- .byte 232,0,0,0,0 // call 3bfd <_sk_lab_to_xyz_sse2+0x15>
+ .byte 232,0,0,0,0 // call 3bf1 <_sk_lab_to_xyz_sse2+0x15>
.byte 88 // pop %eax
- .byte 15,89,144,179,97,0,0 // mulps 0x61b3(%eax),%xmm2
- .byte 15,40,160,195,97,0,0 // movaps 0x61c3(%eax),%xmm4
+ .byte 15,89,144,207,97,0,0 // mulps 0x61cf(%eax),%xmm2
+ .byte 15,40,160,223,97,0,0 // movaps 0x61df(%eax),%xmm4
.byte 15,89,204 // mulps %xmm4,%xmm1
- .byte 15,40,168,211,97,0,0 // movaps 0x61d3(%eax),%xmm5
+ .byte 15,40,168,239,97,0,0 // movaps 0x61ef(%eax),%xmm5
.byte 15,88,205 // addps %xmm5,%xmm1
.byte 15,89,220 // mulps %xmm4,%xmm3
.byte 15,88,221 // addps %xmm5,%xmm3
- .byte 15,88,144,227,97,0,0 // addps 0x61e3(%eax),%xmm2
- .byte 15,89,144,243,97,0,0 // mulps 0x61f3(%eax),%xmm2
- .byte 15,89,136,3,98,0,0 // mulps 0x6203(%eax),%xmm1
+ .byte 15,88,144,255,97,0,0 // addps 0x61ff(%eax),%xmm2
+ .byte 15,89,144,15,98,0,0 // mulps 0x620f(%eax),%xmm2
+ .byte 15,89,136,31,98,0,0 // mulps 0x621f(%eax),%xmm1
.byte 15,88,202 // addps %xmm2,%xmm1
- .byte 15,89,152,19,98,0,0 // mulps 0x6213(%eax),%xmm3
+ .byte 15,89,152,47,98,0,0 // mulps 0x622f(%eax),%xmm3
.byte 15,40,234 // movaps %xmm2,%xmm5
.byte 15,92,235 // subps %xmm3,%xmm5
.byte 15,40,193 // movaps %xmm1,%xmm0
.byte 15,89,192 // mulps %xmm0,%xmm0
.byte 15,89,193 // mulps %xmm1,%xmm0
- .byte 15,40,152,35,98,0,0 // movaps 0x6223(%eax),%xmm3
+ .byte 15,40,152,63,98,0,0 // movaps 0x623f(%eax),%xmm3
.byte 15,40,227 // movaps %xmm3,%xmm4
.byte 15,194,224,1 // cmpltps %xmm0,%xmm4
- .byte 15,40,176,51,98,0,0 // movaps 0x6233(%eax),%xmm6
+ .byte 15,40,176,79,98,0,0 // movaps 0x624f(%eax),%xmm6
.byte 15,88,206 // addps %xmm6,%xmm1
- .byte 15,40,184,67,98,0,0 // movaps 0x6243(%eax),%xmm7
+ .byte 15,40,184,95,98,0,0 // movaps 0x625f(%eax),%xmm7
.byte 15,89,207 // mulps %xmm7,%xmm1
.byte 15,84,196 // andps %xmm4,%xmm0
.byte 15,85,225 // andnps %xmm1,%xmm4
@@ -59993,8 +59955,8 @@ _sk_lab_to_xyz_sse2:
.byte 15,85,221 // andnps %xmm5,%xmm3
.byte 15,86,216 // orps %xmm0,%xmm3
.byte 139,77,12 // mov 0xc(%ebp),%ecx
- .byte 15,89,160,83,98,0,0 // mulps 0x6253(%eax),%xmm4
- .byte 15,89,152,99,98,0,0 // mulps 0x6263(%eax),%xmm3
+ .byte 15,89,160,111,98,0,0 // mulps 0x626f(%eax),%xmm4
+ .byte 15,89,152,127,98,0,0 // mulps 0x627f(%eax),%xmm3
.byte 141,65,4 // lea 0x4(%ecx),%eax
.byte 131,236,8 // sub $0x8,%esp
.byte 15,40,196 // movaps %xmm4,%xmm0
@@ -60017,7 +59979,7 @@ _sk_load_a8_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 3ced <_sk_load_a8_sse2+0xe>
+ .byte 232,0,0,0,0 // call 3ce1 <_sk_load_a8_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -60028,13 +59990,13 @@ _sk_load_a8_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,60 // jne 3d44 <_sk_load_a8_sse2+0x65>
+ .byte 117,60 // jne 3d38 <_sk_load_a8_sse2+0x65>
.byte 102,15,110,4,62 // movd (%esi,%edi,1),%xmm0
.byte 102,15,96,192 // punpcklbw %xmm0,%xmm0
.byte 102,15,97,192 // punpcklwd %xmm0,%xmm0
- .byte 102,15,219,130,131,97,0,0 // pand 0x6183(%edx),%xmm0
+ .byte 102,15,219,130,159,97,0,0 // pand 0x619f(%edx),%xmm0
.byte 15,91,216 // cvtdq2ps %xmm0,%xmm3
- .byte 15,89,154,147,97,0,0 // mulps 0x6193(%edx),%xmm3
+ .byte 15,89,154,175,97,0,0 // mulps 0x61af(%edx),%xmm3
.byte 141,80,8 // lea 0x8(%eax),%edx
.byte 131,236,8 // sub $0x8,%esp
.byte 15,87,192 // xorps %xmm0,%xmm0
@@ -60051,12 +60013,12 @@ _sk_load_a8_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,50 // je 3d7e <_sk_load_a8_sse2+0x9f>
+ .byte 116,50 // je 3d72 <_sk_load_a8_sse2+0x9f>
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,19 // je 3d68 <_sk_load_a8_sse2+0x89>
+ .byte 116,19 // je 3d5c <_sk_load_a8_sse2+0x89>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,187 // jne 3d15 <_sk_load_a8_sse2+0x36>
+ .byte 117,187 // jne 3d09 <_sk_load_a8_sse2+0x36>
.byte 15,182,92,62,2 // movzbl 0x2(%esi,%edi,1),%ebx
.byte 102,15,110,195 // movd %ebx,%xmm0
.byte 102,15,112,192,69 // pshufd $0x45,%xmm0,%xmm0
@@ -60065,10 +60027,10 @@ _sk_load_a8_sse2:
.byte 102,15,96,200 // punpcklbw %xmm0,%xmm1
.byte 102,15,97,200 // punpcklwd %xmm0,%xmm1
.byte 242,15,16,193 // movsd %xmm1,%xmm0
- .byte 235,151 // jmp 3d15 <_sk_load_a8_sse2+0x36>
+ .byte 235,151 // jmp 3d09 <_sk_load_a8_sse2+0x36>
.byte 15,182,52,62 // movzbl (%esi,%edi,1),%esi
.byte 102,15,110,198 // movd %esi,%xmm0
- .byte 235,141 // jmp 3d15 <_sk_load_a8_sse2+0x36>
+ .byte 235,141 // jmp 3d09 <_sk_load_a8_sse2+0x36>
HIDDEN _sk_load_a8_dst_sse2
.globl _sk_load_a8_dst_sse2
@@ -60093,15 +60055,15 @@ _sk_load_a8_dst_sse2:
.byte 102,15,127,97,32 // movdqa %xmm4,0x20(%ecx)
.byte 102,15,127,97,16 // movdqa %xmm4,0x10(%ecx)
.byte 133,219 // test %ebx,%ebx
- .byte 232,0,0,0,0 // call 3dc1 <_sk_load_a8_dst_sse2+0x39>
+ .byte 232,0,0,0,0 // call 3db5 <_sk_load_a8_dst_sse2+0x39>
.byte 90 // pop %edx
- .byte 117,54 // jne 3dfa <_sk_load_a8_dst_sse2+0x72>
+ .byte 117,54 // jne 3dee <_sk_load_a8_dst_sse2+0x72>
.byte 102,15,110,36,55 // movd (%edi,%esi,1),%xmm4
.byte 102,15,96,224 // punpcklbw %xmm0,%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
- .byte 102,15,219,162,207,96,0,0 // pand 0x60cf(%edx),%xmm4
+ .byte 102,15,219,162,235,96,0,0 // pand 0x60eb(%edx),%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,162,223,96,0,0 // mulps 0x60df(%edx),%xmm4
+ .byte 15,89,162,251,96,0,0 // mulps 0x60fb(%edx),%xmm4
.byte 15,41,97,64 // movaps %xmm4,0x40(%ecx)
.byte 141,80,8 // lea 0x8(%eax),%edx
.byte 131,236,8 // sub $0x8,%esp
@@ -60116,11 +60078,11 @@ _sk_load_a8_dst_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,46 // je 3e30 <_sk_load_a8_dst_sse2+0xa8>
+ .byte 116,46 // je 3e24 <_sk_load_a8_dst_sse2+0xa8>
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,19 // je 3e1a <_sk_load_a8_dst_sse2+0x92>
+ .byte 116,19 // je 3e0e <_sk_load_a8_dst_sse2+0x92>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,197 // jne 3dd1 <_sk_load_a8_dst_sse2+0x49>
+ .byte 117,197 // jne 3dc5 <_sk_load_a8_dst_sse2+0x49>
.byte 15,182,92,55,2 // movzbl 0x2(%edi,%esi,1),%ebx
.byte 102,15,110,227 // movd %ebx,%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
@@ -60129,10 +60091,10 @@ _sk_load_a8_dst_sse2:
.byte 102,15,96,232 // punpcklbw %xmm0,%xmm5
.byte 102,15,97,232 // punpcklwd %xmm0,%xmm5
.byte 242,15,16,229 // movsd %xmm5,%xmm4
- .byte 235,161 // jmp 3dd1 <_sk_load_a8_dst_sse2+0x49>
+ .byte 235,161 // jmp 3dc5 <_sk_load_a8_dst_sse2+0x49>
.byte 15,182,52,55 // movzbl (%edi,%esi,1),%esi
.byte 102,15,110,230 // movd %esi,%xmm4
- .byte 235,151 // jmp 3dd1 <_sk_load_a8_dst_sse2+0x49>
+ .byte 235,151 // jmp 3dc5 <_sk_load_a8_dst_sse2+0x49>
HIDDEN _sk_gather_a8_sse2
.globl _sk_gather_a8_sse2
@@ -60173,13 +60135,13 @@ _sk_gather_a8_sse2:
.byte 9,202 // or %ecx,%edx
.byte 102,15,196,194,0 // pinsrw $0x0,%edx,%xmm0
.byte 102,15,196,199,1 // pinsrw $0x1,%edi,%xmm0
- .byte 232,0,0,0,0 // call 3ebf <_sk_gather_a8_sse2+0x85>
+ .byte 232,0,0,0,0 // call 3eb3 <_sk_gather_a8_sse2+0x85>
.byte 89 // pop %ecx
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,96,193 // punpcklbw %xmm1,%xmm0
.byte 102,15,97,193 // punpcklwd %xmm1,%xmm0
.byte 15,91,216 // cvtdq2ps %xmm0,%xmm3
- .byte 15,89,153,241,95,0,0 // mulps 0x5ff1(%ecx),%xmm3
+ .byte 15,89,153,13,96,0,0 // mulps 0x600d(%ecx),%xmm3
.byte 141,72,8 // lea 0x8(%eax),%ecx
.byte 131,236,8 // sub $0x8,%esp
.byte 15,87,192 // xorps %xmm0,%xmm0
@@ -60204,7 +60166,7 @@ _sk_store_a8_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,60 // sub $0x3c,%esp
- .byte 232,0,0,0,0 // call 3f03 <_sk_store_a8_sse2+0xe>
+ .byte 232,0,0,0,0 // call 3ef7 <_sk_store_a8_sse2+0xe>
.byte 94 // pop %esi
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -60213,7 +60175,7 @@ _sk_store_a8_sse2:
.byte 15,175,81,4 // imul 0x4(%ecx),%edx
.byte 3,23 // add (%edi),%edx
.byte 139,89,8 // mov 0x8(%ecx),%ebx
- .byte 15,40,166,189,95,0,0 // movaps 0x5fbd(%esi),%xmm4
+ .byte 15,40,166,217,95,0,0 // movaps 0x5fd9(%esi),%xmm4
.byte 15,89,227 // mulps %xmm3,%xmm4
.byte 102,15,91,228 // cvtps2dq %xmm4,%xmm4
.byte 102,15,114,244,16 // pslld $0x10,%xmm4
@@ -60222,7 +60184,7 @@ _sk_store_a8_sse2:
.byte 102,15,103,228 // packuswb %xmm4,%xmm4
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,26 // jne 3f58 <_sk_store_a8_sse2+0x63>
+ .byte 117,26 // jne 3f4c <_sk_store_a8_sse2+0x63>
.byte 102,15,126,230 // movd %xmm4,%esi
.byte 137,52,58 // mov %esi,(%edx,%edi,1)
.byte 141,80,8 // lea 0x8(%eax),%edx
@@ -60240,26 +60202,26 @@ _sk_store_a8_sse2:
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,57 // je 3fa1 <_sk_store_a8_sse2+0xac>
+ .byte 116,57 // je 3f95 <_sk_store_a8_sse2+0xac>
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,17 // je 3f7e <_sk_store_a8_sse2+0x89>
+ .byte 116,17 // je 3f72 <_sk_store_a8_sse2+0x89>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,211 // jne 3f45 <_sk_store_a8_sse2+0x50>
+ .byte 117,211 // jne 3f39 <_sk_store_a8_sse2+0x50>
.byte 102,15,127,101,200 // movdqa %xmm4,-0x38(%ebp)
.byte 138,93,208 // mov -0x30(%ebp),%bl
.byte 136,92,58,2 // mov %bl,0x2(%edx,%edi,1)
.byte 102,15,112,228,212 // pshufd $0xd4,%xmm4,%xmm4
- .byte 102,15,219,166,205,95,0,0 // pand 0x5fcd(%esi),%xmm4
+ .byte 102,15,219,166,233,95,0,0 // pand 0x5fe9(%esi),%xmm4
.byte 102,15,103,228 // packuswb %xmm4,%xmm4
.byte 102,15,103,228 // packuswb %xmm4,%xmm4
.byte 102,15,103,228 // packuswb %xmm4,%xmm4
.byte 102,15,126,230 // movd %xmm4,%esi
.byte 102,137,52,58 // mov %si,(%edx,%edi,1)
- .byte 235,164 // jmp 3f45 <_sk_store_a8_sse2+0x50>
+ .byte 235,164 // jmp 3f39 <_sk_store_a8_sse2+0x50>
.byte 102,15,127,101,216 // movdqa %xmm4,-0x28(%ebp)
.byte 138,93,216 // mov -0x28(%ebp),%bl
.byte 136,28,58 // mov %bl,(%edx,%edi,1)
- .byte 235,151 // jmp 3f45 <_sk_store_a8_sse2+0x50>
+ .byte 235,151 // jmp 3f39 <_sk_store_a8_sse2+0x50>
HIDDEN _sk_load_g8_sse2
.globl _sk_load_g8_sse2
@@ -60271,7 +60233,7 @@ _sk_load_g8_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 3fbc <_sk_load_g8_sse2+0xe>
+ .byte 232,0,0,0,0 // call 3fb0 <_sk_load_g8_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -60282,16 +60244,16 @@ _sk_load_g8_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,63 // jne 4016 <_sk_load_g8_sse2+0x68>
+ .byte 117,63 // jne 400a <_sk_load_g8_sse2+0x68>
.byte 102,15,110,4,62 // movd (%esi,%edi,1),%xmm0
.byte 102,15,96,192 // punpcklbw %xmm0,%xmm0
.byte 102,15,97,192 // punpcklwd %xmm0,%xmm0
- .byte 102,15,219,130,36,95,0,0 // pand 0x5f24(%edx),%xmm0
+ .byte 102,15,219,130,64,95,0,0 // pand 0x5f40(%edx),%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,130,52,95,0,0 // mulps 0x5f34(%edx),%xmm0
+ .byte 15,89,130,80,95,0,0 // mulps 0x5f50(%edx),%xmm0
.byte 141,112,8 // lea 0x8(%eax),%esi
.byte 131,236,8 // sub $0x8,%esp
- .byte 15,40,154,68,95,0,0 // movaps 0x5f44(%edx),%xmm3
+ .byte 15,40,154,96,95,0,0 // movaps 0x5f60(%edx),%xmm3
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 86 // push %esi
@@ -60305,12 +60267,12 @@ _sk_load_g8_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,50 // je 4050 <_sk_load_g8_sse2+0xa2>
+ .byte 116,50 // je 4044 <_sk_load_g8_sse2+0xa2>
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,19 // je 403a <_sk_load_g8_sse2+0x8c>
+ .byte 116,19 // je 402e <_sk_load_g8_sse2+0x8c>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,184 // jne 3fe4 <_sk_load_g8_sse2+0x36>
+ .byte 117,184 // jne 3fd8 <_sk_load_g8_sse2+0x36>
.byte 15,182,92,62,2 // movzbl 0x2(%esi,%edi,1),%ebx
.byte 102,15,110,195 // movd %ebx,%xmm0
.byte 102,15,112,192,69 // pshufd $0x45,%xmm0,%xmm0
@@ -60319,10 +60281,10 @@ _sk_load_g8_sse2:
.byte 102,15,96,200 // punpcklbw %xmm0,%xmm1
.byte 102,15,97,200 // punpcklwd %xmm0,%xmm1
.byte 242,15,16,193 // movsd %xmm1,%xmm0
- .byte 235,148 // jmp 3fe4 <_sk_load_g8_sse2+0x36>
+ .byte 235,148 // jmp 3fd8 <_sk_load_g8_sse2+0x36>
.byte 15,182,52,62 // movzbl (%esi,%edi,1),%esi
.byte 102,15,110,198 // movd %esi,%xmm0
- .byte 235,138 // jmp 3fe4 <_sk_load_g8_sse2+0x36>
+ .byte 235,138 // jmp 3fd8 <_sk_load_g8_sse2+0x36>
HIDDEN _sk_load_g8_dst_sse2
.globl _sk_load_g8_dst_sse2
@@ -60334,7 +60296,7 @@ _sk_load_g8_dst_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 4068 <_sk_load_g8_dst_sse2+0xe>
+ .byte 232,0,0,0,0 // call 405c <_sk_load_g8_dst_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -60345,17 +60307,17 @@ _sk_load_g8_dst_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,73 // jne 40cc <_sk_load_g8_dst_sse2+0x72>
+ .byte 117,73 // jne 40c0 <_sk_load_g8_dst_sse2+0x72>
.byte 102,15,110,36,62 // movd (%esi,%edi,1),%xmm4
.byte 102,15,96,224 // punpcklbw %xmm0,%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
- .byte 102,15,219,162,168,94,0,0 // pand 0x5ea8(%edx),%xmm4
+ .byte 102,15,219,162,196,94,0,0 // pand 0x5ec4(%edx),%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,162,184,94,0,0 // mulps 0x5eb8(%edx),%xmm4
+ .byte 15,89,162,212,94,0,0 // mulps 0x5ed4(%edx),%xmm4
.byte 15,41,97,48 // movaps %xmm4,0x30(%ecx)
.byte 15,41,97,32 // movaps %xmm4,0x20(%ecx)
.byte 15,41,97,16 // movaps %xmm4,0x10(%ecx)
- .byte 15,40,162,200,94,0,0 // movaps 0x5ec8(%edx),%xmm4
+ .byte 15,40,162,228,94,0,0 // movaps 0x5ee4(%edx),%xmm4
.byte 15,41,97,64 // movaps %xmm4,0x40(%ecx)
.byte 141,80,8 // lea 0x8(%eax),%edx
.byte 131,236,8 // sub $0x8,%esp
@@ -60370,12 +60332,12 @@ _sk_load_g8_dst_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,50 // je 4106 <_sk_load_g8_dst_sse2+0xac>
+ .byte 116,50 // je 40fa <_sk_load_g8_dst_sse2+0xac>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,19 // je 40f0 <_sk_load_g8_dst_sse2+0x96>
+ .byte 116,19 // je 40e4 <_sk_load_g8_dst_sse2+0x96>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,174 // jne 4090 <_sk_load_g8_dst_sse2+0x36>
+ .byte 117,174 // jne 4084 <_sk_load_g8_dst_sse2+0x36>
.byte 15,182,92,62,2 // movzbl 0x2(%esi,%edi,1),%ebx
.byte 102,15,110,227 // movd %ebx,%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
@@ -60384,10 +60346,10 @@ _sk_load_g8_dst_sse2:
.byte 102,15,96,232 // punpcklbw %xmm0,%xmm5
.byte 102,15,97,232 // punpcklwd %xmm0,%xmm5
.byte 242,15,16,229 // movsd %xmm5,%xmm4
- .byte 235,138 // jmp 4090 <_sk_load_g8_dst_sse2+0x36>
+ .byte 235,138 // jmp 4084 <_sk_load_g8_dst_sse2+0x36>
.byte 15,182,52,62 // movzbl (%esi,%edi,1),%esi
.byte 102,15,110,230 // movd %esi,%xmm4
- .byte 235,128 // jmp 4090 <_sk_load_g8_dst_sse2+0x36>
+ .byte 235,128 // jmp 4084 <_sk_load_g8_dst_sse2+0x36>
HIDDEN _sk_gather_g8_sse2
.globl _sk_gather_g8_sse2
@@ -60427,17 +60389,17 @@ _sk_gather_g8_sse2:
.byte 193,226,8 // shl $0x8,%edx
.byte 9,202 // or %ecx,%edx
.byte 102,15,196,194,0 // pinsrw $0x0,%edx,%xmm0
- .byte 232,0,0,0,0 // call 4190 <_sk_gather_g8_sse2+0x80>
+ .byte 232,0,0,0,0 // call 4184 <_sk_gather_g8_sse2+0x80>
.byte 89 // pop %ecx
.byte 102,15,196,199,1 // pinsrw $0x1,%edi,%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,96,193 // punpcklbw %xmm1,%xmm0
.byte 102,15,97,193 // punpcklwd %xmm1,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,129,176,93,0,0 // mulps 0x5db0(%ecx),%xmm0
+ .byte 15,89,129,204,93,0,0 // mulps 0x5dcc(%ecx),%xmm0
.byte 141,80,8 // lea 0x8(%eax),%edx
.byte 131,236,8 // sub $0x8,%esp
- .byte 15,40,153,192,93,0,0 // movaps 0x5dc0(%ecx),%xmm3
+ .byte 15,40,153,220,93,0,0 // movaps 0x5ddc(%ecx),%xmm3
.byte 15,40,200 // movaps %xmm0,%xmm1
.byte 15,40,208 // movaps %xmm0,%xmm2
.byte 82 // push %edx
@@ -60459,7 +60421,7 @@ _sk_load_565_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 41db <_sk_load_565_sse2+0xe>
+ .byte 232,0,0,0,0 // call 41cf <_sk_load_565_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -60471,23 +60433,23 @@ _sk_load_565_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,97 // jne 4259 <_sk_load_565_sse2+0x8c>
+ .byte 117,97 // jne 424d <_sk_load_565_sse2+0x8c>
.byte 243,15,126,20,126 // movq (%esi,%edi,2),%xmm2
.byte 102,15,97,208 // punpcklwd %xmm0,%xmm2
- .byte 102,15,111,130,133,93,0,0 // movdqa 0x5d85(%edx),%xmm0
+ .byte 102,15,111,130,161,93,0,0 // movdqa 0x5da1(%edx),%xmm0
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,130,149,93,0,0 // mulps 0x5d95(%edx),%xmm0
- .byte 102,15,111,138,165,93,0,0 // movdqa 0x5da5(%edx),%xmm1
+ .byte 15,89,130,177,93,0,0 // mulps 0x5db1(%edx),%xmm0
+ .byte 102,15,111,138,193,93,0,0 // movdqa 0x5dc1(%edx),%xmm1
.byte 102,15,219,202 // pand %xmm2,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,138,181,93,0,0 // mulps 0x5db5(%edx),%xmm1
- .byte 102,15,219,146,197,93,0,0 // pand 0x5dc5(%edx),%xmm2
+ .byte 15,89,138,209,93,0,0 // mulps 0x5dd1(%edx),%xmm1
+ .byte 102,15,219,146,225,93,0,0 // pand 0x5de1(%edx),%xmm2
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,146,213,93,0,0 // mulps 0x5dd5(%edx),%xmm2
+ .byte 15,89,146,241,93,0,0 // mulps 0x5df1(%edx),%xmm2
.byte 141,112,8 // lea 0x8(%eax),%esi
.byte 131,236,8 // sub $0x8,%esp
- .byte 15,40,154,229,93,0,0 // movaps 0x5de5(%edx),%xmm3
+ .byte 15,40,154,1,94,0,0 // movaps 0x5e01(%edx),%xmm3
.byte 86 // push %esi
.byte 81 // push %ecx
.byte 255,80,4 // call *0x4(%eax)
@@ -60499,22 +60461,22 @@ _sk_load_565_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,46 // je 428f <_sk_load_565_sse2+0xc2>
+ .byte 116,46 // je 4283 <_sk_load_565_sse2+0xc2>
.byte 102,15,239,210 // pxor %xmm2,%xmm2
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,19 // je 427d <_sk_load_565_sse2+0xb0>
+ .byte 116,19 // je 4271 <_sk_load_565_sse2+0xb0>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,146 // jne 4201 <_sk_load_565_sse2+0x34>
+ .byte 117,146 // jne 41f5 <_sk_load_565_sse2+0x34>
.byte 15,183,92,126,4 // movzwl 0x4(%esi,%edi,2),%ebx
.byte 102,15,110,195 // movd %ebx,%xmm0
.byte 102,15,112,208,69 // pshufd $0x45,%xmm0,%xmm2
.byte 102,15,110,4,126 // movd (%esi,%edi,2),%xmm0
.byte 102,15,97,192 // punpcklwd %xmm0,%xmm0
.byte 242,15,16,208 // movsd %xmm0,%xmm2
- .byte 233,114,255,255,255 // jmp 4201 <_sk_load_565_sse2+0x34>
+ .byte 233,114,255,255,255 // jmp 41f5 <_sk_load_565_sse2+0x34>
.byte 15,183,52,126 // movzwl (%esi,%edi,2),%esi
.byte 102,15,110,214 // movd %esi,%xmm2
- .byte 233,101,255,255,255 // jmp 4201 <_sk_load_565_sse2+0x34>
+ .byte 233,101,255,255,255 // jmp 41f5 <_sk_load_565_sse2+0x34>
HIDDEN _sk_load_565_dst_sse2
.globl _sk_load_565_dst_sse2
@@ -60526,7 +60488,7 @@ _sk_load_565_dst_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 42aa <_sk_load_565_dst_sse2+0xe>
+ .byte 232,0,0,0,0 // call 429e <_sk_load_565_dst_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -60538,24 +60500,24 @@ _sk_load_565_dst_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,113 // jne 4338 <_sk_load_565_dst_sse2+0x9c>
+ .byte 117,113 // jne 432c <_sk_load_565_dst_sse2+0x9c>
.byte 243,15,126,36,126 // movq (%esi,%edi,2),%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
- .byte 102,15,111,170,38,93,0,0 // movdqa 0x5d26(%edx),%xmm5
+ .byte 102,15,111,170,66,93,0,0 // movdqa 0x5d42(%edx),%xmm5
.byte 102,15,219,236 // pand %xmm4,%xmm5
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
- .byte 15,89,170,54,93,0,0 // mulps 0x5d36(%edx),%xmm5
+ .byte 15,89,170,82,93,0,0 // mulps 0x5d52(%edx),%xmm5
.byte 15,41,105,16 // movaps %xmm5,0x10(%ecx)
- .byte 102,15,111,170,70,93,0,0 // movdqa 0x5d46(%edx),%xmm5
+ .byte 102,15,111,170,98,93,0,0 // movdqa 0x5d62(%edx),%xmm5
.byte 102,15,219,236 // pand %xmm4,%xmm5
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
- .byte 15,89,170,86,93,0,0 // mulps 0x5d56(%edx),%xmm5
+ .byte 15,89,170,114,93,0,0 // mulps 0x5d72(%edx),%xmm5
.byte 15,41,105,32 // movaps %xmm5,0x20(%ecx)
- .byte 102,15,219,162,102,93,0,0 // pand 0x5d66(%edx),%xmm4
+ .byte 102,15,219,162,130,93,0,0 // pand 0x5d82(%edx),%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,162,118,93,0,0 // mulps 0x5d76(%edx),%xmm4
+ .byte 15,89,162,146,93,0,0 // mulps 0x5d92(%edx),%xmm4
.byte 15,41,97,48 // movaps %xmm4,0x30(%ecx)
- .byte 15,40,162,134,93,0,0 // movaps 0x5d86(%edx),%xmm4
+ .byte 15,40,162,162,93,0,0 // movaps 0x5da2(%edx),%xmm4
.byte 15,41,97,64 // movaps %xmm4,0x40(%ecx)
.byte 141,80,8 // lea 0x8(%eax),%edx
.byte 131,236,8 // sub $0x8,%esp
@@ -60570,22 +60532,22 @@ _sk_load_565_dst_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,46 // je 436e <_sk_load_565_dst_sse2+0xd2>
+ .byte 116,46 // je 4362 <_sk_load_565_dst_sse2+0xd2>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,19 // je 435c <_sk_load_565_dst_sse2+0xc0>
+ .byte 116,19 // je 4350 <_sk_load_565_dst_sse2+0xc0>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,130 // jne 42d0 <_sk_load_565_dst_sse2+0x34>
+ .byte 117,130 // jne 42c4 <_sk_load_565_dst_sse2+0x34>
.byte 15,183,92,126,4 // movzwl 0x4(%esi,%edi,2),%ebx
.byte 102,15,110,227 // movd %ebx,%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
.byte 102,15,110,44,126 // movd (%esi,%edi,2),%xmm5
.byte 102,15,97,232 // punpcklwd %xmm0,%xmm5
.byte 242,15,16,229 // movsd %xmm5,%xmm4
- .byte 233,98,255,255,255 // jmp 42d0 <_sk_load_565_dst_sse2+0x34>
+ .byte 233,98,255,255,255 // jmp 42c4 <_sk_load_565_dst_sse2+0x34>
.byte 15,183,52,126 // movzwl (%esi,%edi,2),%esi
.byte 102,15,110,230 // movd %esi,%xmm4
- .byte 233,85,255,255,255 // jmp 42d0 <_sk_load_565_dst_sse2+0x34>
+ .byte 233,85,255,255,255 // jmp 42c4 <_sk_load_565_dst_sse2+0x34>
HIDDEN _sk_gather_565_sse2
.globl _sk_gather_565_sse2
@@ -60620,25 +60582,25 @@ _sk_gather_565_sse2:
.byte 102,15,196,209,2 // pinsrw $0x2,%ecx,%xmm2
.byte 102,15,126,193 // movd %xmm0,%ecx
.byte 15,183,12,74 // movzwl (%edx,%ecx,2),%ecx
- .byte 232,0,0,0,0 // call 43f6 <_sk_gather_565_sse2+0x7b>
+ .byte 232,0,0,0,0 // call 43ea <_sk_gather_565_sse2+0x7b>
.byte 90 // pop %edx
.byte 102,15,196,209,3 // pinsrw $0x3,%ecx,%xmm2
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 102,15,97,208 // punpcklwd %xmm0,%xmm2
- .byte 102,15,111,130,74,92,0,0 // movdqa 0x5c4a(%edx),%xmm0
+ .byte 102,15,111,130,102,92,0,0 // movdqa 0x5c66(%edx),%xmm0
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,130,90,92,0,0 // mulps 0x5c5a(%edx),%xmm0
- .byte 102,15,111,138,106,92,0,0 // movdqa 0x5c6a(%edx),%xmm1
+ .byte 15,89,130,118,92,0,0 // mulps 0x5c76(%edx),%xmm0
+ .byte 102,15,111,138,134,92,0,0 // movdqa 0x5c86(%edx),%xmm1
.byte 102,15,219,202 // pand %xmm2,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,138,122,92,0,0 // mulps 0x5c7a(%edx),%xmm1
- .byte 102,15,219,146,138,92,0,0 // pand 0x5c8a(%edx),%xmm2
+ .byte 15,89,138,150,92,0,0 // mulps 0x5c96(%edx),%xmm1
+ .byte 102,15,219,146,166,92,0,0 // pand 0x5ca6(%edx),%xmm2
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,146,154,92,0,0 // mulps 0x5c9a(%edx),%xmm2
+ .byte 15,89,146,182,92,0,0 // mulps 0x5cb6(%edx),%xmm2
.byte 141,72,8 // lea 0x8(%eax),%ecx
.byte 131,236,8 // sub $0x8,%esp
- .byte 15,40,154,170,92,0,0 // movaps 0x5caa(%edx),%xmm3
+ .byte 15,40,154,198,92,0,0 // movaps 0x5cc6(%edx),%xmm3
.byte 81 // push %ecx
.byte 255,117,8 // pushl 0x8(%ebp)
.byte 255,80,4 // call *0x4(%eax)
@@ -60656,7 +60618,7 @@ _sk_store_565_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 4469 <_sk_store_565_sse2+0xe>
+ .byte 232,0,0,0,0 // call 445d <_sk_store_565_sse2+0xe>
.byte 95 // pop %edi
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -60666,8 +60628,8 @@ _sk_store_565_sse2:
.byte 1,210 // add %edx,%edx
.byte 3,22 // add (%esi),%edx
.byte 139,49 // mov (%ecx),%esi
- .byte 15,40,167,71,92,0,0 // movaps 0x5c47(%edi),%xmm4
- .byte 15,40,175,87,92,0,0 // movaps 0x5c57(%edi),%xmm5
+ .byte 15,40,167,99,92,0,0 // movaps 0x5c63(%edi),%xmm4
+ .byte 15,40,175,115,92,0,0 // movaps 0x5c73(%edi),%xmm5
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 15,40,240 // movaps %xmm0,%xmm6
.byte 15,89,244 // mulps %xmm4,%xmm6
@@ -60687,7 +60649,7 @@ _sk_store_565_sse2:
.byte 102,15,112,236,229 // pshufd $0xe5,%xmm4,%xmm5
.byte 102,15,126,109,236 // movd %xmm5,-0x14(%ebp)
.byte 133,219 // test %ebx,%ebx
- .byte 117,34 // jne 44fd <_sk_store_565_sse2+0xa2>
+ .byte 117,34 // jne 44f1 <_sk_store_565_sse2+0xa2>
.byte 102,15,126,231 // movd %xmm4,%edi
.byte 102,15,126,235 // movd %xmm5,%ebx
.byte 137,60,114 // mov %edi,(%edx,%esi,2)
@@ -60707,20 +60669,20 @@ _sk_store_565_sse2:
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,37 // je 4533 <_sk_store_565_sse2+0xd8>
+ .byte 116,37 // je 4527 <_sk_store_565_sse2+0xd8>
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,15 // je 4522 <_sk_store_565_sse2+0xc7>
+ .byte 116,15 // je 4516 <_sk_store_565_sse2+0xc7>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,210 // jne 44ea <_sk_store_565_sse2+0x8f>
+ .byte 117,210 // jne 44de <_sk_store_565_sse2+0x8f>
.byte 102,15,197,252,4 // pextrw $0x4,%xmm4,%edi
.byte 102,137,124,114,4 // mov %di,0x4(%edx,%esi,2)
.byte 102,15,112,228,212 // pshufd $0xd4,%xmm4,%xmm4
.byte 242,15,112,228,232 // pshuflw $0xe8,%xmm4,%xmm4
.byte 102,15,126,36,114 // movd %xmm4,(%edx,%esi,2)
- .byte 235,183 // jmp 44ea <_sk_store_565_sse2+0x8f>
+ .byte 235,183 // jmp 44de <_sk_store_565_sse2+0x8f>
.byte 102,15,126,231 // movd %xmm4,%edi
.byte 102,137,60,114 // mov %di,(%edx,%esi,2)
- .byte 235,173 // jmp 44ea <_sk_store_565_sse2+0x8f>
+ .byte 235,173 // jmp 44de <_sk_store_565_sse2+0x8f>
HIDDEN _sk_load_4444_sse2
.globl _sk_load_4444_sse2
@@ -60732,7 +60694,7 @@ _sk_load_4444_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 454b <_sk_load_4444_sse2+0xe>
+ .byte 232,0,0,0,0 // call 453f <_sk_load_4444_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -60744,24 +60706,24 @@ _sk_load_4444_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,112 // jne 45d8 <_sk_load_4444_sse2+0x9b>
+ .byte 117,112 // jne 45cc <_sk_load_4444_sse2+0x9b>
.byte 243,15,126,28,126 // movq (%esi,%edi,2),%xmm3
.byte 102,15,97,216 // punpcklwd %xmm0,%xmm3
- .byte 102,15,111,130,133,91,0,0 // movdqa 0x5b85(%edx),%xmm0
+ .byte 102,15,111,130,161,91,0,0 // movdqa 0x5ba1(%edx),%xmm0
.byte 102,15,219,195 // pand %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,130,149,91,0,0 // mulps 0x5b95(%edx),%xmm0
- .byte 102,15,111,138,165,91,0,0 // movdqa 0x5ba5(%edx),%xmm1
+ .byte 15,89,130,177,91,0,0 // mulps 0x5bb1(%edx),%xmm0
+ .byte 102,15,111,138,193,91,0,0 // movdqa 0x5bc1(%edx),%xmm1
.byte 102,15,219,203 // pand %xmm3,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,138,181,91,0,0 // mulps 0x5bb5(%edx),%xmm1
- .byte 102,15,111,146,197,91,0,0 // movdqa 0x5bc5(%edx),%xmm2
+ .byte 15,89,138,209,91,0,0 // mulps 0x5bd1(%edx),%xmm1
+ .byte 102,15,111,146,225,91,0,0 // movdqa 0x5be1(%edx),%xmm2
.byte 102,15,219,211 // pand %xmm3,%xmm2
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,146,213,91,0,0 // mulps 0x5bd5(%edx),%xmm2
- .byte 102,15,219,154,229,91,0,0 // pand 0x5be5(%edx),%xmm3
+ .byte 15,89,146,241,91,0,0 // mulps 0x5bf1(%edx),%xmm2
+ .byte 102,15,219,154,1,92,0,0 // pand 0x5c01(%edx),%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
- .byte 15,89,154,245,91,0,0 // mulps 0x5bf5(%edx),%xmm3
+ .byte 15,89,154,17,92,0,0 // mulps 0x5c11(%edx),%xmm3
.byte 141,80,8 // lea 0x8(%eax),%edx
.byte 131,236,8 // sub $0x8,%esp
.byte 82 // push %edx
@@ -60775,22 +60737,22 @@ _sk_load_4444_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,46 // je 460e <_sk_load_4444_sse2+0xd1>
+ .byte 116,46 // je 4602 <_sk_load_4444_sse2+0xd1>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,19 // je 45fc <_sk_load_4444_sse2+0xbf>
+ .byte 116,19 // je 45f0 <_sk_load_4444_sse2+0xbf>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,131 // jne 4571 <_sk_load_4444_sse2+0x34>
+ .byte 117,131 // jne 4565 <_sk_load_4444_sse2+0x34>
.byte 15,183,92,126,4 // movzwl 0x4(%esi,%edi,2),%ebx
.byte 102,15,110,195 // movd %ebx,%xmm0
.byte 102,15,112,216,69 // pshufd $0x45,%xmm0,%xmm3
.byte 102,15,110,4,126 // movd (%esi,%edi,2),%xmm0
.byte 102,15,97,192 // punpcklwd %xmm0,%xmm0
.byte 242,15,16,216 // movsd %xmm0,%xmm3
- .byte 233,99,255,255,255 // jmp 4571 <_sk_load_4444_sse2+0x34>
+ .byte 233,99,255,255,255 // jmp 4565 <_sk_load_4444_sse2+0x34>
.byte 15,183,52,126 // movzwl (%esi,%edi,2),%esi
.byte 102,15,110,222 // movd %esi,%xmm3
- .byte 233,86,255,255,255 // jmp 4571 <_sk_load_4444_sse2+0x34>
+ .byte 233,86,255,255,255 // jmp 4565 <_sk_load_4444_sse2+0x34>
HIDDEN _sk_load_4444_dst_sse2
.globl _sk_load_4444_dst_sse2
@@ -60802,7 +60764,7 @@ _sk_load_4444_dst_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 4629 <_sk_load_4444_dst_sse2+0xe>
+ .byte 232,0,0,0,0 // call 461d <_sk_load_4444_dst_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -60814,27 +60776,27 @@ _sk_load_4444_dst_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 15,133,128,0,0,0 // jne 46ca <_sk_load_4444_dst_sse2+0xaf>
+ .byte 15,133,128,0,0,0 // jne 46be <_sk_load_4444_dst_sse2+0xaf>
.byte 243,15,126,36,126 // movq (%esi,%edi,2),%xmm4
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
- .byte 102,15,111,170,39,91,0,0 // movdqa 0x5b27(%edx),%xmm5
+ .byte 102,15,111,170,67,91,0,0 // movdqa 0x5b43(%edx),%xmm5
.byte 102,15,219,236 // pand %xmm4,%xmm5
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
- .byte 15,89,170,55,91,0,0 // mulps 0x5b37(%edx),%xmm5
+ .byte 15,89,170,83,91,0,0 // mulps 0x5b53(%edx),%xmm5
.byte 15,41,105,16 // movaps %xmm5,0x10(%ecx)
- .byte 102,15,111,170,71,91,0,0 // movdqa 0x5b47(%edx),%xmm5
+ .byte 102,15,111,170,99,91,0,0 // movdqa 0x5b63(%edx),%xmm5
.byte 102,15,219,236 // pand %xmm4,%xmm5
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
- .byte 15,89,170,87,91,0,0 // mulps 0x5b57(%edx),%xmm5
+ .byte 15,89,170,115,91,0,0 // mulps 0x5b73(%edx),%xmm5
.byte 15,41,105,32 // movaps %xmm5,0x20(%ecx)
- .byte 102,15,111,170,103,91,0,0 // movdqa 0x5b67(%edx),%xmm5
+ .byte 102,15,111,170,131,91,0,0 // movdqa 0x5b83(%edx),%xmm5
.byte 102,15,219,236 // pand %xmm4,%xmm5
.byte 15,91,237 // cvtdq2ps %xmm5,%xmm5
- .byte 15,89,170,119,91,0,0 // mulps 0x5b77(%edx),%xmm5
+ .byte 15,89,170,147,91,0,0 // mulps 0x5b93(%edx),%xmm5
.byte 15,41,105,48 // movaps %xmm5,0x30(%ecx)
- .byte 102,15,219,162,135,91,0,0 // pand 0x5b87(%edx),%xmm4
+ .byte 102,15,219,162,163,91,0,0 // pand 0x5ba3(%edx),%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
- .byte 15,89,162,151,91,0,0 // mulps 0x5b97(%edx),%xmm4
+ .byte 15,89,162,179,91,0,0 // mulps 0x5bb3(%edx),%xmm4
.byte 15,41,97,64 // movaps %xmm4,0x40(%ecx)
.byte 141,80,8 // lea 0x8(%eax),%edx
.byte 131,236,8 // sub $0x8,%esp
@@ -60849,22 +60811,22 @@ _sk_load_4444_dst_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,50 // je 4704 <_sk_load_4444_dst_sse2+0xe9>
+ .byte 116,50 // je 46f8 <_sk_load_4444_dst_sse2+0xe9>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,23 // je 46f2 <_sk_load_4444_dst_sse2+0xd7>
+ .byte 116,23 // je 46e6 <_sk_load_4444_dst_sse2+0xd7>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 15,133,111,255,255,255 // jne 4653 <_sk_load_4444_dst_sse2+0x38>
+ .byte 15,133,111,255,255,255 // jne 4647 <_sk_load_4444_dst_sse2+0x38>
.byte 15,183,92,126,4 // movzwl 0x4(%esi,%edi,2),%ebx
.byte 102,15,110,227 // movd %ebx,%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
.byte 102,15,110,44,126 // movd (%esi,%edi,2),%xmm5
.byte 102,15,97,232 // punpcklwd %xmm0,%xmm5
.byte 242,15,16,229 // movsd %xmm5,%xmm4
- .byte 233,79,255,255,255 // jmp 4653 <_sk_load_4444_dst_sse2+0x38>
+ .byte 233,79,255,255,255 // jmp 4647 <_sk_load_4444_dst_sse2+0x38>
.byte 15,183,52,126 // movzwl (%esi,%edi,2),%esi
.byte 102,15,110,230 // movd %esi,%xmm4
- .byte 233,66,255,255,255 // jmp 4653 <_sk_load_4444_dst_sse2+0x38>
+ .byte 233,66,255,255,255 // jmp 4647 <_sk_load_4444_dst_sse2+0x38>
HIDDEN _sk_gather_4444_sse2
.globl _sk_gather_4444_sse2
@@ -60900,25 +60862,25 @@ _sk_gather_4444_sse2:
.byte 102,15,126,193 // movd %xmm0,%ecx
.byte 15,183,12,74 // movzwl (%edx,%ecx,2),%ecx
.byte 102,15,196,217,3 // pinsrw $0x3,%ecx,%xmm3
- .byte 232,0,0,0,0 // call 4791 <_sk_gather_4444_sse2+0x80>
+ .byte 232,0,0,0,0 // call 4785 <_sk_gather_4444_sse2+0x80>
.byte 89 // pop %ecx
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 102,15,97,216 // punpcklwd %xmm0,%xmm3
- .byte 102,15,111,129,63,90,0,0 // movdqa 0x5a3f(%ecx),%xmm0
+ .byte 102,15,111,129,91,90,0,0 // movdqa 0x5a5b(%ecx),%xmm0
.byte 102,15,219,195 // pand %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,89,129,79,90,0,0 // mulps 0x5a4f(%ecx),%xmm0
- .byte 102,15,111,137,95,90,0,0 // movdqa 0x5a5f(%ecx),%xmm1
+ .byte 15,89,129,107,90,0,0 // mulps 0x5a6b(%ecx),%xmm0
+ .byte 102,15,111,137,123,90,0,0 // movdqa 0x5a7b(%ecx),%xmm1
.byte 102,15,219,203 // pand %xmm3,%xmm1
.byte 15,91,201 // cvtdq2ps %xmm1,%xmm1
- .byte 15,89,137,111,90,0,0 // mulps 0x5a6f(%ecx),%xmm1
- .byte 102,15,111,145,127,90,0,0 // movdqa 0x5a7f(%ecx),%xmm2
+ .byte 15,89,137,139,90,0,0 // mulps 0x5a8b(%ecx),%xmm1
+ .byte 102,15,111,145,155,90,0,0 // movdqa 0x5a9b(%ecx),%xmm2
.byte 102,15,219,211 // pand %xmm3,%xmm2
.byte 15,91,210 // cvtdq2ps %xmm2,%xmm2
- .byte 15,89,145,143,90,0,0 // mulps 0x5a8f(%ecx),%xmm2
- .byte 102,15,219,153,159,90,0,0 // pand 0x5a9f(%ecx),%xmm3
+ .byte 15,89,145,171,90,0,0 // mulps 0x5aab(%ecx),%xmm2
+ .byte 102,15,219,153,187,90,0,0 // pand 0x5abb(%ecx),%xmm3
.byte 15,91,219 // cvtdq2ps %xmm3,%xmm3
- .byte 15,89,153,175,90,0,0 // mulps 0x5aaf(%ecx),%xmm3
+ .byte 15,89,153,203,90,0,0 // mulps 0x5acb(%ecx),%xmm3
.byte 141,72,8 // lea 0x8(%eax),%ecx
.byte 131,236,8 // sub $0x8,%esp
.byte 81 // push %ecx
@@ -60938,7 +60900,7 @@ _sk_store_4444_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 480e <_sk_store_4444_sse2+0xe>
+ .byte 232,0,0,0,0 // call 4802 <_sk_store_4444_sse2+0xe>
.byte 95 // pop %edi
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -60948,7 +60910,7 @@ _sk_store_4444_sse2:
.byte 1,210 // add %edx,%edx
.byte 3,22 // add (%esi),%edx
.byte 139,49 // mov (%ecx),%esi
- .byte 15,40,167,66,90,0,0 // movaps 0x5a42(%edi),%xmm4
+ .byte 15,40,167,94,90,0,0 // movaps 0x5a5e(%edi),%xmm4
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 15,40,232 // movaps %xmm0,%xmm5
.byte 15,89,236 // mulps %xmm4,%xmm5
@@ -60974,7 +60936,7 @@ _sk_store_4444_sse2:
.byte 102,15,112,236,229 // pshufd $0xe5,%xmm4,%xmm5
.byte 102,15,126,109,236 // movd %xmm5,-0x14(%ebp)
.byte 133,219 // test %ebx,%ebx
- .byte 117,34 // jne 48b1 <_sk_store_4444_sse2+0xb1>
+ .byte 117,34 // jne 48a5 <_sk_store_4444_sse2+0xb1>
.byte 102,15,126,231 // movd %xmm4,%edi
.byte 102,15,126,235 // movd %xmm5,%ebx
.byte 137,60,114 // mov %edi,(%edx,%esi,2)
@@ -60994,20 +60956,20 @@ _sk_store_4444_sse2:
.byte 102,15,97,224 // punpcklwd %xmm0,%xmm4
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,37 // je 48e7 <_sk_store_4444_sse2+0xe7>
+ .byte 116,37 // je 48db <_sk_store_4444_sse2+0xe7>
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,15 // je 48d6 <_sk_store_4444_sse2+0xd6>
+ .byte 116,15 // je 48ca <_sk_store_4444_sse2+0xd6>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,210 // jne 489e <_sk_store_4444_sse2+0x9e>
+ .byte 117,210 // jne 4892 <_sk_store_4444_sse2+0x9e>
.byte 102,15,197,252,4 // pextrw $0x4,%xmm4,%edi
.byte 102,137,124,114,4 // mov %di,0x4(%edx,%esi,2)
.byte 102,15,112,228,212 // pshufd $0xd4,%xmm4,%xmm4
.byte 242,15,112,228,232 // pshuflw $0xe8,%xmm4,%xmm4
.byte 102,15,126,36,114 // movd %xmm4,(%edx,%esi,2)
- .byte 235,183 // jmp 489e <_sk_store_4444_sse2+0x9e>
+ .byte 235,183 // jmp 4892 <_sk_store_4444_sse2+0x9e>
.byte 102,15,126,231 // movd %xmm4,%edi
.byte 102,137,60,114 // mov %di,(%edx,%esi,2)
- .byte 235,173 // jmp 489e <_sk_store_4444_sse2+0x9e>
+ .byte 235,173 // jmp 4892 <_sk_store_4444_sse2+0x9e>
HIDDEN _sk_load_8888_sse2
.globl _sk_load_8888_sse2
@@ -61019,7 +60981,7 @@ _sk_load_8888_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 48ff <_sk_load_8888_sse2+0xe>
+ .byte 232,0,0,0,0 // call 48f3 <_sk_load_8888_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -61031,13 +60993,13 @@ _sk_load_8888_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,102 // jne 4983 <_sk_load_8888_sse2+0x92>
+ .byte 117,102 // jne 4977 <_sk_load_8888_sse2+0x92>
.byte 243,15,111,28,190 // movdqu (%esi,%edi,4),%xmm3
- .byte 102,15,111,146,97,89,0,0 // movdqa 0x5961(%edx),%xmm2
+ .byte 102,15,111,146,125,89,0,0 // movdqa 0x597d(%edx),%xmm2
.byte 102,15,111,195 // movdqa %xmm3,%xmm0
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,40,162,113,89,0,0 // movaps 0x5971(%edx),%xmm4
+ .byte 15,40,162,141,89,0,0 // movaps 0x598d(%edx),%xmm4
.byte 15,89,196 // mulps %xmm4,%xmm0
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,15,114,209,8 // psrld $0x8,%xmm1
@@ -61065,18 +61027,18 @@ _sk_load_8888_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,35 // je 49ae <_sk_load_8888_sse2+0xbd>
+ .byte 116,35 // je 49a2 <_sk_load_8888_sse2+0xbd>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,16 // je 49a4 <_sk_load_8888_sse2+0xb3>
+ .byte 116,16 // je 4998 <_sk_load_8888_sse2+0xb3>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,137 // jne 4922 <_sk_load_8888_sse2+0x31>
+ .byte 117,137 // jne 4916 <_sk_load_8888_sse2+0x31>
.byte 102,15,110,68,190,8 // movd 0x8(%esi,%edi,4),%xmm0
.byte 102,15,112,216,69 // pshufd $0x45,%xmm0,%xmm3
.byte 102,15,18,28,190 // movlpd (%esi,%edi,4),%xmm3
- .byte 233,116,255,255,255 // jmp 4922 <_sk_load_8888_sse2+0x31>
+ .byte 233,116,255,255,255 // jmp 4916 <_sk_load_8888_sse2+0x31>
.byte 102,15,110,28,190 // movd (%esi,%edi,4),%xmm3
- .byte 233,106,255,255,255 // jmp 4922 <_sk_load_8888_sse2+0x31>
+ .byte 233,106,255,255,255 // jmp 4916 <_sk_load_8888_sse2+0x31>
HIDDEN _sk_load_8888_dst_sse2
.globl _sk_load_8888_dst_sse2
@@ -61088,7 +61050,7 @@ _sk_load_8888_dst_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 49c6 <_sk_load_8888_dst_sse2+0xe>
+ .byte 232,0,0,0,0 // call 49ba <_sk_load_8888_dst_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -61100,13 +61062,13 @@ _sk_load_8888_dst_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,118 // jne 4a5a <_sk_load_8888_dst_sse2+0xa2>
+ .byte 117,118 // jne 4a4e <_sk_load_8888_dst_sse2+0xa2>
.byte 243,15,111,36,190 // movdqu (%esi,%edi,4),%xmm4
- .byte 102,15,111,170,186,88,0,0 // movdqa 0x58ba(%edx),%xmm5
+ .byte 102,15,111,170,214,88,0,0 // movdqa 0x58d6(%edx),%xmm5
.byte 102,15,111,244 // movdqa %xmm4,%xmm6
.byte 102,15,219,245 // pand %xmm5,%xmm6
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
- .byte 15,40,186,202,88,0,0 // movaps 0x58ca(%edx),%xmm7
+ .byte 15,40,186,230,88,0,0 // movaps 0x58e6(%edx),%xmm7
.byte 15,89,247 // mulps %xmm7,%xmm6
.byte 15,41,113,16 // movaps %xmm6,0x10(%ecx)
.byte 102,15,111,244 // movdqa %xmm4,%xmm6
@@ -61138,18 +61100,18 @@ _sk_load_8888_dst_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,39 // je 4a89 <_sk_load_8888_dst_sse2+0xd1>
+ .byte 116,39 // je 4a7d <_sk_load_8888_dst_sse2+0xd1>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,20 // je 4a7f <_sk_load_8888_dst_sse2+0xc7>
+ .byte 116,20 // je 4a73 <_sk_load_8888_dst_sse2+0xc7>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 15,133,117,255,255,255 // jne 49e9 <_sk_load_8888_dst_sse2+0x31>
+ .byte 15,133,117,255,255,255 // jne 49dd <_sk_load_8888_dst_sse2+0x31>
.byte 102,15,110,100,190,8 // movd 0x8(%esi,%edi,4),%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
.byte 102,15,18,36,190 // movlpd (%esi,%edi,4),%xmm4
- .byte 233,96,255,255,255 // jmp 49e9 <_sk_load_8888_dst_sse2+0x31>
+ .byte 233,96,255,255,255 // jmp 49dd <_sk_load_8888_dst_sse2+0x31>
.byte 102,15,110,36,190 // movd (%esi,%edi,4),%xmm4
- .byte 233,86,255,255,255 // jmp 49e9 <_sk_load_8888_dst_sse2+0x31>
+ .byte 233,86,255,255,255 // jmp 49dd <_sk_load_8888_dst_sse2+0x31>
HIDDEN _sk_gather_8888_sse2
.globl _sk_gather_8888_sse2
@@ -61183,16 +61145,16 @@ _sk_gather_8888_sse2:
.byte 102,15,110,28,138 // movd (%edx,%ecx,4),%xmm3
.byte 102,15,126,193 // movd %xmm0,%ecx
.byte 102,15,110,4,138 // movd (%edx,%ecx,4),%xmm0
- .byte 232,0,0,0,0 // call 4b09 <_sk_gather_8888_sse2+0x76>
+ .byte 232,0,0,0,0 // call 4afd <_sk_gather_8888_sse2+0x76>
.byte 89 // pop %ecx
.byte 102,15,98,202 // punpckldq %xmm2,%xmm1
.byte 102,15,98,216 // punpckldq %xmm0,%xmm3
.byte 102,15,98,217 // punpckldq %xmm1,%xmm3
- .byte 102,15,111,145,151,87,0,0 // movdqa 0x5797(%ecx),%xmm2
+ .byte 102,15,111,145,179,87,0,0 // movdqa 0x57b3(%ecx),%xmm2
.byte 102,15,111,195 // movdqa %xmm3,%xmm0
.byte 102,15,219,194 // pand %xmm2,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,40,161,167,87,0,0 // movaps 0x57a7(%ecx),%xmm4
+ .byte 15,40,161,195,87,0,0 // movaps 0x57c3(%ecx),%xmm4
.byte 15,89,196 // mulps %xmm4,%xmm0
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,15,114,209,8 // psrld $0x8,%xmm1
@@ -61226,7 +61188,7 @@ _sk_store_8888_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 4b84 <_sk_store_8888_sse2+0xe>
+ .byte 232,0,0,0,0 // call 4b78 <_sk_store_8888_sse2+0xe>
.byte 95 // pop %edi
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -61236,7 +61198,7 @@ _sk_store_8888_sse2:
.byte 193,226,2 // shl $0x2,%edx
.byte 3,22 // add (%esi),%edx
.byte 139,49 // mov (%ecx),%esi
- .byte 15,40,167,60,87,0,0 // movaps 0x573c(%edi),%xmm4
+ .byte 15,40,167,88,87,0,0 // movaps 0x5758(%edi),%xmm4
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 15,40,232 // movaps %xmm0,%xmm5
.byte 15,89,236 // mulps %xmm4,%xmm5
@@ -61256,7 +61218,7 @@ _sk_store_8888_sse2:
.byte 102,15,235,229 // por %xmm5,%xmm4
.byte 102,15,235,230 // por %xmm6,%xmm4
.byte 133,219 // test %ebx,%ebx
- .byte 117,24 // jne 4c01 <_sk_store_8888_sse2+0x8b>
+ .byte 117,24 // jne 4bf5 <_sk_store_8888_sse2+0x8b>
.byte 243,15,127,36,178 // movdqu %xmm4,(%edx,%esi,4)
.byte 141,80,8 // lea 0x8(%eax),%edx
.byte 131,236,8 // sub $0x8,%esp
@@ -61271,17 +61233,17 @@ _sk_store_8888_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,28 // je 4c25 <_sk_store_8888_sse2+0xaf>
+ .byte 116,28 // je 4c19 <_sk_store_8888_sse2+0xaf>
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,16 // je 4c1e <_sk_store_8888_sse2+0xa8>
+ .byte 116,16 // je 4c12 <_sk_store_8888_sse2+0xa8>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,219 // jne 4bee <_sk_store_8888_sse2+0x78>
+ .byte 117,219 // jne 4be2 <_sk_store_8888_sse2+0x78>
.byte 102,15,112,236,78 // pshufd $0x4e,%xmm4,%xmm5
.byte 102,15,126,108,178,8 // movd %xmm5,0x8(%edx,%esi,4)
.byte 102,15,214,36,178 // movq %xmm4,(%edx,%esi,4)
- .byte 235,201 // jmp 4bee <_sk_store_8888_sse2+0x78>
+ .byte 235,201 // jmp 4be2 <_sk_store_8888_sse2+0x78>
.byte 102,15,126,36,178 // movd %xmm4,(%edx,%esi,4)
- .byte 235,194 // jmp 4bee <_sk_store_8888_sse2+0x78>
+ .byte 235,194 // jmp 4be2 <_sk_store_8888_sse2+0x78>
HIDDEN _sk_load_bgra_sse2
.globl _sk_load_bgra_sse2
@@ -61293,7 +61255,7 @@ _sk_load_bgra_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 4c3a <_sk_load_bgra_sse2+0xe>
+ .byte 232,0,0,0,0 // call 4c2e <_sk_load_bgra_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -61305,13 +61267,13 @@ _sk_load_bgra_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,102 // jne 4cbe <_sk_load_bgra_sse2+0x92>
+ .byte 117,102 // jne 4cb2 <_sk_load_bgra_sse2+0x92>
.byte 243,15,111,28,190 // movdqu (%esi,%edi,4),%xmm3
- .byte 102,15,111,130,150,86,0,0 // movdqa 0x5696(%edx),%xmm0
+ .byte 102,15,111,130,178,86,0,0 // movdqa 0x56b2(%edx),%xmm0
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,15,219,200 // pand %xmm0,%xmm1
.byte 15,91,209 // cvtdq2ps %xmm1,%xmm2
- .byte 15,40,162,166,86,0,0 // movaps 0x56a6(%edx),%xmm4
+ .byte 15,40,162,194,86,0,0 // movaps 0x56c2(%edx),%xmm4
.byte 15,89,212 // mulps %xmm4,%xmm2
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,15,114,209,8 // psrld $0x8,%xmm1
@@ -61339,18 +61301,18 @@ _sk_load_bgra_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,35 // je 4ce9 <_sk_load_bgra_sse2+0xbd>
+ .byte 116,35 // je 4cdd <_sk_load_bgra_sse2+0xbd>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,16 // je 4cdf <_sk_load_bgra_sse2+0xb3>
+ .byte 116,16 // je 4cd3 <_sk_load_bgra_sse2+0xb3>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,137 // jne 4c5d <_sk_load_bgra_sse2+0x31>
+ .byte 117,137 // jne 4c51 <_sk_load_bgra_sse2+0x31>
.byte 102,15,110,68,190,8 // movd 0x8(%esi,%edi,4),%xmm0
.byte 102,15,112,216,69 // pshufd $0x45,%xmm0,%xmm3
.byte 102,15,18,28,190 // movlpd (%esi,%edi,4),%xmm3
- .byte 233,116,255,255,255 // jmp 4c5d <_sk_load_bgra_sse2+0x31>
+ .byte 233,116,255,255,255 // jmp 4c51 <_sk_load_bgra_sse2+0x31>
.byte 102,15,110,28,190 // movd (%esi,%edi,4),%xmm3
- .byte 233,106,255,255,255 // jmp 4c5d <_sk_load_bgra_sse2+0x31>
+ .byte 233,106,255,255,255 // jmp 4c51 <_sk_load_bgra_sse2+0x31>
HIDDEN _sk_load_bgra_dst_sse2
.globl _sk_load_bgra_dst_sse2
@@ -61362,7 +61324,7 @@ _sk_load_bgra_dst_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 4d01 <_sk_load_bgra_dst_sse2+0xe>
+ .byte 232,0,0,0,0 // call 4cf5 <_sk_load_bgra_dst_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -61374,13 +61336,13 @@ _sk_load_bgra_dst_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 117,118 // jne 4d95 <_sk_load_bgra_dst_sse2+0xa2>
+ .byte 117,118 // jne 4d89 <_sk_load_bgra_dst_sse2+0xa2>
.byte 243,15,111,36,190 // movdqu (%esi,%edi,4),%xmm4
- .byte 102,15,111,170,239,85,0,0 // movdqa 0x55ef(%edx),%xmm5
+ .byte 102,15,111,170,11,86,0,0 // movdqa 0x560b(%edx),%xmm5
.byte 102,15,111,244 // movdqa %xmm4,%xmm6
.byte 102,15,219,245 // pand %xmm5,%xmm6
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
- .byte 15,40,186,255,85,0,0 // movaps 0x55ff(%edx),%xmm7
+ .byte 15,40,186,27,86,0,0 // movaps 0x561b(%edx),%xmm7
.byte 15,89,247 // mulps %xmm7,%xmm6
.byte 15,41,113,48 // movaps %xmm6,0x30(%ecx)
.byte 102,15,111,244 // movdqa %xmm4,%xmm6
@@ -61412,18 +61374,18 @@ _sk_load_bgra_dst_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,39 // je 4dc4 <_sk_load_bgra_dst_sse2+0xd1>
+ .byte 116,39 // je 4db8 <_sk_load_bgra_dst_sse2+0xd1>
.byte 102,15,239,228 // pxor %xmm4,%xmm4
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,20 // je 4dba <_sk_load_bgra_dst_sse2+0xc7>
+ .byte 116,20 // je 4dae <_sk_load_bgra_dst_sse2+0xc7>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 15,133,117,255,255,255 // jne 4d24 <_sk_load_bgra_dst_sse2+0x31>
+ .byte 15,133,117,255,255,255 // jne 4d18 <_sk_load_bgra_dst_sse2+0x31>
.byte 102,15,110,100,190,8 // movd 0x8(%esi,%edi,4),%xmm4
.byte 102,15,112,228,69 // pshufd $0x45,%xmm4,%xmm4
.byte 102,15,18,36,190 // movlpd (%esi,%edi,4),%xmm4
- .byte 233,96,255,255,255 // jmp 4d24 <_sk_load_bgra_dst_sse2+0x31>
+ .byte 233,96,255,255,255 // jmp 4d18 <_sk_load_bgra_dst_sse2+0x31>
.byte 102,15,110,36,190 // movd (%esi,%edi,4),%xmm4
- .byte 233,86,255,255,255 // jmp 4d24 <_sk_load_bgra_dst_sse2+0x31>
+ .byte 233,86,255,255,255 // jmp 4d18 <_sk_load_bgra_dst_sse2+0x31>
HIDDEN _sk_gather_bgra_sse2
.globl _sk_gather_bgra_sse2
@@ -61457,16 +61419,16 @@ _sk_gather_bgra_sse2:
.byte 102,15,110,28,138 // movd (%edx,%ecx,4),%xmm3
.byte 102,15,126,193 // movd %xmm0,%ecx
.byte 102,15,110,4,138 // movd (%edx,%ecx,4),%xmm0
- .byte 232,0,0,0,0 // call 4e44 <_sk_gather_bgra_sse2+0x76>
+ .byte 232,0,0,0,0 // call 4e38 <_sk_gather_bgra_sse2+0x76>
.byte 89 // pop %ecx
.byte 102,15,98,202 // punpckldq %xmm2,%xmm1
.byte 102,15,98,216 // punpckldq %xmm0,%xmm3
.byte 102,15,98,217 // punpckldq %xmm1,%xmm3
- .byte 102,15,111,129,204,84,0,0 // movdqa 0x54cc(%ecx),%xmm0
+ .byte 102,15,111,129,232,84,0,0 // movdqa 0x54e8(%ecx),%xmm0
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,15,219,200 // pand %xmm0,%xmm1
.byte 15,91,209 // cvtdq2ps %xmm1,%xmm2
- .byte 15,40,161,220,84,0,0 // movaps 0x54dc(%ecx),%xmm4
+ .byte 15,40,161,248,84,0,0 // movaps 0x54f8(%ecx),%xmm4
.byte 15,89,212 // mulps %xmm4,%xmm2
.byte 102,15,111,203 // movdqa %xmm3,%xmm1
.byte 102,15,114,209,8 // psrld $0x8,%xmm1
@@ -61500,7 +61462,7 @@ _sk_store_bgra_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,12 // sub $0xc,%esp
- .byte 232,0,0,0,0 // call 4ebf <_sk_store_bgra_sse2+0xe>
+ .byte 232,0,0,0,0 // call 4eb3 <_sk_store_bgra_sse2+0xe>
.byte 95 // pop %edi
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -61510,7 +61472,7 @@ _sk_store_bgra_sse2:
.byte 193,226,2 // shl $0x2,%edx
.byte 3,22 // add (%esi),%edx
.byte 139,49 // mov (%ecx),%esi
- .byte 15,40,167,113,84,0,0 // movaps 0x5471(%edi),%xmm4
+ .byte 15,40,167,141,84,0,0 // movaps 0x548d(%edi),%xmm4
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 15,40,234 // movaps %xmm2,%xmm5
.byte 15,89,236 // mulps %xmm4,%xmm5
@@ -61530,7 +61492,7 @@ _sk_store_bgra_sse2:
.byte 102,15,235,229 // por %xmm5,%xmm4
.byte 102,15,235,230 // por %xmm6,%xmm4
.byte 133,219 // test %ebx,%ebx
- .byte 117,24 // jne 4f3c <_sk_store_bgra_sse2+0x8b>
+ .byte 117,24 // jne 4f30 <_sk_store_bgra_sse2+0x8b>
.byte 243,15,127,36,178 // movdqu %xmm4,(%edx,%esi,4)
.byte 141,80,8 // lea 0x8(%eax),%edx
.byte 131,236,8 // sub $0x8,%esp
@@ -61545,17 +61507,17 @@ _sk_store_bgra_sse2:
.byte 195 // ret
.byte 128,227,3 // and $0x3,%bl
.byte 128,251,1 // cmp $0x1,%bl
- .byte 116,28 // je 4f60 <_sk_store_bgra_sse2+0xaf>
+ .byte 116,28 // je 4f54 <_sk_store_bgra_sse2+0xaf>
.byte 128,251,2 // cmp $0x2,%bl
- .byte 116,16 // je 4f59 <_sk_store_bgra_sse2+0xa8>
+ .byte 116,16 // je 4f4d <_sk_store_bgra_sse2+0xa8>
.byte 128,251,3 // cmp $0x3,%bl
- .byte 117,219 // jne 4f29 <_sk_store_bgra_sse2+0x78>
+ .byte 117,219 // jne 4f1d <_sk_store_bgra_sse2+0x78>
.byte 102,15,112,236,78 // pshufd $0x4e,%xmm4,%xmm5
.byte 102,15,126,108,178,8 // movd %xmm5,0x8(%edx,%esi,4)
.byte 102,15,214,36,178 // movq %xmm4,(%edx,%esi,4)
- .byte 235,201 // jmp 4f29 <_sk_store_bgra_sse2+0x78>
+ .byte 235,201 // jmp 4f1d <_sk_store_bgra_sse2+0x78>
.byte 102,15,126,36,178 // movd %xmm4,(%edx,%esi,4)
- .byte 235,194 // jmp 4f29 <_sk_store_bgra_sse2+0x78>
+ .byte 235,194 // jmp 4f1d <_sk_store_bgra_sse2+0x78>
HIDDEN _sk_load_f16_sse2
.globl _sk_load_f16_sse2
@@ -61567,7 +61529,7 @@ _sk_load_f16_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,92 // sub $0x5c,%esp
- .byte 232,0,0,0,0 // call 4f75 <_sk_load_f16_sse2+0xe>
+ .byte 232,0,0,0,0 // call 4f69 <_sk_load_f16_sse2+0xe>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -61579,7 +61541,7 @@ _sk_load_f16_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 15,133,160,1,0,0 // jne 5137 <_sk_load_f16_sse2+0x1d0>
+ .byte 15,133,160,1,0,0 // jne 512b <_sk_load_f16_sse2+0x1d0>
.byte 102,15,16,4,254 // movupd (%esi,%edi,8),%xmm0
.byte 243,15,111,76,254,16 // movdqu 0x10(%esi,%edi,8),%xmm1
.byte 102,15,40,216 // movapd %xmm0,%xmm3
@@ -61607,7 +61569,7 @@ _sk_load_f16_sse2:
.byte 102,15,126,69,232 // movd %xmm0,-0x18(%ebp)
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 102,15,97,200 // punpcklwd %xmm0,%xmm1
- .byte 102,15,111,154,203,83,0,0 // movdqa 0x53cb(%edx),%xmm3
+ .byte 102,15,111,154,231,83,0,0 // movdqa 0x53e7(%edx),%xmm3
.byte 102,15,111,225 // movdqa %xmm1,%xmm4
.byte 102,15,219,227 // pand %xmm3,%xmm4
.byte 102,15,239,204 // pxor %xmm4,%xmm1
@@ -61640,15 +61602,15 @@ _sk_load_f16_sse2:
.byte 102,15,111,199 // movdqa %xmm7,%xmm0
.byte 102,15,114,240,13 // pslld $0xd,%xmm0
.byte 102,15,235,195 // por %xmm3,%xmm0
- .byte 102,15,111,154,219,83,0,0 // movdqa 0x53db(%edx),%xmm3
+ .byte 102,15,111,154,247,83,0,0 // movdqa 0x53f7(%edx),%xmm3
.byte 102,15,254,211 // paddd %xmm3,%xmm2
.byte 102,15,254,243 // paddd %xmm3,%xmm6
.byte 102,15,254,235 // paddd %xmm3,%xmm5
.byte 102,15,254,195 // paddd %xmm3,%xmm0
- .byte 102,15,111,154,235,83,0,0 // movdqa 0x53eb(%edx),%xmm3
+ .byte 102,15,111,154,7,84,0,0 // movdqa 0x5407(%edx),%xmm3
.byte 102,15,127,93,184 // movdqa %xmm3,-0x48(%ebp)
.byte 102,15,239,203 // pxor %xmm3,%xmm1
- .byte 102,15,111,154,251,83,0,0 // movdqa 0x53fb(%edx),%xmm3
+ .byte 102,15,111,154,23,84,0,0 // movdqa 0x5417(%edx),%xmm3
.byte 102,15,111,227 // movdqa %xmm3,%xmm4
.byte 102,15,102,225 // pcmpgtd %xmm1,%xmm4
.byte 102,15,223,226 // pandn %xmm2,%xmm4
@@ -61680,12 +61642,12 @@ _sk_load_f16_sse2:
.byte 242,15,16,4,254 // movsd (%esi,%edi,8),%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 131,251,1 // cmp $0x1,%ebx
- .byte 15,132,89,254,255,255 // je 4fa2 <_sk_load_f16_sse2+0x3b>
+ .byte 15,132,89,254,255,255 // je 4f96 <_sk_load_f16_sse2+0x3b>
.byte 102,15,22,68,254,8 // movhpd 0x8(%esi,%edi,8),%xmm0
.byte 131,251,3 // cmp $0x3,%ebx
- .byte 15,130,74,254,255,255 // jb 4fa2 <_sk_load_f16_sse2+0x3b>
+ .byte 15,130,74,254,255,255 // jb 4f96 <_sk_load_f16_sse2+0x3b>
.byte 243,15,126,76,254,16 // movq 0x10(%esi,%edi,8),%xmm1
- .byte 233,63,254,255,255 // jmp 4fa2 <_sk_load_f16_sse2+0x3b>
+ .byte 233,63,254,255,255 // jmp 4f96 <_sk_load_f16_sse2+0x3b>
HIDDEN _sk_load_f16_dst_sse2
.globl _sk_load_f16_dst_sse2
@@ -61701,7 +61663,7 @@ _sk_load_f16_dst_sse2:
.byte 15,41,149,120,255,255,255 // movaps %xmm2,-0x88(%ebp)
.byte 102,15,127,77,136 // movdqa %xmm1,-0x78(%ebp)
.byte 15,41,69,152 // movaps %xmm0,-0x68(%ebp)
- .byte 232,0,0,0,0 // call 518b <_sk_load_f16_dst_sse2+0x28>
+ .byte 232,0,0,0,0 // call 517f <_sk_load_f16_dst_sse2+0x28>
.byte 90 // pop %edx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
@@ -61713,7 +61675,7 @@ _sk_load_f16_dst_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 133,219 // test %ebx,%ebx
.byte 139,57 // mov (%ecx),%edi
- .byte 15,133,206,1,0,0 // jne 537b <_sk_load_f16_dst_sse2+0x218>
+ .byte 15,133,206,1,0,0 // jne 536f <_sk_load_f16_dst_sse2+0x218>
.byte 102,15,16,4,254 // movupd (%esi,%edi,8),%xmm0
.byte 243,15,111,76,254,16 // movdqu 0x10(%esi,%edi,8),%xmm1
.byte 102,15,40,208 // movapd %xmm0,%xmm2
@@ -61741,7 +61703,7 @@ _sk_load_f16_dst_sse2:
.byte 102,15,126,85,232 // movd %xmm2,-0x18(%ebp)
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 102,15,97,225 // punpcklwd %xmm1,%xmm4
- .byte 102,15,111,154,245,81,0,0 // movdqa 0x51f5(%edx),%xmm3
+ .byte 102,15,111,154,17,82,0,0 // movdqa 0x5211(%edx),%xmm3
.byte 102,15,111,212 // movdqa %xmm4,%xmm2
.byte 102,15,219,211 // pand %xmm3,%xmm2
.byte 102,15,239,226 // pxor %xmm2,%xmm4
@@ -61749,13 +61711,13 @@ _sk_load_f16_dst_sse2:
.byte 102,15,111,204 // movdqa %xmm4,%xmm1
.byte 102,15,114,241,13 // pslld $0xd,%xmm1
.byte 102,15,235,202 // por %xmm2,%xmm1
- .byte 102,15,111,146,21,82,0,0 // movdqa 0x5215(%edx),%xmm2
+ .byte 102,15,111,146,49,82,0,0 // movdqa 0x5231(%edx),%xmm2
.byte 102,15,127,85,168 // movdqa %xmm2,-0x58(%ebp)
.byte 102,15,239,226 // pxor %xmm2,%xmm4
- .byte 102,15,111,178,37,82,0,0 // movdqa 0x5225(%edx),%xmm6
+ .byte 102,15,111,178,65,82,0,0 // movdqa 0x5241(%edx),%xmm6
.byte 102,15,111,254 // movdqa %xmm6,%xmm7
.byte 102,15,102,252 // pcmpgtd %xmm4,%xmm7
- .byte 102,15,111,146,5,82,0,0 // movdqa 0x5205(%edx),%xmm2
+ .byte 102,15,111,146,33,82,0,0 // movdqa 0x5221(%edx),%xmm2
.byte 102,15,127,85,184 // movdqa %xmm2,-0x48(%ebp)
.byte 102,15,254,202 // paddd %xmm2,%xmm1
.byte 102,15,223,249 // pandn %xmm1,%xmm7
@@ -61823,12 +61785,12 @@ _sk_load_f16_dst_sse2:
.byte 242,15,16,4,254 // movsd (%esi,%edi,8),%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 131,251,1 // cmp $0x1,%ebx
- .byte 15,132,43,254,255,255 // je 51b8 <_sk_load_f16_dst_sse2+0x55>
+ .byte 15,132,43,254,255,255 // je 51ac <_sk_load_f16_dst_sse2+0x55>
.byte 102,15,22,68,254,8 // movhpd 0x8(%esi,%edi,8),%xmm0
.byte 131,251,3 // cmp $0x3,%ebx
- .byte 15,130,28,254,255,255 // jb 51b8 <_sk_load_f16_dst_sse2+0x55>
+ .byte 15,130,28,254,255,255 // jb 51ac <_sk_load_f16_dst_sse2+0x55>
.byte 243,15,126,76,254,16 // movq 0x10(%esi,%edi,8),%xmm1
- .byte 233,17,254,255,255 // jmp 51b8 <_sk_load_f16_dst_sse2+0x55>
+ .byte 233,17,254,255,255 // jmp 51ac <_sk_load_f16_dst_sse2+0x55>
HIDDEN _sk_gather_f16_sse2
.globl _sk_gather_f16_sse2
@@ -61866,7 +61828,7 @@ _sk_gather_f16_sse2:
.byte 102,15,126,194 // movd %xmm0,%edx
.byte 102,15,110,68,209,4 // movd 0x4(%ecx,%edx,8),%xmm0
.byte 102,15,110,60,209 // movd (%ecx,%edx,8),%xmm7
- .byte 232,0,0,0,0 // call 5435 <_sk_gather_f16_sse2+0x8e>
+ .byte 232,0,0,0,0 // call 5429 <_sk_gather_f16_sse2+0x8e>
.byte 89 // pop %ecx
.byte 102,15,98,202 // punpckldq %xmm2,%xmm1
.byte 102,15,98,227 // punpckldq %xmm3,%xmm4
@@ -61899,7 +61861,7 @@ _sk_gather_f16_sse2:
.byte 102,15,126,69,248 // movd %xmm0,-0x8(%ebp)
.byte 102,15,239,192 // pxor %xmm0,%xmm0
.byte 102,15,97,200 // punpcklwd %xmm0,%xmm1
- .byte 102,15,111,153,139,79,0,0 // movdqa 0x4f8b(%ecx),%xmm3
+ .byte 102,15,111,153,167,79,0,0 // movdqa 0x4fa7(%ecx),%xmm3
.byte 102,15,111,225 // movdqa %xmm1,%xmm4
.byte 102,15,219,227 // pand %xmm3,%xmm4
.byte 102,15,239,204 // pxor %xmm4,%xmm1
@@ -61932,15 +61894,15 @@ _sk_gather_f16_sse2:
.byte 102,15,111,199 // movdqa %xmm7,%xmm0
.byte 102,15,114,240,13 // pslld $0xd,%xmm0
.byte 102,15,235,195 // por %xmm3,%xmm0
- .byte 102,15,111,153,155,79,0,0 // movdqa 0x4f9b(%ecx),%xmm3
+ .byte 102,15,111,153,183,79,0,0 // movdqa 0x4fb7(%ecx),%xmm3
.byte 102,15,254,211 // paddd %xmm3,%xmm2
.byte 102,15,254,243 // paddd %xmm3,%xmm6
.byte 102,15,254,235 // paddd %xmm3,%xmm5
.byte 102,15,254,195 // paddd %xmm3,%xmm0
- .byte 102,15,111,153,171,79,0,0 // movdqa 0x4fab(%ecx),%xmm3
+ .byte 102,15,111,153,199,79,0,0 // movdqa 0x4fc7(%ecx),%xmm3
.byte 102,15,127,93,200 // movdqa %xmm3,-0x38(%ebp)
.byte 102,15,239,203 // pxor %xmm3,%xmm1
- .byte 102,15,111,153,187,79,0,0 // movdqa 0x4fbb(%ecx),%xmm3
+ .byte 102,15,111,153,215,79,0,0 // movdqa 0x4fd7(%ecx),%xmm3
.byte 102,15,111,227 // movdqa %xmm3,%xmm4
.byte 102,15,102,225 // pcmpgtd %xmm1,%xmm4
.byte 102,15,223,226 // pandn %xmm2,%xmm4
@@ -61979,20 +61941,20 @@ _sk_store_f16_sse2:
.byte 131,236,80 // sub $0x50,%esp
.byte 15,41,93,216 // movaps %xmm3,-0x28(%ebp)
.byte 102,15,111,218 // movdqa %xmm2,%xmm3
- .byte 232,0,0,0,0 // call 55f8 <_sk_store_f16_sse2+0x15>
+ .byte 232,0,0,0,0 // call 55ec <_sk_store_f16_sse2+0x15>
.byte 88 // pop %eax
- .byte 102,15,111,176,8,78,0,0 // movdqa 0x4e08(%eax),%xmm6
+ .byte 102,15,111,176,36,78,0,0 // movdqa 0x4e24(%eax),%xmm6
.byte 102,15,111,208 // movdqa %xmm0,%xmm2
.byte 102,15,219,214 // pand %xmm6,%xmm2
.byte 102,15,127,69,200 // movdqa %xmm0,-0x38(%ebp)
.byte 102,15,111,232 // movdqa %xmm0,%xmm5
.byte 102,15,239,234 // pxor %xmm2,%xmm5
- .byte 102,15,111,160,24,78,0,0 // movdqa 0x4e18(%eax),%xmm4
+ .byte 102,15,111,160,52,78,0,0 // movdqa 0x4e34(%eax),%xmm4
.byte 102,15,114,210,16 // psrld $0x10,%xmm2
.byte 102,15,111,196 // movdqa %xmm4,%xmm0
.byte 102,15,102,197 // pcmpgtd %xmm5,%xmm0
.byte 102,15,114,213,13 // psrld $0xd,%xmm5
- .byte 102,15,111,184,40,78,0,0 // movdqa 0x4e28(%eax),%xmm7
+ .byte 102,15,111,184,68,78,0,0 // movdqa 0x4e44(%eax),%xmm7
.byte 102,15,254,215 // paddd %xmm7,%xmm2
.byte 102,15,127,125,232 // movdqa %xmm7,-0x18(%ebp)
.byte 102,15,254,213 // paddd %xmm5,%xmm2
@@ -62054,7 +62016,7 @@ _sk_store_f16_sse2:
.byte 3,55 // add (%edi),%esi
.byte 139,121,8 // mov 0x8(%ecx),%edi
.byte 133,255 // test %edi,%edi
- .byte 117,53 // jne 576a <_sk_store_f16_sse2+0x187>
+ .byte 117,53 // jne 575e <_sk_store_f16_sse2+0x187>
.byte 102,15,111,193 // movdqa %xmm1,%xmm0
.byte 102,15,98,197 // punpckldq %xmm5,%xmm0
.byte 243,15,127,4,214 // movdqu %xmm0,(%esi,%edx,8)
@@ -62077,13 +62039,13 @@ _sk_store_f16_sse2:
.byte 102,15,98,213 // punpckldq %xmm5,%xmm2
.byte 102,15,214,20,214 // movq %xmm2,(%esi,%edx,8)
.byte 131,255,1 // cmp $0x1,%edi
- .byte 116,208 // je 574c <_sk_store_f16_sse2+0x169>
+ .byte 116,208 // je 5740 <_sk_store_f16_sse2+0x169>
.byte 102,15,23,84,214,8 // movhpd %xmm2,0x8(%esi,%edx,8)
.byte 131,255,3 // cmp $0x3,%edi
- .byte 114,197 // jb 574c <_sk_store_f16_sse2+0x169>
+ .byte 114,197 // jb 5740 <_sk_store_f16_sse2+0x169>
.byte 102,15,106,205 // punpckhdq %xmm5,%xmm1
.byte 102,15,214,76,214,16 // movq %xmm1,0x10(%esi,%edx,8)
- .byte 235,185 // jmp 574c <_sk_store_f16_sse2+0x169>
+ .byte 235,185 // jmp 5740 <_sk_store_f16_sse2+0x169>
HIDDEN _sk_load_u16_be_sse2
.globl _sk_load_u16_be_sse2
@@ -62106,9 +62068,9 @@ _sk_load_u16_be_sse2:
.byte 139,89,8 // mov 0x8(%ecx),%ebx
.byte 193,230,2 // shl $0x2,%esi
.byte 133,219 // test %ebx,%ebx
- .byte 232,0,0,0,0 // call 57be <_sk_load_u16_be_sse2+0x2b>
+ .byte 232,0,0,0,0 // call 57b2 <_sk_load_u16_be_sse2+0x2b>
.byte 90 // pop %edx
- .byte 15,133,11,1,0,0 // jne 58d0 <_sk_load_u16_be_sse2+0x13d>
+ .byte 15,133,11,1,0,0 // jne 58c4 <_sk_load_u16_be_sse2+0x13d>
.byte 102,15,16,4,119 // movupd (%edi,%esi,2),%xmm0
.byte 243,15,111,76,119,16 // movdqu 0x10(%edi,%esi,2),%xmm1
.byte 102,15,40,208 // movapd %xmm0,%xmm2
@@ -62129,7 +62091,7 @@ _sk_load_u16_be_sse2:
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,97,195 // punpcklwd %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,40,162,114,76,0,0 // movaps 0x4c72(%edx),%xmm4
+ .byte 15,40,162,142,76,0,0 // movaps 0x4c8e(%edx),%xmm4
.byte 15,89,196 // mulps %xmm4,%xmm0
.byte 102,15,111,205 // movdqa %xmm5,%xmm1
.byte 102,15,113,241,8 // psllw $0x8,%xmm1
@@ -62179,12 +62141,12 @@ _sk_load_u16_be_sse2:
.byte 242,15,16,4,119 // movsd (%edi,%esi,2),%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 131,251,1 // cmp $0x1,%ebx
- .byte 15,132,238,254,255,255 // je 57d0 <_sk_load_u16_be_sse2+0x3d>
+ .byte 15,132,238,254,255,255 // je 57c4 <_sk_load_u16_be_sse2+0x3d>
.byte 102,15,22,68,119,8 // movhpd 0x8(%edi,%esi,2),%xmm0
.byte 131,251,3 // cmp $0x3,%ebx
- .byte 15,130,223,254,255,255 // jb 57d0 <_sk_load_u16_be_sse2+0x3d>
+ .byte 15,130,223,254,255,255 // jb 57c4 <_sk_load_u16_be_sse2+0x3d>
.byte 243,15,126,76,119,16 // movq 0x10(%edi,%esi,2),%xmm1
- .byte 233,212,254,255,255 // jmp 57d0 <_sk_load_u16_be_sse2+0x3d>
+ .byte 233,212,254,255,255 // jmp 57c4 <_sk_load_u16_be_sse2+0x3d>
HIDDEN _sk_load_rgb_u16_be_sse2
.globl _sk_load_rgb_u16_be_sse2
@@ -62206,9 +62168,9 @@ _sk_load_rgb_u16_be_sse2:
.byte 3,50 // add (%edx),%esi
.byte 107,25,3 // imul $0x3,(%ecx),%ebx
.byte 133,255 // test %edi,%edi
- .byte 232,0,0,0,0 // call 5925 <_sk_load_rgb_u16_be_sse2+0x29>
+ .byte 232,0,0,0,0 // call 5919 <_sk_load_rgb_u16_be_sse2+0x29>
.byte 90 // pop %edx
- .byte 15,133,240,0,0,0 // jne 5a1c <_sk_load_rgb_u16_be_sse2+0x120>
+ .byte 15,133,240,0,0,0 // jne 5a10 <_sk_load_rgb_u16_be_sse2+0x120>
.byte 243,15,111,20,94 // movdqu (%esi,%ebx,2),%xmm2
.byte 243,15,111,92,94,8 // movdqu 0x8(%esi,%ebx,2),%xmm3
.byte 102,15,115,219,4 // psrldq $0x4,%xmm3
@@ -62233,7 +62195,7 @@ _sk_load_rgb_u16_be_sse2:
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,97,195 // punpcklwd %xmm3,%xmm0
.byte 15,91,192 // cvtdq2ps %xmm0,%xmm0
- .byte 15,40,170,27,75,0,0 // movaps 0x4b1b(%edx),%xmm5
+ .byte 15,40,170,55,75,0,0 // movaps 0x4b37(%edx),%xmm5
.byte 15,89,197 // mulps %xmm5,%xmm0
.byte 102,15,111,204 // movdqa %xmm4,%xmm1
.byte 102,15,113,241,8 // psllw $0x8,%xmm1
@@ -62259,7 +62221,7 @@ _sk_load_rgb_u16_be_sse2:
.byte 15,89,213 // mulps %xmm5,%xmm2
.byte 141,112,8 // lea 0x8(%eax),%esi
.byte 131,236,8 // sub $0x8,%esp
- .byte 15,40,154,43,75,0,0 // movaps 0x4b2b(%edx),%xmm3
+ .byte 15,40,154,71,75,0,0 // movaps 0x4b47(%edx),%xmm3
.byte 86 // push %esi
.byte 81 // push %ecx
.byte 255,80,4 // call *0x4(%eax)
@@ -62273,20 +62235,20 @@ _sk_load_rgb_u16_be_sse2:
.byte 102,15,196,84,94,4,2 // pinsrw $0x2,0x4(%esi,%ebx,2),%xmm2
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 131,255,1 // cmp $0x1,%edi
- .byte 117,13 // jne 5a3e <_sk_load_rgb_u16_be_sse2+0x142>
+ .byte 117,13 // jne 5a32 <_sk_load_rgb_u16_be_sse2+0x142>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
.byte 102,15,239,192 // pxor %xmm0,%xmm0
- .byte 233,16,255,255,255 // jmp 594e <_sk_load_rgb_u16_be_sse2+0x52>
+ .byte 233,16,255,255,255 // jmp 5942 <_sk_load_rgb_u16_be_sse2+0x52>
.byte 102,15,110,68,94,6 // movd 0x6(%esi,%ebx,2),%xmm0
.byte 102,15,196,68,94,10,2 // pinsrw $0x2,0xa(%esi,%ebx,2),%xmm0
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 131,255,3 // cmp $0x3,%edi
- .byte 114,18 // jb 5a66 <_sk_load_rgb_u16_be_sse2+0x16a>
+ .byte 114,18 // jb 5a5a <_sk_load_rgb_u16_be_sse2+0x16a>
.byte 102,15,110,92,94,12 // movd 0xc(%esi,%ebx,2),%xmm3
.byte 102,15,196,92,94,16,2 // pinsrw $0x2,0x10(%esi,%ebx,2),%xmm3
- .byte 233,232,254,255,255 // jmp 594e <_sk_load_rgb_u16_be_sse2+0x52>
+ .byte 233,232,254,255,255 // jmp 5942 <_sk_load_rgb_u16_be_sse2+0x52>
.byte 102,15,239,219 // pxor %xmm3,%xmm3
- .byte 233,223,254,255,255 // jmp 594e <_sk_load_rgb_u16_be_sse2+0x52>
+ .byte 233,223,254,255,255 // jmp 5942 <_sk_load_rgb_u16_be_sse2+0x52>
HIDDEN _sk_store_u16_be_sse2
.globl _sk_store_u16_be_sse2
@@ -62298,9 +62260,9 @@ _sk_store_u16_be_sse2:
.byte 86 // push %esi
.byte 131,236,16 // sub $0x10,%esp
.byte 15,41,93,232 // movaps %xmm3,-0x18(%ebp)
- .byte 232,0,0,0,0 // call 5a80 <_sk_store_u16_be_sse2+0x11>
+ .byte 232,0,0,0,0 // call 5a74 <_sk_store_u16_be_sse2+0x11>
.byte 88 // pop %eax
- .byte 15,40,176,224,73,0,0 // movaps 0x49e0(%eax),%xmm6
+ .byte 15,40,176,252,73,0,0 // movaps 0x49fc(%eax),%xmm6
.byte 15,40,224 // movaps %xmm0,%xmm4
.byte 15,89,230 // mulps %xmm6,%xmm4
.byte 102,15,91,228 // cvtps2dq %xmm4,%xmm4
@@ -62353,7 +62315,7 @@ _sk_store_u16_be_sse2:
.byte 139,121,8 // mov 0x8(%ecx),%edi
.byte 193,226,2 // shl $0x2,%edx
.byte 133,255 // test %edi,%edi
- .byte 117,45 // jne 5b82 <_sk_store_u16_be_sse2+0x113>
+ .byte 117,45 // jne 5b76 <_sk_store_u16_be_sse2+0x113>
.byte 102,15,111,220 // movdqa %xmm4,%xmm3
.byte 102,15,98,221 // punpckldq %xmm5,%xmm3
.byte 243,15,127,28,86 // movdqu %xmm3,(%esi,%edx,2)
@@ -62374,13 +62336,13 @@ _sk_store_u16_be_sse2:
.byte 102,15,98,245 // punpckldq %xmm5,%xmm6
.byte 102,15,214,52,86 // movq %xmm6,(%esi,%edx,2)
.byte 131,255,1 // cmp $0x1,%edi
- .byte 116,216 // je 5b6c <_sk_store_u16_be_sse2+0xfd>
+ .byte 116,216 // je 5b60 <_sk_store_u16_be_sse2+0xfd>
.byte 102,15,23,116,86,8 // movhpd %xmm6,0x8(%esi,%edx,2)
.byte 131,255,3 // cmp $0x3,%edi
- .byte 114,205 // jb 5b6c <_sk_store_u16_be_sse2+0xfd>
+ .byte 114,205 // jb 5b60 <_sk_store_u16_be_sse2+0xfd>
.byte 102,15,106,229 // punpckhdq %xmm5,%xmm4
.byte 102,15,214,100,86,16 // movq %xmm4,0x10(%esi,%edx,2)
- .byte 235,193 // jmp 5b6c <_sk_store_u16_be_sse2+0xfd>
+ .byte 235,193 // jmp 5b60 <_sk_store_u16_be_sse2+0xfd>
HIDDEN _sk_load_f32_sse2
.globl _sk_load_f32_sse2
@@ -62403,7 +62365,7 @@ _sk_load_f32_sse2:
.byte 15,16,36,23 // movups (%edi,%edx,1),%xmm4
.byte 139,121,8 // mov 0x8(%ecx),%edi
.byte 133,255 // test %edi,%edi
- .byte 117,71 // jne 5c22 <_sk_load_f32_sse2+0x77>
+ .byte 117,71 // jne 5c16 <_sk_load_f32_sse2+0x77>
.byte 15,16,84,178,16 // movups 0x10(%edx,%esi,4),%xmm2
.byte 15,16,92,178,32 // movups 0x20(%edx,%esi,4),%xmm3
.byte 15,16,68,178,48 // movups 0x30(%edx,%esi,4),%xmm0
@@ -62431,17 +62393,17 @@ _sk_load_f32_sse2:
.byte 195 // ret
.byte 15,87,192 // xorps %xmm0,%xmm0
.byte 131,255,1 // cmp $0x1,%edi
- .byte 117,8 // jne 5c32 <_sk_load_f32_sse2+0x87>
+ .byte 117,8 // jne 5c26 <_sk_load_f32_sse2+0x87>
.byte 15,87,219 // xorps %xmm3,%xmm3
.byte 15,87,210 // xorps %xmm2,%xmm2
- .byte 235,184 // jmp 5bea <_sk_load_f32_sse2+0x3f>
+ .byte 235,184 // jmp 5bde <_sk_load_f32_sse2+0x3f>
.byte 15,16,84,178,16 // movups 0x10(%edx,%esi,4),%xmm2
.byte 131,255,3 // cmp $0x3,%edi
- .byte 114,7 // jb 5c43 <_sk_load_f32_sse2+0x98>
+ .byte 114,7 // jb 5c37 <_sk_load_f32_sse2+0x98>
.byte 15,16,92,178,32 // movups 0x20(%edx,%esi,4),%xmm3
- .byte 235,167 // jmp 5bea <_sk_load_f32_sse2+0x3f>
+ .byte 235,167 // jmp 5bde <_sk_load_f32_sse2+0x3f>
.byte 15,87,219 // xorps %xmm3,%xmm3
- .byte 235,162 // jmp 5bea <_sk_load_f32_sse2+0x3f>
+ .byte 235,162 // jmp 5bde <_sk_load_f32_sse2+0x3f>
HIDDEN _sk_load_f32_dst_sse2
.globl _sk_load_f32_dst_sse2
@@ -62467,7 +62429,7 @@ _sk_load_f32_dst_sse2:
.byte 15,16,52,23 // movups (%edi,%edx,1),%xmm6
.byte 139,121,8 // mov 0x8(%ecx),%edi
.byte 133,255 // test %edi,%edi
- .byte 117,97 // jne 5ce4 <_sk_load_f32_dst_sse2+0x9c>
+ .byte 117,97 // jne 5cd8 <_sk_load_f32_dst_sse2+0x9c>
.byte 15,16,124,178,16 // movups 0x10(%edx,%esi,4),%xmm7
.byte 15,16,92,178,32 // movups 0x20(%edx,%esi,4),%xmm3
.byte 15,16,84,178,48 // movups 0x30(%edx,%esi,4),%xmm2
@@ -62501,17 +62463,17 @@ _sk_load_f32_dst_sse2:
.byte 195 // ret
.byte 15,87,210 // xorps %xmm2,%xmm2
.byte 131,255,1 // cmp $0x1,%edi
- .byte 117,8 // jne 5cf4 <_sk_load_f32_dst_sse2+0xac>
+ .byte 117,8 // jne 5ce8 <_sk_load_f32_dst_sse2+0xac>
.byte 15,87,219 // xorps %xmm3,%xmm3
.byte 15,87,255 // xorps %xmm7,%xmm7
- .byte 235,158 // jmp 5c92 <_sk_load_f32_dst_sse2+0x4a>
+ .byte 235,158 // jmp 5c86 <_sk_load_f32_dst_sse2+0x4a>
.byte 15,16,124,178,16 // movups 0x10(%edx,%esi,4),%xmm7
.byte 131,255,3 // cmp $0x3,%edi
- .byte 114,7 // jb 5d05 <_sk_load_f32_dst_sse2+0xbd>
+ .byte 114,7 // jb 5cf9 <_sk_load_f32_dst_sse2+0xbd>
.byte 15,16,92,178,32 // movups 0x20(%edx,%esi,4),%xmm3
- .byte 235,141 // jmp 5c92 <_sk_load_f32_dst_sse2+0x4a>
+ .byte 235,141 // jmp 5c86 <_sk_load_f32_dst_sse2+0x4a>
.byte 15,87,219 // xorps %xmm3,%xmm3
- .byte 235,136 // jmp 5c92 <_sk_load_f32_dst_sse2+0x4a>
+ .byte 235,136 // jmp 5c86 <_sk_load_f32_dst_sse2+0x4a>
HIDDEN _sk_store_f32_sse2
.globl _sk_store_f32_sse2
@@ -62549,7 +62511,7 @@ _sk_store_f32_sse2:
.byte 15,40,238 // movaps %xmm6,%xmm5
.byte 102,15,20,239 // unpcklpd %xmm7,%xmm5
.byte 133,255 // test %edi,%edi
- .byte 117,40 // jne 5d90 <_sk_store_f32_sse2+0x86>
+ .byte 117,40 // jne 5d84 <_sk_store_f32_sse2+0x86>
.byte 102,15,21,247 // unpckhpd %xmm7,%xmm6
.byte 15,17,100,178,16 // movups %xmm4,0x10(%edx,%esi,4)
.byte 102,15,17,108,178,32 // movupd %xmm5,0x20(%edx,%esi,4)
@@ -62566,12 +62528,12 @@ _sk_store_f32_sse2:
.byte 93 // pop %ebp
.byte 195 // ret
.byte 131,255,1 // cmp $0x1,%edi
- .byte 116,232 // je 5d7d <_sk_store_f32_sse2+0x73>
+ .byte 116,232 // je 5d71 <_sk_store_f32_sse2+0x73>
.byte 15,17,100,178,16 // movups %xmm4,0x10(%edx,%esi,4)
.byte 131,255,3 // cmp $0x3,%edi
- .byte 114,222 // jb 5d7d <_sk_store_f32_sse2+0x73>
+ .byte 114,222 // jb 5d71 <_sk_store_f32_sse2+0x73>
.byte 102,15,17,108,178,32 // movupd %xmm5,0x20(%edx,%esi,4)
- .byte 235,214 // jmp 5d7d <_sk_store_f32_sse2+0x73>
+ .byte 235,214 // jmp 5d71 <_sk_store_f32_sse2+0x73>
HIDDEN _sk_clamp_x_sse2
.globl _sk_clamp_x_sse2
@@ -62632,7 +62594,7 @@ _sk_repeat_x_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 5e24 <_sk_repeat_x_sse2+0xb>
+ .byte 232,0,0,0,0 // call 5e18 <_sk_repeat_x_sse2+0xb>
.byte 89 // pop %ecx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,16 // mov (%eax),%edx
@@ -62643,7 +62605,7 @@ _sk_repeat_x_sse2:
.byte 243,15,91,230 // cvttps2dq %xmm6,%xmm4
.byte 15,91,252 // cvtdq2ps %xmm4,%xmm7
.byte 15,194,247,1 // cmpltps %xmm7,%xmm6
- .byte 15,84,177,76,70,0,0 // andps 0x464c(%ecx),%xmm6
+ .byte 15,84,177,104,70,0,0 // andps 0x4668(%ecx),%xmm6
.byte 15,87,228 // xorps %xmm4,%xmm4
.byte 15,92,254 // subps %xmm6,%xmm7
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
@@ -62670,7 +62632,7 @@ _sk_repeat_y_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 5e8a <_sk_repeat_y_sse2+0xb>
+ .byte 232,0,0,0,0 // call 5e7e <_sk_repeat_y_sse2+0xb>
.byte 89 // pop %ecx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,16 // mov (%eax),%edx
@@ -62681,7 +62643,7 @@ _sk_repeat_y_sse2:
.byte 243,15,91,230 // cvttps2dq %xmm6,%xmm4
.byte 15,91,252 // cvtdq2ps %xmm4,%xmm7
.byte 15,194,247,1 // cmpltps %xmm7,%xmm6
- .byte 15,84,177,246,69,0,0 // andps 0x45f6(%ecx),%xmm6
+ .byte 15,84,177,18,70,0,0 // andps 0x4612(%ecx),%xmm6
.byte 15,87,228 // xorps %xmm4,%xmm4
.byte 15,92,254 // subps %xmm6,%xmm7
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
@@ -62708,7 +62670,7 @@ _sk_mirror_x_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 5ef0 <_sk_mirror_x_sse2+0xb>
+ .byte 232,0,0,0,0 // call 5ee4 <_sk_mirror_x_sse2+0xb>
.byte 89 // pop %ecx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,16 // mov (%eax),%edx
@@ -62717,13 +62679,13 @@ _sk_mirror_x_sse2:
.byte 15,40,229 // movaps %xmm5,%xmm4
.byte 15,198,228,0 // shufps $0x0,%xmm4,%xmm4
.byte 15,92,196 // subps %xmm4,%xmm0
- .byte 243,15,89,177,32,75,0,0 // mulss 0x4b20(%ecx),%xmm6
+ .byte 243,15,89,177,60,75,0,0 // mulss 0x4b3c(%ecx),%xmm6
.byte 15,198,246,0 // shufps $0x0,%xmm6,%xmm6
.byte 15,89,240 // mulps %xmm0,%xmm6
.byte 243,15,91,254 // cvttps2dq %xmm6,%xmm7
.byte 15,91,255 // cvtdq2ps %xmm7,%xmm7
.byte 15,194,247,1 // cmpltps %xmm7,%xmm6
- .byte 15,84,177,160,69,0,0 // andps 0x45a0(%ecx),%xmm6
+ .byte 15,84,177,188,69,0,0 // andps 0x45bc(%ecx),%xmm6
.byte 15,92,254 // subps %xmm6,%xmm7
.byte 243,15,88,237 // addss %xmm5,%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
@@ -62754,7 +62716,7 @@ _sk_mirror_y_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 5f75 <_sk_mirror_y_sse2+0xb>
+ .byte 232,0,0,0,0 // call 5f69 <_sk_mirror_y_sse2+0xb>
.byte 89 // pop %ecx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,16 // mov (%eax),%edx
@@ -62763,13 +62725,13 @@ _sk_mirror_y_sse2:
.byte 15,40,229 // movaps %xmm5,%xmm4
.byte 15,198,228,0 // shufps $0x0,%xmm4,%xmm4
.byte 15,92,204 // subps %xmm4,%xmm1
- .byte 243,15,89,177,159,74,0,0 // mulss 0x4a9f(%ecx),%xmm6
+ .byte 243,15,89,177,187,74,0,0 // mulss 0x4abb(%ecx),%xmm6
.byte 15,198,246,0 // shufps $0x0,%xmm6,%xmm6
.byte 15,89,241 // mulps %xmm1,%xmm6
.byte 243,15,91,254 // cvttps2dq %xmm6,%xmm7
.byte 15,91,255 // cvtdq2ps %xmm7,%xmm7
.byte 15,194,247,1 // cmpltps %xmm7,%xmm6
- .byte 15,84,177,43,69,0,0 // andps 0x452b(%ecx),%xmm6
+ .byte 15,84,177,71,69,0,0 // andps 0x4547(%ecx),%xmm6
.byte 15,92,254 // subps %xmm6,%xmm7
.byte 243,15,88,237 // addss %xmm5,%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
@@ -62800,12 +62762,12 @@ _sk_clamp_x_1_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 5ffa <_sk_clamp_x_1_sse2+0xb>
+ .byte 232,0,0,0,0 // call 5fee <_sk_clamp_x_1_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 15,87,228 // xorps %xmm4,%xmm4
.byte 15,95,224 // maxps %xmm0,%xmm4
- .byte 15,93,160,182,68,0,0 // minps 0x44b6(%eax),%xmm4
+ .byte 15,93,160,210,68,0,0 // minps 0x44d2(%eax),%xmm4
.byte 141,65,4 // lea 0x4(%ecx),%eax
.byte 131,236,8 // sub $0x8,%esp
.byte 15,40,196 // movaps %xmm4,%xmm0
@@ -62823,14 +62785,14 @@ _sk_repeat_x_1_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 602a <_sk_repeat_x_1_sse2+0xb>
+ .byte 232,0,0,0,0 // call 601e <_sk_repeat_x_1_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 243,15,91,224 // cvttps2dq %xmm0,%xmm4
.byte 15,91,228 // cvtdq2ps %xmm4,%xmm4
.byte 15,40,232 // movaps %xmm0,%xmm5
.byte 15,194,236,1 // cmpltps %xmm4,%xmm5
- .byte 15,84,168,150,68,0,0 // andps 0x4496(%eax),%xmm5
+ .byte 15,84,168,178,68,0,0 // andps 0x44b2(%eax),%xmm5
.byte 15,92,229 // subps %xmm5,%xmm4
.byte 15,92,196 // subps %xmm4,%xmm0
.byte 141,65,4 // lea 0x4(%ecx),%eax
@@ -62849,17 +62811,17 @@ _sk_mirror_x_1_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 6065 <_sk_mirror_x_1_sse2+0xb>
+ .byte 232,0,0,0,0 // call 6059 <_sk_mirror_x_1_sse2+0xb>
.byte 89 // pop %ecx
.byte 139,69,12 // mov 0xc(%ebp),%eax
- .byte 15,40,161,107,68,0,0 // movaps 0x446b(%ecx),%xmm4
+ .byte 15,40,161,135,68,0,0 // movaps 0x4487(%ecx),%xmm4
.byte 15,88,196 // addps %xmm4,%xmm0
- .byte 15,40,169,123,68,0,0 // movaps 0x447b(%ecx),%xmm5
+ .byte 15,40,169,151,68,0,0 // movaps 0x4497(%ecx),%xmm5
.byte 15,89,232 // mulps %xmm0,%xmm5
.byte 243,15,91,245 // cvttps2dq %xmm5,%xmm6
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
.byte 15,194,238,1 // cmpltps %xmm6,%xmm5
- .byte 15,84,169,139,68,0,0 // andps 0x448b(%ecx),%xmm5
+ .byte 15,84,169,167,68,0,0 // andps 0x44a7(%ecx),%xmm5
.byte 15,87,255 // xorps %xmm7,%xmm7
.byte 15,92,245 // subps %xmm5,%xmm6
.byte 15,88,246 // addps %xmm6,%xmm6
@@ -62884,13 +62846,13 @@ _sk_luminance_to_alpha_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
.byte 15,40,218 // movaps %xmm2,%xmm3
- .byte 232,0,0,0,0 // call 60c3 <_sk_luminance_to_alpha_sse2+0xe>
+ .byte 232,0,0,0,0 // call 60b7 <_sk_luminance_to_alpha_sse2+0xe>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
- .byte 15,89,128,61,68,0,0 // mulps 0x443d(%eax),%xmm0
- .byte 15,89,136,77,68,0,0 // mulps 0x444d(%eax),%xmm1
+ .byte 15,89,128,89,68,0,0 // mulps 0x4459(%eax),%xmm0
+ .byte 15,89,136,105,68,0,0 // mulps 0x4469(%eax),%xmm1
.byte 15,88,200 // addps %xmm0,%xmm1
- .byte 15,89,152,93,68,0,0 // mulps 0x445d(%eax),%xmm3
+ .byte 15,89,152,121,68,0,0 // mulps 0x4479(%eax),%xmm3
.byte 15,88,217 // addps %xmm1,%xmm3
.byte 141,65,4 // lea 0x4(%ecx),%eax
.byte 131,236,8 // sub $0x8,%esp
@@ -63280,7 +63242,7 @@ _sk_evenly_spaced_gradient_sse2:
.byte 86 // push %esi
.byte 131,236,60 // sub $0x3c,%esp
.byte 15,41,69,184 // movaps %xmm0,-0x48(%ebp)
- .byte 232,0,0,0,0 // call 6560 <_sk_evenly_spaced_gradient_sse2+0x12>
+ .byte 232,0,0,0,0 // call 6554 <_sk_evenly_spaced_gradient_sse2+0x12>
.byte 90 // pop %edx
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 141,65,4 // lea 0x4(%ecx),%eax
@@ -63291,12 +63253,12 @@ _sk_evenly_spaced_gradient_sse2:
.byte 78 // dec %esi
.byte 102,15,110,206 // movd %esi,%xmm1
.byte 102,15,112,201,0 // pshufd $0x0,%xmm1,%xmm1
- .byte 102,15,111,146,208,63,0,0 // movdqa 0x3fd0(%edx),%xmm2
+ .byte 102,15,111,146,236,63,0,0 // movdqa 0x3fec(%edx),%xmm2
.byte 102,15,219,209 // pand %xmm1,%xmm2
- .byte 102,15,235,146,224,63,0,0 // por 0x3fe0(%edx),%xmm2
+ .byte 102,15,235,146,252,63,0,0 // por 0x3ffc(%edx),%xmm2
.byte 102,15,114,209,16 // psrld $0x10,%xmm1
- .byte 102,15,235,138,240,63,0,0 // por 0x3ff0(%edx),%xmm1
- .byte 15,88,138,0,64,0,0 // addps 0x4000(%edx),%xmm1
+ .byte 102,15,235,138,12,64,0,0 // por 0x400c(%edx),%xmm1
+ .byte 15,88,138,28,64,0,0 // addps 0x401c(%edx),%xmm1
.byte 15,88,202 // addps %xmm2,%xmm1
.byte 15,89,200 // mulps %xmm0,%xmm1
.byte 243,15,91,201 // cvttps2dq %xmm1,%xmm1
@@ -63403,18 +63365,18 @@ _sk_gauss_a_to_rgba_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 6716 <_sk_gauss_a_to_rgba_sse2+0xb>
+ .byte 232,0,0,0,0 // call 670a <_sk_gauss_a_to_rgba_sse2+0xb>
.byte 88 // pop %eax
.byte 139,77,12 // mov 0xc(%ebp),%ecx
- .byte 15,40,128,90,62,0,0 // movaps 0x3e5a(%eax),%xmm0
+ .byte 15,40,128,118,62,0,0 // movaps 0x3e76(%eax),%xmm0
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,128,106,62,0,0 // addps 0x3e6a(%eax),%xmm0
+ .byte 15,88,128,134,62,0,0 // addps 0x3e86(%eax),%xmm0
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,128,122,62,0,0 // addps 0x3e7a(%eax),%xmm0
+ .byte 15,88,128,150,62,0,0 // addps 0x3e96(%eax),%xmm0
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,128,138,62,0,0 // addps 0x3e8a(%eax),%xmm0
+ .byte 15,88,128,166,62,0,0 // addps 0x3ea6(%eax),%xmm0
.byte 15,89,195 // mulps %xmm3,%xmm0
- .byte 15,88,128,154,62,0,0 // addps 0x3e9a(%eax),%xmm0
+ .byte 15,88,128,182,62,0,0 // addps 0x3eb6(%eax),%xmm0
.byte 141,65,4 // lea 0x4(%ecx),%eax
.byte 131,236,8 // sub $0x8,%esp
.byte 15,40,200 // movaps %xmm0,%xmm1
@@ -63437,7 +63399,7 @@ _sk_gradient_sse2:
.byte 87 // push %edi
.byte 86 // push %esi
.byte 131,236,60 // sub $0x3c,%esp
- .byte 232,0,0,0,0 // call 6771 <_sk_gradient_sse2+0xe>
+ .byte 232,0,0,0,0 // call 6765 <_sk_gradient_sse2+0xe>
.byte 95 // pop %edi
.byte 139,77,12 // mov 0xc(%ebp),%ecx
.byte 141,81,4 // lea 0x4(%ecx),%edx
@@ -63446,12 +63408,12 @@ _sk_gradient_sse2:
.byte 139,17 // mov (%ecx),%edx
.byte 102,15,239,201 // pxor %xmm1,%xmm1
.byte 131,250,2 // cmp $0x2,%edx
- .byte 114,43 // jb 67b3 <_sk_gradient_sse2+0x50>
+ .byte 114,43 // jb 67a7 <_sk_gradient_sse2+0x50>
.byte 139,113,36 // mov 0x24(%ecx),%esi
.byte 74 // dec %edx
.byte 131,198,4 // add $0x4,%esi
.byte 102,15,239,201 // pxor %xmm1,%xmm1
- .byte 15,40,151,79,62,0,0 // movaps 0x3e4f(%edi),%xmm2
+ .byte 15,40,151,107,62,0,0 // movaps 0x3e6b(%edi),%xmm2
.byte 243,15,16,30 // movss (%esi),%xmm3
.byte 15,198,219,0 // shufps $0x0,%xmm3,%xmm3
.byte 15,194,216,2 // cmpleps %xmm0,%xmm3
@@ -63459,7 +63421,7 @@ _sk_gradient_sse2:
.byte 102,15,254,203 // paddd %xmm3,%xmm1
.byte 131,198,4 // add $0x4,%esi
.byte 74 // dec %edx
- .byte 117,231 // jne 679a <_sk_gradient_sse2+0x37>
+ .byte 117,231 // jne 678e <_sk_gradient_sse2+0x37>
.byte 102,15,126,202 // movd %xmm1,%edx
.byte 102,15,112,209,229 // pshufd $0xe5,%xmm1,%xmm2
.byte 102,15,126,214 // movd %xmm2,%esi
@@ -63611,7 +63573,7 @@ _sk_xy_to_unit_angle_sse2:
.byte 15,40,218 // movaps %xmm2,%xmm3
.byte 15,40,209 // movaps %xmm1,%xmm2
.byte 15,40,200 // movaps %xmm0,%xmm1
- .byte 232,0,0,0,0 // call 69ad <_sk_xy_to_unit_angle_sse2+0x18>
+ .byte 232,0,0,0,0 // call 69a1 <_sk_xy_to_unit_angle_sse2+0x18>
.byte 88 // pop %eax
.byte 15,87,237 // xorps %xmm5,%xmm5
.byte 15,92,233 // subps %xmm1,%xmm5
@@ -63626,30 +63588,30 @@ _sk_xy_to_unit_angle_sse2:
.byte 15,94,247 // divps %xmm7,%xmm6
.byte 15,40,254 // movaps %xmm6,%xmm7
.byte 15,89,255 // mulps %xmm7,%xmm7
- .byte 15,40,128,35,60,0,0 // movaps 0x3c23(%eax),%xmm0
+ .byte 15,40,128,63,60,0,0 // movaps 0x3c3f(%eax),%xmm0
.byte 15,89,199 // mulps %xmm7,%xmm0
- .byte 15,88,128,51,60,0,0 // addps 0x3c33(%eax),%xmm0
+ .byte 15,88,128,79,60,0,0 // addps 0x3c4f(%eax),%xmm0
.byte 15,89,199 // mulps %xmm7,%xmm0
- .byte 15,88,128,67,60,0,0 // addps 0x3c43(%eax),%xmm0
+ .byte 15,88,128,95,60,0,0 // addps 0x3c5f(%eax),%xmm0
.byte 15,89,199 // mulps %xmm7,%xmm0
- .byte 15,88,128,83,60,0,0 // addps 0x3c53(%eax),%xmm0
+ .byte 15,88,128,111,60,0,0 // addps 0x3c6f(%eax),%xmm0
.byte 15,89,198 // mulps %xmm6,%xmm0
.byte 15,194,236,1 // cmpltps %xmm4,%xmm5
- .byte 15,40,176,99,60,0,0 // movaps 0x3c63(%eax),%xmm6
+ .byte 15,40,176,127,60,0,0 // movaps 0x3c7f(%eax),%xmm6
.byte 15,92,240 // subps %xmm0,%xmm6
.byte 15,84,245 // andps %xmm5,%xmm6
.byte 15,85,232 // andnps %xmm0,%xmm5
.byte 15,87,228 // xorps %xmm4,%xmm4
.byte 15,86,238 // orps %xmm6,%xmm5
.byte 15,194,204,1 // cmpltps %xmm4,%xmm1
- .byte 15,40,128,115,60,0,0 // movaps 0x3c73(%eax),%xmm0
+ .byte 15,40,128,143,60,0,0 // movaps 0x3c8f(%eax),%xmm0
.byte 15,92,197 // subps %xmm5,%xmm0
.byte 15,84,193 // andps %xmm1,%xmm0
.byte 15,85,205 // andnps %xmm5,%xmm1
.byte 15,86,200 // orps %xmm0,%xmm1
.byte 15,40,194 // movaps %xmm2,%xmm0
.byte 15,194,196,1 // cmpltps %xmm4,%xmm0
- .byte 15,40,168,131,60,0,0 // movaps 0x3c83(%eax),%xmm5
+ .byte 15,40,168,159,60,0,0 // movaps 0x3c9f(%eax),%xmm5
.byte 15,92,233 // subps %xmm1,%xmm5
.byte 15,84,232 // andps %xmm0,%xmm5
.byte 15,85,193 // andnps %xmm1,%xmm0
@@ -63710,15 +63672,15 @@ _sk_xy_to_2pt_conical_quadratic_max_sse2:
.byte 15,40,241 // movaps %xmm1,%xmm6
.byte 15,89,246 // mulps %xmm6,%xmm6
.byte 15,88,240 // addps %xmm0,%xmm6
- .byte 232,0,0,0,0 // call 6aca <_sk_xy_to_2pt_conical_quadratic_max_sse2+0x31>
+ .byte 232,0,0,0,0 // call 6abe <_sk_xy_to_2pt_conical_quadratic_max_sse2+0x31>
.byte 90 // pop %edx
.byte 243,15,89,237 // mulss %xmm5,%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
.byte 15,92,245 // subps %xmm5,%xmm6
.byte 243,15,16,65,32 // movss 0x20(%ecx),%xmm0
.byte 15,198,192,0 // shufps $0x0,%xmm0,%xmm0
- .byte 15,89,162,118,59,0,0 // mulps 0x3b76(%edx),%xmm4
- .byte 15,89,130,134,59,0,0 // mulps 0x3b86(%edx),%xmm0
+ .byte 15,89,162,146,59,0,0 // mulps 0x3b92(%edx),%xmm4
+ .byte 15,89,130,162,59,0,0 // mulps 0x3ba2(%edx),%xmm0
.byte 15,89,198 // mulps %xmm6,%xmm0
.byte 15,40,236 // movaps %xmm4,%xmm5
.byte 15,89,237 // mulps %xmm5,%xmm5
@@ -63726,11 +63688,11 @@ _sk_xy_to_2pt_conical_quadratic_max_sse2:
.byte 15,81,237 // sqrtps %xmm5,%xmm5
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,92,196 // subps %xmm4,%xmm0
- .byte 15,87,162,150,59,0,0 // xorps 0x3b96(%edx),%xmm4
+ .byte 15,87,162,178,59,0,0 // xorps 0x3bb2(%edx),%xmm4
.byte 15,92,229 // subps %xmm5,%xmm4
.byte 243,15,16,105,36 // movss 0x24(%ecx),%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
- .byte 15,89,170,166,59,0,0 // mulps 0x3ba6(%edx),%xmm5
+ .byte 15,89,170,194,59,0,0 // mulps 0x3bc2(%edx),%xmm5
.byte 15,89,197 // mulps %xmm5,%xmm0
.byte 15,89,229 // mulps %xmm5,%xmm4
.byte 15,95,196 // maxps %xmm4,%xmm0
@@ -63761,15 +63723,15 @@ _sk_xy_to_2pt_conical_quadratic_min_sse2:
.byte 15,40,241 // movaps %xmm1,%xmm6
.byte 15,89,246 // mulps %xmm6,%xmm6
.byte 15,88,240 // addps %xmm0,%xmm6
- .byte 232,0,0,0,0 // call 6b68 <_sk_xy_to_2pt_conical_quadratic_min_sse2+0x31>
+ .byte 232,0,0,0,0 // call 6b5c <_sk_xy_to_2pt_conical_quadratic_min_sse2+0x31>
.byte 90 // pop %edx
.byte 243,15,89,237 // mulss %xmm5,%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
.byte 15,92,245 // subps %xmm5,%xmm6
.byte 243,15,16,65,32 // movss 0x20(%ecx),%xmm0
.byte 15,198,192,0 // shufps $0x0,%xmm0,%xmm0
- .byte 15,89,162,24,59,0,0 // mulps 0x3b18(%edx),%xmm4
- .byte 15,89,130,40,59,0,0 // mulps 0x3b28(%edx),%xmm0
+ .byte 15,89,162,52,59,0,0 // mulps 0x3b34(%edx),%xmm4
+ .byte 15,89,130,68,59,0,0 // mulps 0x3b44(%edx),%xmm0
.byte 15,89,198 // mulps %xmm6,%xmm0
.byte 15,40,236 // movaps %xmm4,%xmm5
.byte 15,89,237 // mulps %xmm5,%xmm5
@@ -63777,11 +63739,11 @@ _sk_xy_to_2pt_conical_quadratic_min_sse2:
.byte 15,81,237 // sqrtps %xmm5,%xmm5
.byte 15,40,197 // movaps %xmm5,%xmm0
.byte 15,92,196 // subps %xmm4,%xmm0
- .byte 15,87,162,56,59,0,0 // xorps 0x3b38(%edx),%xmm4
+ .byte 15,87,162,84,59,0,0 // xorps 0x3b54(%edx),%xmm4
.byte 15,92,229 // subps %xmm5,%xmm4
.byte 243,15,16,105,36 // movss 0x24(%ecx),%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
- .byte 15,89,170,72,59,0,0 // mulps 0x3b48(%edx),%xmm5
+ .byte 15,89,170,100,59,0,0 // mulps 0x3b64(%edx),%xmm5
.byte 15,89,197 // mulps %xmm5,%xmm0
.byte 15,89,229 // mulps %xmm5,%xmm4
.byte 15,93,196 // minps %xmm4,%xmm0
@@ -63801,7 +63763,7 @@ _sk_xy_to_2pt_conical_linear_sse2:
.byte 85 // push %ebp
.byte 137,229 // mov %esp,%ebp
.byte 131,236,8 // sub $0x8,%esp
- .byte 232,0,0,0,0 // call 6be0 <_sk_xy_to_2pt_conical_linear_sse2+0xb>
+ .byte 232,0,0,0,0 // call 6bd4 <_sk_xy_to_2pt_conical_linear_sse2+0xb>
.byte 89 // pop %ecx
.byte 139,69,12 // mov 0xc(%ebp),%eax
.byte 139,16 // mov (%eax),%edx
@@ -63810,7 +63772,7 @@ _sk_xy_to_2pt_conical_linear_sse2:
.byte 243,15,89,236 // mulss %xmm4,%xmm5
.byte 15,198,237,0 // shufps $0x0,%xmm5,%xmm5
.byte 15,88,232 // addps %xmm0,%xmm5
- .byte 15,89,169,224,58,0,0 // mulps 0x3ae0(%ecx),%xmm5
+ .byte 15,89,169,252,58,0,0 // mulps 0x3afc(%ecx),%xmm5
.byte 15,89,192 // mulps %xmm0,%xmm0
.byte 15,40,241 // movaps %xmm1,%xmm6
.byte 15,89,246 // mulps %xmm6,%xmm6
@@ -63818,7 +63780,7 @@ _sk_xy_to_2pt_conical_linear_sse2:
.byte 243,15,89,228 // mulss %xmm4,%xmm4
.byte 15,198,228,0 // shufps $0x0,%xmm4,%xmm4
.byte 15,92,196 // subps %xmm4,%xmm0
- .byte 15,87,129,240,58,0,0 // xorps 0x3af0(%ecx),%xmm0
+ .byte 15,87,129,12,59,0,0 // xorps 0x3b0c(%ecx),%xmm0
.byte 15,94,197 // divps %xmm5,%xmm0
.byte 141,72,8 // lea 0x8(%eax),%ecx
.byte 131,236,8 // sub $0x8,%esp
@@ -63892,16 +63854,16 @@ _sk_save_xy_sse2:
.byte 131,236,24 // sub $0x18,%esp
.byte 15,41,93,232 // movaps %xmm3,-0x18(%ebp)
.byte 15,40,218 // movaps %xmm2,%xmm3
- .byte 232,0,0,0,0 // call 6cbd <_sk_save_xy_sse2+0x12>
+ .byte 232,0,0,0,0 // call 6cb1 <_sk_save_xy_sse2+0x12>
.byte 88 // pop %eax
- .byte 15,40,160,35,58,0,0 // movaps 0x3a23(%eax),%xmm4
+ .byte 15,40,160,63,58,0,0 // movaps 0x3a3f(%eax),%xmm4
.byte 15,40,232 // movaps %xmm0,%xmm5
.byte 15,88,236 // addps %xmm4,%xmm5
.byte 243,15,91,245 // cvttps2dq %xmm5,%xmm6
.byte 15,91,246 // cvtdq2ps %xmm6,%xmm6
.byte 15,40,253 // movaps %xmm5,%xmm7
.byte 15,194,254,1 // cmpltps %xmm6,%xmm7
- .byte 15,40,144,51,58,0,0 // movaps 0x3a33(%eax),%xmm2
+ .byte 15,40,144,79,58,0,0 // movaps 0x3a4f(%eax),%xmm2
.byte 15,84,250 // andps %xmm2,%xmm7
.byte 15,92,247 // subps %xmm7,%xmm6
.byte 15,92,238 // subps %xmm6,%xmm5
@@ -63976,15 +63938,15 @@ _sk_bilinear_nx_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 6d9f <_sk_bilinear_nx_sse2+0xa>
+ .byte 232,0,0,0,0 // call 6d93 <_sk_bilinear_nx_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
.byte 15,16,6 // movups (%esi),%xmm0
.byte 15,16,102,64 // movups 0x40(%esi),%xmm4
- .byte 15,88,128,97,57,0,0 // addps 0x3961(%eax),%xmm0
- .byte 15,40,168,113,57,0,0 // movaps 0x3971(%eax),%xmm5
+ .byte 15,88,128,125,57,0,0 // addps 0x397d(%eax),%xmm0
+ .byte 15,40,168,141,57,0,0 // movaps 0x398d(%eax),%xmm5
.byte 15,92,236 // subps %xmm4,%xmm5
.byte 15,17,174,128,0,0,0 // movups %xmm5,0x80(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
@@ -64005,14 +63967,14 @@ _sk_bilinear_px_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 6de2 <_sk_bilinear_px_sse2+0xa>
+ .byte 232,0,0,0,0 // call 6dd6 <_sk_bilinear_px_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
.byte 15,16,6 // movups (%esi),%xmm0
.byte 15,16,102,64 // movups 0x40(%esi),%xmm4
- .byte 15,88,128,62,57,0,0 // addps 0x393e(%eax),%xmm0
+ .byte 15,88,128,90,57,0,0 // addps 0x395a(%eax),%xmm0
.byte 15,17,166,128,0,0,0 // movups %xmm4,0x80(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
.byte 131,236,8 // sub $0x8,%esp
@@ -64032,15 +63994,15 @@ _sk_bilinear_ny_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 6e1b <_sk_bilinear_ny_sse2+0xa>
+ .byte 232,0,0,0,0 // call 6e0f <_sk_bilinear_ny_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
.byte 15,16,78,32 // movups 0x20(%esi),%xmm1
.byte 15,16,102,96 // movups 0x60(%esi),%xmm4
- .byte 15,88,136,21,57,0,0 // addps 0x3915(%eax),%xmm1
- .byte 15,40,168,37,57,0,0 // movaps 0x3925(%eax),%xmm5
+ .byte 15,88,136,49,57,0,0 // addps 0x3931(%eax),%xmm1
+ .byte 15,40,168,65,57,0,0 // movaps 0x3941(%eax),%xmm5
.byte 15,92,236 // subps %xmm4,%xmm5
.byte 15,17,174,160,0,0,0 // movups %xmm5,0xa0(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
@@ -64061,14 +64023,14 @@ _sk_bilinear_py_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 6e5f <_sk_bilinear_py_sse2+0xa>
+ .byte 232,0,0,0,0 // call 6e53 <_sk_bilinear_py_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
.byte 15,16,78,32 // movups 0x20(%esi),%xmm1
.byte 15,16,102,96 // movups 0x60(%esi),%xmm4
- .byte 15,88,136,241,56,0,0 // addps 0x38f1(%eax),%xmm1
+ .byte 15,88,136,13,57,0,0 // addps 0x390d(%eax),%xmm1
.byte 15,17,166,160,0,0,0 // movups %xmm4,0xa0(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
.byte 131,236,8 // sub $0x8,%esp
@@ -64088,20 +64050,20 @@ _sk_bicubic_n3x_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 6e99 <_sk_bicubic_n3x_sse2+0xa>
+ .byte 232,0,0,0,0 // call 6e8d <_sk_bicubic_n3x_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
.byte 15,16,6 // movups (%esi),%xmm0
.byte 15,16,102,64 // movups 0x40(%esi),%xmm4
- .byte 15,88,128,199,56,0,0 // addps 0x38c7(%eax),%xmm0
- .byte 15,40,168,215,56,0,0 // movaps 0x38d7(%eax),%xmm5
+ .byte 15,88,128,227,56,0,0 // addps 0x38e3(%eax),%xmm0
+ .byte 15,40,168,243,56,0,0 // movaps 0x38f3(%eax),%xmm5
.byte 15,92,236 // subps %xmm4,%xmm5
.byte 15,40,229 // movaps %xmm5,%xmm4
.byte 15,89,228 // mulps %xmm4,%xmm4
- .byte 15,89,168,231,56,0,0 // mulps 0x38e7(%eax),%xmm5
- .byte 15,88,168,247,56,0,0 // addps 0x38f7(%eax),%xmm5
+ .byte 15,89,168,3,57,0,0 // mulps 0x3903(%eax),%xmm5
+ .byte 15,88,168,19,57,0,0 // addps 0x3913(%eax),%xmm5
.byte 15,89,236 // mulps %xmm4,%xmm5
.byte 15,17,174,128,0,0,0 // movups %xmm5,0x80(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
@@ -64122,23 +64084,23 @@ _sk_bicubic_n1x_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 6ef3 <_sk_bicubic_n1x_sse2+0xa>
+ .byte 232,0,0,0,0 // call 6ee7 <_sk_bicubic_n1x_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
.byte 15,16,6 // movups (%esi),%xmm0
.byte 15,16,102,64 // movups 0x40(%esi),%xmm4
- .byte 15,88,128,173,56,0,0 // addps 0x38ad(%eax),%xmm0
- .byte 15,40,168,189,56,0,0 // movaps 0x38bd(%eax),%xmm5
+ .byte 15,88,128,201,56,0,0 // addps 0x38c9(%eax),%xmm0
+ .byte 15,40,168,217,56,0,0 // movaps 0x38d9(%eax),%xmm5
.byte 15,92,236 // subps %xmm4,%xmm5
- .byte 15,40,160,205,56,0,0 // movaps 0x38cd(%eax),%xmm4
+ .byte 15,40,160,233,56,0,0 // movaps 0x38e9(%eax),%xmm4
.byte 15,89,229 // mulps %xmm5,%xmm4
- .byte 15,88,160,221,56,0,0 // addps 0x38dd(%eax),%xmm4
+ .byte 15,88,160,249,56,0,0 // addps 0x38f9(%eax),%xmm4
.byte 15,89,229 // mulps %xmm5,%xmm4
- .byte 15,88,160,237,56,0,0 // addps 0x38ed(%eax),%xmm4
+ .byte 15,88,160,9,57,0,0 // addps 0x3909(%eax),%xmm4
.byte 15,89,229 // mulps %xmm5,%xmm4
- .byte 15,88,160,253,56,0,0 // addps 0x38fd(%eax),%xmm4
+ .byte 15,88,160,25,57,0,0 // addps 0x3919(%eax),%xmm4
.byte 15,17,166,128,0,0,0 // movups %xmm4,0x80(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
.byte 131,236,8 // sub $0x8,%esp
@@ -64158,22 +64120,22 @@ _sk_bicubic_p1x_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 6f5b <_sk_bicubic_p1x_sse2+0xa>
+ .byte 232,0,0,0,0 // call 6f4f <_sk_bicubic_p1x_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
- .byte 15,40,160,165,56,0,0 // movaps 0x38a5(%eax),%xmm4
+ .byte 15,40,160,193,56,0,0 // movaps 0x38c1(%eax),%xmm4
.byte 15,16,6 // movups (%esi),%xmm0
.byte 15,16,110,64 // movups 0x40(%esi),%xmm5
.byte 15,88,196 // addps %xmm4,%xmm0
- .byte 15,40,176,181,56,0,0 // movaps 0x38b5(%eax),%xmm6
+ .byte 15,40,176,209,56,0,0 // movaps 0x38d1(%eax),%xmm6
.byte 15,89,245 // mulps %xmm5,%xmm6
- .byte 15,88,176,197,56,0,0 // addps 0x38c5(%eax),%xmm6
+ .byte 15,88,176,225,56,0,0 // addps 0x38e1(%eax),%xmm6
.byte 15,89,245 // mulps %xmm5,%xmm6
.byte 15,88,244 // addps %xmm4,%xmm6
.byte 15,89,245 // mulps %xmm5,%xmm6
- .byte 15,88,176,213,56,0,0 // addps 0x38d5(%eax),%xmm6
+ .byte 15,88,176,241,56,0,0 // addps 0x38f1(%eax),%xmm6
.byte 15,17,182,128,0,0,0 // movups %xmm6,0x80(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
.byte 131,236,8 // sub $0x8,%esp
@@ -64193,18 +64155,18 @@ _sk_bicubic_p3x_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 6fb8 <_sk_bicubic_p3x_sse2+0xa>
+ .byte 232,0,0,0,0 // call 6fac <_sk_bicubic_p3x_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
.byte 15,16,6 // movups (%esi),%xmm0
.byte 15,16,102,64 // movups 0x40(%esi),%xmm4
- .byte 15,88,128,136,56,0,0 // addps 0x3888(%eax),%xmm0
+ .byte 15,88,128,164,56,0,0 // addps 0x38a4(%eax),%xmm0
.byte 15,40,236 // movaps %xmm4,%xmm5
.byte 15,89,237 // mulps %xmm5,%xmm5
- .byte 15,89,160,152,56,0,0 // mulps 0x3898(%eax),%xmm4
- .byte 15,88,160,168,56,0,0 // addps 0x38a8(%eax),%xmm4
+ .byte 15,89,160,180,56,0,0 // mulps 0x38b4(%eax),%xmm4
+ .byte 15,88,160,196,56,0,0 // addps 0x38c4(%eax),%xmm4
.byte 15,89,229 // mulps %xmm5,%xmm4
.byte 15,17,166,128,0,0,0 // movups %xmm4,0x80(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
@@ -64225,20 +64187,20 @@ _sk_bicubic_n3y_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 7008 <_sk_bicubic_n3y_sse2+0xa>
+ .byte 232,0,0,0,0 // call 6ffc <_sk_bicubic_n3y_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
.byte 15,16,78,32 // movups 0x20(%esi),%xmm1
.byte 15,16,102,96 // movups 0x60(%esi),%xmm4
- .byte 15,88,136,104,56,0,0 // addps 0x3868(%eax),%xmm1
- .byte 15,40,168,120,56,0,0 // movaps 0x3878(%eax),%xmm5
+ .byte 15,88,136,132,56,0,0 // addps 0x3884(%eax),%xmm1
+ .byte 15,40,168,148,56,0,0 // movaps 0x3894(%eax),%xmm5
.byte 15,92,236 // subps %xmm4,%xmm5
.byte 15,40,229 // movaps %xmm5,%xmm4
.byte 15,89,228 // mulps %xmm4,%xmm4
- .byte 15,89,168,136,56,0,0 // mulps 0x3888(%eax),%xmm5
- .byte 15,88,168,152,56,0,0 // addps 0x3898(%eax),%xmm5
+ .byte 15,89,168,164,56,0,0 // mulps 0x38a4(%eax),%xmm5
+ .byte 15,88,168,180,56,0,0 // addps 0x38b4(%eax),%xmm5
.byte 15,89,236 // mulps %xmm4,%xmm5
.byte 15,17,174,160,0,0,0 // movups %xmm5,0xa0(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
@@ -64259,23 +64221,23 @@ _sk_bicubic_n1y_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 7063 <_sk_bicubic_n1y_sse2+0xa>
+ .byte 232,0,0,0,0 // call 7057 <_sk_bicubic_n1y_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
.byte 15,16,78,32 // movups 0x20(%esi),%xmm1
.byte 15,16,102,96 // movups 0x60(%esi),%xmm4
- .byte 15,88,136,77,56,0,0 // addps 0x384d(%eax),%xmm1
- .byte 15,40,168,93,56,0,0 // movaps 0x385d(%eax),%xmm5
+ .byte 15,88,136,105,56,0,0 // addps 0x3869(%eax),%xmm1
+ .byte 15,40,168,121,56,0,0 // movaps 0x3879(%eax),%xmm5
.byte 15,92,236 // subps %xmm4,%xmm5
- .byte 15,40,160,109,56,0,0 // movaps 0x386d(%eax),%xmm4
+ .byte 15,40,160,137,56,0,0 // movaps 0x3889(%eax),%xmm4
.byte 15,89,229 // mulps %xmm5,%xmm4
- .byte 15,88,160,125,56,0,0 // addps 0x387d(%eax),%xmm4
+ .byte 15,88,160,153,56,0,0 // addps 0x3899(%eax),%xmm4
.byte 15,89,229 // mulps %xmm5,%xmm4
- .byte 15,88,160,141,56,0,0 // addps 0x388d(%eax),%xmm4
+ .byte 15,88,160,169,56,0,0 // addps 0x38a9(%eax),%xmm4
.byte 15,89,229 // mulps %xmm5,%xmm4
- .byte 15,88,160,157,56,0,0 // addps 0x389d(%eax),%xmm4
+ .byte 15,88,160,185,56,0,0 // addps 0x38b9(%eax),%xmm4
.byte 15,17,166,160,0,0,0 // movups %xmm4,0xa0(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
.byte 131,236,8 // sub $0x8,%esp
@@ -64295,22 +64257,22 @@ _sk_bicubic_p1y_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 70cc <_sk_bicubic_p1y_sse2+0xa>
+ .byte 232,0,0,0,0 // call 70c0 <_sk_bicubic_p1y_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
- .byte 15,40,160,68,56,0,0 // movaps 0x3844(%eax),%xmm4
+ .byte 15,40,160,96,56,0,0 // movaps 0x3860(%eax),%xmm4
.byte 15,16,78,32 // movups 0x20(%esi),%xmm1
.byte 15,16,110,96 // movups 0x60(%esi),%xmm5
.byte 15,88,204 // addps %xmm4,%xmm1
- .byte 15,40,176,84,56,0,0 // movaps 0x3854(%eax),%xmm6
+ .byte 15,40,176,112,56,0,0 // movaps 0x3870(%eax),%xmm6
.byte 15,89,245 // mulps %xmm5,%xmm6
- .byte 15,88,176,100,56,0,0 // addps 0x3864(%eax),%xmm6
+ .byte 15,88,176,128,56,0,0 // addps 0x3880(%eax),%xmm6
.byte 15,89,245 // mulps %xmm5,%xmm6
.byte 15,88,244 // addps %xmm4,%xmm6
.byte 15,89,245 // mulps %xmm5,%xmm6
- .byte 15,88,176,116,56,0,0 // addps 0x3874(%eax),%xmm6
+ .byte 15,88,176,144,56,0,0 // addps 0x3890(%eax),%xmm6
.byte 15,17,182,160,0,0,0 // movups %xmm6,0xa0(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
.byte 131,236,8 // sub $0x8,%esp
@@ -64330,18 +64292,18 @@ _sk_bicubic_p3y_sse2:
.byte 137,229 // mov %esp,%ebp
.byte 86 // push %esi
.byte 80 // push %eax
- .byte 232,0,0,0,0 // call 712a <_sk_bicubic_p3y_sse2+0xa>
+ .byte 232,0,0,0,0 // call 711e <_sk_bicubic_p3y_sse2+0xa>
.byte 88 // pop %eax
.byte 139,77,8 // mov 0x8(%ebp),%ecx
.byte 139,85,12 // mov 0xc(%ebp),%edx
.byte 139,50 // mov (%edx),%esi
.byte 15,16,78,32 // movups 0x20(%esi),%xmm1
.byte 15,16,102,96 // movups 0x60(%esi),%xmm4
- .byte 15,88,136,38,56,0,0 // addps 0x3826(%eax),%xmm1
+ .byte 15,88,136,66,56,0,0 // addps 0x3842(%eax),%xmm1
.byte 15,40,236 // movaps %xmm4,%xmm5
.byte 15,89,237 // mulps %xmm5,%xmm5
- .byte 15,89,160,54,56,0,0 // mulps 0x3836(%eax),%xmm4
- .byte 15,88,160,70,56,0,0 // addps 0x3846(%eax),%xmm4
+ .byte 15,89,160,82,56,0,0 // mulps 0x3852(%eax),%xmm4
+ .byte 15,88,160,98,56,0,0 // addps 0x3862(%eax),%xmm4
.byte 15,89,229 // mulps %xmm5,%xmm4
.byte 15,17,166,160,0,0,0 // movups %xmm4,0xa0(%esi)
.byte 141,66,8 // lea 0x8(%edx),%eax
@@ -64486,7 +64448,7 @@ _sk_clut_3D_sse2:
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,98,233 // punpckldq %xmm1,%xmm5
.byte 102,15,127,173,104,255,255,255 // movdqa %xmm5,-0x98(%ebp)
- .byte 232,0,0,0,0 // call 731e <_sk_clut_3D_sse2+0xff>
+ .byte 232,0,0,0,0 // call 7312 <_sk_clut_3D_sse2+0xff>
.byte 90 // pop %edx
.byte 243,15,91,196 // cvttps2dq %xmm4,%xmm0
.byte 102,15,127,133,232,254,255,255 // movdqa %xmm0,-0x118(%ebp)
@@ -64495,7 +64457,7 @@ _sk_clut_3D_sse2:
.byte 102,15,254,208 // paddd %xmm0,%xmm2
.byte 102,15,111,205 // movdqa %xmm5,%xmm1
.byte 102,15,254,202 // paddd %xmm2,%xmm1
- .byte 102,15,111,130,114,54,0,0 // movdqa 0x3672(%edx),%xmm0
+ .byte 102,15,111,130,142,54,0,0 // movdqa 0x368e(%edx),%xmm0
.byte 102,15,127,133,88,255,255,255 // movdqa %xmm0,-0xa8(%ebp)
.byte 102,15,112,225,245 // pshufd $0xf5,%xmm1,%xmm4
.byte 102,15,244,200 // pmuludq %xmm0,%xmm1
@@ -64519,7 +64481,7 @@ _sk_clut_3D_sse2:
.byte 15,20,196 // unpcklps %xmm4,%xmm0
.byte 15,20,199 // unpcklps %xmm7,%xmm0
.byte 15,41,69,168 // movaps %xmm0,-0x58(%ebp)
- .byte 102,15,111,130,130,54,0,0 // movdqa 0x3682(%edx),%xmm0
+ .byte 102,15,111,130,158,54,0,0 // movdqa 0x369e(%edx),%xmm0
.byte 102,15,127,133,72,255,255,255 // movdqa %xmm0,-0xb8(%ebp)
.byte 102,15,111,225 // movdqa %xmm1,%xmm4
.byte 102,15,254,224 // paddd %xmm0,%xmm4
@@ -64537,7 +64499,7 @@ _sk_clut_3D_sse2:
.byte 243,15,16,36,185 // movss (%ecx,%edi,4),%xmm4
.byte 15,20,252 // unpcklps %xmm4,%xmm7
.byte 15,20,248 // unpcklps %xmm0,%xmm7
- .byte 102,15,111,130,146,54,0,0 // movdqa 0x3692(%edx),%xmm0
+ .byte 102,15,111,130,174,54,0,0 // movdqa 0x36ae(%edx),%xmm0
.byte 102,15,127,69,216 // movdqa %xmm0,-0x28(%ebp)
.byte 102,15,254,200 // paddd %xmm0,%xmm1
.byte 102,15,112,193,229 // pshufd $0xe5,%xmm1,%xmm0
@@ -64554,7 +64516,7 @@ _sk_clut_3D_sse2:
.byte 243,15,16,4,177 // movss (%ecx,%esi,4),%xmm0
.byte 15,20,232 // unpcklps %xmm0,%xmm5
.byte 15,20,236 // unpcklps %xmm4,%xmm5
- .byte 15,40,130,98,54,0,0 // movaps 0x3662(%edx),%xmm0
+ .byte 15,40,130,126,54,0,0 // movaps 0x367e(%edx),%xmm0
.byte 15,88,240 // addps %xmm0,%xmm6
.byte 15,41,117,184 // movaps %xmm6,-0x48(%ebp)
.byte 15,40,141,56,255,255,255 // movaps -0xc8(%ebp),%xmm1
@@ -65167,7 +65129,7 @@ _sk_clut_4D_sse2:
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,98,209 // punpckldq %xmm1,%xmm2
.byte 102,15,127,85,168 // movdqa %xmm2,-0x58(%ebp)
- .byte 232,0,0,0,0 // call 7e94 <_sk_clut_4D_sse2+0x179>
+ .byte 232,0,0,0,0 // call 7e88 <_sk_clut_4D_sse2+0x179>
.byte 89 // pop %ecx
.byte 15,40,229 // movaps %xmm5,%xmm4
.byte 15,41,165,120,254,255,255 // movaps %xmm4,-0x188(%ebp)
@@ -65180,7 +65142,7 @@ _sk_clut_4D_sse2:
.byte 102,15,254,245 // paddd %xmm5,%xmm6
.byte 102,15,111,202 // movdqa %xmm2,%xmm1
.byte 102,15,254,206 // paddd %xmm6,%xmm1
- .byte 102,15,111,153,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm3
+ .byte 102,15,111,153,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm3
.byte 102,15,112,209,245 // pshufd $0xf5,%xmm1,%xmm2
.byte 102,15,244,203 // pmuludq %xmm3,%xmm1
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
@@ -65203,7 +65165,7 @@ _sk_clut_4D_sse2:
.byte 15,20,218 // unpcklps %xmm2,%xmm3
.byte 15,20,221 // unpcklps %xmm5,%xmm3
.byte 15,41,93,216 // movaps %xmm3,-0x28(%ebp)
- .byte 102,15,111,153,76,43,0,0 // movdqa 0x2b4c(%ecx),%xmm3
+ .byte 102,15,111,153,104,43,0,0 // movdqa 0x2b68(%ecx),%xmm3
.byte 102,15,111,209 // movdqa %xmm1,%xmm2
.byte 102,15,254,211 // paddd %xmm3,%xmm2
.byte 102,15,112,234,229 // pshufd $0xe5,%xmm2,%xmm5
@@ -65221,7 +65183,7 @@ _sk_clut_4D_sse2:
.byte 15,20,215 // unpcklps %xmm7,%xmm2
.byte 15,20,213 // unpcklps %xmm5,%xmm2
.byte 15,41,149,136,254,255,255 // movaps %xmm2,-0x178(%ebp)
- .byte 102,15,254,137,92,43,0,0 // paddd 0x2b5c(%ecx),%xmm1
+ .byte 102,15,254,137,120,43,0,0 // paddd 0x2b78(%ecx),%xmm1
.byte 102,15,112,233,229 // pshufd $0xe5,%xmm1,%xmm5
.byte 102,15,126,232 // movd %xmm5,%eax
.byte 102,15,112,233,78 // pshufd $0x4e,%xmm1,%xmm5
@@ -65237,7 +65199,7 @@ _sk_clut_4D_sse2:
.byte 15,20,207 // unpcklps %xmm7,%xmm1
.byte 15,20,205 // unpcklps %xmm5,%xmm1
.byte 15,41,141,152,254,255,255 // movaps %xmm1,-0x168(%ebp)
- .byte 15,40,185,44,43,0,0 // movaps 0x2b2c(%ecx),%xmm7
+ .byte 15,40,185,72,43,0,0 // movaps 0x2b48(%ecx),%xmm7
.byte 15,88,231 // addps %xmm7,%xmm4
.byte 15,41,165,120,255,255,255 // movaps %xmm4,-0x88(%ebp)
.byte 15,40,141,232,254,255,255 // movaps -0x118(%ebp),%xmm1
@@ -65258,7 +65220,7 @@ _sk_clut_4D_sse2:
.byte 102,15,127,77,184 // movdqa %xmm1,-0x48(%ebp)
.byte 102,15,254,241 // paddd %xmm1,%xmm6
.byte 102,15,112,254,245 // pshufd $0xf5,%xmm6,%xmm7
- .byte 102,15,111,137,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm1
+ .byte 102,15,111,137,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm1
.byte 102,15,244,241 // pmuludq %xmm1,%xmm6
.byte 102,15,112,198,232 // pshufd $0xe8,%xmm6,%xmm0
.byte 102,15,244,249 // pmuludq %xmm1,%xmm7
@@ -65295,7 +65257,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,44,178 // movss (%edx,%esi,4),%xmm5
.byte 15,20,221 // unpcklps %xmm5,%xmm3
.byte 15,20,217 // unpcklps %xmm1,%xmm3
- .byte 102,15,111,177,92,43,0,0 // movdqa 0x2b5c(%ecx),%xmm6
+ .byte 102,15,111,177,120,43,0,0 // movdqa 0x2b78(%ecx),%xmm6
.byte 102,15,254,198 // paddd %xmm6,%xmm0
.byte 102,15,112,200,229 // pshufd $0xe5,%xmm0,%xmm1
.byte 102,15,126,200 // movd %xmm1,%eax
@@ -65343,7 +65305,7 @@ _sk_clut_4D_sse2:
.byte 102,15,111,234 // movdqa %xmm2,%xmm5
.byte 102,15,254,77,168 // paddd -0x58(%ebp),%xmm1
.byte 102,15,112,209,245 // pshufd $0xf5,%xmm1,%xmm2
- .byte 102,15,111,129,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm0
+ .byte 102,15,111,129,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm0
.byte 102,15,244,200 // pmuludq %xmm0,%xmm1
.byte 102,15,112,201,232 // pshufd $0xe8,%xmm1,%xmm1
.byte 102,15,244,208 // pmuludq %xmm0,%xmm2
@@ -65365,7 +65327,7 @@ _sk_clut_4D_sse2:
.byte 15,20,195 // unpcklps %xmm3,%xmm0
.byte 15,41,133,104,255,255,255 // movaps %xmm0,-0x98(%ebp)
.byte 102,15,111,209 // movdqa %xmm1,%xmm2
- .byte 102,15,111,129,76,43,0,0 // movdqa 0x2b4c(%ecx),%xmm0
+ .byte 102,15,111,129,104,43,0,0 // movdqa 0x2b68(%ecx),%xmm0
.byte 102,15,254,208 // paddd %xmm0,%xmm2
.byte 102,15,111,224 // movdqa %xmm0,%xmm4
.byte 102,15,112,218,229 // pshufd $0xe5,%xmm2,%xmm3
@@ -65401,7 +65363,7 @@ _sk_clut_4D_sse2:
.byte 102,15,111,197 // movdqa %xmm5,%xmm0
.byte 102,15,254,69,184 // paddd -0x48(%ebp),%xmm0
.byte 102,15,112,216,245 // pshufd $0xf5,%xmm0,%xmm3
- .byte 102,15,111,137,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm1
+ .byte 102,15,111,137,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm1
.byte 102,15,244,193 // pmuludq %xmm1,%xmm0
.byte 102,15,112,208,232 // pshufd $0xe8,%xmm0,%xmm2
.byte 102,15,244,217 // pmuludq %xmm1,%xmm3
@@ -65437,7 +65399,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,4,178 // movss (%edx,%esi,4),%xmm0
.byte 15,20,224 // unpcklps %xmm0,%xmm4
.byte 15,20,227 // unpcklps %xmm3,%xmm4
- .byte 102,15,111,153,92,43,0,0 // movdqa 0x2b5c(%ecx),%xmm3
+ .byte 102,15,111,153,120,43,0,0 // movdqa 0x2b78(%ecx),%xmm3
.byte 102,15,254,211 // paddd %xmm3,%xmm2
.byte 102,15,112,194,229 // pshufd $0xe5,%xmm2,%xmm0
.byte 102,15,126,192 // movd %xmm0,%eax
@@ -65501,7 +65463,7 @@ _sk_clut_4D_sse2:
.byte 102,15,111,197 // movdqa %xmm5,%xmm0
.byte 102,15,254,69,168 // paddd -0x58(%ebp),%xmm0
.byte 102,15,112,200,245 // pshufd $0xf5,%xmm0,%xmm1
- .byte 102,15,111,145,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm2
+ .byte 102,15,111,145,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm2
.byte 102,15,244,194 // pmuludq %xmm2,%xmm0
.byte 102,15,112,192,232 // pshufd $0xe8,%xmm0,%xmm0
.byte 102,15,244,202 // pmuludq %xmm2,%xmm1
@@ -65523,7 +65485,7 @@ _sk_clut_4D_sse2:
.byte 15,20,214 // unpcklps %xmm6,%xmm2
.byte 15,41,85,136 // movaps %xmm2,-0x78(%ebp)
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
- .byte 102,15,111,145,76,43,0,0 // movdqa 0x2b4c(%ecx),%xmm2
+ .byte 102,15,111,145,104,43,0,0 // movdqa 0x2b68(%ecx),%xmm2
.byte 102,15,254,202 // paddd %xmm2,%xmm1
.byte 102,15,112,241,229 // pshufd $0xe5,%xmm1,%xmm6
.byte 102,15,126,240 // movd %xmm6,%eax
@@ -65556,7 +65518,7 @@ _sk_clut_4D_sse2:
.byte 15,20,206 // unpcklps %xmm6,%xmm1
.byte 102,15,254,109,184 // paddd -0x48(%ebp),%xmm5
.byte 102,15,112,245,245 // pshufd $0xf5,%xmm5,%xmm6
- .byte 102,15,111,129,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm0
+ .byte 102,15,111,129,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm0
.byte 102,15,244,232 // pmuludq %xmm0,%xmm5
.byte 102,15,112,253,232 // pshufd $0xe8,%xmm5,%xmm7
.byte 102,15,244,240 // pmuludq %xmm0,%xmm6
@@ -65592,7 +65554,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,20,178 // movss (%edx,%esi,4),%xmm2
.byte 15,20,234 // unpcklps %xmm2,%xmm5
.byte 15,20,238 // unpcklps %xmm6,%xmm5
- .byte 102,15,111,153,92,43,0,0 // movdqa 0x2b5c(%ecx),%xmm3
+ .byte 102,15,111,153,120,43,0,0 // movdqa 0x2b78(%ecx),%xmm3
.byte 102,15,254,251 // paddd %xmm3,%xmm7
.byte 102,15,112,215,229 // pshufd $0xe5,%xmm7,%xmm2
.byte 102,15,126,208 // movd %xmm2,%eax
@@ -65626,7 +65588,7 @@ _sk_clut_4D_sse2:
.byte 102,15,111,225 // movdqa %xmm1,%xmm4
.byte 102,15,254,69,168 // paddd -0x58(%ebp),%xmm0
.byte 102,15,112,200,245 // pshufd $0xf5,%xmm0,%xmm1
- .byte 102,15,111,177,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm6
+ .byte 102,15,111,177,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm6
.byte 102,15,244,198 // pmuludq %xmm6,%xmm0
.byte 102,15,112,208,232 // pshufd $0xe8,%xmm0,%xmm2
.byte 102,15,244,206 // pmuludq %xmm6,%xmm1
@@ -65648,7 +65610,7 @@ _sk_clut_4D_sse2:
.byte 15,20,193 // unpcklps %xmm1,%xmm0
.byte 15,41,69,216 // movaps %xmm0,-0x28(%ebp)
.byte 102,15,111,202 // movdqa %xmm2,%xmm1
- .byte 102,15,254,137,76,43,0,0 // paddd 0x2b4c(%ecx),%xmm1
+ .byte 102,15,254,137,104,43,0,0 // paddd 0x2b68(%ecx),%xmm1
.byte 102,15,112,241,229 // pshufd $0xe5,%xmm1,%xmm6
.byte 102,15,126,240 // movd %xmm6,%eax
.byte 102,15,112,241,78 // pshufd $0x4e,%xmm1,%xmm6
@@ -65682,7 +65644,7 @@ _sk_clut_4D_sse2:
.byte 102,15,111,212 // movdqa %xmm4,%xmm2
.byte 102,15,254,85,184 // paddd -0x48(%ebp),%xmm2
.byte 102,15,112,194,245 // pshufd $0xf5,%xmm2,%xmm0
- .byte 102,15,111,137,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm1
+ .byte 102,15,111,137,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm1
.byte 102,15,244,209 // pmuludq %xmm1,%xmm2
.byte 102,15,112,226,232 // pshufd $0xe8,%xmm2,%xmm4
.byte 102,15,244,193 // pmuludq %xmm1,%xmm0
@@ -65703,7 +65665,7 @@ _sk_clut_4D_sse2:
.byte 15,20,200 // unpcklps %xmm0,%xmm1
.byte 15,20,206 // unpcklps %xmm6,%xmm1
.byte 102,15,111,196 // movdqa %xmm4,%xmm0
- .byte 102,15,254,129,76,43,0,0 // paddd 0x2b4c(%ecx),%xmm0
+ .byte 102,15,254,129,104,43,0,0 // paddd 0x2b68(%ecx),%xmm0
.byte 102,15,112,240,229 // pshufd $0xe5,%xmm0,%xmm6
.byte 102,15,126,240 // movd %xmm6,%eax
.byte 102,15,112,240,78 // pshufd $0x4e,%xmm0,%xmm6
@@ -65718,7 +65680,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,4,178 // movss (%edx,%esi,4),%xmm0
.byte 15,20,208 // unpcklps %xmm0,%xmm2
.byte 15,20,214 // unpcklps %xmm6,%xmm2
- .byte 102,15,254,161,92,43,0,0 // paddd 0x2b5c(%ecx),%xmm4
+ .byte 102,15,254,161,120,43,0,0 // paddd 0x2b78(%ecx),%xmm4
.byte 102,15,112,196,229 // pshufd $0xe5,%xmm4,%xmm0
.byte 102,15,126,192 // movd %xmm0,%eax
.byte 102,15,112,196,78 // pshufd $0x4e,%xmm4,%xmm0
@@ -65786,7 +65748,7 @@ _sk_clut_4D_sse2:
.byte 102,15,111,69,168 // movdqa -0x58(%ebp),%xmm0
.byte 102,15,254,193 // paddd %xmm1,%xmm0
.byte 102,15,112,224,245 // pshufd $0xf5,%xmm0,%xmm4
- .byte 102,15,111,145,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm2
+ .byte 102,15,111,145,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm2
.byte 102,15,244,194 // pmuludq %xmm2,%xmm0
.byte 102,15,112,216,232 // pshufd $0xe8,%xmm0,%xmm3
.byte 102,15,244,226 // pmuludq %xmm2,%xmm4
@@ -65809,7 +65771,7 @@ _sk_clut_4D_sse2:
.byte 15,20,196 // unpcklps %xmm4,%xmm0
.byte 15,41,133,120,255,255,255 // movaps %xmm0,-0x88(%ebp)
.byte 102,15,111,227 // movdqa %xmm3,%xmm4
- .byte 102,15,111,145,76,43,0,0 // movdqa 0x2b4c(%ecx),%xmm2
+ .byte 102,15,111,145,104,43,0,0 // movdqa 0x2b68(%ecx),%xmm2
.byte 102,15,254,226 // paddd %xmm2,%xmm4
.byte 102,15,112,236,229 // pshufd $0xe5,%xmm4,%xmm5
.byte 102,15,126,232 // movd %xmm5,%eax
@@ -65825,7 +65787,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,36,178 // movss (%edx,%esi,4),%xmm4
.byte 15,20,236 // unpcklps %xmm4,%xmm5
.byte 15,20,238 // unpcklps %xmm6,%xmm5
- .byte 102,15,254,153,92,43,0,0 // paddd 0x2b5c(%ecx),%xmm3
+ .byte 102,15,254,153,120,43,0,0 // paddd 0x2b78(%ecx),%xmm3
.byte 102,15,112,227,229 // pshufd $0xe5,%xmm3,%xmm4
.byte 102,15,126,224 // movd %xmm4,%eax
.byte 102,15,112,227,78 // pshufd $0x4e,%xmm3,%xmm4
@@ -65877,7 +65839,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,20,178 // movss (%edx,%esi,4),%xmm2
.byte 15,20,218 // unpcklps %xmm2,%xmm3
.byte 15,20,223 // unpcklps %xmm7,%xmm3
- .byte 102,15,254,161,92,43,0,0 // paddd 0x2b5c(%ecx),%xmm4
+ .byte 102,15,254,161,120,43,0,0 // paddd 0x2b78(%ecx),%xmm4
.byte 102,15,112,212,229 // pshufd $0xe5,%xmm4,%xmm2
.byte 102,15,126,208 // movd %xmm2,%eax
.byte 102,15,112,212,78 // pshufd $0x4e,%xmm4,%xmm2
@@ -65910,7 +65872,7 @@ _sk_clut_4D_sse2:
.byte 102,15,127,133,56,255,255,255 // movdqa %xmm0,-0xc8(%ebp)
.byte 102,15,254,69,168 // paddd -0x58(%ebp),%xmm0
.byte 102,15,112,208,245 // pshufd $0xf5,%xmm0,%xmm2
- .byte 102,15,111,137,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm1
+ .byte 102,15,111,137,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm1
.byte 102,15,244,193 // pmuludq %xmm1,%xmm0
.byte 102,15,112,240,232 // pshufd $0xe8,%xmm0,%xmm6
.byte 102,15,244,209 // pmuludq %xmm1,%xmm2
@@ -65932,7 +65894,7 @@ _sk_clut_4D_sse2:
.byte 15,20,194 // unpcklps %xmm2,%xmm0
.byte 15,41,69,216 // movaps %xmm0,-0x28(%ebp)
.byte 102,15,111,214 // movdqa %xmm6,%xmm2
- .byte 102,15,111,153,76,43,0,0 // movdqa 0x2b4c(%ecx),%xmm3
+ .byte 102,15,111,153,104,43,0,0 // movdqa 0x2b68(%ecx),%xmm3
.byte 102,15,254,211 // paddd %xmm3,%xmm2
.byte 102,15,112,234,229 // pshufd $0xe5,%xmm2,%xmm5
.byte 102,15,126,232 // movd %xmm5,%eax
@@ -65948,7 +65910,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,20,178 // movss (%edx,%esi,4),%xmm2
.byte 15,20,234 // unpcklps %xmm2,%xmm5
.byte 15,20,239 // unpcklps %xmm7,%xmm5
- .byte 102,15,254,177,92,43,0,0 // paddd 0x2b5c(%ecx),%xmm6
+ .byte 102,15,254,177,120,43,0,0 // paddd 0x2b78(%ecx),%xmm6
.byte 102,15,112,214,229 // pshufd $0xe5,%xmm6,%xmm2
.byte 102,15,126,208 // movd %xmm2,%eax
.byte 102,15,112,214,78 // pshufd $0x4e,%xmm6,%xmm2
@@ -66001,7 +65963,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,4,178 // movss (%edx,%esi,4),%xmm0
.byte 15,20,216 // unpcklps %xmm0,%xmm3
.byte 15,20,218 // unpcklps %xmm2,%xmm3
- .byte 102,15,254,185,92,43,0,0 // paddd 0x2b5c(%ecx),%xmm7
+ .byte 102,15,254,185,120,43,0,0 // paddd 0x2b78(%ecx),%xmm7
.byte 102,15,112,199,229 // pshufd $0xe5,%xmm7,%xmm0
.byte 102,15,126,192 // movd %xmm0,%eax
.byte 102,15,112,199,78 // pshufd $0x4e,%xmm7,%xmm0
@@ -66051,7 +66013,7 @@ _sk_clut_4D_sse2:
.byte 102,15,111,233 // movdqa %xmm1,%xmm5
.byte 102,15,254,69,168 // paddd -0x58(%ebp),%xmm0
.byte 102,15,112,200,245 // pshufd $0xf5,%xmm0,%xmm1
- .byte 102,15,111,153,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm3
+ .byte 102,15,111,153,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm3
.byte 102,15,244,195 // pmuludq %xmm3,%xmm0
.byte 102,15,112,208,232 // pshufd $0xe8,%xmm0,%xmm2
.byte 102,15,244,203 // pmuludq %xmm3,%xmm1
@@ -66073,7 +66035,7 @@ _sk_clut_4D_sse2:
.byte 15,20,193 // unpcklps %xmm1,%xmm0
.byte 15,41,133,72,255,255,255 // movaps %xmm0,-0xb8(%ebp)
.byte 102,15,111,202 // movdqa %xmm2,%xmm1
- .byte 102,15,111,177,76,43,0,0 // movdqa 0x2b4c(%ecx),%xmm6
+ .byte 102,15,111,177,104,43,0,0 // movdqa 0x2b68(%ecx),%xmm6
.byte 102,15,254,206 // paddd %xmm6,%xmm1
.byte 102,15,112,217,229 // pshufd $0xe5,%xmm1,%xmm3
.byte 102,15,126,216 // movd %xmm3,%eax
@@ -66089,7 +66051,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,36,178 // movss (%edx,%esi,4),%xmm4
.byte 15,20,204 // unpcklps %xmm4,%xmm1
.byte 15,20,203 // unpcklps %xmm3,%xmm1
- .byte 102,15,111,185,92,43,0,0 // movdqa 0x2b5c(%ecx),%xmm7
+ .byte 102,15,111,185,120,43,0,0 // movdqa 0x2b78(%ecx),%xmm7
.byte 102,15,254,215 // paddd %xmm7,%xmm2
.byte 102,15,112,218,229 // pshufd $0xe5,%xmm2,%xmm3
.byte 102,15,126,216 // movd %xmm3,%eax
@@ -66108,7 +66070,7 @@ _sk_clut_4D_sse2:
.byte 102,15,111,221 // movdqa %xmm5,%xmm3
.byte 102,15,254,93,184 // paddd -0x48(%ebp),%xmm3
.byte 102,15,112,227,245 // pshufd $0xf5,%xmm3,%xmm4
- .byte 102,15,111,129,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm0
+ .byte 102,15,111,129,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm0
.byte 102,15,244,216 // pmuludq %xmm0,%xmm3
.byte 102,15,112,219,232 // pshufd $0xe8,%xmm3,%xmm3
.byte 102,15,244,224 // pmuludq %xmm0,%xmm4
@@ -66177,7 +66139,7 @@ _sk_clut_4D_sse2:
.byte 102,15,254,193 // paddd %xmm1,%xmm0
.byte 102,15,111,241 // movdqa %xmm1,%xmm6
.byte 102,15,112,200,245 // pshufd $0xf5,%xmm0,%xmm1
- .byte 102,15,111,145,60,43,0,0 // movdqa 0x2b3c(%ecx),%xmm2
+ .byte 102,15,111,145,88,43,0,0 // movdqa 0x2b58(%ecx),%xmm2
.byte 102,15,244,194 // pmuludq %xmm2,%xmm0
.byte 102,15,112,192,232 // pshufd $0xe8,%xmm0,%xmm0
.byte 102,15,244,202 // pmuludq %xmm2,%xmm1
@@ -66200,7 +66162,7 @@ _sk_clut_4D_sse2:
.byte 15,20,218 // unpcklps %xmm2,%xmm3
.byte 15,41,93,168 // movaps %xmm3,-0x58(%ebp)
.byte 102,15,111,200 // movdqa %xmm0,%xmm1
- .byte 102,15,254,137,76,43,0,0 // paddd 0x2b4c(%ecx),%xmm1
+ .byte 102,15,254,137,104,43,0,0 // paddd 0x2b68(%ecx),%xmm1
.byte 102,15,112,209,229 // pshufd $0xe5,%xmm1,%xmm2
.byte 102,15,126,208 // movd %xmm2,%eax
.byte 102,15,112,209,78 // pshufd $0x4e,%xmm1,%xmm2
@@ -66216,7 +66178,7 @@ _sk_clut_4D_sse2:
.byte 15,20,217 // unpcklps %xmm1,%xmm3
.byte 15,20,218 // unpcklps %xmm2,%xmm3
.byte 15,41,157,88,255,255,255 // movaps %xmm3,-0xa8(%ebp)
- .byte 102,15,254,129,92,43,0,0 // paddd 0x2b5c(%ecx),%xmm0
+ .byte 102,15,254,129,120,43,0,0 // paddd 0x2b78(%ecx),%xmm0
.byte 102,15,112,200,229 // pshufd $0xe5,%xmm0,%xmm1
.byte 102,15,126,200 // movd %xmm1,%eax
.byte 102,15,112,200,78 // pshufd $0x4e,%xmm0,%xmm1
@@ -66253,7 +66215,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,60,178 // movss (%edx,%esi,4),%xmm7
.byte 15,20,199 // unpcklps %xmm7,%xmm0
.byte 15,20,193 // unpcklps %xmm1,%xmm0
- .byte 102,15,111,177,76,43,0,0 // movdqa 0x2b4c(%ecx),%xmm6
+ .byte 102,15,111,177,104,43,0,0 // movdqa 0x2b68(%ecx),%xmm6
.byte 102,15,254,242 // paddd %xmm2,%xmm6
.byte 102,15,112,206,229 // pshufd $0xe5,%xmm6,%xmm1
.byte 102,15,126,200 // movd %xmm1,%eax
@@ -66269,7 +66231,7 @@ _sk_clut_4D_sse2:
.byte 243,15,16,52,178 // movss (%edx,%esi,4),%xmm6
.byte 15,20,206 // unpcklps %xmm6,%xmm1
.byte 15,20,207 // unpcklps %xmm7,%xmm1
- .byte 102,15,254,145,92,43,0,0 // paddd 0x2b5c(%ecx),%xmm2
+ .byte 102,15,254,145,120,43,0,0 // paddd 0x2b78(%ecx),%xmm2
.byte 102,15,112,242,229 // pshufd $0xe5,%xmm2,%xmm6
.byte 102,15,126,240 // movd %xmm6,%eax
.byte 102,15,112,242,78 // pshufd $0x4e,%xmm2,%xmm6
@@ -66339,7 +66301,7 @@ _sk_clut_4D_sse2:
.byte 139,117,12 // mov 0xc(%ebp),%esi
.byte 141,86,8 // lea 0x8(%esi),%edx
.byte 131,236,8 // sub $0x8,%esp
- .byte 15,40,153,108,43,0,0 // movaps 0x2b6c(%ecx),%xmm3
+ .byte 15,40,153,136,43,0,0 // movaps 0x2b88(%ecx),%xmm3
.byte 82 // push %edx
.byte 80 // push %eax
.byte 255,86,4 // call *0x4(%esi)
@@ -66360,11 +66322,28 @@ BALIGN16
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
+ .byte 0,0 // add %al,(%eax)
+ .byte 0,0 // add %al,(%eax)
+ .byte 128,63,0 // cmpb $0x0,(%edi)
+ .byte 0,0 // add %al,(%eax)
+ .byte 64 // inc %eax
+ .byte 0,0 // add %al,(%eax)
+ .byte 64 // inc %eax
+ .byte 64 // inc %eax
+ .byte 0,0 // add %al,(%eax)
.byte 128,63,0 // cmpb $0x0,(%edi)
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
.byte 63 // aas
.byte 0,0 // add %al,(%eax)
- .byte 128,63,1 // cmpb $0x1,(%edi)
+ .byte 128,63,0 // cmpb $0x0,(%edi)
+ .byte 0,0 // add %al,(%eax)
+ .byte 0,1 // add %al,(%ecx)
+ .byte 0,0 // add %al,(%eax)
+ .byte 0,2 // add %al,(%edx)
+ .byte 0,0 // add %al,(%eax)
+ .byte 0,3 // add %al,(%ebx)
+ .byte 0,0 // add %al,(%eax)
+ .byte 0,1 // add %al,(%ecx)
.byte 0,0 // add %al,(%eax)
.byte 0,1 // add %al,(%ecx)
.byte 0,0 // add %al,(%eax)
@@ -66511,11 +66490,11 @@ BALIGN16
.byte 0,224 // add %ah,%al
.byte 64 // inc %eax
.byte 0,0 // add %al,(%eax)
- .byte 224,64 // loopne 9508 <.literal16+0x208>
+ .byte 224,64 // loopne 9518 <.literal16+0x228>
.byte 0,0 // add %al,(%eax)
- .byte 224,64 // loopne 950c <.literal16+0x20c>
+ .byte 224,64 // loopne 951c <.literal16+0x22c>
.byte 0,0 // add %al,(%eax)
- .byte 224,64 // loopne 9510 <.literal16+0x210>
+ .byte 224,64 // loopne 9520 <.literal16+0x230>
.byte 154,153,153,62,154,153,153 // lcall $0x9999,$0x9a3e9999
.byte 62,154,153,153,62,154,153,153 // ds lcall $0x9999,$0x9a3e9999
.byte 62,61,10,23,63,61 // ds cmp $0x3d3f170a,%eax
@@ -66526,16 +66505,16 @@ BALIGN16
.byte 63 // aas
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 9531 <.literal16+0x231>
+ .byte 225,61 // loope 9541 <.literal16+0x251>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 9535 <.literal16+0x235>
+ .byte 225,61 // loope 9545 <.literal16+0x255>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 9539 <.literal16+0x239>
+ .byte 225,61 // loope 9549 <.literal16+0x259>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 953d <.literal16+0x23d>
+ .byte 225,61 // loope 954d <.literal16+0x25d>
.byte 0,0 // add %al,(%eax)
.byte 128,63,0 // cmpb $0x0,(%edi)
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -66552,16 +66531,16 @@ BALIGN16
.byte 63 // aas
.byte 61,10,23,63,174 // cmp $0xae3f170a,%eax
.byte 71 // inc %edi
- .byte 225,61 // loope 9571 <.literal16+0x271>
+ .byte 225,61 // loope 9581 <.literal16+0x291>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 9575 <.literal16+0x275>
+ .byte 225,61 // loope 9585 <.literal16+0x295>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 9579 <.literal16+0x279>
+ .byte 225,61 // loope 9589 <.literal16+0x299>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 957d <.literal16+0x27d>
+ .byte 225,61 // loope 958d <.literal16+0x29d>
.byte 0,0 // add %al,(%eax)
.byte 128,63,0 // cmpb $0x0,(%edi)
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -66578,16 +66557,16 @@ BALIGN16
.byte 63 // aas
.byte 61,10,23,63,174 // cmp $0xae3f170a,%eax
.byte 71 // inc %edi
- .byte 225,61 // loope 95b1 <.literal16+0x2b1>
+ .byte 225,61 // loope 95c1 <.literal16+0x2d1>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 95b5 <.literal16+0x2b5>
+ .byte 225,61 // loope 95c5 <.literal16+0x2d5>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 95b9 <.literal16+0x2b9>
+ .byte 225,61 // loope 95c9 <.literal16+0x2d9>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 95bd <.literal16+0x2bd>
+ .byte 225,61 // loope 95cd <.literal16+0x2dd>
.byte 0,0 // add %al,(%eax)
.byte 128,63,0 // cmpb $0x0,(%edi)
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -66604,16 +66583,16 @@ BALIGN16
.byte 63 // aas
.byte 61,10,23,63,174 // cmp $0xae3f170a,%eax
.byte 71 // inc %edi
- .byte 225,61 // loope 95f1 <.literal16+0x2f1>
+ .byte 225,61 // loope 9601 <.literal16+0x311>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 95f5 <.literal16+0x2f5>
+ .byte 225,61 // loope 9605 <.literal16+0x315>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 95f9 <.literal16+0x2f9>
+ .byte 225,61 // loope 9609 <.literal16+0x319>
.byte 174 // scas %es:(%edi),%al
.byte 71 // inc %edi
- .byte 225,61 // loope 95fd <.literal16+0x2fd>
+ .byte 225,61 // loope 960d <.literal16+0x31d>
.byte 0,0 // add %al,(%eax)
.byte 128,63,0 // cmpb $0x0,(%edi)
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -66635,11 +66614,11 @@ BALIGN16
.byte 0,128,63,0,0,127 // add %al,0x7f00003f(%eax)
.byte 67 // inc %ebx
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 963b <.literal16+0x33b>
+ .byte 127,67 // jg 964b <.literal16+0x35b>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 963f <.literal16+0x33f>
+ .byte 127,67 // jg 964f <.literal16+0x35f>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 9643 <.literal16+0x343>
+ .byte 127,67 // jg 9653 <.literal16+0x363>
.byte 0,0 // add %al,(%eax)
.byte 128,63,0 // cmpb $0x0,(%edi)
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -66904,13 +66883,13 @@ BALIGN16
.byte 132,55 // test %dh,(%edi)
.byte 8,33 // or %ah,(%ecx)
.byte 132,55 // test %dh,(%edi)
- .byte 224,7 // loopne 9879 <.literal16+0x579>
+ .byte 224,7 // loopne 9889 <.literal16+0x599>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne 987d <.literal16+0x57d>
+ .byte 224,7 // loopne 988d <.literal16+0x59d>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne 9881 <.literal16+0x581>
+ .byte 224,7 // loopne 9891 <.literal16+0x5a1>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne 9885 <.literal16+0x585>
+ .byte 224,7 // loopne 9895 <.literal16+0x5a5>
.byte 0,0 // add %al,(%eax)
.byte 33,8 // and %ecx,(%eax)
.byte 2,58 // add (%edx),%bh
@@ -66959,13 +66938,13 @@ BALIGN16
.byte 132,55 // test %dh,(%edi)
.byte 8,33 // or %ah,(%ecx)
.byte 132,55 // test %dh,(%edi)
- .byte 224,7 // loopne 98f9 <.literal16+0x5f9>
+ .byte 224,7 // loopne 9909 <.literal16+0x619>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne 98fd <.literal16+0x5fd>
+ .byte 224,7 // loopne 990d <.literal16+0x61d>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne 9901 <.literal16+0x601>
+ .byte 224,7 // loopne 9911 <.literal16+0x621>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne 9905 <.literal16+0x605>
+ .byte 224,7 // loopne 9915 <.literal16+0x625>
.byte 0,0 // add %al,(%eax)
.byte 33,8 // and %ecx,(%eax)
.byte 2,58 // add (%edx),%bh
@@ -67014,11 +66993,11 @@ BALIGN16
.byte 128,63,0 // cmpb $0x0,(%edi)
.byte 0,127,67 // add %bh,0x43(%edi)
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 99bb <.literal16+0x6bb>
+ .byte 127,67 // jg 99cb <.literal16+0x6db>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 99bf <.literal16+0x6bf>
+ .byte 127,67 // jg 99cf <.literal16+0x6df>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 99c3 <.literal16+0x6c3>
+ .byte 127,67 // jg 99d3 <.literal16+0x6e3>
.byte 129,128,128,59,129,128,128,59,129,128// addl $0x80813b80,-0x7f7ec480(%eax)
.byte 128,59,129 // cmpb $0x81,(%ebx)
.byte 128,128,59,129,128,128,59 // addb $0x3b,-0x7f7f7ec5(%eax)
@@ -67033,16 +67012,16 @@ BALIGN16
.byte 0,0 // add %al,(%eax)
.byte 52,255 // xor $0xff,%al
.byte 255 // (bad)
- .byte 127,0 // jg 99b4 <.literal16+0x6b4>
+ .byte 127,0 // jg 99c4 <.literal16+0x6d4>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 99b8 <.literal16+0x6b8>
+ .byte 127,0 // jg 99c8 <.literal16+0x6d8>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 99bc <.literal16+0x6bc>
+ .byte 127,0 // jg 99cc <.literal16+0x6dc>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 99c0 <.literal16+0x6c0>
+ .byte 127,0 // jg 99d0 <.literal16+0x6e0>
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
@@ -67051,7 +67030,7 @@ BALIGN16
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
- .byte 119,115 // ja 9a45 <.literal16+0x745>
+ .byte 119,115 // ja 9a55 <.literal16+0x765>
.byte 248 // clc
.byte 194,119,115 // ret $0x7377
.byte 248 // clc
@@ -67062,7 +67041,7 @@ BALIGN16
.byte 194,117,191 // ret $0xbf75
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // aas
- .byte 117,191 // jne 99a9 <.literal16+0x6a9>
+ .byte 117,191 // jne 99b9 <.literal16+0x6c9>
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // aas
.byte 249 // stc
@@ -67078,7 +67057,7 @@ BALIGN16
.byte 68 // inc %esp
.byte 180,62 // mov $0x3e,%ah
.byte 163,233,220,63,163 // mov %eax,0xa33fdce9
- .byte 233,220,63,163,233 // jmp e9a3d9e6 <_sk_clut_4D_sse2+0xe9a35ccb>
+ .byte 233,220,63,163,233 // jmp e9a3d9f6 <_sk_clut_4D_sse2+0xe9a35ce7>
.byte 220,63 // fdivrl (%edi)
.byte 163,233,220,63,0 // mov %eax,0x3fdce9
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -67133,16 +67112,16 @@ BALIGN16
.byte 0,0 // add %al,(%eax)
.byte 52,255 // xor $0xff,%al
.byte 255 // (bad)
- .byte 127,0 // jg 9a84 <.literal16+0x784>
+ .byte 127,0 // jg 9a94 <.literal16+0x7a4>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9a88 <.literal16+0x788>
+ .byte 127,0 // jg 9a98 <.literal16+0x7a8>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9a8c <.literal16+0x78c>
+ .byte 127,0 // jg 9a9c <.literal16+0x7ac>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9a90 <.literal16+0x790>
+ .byte 127,0 // jg 9aa0 <.literal16+0x7b0>
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
@@ -67151,7 +67130,7 @@ BALIGN16
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
- .byte 119,115 // ja 9b15 <.literal16+0x815>
+ .byte 119,115 // ja 9b25 <.literal16+0x835>
.byte 248 // clc
.byte 194,119,115 // ret $0x7377
.byte 248 // clc
@@ -67162,7 +67141,7 @@ BALIGN16
.byte 194,117,191 // ret $0xbf75
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // aas
- .byte 117,191 // jne 9a79 <.literal16+0x779>
+ .byte 117,191 // jne 9a89 <.literal16+0x799>
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // aas
.byte 249 // stc
@@ -67178,7 +67157,7 @@ BALIGN16
.byte 68 // inc %esp
.byte 180,62 // mov $0x3e,%ah
.byte 163,233,220,63,163 // mov %eax,0xa33fdce9
- .byte 233,220,63,163,233 // jmp e9a3dab6 <_sk_clut_4D_sse2+0xe9a35d9b>
+ .byte 233,220,63,163,233 // jmp e9a3dac6 <_sk_clut_4D_sse2+0xe9a35db7>
.byte 220,63 // fdivrl (%edi)
.byte 163,233,220,63,0 // mov %eax,0x3fdce9
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -67233,16 +67212,16 @@ BALIGN16
.byte 0,0 // add %al,(%eax)
.byte 52,255 // xor $0xff,%al
.byte 255 // (bad)
- .byte 127,0 // jg 9b54 <.literal16+0x854>
+ .byte 127,0 // jg 9b64 <.literal16+0x874>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9b58 <.literal16+0x858>
+ .byte 127,0 // jg 9b68 <.literal16+0x878>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9b5c <.literal16+0x85c>
+ .byte 127,0 // jg 9b6c <.literal16+0x87c>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9b60 <.literal16+0x860>
+ .byte 127,0 // jg 9b70 <.literal16+0x880>
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
@@ -67251,7 +67230,7 @@ BALIGN16
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
- .byte 119,115 // ja 9be5 <.literal16+0x8e5>
+ .byte 119,115 // ja 9bf5 <.literal16+0x905>
.byte 248 // clc
.byte 194,119,115 // ret $0x7377
.byte 248 // clc
@@ -67262,7 +67241,7 @@ BALIGN16
.byte 194,117,191 // ret $0xbf75
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // aas
- .byte 117,191 // jne 9b49 <.literal16+0x849>
+ .byte 117,191 // jne 9b59 <.literal16+0x869>
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // aas
.byte 249 // stc
@@ -67278,7 +67257,7 @@ BALIGN16
.byte 68 // inc %esp
.byte 180,62 // mov $0x3e,%ah
.byte 163,233,220,63,163 // mov %eax,0xa33fdce9
- .byte 233,220,63,163,233 // jmp e9a3db86 <_sk_clut_4D_sse2+0xe9a35e6b>
+ .byte 233,220,63,163,233 // jmp e9a3db96 <_sk_clut_4D_sse2+0xe9a35e87>
.byte 220,63 // fdivrl (%edi)
.byte 163,233,220,63,0 // mov %eax,0x3fdce9
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -67333,16 +67312,16 @@ BALIGN16
.byte 0,0 // add %al,(%eax)
.byte 52,255 // xor $0xff,%al
.byte 255 // (bad)
- .byte 127,0 // jg 9c24 <.literal16+0x924>
+ .byte 127,0 // jg 9c34 <.literal16+0x944>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9c28 <.literal16+0x928>
+ .byte 127,0 // jg 9c38 <.literal16+0x948>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9c2c <.literal16+0x92c>
+ .byte 127,0 // jg 9c3c <.literal16+0x94c>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9c30 <.literal16+0x930>
+ .byte 127,0 // jg 9c40 <.literal16+0x950>
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
@@ -67351,7 +67330,7 @@ BALIGN16
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
- .byte 119,115 // ja 9cb5 <.literal16+0x9b5>
+ .byte 119,115 // ja 9cc5 <.literal16+0x9d5>
.byte 248 // clc
.byte 194,119,115 // ret $0x7377
.byte 248 // clc
@@ -67362,7 +67341,7 @@ BALIGN16
.byte 194,117,191 // ret $0xbf75
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // aas
- .byte 117,191 // jne 9c19 <.literal16+0x919>
+ .byte 117,191 // jne 9c29 <.literal16+0x939>
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // aas
.byte 249 // stc
@@ -67378,7 +67357,7 @@ BALIGN16
.byte 68 // inc %esp
.byte 180,62 // mov $0x3e,%ah
.byte 163,233,220,63,163 // mov %eax,0xa33fdce9
- .byte 233,220,63,163,233 // jmp e9a3dc56 <_sk_clut_4D_sse2+0xe9a35f3b>
+ .byte 233,220,63,163,233 // jmp e9a3dc66 <_sk_clut_4D_sse2+0xe9a35f57>
.byte 220,63 // fdivrl (%edi)
.byte 163,233,220,63,0 // mov %eax,0x3fdce9
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -67433,16 +67412,16 @@ BALIGN16
.byte 0,0 // add %al,(%eax)
.byte 52,255 // xor $0xff,%al
.byte 255 // (bad)
- .byte 127,0 // jg 9cf4 <.literal16+0x9f4>
+ .byte 127,0 // jg 9d04 <.literal16+0xa14>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9cf8 <.literal16+0x9f8>
+ .byte 127,0 // jg 9d08 <.literal16+0xa18>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9cfc <.literal16+0x9fc>
+ .byte 127,0 // jg 9d0c <.literal16+0xa1c>
.byte 255 // (bad)
.byte 255 // (bad)
- .byte 127,0 // jg 9d00 <.literal16+0xa00>
+ .byte 127,0 // jg 9d10 <.literal16+0xa20>
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
@@ -67451,7 +67430,7 @@ BALIGN16
.byte 0,63 // add %bh,(%edi)
.byte 0,0 // add %al,(%eax)
.byte 0,63 // add %bh,(%edi)
- .byte 119,115 // ja 9d85 <.literal16+0xa85>
+ .byte 119,115 // ja 9d95 <.literal16+0xaa5>
.byte 248 // clc
.byte 194,119,115 // ret $0x7377
.byte 248 // clc
@@ -67462,7 +67441,7 @@ BALIGN16
.byte 194,117,191 // ret $0xbf75
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // aas
- .byte 117,191 // jne 9ce9 <.literal16+0x9e9>
+ .byte 117,191 // jne 9cf9 <.literal16+0xa09>
.byte 191,63,117,191,191 // mov $0xbfbf753f,%edi
.byte 63 // aas
.byte 249 // stc
@@ -67478,7 +67457,7 @@ BALIGN16
.byte 68 // inc %esp
.byte 180,62 // mov $0x3e,%ah
.byte 163,233,220,63,163 // mov %eax,0xa33fdce9
- .byte 233,220,63,163,233 // jmp e9a3dd26 <_sk_clut_4D_sse2+0xe9a3600b>
+ .byte 233,220,63,163,233 // jmp e9a3dd36 <_sk_clut_4D_sse2+0xe9a36027>
.byte 220,63 // fdivrl (%edi)
.byte 163,233,220,63,0 // mov %eax,0x3fdce9
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -67529,13 +67508,13 @@ BALIGN16
.byte 200,66,0,0 // enter $0x42,$0x0
.byte 200,66,0,0 // enter $0x42,$0x0
.byte 200,66,0,0 // enter $0x42,$0x0
- .byte 127,67 // jg 9e07 <.literal16+0xb07>
+ .byte 127,67 // jg 9e17 <.literal16+0xb27>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 9e0b <.literal16+0xb0b>
+ .byte 127,67 // jg 9e1b <.literal16+0xb2b>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 9e0f <.literal16+0xb0f>
+ .byte 127,67 // jg 9e1f <.literal16+0xb2f>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 9e13 <.literal16+0xb13>
+ .byte 127,67 // jg 9e23 <.literal16+0xb33>
.byte 0,0 // add %al,(%eax)
.byte 0,195 // add %al,%bl
.byte 0,0 // add %al,(%eax)
@@ -67586,16 +67565,16 @@ BALIGN16
.byte 128,3,62 // addb $0x3e,(%ebx)
.byte 31 // pop %ds
.byte 215 // xlat %ds:(%ebx)
- .byte 118,63 // jbe 9e93 <.literal16+0xb93>
+ .byte 118,63 // jbe 9ea3 <.literal16+0xbb3>
.byte 31 // pop %ds
.byte 215 // xlat %ds:(%ebx)
- .byte 118,63 // jbe 9e97 <.literal16+0xb97>
+ .byte 118,63 // jbe 9ea7 <.literal16+0xbb7>
.byte 31 // pop %ds
.byte 215 // xlat %ds:(%ebx)
- .byte 118,63 // jbe 9e9b <.literal16+0xb9b>
+ .byte 118,63 // jbe 9eab <.literal16+0xbbb>
.byte 31 // pop %ds
.byte 215 // xlat %ds:(%ebx)
- .byte 118,63 // jbe 9e9f <.literal16+0xb9f>
+ .byte 118,63 // jbe 9eaf <.literal16+0xbbf>
.byte 246,64,83,63 // testb $0x3f,0x53(%eax)
.byte 246,64,83,63 // testb $0x3f,0x53(%eax)
.byte 246,64,83,63 // testb $0x3f,0x53(%eax)
@@ -67624,11 +67603,11 @@ BALIGN16
.byte 128,59,0 // cmpb $0x0,(%ebx)
.byte 0,127,67 // add %bh,0x43(%edi)
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 9f0b <.literal16+0xc0b>
+ .byte 127,67 // jg 9f1b <.literal16+0xc2b>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 9f0f <.literal16+0xc0f>
+ .byte 127,67 // jg 9f1f <.literal16+0xc2f>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg 9f13 <.literal16+0xc13>
+ .byte 127,67 // jg 9f23 <.literal16+0xc33>
.byte 255,0 // incl (%eax)
.byte 0,0 // add %al,(%eax)
.byte 0,0 // add %al,(%eax)
@@ -67690,13 +67669,13 @@ BALIGN16
.byte 132,55 // test %dh,(%edi)
.byte 8,33 // or %ah,(%ecx)
.byte 132,55 // test %dh,(%edi)
- .byte 224,7 // loopne 9f89 <.literal16+0xc89>
+ .byte 224,7 // loopne 9f99 <.literal16+0xca9>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne 9f8d <.literal16+0xc8d>
+ .byte 224,7 // loopne 9f9d <.literal16+0xcad>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne 9f91 <.literal16+0xc91>
+ .byte 224,7 // loopne 9fa1 <.literal16+0xcb1>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne 9f95 <.literal16+0xc95>
+ .byte 224,7 // loopne 9fa5 <.literal16+0xcb5>
.byte 0,0 // add %al,(%eax)
.byte 33,8 // and %ecx,(%eax)
.byte 2,58 // add (%edx),%bh
@@ -67742,13 +67721,13 @@ BALIGN16
.byte 132,55 // test %dh,(%edi)
.byte 8,33 // or %ah,(%ecx)
.byte 132,55 // test %dh,(%edi)
- .byte 224,7 // loopne 9ff9 <.literal16+0xcf9>
+ .byte 224,7 // loopne a009 <.literal16+0xd19>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne 9ffd <.literal16+0xcfd>
+ .byte 224,7 // loopne a00d <.literal16+0xd1d>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne a001 <.literal16+0xd01>
+ .byte 224,7 // loopne a011 <.literal16+0xd21>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne a005 <.literal16+0xd05>
+ .byte 224,7 // loopne a015 <.literal16+0xd25>
.byte 0,0 // add %al,(%eax)
.byte 33,8 // and %ecx,(%eax)
.byte 2,58 // add (%edx),%bh
@@ -67794,13 +67773,13 @@ BALIGN16
.byte 132,55 // test %dh,(%edi)
.byte 8,33 // or %ah,(%ecx)
.byte 132,55 // test %dh,(%edi)
- .byte 224,7 // loopne a069 <.literal16+0xd69>
+ .byte 224,7 // loopne a079 <.literal16+0xd89>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne a06d <.literal16+0xd6d>
+ .byte 224,7 // loopne a07d <.literal16+0xd8d>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne a071 <.literal16+0xd71>
+ .byte 224,7 // loopne a081 <.literal16+0xd91>
.byte 0,0 // add %al,(%eax)
- .byte 224,7 // loopne a075 <.literal16+0xd75>
+ .byte 224,7 // loopne a085 <.literal16+0xd95>
.byte 0,0 // add %al,(%eax)
.byte 33,8 // and %ecx,(%eax)
.byte 2,58 // add (%edx),%bh
@@ -67842,13 +67821,13 @@ BALIGN16
.byte 248 // clc
.byte 65 // inc %ecx
.byte 0,0 // add %al,(%eax)
- .byte 124,66 // jl a106 <.literal16+0xe06>
+ .byte 124,66 // jl a116 <.literal16+0xe26>
.byte 0,0 // add %al,(%eax)
- .byte 124,66 // jl a10a <.literal16+0xe0a>
+ .byte 124,66 // jl a11a <.literal16+0xe2a>
.byte 0,0 // add %al,(%eax)
- .byte 124,66 // jl a10e <.literal16+0xe0e>
+ .byte 124,66 // jl a11e <.literal16+0xe2e>
.byte 0,0 // add %al,(%eax)
- .byte 124,66 // jl a112 <.literal16+0xe12>
+ .byte 124,66 // jl a122 <.literal16+0xe32>
.byte 0,240 // add %dh,%al
.byte 0,0 // add %al,(%eax)
.byte 0,240 // add %dh,%al
@@ -67982,13 +67961,13 @@ BALIGN16
.byte 136,136,61,137,136,136 // mov %cl,-0x777776c3(%eax)
.byte 61,137,136,136,61 // cmp $0x3d888889,%eax
.byte 0,0 // add %al,(%eax)
- .byte 112,65 // jo a295 <.literal16+0xf95>
+ .byte 112,65 // jo a2a5 <.literal16+0xfb5>
.byte 0,0 // add %al,(%eax)
- .byte 112,65 // jo a299 <.literal16+0xf99>
+ .byte 112,65 // jo a2a9 <.literal16+0xfb9>
.byte 0,0 // add %al,(%eax)
- .byte 112,65 // jo a29d <.literal16+0xf9d>
+ .byte 112,65 // jo a2ad <.literal16+0xfbd>
.byte 0,0 // add %al,(%eax)
- .byte 112,65 // jo a2a1 <.literal16+0xfa1>
+ .byte 112,65 // jo a2b1 <.literal16+0xfc1>
.byte 255,0 // incl (%eax)
.byte 0,0 // add %al,(%eax)
.byte 255,0 // incl (%eax)
@@ -68019,11 +67998,11 @@ BALIGN16
.byte 128,59,129 // cmpb $0x81,(%ebx)
.byte 128,128,59,0,0,127,67 // addb $0x43,0x7f00003b(%eax)
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg a30b <.literal16+0x100b>
+ .byte 127,67 // jg a31b <.literal16+0x102b>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg a30f <.literal16+0x100f>
+ .byte 127,67 // jg a31f <.literal16+0x102f>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg a313 <.literal16+0x1013>
+ .byte 127,67 // jg a323 <.literal16+0x1033>
.byte 255,0 // incl (%eax)
.byte 0,0 // add %al,(%eax)
.byte 255,0 // incl (%eax)
@@ -68054,11 +68033,11 @@ BALIGN16
.byte 128,59,129 // cmpb $0x81,(%ebx)
.byte 128,128,59,0,0,127,67 // addb $0x43,0x7f00003b(%eax)
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg a37b <.literal16+0x107b>
+ .byte 127,67 // jg a38b <.literal16+0x109b>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg a37f <.literal16+0x107f>
+ .byte 127,67 // jg a38f <.literal16+0x109f>
.byte 0,0 // add %al,(%eax)
- .byte 127,67 // jg a383 <.literal16+0x1083>
+ .byte 127,67 // jg a393 <.literal16+0x10a3>
.byte 0,128,0,0,0,128 // add %al,-0x80000000(%eax)
.byte 0,0 // add %al,(%eax)
.byte 0,128,0,0,0,128 // add %al,-0x80000000(%eax)
@@ -68157,13 +68136,13 @@ BALIGN16
.byte 0,0 // add %al,(%eax)
.byte 128,63,0 // cmpb $0x0,(%edi)
.byte 255 // (bad)
- .byte 127,71 // jg a4ab <.literal16+0x11ab>
+ .byte 127,71 // jg a4bb <.literal16+0x11cb>
.byte 0,255 // add %bh,%bh
- .byte 127,71 // jg a4af <.literal16+0x11af>
+ .byte 127,71 // jg a4bf <.literal16+0x11cf>
.byte 0,255 // add %bh,%bh
- .byte 127,71 // jg a4b3 <.literal16+0x11b3>
+ .byte 127,71 // jg a4c3 <.literal16+0x11d3>
.byte 0,255 // add %bh,%bh
- .byte 127,71 // jg a4b7 <.literal16+0x11b7>
+ .byte 127,71 // jg a4c7 <.literal16+0x11d7>
.byte 0,0 // add %al,(%eax)
.byte 128,63,0 // cmpb $0x0,(%edi)
.byte 0,128,63,0,0,128 // add %al,-0x7fffffc1(%eax)
@@ -68271,7 +68250,7 @@ BALIGN16
.byte 192,45,16,17,192,45,16 // shrb $0x10,0x2dc01110
.byte 17,192 // adc %eax,%eax
.byte 45,16,17,192,18 // sub $0x12c01110,%eax
- .byte 120,57 // js a5bc <.literal16+0x12bc>
+ .byte 120,57 // js a5cc <.literal16+0x12dc>
.byte 64 // inc %eax
.byte 18,120,57 // adc 0x39(%eax),%bh
.byte 64 // inc %eax
@@ -68464,11 +68443,11 @@ BALIGN16
.byte 0,0 // add %al,(%eax)
.byte 128,63,114 // cmpb $0x72,(%edi)
.byte 28,199 // sbb $0xc7,%al
- .byte 62,114,28 // jb,pt a7a2 <.literal16+0x14a2>
+ .byte 62,114,28 // jb,pt a7b2 <.literal16+0x14c2>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt a7a6 <.literal16+0x14a6>
+ .byte 62,114,28 // jb,pt a7b6 <.literal16+0x14c6>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt a7aa <.literal16+0x14aa>
+ .byte 62,114,28 // jb,pt a7ba <.literal16+0x14ca>
.byte 199 // (bad)
.byte 62,171 // ds stos %eax,%es:(%edi)
.byte 170 // stos %al,%es:(%edi)
@@ -68547,13 +68526,13 @@ BALIGN16
.byte 192,63,0 // sarb $0x0,(%edi)
.byte 0,192 // add %al,%al
.byte 63 // aas
- .byte 114,28 // jb a86e <.literal16+0x156e>
+ .byte 114,28 // jb a87e <.literal16+0x158e>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt a872 <.literal16+0x1572>
+ .byte 62,114,28 // jb,pt a882 <.literal16+0x1592>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt a876 <.literal16+0x1576>
+ .byte 62,114,28 // jb,pt a886 <.literal16+0x1596>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt a87a <.literal16+0x157a>
+ .byte 62,114,28 // jb,pt a88a <.literal16+0x159a>
.byte 199 // (bad)
.byte 62,171 // ds stos %eax,%es:(%edi)
.byte 170 // stos %al,%es:(%edi)
@@ -68574,11 +68553,11 @@ BALIGN16
.byte 0,0 // add %al,(%eax)
.byte 128,63,114 // cmpb $0x72,(%edi)
.byte 28,199 // sbb $0xc7,%al
- .byte 62,114,28 // jb,pt a8b2 <.literal16+0x15b2>
+ .byte 62,114,28 // jb,pt a8c2 <.literal16+0x15d2>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt a8b6 <.literal16+0x15b6>
+ .byte 62,114,28 // jb,pt a8c6 <.literal16+0x15d6>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt a8ba <.literal16+0x15ba>
+ .byte 62,114,28 // jb,pt a8ca <.literal16+0x15da>
.byte 199 // (bad)
.byte 62,171 // ds stos %eax,%es:(%edi)
.byte 170 // stos %al,%es:(%edi)
@@ -68657,13 +68636,13 @@ BALIGN16
.byte 192,63,0 // sarb $0x0,(%edi)
.byte 0,192 // add %al,%al
.byte 63 // aas
- .byte 114,28 // jb a97e <.literal16+0x167e>
+ .byte 114,28 // jb a98e <.literal16+0x169e>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt a982 <.literal16+0x1682>
+ .byte 62,114,28 // jb,pt a992 <.literal16+0x16a2>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt a986 <.literal16+0x1686>
+ .byte 62,114,28 // jb,pt a996 <.literal16+0x16a6>
.byte 199 // (bad)
- .byte 62,114,28 // jb,pt a98a <.literal16+0x168a>
+ .byte 62,114,28 // jb,pt a99a <.literal16+0x16aa>
.byte 199 // (bad)
.byte 62,171 // ds stos %eax,%es:(%edi)
.byte 170 // stos %al,%es:(%edi)
@@ -68673,14 +68652,14 @@ BALIGN16
.byte 170 // stos %al,%es:(%edi)
.byte 170 // stos %al,%es:(%edi)
.byte 190,171,170,170,190 // mov $0xbeaaaaab,%esi
- .byte 114,249 // jb a97b <.literal16+0x167b>
- .byte 127,63 // jg a9c3 <.literal16+0x16c3>
- .byte 114,249 // jb a97f <.literal16+0x167f>
- .byte 127,63 // jg a9c7 <.literal16+0x16c7>
- .byte 114,249 // jb a983 <.literal16+0x1683>
- .byte 127,63 // jg a9cb <.literal16+0x16cb>
- .byte 114,249 // jb a987 <.literal16+0x1687>
- .byte 127,63 // jg a9cf <.literal16+0x16cf>
+ .byte 114,249 // jb a98b <.literal16+0x169b>
+ .byte 127,63 // jg a9d3 <.literal16+0x16e3>
+ .byte 114,249 // jb a98f <.literal16+0x169f>
+ .byte 127,63 // jg a9d7 <.literal16+0x16e7>
+ .byte 114,249 // jb a993 <.literal16+0x16a3>
+ .byte 127,63 // jg a9db <.literal16+0x16eb>
+ .byte 114,249 // jb a997 <.literal16+0x16a7>
+ .byte 127,63 // jg a9df <.literal16+0x16ef>
.byte 3,0 // add (%eax),%eax
.byte 0,0 // add %al,(%eax)
.byte 3,0 // add (%eax),%eax
@@ -68705,14 +68684,14 @@ BALIGN16
.byte 0,0 // add %al,(%eax)
.byte 2,0 // add (%eax),%al
.byte 0,0 // add %al,(%eax)
- .byte 114,249 // jb a9bb <.literal16+0x16bb>
- .byte 127,63 // jg aa03 <.literal16+0x1703>
- .byte 114,249 // jb a9bf <.literal16+0x16bf>
- .byte 127,63 // jg aa07 <.literal16+0x1707>
- .byte 114,249 // jb a9c3 <.literal16+0x16c3>
- .byte 127,63 // jg aa0b <.literal16+0x170b>
- .byte 114,249 // jb a9c7 <.literal16+0x16c7>
- .byte 127,63 // jg aa0f <.literal16+0x170f>
+ .byte 114,249 // jb a9cb <.literal16+0x16db>
+ .byte 127,63 // jg aa13 <.literal16+0x1723>
+ .byte 114,249 // jb a9cf <.literal16+0x16df>
+ .byte 127,63 // jg aa17 <.literal16+0x1727>
+ .byte 114,249 // jb a9d3 <.literal16+0x16e3>
+ .byte 127,63 // jg aa1b <.literal16+0x172b>
+ .byte 114,249 // jb a9d7 <.literal16+0x16e7>
+ .byte 127,63 // jg aa1f <.literal16+0x172f>
.byte 3,0 // add (%eax),%eax
.byte 0,0 // add %al,(%eax)
.byte 3,0 // add (%eax),%eax
diff --git a/src/jumper/SkJumper_generated_win.S b/src/jumper/SkJumper_generated_win.S
index d85a0de655..08d4a3ab07 100644
--- a/src/jumper/SkJumper_generated_win.S
+++ b/src/jumper/SkJumper_generated_win.S
@@ -41,16 +41,15 @@ _sk_start_pipeline_hsw LABEL PROC
DB 73,137,246 ; mov %rsi,%r14
DB 76,137,141,8,255,255,255 ; mov %r9,-0xf8(%rbp)
DB 76,57,203 ; cmp %r9,%rbx
- DB 115,110 ; jae ed <_sk_start_pipeline_hsw+0xed>
+ DB 115,101 ; jae e4 <_sk_start_pipeline_hsw+0xe4>
DB 72,139,133,24,255,255,255 ; mov -0xe8(%rbp),%rax
DB 72,141,64,8 ; lea 0x8(%rax),%rax
DB 72,137,133,16,255,255,255 ; mov %rax,-0xf0(%rbp)
DB 72,139,149,24,255,255,255 ; mov -0xe8(%rbp),%rdx
DB 76,57,189,16,255,255,255 ; cmp %r15,-0xf0(%rbp)
- DB 119,43 ; ja cc <_sk_start_pipeline_hsw+0xcc>
+ DB 119,38 ; ja c7 <_sk_start_pipeline_hsw+0xc7>
DB 76,139,165,24,255,255,255 ; mov -0xe8(%rbp),%r12
- DB 69,49,192 ; xor %r8d,%r8d
- DB 72,139,125,56 ; mov 0x38(%rbp),%rdi
+ DB 49,255 ; xor %edi,%edi
DB 76,137,246 ; mov %r14,%rsi
DB 76,137,226 ; mov %r12,%rdx
DB 72,137,217 ; mov %rbx,%rcx
@@ -59,17 +58,16 @@ _sk_start_pipeline_hsw LABEL PROC
DB 73,131,196,16 ; add $0x10,%r12
DB 77,57,252 ; cmp %r15,%r12
DB 73,137,212 ; mov %rdx,%r12
- DB 118,220 ; jbe a8 <_sk_start_pipeline_hsw+0xa8>
- DB 77,137,248 ; mov %r15,%r8
- DB 73,41,208 ; sub %rdx,%r8
- DB 116,13 ; je e1 <_sk_start_pipeline_hsw+0xe1>
- DB 72,139,125,56 ; mov 0x38(%rbp),%rdi
+ DB 118,225 ; jbe a8 <_sk_start_pipeline_hsw+0xa8>
+ DB 76,137,255 ; mov %r15,%rdi
+ DB 72,41,215 ; sub %rdx,%rdi
+ DB 116,9 ; je d8 <_sk_start_pipeline_hsw+0xd8>
DB 76,137,246 ; mov %r14,%rsi
DB 72,137,217 ; mov %rbx,%rcx
DB 65,255,213 ; callq *%r13
DB 72,255,195 ; inc %rbx
DB 72,59,157,8,255,255,255 ; cmp -0xf8(%rbp),%rbx
- DB 117,164 ; jne 91 <_sk_start_pipeline_hsw+0x91>
+ DB 117,173 ; jne 91 <_sk_start_pipeline_hsw+0x91>
DB 197,248,40,181,32,255,255,255 ; vmovaps -0xe0(%rbp),%xmm6
DB 197,248,40,189,48,255,255,255 ; vmovaps -0xd0(%rbp),%xmm7
DB 197,120,40,133,64,255,255,255 ; vmovaps -0xc0(%rbp),%xmm8
@@ -101,15 +99,15 @@ _sk_seed_shader_hsw LABEL PROC
DB 197,249,110,194 ; vmovd %edx,%xmm0
DB 196,226,125,88,192 ; vpbroadcastd %xmm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,89,191,2,0 ; vbroadcastss 0x2bf59(%rip),%ymm1 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,226,125,24,13,138,191,2,0 ; vbroadcastss 0x2bf8a(%rip),%ymm1 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,252,88,193 ; vaddps %ymm1,%ymm0,%ymm0
- DB 197,252,88,7 ; vaddps (%rdi),%ymm0,%ymm0
+ DB 197,252,88,5,30,193,2,0 ; vaddps 0x2c11e(%rip),%ymm0,%ymm0 # 2c280 <_sk_overlay_sse2_8bit+0x60b>
DB 197,249,110,209 ; vmovd %ecx,%xmm2
DB 196,226,125,88,210 ; vpbroadcastd %xmm2,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
DB 197,236,88,201 ; vaddps %ymm1,%ymm2,%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,21,57,191,2,0 ; vbroadcastss 0x2bf39(%rip),%ymm2 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,21,102,191,2,0 ; vbroadcastss 0x2bf66(%rip),%ymm2 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,228,87,219 ; vxorps %ymm3,%ymm3,%ymm3
DB 197,220,87,228 ; vxorps %ymm4,%ymm4,%ymm4
DB 197,212,87,237 ; vxorps %ymm5,%ymm5,%ymm5
@@ -122,17 +120,17 @@ _sk_dither_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,121,110,194 ; vmovd %edx,%xmm8
DB 196,66,125,88,192 ; vpbroadcastd %xmm8,%ymm8
- DB 197,61,254,71,32 ; vpaddd 0x20(%rdi),%ymm8,%ymm8
+ DB 197,61,254,5,249,192,2,0 ; vpaddd 0x2c0f9(%rip),%ymm8,%ymm8 # 2c2a0 <_sk_overlay_sse2_8bit+0x62b>
DB 197,121,110,201 ; vmovd %ecx,%xmm9
DB 196,66,125,88,201 ; vpbroadcastd %xmm9,%ymm9
DB 196,65,53,239,200 ; vpxor %ymm8,%ymm9,%ymm9
- DB 196,98,125,88,21,0,191,2,0 ; vpbroadcastd 0x2bf00(%rip),%ymm10 # 2c0c0 <_sk_overlay_sse2_8bit+0x473>
+ DB 196,98,125,88,21,42,191,2,0 ; vpbroadcastd 0x2bf2a(%rip),%ymm10 # 2c0e8 <_sk_overlay_sse2_8bit+0x473>
DB 196,65,53,219,218 ; vpand %ymm10,%ymm9,%ymm11
DB 196,193,37,114,243,5 ; vpslld $0x5,%ymm11,%ymm11
DB 196,65,61,219,210 ; vpand %ymm10,%ymm8,%ymm10
DB 196,193,45,114,242,4 ; vpslld $0x4,%ymm10,%ymm10
- DB 196,98,125,88,37,229,190,2,0 ; vpbroadcastd 0x2bee5(%rip),%ymm12 # 2c0c4 <_sk_overlay_sse2_8bit+0x477>
- DB 196,98,125,88,45,224,190,2,0 ; vpbroadcastd 0x2bee0(%rip),%ymm13 # 2c0c8 <_sk_overlay_sse2_8bit+0x47b>
+ DB 196,98,125,88,37,15,191,2,0 ; vpbroadcastd 0x2bf0f(%rip),%ymm12 # 2c0ec <_sk_overlay_sse2_8bit+0x477>
+ DB 196,98,125,88,45,10,191,2,0 ; vpbroadcastd 0x2bf0a(%rip),%ymm13 # 2c0f0 <_sk_overlay_sse2_8bit+0x47b>
DB 196,65,53,219,245 ; vpand %ymm13,%ymm9,%ymm14
DB 196,193,13,114,246,2 ; vpslld $0x2,%ymm14,%ymm14
DB 196,65,61,219,237 ; vpand %ymm13,%ymm8,%ymm13
@@ -147,11 +145,11 @@ _sk_dither_hsw LABEL PROC
DB 196,65,61,235,194 ; vpor %ymm10,%ymm8,%ymm8
DB 196,65,61,235,193 ; vpor %ymm9,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
- DB 196,98,125,24,13,146,190,2,0 ; vbroadcastss 0x2be92(%rip),%ymm9 # 2c0cc <_sk_overlay_sse2_8bit+0x47f>
- DB 196,98,125,24,21,141,190,2,0 ; vbroadcastss 0x2be8d(%rip),%ymm10 # 2c0d0 <_sk_overlay_sse2_8bit+0x483>
+ DB 196,98,125,24,13,188,190,2,0 ; vbroadcastss 0x2bebc(%rip),%ymm9 # 2c0f4 <_sk_overlay_sse2_8bit+0x47f>
+ DB 196,98,125,24,21,183,190,2,0 ; vbroadcastss 0x2beb7(%rip),%ymm10 # 2c0f8 <_sk_overlay_sse2_8bit+0x483>
DB 196,66,61,184,209 ; vfmadd231ps %ymm9,%ymm8,%ymm10
DB 196,98,125,24,0 ; vbroadcastss (%rax),%ymm8
- DB 196,65,60,89,194 ; vmulps %ymm10,%ymm8,%ymm8
+ DB 196,65,44,89,192 ; vmulps %ymm8,%ymm10,%ymm8
DB 197,188,88,192 ; vaddps %ymm0,%ymm8,%ymm0
DB 197,188,88,201 ; vaddps %ymm1,%ymm8,%ymm1
DB 197,188,88,210 ; vaddps %ymm2,%ymm8,%ymm2
@@ -178,7 +176,7 @@ _sk_uniform_color_hsw LABEL PROC
PUBLIC _sk_black_color_hsw
_sk_black_color_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,21,190,2,0 ; vbroadcastss 0x2be15(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,63,190,2,0 ; vbroadcastss 0x2be3f(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,87,192 ; vxorps %ymm0,%ymm0,%ymm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 197,236,87,210 ; vxorps %ymm2,%ymm2,%ymm2
@@ -187,7 +185,7 @@ _sk_black_color_hsw LABEL PROC
PUBLIC _sk_white_color_hsw
_sk_white_color_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,252,189,2,0 ; vbroadcastss 0x2bdfc(%rip),%ymm0 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,5,38,190,2,0 ; vbroadcastss 0x2be26(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,40,200 ; vmovaps %ymm0,%ymm1
DB 197,252,40,208 ; vmovaps %ymm0,%ymm2
DB 197,252,40,216 ; vmovaps %ymm0,%ymm3
@@ -225,7 +223,7 @@ _sk_clear_hsw LABEL PROC
PUBLIC _sk_srcatop_hsw
_sk_srcatop_hsw LABEL PROC
DB 197,252,89,199 ; vmulps %ymm7,%ymm0,%ymm0
- DB 196,98,125,24,5,155,189,2,0 ; vbroadcastss 0x2bd9b(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,197,189,2,0 ; vbroadcastss 0x2bdc5(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 196,226,61,184,196 ; vfmadd231ps %ymm4,%ymm8,%ymm0
DB 197,244,89,207 ; vmulps %ymm7,%ymm1,%ymm1
@@ -239,7 +237,7 @@ _sk_srcatop_hsw LABEL PROC
PUBLIC _sk_dstatop_hsw
_sk_dstatop_hsw LABEL PROC
- DB 196,98,125,24,5,106,189,2,0 ; vbroadcastss 0x2bd6a(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,148,189,2,0 ; vbroadcastss 0x2bd94(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,199 ; vsubps %ymm7,%ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 196,226,101,184,196 ; vfmadd231ps %ymm4,%ymm3,%ymm0
@@ -272,7 +270,7 @@ _sk_dstin_hsw LABEL PROC
PUBLIC _sk_srcout_hsw
_sk_srcout_hsw LABEL PROC
- DB 196,98,125,24,5,13,189,2,0 ; vbroadcastss 0x2bd0d(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,55,189,2,0 ; vbroadcastss 0x2bd37(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,199 ; vsubps %ymm7,%ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
@@ -283,7 +281,7 @@ _sk_srcout_hsw LABEL PROC
PUBLIC _sk_dstout_hsw
_sk_dstout_hsw LABEL PROC
- DB 196,226,125,24,5,236,188,2,0 ; vbroadcastss 0x2bcec(%rip),%ymm0 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,5,22,189,2,0 ; vbroadcastss 0x2bd16(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,92,219 ; vsubps %ymm3,%ymm0,%ymm3
DB 197,228,89,196 ; vmulps %ymm4,%ymm3,%ymm0
DB 197,228,89,205 ; vmulps %ymm5,%ymm3,%ymm1
@@ -294,7 +292,7 @@ _sk_dstout_hsw LABEL PROC
PUBLIC _sk_srcover_hsw
_sk_srcover_hsw LABEL PROC
- DB 196,98,125,24,5,203,188,2,0 ; vbroadcastss 0x2bccb(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,245,188,2,0 ; vbroadcastss 0x2bcf5(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 196,194,93,184,192 ; vfmadd231ps %ymm8,%ymm4,%ymm0
DB 196,194,85,184,200 ; vfmadd231ps %ymm8,%ymm5,%ymm1
@@ -305,7 +303,7 @@ _sk_srcover_hsw LABEL PROC
PUBLIC _sk_dstover_hsw
_sk_dstover_hsw LABEL PROC
- DB 196,98,125,24,5,166,188,2,0 ; vbroadcastss 0x2bca6(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,208,188,2,0 ; vbroadcastss 0x2bcd0(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,199 ; vsubps %ymm7,%ymm8,%ymm8
DB 196,226,61,168,196 ; vfmadd213ps %ymm4,%ymm8,%ymm0
DB 196,226,61,168,205 ; vfmadd213ps %ymm5,%ymm8,%ymm1
@@ -325,7 +323,7 @@ _sk_modulate_hsw LABEL PROC
PUBLIC _sk_multiply_hsw
_sk_multiply_hsw LABEL PROC
- DB 196,98,125,24,5,109,188,2,0 ; vbroadcastss 0x2bc6d(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,151,188,2,0 ; vbroadcastss 0x2bc97(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,207 ; vsubps %ymm7,%ymm8,%ymm9
DB 197,52,89,208 ; vmulps %ymm0,%ymm9,%ymm10
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
@@ -346,7 +344,7 @@ _sk_multiply_hsw LABEL PROC
PUBLIC _sk_plus__hsw
_sk_plus__hsw LABEL PROC
DB 197,252,88,196 ; vaddps %ymm4,%ymm0,%ymm0
- DB 196,98,125,24,5,28,188,2,0 ; vbroadcastss 0x2bc1c(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,70,188,2,0 ; vbroadcastss 0x2bc46(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,124,93,192 ; vminps %ymm8,%ymm0,%ymm0
DB 197,244,88,205 ; vaddps %ymm5,%ymm1,%ymm1
DB 196,193,116,93,200 ; vminps %ymm8,%ymm1,%ymm1
@@ -372,7 +370,7 @@ _sk_screen_hsw LABEL PROC
PUBLIC _sk_xor__hsw
_sk_xor__hsw LABEL PROC
- DB 196,98,125,24,5,199,187,2,0 ; vbroadcastss 0x2bbc7(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,241,187,2,0 ; vbroadcastss 0x2bbf1(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,207 ; vsubps %ymm7,%ymm8,%ymm9
DB 197,180,89,192 ; vmulps %ymm0,%ymm9,%ymm0
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
@@ -404,7 +402,7 @@ _sk_darken_hsw LABEL PROC
DB 197,100,89,206 ; vmulps %ymm6,%ymm3,%ymm9
DB 196,193,108,95,209 ; vmaxps %ymm9,%ymm2,%ymm2
DB 197,188,92,210 ; vsubps %ymm2,%ymm8,%ymm2
- DB 196,98,125,24,5,75,187,2,0 ; vbroadcastss 0x2bb4b(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,117,187,2,0 ; vbroadcastss 0x2bb75(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 196,194,69,184,216 ; vfmadd231ps %ymm8,%ymm7,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -427,7 +425,7 @@ _sk_lighten_hsw LABEL PROC
DB 197,100,89,206 ; vmulps %ymm6,%ymm3,%ymm9
DB 196,193,108,93,209 ; vminps %ymm9,%ymm2,%ymm2
DB 197,188,92,210 ; vsubps %ymm2,%ymm8,%ymm2
- DB 196,98,125,24,5,246,186,2,0 ; vbroadcastss 0x2baf6(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,32,187,2,0 ; vbroadcastss 0x2bb20(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 196,194,69,184,216 ; vfmadd231ps %ymm8,%ymm7,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -453,7 +451,7 @@ _sk_difference_hsw LABEL PROC
DB 196,193,108,93,209 ; vminps %ymm9,%ymm2,%ymm2
DB 197,236,88,210 ; vaddps %ymm2,%ymm2,%ymm2
DB 197,188,92,210 ; vsubps %ymm2,%ymm8,%ymm2
- DB 196,98,125,24,5,149,186,2,0 ; vbroadcastss 0x2ba95(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,191,186,2,0 ; vbroadcastss 0x2babf(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 196,194,69,184,216 ; vfmadd231ps %ymm8,%ymm7,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -473,7 +471,7 @@ _sk_exclusion_hsw LABEL PROC
DB 197,236,89,214 ; vmulps %ymm6,%ymm2,%ymm2
DB 197,236,88,210 ; vaddps %ymm2,%ymm2,%ymm2
DB 197,188,92,210 ; vsubps %ymm2,%ymm8,%ymm2
- DB 196,98,125,24,5,79,186,2,0 ; vbroadcastss 0x2ba4f(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,121,186,2,0 ; vbroadcastss 0x2ba79(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 196,194,69,184,216 ; vfmadd231ps %ymm8,%ymm7,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -481,7 +479,7 @@ _sk_exclusion_hsw LABEL PROC
PUBLIC _sk_colorburn_hsw
_sk_colorburn_hsw LABEL PROC
- DB 196,98,125,24,5,57,186,2,0 ; vbroadcastss 0x2ba39(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,99,186,2,0 ; vbroadcastss 0x2ba63(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,207 ; vsubps %ymm7,%ymm8,%ymm9
DB 197,52,89,216 ; vmulps %ymm0,%ymm9,%ymm11
DB 196,65,44,87,210 ; vxorps %ymm10,%ymm10,%ymm10
@@ -537,7 +535,7 @@ _sk_colorburn_hsw LABEL PROC
PUBLIC _sk_colordodge_hsw
_sk_colordodge_hsw LABEL PROC
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
- DB 196,98,125,24,13,73,185,2,0 ; vbroadcastss 0x2b949(%rip),%ymm9 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,13,115,185,2,0 ; vbroadcastss 0x2b973(%rip),%ymm9 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,52,92,215 ; vsubps %ymm7,%ymm9,%ymm10
DB 197,44,89,216 ; vmulps %ymm0,%ymm10,%ymm11
DB 197,52,92,203 ; vsubps %ymm3,%ymm9,%ymm9
@@ -588,7 +586,7 @@ _sk_colordodge_hsw LABEL PROC
PUBLIC _sk_hardlight_hsw
_sk_hardlight_hsw LABEL PROC
- DB 196,98,125,24,5,99,184,2,0 ; vbroadcastss 0x2b863(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,141,184,2,0 ; vbroadcastss 0x2b88d(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,215 ; vsubps %ymm7,%ymm8,%ymm10
DB 197,44,89,216 ; vmulps %ymm0,%ymm10,%ymm11
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
@@ -637,7 +635,7 @@ _sk_hardlight_hsw LABEL PROC
PUBLIC _sk_overlay_hsw
_sk_overlay_hsw LABEL PROC
- DB 196,98,125,24,5,151,183,2,0 ; vbroadcastss 0x2b797(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,193,183,2,0 ; vbroadcastss 0x2b7c1(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,215 ; vsubps %ymm7,%ymm8,%ymm10
DB 197,44,89,216 ; vmulps %ymm0,%ymm10,%ymm11
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
@@ -697,10 +695,10 @@ _sk_softlight_hsw LABEL PROC
DB 196,65,20,88,197 ; vaddps %ymm13,%ymm13,%ymm8
DB 196,65,60,88,192 ; vaddps %ymm8,%ymm8,%ymm8
DB 196,66,61,168,192 ; vfmadd213ps %ymm8,%ymm8,%ymm8
- DB 196,98,125,24,29,174,182,2,0 ; vbroadcastss 0x2b6ae(%rip),%ymm11 # 2c0d4 <_sk_overlay_sse2_8bit+0x487>
+ DB 196,98,125,24,29,216,182,2,0 ; vbroadcastss 0x2b6d8(%rip),%ymm11 # 2c0fc <_sk_overlay_sse2_8bit+0x487>
DB 196,65,20,88,227 ; vaddps %ymm11,%ymm13,%ymm12
DB 196,65,28,89,192 ; vmulps %ymm8,%ymm12,%ymm8
- DB 196,98,125,24,37,159,182,2,0 ; vbroadcastss 0x2b69f(%rip),%ymm12 # 2c0d8 <_sk_overlay_sse2_8bit+0x48b>
+ DB 196,98,125,24,37,201,182,2,0 ; vbroadcastss 0x2b6c9(%rip),%ymm12 # 2c100 <_sk_overlay_sse2_8bit+0x48b>
DB 196,66,21,184,196 ; vfmadd231ps %ymm12,%ymm13,%ymm8
DB 196,65,124,82,245 ; vrsqrtps %ymm13,%ymm14
DB 196,65,124,83,246 ; vrcpps %ymm14,%ymm14
@@ -710,7 +708,7 @@ _sk_softlight_hsw LABEL PROC
DB 197,4,194,255,2 ; vcmpleps %ymm7,%ymm15,%ymm15
DB 196,67,13,74,240,240 ; vblendvps %ymm15,%ymm8,%ymm14,%ymm14
DB 197,116,88,249 ; vaddps %ymm1,%ymm1,%ymm15
- DB 196,98,125,24,5,78,182,2,0 ; vbroadcastss 0x2b64e(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,120,182,2,0 ; vbroadcastss 0x2b678(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,65,60,92,237 ; vsubps %ymm13,%ymm8,%ymm13
DB 197,132,92,195 ; vsubps %ymm3,%ymm15,%ymm0
DB 196,98,125,168,235 ; vfmadd213ps %ymm3,%ymm0,%ymm13
@@ -823,11 +821,11 @@ _sk_hue_hsw LABEL PROC
DB 196,65,28,89,210 ; vmulps %ymm10,%ymm12,%ymm10
DB 196,65,44,94,214 ; vdivps %ymm14,%ymm10,%ymm10
DB 196,67,45,74,224,240 ; vblendvps %ymm15,%ymm8,%ymm10,%ymm12
- DB 196,98,125,24,53,97,180,2,0 ; vbroadcastss 0x2b461(%rip),%ymm14 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
- DB 196,98,125,24,61,92,180,2,0 ; vbroadcastss 0x2b45c(%rip),%ymm15 # 2c0e0 <_sk_overlay_sse2_8bit+0x493>
+ DB 196,98,125,24,53,139,180,2,0 ; vbroadcastss 0x2b48b(%rip),%ymm14 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,61,134,180,2,0 ; vbroadcastss 0x2b486(%rip),%ymm15 # 2c108 <_sk_overlay_sse2_8bit+0x493>
DB 196,65,84,89,239 ; vmulps %ymm15,%ymm5,%ymm13
DB 196,66,93,184,238 ; vfmadd231ps %ymm14,%ymm4,%ymm13
- DB 196,226,125,24,5,77,180,2,0 ; vbroadcastss 0x2b44d(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x497>
+ DB 196,226,125,24,5,119,180,2,0 ; vbroadcastss 0x2b477(%rip),%ymm0 # 2c10c <_sk_overlay_sse2_8bit+0x497>
DB 196,98,77,184,232 ; vfmadd231ps %ymm0,%ymm6,%ymm13
DB 196,65,116,89,215 ; vmulps %ymm15,%ymm1,%ymm10
DB 196,66,53,184,214 ; vfmadd231ps %ymm14,%ymm9,%ymm10
@@ -882,7 +880,7 @@ _sk_hue_hsw LABEL PROC
DB 196,193,124,95,192 ; vmaxps %ymm8,%ymm0,%ymm0
DB 196,65,36,95,200 ; vmaxps %ymm8,%ymm11,%ymm9
DB 196,65,116,95,192 ; vmaxps %ymm8,%ymm1,%ymm8
- DB 196,226,125,24,13,14,179,2,0 ; vbroadcastss 0x2b30e(%rip),%ymm1 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,13,56,179,2,0 ; vbroadcastss 0x2b338(%rip),%ymm1 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,116,92,215 ; vsubps %ymm7,%ymm1,%ymm10
DB 197,172,89,210 ; vmulps %ymm2,%ymm10,%ymm2
DB 197,116,92,219 ; vsubps %ymm3,%ymm1,%ymm11
@@ -936,11 +934,11 @@ _sk_saturation_hsw LABEL PROC
DB 196,65,28,89,210 ; vmulps %ymm10,%ymm12,%ymm10
DB 196,65,44,94,214 ; vdivps %ymm14,%ymm10,%ymm10
DB 196,67,45,74,224,240 ; vblendvps %ymm15,%ymm8,%ymm10,%ymm12
- DB 196,98,125,24,53,59,178,2,0 ; vbroadcastss 0x2b23b(%rip),%ymm14 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
- DB 196,98,125,24,61,54,178,2,0 ; vbroadcastss 0x2b236(%rip),%ymm15 # 2c0e0 <_sk_overlay_sse2_8bit+0x493>
+ DB 196,98,125,24,53,101,178,2,0 ; vbroadcastss 0x2b265(%rip),%ymm14 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,61,96,178,2,0 ; vbroadcastss 0x2b260(%rip),%ymm15 # 2c108 <_sk_overlay_sse2_8bit+0x493>
DB 196,65,84,89,239 ; vmulps %ymm15,%ymm5,%ymm13
DB 196,66,93,184,238 ; vfmadd231ps %ymm14,%ymm4,%ymm13
- DB 196,226,125,24,5,39,178,2,0 ; vbroadcastss 0x2b227(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x497>
+ DB 196,226,125,24,5,81,178,2,0 ; vbroadcastss 0x2b251(%rip),%ymm0 # 2c10c <_sk_overlay_sse2_8bit+0x497>
DB 196,98,77,184,232 ; vfmadd231ps %ymm0,%ymm6,%ymm13
DB 196,65,116,89,215 ; vmulps %ymm15,%ymm1,%ymm10
DB 196,66,53,184,214 ; vfmadd231ps %ymm14,%ymm9,%ymm10
@@ -995,7 +993,7 @@ _sk_saturation_hsw LABEL PROC
DB 196,193,124,95,192 ; vmaxps %ymm8,%ymm0,%ymm0
DB 196,65,36,95,200 ; vmaxps %ymm8,%ymm11,%ymm9
DB 196,65,116,95,192 ; vmaxps %ymm8,%ymm1,%ymm8
- DB 196,226,125,24,13,232,176,2,0 ; vbroadcastss 0x2b0e8(%rip),%ymm1 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,13,18,177,2,0 ; vbroadcastss 0x2b112(%rip),%ymm1 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,116,92,215 ; vsubps %ymm7,%ymm1,%ymm10
DB 197,172,89,210 ; vmulps %ymm2,%ymm10,%ymm2
DB 197,116,92,219 ; vsubps %ymm3,%ymm1,%ymm11
@@ -1023,11 +1021,11 @@ _sk_color_hsw LABEL PROC
DB 197,108,89,199 ; vmulps %ymm7,%ymm2,%ymm8
DB 197,116,89,215 ; vmulps %ymm7,%ymm1,%ymm10
DB 197,52,89,223 ; vmulps %ymm7,%ymm9,%ymm11
- DB 196,98,125,24,45,151,176,2,0 ; vbroadcastss 0x2b097(%rip),%ymm13 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
- DB 196,98,125,24,53,146,176,2,0 ; vbroadcastss 0x2b092(%rip),%ymm14 # 2c0e0 <_sk_overlay_sse2_8bit+0x493>
+ DB 196,98,125,24,45,193,176,2,0 ; vbroadcastss 0x2b0c1(%rip),%ymm13 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,53,188,176,2,0 ; vbroadcastss 0x2b0bc(%rip),%ymm14 # 2c108 <_sk_overlay_sse2_8bit+0x493>
DB 196,65,84,89,230 ; vmulps %ymm14,%ymm5,%ymm12
DB 196,66,93,184,229 ; vfmadd231ps %ymm13,%ymm4,%ymm12
- DB 196,98,125,24,61,131,176,2,0 ; vbroadcastss 0x2b083(%rip),%ymm15 # 2c0e4 <_sk_overlay_sse2_8bit+0x497>
+ DB 196,98,125,24,61,173,176,2,0 ; vbroadcastss 0x2b0ad(%rip),%ymm15 # 2c10c <_sk_overlay_sse2_8bit+0x497>
DB 196,66,77,184,231 ; vfmadd231ps %ymm15,%ymm6,%ymm12
DB 196,65,44,89,206 ; vmulps %ymm14,%ymm10,%ymm9
DB 196,66,61,184,205 ; vfmadd231ps %ymm13,%ymm8,%ymm9
@@ -1083,7 +1081,7 @@ _sk_color_hsw LABEL PROC
DB 196,193,116,95,206 ; vmaxps %ymm14,%ymm1,%ymm1
DB 196,65,44,95,198 ; vmaxps %ymm14,%ymm10,%ymm8
DB 196,65,124,95,206 ; vmaxps %ymm14,%ymm0,%ymm9
- DB 196,226,125,24,5,57,175,2,0 ; vbroadcastss 0x2af39(%rip),%ymm0 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,5,99,175,2,0 ; vbroadcastss 0x2af63(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,124,92,215 ; vsubps %ymm7,%ymm0,%ymm10
DB 197,172,89,210 ; vmulps %ymm2,%ymm10,%ymm2
DB 197,124,92,219 ; vsubps %ymm3,%ymm0,%ymm11
@@ -1111,11 +1109,11 @@ _sk_luminosity_hsw LABEL PROC
DB 197,100,89,196 ; vmulps %ymm4,%ymm3,%ymm8
DB 197,100,89,213 ; vmulps %ymm5,%ymm3,%ymm10
DB 197,100,89,222 ; vmulps %ymm6,%ymm3,%ymm11
- DB 196,98,125,24,45,232,174,2,0 ; vbroadcastss 0x2aee8(%rip),%ymm13 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
- DB 196,98,125,24,53,227,174,2,0 ; vbroadcastss 0x2aee3(%rip),%ymm14 # 2c0e0 <_sk_overlay_sse2_8bit+0x493>
+ DB 196,98,125,24,45,18,175,2,0 ; vbroadcastss 0x2af12(%rip),%ymm13 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,53,13,175,2,0 ; vbroadcastss 0x2af0d(%rip),%ymm14 # 2c108 <_sk_overlay_sse2_8bit+0x493>
DB 196,65,116,89,230 ; vmulps %ymm14,%ymm1,%ymm12
DB 196,66,109,184,229 ; vfmadd231ps %ymm13,%ymm2,%ymm12
- DB 196,98,125,24,61,212,174,2,0 ; vbroadcastss 0x2aed4(%rip),%ymm15 # 2c0e4 <_sk_overlay_sse2_8bit+0x497>
+ DB 196,98,125,24,61,254,174,2,0 ; vbroadcastss 0x2aefe(%rip),%ymm15 # 2c10c <_sk_overlay_sse2_8bit+0x497>
DB 196,66,53,184,231 ; vfmadd231ps %ymm15,%ymm9,%ymm12
DB 196,65,44,89,206 ; vmulps %ymm14,%ymm10,%ymm9
DB 196,66,61,184,205 ; vfmadd231ps %ymm13,%ymm8,%ymm9
@@ -1171,7 +1169,7 @@ _sk_luminosity_hsw LABEL PROC
DB 196,193,116,95,206 ; vmaxps %ymm14,%ymm1,%ymm1
DB 196,65,44,95,198 ; vmaxps %ymm14,%ymm10,%ymm8
DB 196,65,124,95,206 ; vmaxps %ymm14,%ymm0,%ymm9
- DB 196,226,125,24,5,138,173,2,0 ; vbroadcastss 0x2ad8a(%rip),%ymm0 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,5,180,173,2,0 ; vbroadcastss 0x2adb4(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,124,92,215 ; vsubps %ymm7,%ymm0,%ymm10
DB 197,172,89,210 ; vmulps %ymm2,%ymm10,%ymm2
DB 197,124,92,219 ; vsubps %ymm3,%ymm0,%ymm11
@@ -1191,28 +1189,27 @@ _sk_luminosity_hsw LABEL PROC
PUBLIC _sk_srcover_rgba_8888_hsw
_sk_srcover_rgba_8888_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,180,0,0,0 ; jne 144c <_sk_srcover_rgba_8888_hsw+0xd5>
- DB 196,193,126,111,60,153 ; vmovdqu (%r9,%rbx,4),%ymm7
- DB 197,197,219,37,186,174,2,0 ; vpand 0x2aeba(%rip),%ymm7,%ymm4 # 2c260 <_sk_overlay_sse2_8bit+0x613>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,179,0,0,0 ; jne 1448 <_sk_srcover_rgba_8888_hsw+0xd3>
+ DB 196,129,126,111,60,152 ; vmovdqu (%r8,%r11,4),%ymm7
+ DB 197,197,219,37,29,175,2,0 ; vpand 0x2af1d(%rip),%ymm7,%ymm4 # 2c2c0 <_sk_overlay_sse2_8bit+0x64b>
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,226,69,0,45,205,174,2,0 ; vpshufb 0x2aecd(%rip),%ymm7,%ymm5 # 2c280 <_sk_overlay_sse2_8bit+0x633>
+ DB 196,226,69,0,45,48,175,2,0 ; vpshufb 0x2af30(%rip),%ymm7,%ymm5 # 2c2e0 <_sk_overlay_sse2_8bit+0x66b>
DB 197,252,91,237 ; vcvtdq2ps %ymm5,%ymm5
- DB 196,226,69,0,53,224,174,2,0 ; vpshufb 0x2aee0(%rip),%ymm7,%ymm6 # 2c2a0 <_sk_overlay_sse2_8bit+0x653>
+ DB 196,226,69,0,53,67,175,2,0 ; vpshufb 0x2af43(%rip),%ymm7,%ymm6 # 2c300 <_sk_overlay_sse2_8bit+0x68b>
DB 197,252,91,246 ; vcvtdq2ps %ymm6,%ymm6
DB 197,197,114,215,24 ; vpsrld $0x18,%ymm7,%ymm7
DB 197,252,91,255 ; vcvtdq2ps %ymm7,%ymm7
- DB 196,98,125,24,5,230,172,2,0 ; vbroadcastss 0x2ace6(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,17,173,2,0 ; vbroadcastss 0x2ad11(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
- DB 196,98,125,24,13,5,173,2,0 ; vbroadcastss 0x2ad05(%rip),%ymm9 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 196,98,125,24,13,48,173,2,0 ; vbroadcastss 0x2ad30(%rip),%ymm9 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,193,124,89,193 ; vmulps %ymm9,%ymm0,%ymm0
DB 196,194,93,184,192 ; vfmadd231ps %ymm8,%ymm4,%ymm0
DB 196,193,116,89,201 ; vmulps %ymm9,%ymm1,%ymm1
@@ -1231,68 +1228,67 @@ _sk_srcover_rgba_8888_hsw LABEL PROC
DB 196,193,45,114,242,24 ; vpslld $0x18,%ymm10,%ymm10
DB 196,65,53,235,202 ; vpor %ymm10,%ymm9,%ymm9
DB 196,65,61,235,193 ; vpor %ymm9,%ymm8,%ymm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,66 ; jne 1483 <_sk_srcover_rgba_8888_hsw+0x10c>
- DB 196,65,126,127,4,153 ; vmovdqu %ymm8,(%r9,%rbx,4)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,65 ; jne 147f <_sk_srcover_rgba_8888_hsw+0x10a>
+ DB 196,1,126,127,4,152 ; vmovdqu %ymm8,(%r8,%r11,4)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,197,239,255 ; vpxor %ymm7,%ymm7,%ymm7
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,58,255,255,255 ; ja 139e <_sk_srcover_rgba_8888_hsw+0x27>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,253,0,0,0 ; lea 0xfd(%rip),%r11 # 156c <_sk_srcover_rgba_8888_hsw+0x1f5>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,193,121,110,60,153 ; vmovd (%r9,%rbx,4),%xmm7
- DB 233,27,255,255,255 ; jmpq 139e <_sk_srcover_rgba_8888_hsw+0x27>
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,180 ; ja 1447 <_sk_srcover_rgba_8888_hsw+0xd0>
- DB 65,15,182,194 ; movzbl %r10b,%eax
- DB 76,141,21,234,0,0,0 ; lea 0xea(%rip),%r10 # 1588 <_sk_srcover_rgba_8888_hsw+0x211>
- DB 73,99,4,130 ; movslq (%r10,%rax,4),%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,59,255,255,255 ; ja 139b <_sk_srcover_rgba_8888_hsw+0x26>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,253,0,0,0 ; lea 0xfd(%rip),%r10 # 1568 <_sk_srcover_rgba_8888_hsw+0x1f3>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 196,65,121,126,4,153 ; vmovd %xmm8,(%r9,%rbx,4)
- DB 235,152 ; jmp 1447 <_sk_srcover_rgba_8888_hsw+0xd0>
- DB 196,193,121,110,100,153,8 ; vmovd 0x8(%r9,%rbx,4),%xmm4
+ DB 196,129,121,110,60,152 ; vmovd (%r8,%r11,4),%xmm7
+ DB 233,28,255,255,255 ; jmpq 139b <_sk_srcover_rgba_8888_hsw+0x26>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,181 ; ja 1444 <_sk_srcover_rgba_8888_hsw+0xcf>
+ DB 65,15,182,193 ; movzbl %r9b,%eax
+ DB 76,141,13,234,0,0,0 ; lea 0xea(%rip),%r9 # 1584 <_sk_srcover_rgba_8888_hsw+0x20f>
+ DB 73,99,4,129 ; movslq (%r9,%rax,4),%rax
+ DB 76,1,200 ; add %r9,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,1,121,126,4,152 ; vmovd %xmm8,(%r8,%r11,4)
+ DB 235,153 ; jmp 1444 <_sk_srcover_rgba_8888_hsw+0xcf>
+ DB 196,129,121,110,100,152,8 ; vmovd 0x8(%r8,%r11,4),%xmm4
DB 196,226,121,89,228 ; vpbroadcastq %xmm4,%xmm4
DB 197,213,239,237 ; vpxor %ymm5,%ymm5,%ymm5
DB 196,227,85,2,252,4 ; vpblendd $0x4,%ymm4,%ymm5,%ymm7
- DB 196,193,122,126,36,153 ; vmovq (%r9,%rbx,4),%xmm4
+ DB 196,129,122,126,36,152 ; vmovq (%r8,%r11,4),%xmm4
DB 196,227,69,2,252,3 ; vpblendd $0x3,%ymm4,%ymm7,%ymm7
- DB 233,200,254,255,255 ; jmpq 139e <_sk_srcover_rgba_8888_hsw+0x27>
- DB 196,193,121,110,100,153,24 ; vmovd 0x18(%r9,%rbx,4),%xmm4
+ DB 233,201,254,255,255 ; jmpq 139b <_sk_srcover_rgba_8888_hsw+0x26>
+ DB 196,129,121,110,100,152,24 ; vmovd 0x18(%r8,%r11,4),%xmm4
DB 196,226,125,89,228 ; vpbroadcastq %xmm4,%ymm4
DB 197,213,239,237 ; vpxor %ymm5,%ymm5,%ymm5
DB 196,227,85,2,252,64 ; vpblendd $0x40,%ymm4,%ymm5,%ymm7
DB 196,227,125,57,252,1 ; vextracti128 $0x1,%ymm7,%xmm4
- DB 196,195,89,34,100,153,20,1 ; vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,20,1 ; vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
DB 196,227,69,56,252,1 ; vinserti128 $0x1,%xmm4,%ymm7,%ymm7
DB 196,227,125,57,252,1 ; vextracti128 $0x1,%ymm7,%xmm4
- DB 196,195,89,34,100,153,16,0 ; vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,16,0 ; vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
DB 196,227,69,56,252,1 ; vinserti128 $0x1,%xmm4,%ymm7,%ymm7
- DB 196,193,122,111,36,153 ; vmovdqu (%r9,%rbx,4),%xmm4
+ DB 196,129,122,111,36,152 ; vmovdqu (%r8,%r11,4),%xmm4
DB 196,227,93,2,255,240 ; vpblendd $0xf0,%ymm7,%ymm4,%ymm7
- DB 233,121,254,255,255 ; jmpq 139e <_sk_srcover_rgba_8888_hsw+0x27>
- DB 196,67,121,22,68,153,8,2 ; vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- DB 196,65,121,214,4,153 ; vmovq %xmm8,(%r9,%rbx,4)
- DB 233,15,255,255,255 ; jmpq 1447 <_sk_srcover_rgba_8888_hsw+0xd0>
+ DB 233,122,254,255,255 ; jmpq 139b <_sk_srcover_rgba_8888_hsw+0x26>
+ DB 196,3,121,22,68,152,8,2 ; vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ DB 196,1,121,214,4,152 ; vmovq %xmm8,(%r8,%r11,4)
+ DB 233,16,255,255,255 ; jmpq 1444 <_sk_srcover_rgba_8888_hsw+0xcf>
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,24,2 ; vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,24,2 ; vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,20,1 ; vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,20,1 ; vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
- DB 196,65,121,126,76,153,16 ; vmovd %xmm9,0x10(%r9,%rbx,4)
- DB 196,65,122,127,4,153 ; vmovdqu %xmm8,(%r9,%rbx,4)
- DB 233,219,254,255,255 ; jmpq 1447 <_sk_srcover_rgba_8888_hsw+0xd0>
+ DB 196,1,121,126,76,152,16 ; vmovd %xmm9,0x10(%r8,%r11,4)
+ DB 196,1,122,127,4,152 ; vmovdqu %xmm8,(%r8,%r11,4)
+ DB 233,220,254,255,255 ; jmpq 1444 <_sk_srcover_rgba_8888_hsw+0xcf>
DB 12,255 ; or $0xff,%al
DB 255 ; (bad)
DB 255,89,255 ; lcall *-0x1(%rcx)
@@ -1335,7 +1331,7 @@ _sk_clamp_0_hsw LABEL PROC
PUBLIC _sk_clamp_1_hsw
_sk_clamp_1_hsw LABEL PROC
- DB 196,98,125,24,5,242,170,2,0 ; vbroadcastss 0x2aaf2(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,30,171,2,0 ; vbroadcastss 0x2ab1e(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,124,93,192 ; vminps %ymm8,%ymm0,%ymm0
DB 196,193,116,93,200 ; vminps %ymm8,%ymm1,%ymm1
DB 196,193,108,93,208 ; vminps %ymm8,%ymm2,%ymm2
@@ -1345,7 +1341,7 @@ _sk_clamp_1_hsw LABEL PROC
PUBLIC _sk_clamp_a_hsw
_sk_clamp_a_hsw LABEL PROC
- DB 196,98,125,24,5,209,170,2,0 ; vbroadcastss 0x2aad1(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,253,170,2,0 ; vbroadcastss 0x2aafd(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,100,93,216 ; vminps %ymm8,%ymm3,%ymm3
DB 197,252,93,195 ; vminps %ymm3,%ymm0,%ymm0
DB 197,244,93,203 ; vminps %ymm3,%ymm1,%ymm1
@@ -1355,7 +1351,7 @@ _sk_clamp_a_hsw LABEL PROC
PUBLIC _sk_clamp_a_dst_hsw
_sk_clamp_a_dst_hsw LABEL PROC
- DB 196,98,125,24,5,179,170,2,0 ; vbroadcastss 0x2aab3(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,223,170,2,0 ; vbroadcastss 0x2aadf(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,68,93,248 ; vminps %ymm8,%ymm7,%ymm7
DB 197,220,93,231 ; vminps %ymm7,%ymm4,%ymm4
DB 197,212,93,239 ; vminps %ymm7,%ymm5,%ymm5
@@ -1382,7 +1378,7 @@ _sk_swap_rb_hsw LABEL PROC
PUBLIC _sk_invert_hsw
_sk_invert_hsw LABEL PROC
- DB 196,98,125,24,5,110,170,2,0 ; vbroadcastss 0x2aa6e(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,154,170,2,0 ; vbroadcastss 0x2aa9a(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,188,92,192 ; vsubps %ymm0,%ymm8,%ymm0
DB 197,188,92,201 ; vsubps %ymm1,%ymm8,%ymm1
DB 197,188,92,210 ; vsubps %ymm2,%ymm8,%ymm2
@@ -1428,7 +1424,7 @@ PUBLIC _sk_unpremul_hsw
_sk_unpremul_hsw LABEL PROC
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 196,65,100,194,200,0 ; vcmpeqps %ymm8,%ymm3,%ymm9
- DB 196,98,125,24,21,254,169,2,0 ; vbroadcastss 0x2a9fe(%rip),%ymm10 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,21,42,170,2,0 ; vbroadcastss 0x2aa2a(%rip),%ymm10 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,44,94,211 ; vdivps %ymm3,%ymm10,%ymm10
DB 196,67,45,74,192,144 ; vblendvps %ymm9,%ymm8,%ymm10,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
@@ -1439,16 +1435,16 @@ _sk_unpremul_hsw LABEL PROC
PUBLIC _sk_from_srgb_hsw
_sk_from_srgb_hsw LABEL PROC
- DB 196,98,125,24,5,11,170,2,0 ; vbroadcastss 0x2aa0b(%rip),%ymm8 # 2c0ec <_sk_overlay_sse2_8bit+0x49f>
+ DB 196,98,125,24,5,55,170,2,0 ; vbroadcastss 0x2aa37(%rip),%ymm8 # 2c114 <_sk_overlay_sse2_8bit+0x49f>
DB 196,65,124,89,200 ; vmulps %ymm8,%ymm0,%ymm9
DB 197,124,89,208 ; vmulps %ymm0,%ymm0,%ymm10
- DB 196,98,125,24,29,253,169,2,0 ; vbroadcastss 0x2a9fd(%rip),%ymm11 # 2c0f0 <_sk_overlay_sse2_8bit+0x4a3>
- DB 196,98,125,24,37,224,169,2,0 ; vbroadcastss 0x2a9e0(%rip),%ymm12 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,29,41,170,2,0 ; vbroadcastss 0x2aa29(%rip),%ymm11 # 2c118 <_sk_overlay_sse2_8bit+0x4a3>
+ DB 196,98,125,24,37,12,170,2,0 ; vbroadcastss 0x2aa0c(%rip),%ymm12 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
DB 196,65,124,40,236 ; vmovaps %ymm12,%ymm13
DB 196,66,125,168,235 ; vfmadd213ps %ymm11,%ymm0,%ymm13
- DB 196,98,125,24,53,229,169,2,0 ; vbroadcastss 0x2a9e5(%rip),%ymm14 # 2c0f4 <_sk_overlay_sse2_8bit+0x4a7>
+ DB 196,98,125,24,53,17,170,2,0 ; vbroadcastss 0x2aa11(%rip),%ymm14 # 2c11c <_sk_overlay_sse2_8bit+0x4a7>
DB 196,66,45,168,238 ; vfmadd213ps %ymm14,%ymm10,%ymm13
- DB 196,98,125,24,21,219,169,2,0 ; vbroadcastss 0x2a9db(%rip),%ymm10 # 2c0f8 <_sk_overlay_sse2_8bit+0x4ab>
+ DB 196,98,125,24,21,7,170,2,0 ; vbroadcastss 0x2aa07(%rip),%ymm10 # 2c120 <_sk_overlay_sse2_8bit+0x4ab>
DB 196,193,124,194,194,1 ; vcmpltps %ymm10,%ymm0,%ymm0
DB 196,195,21,74,193,0 ; vblendvps %ymm0,%ymm9,%ymm13,%ymm0
DB 196,65,116,89,200 ; vmulps %ymm8,%ymm1,%ymm9
@@ -1469,16 +1465,16 @@ _sk_from_srgb_hsw LABEL PROC
PUBLIC _sk_from_srgb_dst_hsw
_sk_from_srgb_dst_hsw LABEL PROC
- DB 196,98,125,24,5,115,169,2,0 ; vbroadcastss 0x2a973(%rip),%ymm8 # 2c0ec <_sk_overlay_sse2_8bit+0x49f>
+ DB 196,98,125,24,5,159,169,2,0 ; vbroadcastss 0x2a99f(%rip),%ymm8 # 2c114 <_sk_overlay_sse2_8bit+0x49f>
DB 196,65,92,89,200 ; vmulps %ymm8,%ymm4,%ymm9
DB 197,92,89,212 ; vmulps %ymm4,%ymm4,%ymm10
- DB 196,98,125,24,29,101,169,2,0 ; vbroadcastss 0x2a965(%rip),%ymm11 # 2c0f0 <_sk_overlay_sse2_8bit+0x4a3>
- DB 196,98,125,24,37,72,169,2,0 ; vbroadcastss 0x2a948(%rip),%ymm12 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,29,145,169,2,0 ; vbroadcastss 0x2a991(%rip),%ymm11 # 2c118 <_sk_overlay_sse2_8bit+0x4a3>
+ DB 196,98,125,24,37,116,169,2,0 ; vbroadcastss 0x2a974(%rip),%ymm12 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
DB 196,65,124,40,236 ; vmovaps %ymm12,%ymm13
DB 196,66,93,168,235 ; vfmadd213ps %ymm11,%ymm4,%ymm13
- DB 196,98,125,24,53,77,169,2,0 ; vbroadcastss 0x2a94d(%rip),%ymm14 # 2c0f4 <_sk_overlay_sse2_8bit+0x4a7>
+ DB 196,98,125,24,53,121,169,2,0 ; vbroadcastss 0x2a979(%rip),%ymm14 # 2c11c <_sk_overlay_sse2_8bit+0x4a7>
DB 196,66,45,168,238 ; vfmadd213ps %ymm14,%ymm10,%ymm13
- DB 196,98,125,24,21,67,169,2,0 ; vbroadcastss 0x2a943(%rip),%ymm10 # 2c0f8 <_sk_overlay_sse2_8bit+0x4ab>
+ DB 196,98,125,24,21,111,169,2,0 ; vbroadcastss 0x2a96f(%rip),%ymm10 # 2c120 <_sk_overlay_sse2_8bit+0x4ab>
DB 196,193,92,194,226,1 ; vcmpltps %ymm10,%ymm4,%ymm4
DB 196,195,21,74,225,64 ; vblendvps %ymm4,%ymm9,%ymm13,%ymm4
DB 196,65,84,89,200 ; vmulps %ymm8,%ymm5,%ymm9
@@ -1500,19 +1496,19 @@ _sk_from_srgb_dst_hsw LABEL PROC
PUBLIC _sk_to_srgb_hsw
_sk_to_srgb_hsw LABEL PROC
DB 197,124,82,200 ; vrsqrtps %ymm0,%ymm9
- DB 196,98,125,24,5,231,168,2,0 ; vbroadcastss 0x2a8e7(%rip),%ymm8 # 2c0fc <_sk_overlay_sse2_8bit+0x4af>
+ DB 196,98,125,24,5,19,169,2,0 ; vbroadcastss 0x2a913(%rip),%ymm8 # 2c124 <_sk_overlay_sse2_8bit+0x4af>
DB 196,65,124,89,208 ; vmulps %ymm8,%ymm0,%ymm10
- DB 196,98,125,24,29,221,168,2,0 ; vbroadcastss 0x2a8dd(%rip),%ymm11 # 2c100 <_sk_overlay_sse2_8bit+0x4b3>
- DB 196,98,125,24,37,216,168,2,0 ; vbroadcastss 0x2a8d8(%rip),%ymm12 # 2c104 <_sk_overlay_sse2_8bit+0x4b7>
+ DB 196,98,125,24,29,9,169,2,0 ; vbroadcastss 0x2a909(%rip),%ymm11 # 2c128 <_sk_overlay_sse2_8bit+0x4b3>
+ DB 196,98,125,24,37,4,169,2,0 ; vbroadcastss 0x2a904(%rip),%ymm12 # 2c12c <_sk_overlay_sse2_8bit+0x4b7>
DB 196,65,124,40,236 ; vmovaps %ymm12,%ymm13
DB 196,66,53,168,235 ; vfmadd213ps %ymm11,%ymm9,%ymm13
- DB 196,98,125,24,53,201,168,2,0 ; vbroadcastss 0x2a8c9(%rip),%ymm14 # 2c108 <_sk_overlay_sse2_8bit+0x4bb>
+ DB 196,98,125,24,53,245,168,2,0 ; vbroadcastss 0x2a8f5(%rip),%ymm14 # 2c130 <_sk_overlay_sse2_8bit+0x4bb>
DB 196,66,53,168,238 ; vfmadd213ps %ymm14,%ymm9,%ymm13
- DB 196,98,125,24,61,191,168,2,0 ; vbroadcastss 0x2a8bf(%rip),%ymm15 # 2c10c <_sk_overlay_sse2_8bit+0x4bf>
+ DB 196,98,125,24,61,235,168,2,0 ; vbroadcastss 0x2a8eb(%rip),%ymm15 # 2c134 <_sk_overlay_sse2_8bit+0x4bf>
DB 196,65,52,88,207 ; vaddps %ymm15,%ymm9,%ymm9
DB 196,65,124,83,201 ; vrcpps %ymm9,%ymm9
DB 196,65,20,89,201 ; vmulps %ymm9,%ymm13,%ymm9
- DB 196,98,125,24,45,171,168,2,0 ; vbroadcastss 0x2a8ab(%rip),%ymm13 # 2c110 <_sk_overlay_sse2_8bit+0x4c3>
+ DB 196,98,125,24,45,215,168,2,0 ; vbroadcastss 0x2a8d7(%rip),%ymm13 # 2c138 <_sk_overlay_sse2_8bit+0x4c3>
DB 196,193,124,194,197,1 ; vcmpltps %ymm13,%ymm0,%ymm0
DB 196,195,53,74,194,0 ; vblendvps %ymm0,%ymm10,%ymm9,%ymm0
DB 197,124,82,201 ; vrsqrtps %ymm1,%ymm9
@@ -1544,26 +1540,26 @@ _sk_rgb_to_hsl_hsw LABEL PROC
DB 197,116,93,202 ; vminps %ymm2,%ymm1,%ymm9
DB 196,65,124,93,201 ; vminps %ymm9,%ymm0,%ymm9
DB 196,65,60,92,209 ; vsubps %ymm9,%ymm8,%ymm10
- DB 196,98,125,24,29,198,167,2,0 ; vbroadcastss 0x2a7c6(%rip),%ymm11 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,29,242,167,2,0 ; vbroadcastss 0x2a7f2(%rip),%ymm11 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,65,36,94,218 ; vdivps %ymm10,%ymm11,%ymm11
DB 197,116,92,226 ; vsubps %ymm2,%ymm1,%ymm12
DB 197,116,194,234,1 ; vcmpltps %ymm2,%ymm1,%ymm13
- DB 196,98,125,24,53,7,168,2,0 ; vbroadcastss 0x2a807(%rip),%ymm14 # 2c114 <_sk_overlay_sse2_8bit+0x4c7>
+ DB 196,98,125,24,53,51,168,2,0 ; vbroadcastss 0x2a833(%rip),%ymm14 # 2c13c <_sk_overlay_sse2_8bit+0x4c7>
DB 196,65,4,87,255 ; vxorps %ymm15,%ymm15,%ymm15
DB 196,67,5,74,238,208 ; vblendvps %ymm13,%ymm14,%ymm15,%ymm13
DB 196,66,37,168,229 ; vfmadd213ps %ymm13,%ymm11,%ymm12
DB 197,236,92,208 ; vsubps %ymm0,%ymm2,%ymm2
DB 197,124,92,233 ; vsubps %ymm1,%ymm0,%ymm13
- DB 196,98,125,24,53,238,167,2,0 ; vbroadcastss 0x2a7ee(%rip),%ymm14 # 2c11c <_sk_overlay_sse2_8bit+0x4cf>
+ DB 196,98,125,24,53,26,168,2,0 ; vbroadcastss 0x2a81a(%rip),%ymm14 # 2c144 <_sk_overlay_sse2_8bit+0x4cf>
DB 196,66,37,168,238 ; vfmadd213ps %ymm14,%ymm11,%ymm13
- DB 196,98,125,24,53,220,167,2,0 ; vbroadcastss 0x2a7dc(%rip),%ymm14 # 2c118 <_sk_overlay_sse2_8bit+0x4cb>
+ DB 196,98,125,24,53,8,168,2,0 ; vbroadcastss 0x2a808(%rip),%ymm14 # 2c140 <_sk_overlay_sse2_8bit+0x4cb>
DB 196,194,37,168,214 ; vfmadd213ps %ymm14,%ymm11,%ymm2
DB 197,188,194,201,0 ; vcmpeqps %ymm1,%ymm8,%ymm1
DB 196,227,21,74,202,16 ; vblendvps %ymm1,%ymm2,%ymm13,%ymm1
DB 197,188,194,192,0 ; vcmpeqps %ymm0,%ymm8,%ymm0
DB 196,195,117,74,196,0 ; vblendvps %ymm0,%ymm12,%ymm1,%ymm0
DB 196,193,60,88,201 ; vaddps %ymm9,%ymm8,%ymm1
- DB 196,98,125,24,29,83,167,2,0 ; vbroadcastss 0x2a753(%rip),%ymm11 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,29,127,167,2,0 ; vbroadcastss 0x2a77f(%rip),%ymm11 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,193,116,89,211 ; vmulps %ymm11,%ymm1,%ymm2
DB 197,36,194,218,1 ; vcmpltps %ymm2,%ymm11,%ymm11
DB 196,65,12,92,224 ; vsubps %ymm8,%ymm14,%ymm12
@@ -1573,7 +1569,7 @@ _sk_rgb_to_hsl_hsw LABEL PROC
DB 197,172,94,201 ; vdivps %ymm1,%ymm10,%ymm1
DB 196,195,125,74,199,128 ; vblendvps %ymm8,%ymm15,%ymm0,%ymm0
DB 196,195,117,74,207,128 ; vblendvps %ymm8,%ymm15,%ymm1,%ymm1
- DB 196,98,125,24,5,130,167,2,0 ; vbroadcastss 0x2a782(%rip),%ymm8 # 2c120 <_sk_overlay_sse2_8bit+0x4d3>
+ DB 196,98,125,24,5,174,167,2,0 ; vbroadcastss 0x2a7ae(%rip),%ymm8 # 2c148 <_sk_overlay_sse2_8bit+0x4d3>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -1588,30 +1584,30 @@ _sk_hsl_to_rgb_hsw LABEL PROC
DB 197,252,17,28,36 ; vmovups %ymm3,(%rsp)
DB 197,252,40,233 ; vmovaps %ymm1,%ymm5
DB 197,252,40,224 ; vmovaps %ymm0,%ymm4
- DB 196,98,125,24,5,217,166,2,0 ; vbroadcastss 0x2a6d9(%rip),%ymm8 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,5,5,167,2,0 ; vbroadcastss 0x2a705(%rip),%ymm8 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,60,194,202,2 ; vcmpleps %ymm2,%ymm8,%ymm9
DB 197,84,89,210 ; vmulps %ymm2,%ymm5,%ymm10
DB 196,65,84,92,218 ; vsubps %ymm10,%ymm5,%ymm11
DB 196,67,45,74,203,144 ; vblendvps %ymm9,%ymm11,%ymm10,%ymm9
DB 197,52,88,210 ; vaddps %ymm2,%ymm9,%ymm10
- DB 196,98,125,24,13,24,167,2,0 ; vbroadcastss 0x2a718(%rip),%ymm9 # 2c118 <_sk_overlay_sse2_8bit+0x4cb>
+ DB 196,98,125,24,13,68,167,2,0 ; vbroadcastss 0x2a744(%rip),%ymm9 # 2c140 <_sk_overlay_sse2_8bit+0x4cb>
DB 196,66,109,170,202 ; vfmsub213ps %ymm10,%ymm2,%ymm9
- DB 196,98,125,24,29,22,167,2,0 ; vbroadcastss 0x2a716(%rip),%ymm11 # 2c124 <_sk_overlay_sse2_8bit+0x4d7>
+ DB 196,98,125,24,29,66,167,2,0 ; vbroadcastss 0x2a742(%rip),%ymm11 # 2c14c <_sk_overlay_sse2_8bit+0x4d7>
DB 196,65,92,88,219 ; vaddps %ymm11,%ymm4,%ymm11
DB 196,67,125,8,227,1 ; vroundps $0x1,%ymm11,%ymm12
DB 196,65,36,92,252 ; vsubps %ymm12,%ymm11,%ymm15
DB 196,65,44,92,217 ; vsubps %ymm9,%ymm10,%ymm11
- DB 196,98,125,24,45,232,166,2,0 ; vbroadcastss 0x2a6e8(%rip),%ymm13 # 2c114 <_sk_overlay_sse2_8bit+0x4c7>
+ DB 196,98,125,24,45,20,167,2,0 ; vbroadcastss 0x2a714(%rip),%ymm13 # 2c13c <_sk_overlay_sse2_8bit+0x4c7>
DB 196,193,4,89,197 ; vmulps %ymm13,%ymm15,%ymm0
- DB 196,98,125,24,53,226,166,2,0 ; vbroadcastss 0x2a6e2(%rip),%ymm14 # 2c11c <_sk_overlay_sse2_8bit+0x4cf>
+ DB 196,98,125,24,53,14,167,2,0 ; vbroadcastss 0x2a70e(%rip),%ymm14 # 2c144 <_sk_overlay_sse2_8bit+0x4cf>
DB 197,12,92,224 ; vsubps %ymm0,%ymm14,%ymm12
DB 196,66,37,168,225 ; vfmadd213ps %ymm9,%ymm11,%ymm12
- DB 196,226,125,24,29,220,166,2,0 ; vbroadcastss 0x2a6dc(%rip),%ymm3 # 2c128 <_sk_overlay_sse2_8bit+0x4db>
+ DB 196,226,125,24,29,8,167,2,0 ; vbroadcastss 0x2a708(%rip),%ymm3 # 2c150 <_sk_overlay_sse2_8bit+0x4db>
DB 196,193,100,194,255,2 ; vcmpleps %ymm15,%ymm3,%ymm7
DB 196,195,29,74,249,112 ; vblendvps %ymm7,%ymm9,%ymm12,%ymm7
DB 196,65,60,194,231,2 ; vcmpleps %ymm15,%ymm8,%ymm12
DB 196,227,45,74,255,192 ; vblendvps %ymm12,%ymm7,%ymm10,%ymm7
- DB 196,98,125,24,37,179,166,2,0 ; vbroadcastss 0x2a6b3(%rip),%ymm12 # 2c120 <_sk_overlay_sse2_8bit+0x4d3>
+ DB 196,98,125,24,37,223,166,2,0 ; vbroadcastss 0x2a6df(%rip),%ymm12 # 2c148 <_sk_overlay_sse2_8bit+0x4d3>
DB 196,65,28,194,255,2 ; vcmpleps %ymm15,%ymm12,%ymm15
DB 196,194,37,168,193 ; vfmadd213ps %ymm9,%ymm11,%ymm0
DB 196,99,125,74,255,240 ; vblendvps %ymm15,%ymm7,%ymm0,%ymm15
@@ -1627,7 +1623,7 @@ _sk_hsl_to_rgb_hsw LABEL PROC
DB 197,156,194,192,2 ; vcmpleps %ymm0,%ymm12,%ymm0
DB 196,194,37,168,249 ; vfmadd213ps %ymm9,%ymm11,%ymm7
DB 196,227,69,74,201,0 ; vblendvps %ymm0,%ymm1,%ymm7,%ymm1
- DB 196,226,125,24,5,103,166,2,0 ; vbroadcastss 0x2a667(%rip),%ymm0 # 2c12c <_sk_overlay_sse2_8bit+0x4df>
+ DB 196,226,125,24,5,147,166,2,0 ; vbroadcastss 0x2a693(%rip),%ymm0 # 2c154 <_sk_overlay_sse2_8bit+0x4df>
DB 197,220,88,192 ; vaddps %ymm0,%ymm4,%ymm0
DB 196,227,125,8,224,1 ; vroundps $0x1,%ymm0,%ymm4
DB 197,252,92,196 ; vsubps %ymm4,%ymm0,%ymm0
@@ -1668,110 +1664,105 @@ _sk_scale_1_float_hsw LABEL PROC
PUBLIC _sk_scale_u8_hsw
_sk_scale_u8_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,59 ; jne 1bbc <_sk_scale_u8_hsw+0x54>
- DB 196,66,121,48,4,25 ; vpmovzxbw (%r9,%rbx,1),%xmm8
- DB 197,57,219,5,193,174,2,0 ; vpand 0x2aec1(%rip),%xmm8,%xmm8 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,58 ; jne 1bb6 <_sk_scale_u8_hsw+0x52>
+ DB 196,2,121,48,4,24 ; vpmovzxbw (%r8,%r11,1),%xmm8
+ DB 197,57,219,5,70,175,2,0 ; vpand 0x2af46(%rip),%xmm8,%xmm8 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,66,125,51,192 ; vpmovzxwd %xmm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
- DB 196,98,125,24,13,142,165,2,0 ; vbroadcastss 0x2a58e(%rip),%ymm9 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,13,187,165,2,0 ; vbroadcastss 0x2a5bb(%rip),%ymm9 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
DB 197,188,89,210 ; vmulps %ymm2,%ymm8,%ymm2
DB 197,188,89,219 ; vmulps %ymm3,%ymm8,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,182 ; ja 1b87 <_sk_scale_u8_hsw+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,124,0,0,0 ; lea 0x7c(%rip),%r11 # 1c58 <_sk_scale_u8_hsw+0xf0>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,183 ; ja 1b82 <_sk_scale_u8_hsw+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,122,0,0,0 ; lea 0x7a(%rip),%r10 # 1c50 <_sk_scale_u8_hsw+0xec>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
- DB 235,151 ; jmp 1b87 <_sk_scale_u8_hsw+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,152 ; jmp 1b82 <_sk_scale_u8_hsw+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
DB 197,57,196,192,2 ; vpinsrw $0x2,%eax,%xmm8,%xmm8
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,121,110,200 ; vmovd %eax,%xmm9
DB 196,66,121,48,201 ; vpmovzxbw %xmm9,%xmm9
DB 196,67,57,2,193,1 ; vpblendd $0x1,%xmm9,%xmm8,%xmm8
- DB 233,110,255,255,255 ; jmpq 1b87 <_sk_scale_u8_hsw+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,111,255,255,255 ; jmpq 1b82 <_sk_scale_u8_hsw+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
DB 197,57,196,192,6 ; vpinsrw $0x6,%eax,%xmm8,%xmm8
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,57,196,192,5 ; vpinsrw $0x5,%eax,%xmm8,%xmm8
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,57,196,192,4 ; vpinsrw $0x4,%eax,%xmm8,%xmm8
- DB 196,65,121,110,12,25 ; vmovd (%r9,%rbx,1),%xmm9
+ DB 196,1,121,110,12,24 ; vmovd (%r8,%r11,1),%xmm9
DB 196,66,121,48,201 ; vpmovzxbw %xmm9,%xmm9
DB 196,67,49,2,192,12 ; vpblendd $0xc,%xmm8,%xmm9,%xmm8
- DB 233,50,255,255,255 ; jmpq 1b87 <_sk_scale_u8_hsw+0x1f>
- DB 15,31,0 ; nopl (%rax)
- DB 141 ; (bad)
+ DB 233,51,255,255,255 ; jmpq 1b82 <_sk_scale_u8_hsw+0x1e>
+ DB 144 ; nop
+ DB 143 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,168,255,255,255,152 ; ljmp *-0x67000001(%rax)
- DB 255 ; (bad)
+ DB 255,170,255,255,255,154 ; ljmp *-0x65000001(%rdx)
DB 255 ; (bad)
- DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 233,255,255,255,222 ; jmpq ffffffffdf001c60 <_sk_overlay_sse2_8bit+0xffffffffdefd5feb>
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
DB 255 ; (bad)
- DB 255,209 ; callq *%rcx
+ DB 255,211 ; callq *%rbx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,193 ; inc %ecx
+ DB 255,195 ; inc %ebx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_scale_565_hsw
_sk_scale_565_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,162,0,0,0 ; jne 1d36 <_sk_scale_565_hsw+0xc2>
- DB 196,65,122,111,4,89 ; vmovdqu (%r9,%rbx,2),%xmm8
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,161,0,0,0 ; jne 1d2c <_sk_scale_565_hsw+0xc0>
+ DB 196,1,122,111,4,88 ; vmovdqu (%r8,%r11,2),%xmm8
DB 196,66,125,51,192 ; vpmovzxwd %xmm8,%ymm8
- DB 196,98,125,88,13,140,164,2,0 ; vpbroadcastd 0x2a48c(%rip),%ymm9 # 2c134 <_sk_overlay_sse2_8bit+0x4e7>
+ DB 196,98,125,88,13,189,164,2,0 ; vpbroadcastd 0x2a4bd(%rip),%ymm9 # 2c15c <_sk_overlay_sse2_8bit+0x4e7>
DB 196,65,61,219,201 ; vpand %ymm9,%ymm8,%ymm9
DB 196,65,124,91,201 ; vcvtdq2ps %ymm9,%ymm9
- DB 196,98,125,24,21,125,164,2,0 ; vbroadcastss 0x2a47d(%rip),%ymm10 # 2c138 <_sk_overlay_sse2_8bit+0x4eb>
+ DB 196,98,125,24,21,174,164,2,0 ; vbroadcastss 0x2a4ae(%rip),%ymm10 # 2c160 <_sk_overlay_sse2_8bit+0x4eb>
DB 196,65,52,89,202 ; vmulps %ymm10,%ymm9,%ymm9
- DB 196,98,125,88,21,115,164,2,0 ; vpbroadcastd 0x2a473(%rip),%ymm10 # 2c13c <_sk_overlay_sse2_8bit+0x4ef>
+ DB 196,98,125,88,21,164,164,2,0 ; vpbroadcastd 0x2a4a4(%rip),%ymm10 # 2c164 <_sk_overlay_sse2_8bit+0x4ef>
DB 196,65,61,219,210 ; vpand %ymm10,%ymm8,%ymm10
DB 196,65,124,91,210 ; vcvtdq2ps %ymm10,%ymm10
- DB 196,98,125,24,29,100,164,2,0 ; vbroadcastss 0x2a464(%rip),%ymm11 # 2c140 <_sk_overlay_sse2_8bit+0x4f3>
+ DB 196,98,125,24,29,149,164,2,0 ; vbroadcastss 0x2a495(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x4f3>
DB 196,65,44,89,211 ; vmulps %ymm11,%ymm10,%ymm10
- DB 196,98,125,88,29,90,164,2,0 ; vpbroadcastd 0x2a45a(%rip),%ymm11 # 2c144 <_sk_overlay_sse2_8bit+0x4f7>
+ DB 196,98,125,88,29,139,164,2,0 ; vpbroadcastd 0x2a48b(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x4f7>
DB 196,65,61,219,195 ; vpand %ymm11,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
- DB 196,98,125,24,29,75,164,2,0 ; vbroadcastss 0x2a44b(%rip),%ymm11 # 2c148 <_sk_overlay_sse2_8bit+0x4fb>
+ DB 196,98,125,24,29,124,164,2,0 ; vbroadcastss 0x2a47c(%rip),%ymm11 # 2c170 <_sk_overlay_sse2_8bit+0x4fb>
DB 196,65,60,89,195 ; vmulps %ymm11,%ymm8,%ymm8
DB 197,100,194,223,1 ; vcmpltps %ymm7,%ymm3,%ymm11
DB 196,65,44,93,224 ; vminps %ymm8,%ymm10,%ymm12
@@ -1784,49 +1775,50 @@ _sk_scale_565_hsw LABEL PROC
DB 197,188,89,210 ; vmulps %ymm2,%ymm8,%ymm2
DB 197,164,89,219 ; vmulps %ymm3,%ymm11,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,75,255,255,255 ; ja 1c9a <_sk_scale_565_hsw+0x26>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,102,0,0,0 ; lea 0x66(%rip),%r11 # 1dc0 <_sk_scale_565_hsw+0x14c>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,76,255,255,255 ; ja 1c91 <_sk_scale_565_hsw+0x25>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,100,0,0,0 ; lea 0x64(%rip),%r10 # 1db4 <_sk_scale_565_hsw+0x148>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
- DB 233,41,255,255,255 ; jmpq 1c9a <_sk_scale_565_hsw+0x26>
+ DB 233,42,255,255,255 ; jmpq 1c91 <_sk_scale_565_hsw+0x25>
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 196,65,57,196,68,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,121,110,12,89 ; vmovd (%r9,%rbx,2),%xmm9
+ DB 196,1,57,196,68,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,121,110,12,88 ; vmovd (%r8,%r11,2),%xmm9
DB 196,67,57,2,193,1 ; vpblendd $0x1,%xmm9,%xmm8,%xmm8
- DB 233,11,255,255,255 ; jmpq 1c9a <_sk_scale_565_hsw+0x26>
+ DB 233,12,255,255,255 ; jmpq 1c91 <_sk_scale_565_hsw+0x25>
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 196,65,57,196,68,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,57,196,68,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,57,196,68,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,122,126,12,89 ; vmovq (%r9,%rbx,2),%xmm9
+ DB 196,1,57,196,68,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,57,196,68,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,57,196,68,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,122,126,12,88 ; vmovq (%r8,%r11,2),%xmm9
DB 196,67,49,2,192,12 ; vpblendd $0xc,%xmm8,%xmm9,%xmm8
- DB 233,221,254,255,255 ; jmpq 1c9a <_sk_scale_565_hsw+0x26>
- DB 15,31,0 ; nopl (%rax)
- DB 163,255,255,255,190,255,255,255,177 ; movabs %eax,0xb1ffffffbeffffff
+ DB 233,222,254,255,255 ; jmpq 1c91 <_sk_scale_565_hsw+0x25>
+ DB 144 ; nop
+ DB 165 ; movsl %ds:(%rsi),%es:(%rdi)
+ DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,192 ; inc %eax
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
+ DB 255,179,255,255,255,238 ; pushq -0x11000001(%rbx)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,228 ; jmpq *%rsp
+ DB 255,230 ; jmpq *%rsi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
+ DB 222,255 ; fdivrp %st,%st(7)
DB 255 ; (bad)
- DB 255,207 ; dec %edi
+ DB 255,209 ; callq *%rcx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
@@ -1848,20 +1840,19 @@ _sk_lerp_1_float_hsw LABEL PROC
PUBLIC _sk_lerp_u8_hsw
_sk_lerp_u8_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,79 ; jne 1e73 <_sk_lerp_u8_hsw+0x68>
- DB 196,66,121,48,4,25 ; vpmovzxbw (%r9,%rbx,1),%xmm8
- DB 197,57,219,5,30,172,2,0 ; vpand 0x2ac1e(%rip),%xmm8,%xmm8 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,78 ; jne 1e65 <_sk_lerp_u8_hsw+0x66>
+ DB 196,2,121,48,4,24 ; vpmovzxbw (%r8,%r11,1),%xmm8
+ DB 197,57,219,5,171,172,2,0 ; vpand 0x2acab(%rip),%xmm8,%xmm8 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,66,125,51,192 ; vpmovzxwd %xmm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
- DB 196,98,125,24,13,235,162,2,0 ; vbroadcastss 0x2a2eb(%rip),%ymm9 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,13,32,163,2,0 ; vbroadcastss 0x2a320(%rip),%ymm9 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
DB 197,252,92,196 ; vsubps %ymm4,%ymm0,%ymm0
DB 196,226,61,168,196 ; vfmadd213ps %ymm4,%ymm8,%ymm0
@@ -1872,90 +1863,85 @@ _sk_lerp_u8_hsw LABEL PROC
DB 197,228,92,223 ; vsubps %ymm7,%ymm3,%ymm3
DB 196,226,61,168,223 ; vfmadd213ps %ymm7,%ymm8,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,162 ; ja 1e2a <_sk_lerp_u8_hsw+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,121,0,0,0 ; lea 0x79(%rip),%r11 # 1f0c <_sk_lerp_u8_hsw+0x101>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,163 ; ja 1e1d <_sk_lerp_u8_hsw+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,123,0,0,0 ; lea 0x7b(%rip),%r10 # 1f00 <_sk_lerp_u8_hsw+0x101>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
- DB 235,131 ; jmp 1e2a <_sk_lerp_u8_hsw+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,132 ; jmp 1e1d <_sk_lerp_u8_hsw+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
DB 197,57,196,192,2 ; vpinsrw $0x2,%eax,%xmm8,%xmm8
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,121,110,200 ; vmovd %eax,%xmm9
DB 196,66,121,48,201 ; vpmovzxbw %xmm9,%xmm9
DB 196,67,57,2,193,1 ; vpblendd $0x1,%xmm9,%xmm8,%xmm8
- DB 233,90,255,255,255 ; jmpq 1e2a <_sk_lerp_u8_hsw+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,91,255,255,255 ; jmpq 1e1d <_sk_lerp_u8_hsw+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
DB 197,57,196,192,6 ; vpinsrw $0x6,%eax,%xmm8,%xmm8
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,57,196,192,5 ; vpinsrw $0x5,%eax,%xmm8,%xmm8
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,57,196,192,4 ; vpinsrw $0x4,%eax,%xmm8,%xmm8
- DB 196,65,121,110,12,25 ; vmovd (%r9,%rbx,1),%xmm9
+ DB 196,1,121,110,12,24 ; vmovd (%r8,%r11,1),%xmm9
DB 196,66,121,48,201 ; vpmovzxbw %xmm9,%xmm9
DB 196,67,49,2,192,12 ; vpblendd $0xc,%xmm8,%xmm9,%xmm8
- DB 233,30,255,255,255 ; jmpq 1e2a <_sk_lerp_u8_hsw+0x1f>
- DB 144 ; nop
- DB 255 ; (bad)
- DB 255 ; (bad)
- DB 255,171,255,255,255,155 ; ljmp *-0x64000001(%rbx)
- DB 255 ; (bad)
+ DB 233,31,255,255,255 ; jmpq 1e1d <_sk_lerp_u8_hsw+0x1e>
+ DB 102,144 ; xchg %ax,%ax
+ DB 142,255 ; mov %edi,%?
DB 255 ; (bad)
+ DB 255,169,255,255,255,153 ; ljmp *-0x66000001(%rcx)
DB 255 ; (bad)
- DB 234 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 232,255,255,255,221 ; callq ffffffffde001f10 <_sk_overlay_sse2_8bit+0xffffffffddfd629b>
DB 255 ; (bad)
- DB 223,255 ; (bad)
DB 255 ; (bad)
- DB 255,212 ; callq *%rsp
+ DB 255,210 ; callq *%rdx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 255,194 ; inc %edx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_lerp_565_hsw
_sk_lerp_565_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,182,0,0,0 ; jne 1ffe <_sk_lerp_565_hsw+0xd6>
- DB 196,65,122,111,4,89 ; vmovdqu (%r9,%rbx,2),%xmm8
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,181,0,0,0 ; jne 1ff0 <_sk_lerp_565_hsw+0xd4>
+ DB 196,1,122,111,4,88 ; vmovdqu (%r8,%r11,2),%xmm8
DB 196,66,125,51,192 ; vpmovzxwd %xmm8,%ymm8
- DB 196,98,125,88,13,216,161,2,0 ; vpbroadcastd 0x2a1d8(%rip),%ymm9 # 2c134 <_sk_overlay_sse2_8bit+0x4e7>
+ DB 196,98,125,88,13,13,162,2,0 ; vpbroadcastd 0x2a20d(%rip),%ymm9 # 2c15c <_sk_overlay_sse2_8bit+0x4e7>
DB 196,65,61,219,201 ; vpand %ymm9,%ymm8,%ymm9
DB 196,65,124,91,201 ; vcvtdq2ps %ymm9,%ymm9
- DB 196,98,125,24,21,201,161,2,0 ; vbroadcastss 0x2a1c9(%rip),%ymm10 # 2c138 <_sk_overlay_sse2_8bit+0x4eb>
+ DB 196,98,125,24,21,254,161,2,0 ; vbroadcastss 0x2a1fe(%rip),%ymm10 # 2c160 <_sk_overlay_sse2_8bit+0x4eb>
DB 196,65,52,89,202 ; vmulps %ymm10,%ymm9,%ymm9
- DB 196,98,125,88,21,191,161,2,0 ; vpbroadcastd 0x2a1bf(%rip),%ymm10 # 2c13c <_sk_overlay_sse2_8bit+0x4ef>
+ DB 196,98,125,88,21,244,161,2,0 ; vpbroadcastd 0x2a1f4(%rip),%ymm10 # 2c164 <_sk_overlay_sse2_8bit+0x4ef>
DB 196,65,61,219,210 ; vpand %ymm10,%ymm8,%ymm10
DB 196,65,124,91,210 ; vcvtdq2ps %ymm10,%ymm10
- DB 196,98,125,24,29,176,161,2,0 ; vbroadcastss 0x2a1b0(%rip),%ymm11 # 2c140 <_sk_overlay_sse2_8bit+0x4f3>
+ DB 196,98,125,24,29,229,161,2,0 ; vbroadcastss 0x2a1e5(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x4f3>
DB 196,65,44,89,211 ; vmulps %ymm11,%ymm10,%ymm10
- DB 196,98,125,88,29,166,161,2,0 ; vpbroadcastd 0x2a1a6(%rip),%ymm11 # 2c144 <_sk_overlay_sse2_8bit+0x4f7>
+ DB 196,98,125,88,29,219,161,2,0 ; vpbroadcastd 0x2a1db(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x4f7>
DB 196,65,61,219,195 ; vpand %ymm11,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
- DB 196,98,125,24,29,151,161,2,0 ; vbroadcastss 0x2a197(%rip),%ymm11 # 2c148 <_sk_overlay_sse2_8bit+0x4fb>
+ DB 196,98,125,24,29,204,161,2,0 ; vbroadcastss 0x2a1cc(%rip),%ymm11 # 2c170 <_sk_overlay_sse2_8bit+0x4fb>
DB 196,65,60,89,195 ; vmulps %ymm11,%ymm8,%ymm8
DB 197,100,194,223,1 ; vcmpltps %ymm7,%ymm3,%ymm11
DB 196,65,44,93,224 ; vminps %ymm8,%ymm10,%ymm12
@@ -1972,49 +1958,50 @@ _sk_lerp_565_hsw LABEL PROC
DB 197,228,92,223 ; vsubps %ymm7,%ymm3,%ymm3
DB 196,226,37,168,223 ; vfmadd213ps %ymm7,%ymm11,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,55,255,255,255 ; ja 1f4e <_sk_lerp_565_hsw+0x26>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,102,0,0,0 ; lea 0x66(%rip),%r11 # 2088 <_sk_lerp_565_hsw+0x160>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,56,255,255,255 ; ja 1f41 <_sk_lerp_565_hsw+0x25>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,100,0,0,0 ; lea 0x64(%rip),%r10 # 2078 <_sk_lerp_565_hsw+0x15c>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
- DB 233,21,255,255,255 ; jmpq 1f4e <_sk_lerp_565_hsw+0x26>
+ DB 233,22,255,255,255 ; jmpq 1f41 <_sk_lerp_565_hsw+0x25>
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 196,65,57,196,68,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,121,110,12,89 ; vmovd (%r9,%rbx,2),%xmm9
+ DB 196,1,57,196,68,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,121,110,12,88 ; vmovd (%r8,%r11,2),%xmm9
DB 196,67,57,2,193,1 ; vpblendd $0x1,%xmm9,%xmm8,%xmm8
- DB 233,247,254,255,255 ; jmpq 1f4e <_sk_lerp_565_hsw+0x26>
+ DB 233,248,254,255,255 ; jmpq 1f41 <_sk_lerp_565_hsw+0x25>
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 196,65,57,196,68,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,57,196,68,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,57,196,68,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,122,126,12,89 ; vmovq (%r9,%rbx,2),%xmm9
+ DB 196,1,57,196,68,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,57,196,68,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,57,196,68,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,122,126,12,88 ; vmovq (%r8,%r11,2),%xmm9
DB 196,67,49,2,192,12 ; vpblendd $0xc,%xmm8,%xmm9,%xmm8
- DB 233,201,254,255,255 ; jmpq 1f4e <_sk_lerp_565_hsw+0x26>
- DB 15,31,0 ; nopl (%rax)
- DB 163,255,255,255,190,255,255,255,177 ; movabs %eax,0xb1ffffffbeffffff
+ DB 233,202,254,255,255 ; jmpq 1f41 <_sk_lerp_565_hsw+0x25>
+ DB 144 ; nop
+ DB 165 ; movsl %ds:(%rsi),%es:(%rdi)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,192 ; inc %eax
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
DB 255 ; (bad)
+ DB 255,179,255,255,255,238 ; pushq -0x11000001(%rbx)
DB 255 ; (bad)
- DB 255,228 ; jmpq *%rsp
DB 255 ; (bad)
+ DB 255,230 ; jmpq *%rsi
DB 255 ; (bad)
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
DB 255 ; (bad)
- DB 255,207 ; dec %edi
+ DB 222,255 ; fdivrp %st,%st(7)
+ DB 255 ; (bad)
+ DB 255,209 ; callq *%rcx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
@@ -2022,63 +2009,63 @@ _sk_lerp_565_hsw LABEL PROC
PUBLIC _sk_load_tables_hsw
_sk_load_tables_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 77,133,192 ; test %r8,%r8
- DB 117,103 ; jne 2115 <_sk_load_tables_hsw+0x71>
- DB 196,193,126,111,28,145 ; vmovdqu (%r9,%rdx,4),%ymm3
- DB 197,229,219,13,4,162,2,0 ; vpand 0x2a204(%rip),%ymm3,%ymm1 # 2c2c0 <_sk_overlay_sse2_8bit+0x673>
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,103 ; jne 2105 <_sk_load_tables_hsw+0x71>
+ DB 196,193,126,111,28,144 ; vmovdqu (%r8,%rdx,4),%ymm3
+ DB 197,229,219,13,116,162,2,0 ; vpand 0x2a274(%rip),%ymm3,%ymm1 # 2c320 <_sk_overlay_sse2_8bit+0x6ab>
DB 196,65,61,118,192 ; vpcmpeqd %ymm8,%ymm8,%ymm8
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
- DB 76,139,80,16 ; mov 0x10(%rax),%r10
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 76,139,72,16 ; mov 0x10(%rax),%r9
DB 197,237,118,210 ; vpcmpeqd %ymm2,%ymm2,%ymm2
- DB 196,194,109,146,4,137 ; vgatherdps %ymm2,(%r9,%ymm1,4),%ymm0
- DB 196,226,101,0,21,4,162,2,0 ; vpshufb 0x2a204(%rip),%ymm3,%ymm2 # 2c2e0 <_sk_overlay_sse2_8bit+0x693>
+ DB 196,194,109,146,4,136 ; vgatherdps %ymm2,(%r8,%ymm1,4),%ymm0
+ DB 196,226,101,0,21,116,162,2,0 ; vpshufb 0x2a274(%rip),%ymm3,%ymm2 # 2c340 <_sk_overlay_sse2_8bit+0x6cb>
DB 196,65,53,118,201 ; vpcmpeqd %ymm9,%ymm9,%ymm9
- DB 196,194,53,146,12,146 ; vgatherdps %ymm9,(%r10,%ymm2,4),%ymm1
+ DB 196,194,53,146,12,145 ; vgatherdps %ymm9,(%r9,%ymm2,4),%ymm1
DB 72,139,64,24 ; mov 0x18(%rax),%rax
- DB 196,98,101,0,13,12,162,2,0 ; vpshufb 0x2a20c(%rip),%ymm3,%ymm9 # 2c300 <_sk_overlay_sse2_8bit+0x6b3>
+ DB 196,98,101,0,13,124,162,2,0 ; vpshufb 0x2a27c(%rip),%ymm3,%ymm9 # 2c360 <_sk_overlay_sse2_8bit+0x6eb>
DB 196,162,61,146,20,136 ; vgatherdps %ymm8,(%rax,%ymm9,4),%ymm2
DB 197,229,114,211,24 ; vpsrld $0x18,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
- DB 196,98,125,24,5,36,160,2,0 ; vbroadcastss 0x2a024(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,92,160,2,0 ; vbroadcastss 0x2a05c(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,139 ; ja 20b4 <_sk_load_tables_hsw+0x10>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,140,0,0,0 ; lea 0x8c(%rip),%r11 # 21c0 <_sk_load_tables_hsw+0x11c>
- DB 79,99,20,147 ; movslq (%r11,%r10,4),%r10
- DB 77,1,218 ; add %r11,%r10
- DB 65,255,226 ; jmpq *%r10
- DB 196,193,121,110,28,145 ; vmovd (%r9,%rdx,4),%xmm3
- DB 233,107,255,255,255 ; jmpq 20b4 <_sk_load_tables_hsw+0x10>
- DB 196,193,121,110,68,145,8 ; vmovd 0x8(%r9,%rdx,4),%xmm0
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,139 ; ja 20a4 <_sk_load_tables_hsw+0x10>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,140,0,0,0 ; lea 0x8c(%rip),%r10 # 21b0 <_sk_load_tables_hsw+0x11c>
+ DB 79,99,12,138 ; movslq (%r10,%r9,4),%r9
+ DB 77,1,209 ; add %r10,%r9
+ DB 65,255,225 ; jmpq *%r9
+ DB 196,193,121,110,28,144 ; vmovd (%r8,%rdx,4),%xmm3
+ DB 233,107,255,255,255 ; jmpq 20a4 <_sk_load_tables_hsw+0x10>
+ DB 196,193,121,110,68,144,8 ; vmovd 0x8(%r8,%rdx,4),%xmm0
DB 196,226,121,89,192 ; vpbroadcastq %xmm0,%xmm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
DB 196,227,117,2,216,4 ; vpblendd $0x4,%ymm0,%ymm1,%ymm3
- DB 196,193,122,126,4,145 ; vmovq (%r9,%rdx,4),%xmm0
+ DB 196,193,122,126,4,144 ; vmovq (%r8,%rdx,4),%xmm0
DB 196,227,101,2,216,3 ; vpblendd $0x3,%ymm0,%ymm3,%ymm3
- DB 233,68,255,255,255 ; jmpq 20b4 <_sk_load_tables_hsw+0x10>
- DB 196,193,121,110,68,145,24 ; vmovd 0x18(%r9,%rdx,4),%xmm0
+ DB 233,68,255,255,255 ; jmpq 20a4 <_sk_load_tables_hsw+0x10>
+ DB 196,193,121,110,68,144,24 ; vmovd 0x18(%r8,%rdx,4),%xmm0
DB 196,226,125,89,192 ; vpbroadcastq %xmm0,%ymm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
DB 196,227,117,2,216,64 ; vpblendd $0x40,%ymm0,%ymm1,%ymm3
DB 196,227,125,57,216,1 ; vextracti128 $0x1,%ymm3,%xmm0
- DB 196,195,121,34,68,145,20,1 ; vpinsrd $0x1,0x14(%r9,%rdx,4),%xmm0,%xmm0
+ DB 196,195,121,34,68,144,20,1 ; vpinsrd $0x1,0x14(%r8,%rdx,4),%xmm0,%xmm0
DB 196,227,101,56,216,1 ; vinserti128 $0x1,%xmm0,%ymm3,%ymm3
DB 196,227,125,57,216,1 ; vextracti128 $0x1,%ymm3,%xmm0
- DB 196,195,121,34,68,145,16,0 ; vpinsrd $0x0,0x10(%r9,%rdx,4),%xmm0,%xmm0
+ DB 196,195,121,34,68,144,16,0 ; vpinsrd $0x0,0x10(%r8,%rdx,4),%xmm0,%xmm0
DB 196,227,101,56,216,1 ; vinserti128 $0x1,%xmm0,%ymm3,%ymm3
- DB 196,193,122,111,4,145 ; vmovdqu (%r9,%rdx,4),%xmm0
+ DB 196,193,122,111,4,144 ; vmovdqu (%r8,%rdx,4),%xmm0
DB 196,227,125,2,219,240 ; vpblendd $0xf0,%ymm3,%ymm0,%ymm3
- DB 233,245,254,255,255 ; jmpq 20b4 <_sk_load_tables_hsw+0x10>
+ DB 233,245,254,255,255 ; jmpq 20a4 <_sk_load_tables_hsw+0x10>
DB 144 ; nop
- DB 126,255 ; jle 21c1 <_sk_load_tables_hsw+0x11d>
+ DB 126,255 ; jle 21b1 <_sk_load_tables_hsw+0x11d>
DB 255 ; (bad)
DB 255,159,255,255,255,137 ; lcall *-0x76000001(%rdi)
DB 255 ; (bad)
@@ -2101,14 +2088,14 @@ _sk_load_tables_hsw LABEL PROC
PUBLIC _sk_load_tables_u16_be_hsw
_sk_load_tables_u16_be_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 76,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,201,0,0,0 ; jne 22bb <_sk_load_tables_u16_be_hsw+0xdf>
- DB 196,1,121,16,4,81 ; vmovupd (%r9,%r10,2),%xmm8
- DB 196,129,121,16,84,81,16 ; vmovupd 0x10(%r9,%r10,2),%xmm2
- DB 196,129,121,16,92,81,32 ; vmovupd 0x20(%r9,%r10,2),%xmm3
- DB 196,1,122,111,76,81,48 ; vmovdqu 0x30(%r9,%r10,2),%xmm9
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 76,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,201,0,0,0 ; jne 22ab <_sk_load_tables_u16_be_hsw+0xdf>
+ DB 196,1,121,16,4,72 ; vmovupd (%r8,%r9,2),%xmm8
+ DB 196,129,121,16,84,72,16 ; vmovupd 0x10(%r8,%r9,2),%xmm2
+ DB 196,129,121,16,92,72,32 ; vmovupd 0x20(%r8,%r9,2),%xmm3
+ DB 196,1,122,111,76,72,48 ; vmovdqu 0x30(%r8,%r9,2),%xmm9
DB 197,185,97,194 ; vpunpcklwd %xmm2,%xmm8,%xmm0
DB 197,185,105,210 ; vpunpckhwd %xmm2,%xmm8,%xmm2
DB 196,193,97,97,201 ; vpunpcklwd %xmm9,%xmm3,%xmm1
@@ -2120,18 +2107,18 @@ _sk_load_tables_u16_be_hsw LABEL PROC
DB 197,185,108,200 ; vpunpcklqdq %xmm0,%xmm8,%xmm1
DB 197,185,109,208 ; vpunpckhqdq %xmm0,%xmm8,%xmm2
DB 197,49,108,195 ; vpunpcklqdq %xmm3,%xmm9,%xmm8
- DB 197,121,111,21,13,168,2,0 ; vmovdqa 0x2a80d(%rip),%xmm10 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 197,121,111,21,157,168,2,0 ; vmovdqa 0x2a89d(%rip),%xmm10 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,193,113,219,194 ; vpand %xmm10,%xmm1,%xmm0
DB 196,226,125,51,200 ; vpmovzxwd %xmm0,%ymm1
DB 196,65,37,118,219 ; vpcmpeqd %ymm11,%ymm11,%ymm11
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
- DB 76,139,80,16 ; mov 0x10(%rax),%r10
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 76,139,72,16 ; mov 0x10(%rax),%r9
DB 196,65,29,118,228 ; vpcmpeqd %ymm12,%ymm12,%ymm12
- DB 196,194,29,146,4,137 ; vgatherdps %ymm12,(%r9,%ymm1,4),%ymm0
+ DB 196,194,29,146,4,136 ; vgatherdps %ymm12,(%r8,%ymm1,4),%ymm0
DB 196,193,105,219,202 ; vpand %xmm10,%xmm2,%xmm1
DB 196,226,125,51,209 ; vpmovzxwd %xmm1,%ymm2
DB 196,65,29,118,228 ; vpcmpeqd %ymm12,%ymm12,%ymm12
- DB 196,194,29,146,12,146 ; vgatherdps %ymm12,(%r10,%ymm2,4),%ymm1
+ DB 196,194,29,146,12,145 ; vgatherdps %ymm12,(%r9,%ymm2,4),%ymm1
DB 72,139,64,24 ; mov 0x18(%rax),%rax
DB 196,193,57,219,210 ; vpand %xmm10,%xmm8,%xmm2
DB 196,98,125,51,194 ; vpmovzxwd %xmm2,%ymm8
@@ -2142,48 +2129,48 @@ _sk_load_tables_u16_be_hsw LABEL PROC
DB 197,185,235,219 ; vpor %xmm3,%xmm8,%xmm3
DB 196,226,125,51,219 ; vpmovzxwd %xmm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
- DB 196,98,125,24,5,154,158,2,0 ; vbroadcastss 0x29e9a(%rip),%ymm8 # 2c14c <_sk_overlay_sse2_8bit+0x4ff>
+ DB 196,98,125,24,5,210,158,2,0 ; vbroadcastss 0x29ed2(%rip),%ymm8 # 2c174 <_sk_overlay_sse2_8bit+0x4ff>
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 196,1,123,16,4,81 ; vmovsd (%r9,%r10,2),%xmm8
+ DB 196,1,123,16,4,72 ; vmovsd (%r8,%r9,2),%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,85 ; je 2321 <_sk_load_tables_u16_be_hsw+0x145>
- DB 196,1,57,22,68,81,8 ; vmovhpd 0x8(%r9,%r10,2),%xmm8,%xmm8
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,72 ; jb 2321 <_sk_load_tables_u16_be_hsw+0x145>
- DB 196,129,123,16,84,81,16 ; vmovsd 0x10(%r9,%r10,2),%xmm2
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 116,72 ; je 232e <_sk_load_tables_u16_be_hsw+0x152>
- DB 196,129,105,22,84,81,24 ; vmovhpd 0x18(%r9,%r10,2),%xmm2,%xmm2
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,59 ; jb 232e <_sk_load_tables_u16_be_hsw+0x152>
- DB 196,129,123,16,92,81,32 ; vmovsd 0x20(%r9,%r10,2),%xmm3
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 15,132,9,255,255,255 ; je 220d <_sk_load_tables_u16_be_hsw+0x31>
- DB 196,129,97,22,92,81,40 ; vmovhpd 0x28(%r9,%r10,2),%xmm3,%xmm3
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,130,248,254,255,255 ; jb 220d <_sk_load_tables_u16_be_hsw+0x31>
- DB 196,1,122,126,76,81,48 ; vmovq 0x30(%r9,%r10,2),%xmm9
- DB 233,236,254,255,255 ; jmpq 220d <_sk_load_tables_u16_be_hsw+0x31>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,85 ; je 2311 <_sk_load_tables_u16_be_hsw+0x145>
+ DB 196,1,57,22,68,72,8 ; vmovhpd 0x8(%r8,%r9,2),%xmm8,%xmm8
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,72 ; jb 2311 <_sk_load_tables_u16_be_hsw+0x145>
+ DB 196,129,123,16,84,72,16 ; vmovsd 0x10(%r8,%r9,2),%xmm2
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 116,72 ; je 231e <_sk_load_tables_u16_be_hsw+0x152>
+ DB 196,129,105,22,84,72,24 ; vmovhpd 0x18(%r8,%r9,2),%xmm2,%xmm2
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,59 ; jb 231e <_sk_load_tables_u16_be_hsw+0x152>
+ DB 196,129,123,16,92,72,32 ; vmovsd 0x20(%r8,%r9,2),%xmm3
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 15,132,9,255,255,255 ; je 21fd <_sk_load_tables_u16_be_hsw+0x31>
+ DB 196,129,97,22,92,72,40 ; vmovhpd 0x28(%r8,%r9,2),%xmm3,%xmm3
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,130,248,254,255,255 ; jb 21fd <_sk_load_tables_u16_be_hsw+0x31>
+ DB 196,1,122,126,76,72,48 ; vmovq 0x30(%r8,%r9,2),%xmm9
+ DB 233,236,254,255,255 ; jmpq 21fd <_sk_load_tables_u16_be_hsw+0x31>
DB 197,225,87,219 ; vxorpd %xmm3,%xmm3,%xmm3
DB 197,233,87,210 ; vxorpd %xmm2,%xmm2,%xmm2
- DB 233,223,254,255,255 ; jmpq 220d <_sk_load_tables_u16_be_hsw+0x31>
+ DB 233,223,254,255,255 ; jmpq 21fd <_sk_load_tables_u16_be_hsw+0x31>
DB 197,225,87,219 ; vxorpd %xmm3,%xmm3,%xmm3
- DB 233,214,254,255,255 ; jmpq 220d <_sk_load_tables_u16_be_hsw+0x31>
+ DB 233,214,254,255,255 ; jmpq 21fd <_sk_load_tables_u16_be_hsw+0x31>
PUBLIC _sk_load_tables_rgb_u16_be_hsw
_sk_load_tables_rgb_u16_be_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 76,141,20,82 ; lea (%rdx,%rdx,2),%r10
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,193,0,0,0 ; jne 240a <_sk_load_tables_rgb_u16_be_hsw+0xd3>
- DB 196,1,122,111,28,81 ; vmovdqu (%r9,%r10,2),%xmm11
- DB 196,129,122,111,92,81,12 ; vmovdqu 0xc(%r9,%r10,2),%xmm3
- DB 196,129,122,111,84,81,24 ; vmovdqu 0x18(%r9,%r10,2),%xmm2
- DB 196,129,122,111,68,81,32 ; vmovdqu 0x20(%r9,%r10,2),%xmm0
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 76,141,12,82 ; lea (%rdx,%rdx,2),%r9
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,193,0,0,0 ; jne 23fa <_sk_load_tables_rgb_u16_be_hsw+0xd3>
+ DB 196,1,122,111,28,72 ; vmovdqu (%r8,%r9,2),%xmm11
+ DB 196,129,122,111,92,72,12 ; vmovdqu 0xc(%r8,%r9,2),%xmm3
+ DB 196,129,122,111,84,72,24 ; vmovdqu 0x18(%r8,%r9,2),%xmm2
+ DB 196,129,122,111,68,72,32 ; vmovdqu 0x20(%r8,%r9,2),%xmm0
DB 197,249,115,216,4 ; vpsrldq $0x4,%xmm0,%xmm0
DB 196,193,57,115,219,6 ; vpsrldq $0x6,%xmm11,%xmm8
DB 197,169,115,219,6 ; vpsrldq $0x6,%xmm3,%xmm10
@@ -2200,213 +2187,213 @@ _sk_load_tables_rgb_u16_be_hsw LABEL PROC
DB 197,185,108,211 ; vpunpcklqdq %xmm3,%xmm8,%xmm2
DB 197,185,109,219 ; vpunpckhqdq %xmm3,%xmm8,%xmm3
DB 197,113,108,192 ; vpunpcklqdq %xmm0,%xmm1,%xmm8
- DB 197,121,111,13,156,166,2,0 ; vmovdqa 0x2a69c(%rip),%xmm9 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 197,121,111,13,44,167,2,0 ; vmovdqa 0x2a72c(%rip),%xmm9 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,193,105,219,193 ; vpand %xmm9,%xmm2,%xmm0
DB 196,226,125,51,200 ; vpmovzxwd %xmm0,%ymm1
DB 196,65,45,118,210 ; vpcmpeqd %ymm10,%ymm10,%ymm10
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
- DB 76,139,80,16 ; mov 0x10(%rax),%r10
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 76,139,72,16 ; mov 0x10(%rax),%r9
DB 197,237,118,210 ; vpcmpeqd %ymm2,%ymm2,%ymm2
- DB 196,194,109,146,4,137 ; vgatherdps %ymm2,(%r9,%ymm1,4),%ymm0
+ DB 196,194,109,146,4,136 ; vgatherdps %ymm2,(%r8,%ymm1,4),%ymm0
DB 196,193,97,219,201 ; vpand %xmm9,%xmm3,%xmm1
DB 196,226,125,51,209 ; vpmovzxwd %xmm1,%ymm2
DB 197,229,118,219 ; vpcmpeqd %ymm3,%ymm3,%ymm3
- DB 196,194,101,146,12,146 ; vgatherdps %ymm3,(%r10,%ymm2,4),%ymm1
+ DB 196,194,101,146,12,145 ; vgatherdps %ymm3,(%r9,%ymm2,4),%ymm1
DB 72,139,64,24 ; mov 0x18(%rax),%rax
DB 196,193,57,219,209 ; vpand %xmm9,%xmm8,%xmm2
DB 196,226,125,51,218 ; vpmovzxwd %xmm2,%ymm3
DB 196,226,45,146,20,152 ; vgatherdps %ymm10,(%rax,%ymm3,4),%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,180,156,2,0 ; vbroadcastss 0x29cb4(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,236,156,2,0 ; vbroadcastss 0x29cec(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 255,224 ; jmpq *%rax
- DB 196,129,121,110,4,81 ; vmovd (%r9,%r10,2),%xmm0
- DB 196,1,121,196,92,81,4,2 ; vpinsrw $0x2,0x4(%r9,%r10,2),%xmm0,%xmm11
+ DB 196,129,121,110,4,72 ; vmovd (%r8,%r9,2),%xmm0
+ DB 196,1,121,196,92,72,4,2 ; vpinsrw $0x2,0x4(%r8,%r9,2),%xmm0,%xmm11
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,32 ; jne 2443 <_sk_load_tables_rgb_u16_be_hsw+0x10c>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,32 ; jne 2433 <_sk_load_tables_rgb_u16_be_hsw+0x10c>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
DB 197,225,239,219 ; vpxor %xmm3,%xmm3,%xmm3
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 233,59,255,255,255 ; jmpq 237e <_sk_load_tables_rgb_u16_be_hsw+0x47>
- DB 196,129,121,110,68,81,6 ; vmovd 0x6(%r9,%r10,2),%xmm0
- DB 196,1,121,196,68,81,10,2 ; vpinsrw $0x2,0xa(%r9,%r10,2),%xmm0,%xmm8
+ DB 233,59,255,255,255 ; jmpq 236e <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ DB 196,129,121,110,68,72,6 ; vmovd 0x6(%r8,%r9,2),%xmm0
+ DB 196,1,121,196,68,72,10,2 ; vpinsrw $0x2,0xa(%r8,%r9,2),%xmm0,%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,49 ; jb 248e <_sk_load_tables_rgb_u16_be_hsw+0x157>
- DB 196,129,121,110,68,81,12 ; vmovd 0xc(%r9,%r10,2),%xmm0
- DB 196,129,121,196,92,81,16,2 ; vpinsrw $0x2,0x10(%r9,%r10,2),%xmm0,%xmm3
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,49 ; jb 247e <_sk_load_tables_rgb_u16_be_hsw+0x157>
+ DB 196,129,121,110,68,72,12 ; vmovd 0xc(%r8,%r9,2),%xmm0
+ DB 196,129,121,196,92,72,16,2 ; vpinsrw $0x2,0x10(%r8,%r9,2),%xmm0,%xmm3
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 117,50 ; jne 24a9 <_sk_load_tables_rgb_u16_be_hsw+0x172>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 117,50 ; jne 2499 <_sk_load_tables_rgb_u16_be_hsw+0x172>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
- DB 233,240,254,255,255 ; jmpq 237e <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ DB 233,240,254,255,255 ; jmpq 236e <_sk_load_tables_rgb_u16_be_hsw+0x47>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
DB 197,225,239,219 ; vpxor %xmm3,%xmm3,%xmm3
- DB 233,213,254,255,255 ; jmpq 237e <_sk_load_tables_rgb_u16_be_hsw+0x47>
- DB 196,129,121,110,68,81,18 ; vmovd 0x12(%r9,%r10,2),%xmm0
- DB 196,1,121,196,84,81,22,2 ; vpinsrw $0x2,0x16(%r9,%r10,2),%xmm0,%xmm10
+ DB 233,213,254,255,255 ; jmpq 236e <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ DB 196,129,121,110,68,72,18 ; vmovd 0x12(%r8,%r9,2),%xmm0
+ DB 196,1,121,196,84,72,22,2 ; vpinsrw $0x2,0x16(%r8,%r9,2),%xmm0,%xmm10
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,40 ; jb 24eb <_sk_load_tables_rgb_u16_be_hsw+0x1b4>
- DB 196,129,121,110,68,81,24 ; vmovd 0x18(%r9,%r10,2),%xmm0
- DB 196,129,121,196,84,81,28,2 ; vpinsrw $0x2,0x1c(%r9,%r10,2),%xmm0,%xmm2
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,40 ; jb 24db <_sk_load_tables_rgb_u16_be_hsw+0x1b4>
+ DB 196,129,121,110,68,72,24 ; vmovd 0x18(%r8,%r9,2),%xmm0
+ DB 196,129,121,196,84,72,28,2 ; vpinsrw $0x2,0x1c(%r8,%r9,2),%xmm0,%xmm2
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 117,32 ; jne 24fd <_sk_load_tables_rgb_u16_be_hsw+0x1c6>
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 117,32 ; jne 24ed <_sk_load_tables_rgb_u16_be_hsw+0x1c6>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
- DB 233,147,254,255,255 ; jmpq 237e <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ DB 233,147,254,255,255 ; jmpq 236e <_sk_load_tables_rgb_u16_be_hsw+0x47>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
- DB 233,129,254,255,255 ; jmpq 237e <_sk_load_tables_rgb_u16_be_hsw+0x47>
- DB 196,129,121,110,68,81,30 ; vmovd 0x1e(%r9,%r10,2),%xmm0
- DB 196,1,121,196,100,81,34,2 ; vpinsrw $0x2,0x22(%r9,%r10,2),%xmm0,%xmm12
+ DB 233,129,254,255,255 ; jmpq 236e <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ DB 196,129,121,110,68,72,30 ; vmovd 0x1e(%r8,%r9,2),%xmm0
+ DB 196,1,121,196,100,72,34,2 ; vpinsrw $0x2,0x22(%r8,%r9,2),%xmm0,%xmm12
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 114,25 ; jb 2530 <_sk_load_tables_rgb_u16_be_hsw+0x1f9>
- DB 196,129,121,110,68,81,36 ; vmovd 0x24(%r9,%r10,2),%xmm0
- DB 196,129,121,196,68,81,40,2 ; vpinsrw $0x2,0x28(%r9,%r10,2),%xmm0,%xmm0
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 114,25 ; jb 2520 <_sk_load_tables_rgb_u16_be_hsw+0x1f9>
+ DB 196,129,121,110,68,72,36 ; vmovd 0x24(%r8,%r9,2),%xmm0
+ DB 196,129,121,196,68,72,40,2 ; vpinsrw $0x2,0x28(%r8,%r9,2),%xmm0,%xmm0
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 233,78,254,255,255 ; jmpq 237e <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ DB 233,78,254,255,255 ; jmpq 236e <_sk_load_tables_rgb_u16_be_hsw+0x47>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 233,69,254,255,255 ; jmpq 237e <_sk_load_tables_rgb_u16_be_hsw+0x47>
+ DB 233,69,254,255,255 ; jmpq 236e <_sk_load_tables_rgb_u16_be_hsw+0x47>
PUBLIC _sk_byte_tables_hsw
_sk_byte_tables_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,98,125,24,5,164,155,2,0 ; vbroadcastss 0x29ba4(%rip),%ymm8 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 196,98,125,24,5,220,155,2,0 ; vbroadcastss 0x29bdc(%rip),%ymm8 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
DB 197,125,91,200 ; vcvtps2dq %ymm0,%ymm9
- DB 196,65,249,126,201 ; vmovq %xmm9,%r9
+ DB 196,65,249,126,200 ; vmovq %xmm9,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 76,139,16 ; mov (%rax),%r10
+ DB 196,131,121,32,4,10,0 ; vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm0
+ DB 196,67,249,22,201,1 ; vpextrq $0x1,%xmm9,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,3,121,32,20,2,1 ; vpinsrb $0x1,(%r10,%r8,1),%xmm0,%xmm10
+ DB 69,137,200 ; mov %r9d,%r8d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,99,125,57,200,1 ; vextracti128 $0x1,%ymm9,%xmm0
+ DB 71,15,182,4,2 ; movzbl (%r10,%r8,1),%r8d
+ DB 196,67,41,32,200,2 ; vpinsrb $0x2,%r8d,%xmm10,%xmm9
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
+ DB 196,67,49,32,201,3 ; vpinsrb $0x3,%r9d,%xmm9,%xmm9
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
+ DB 196,67,49,32,201,4 ; vpinsrb $0x4,%r9d,%xmm9,%xmm9
+ DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 71,15,182,4,2 ; movzbl (%r10,%r8,1),%r8d
+ DB 196,195,49,32,192,5 ; vpinsrb $0x5,%r8d,%xmm9,%xmm0
+ DB 69,137,200 ; mov %r9d,%r8d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 71,15,182,4,2 ; movzbl (%r10,%r8,1),%r8d
+ DB 196,195,121,32,192,6 ; vpinsrb $0x6,%r8d,%xmm0,%xmm0
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
+ DB 196,67,121,32,201,7 ; vpinsrb $0x7,%r9d,%xmm0,%xmm9
+ DB 196,193,116,89,200 ; vmulps %ymm8,%ymm1,%ymm1
+ DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
DB 69,137,202 ; mov %r9d,%r10d
- DB 76,139,24 ; mov (%rax),%r11
- DB 196,131,121,32,4,19,0 ; vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm0
- DB 196,67,249,22,202,1 ; vpextrq $0x1,%xmm9,%r10
+ DB 196,131,121,32,4,16,0 ; vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm0
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,3,121,32,20,11,1 ; vpinsrb $0x1,(%r11,%r9,1),%xmm0,%xmm10
+ DB 196,131,121,32,4,8,1 ; vpinsrb $0x1,(%r8,%r9,1),%xmm0,%xmm0
DB 69,137,209 ; mov %r10d,%r9d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,99,125,57,200,1 ; vextracti128 $0x1,%ymm9,%xmm0
- DB 71,15,182,12,11 ; movzbl (%r11,%r9,1),%r9d
- DB 196,67,41,32,201,2 ; vpinsrb $0x2,%r9d,%xmm10,%xmm9
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 71,15,182,20,19 ; movzbl (%r11,%r10,1),%r10d
- DB 196,67,49,32,202,3 ; vpinsrb $0x3,%r10d,%xmm9,%xmm9
+ DB 196,227,125,57,201,1 ; vextracti128 $0x1,%ymm1,%xmm1
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,121,32,193,2 ; vpinsrb $0x2,%r9d,%xmm0,%xmm0
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 196,195,121,32,194,3 ; vpinsrb $0x3,%r10d,%xmm0,%xmm0
DB 69,137,202 ; mov %r9d,%r10d
- DB 71,15,182,20,19 ; movzbl (%r11,%r10,1),%r10d
- DB 196,67,49,32,202,4 ; vpinsrb $0x4,%r10d,%xmm9,%xmm9
- DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 196,195,121,32,194,4 ; vpinsrb $0x4,%r10d,%xmm0,%xmm0
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
DB 73,193,233,32 ; shr $0x20,%r9
- DB 71,15,182,12,11 ; movzbl (%r11,%r9,1),%r9d
- DB 196,195,49,32,193,5 ; vpinsrb $0x5,%r9d,%xmm9,%xmm0
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,121,32,193,5 ; vpinsrb $0x5,%r9d,%xmm0,%xmm0
DB 69,137,209 ; mov %r10d,%r9d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 71,15,182,12,11 ; movzbl (%r11,%r9,1),%r9d
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
DB 196,195,121,32,193,6 ; vpinsrb $0x6,%r9d,%xmm0,%xmm0
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
- DB 71,15,182,20,19 ; movzbl (%r11,%r10,1),%r10d
- DB 196,67,121,32,202,7 ; vpinsrb $0x7,%r10d,%xmm0,%xmm9
- DB 196,193,116,89,200 ; vmulps %ymm8,%ymm1,%ymm1
- DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,131,121,32,4,25,0 ; vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm0
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,121,32,4,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm0,%xmm0
- DB 69,137,218 ; mov %r11d,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,227,125,57,201,1 ; vextracti128 $0x1,%ymm1,%xmm1
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,121,32,194,2 ; vpinsrb $0x2,%r10d,%xmm0,%xmm0
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 196,195,121,32,195,3 ; vpinsrb $0x3,%r11d,%xmm0,%xmm0
- DB 69,137,211 ; mov %r10d,%r11d
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 196,195,121,32,195,4 ; vpinsrb $0x4,%r11d,%xmm0,%xmm0
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,121,32,194,5 ; vpinsrb $0x5,%r10d,%xmm0,%xmm0
- DB 69,137,218 ; mov %r11d,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,121,32,194,6 ; vpinsrb $0x6,%r10d,%xmm0,%xmm0
- DB 71,15,182,12,25 ; movzbl (%r9,%r11,1),%r9d
- DB 196,195,121,32,201,7 ; vpinsrb $0x7,%r9d,%xmm0,%xmm1
- DB 76,139,72,16 ; mov 0x10(%rax),%r9
+ DB 71,15,182,4,16 ; movzbl (%r8,%r10,1),%r8d
+ DB 196,195,121,32,200,7 ; vpinsrb $0x7,%r8d,%xmm0,%xmm1
+ DB 76,139,64,16 ; mov 0x10(%rax),%r8
DB 196,193,108,89,192 ; vmulps %ymm8,%ymm2,%ymm0
DB 197,253,91,192 ; vcvtps2dq %ymm0,%ymm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,131,121,32,20,25,0 ; vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm2
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 196,131,121,32,20,16,0 ; vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm2
+ DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,131,105,32,20,8,1 ; vpinsrb $0x1,(%r8,%r9,1),%xmm2,%xmm2
+ DB 69,137,209 ; mov %r10d,%r9d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,105,32,20,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm2
- DB 69,137,218 ; mov %r11d,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
DB 196,227,125,57,192,1 ; vextracti128 $0x1,%ymm0,%xmm0
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,105,32,210,2 ; vpinsrb $0x2,%r10d,%xmm2,%xmm2
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 196,195,105,32,211,3 ; vpinsrb $0x3,%r11d,%xmm2,%xmm2
- DB 69,137,211 ; mov %r10d,%r11d
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 196,195,105,32,211,4 ; vpinsrb $0x4,%r11d,%xmm2,%xmm2
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,105,32,209,2 ; vpinsrb $0x2,%r9d,%xmm2,%xmm2
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 196,195,105,32,210,3 ; vpinsrb $0x3,%r10d,%xmm2,%xmm2
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 196,195,105,32,210,4 ; vpinsrb $0x4,%r10d,%xmm2,%xmm2
+ DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,105,32,193,5 ; vpinsrb $0x5,%r9d,%xmm2,%xmm0
+ DB 69,137,209 ; mov %r10d,%r9d
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,121,32,193,6 ; vpinsrb $0x6,%r9d,%xmm0,%xmm0
DB 73,193,234,32 ; shr $0x20,%r10
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,105,32,194,5 ; vpinsrb $0x5,%r10d,%xmm2,%xmm0
- DB 69,137,218 ; mov %r11d,%r10d
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,121,32,194,6 ; vpinsrb $0x6,%r10d,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 71,15,182,12,25 ; movzbl (%r9,%r11,1),%r9d
- DB 196,195,121,32,209,7 ; vpinsrb $0x7,%r9d,%xmm0,%xmm2
- DB 76,139,80,24 ; mov 0x18(%rax),%r10
+ DB 71,15,182,4,16 ; movzbl (%r8,%r10,1),%r8d
+ DB 196,195,121,32,208,7 ; vpinsrb $0x7,%r8d,%xmm0,%xmm2
+ DB 76,139,72,24 ; mov 0x18(%rax),%r9
DB 196,193,100,89,192 ; vmulps %ymm8,%ymm3,%ymm0
DB 197,253,91,192 ; vcvtps2dq %ymm0,%ymm0
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 68,137,200 ; mov %r9d,%eax
- DB 196,195,121,32,28,2,0 ; vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm3
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 196,195,121,32,28,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm3
DB 196,227,249,22,192,1 ; vpextrq $0x1,%xmm0,%rax
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,131,97,32,28,10,1 ; vpinsrb $0x1,(%r10,%r9,1),%xmm3,%xmm3
- DB 65,137,193 ; mov %eax,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,131,97,32,28,1,1 ; vpinsrb $0x1,(%r9,%r8,1),%xmm3,%xmm3
+ DB 65,137,192 ; mov %eax,%r8d
DB 72,193,232,32 ; shr $0x20,%rax
DB 196,227,125,57,192,1 ; vextracti128 $0x1,%ymm0,%xmm0
- DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
- DB 196,195,97,32,217,2 ; vpinsrb $0x2,%r9d,%xmm3,%xmm3
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 65,15,182,4,2 ; movzbl (%r10,%rax,1),%eax
+ DB 71,15,182,4,1 ; movzbl (%r9,%r8,1),%r8d
+ DB 196,195,97,32,216,2 ; vpinsrb $0x2,%r8d,%xmm3,%xmm3
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
DB 196,227,97,32,216,3 ; vpinsrb $0x3,%eax,%xmm3,%xmm3
- DB 68,137,200 ; mov %r9d,%eax
- DB 65,15,182,4,2 ; movzbl (%r10,%rax,1),%eax
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
DB 196,227,97,32,216,4 ; vpinsrb $0x4,%eax,%xmm3,%xmm3
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 67,15,182,4,10 ; movzbl (%r10,%r9,1),%eax
+ DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 67,15,182,4,1 ; movzbl (%r9,%r8,1),%eax
DB 196,227,97,32,192,5 ; vpinsrb $0x5,%eax,%xmm3,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,182,4,2 ; movzbl (%r10,%rax,1),%eax
+ DB 68,137,208 ; mov %r10d,%eax
+ DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
DB 196,227,121,32,216,6 ; vpinsrb $0x6,%eax,%xmm0,%xmm3
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,182,4,26 ; movzbl (%r10,%r11,1),%eax
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 67,15,182,4,17 ; movzbl (%r9,%r10,1),%eax
DB 196,194,125,49,193 ; vpmovzxbd %xmm9,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,5,141,153,2,0 ; vbroadcastss 0x2998d(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,197,153,2,0 ; vbroadcastss 0x299c5(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
DB 196,226,125,49,201 ; vpmovzxbd %xmm1,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
@@ -2424,103 +2411,103 @@ _sk_byte_tables_hsw LABEL PROC
PUBLIC _sk_byte_tables_rgb_hsw
_sk_byte_tables_rgb_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,24 ; mov 0x18(%rax),%r9d
- DB 65,255,201 ; dec %r9d
- DB 196,65,121,110,193 ; vmovd %r9d,%xmm8
+ DB 68,139,64,24 ; mov 0x18(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 196,65,121,110,192 ; vmovd %r8d,%xmm8
DB 196,66,125,88,192 ; vpbroadcastd %xmm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 197,125,91,200 ; vcvtps2dq %ymm0,%ymm9
- DB 196,65,249,126,201 ; vmovq %xmm9,%r9
+ DB 196,65,249,126,200 ; vmovq %xmm9,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 76,139,16 ; mov (%rax),%r10
+ DB 196,131,121,32,4,10,0 ; vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm0
+ DB 196,67,249,22,201,1 ; vpextrq $0x1,%xmm9,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,3,121,32,20,2,1 ; vpinsrb $0x1,(%r10,%r8,1),%xmm0,%xmm10
+ DB 69,137,200 ; mov %r9d,%r8d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,99,125,57,200,1 ; vextracti128 $0x1,%ymm9,%xmm0
+ DB 71,15,182,4,2 ; movzbl (%r10,%r8,1),%r8d
+ DB 196,67,41,32,200,2 ; vpinsrb $0x2,%r8d,%xmm10,%xmm9
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
+ DB 196,67,49,32,201,3 ; vpinsrb $0x3,%r9d,%xmm9,%xmm9
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
+ DB 196,67,49,32,201,4 ; vpinsrb $0x4,%r9d,%xmm9,%xmm9
+ DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 71,15,182,4,2 ; movzbl (%r10,%r8,1),%r8d
+ DB 196,195,49,32,192,5 ; vpinsrb $0x5,%r8d,%xmm9,%xmm0
+ DB 69,137,200 ; mov %r9d,%r8d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 71,15,182,4,2 ; movzbl (%r10,%r8,1),%r8d
+ DB 196,195,121,32,192,6 ; vpinsrb $0x6,%r8d,%xmm0,%xmm0
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
+ DB 196,67,121,32,201,7 ; vpinsrb $0x7,%r9d,%xmm0,%xmm9
+ DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
+ DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
DB 69,137,202 ; mov %r9d,%r10d
- DB 76,139,24 ; mov (%rax),%r11
- DB 196,131,121,32,4,19,0 ; vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm0
- DB 196,67,249,22,202,1 ; vpextrq $0x1,%xmm9,%r10
+ DB 196,131,121,32,4,16,0 ; vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm0
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,3,121,32,20,11,1 ; vpinsrb $0x1,(%r11,%r9,1),%xmm0,%xmm10
+ DB 196,131,121,32,4,8,1 ; vpinsrb $0x1,(%r8,%r9,1),%xmm0,%xmm0
DB 69,137,209 ; mov %r10d,%r9d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,99,125,57,200,1 ; vextracti128 $0x1,%ymm9,%xmm0
- DB 71,15,182,12,11 ; movzbl (%r11,%r9,1),%r9d
- DB 196,67,41,32,201,2 ; vpinsrb $0x2,%r9d,%xmm10,%xmm9
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 71,15,182,20,19 ; movzbl (%r11,%r10,1),%r10d
- DB 196,67,49,32,202,3 ; vpinsrb $0x3,%r10d,%xmm9,%xmm9
+ DB 196,227,125,57,201,1 ; vextracti128 $0x1,%ymm1,%xmm1
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,121,32,193,2 ; vpinsrb $0x2,%r9d,%xmm0,%xmm0
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 196,195,121,32,194,3 ; vpinsrb $0x3,%r10d,%xmm0,%xmm0
DB 69,137,202 ; mov %r9d,%r10d
- DB 71,15,182,20,19 ; movzbl (%r11,%r10,1),%r10d
- DB 196,67,49,32,202,4 ; vpinsrb $0x4,%r10d,%xmm9,%xmm9
- DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 196,195,121,32,194,4 ; vpinsrb $0x4,%r10d,%xmm0,%xmm0
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
DB 73,193,233,32 ; shr $0x20,%r9
- DB 71,15,182,12,11 ; movzbl (%r11,%r9,1),%r9d
- DB 196,195,49,32,193,5 ; vpinsrb $0x5,%r9d,%xmm9,%xmm0
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,121,32,193,5 ; vpinsrb $0x5,%r9d,%xmm0,%xmm0
DB 69,137,209 ; mov %r10d,%r9d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 71,15,182,12,11 ; movzbl (%r11,%r9,1),%r9d
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
DB 196,195,121,32,193,6 ; vpinsrb $0x6,%r9d,%xmm0,%xmm0
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
- DB 71,15,182,20,19 ; movzbl (%r11,%r10,1),%r10d
- DB 196,67,121,32,202,7 ; vpinsrb $0x7,%r10d,%xmm0,%xmm9
- DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
- DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,131,121,32,4,25,0 ; vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm0
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,121,32,4,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm0,%xmm0
- DB 69,137,218 ; mov %r11d,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,227,125,57,201,1 ; vextracti128 $0x1,%ymm1,%xmm1
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,121,32,194,2 ; vpinsrb $0x2,%r10d,%xmm0,%xmm0
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 196,195,121,32,195,3 ; vpinsrb $0x3,%r11d,%xmm0,%xmm0
- DB 69,137,211 ; mov %r10d,%r11d
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 196,195,121,32,195,4 ; vpinsrb $0x4,%r11d,%xmm0,%xmm0
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
DB 73,193,234,32 ; shr $0x20,%r10
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,121,32,194,5 ; vpinsrb $0x5,%r10d,%xmm0,%xmm0
- DB 69,137,218 ; mov %r11d,%r10d
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,121,32,194,6 ; vpinsrb $0x6,%r10d,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 71,15,182,12,25 ; movzbl (%r9,%r11,1),%r9d
- DB 196,195,121,32,201,7 ; vpinsrb $0x7,%r9d,%xmm0,%xmm1
- DB 76,139,80,16 ; mov 0x10(%rax),%r10
+ DB 71,15,182,4,16 ; movzbl (%r8,%r10,1),%r8d
+ DB 196,195,121,32,200,7 ; vpinsrb $0x7,%r8d,%xmm0,%xmm1
+ DB 76,139,72,16 ; mov 0x10(%rax),%r9
DB 197,188,89,194 ; vmulps %ymm2,%ymm8,%ymm0
DB 197,253,91,192 ; vcvtps2dq %ymm0,%ymm0
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 68,137,200 ; mov %r9d,%eax
- DB 196,195,121,32,20,2,0 ; vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm2
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 196,195,121,32,20,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
DB 196,227,249,22,192,1 ; vpextrq $0x1,%xmm0,%rax
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,131,105,32,20,10,1 ; vpinsrb $0x1,(%r10,%r9,1),%xmm2,%xmm2
- DB 65,137,193 ; mov %eax,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,131,105,32,20,1,1 ; vpinsrb $0x1,(%r9,%r8,1),%xmm2,%xmm2
+ DB 65,137,192 ; mov %eax,%r8d
DB 72,193,232,32 ; shr $0x20,%rax
DB 196,227,125,57,192,1 ; vextracti128 $0x1,%ymm0,%xmm0
- DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
- DB 196,195,105,32,209,2 ; vpinsrb $0x2,%r9d,%xmm2,%xmm2
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 65,15,182,4,2 ; movzbl (%r10,%rax,1),%eax
+ DB 71,15,182,4,1 ; movzbl (%r9,%r8,1),%r8d
+ DB 196,195,105,32,208,2 ; vpinsrb $0x2,%r8d,%xmm2,%xmm2
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
DB 196,227,105,32,208,3 ; vpinsrb $0x3,%eax,%xmm2,%xmm2
- DB 68,137,200 ; mov %r9d,%eax
- DB 65,15,182,4,2 ; movzbl (%r10,%rax,1),%eax
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
DB 196,227,105,32,208,4 ; vpinsrb $0x4,%eax,%xmm2,%xmm2
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 67,15,182,4,10 ; movzbl (%r10,%r9,1),%eax
+ DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 67,15,182,4,1 ; movzbl (%r9,%r8,1),%eax
DB 196,227,105,32,192,5 ; vpinsrb $0x5,%eax,%xmm2,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,182,4,2 ; movzbl (%r10,%rax,1),%eax
+ DB 68,137,208 ; mov %r10d,%eax
+ DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
DB 196,227,121,32,208,6 ; vpinsrb $0x6,%eax,%xmm0,%xmm2
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,182,4,26 ; movzbl (%r10,%r11,1),%eax
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 67,15,182,4,17 ; movzbl (%r9,%r10,1),%eax
DB 196,194,125,49,193 ; vpmovzxbd %xmm9,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,5,117,151,2,0 ; vbroadcastss 0x29775(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,173,151,2,0 ; vbroadcastss 0x297ad(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
DB 196,226,125,49,201 ; vpmovzxbd %xmm1,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
@@ -2535,7 +2522,7 @@ _sk_byte_tables_rgb_hsw LABEL PROC
PUBLIC _sk_table_r_hsw
_sk_table_r_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
@@ -2544,14 +2531,14 @@ _sk_table_r_hsw LABEL PROC
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 197,125,91,192 ; vcvtps2dq %ymm0,%ymm8
DB 196,65,53,118,201 ; vpcmpeqd %ymm9,%ymm9,%ymm9
- DB 196,130,53,146,4,129 ; vgatherdps %ymm9,(%r9,%ymm8,4),%ymm0
+ DB 196,130,53,146,4,128 ; vgatherdps %ymm9,(%r8,%ymm8,4),%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_g_hsw
_sk_table_g_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
@@ -2560,14 +2547,14 @@ _sk_table_g_hsw LABEL PROC
DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
DB 197,125,91,193 ; vcvtps2dq %ymm1,%ymm8
DB 196,65,53,118,201 ; vpcmpeqd %ymm9,%ymm9,%ymm9
- DB 196,130,53,146,12,129 ; vgatherdps %ymm9,(%r9,%ymm8,4),%ymm1
+ DB 196,130,53,146,12,128 ; vgatherdps %ymm9,(%r8,%ymm8,4),%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_b_hsw
_sk_table_b_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
@@ -2576,14 +2563,14 @@ _sk_table_b_hsw LABEL PROC
DB 197,188,89,210 ; vmulps %ymm2,%ymm8,%ymm2
DB 197,125,91,194 ; vcvtps2dq %ymm2,%ymm8
DB 196,65,53,118,201 ; vpcmpeqd %ymm9,%ymm9,%ymm9
- DB 196,130,53,146,20,129 ; vgatherdps %ymm9,(%r9,%ymm8,4),%ymm2
+ DB 196,130,53,146,20,128 ; vgatherdps %ymm9,(%r8,%ymm8,4),%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_a_hsw
_sk_table_a_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
@@ -2592,7 +2579,7 @@ _sk_table_a_hsw LABEL PROC
DB 197,188,89,219 ; vmulps %ymm3,%ymm8,%ymm3
DB 197,125,91,195 ; vcvtps2dq %ymm3,%ymm8
DB 196,65,53,118,201 ; vpcmpeqd %ymm9,%ymm9,%ymm9
- DB 196,130,53,146,28,129 ; vgatherdps %ymm9,(%r9,%ymm8,4),%ymm3
+ DB 196,130,53,146,28,128 ; vgatherdps %ymm9,(%r8,%ymm8,4),%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -2609,33 +2596,33 @@ _sk_parametric_r_hsw LABEL PROC
DB 196,66,125,168,211 ; vfmadd213ps %ymm11,%ymm0,%ymm10
DB 196,226,125,24,0 ; vbroadcastss (%rax),%ymm0
DB 196,65,124,91,218 ; vcvtdq2ps %ymm10,%ymm11
- DB 196,98,125,24,37,107,150,2,0 ; vbroadcastss 0x2966b(%rip),%ymm12 # 2c150 <_sk_overlay_sse2_8bit+0x503>
- DB 196,98,125,24,45,102,150,2,0 ; vbroadcastss 0x29666(%rip),%ymm13 # 2c154 <_sk_overlay_sse2_8bit+0x507>
+ DB 196,98,125,24,37,163,150,2,0 ; vbroadcastss 0x296a3(%rip),%ymm12 # 2c178 <_sk_overlay_sse2_8bit+0x503>
+ DB 196,98,125,24,45,158,150,2,0 ; vbroadcastss 0x2969e(%rip),%ymm13 # 2c17c <_sk_overlay_sse2_8bit+0x507>
DB 196,65,44,84,213 ; vandps %ymm13,%ymm10,%ymm10
- DB 196,98,125,24,45,188,149,2,0 ; vbroadcastss 0x295bc(%rip),%ymm13 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,45,244,149,2,0 ; vbroadcastss 0x295f4(%rip),%ymm13 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,44,86,213 ; vorps %ymm13,%ymm10,%ymm10
- DB 196,98,125,24,45,78,150,2,0 ; vbroadcastss 0x2964e(%rip),%ymm13 # 2c158 <_sk_overlay_sse2_8bit+0x50b>
+ DB 196,98,125,24,45,134,150,2,0 ; vbroadcastss 0x29686(%rip),%ymm13 # 2c180 <_sk_overlay_sse2_8bit+0x50b>
DB 196,66,37,184,236 ; vfmadd231ps %ymm12,%ymm11,%ymm13
- DB 196,98,125,24,29,68,150,2,0 ; vbroadcastss 0x29644(%rip),%ymm11 # 2c15c <_sk_overlay_sse2_8bit+0x50f>
+ DB 196,98,125,24,29,124,150,2,0 ; vbroadcastss 0x2967c(%rip),%ymm11 # 2c184 <_sk_overlay_sse2_8bit+0x50f>
DB 196,66,45,172,221 ; vfnmadd213ps %ymm13,%ymm10,%ymm11
- DB 196,98,125,24,37,58,150,2,0 ; vbroadcastss 0x2963a(%rip),%ymm12 # 2c160 <_sk_overlay_sse2_8bit+0x513>
+ DB 196,98,125,24,37,114,150,2,0 ; vbroadcastss 0x29672(%rip),%ymm12 # 2c188 <_sk_overlay_sse2_8bit+0x513>
DB 196,65,44,88,212 ; vaddps %ymm12,%ymm10,%ymm10
- DB 196,98,125,24,37,48,150,2,0 ; vbroadcastss 0x29630(%rip),%ymm12 # 2c164 <_sk_overlay_sse2_8bit+0x517>
+ DB 196,98,125,24,37,104,150,2,0 ; vbroadcastss 0x29668(%rip),%ymm12 # 2c18c <_sk_overlay_sse2_8bit+0x517>
DB 196,65,28,94,210 ; vdivps %ymm10,%ymm12,%ymm10
DB 196,65,36,92,210 ; vsubps %ymm10,%ymm11,%ymm10
DB 196,193,124,89,194 ; vmulps %ymm10,%ymm0,%ymm0
DB 196,99,125,8,208,1 ; vroundps $0x1,%ymm0,%ymm10
DB 196,65,124,92,210 ; vsubps %ymm10,%ymm0,%ymm10
- DB 196,98,125,24,29,17,150,2,0 ; vbroadcastss 0x29611(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x51b>
+ DB 196,98,125,24,29,73,150,2,0 ; vbroadcastss 0x29649(%rip),%ymm11 # 2c190 <_sk_overlay_sse2_8bit+0x51b>
DB 196,193,124,88,195 ; vaddps %ymm11,%ymm0,%ymm0
- DB 196,98,125,24,29,7,150,2,0 ; vbroadcastss 0x29607(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x51f>
+ DB 196,98,125,24,29,63,150,2,0 ; vbroadcastss 0x2963f(%rip),%ymm11 # 2c194 <_sk_overlay_sse2_8bit+0x51f>
DB 196,98,45,172,216 ; vfnmadd213ps %ymm0,%ymm10,%ymm11
- DB 196,226,125,24,5,253,149,2,0 ; vbroadcastss 0x295fd(%rip),%ymm0 # 2c170 <_sk_overlay_sse2_8bit+0x523>
+ DB 196,226,125,24,5,53,150,2,0 ; vbroadcastss 0x29635(%rip),%ymm0 # 2c198 <_sk_overlay_sse2_8bit+0x523>
DB 196,193,124,92,194 ; vsubps %ymm10,%ymm0,%ymm0
- DB 196,98,125,24,21,243,149,2,0 ; vbroadcastss 0x295f3(%rip),%ymm10 # 2c174 <_sk_overlay_sse2_8bit+0x527>
+ DB 196,98,125,24,21,43,150,2,0 ; vbroadcastss 0x2962b(%rip),%ymm10 # 2c19c <_sk_overlay_sse2_8bit+0x527>
DB 197,172,94,192 ; vdivps %ymm0,%ymm10,%ymm0
DB 197,164,88,192 ; vaddps %ymm0,%ymm11,%ymm0
- DB 196,98,125,24,21,230,149,2,0 ; vbroadcastss 0x295e6(%rip),%ymm10 # 2c178 <_sk_overlay_sse2_8bit+0x52b>
+ DB 196,98,125,24,21,30,150,2,0 ; vbroadcastss 0x2961e(%rip),%ymm10 # 2c1a0 <_sk_overlay_sse2_8bit+0x52b>
DB 196,193,124,89,194 ; vmulps %ymm10,%ymm0,%ymm0
DB 197,253,91,192 ; vcvtps2dq %ymm0,%ymm0
DB 196,98,125,24,80,20 ; vbroadcastss 0x14(%rax),%ymm10
@@ -2643,7 +2630,7 @@ _sk_parametric_r_hsw LABEL PROC
DB 196,195,125,74,193,128 ; vblendvps %ymm8,%ymm9,%ymm0,%ymm0
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 196,193,124,95,192 ; vmaxps %ymm8,%ymm0,%ymm0
- DB 196,98,125,24,5,253,148,2,0 ; vbroadcastss 0x294fd(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,53,149,2,0 ; vbroadcastss 0x29535(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,124,93,192 ; vminps %ymm8,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -2661,33 +2648,33 @@ _sk_parametric_g_hsw LABEL PROC
DB 196,66,117,168,211 ; vfmadd213ps %ymm11,%ymm1,%ymm10
DB 196,226,125,24,8 ; vbroadcastss (%rax),%ymm1
DB 196,65,124,91,218 ; vcvtdq2ps %ymm10,%ymm11
- DB 196,98,125,24,37,69,149,2,0 ; vbroadcastss 0x29545(%rip),%ymm12 # 2c150 <_sk_overlay_sse2_8bit+0x503>
- DB 196,98,125,24,45,64,149,2,0 ; vbroadcastss 0x29540(%rip),%ymm13 # 2c154 <_sk_overlay_sse2_8bit+0x507>
+ DB 196,98,125,24,37,125,149,2,0 ; vbroadcastss 0x2957d(%rip),%ymm12 # 2c178 <_sk_overlay_sse2_8bit+0x503>
+ DB 196,98,125,24,45,120,149,2,0 ; vbroadcastss 0x29578(%rip),%ymm13 # 2c17c <_sk_overlay_sse2_8bit+0x507>
DB 196,65,44,84,213 ; vandps %ymm13,%ymm10,%ymm10
- DB 196,98,125,24,45,150,148,2,0 ; vbroadcastss 0x29496(%rip),%ymm13 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,45,206,148,2,0 ; vbroadcastss 0x294ce(%rip),%ymm13 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,44,86,213 ; vorps %ymm13,%ymm10,%ymm10
- DB 196,98,125,24,45,40,149,2,0 ; vbroadcastss 0x29528(%rip),%ymm13 # 2c158 <_sk_overlay_sse2_8bit+0x50b>
+ DB 196,98,125,24,45,96,149,2,0 ; vbroadcastss 0x29560(%rip),%ymm13 # 2c180 <_sk_overlay_sse2_8bit+0x50b>
DB 196,66,37,184,236 ; vfmadd231ps %ymm12,%ymm11,%ymm13
- DB 196,98,125,24,29,30,149,2,0 ; vbroadcastss 0x2951e(%rip),%ymm11 # 2c15c <_sk_overlay_sse2_8bit+0x50f>
+ DB 196,98,125,24,29,86,149,2,0 ; vbroadcastss 0x29556(%rip),%ymm11 # 2c184 <_sk_overlay_sse2_8bit+0x50f>
DB 196,66,45,172,221 ; vfnmadd213ps %ymm13,%ymm10,%ymm11
- DB 196,98,125,24,37,20,149,2,0 ; vbroadcastss 0x29514(%rip),%ymm12 # 2c160 <_sk_overlay_sse2_8bit+0x513>
+ DB 196,98,125,24,37,76,149,2,0 ; vbroadcastss 0x2954c(%rip),%ymm12 # 2c188 <_sk_overlay_sse2_8bit+0x513>
DB 196,65,44,88,212 ; vaddps %ymm12,%ymm10,%ymm10
- DB 196,98,125,24,37,10,149,2,0 ; vbroadcastss 0x2950a(%rip),%ymm12 # 2c164 <_sk_overlay_sse2_8bit+0x517>
+ DB 196,98,125,24,37,66,149,2,0 ; vbroadcastss 0x29542(%rip),%ymm12 # 2c18c <_sk_overlay_sse2_8bit+0x517>
DB 196,65,28,94,210 ; vdivps %ymm10,%ymm12,%ymm10
DB 196,65,36,92,210 ; vsubps %ymm10,%ymm11,%ymm10
DB 196,193,116,89,202 ; vmulps %ymm10,%ymm1,%ymm1
DB 196,99,125,8,209,1 ; vroundps $0x1,%ymm1,%ymm10
DB 196,65,116,92,210 ; vsubps %ymm10,%ymm1,%ymm10
- DB 196,98,125,24,29,235,148,2,0 ; vbroadcastss 0x294eb(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x51b>
+ DB 196,98,125,24,29,35,149,2,0 ; vbroadcastss 0x29523(%rip),%ymm11 # 2c190 <_sk_overlay_sse2_8bit+0x51b>
DB 196,193,116,88,203 ; vaddps %ymm11,%ymm1,%ymm1
- DB 196,98,125,24,29,225,148,2,0 ; vbroadcastss 0x294e1(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x51f>
+ DB 196,98,125,24,29,25,149,2,0 ; vbroadcastss 0x29519(%rip),%ymm11 # 2c194 <_sk_overlay_sse2_8bit+0x51f>
DB 196,98,45,172,217 ; vfnmadd213ps %ymm1,%ymm10,%ymm11
- DB 196,226,125,24,13,215,148,2,0 ; vbroadcastss 0x294d7(%rip),%ymm1 # 2c170 <_sk_overlay_sse2_8bit+0x523>
+ DB 196,226,125,24,13,15,149,2,0 ; vbroadcastss 0x2950f(%rip),%ymm1 # 2c198 <_sk_overlay_sse2_8bit+0x523>
DB 196,193,116,92,202 ; vsubps %ymm10,%ymm1,%ymm1
- DB 196,98,125,24,21,205,148,2,0 ; vbroadcastss 0x294cd(%rip),%ymm10 # 2c174 <_sk_overlay_sse2_8bit+0x527>
+ DB 196,98,125,24,21,5,149,2,0 ; vbroadcastss 0x29505(%rip),%ymm10 # 2c19c <_sk_overlay_sse2_8bit+0x527>
DB 197,172,94,201 ; vdivps %ymm1,%ymm10,%ymm1
DB 197,164,88,201 ; vaddps %ymm1,%ymm11,%ymm1
- DB 196,98,125,24,21,192,148,2,0 ; vbroadcastss 0x294c0(%rip),%ymm10 # 2c178 <_sk_overlay_sse2_8bit+0x52b>
+ DB 196,98,125,24,21,248,148,2,0 ; vbroadcastss 0x294f8(%rip),%ymm10 # 2c1a0 <_sk_overlay_sse2_8bit+0x52b>
DB 196,193,116,89,202 ; vmulps %ymm10,%ymm1,%ymm1
DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
DB 196,98,125,24,80,20 ; vbroadcastss 0x14(%rax),%ymm10
@@ -2695,7 +2682,7 @@ _sk_parametric_g_hsw LABEL PROC
DB 196,195,117,74,201,128 ; vblendvps %ymm8,%ymm9,%ymm1,%ymm1
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 196,193,116,95,200 ; vmaxps %ymm8,%ymm1,%ymm1
- DB 196,98,125,24,5,215,147,2,0 ; vbroadcastss 0x293d7(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,15,148,2,0 ; vbroadcastss 0x2940f(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,116,93,200 ; vminps %ymm8,%ymm1,%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -2713,33 +2700,33 @@ _sk_parametric_b_hsw LABEL PROC
DB 196,66,109,168,211 ; vfmadd213ps %ymm11,%ymm2,%ymm10
DB 196,226,125,24,16 ; vbroadcastss (%rax),%ymm2
DB 196,65,124,91,218 ; vcvtdq2ps %ymm10,%ymm11
- DB 196,98,125,24,37,31,148,2,0 ; vbroadcastss 0x2941f(%rip),%ymm12 # 2c150 <_sk_overlay_sse2_8bit+0x503>
- DB 196,98,125,24,45,26,148,2,0 ; vbroadcastss 0x2941a(%rip),%ymm13 # 2c154 <_sk_overlay_sse2_8bit+0x507>
+ DB 196,98,125,24,37,87,148,2,0 ; vbroadcastss 0x29457(%rip),%ymm12 # 2c178 <_sk_overlay_sse2_8bit+0x503>
+ DB 196,98,125,24,45,82,148,2,0 ; vbroadcastss 0x29452(%rip),%ymm13 # 2c17c <_sk_overlay_sse2_8bit+0x507>
DB 196,65,44,84,213 ; vandps %ymm13,%ymm10,%ymm10
- DB 196,98,125,24,45,112,147,2,0 ; vbroadcastss 0x29370(%rip),%ymm13 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,45,168,147,2,0 ; vbroadcastss 0x293a8(%rip),%ymm13 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,44,86,213 ; vorps %ymm13,%ymm10,%ymm10
- DB 196,98,125,24,45,2,148,2,0 ; vbroadcastss 0x29402(%rip),%ymm13 # 2c158 <_sk_overlay_sse2_8bit+0x50b>
+ DB 196,98,125,24,45,58,148,2,0 ; vbroadcastss 0x2943a(%rip),%ymm13 # 2c180 <_sk_overlay_sse2_8bit+0x50b>
DB 196,66,37,184,236 ; vfmadd231ps %ymm12,%ymm11,%ymm13
- DB 196,98,125,24,29,248,147,2,0 ; vbroadcastss 0x293f8(%rip),%ymm11 # 2c15c <_sk_overlay_sse2_8bit+0x50f>
+ DB 196,98,125,24,29,48,148,2,0 ; vbroadcastss 0x29430(%rip),%ymm11 # 2c184 <_sk_overlay_sse2_8bit+0x50f>
DB 196,66,45,172,221 ; vfnmadd213ps %ymm13,%ymm10,%ymm11
- DB 196,98,125,24,37,238,147,2,0 ; vbroadcastss 0x293ee(%rip),%ymm12 # 2c160 <_sk_overlay_sse2_8bit+0x513>
+ DB 196,98,125,24,37,38,148,2,0 ; vbroadcastss 0x29426(%rip),%ymm12 # 2c188 <_sk_overlay_sse2_8bit+0x513>
DB 196,65,44,88,212 ; vaddps %ymm12,%ymm10,%ymm10
- DB 196,98,125,24,37,228,147,2,0 ; vbroadcastss 0x293e4(%rip),%ymm12 # 2c164 <_sk_overlay_sse2_8bit+0x517>
+ DB 196,98,125,24,37,28,148,2,0 ; vbroadcastss 0x2941c(%rip),%ymm12 # 2c18c <_sk_overlay_sse2_8bit+0x517>
DB 196,65,28,94,210 ; vdivps %ymm10,%ymm12,%ymm10
DB 196,65,36,92,210 ; vsubps %ymm10,%ymm11,%ymm10
DB 196,193,108,89,210 ; vmulps %ymm10,%ymm2,%ymm2
DB 196,99,125,8,210,1 ; vroundps $0x1,%ymm2,%ymm10
DB 196,65,108,92,210 ; vsubps %ymm10,%ymm2,%ymm10
- DB 196,98,125,24,29,197,147,2,0 ; vbroadcastss 0x293c5(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x51b>
+ DB 196,98,125,24,29,253,147,2,0 ; vbroadcastss 0x293fd(%rip),%ymm11 # 2c190 <_sk_overlay_sse2_8bit+0x51b>
DB 196,193,108,88,211 ; vaddps %ymm11,%ymm2,%ymm2
- DB 196,98,125,24,29,187,147,2,0 ; vbroadcastss 0x293bb(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x51f>
+ DB 196,98,125,24,29,243,147,2,0 ; vbroadcastss 0x293f3(%rip),%ymm11 # 2c194 <_sk_overlay_sse2_8bit+0x51f>
DB 196,98,45,172,218 ; vfnmadd213ps %ymm2,%ymm10,%ymm11
- DB 196,226,125,24,21,177,147,2,0 ; vbroadcastss 0x293b1(%rip),%ymm2 # 2c170 <_sk_overlay_sse2_8bit+0x523>
+ DB 196,226,125,24,21,233,147,2,0 ; vbroadcastss 0x293e9(%rip),%ymm2 # 2c198 <_sk_overlay_sse2_8bit+0x523>
DB 196,193,108,92,210 ; vsubps %ymm10,%ymm2,%ymm2
- DB 196,98,125,24,21,167,147,2,0 ; vbroadcastss 0x293a7(%rip),%ymm10 # 2c174 <_sk_overlay_sse2_8bit+0x527>
+ DB 196,98,125,24,21,223,147,2,0 ; vbroadcastss 0x293df(%rip),%ymm10 # 2c19c <_sk_overlay_sse2_8bit+0x527>
DB 197,172,94,210 ; vdivps %ymm2,%ymm10,%ymm2
DB 197,164,88,210 ; vaddps %ymm2,%ymm11,%ymm2
- DB 196,98,125,24,21,154,147,2,0 ; vbroadcastss 0x2939a(%rip),%ymm10 # 2c178 <_sk_overlay_sse2_8bit+0x52b>
+ DB 196,98,125,24,21,210,147,2,0 ; vbroadcastss 0x293d2(%rip),%ymm10 # 2c1a0 <_sk_overlay_sse2_8bit+0x52b>
DB 196,193,108,89,210 ; vmulps %ymm10,%ymm2,%ymm2
DB 197,253,91,210 ; vcvtps2dq %ymm2,%ymm2
DB 196,98,125,24,80,20 ; vbroadcastss 0x14(%rax),%ymm10
@@ -2747,7 +2734,7 @@ _sk_parametric_b_hsw LABEL PROC
DB 196,195,109,74,209,128 ; vblendvps %ymm8,%ymm9,%ymm2,%ymm2
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 196,193,108,95,208 ; vmaxps %ymm8,%ymm2,%ymm2
- DB 196,98,125,24,5,177,146,2,0 ; vbroadcastss 0x292b1(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,233,146,2,0 ; vbroadcastss 0x292e9(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,108,93,208 ; vminps %ymm8,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -2765,33 +2752,33 @@ _sk_parametric_a_hsw LABEL PROC
DB 196,66,101,168,211 ; vfmadd213ps %ymm11,%ymm3,%ymm10
DB 196,226,125,24,24 ; vbroadcastss (%rax),%ymm3
DB 196,65,124,91,218 ; vcvtdq2ps %ymm10,%ymm11
- DB 196,98,125,24,37,249,146,2,0 ; vbroadcastss 0x292f9(%rip),%ymm12 # 2c150 <_sk_overlay_sse2_8bit+0x503>
- DB 196,98,125,24,45,244,146,2,0 ; vbroadcastss 0x292f4(%rip),%ymm13 # 2c154 <_sk_overlay_sse2_8bit+0x507>
+ DB 196,98,125,24,37,49,147,2,0 ; vbroadcastss 0x29331(%rip),%ymm12 # 2c178 <_sk_overlay_sse2_8bit+0x503>
+ DB 196,98,125,24,45,44,147,2,0 ; vbroadcastss 0x2932c(%rip),%ymm13 # 2c17c <_sk_overlay_sse2_8bit+0x507>
DB 196,65,44,84,213 ; vandps %ymm13,%ymm10,%ymm10
- DB 196,98,125,24,45,74,146,2,0 ; vbroadcastss 0x2924a(%rip),%ymm13 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,45,130,146,2,0 ; vbroadcastss 0x29282(%rip),%ymm13 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,44,86,213 ; vorps %ymm13,%ymm10,%ymm10
- DB 196,98,125,24,45,220,146,2,0 ; vbroadcastss 0x292dc(%rip),%ymm13 # 2c158 <_sk_overlay_sse2_8bit+0x50b>
+ DB 196,98,125,24,45,20,147,2,0 ; vbroadcastss 0x29314(%rip),%ymm13 # 2c180 <_sk_overlay_sse2_8bit+0x50b>
DB 196,66,37,184,236 ; vfmadd231ps %ymm12,%ymm11,%ymm13
- DB 196,98,125,24,29,210,146,2,0 ; vbroadcastss 0x292d2(%rip),%ymm11 # 2c15c <_sk_overlay_sse2_8bit+0x50f>
+ DB 196,98,125,24,29,10,147,2,0 ; vbroadcastss 0x2930a(%rip),%ymm11 # 2c184 <_sk_overlay_sse2_8bit+0x50f>
DB 196,66,45,172,221 ; vfnmadd213ps %ymm13,%ymm10,%ymm11
- DB 196,98,125,24,37,200,146,2,0 ; vbroadcastss 0x292c8(%rip),%ymm12 # 2c160 <_sk_overlay_sse2_8bit+0x513>
+ DB 196,98,125,24,37,0,147,2,0 ; vbroadcastss 0x29300(%rip),%ymm12 # 2c188 <_sk_overlay_sse2_8bit+0x513>
DB 196,65,44,88,212 ; vaddps %ymm12,%ymm10,%ymm10
- DB 196,98,125,24,37,190,146,2,0 ; vbroadcastss 0x292be(%rip),%ymm12 # 2c164 <_sk_overlay_sse2_8bit+0x517>
+ DB 196,98,125,24,37,246,146,2,0 ; vbroadcastss 0x292f6(%rip),%ymm12 # 2c18c <_sk_overlay_sse2_8bit+0x517>
DB 196,65,28,94,210 ; vdivps %ymm10,%ymm12,%ymm10
DB 196,65,36,92,210 ; vsubps %ymm10,%ymm11,%ymm10
DB 196,193,100,89,218 ; vmulps %ymm10,%ymm3,%ymm3
DB 196,99,125,8,211,1 ; vroundps $0x1,%ymm3,%ymm10
DB 196,65,100,92,210 ; vsubps %ymm10,%ymm3,%ymm10
- DB 196,98,125,24,29,159,146,2,0 ; vbroadcastss 0x2929f(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x51b>
+ DB 196,98,125,24,29,215,146,2,0 ; vbroadcastss 0x292d7(%rip),%ymm11 # 2c190 <_sk_overlay_sse2_8bit+0x51b>
DB 196,193,100,88,219 ; vaddps %ymm11,%ymm3,%ymm3
- DB 196,98,125,24,29,149,146,2,0 ; vbroadcastss 0x29295(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x51f>
+ DB 196,98,125,24,29,205,146,2,0 ; vbroadcastss 0x292cd(%rip),%ymm11 # 2c194 <_sk_overlay_sse2_8bit+0x51f>
DB 196,98,45,172,219 ; vfnmadd213ps %ymm3,%ymm10,%ymm11
- DB 196,226,125,24,29,139,146,2,0 ; vbroadcastss 0x2928b(%rip),%ymm3 # 2c170 <_sk_overlay_sse2_8bit+0x523>
+ DB 196,226,125,24,29,195,146,2,0 ; vbroadcastss 0x292c3(%rip),%ymm3 # 2c198 <_sk_overlay_sse2_8bit+0x523>
DB 196,193,100,92,218 ; vsubps %ymm10,%ymm3,%ymm3
- DB 196,98,125,24,21,129,146,2,0 ; vbroadcastss 0x29281(%rip),%ymm10 # 2c174 <_sk_overlay_sse2_8bit+0x527>
+ DB 196,98,125,24,21,185,146,2,0 ; vbroadcastss 0x292b9(%rip),%ymm10 # 2c19c <_sk_overlay_sse2_8bit+0x527>
DB 197,172,94,219 ; vdivps %ymm3,%ymm10,%ymm3
DB 197,164,88,219 ; vaddps %ymm3,%ymm11,%ymm3
- DB 196,98,125,24,21,116,146,2,0 ; vbroadcastss 0x29274(%rip),%ymm10 # 2c178 <_sk_overlay_sse2_8bit+0x52b>
+ DB 196,98,125,24,21,172,146,2,0 ; vbroadcastss 0x292ac(%rip),%ymm10 # 2c1a0 <_sk_overlay_sse2_8bit+0x52b>
DB 196,193,100,89,218 ; vmulps %ymm10,%ymm3,%ymm3
DB 197,253,91,219 ; vcvtps2dq %ymm3,%ymm3
DB 196,98,125,24,80,20 ; vbroadcastss 0x14(%rax),%ymm10
@@ -2799,7 +2786,7 @@ _sk_parametric_a_hsw LABEL PROC
DB 196,195,101,74,217,128 ; vblendvps %ymm8,%ymm9,%ymm3,%ymm3
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 196,193,100,95,216 ; vmaxps %ymm8,%ymm3,%ymm3
- DB 196,98,125,24,5,139,145,2,0 ; vbroadcastss 0x2918b(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,195,145,2,0 ; vbroadcastss 0x291c3(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,100,93,216 ; vminps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -2816,35 +2803,35 @@ _sk_gamma_hsw LABEL PROC
DB 197,252,40,241 ; vmovaps %ymm1,%ymm6
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,124,91,208 ; vcvtdq2ps %ymm0,%ymm10
- DB 196,98,125,24,29,216,145,2,0 ; vbroadcastss 0x291d8(%rip),%ymm11 # 2c150 <_sk_overlay_sse2_8bit+0x503>
- DB 196,226,125,24,45,211,145,2,0 ; vbroadcastss 0x291d3(%rip),%ymm5 # 2c154 <_sk_overlay_sse2_8bit+0x507>
+ DB 196,98,125,24,29,16,146,2,0 ; vbroadcastss 0x29210(%rip),%ymm11 # 2c178 <_sk_overlay_sse2_8bit+0x503>
+ DB 196,226,125,24,45,11,146,2,0 ; vbroadcastss 0x2920b(%rip),%ymm5 # 2c17c <_sk_overlay_sse2_8bit+0x507>
DB 197,124,84,205 ; vandps %ymm5,%ymm0,%ymm9
- DB 196,226,125,24,37,42,145,2,0 ; vbroadcastss 0x2912a(%rip),%ymm4 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,226,125,24,37,98,145,2,0 ; vbroadcastss 0x29162(%rip),%ymm4 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,52,86,228 ; vorps %ymm4,%ymm9,%ymm12
- DB 196,98,125,24,45,189,145,2,0 ; vbroadcastss 0x291bd(%rip),%ymm13 # 2c158 <_sk_overlay_sse2_8bit+0x50b>
+ DB 196,98,125,24,45,245,145,2,0 ; vbroadcastss 0x291f5(%rip),%ymm13 # 2c180 <_sk_overlay_sse2_8bit+0x50b>
DB 196,66,37,168,213 ; vfmadd213ps %ymm13,%ymm11,%ymm10
- DB 196,98,125,24,13,179,145,2,0 ; vbroadcastss 0x291b3(%rip),%ymm9 # 2c15c <_sk_overlay_sse2_8bit+0x50f>
+ DB 196,98,125,24,13,235,145,2,0 ; vbroadcastss 0x291eb(%rip),%ymm9 # 2c184 <_sk_overlay_sse2_8bit+0x50f>
DB 196,66,29,188,209 ; vfnmadd231ps %ymm9,%ymm12,%ymm10
DB 197,124,91,246 ; vcvtdq2ps %ymm6,%ymm14
DB 196,66,37,168,245 ; vfmadd213ps %ymm13,%ymm11,%ymm14
DB 197,124,91,255 ; vcvtdq2ps %ymm7,%ymm15
DB 196,66,37,168,253 ; vfmadd213ps %ymm13,%ymm11,%ymm15
- DB 196,98,125,24,29,151,145,2,0 ; vbroadcastss 0x29197(%rip),%ymm11 # 2c160 <_sk_overlay_sse2_8bit+0x513>
+ DB 196,98,125,24,29,207,145,2,0 ; vbroadcastss 0x291cf(%rip),%ymm11 # 2c188 <_sk_overlay_sse2_8bit+0x513>
DB 196,65,28,88,227 ; vaddps %ymm11,%ymm12,%ymm12
- DB 196,98,125,24,45,141,145,2,0 ; vbroadcastss 0x2918d(%rip),%ymm13 # 2c164 <_sk_overlay_sse2_8bit+0x517>
+ DB 196,98,125,24,45,197,145,2,0 ; vbroadcastss 0x291c5(%rip),%ymm13 # 2c18c <_sk_overlay_sse2_8bit+0x517>
DB 196,65,20,94,228 ; vdivps %ymm12,%ymm13,%ymm12
DB 196,65,44,92,212 ; vsubps %ymm12,%ymm10,%ymm10
DB 196,98,125,24,32 ; vbroadcastss (%rax),%ymm12
DB 196,65,44,89,212 ; vmulps %ymm12,%ymm10,%ymm10
DB 196,67,125,8,194,1 ; vroundps $0x1,%ymm10,%ymm8
DB 196,65,44,92,192 ; vsubps %ymm8,%ymm10,%ymm8
- DB 196,226,125,24,21,105,145,2,0 ; vbroadcastss 0x29169(%rip),%ymm2 # 2c168 <_sk_overlay_sse2_8bit+0x51b>
+ DB 196,226,125,24,21,161,145,2,0 ; vbroadcastss 0x291a1(%rip),%ymm2 # 2c190 <_sk_overlay_sse2_8bit+0x51b>
DB 197,44,88,210 ; vaddps %ymm2,%ymm10,%ymm10
- DB 196,226,125,24,29,96,145,2,0 ; vbroadcastss 0x29160(%rip),%ymm3 # 2c16c <_sk_overlay_sse2_8bit+0x51f>
+ DB 196,226,125,24,29,152,145,2,0 ; vbroadcastss 0x29198(%rip),%ymm3 # 2c194 <_sk_overlay_sse2_8bit+0x51f>
DB 196,98,61,188,211 ; vfnmadd231ps %ymm3,%ymm8,%ymm10
- DB 196,226,125,24,13,86,145,2,0 ; vbroadcastss 0x29156(%rip),%ymm1 # 2c170 <_sk_overlay_sse2_8bit+0x523>
+ DB 196,226,125,24,13,142,145,2,0 ; vbroadcastss 0x2918e(%rip),%ymm1 # 2c198 <_sk_overlay_sse2_8bit+0x523>
DB 196,65,116,92,192 ; vsubps %ymm8,%ymm1,%ymm8
- DB 196,226,125,24,5,76,145,2,0 ; vbroadcastss 0x2914c(%rip),%ymm0 # 2c174 <_sk_overlay_sse2_8bit+0x527>
+ DB 196,226,125,24,5,132,145,2,0 ; vbroadcastss 0x29184(%rip),%ymm0 # 2c19c <_sk_overlay_sse2_8bit+0x527>
DB 196,65,124,94,192 ; vdivps %ymm8,%ymm0,%ymm8
DB 196,65,44,88,192 ; vaddps %ymm8,%ymm10,%ymm8
DB 197,204,84,245 ; vandps %ymm5,%ymm6,%ymm6
@@ -2875,7 +2862,7 @@ _sk_gamma_hsw LABEL PROC
DB 197,244,92,205 ; vsubps %ymm5,%ymm1,%ymm1
DB 197,252,94,193 ; vdivps %ymm1,%ymm0,%ymm0
DB 197,236,88,192 ; vaddps %ymm0,%ymm2,%ymm0
- DB 196,226,125,24,13,189,144,2,0 ; vbroadcastss 0x290bd(%rip),%ymm1 # 2c178 <_sk_overlay_sse2_8bit+0x52b>
+ DB 196,226,125,24,13,245,144,2,0 ; vbroadcastss 0x290f5(%rip),%ymm1 # 2c1a0 <_sk_overlay_sse2_8bit+0x52b>
DB 197,188,89,209 ; vmulps %ymm1,%ymm8,%ymm2
DB 197,204,89,217 ; vmulps %ymm1,%ymm6,%ymm3
DB 197,252,89,225 ; vmulps %ymm1,%ymm0,%ymm4
@@ -2893,26 +2880,26 @@ _sk_gamma_hsw LABEL PROC
PUBLIC _sk_lab_to_xyz_hsw
_sk_lab_to_xyz_hsw LABEL PROC
- DB 196,98,125,24,5,117,144,2,0 ; vbroadcastss 0x29075(%rip),%ymm8 # 2c17c <_sk_overlay_sse2_8bit+0x52f>
- DB 196,98,125,24,13,216,143,2,0 ; vbroadcastss 0x28fd8(%rip),%ymm9 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
- DB 196,98,125,24,21,103,144,2,0 ; vbroadcastss 0x29067(%rip),%ymm10 # 2c180 <_sk_overlay_sse2_8bit+0x533>
+ DB 196,98,125,24,5,173,144,2,0 ; vbroadcastss 0x290ad(%rip),%ymm8 # 2c1a4 <_sk_overlay_sse2_8bit+0x52f>
+ DB 196,98,125,24,13,16,144,2,0 ; vbroadcastss 0x29010(%rip),%ymm9 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
+ DB 196,98,125,24,21,159,144,2,0 ; vbroadcastss 0x2909f(%rip),%ymm10 # 2c1a8 <_sk_overlay_sse2_8bit+0x533>
DB 196,194,53,168,202 ; vfmadd213ps %ymm10,%ymm9,%ymm1
DB 196,194,53,168,210 ; vfmadd213ps %ymm10,%ymm9,%ymm2
- DB 196,98,125,24,13,88,144,2,0 ; vbroadcastss 0x29058(%rip),%ymm9 # 2c184 <_sk_overlay_sse2_8bit+0x537>
+ DB 196,98,125,24,13,144,144,2,0 ; vbroadcastss 0x29090(%rip),%ymm9 # 2c1ac <_sk_overlay_sse2_8bit+0x537>
DB 196,66,125,184,200 ; vfmadd231ps %ymm8,%ymm0,%ymm9
- DB 196,226,125,24,5,78,144,2,0 ; vbroadcastss 0x2904e(%rip),%ymm0 # 2c188 <_sk_overlay_sse2_8bit+0x53b>
+ DB 196,226,125,24,5,134,144,2,0 ; vbroadcastss 0x29086(%rip),%ymm0 # 2c1b0 <_sk_overlay_sse2_8bit+0x53b>
DB 197,180,89,192 ; vmulps %ymm0,%ymm9,%ymm0
- DB 196,98,125,24,5,69,144,2,0 ; vbroadcastss 0x29045(%rip),%ymm8 # 2c18c <_sk_overlay_sse2_8bit+0x53f>
+ DB 196,98,125,24,5,125,144,2,0 ; vbroadcastss 0x2907d(%rip),%ymm8 # 2c1b4 <_sk_overlay_sse2_8bit+0x53f>
DB 196,98,117,168,192 ; vfmadd213ps %ymm0,%ymm1,%ymm8
- DB 196,98,125,24,13,59,144,2,0 ; vbroadcastss 0x2903b(%rip),%ymm9 # 2c190 <_sk_overlay_sse2_8bit+0x543>
+ DB 196,98,125,24,13,115,144,2,0 ; vbroadcastss 0x29073(%rip),%ymm9 # 2c1b8 <_sk_overlay_sse2_8bit+0x543>
DB 196,98,109,172,200 ; vfnmadd213ps %ymm0,%ymm2,%ymm9
DB 196,193,60,89,200 ; vmulps %ymm8,%ymm8,%ymm1
DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
- DB 196,226,125,24,21,40,144,2,0 ; vbroadcastss 0x29028(%rip),%ymm2 # 2c194 <_sk_overlay_sse2_8bit+0x547>
+ DB 196,226,125,24,21,96,144,2,0 ; vbroadcastss 0x29060(%rip),%ymm2 # 2c1bc <_sk_overlay_sse2_8bit+0x547>
DB 197,108,194,209,1 ; vcmpltps %ymm1,%ymm2,%ymm10
- DB 196,98,125,24,29,30,144,2,0 ; vbroadcastss 0x2901e(%rip),%ymm11 # 2c198 <_sk_overlay_sse2_8bit+0x54b>
+ DB 196,98,125,24,29,86,144,2,0 ; vbroadcastss 0x29056(%rip),%ymm11 # 2c1c0 <_sk_overlay_sse2_8bit+0x54b>
DB 196,65,60,88,195 ; vaddps %ymm11,%ymm8,%ymm8
- DB 196,98,125,24,37,20,144,2,0 ; vbroadcastss 0x29014(%rip),%ymm12 # 2c19c <_sk_overlay_sse2_8bit+0x54f>
+ DB 196,98,125,24,37,76,144,2,0 ; vbroadcastss 0x2904c(%rip),%ymm12 # 2c1c4 <_sk_overlay_sse2_8bit+0x54f>
DB 196,65,60,89,196 ; vmulps %ymm12,%ymm8,%ymm8
DB 196,99,61,74,193,160 ; vblendvps %ymm10,%ymm1,%ymm8,%ymm8
DB 197,252,89,200 ; vmulps %ymm0,%ymm0,%ymm1
@@ -2927,256 +2914,255 @@ _sk_lab_to_xyz_hsw LABEL PROC
DB 196,65,52,88,203 ; vaddps %ymm11,%ymm9,%ymm9
DB 196,65,52,89,204 ; vmulps %ymm12,%ymm9,%ymm9
DB 196,227,53,74,208,32 ; vblendvps %ymm2,%ymm0,%ymm9,%ymm2
- DB 196,226,125,24,5,201,143,2,0 ; vbroadcastss 0x28fc9(%rip),%ymm0 # 2c1a0 <_sk_overlay_sse2_8bit+0x553>
+ DB 196,226,125,24,5,1,144,2,0 ; vbroadcastss 0x29001(%rip),%ymm0 # 2c1c8 <_sk_overlay_sse2_8bit+0x553>
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
- DB 196,98,125,24,5,192,143,2,0 ; vbroadcastss 0x28fc0(%rip),%ymm8 # 2c1a4 <_sk_overlay_sse2_8bit+0x557>
+ DB 196,98,125,24,5,248,143,2,0 ; vbroadcastss 0x28ff8(%rip),%ymm8 # 2c1cc <_sk_overlay_sse2_8bit+0x557>
DB 196,193,108,89,208 ; vmulps %ymm8,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
PUBLIC _sk_load_a8_hsw
_sk_load_a8_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,53 ; jne 323b <_sk_load_a8_hsw+0x4e>
- DB 196,194,121,48,4,25 ; vpmovzxbw (%r9,%rbx,1),%xmm0
- DB 197,249,219,5,60,152,2,0 ; vpand 0x2983c(%rip),%xmm0,%xmm0 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,52 ; jne 3229 <_sk_load_a8_hsw+0x4c>
+ DB 196,130,121,48,4,24 ; vpmovzxbw (%r8,%r11,1),%xmm0
+ DB 197,249,219,5,205,152,2,0 ; vpand 0x298cd(%rip),%xmm0,%xmm0 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,226,125,51,192 ; vpmovzxwd %xmm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,10,143,2,0 ; vbroadcastss 0x28f0a(%rip),%ymm1 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,13,67,143,2,0 ; vbroadcastss 0x28f43(%rip),%ymm1 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,252,89,217 ; vmulps %ymm1,%ymm0,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,87,192 ; vxorps %ymm0,%ymm0,%ymm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 197,236,87,210 ; vxorps %ymm2,%ymm2,%ymm2
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,189 ; ja 320c <_sk_load_a8_hsw+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,122,0,0,0 ; lea 0x7a(%rip),%r11 # 32d4 <_sk_load_a8_hsw+0xe7>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,190 ; ja 31fb <_sk_load_a8_hsw+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,120,0,0,0 ; lea 0x78(%rip),%r10 # 32c0 <_sk_load_a8_hsw+0xe3>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,249,110,192 ; vmovd %eax,%xmm0
- DB 235,158 ; jmp 320c <_sk_load_a8_hsw+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,159 ; jmp 31fb <_sk_load_a8_hsw+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 197,249,196,192,2 ; vpinsrw $0x2,%eax,%xmm0,%xmm0
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,249,110,200 ; vmovd %eax,%xmm1
DB 196,226,121,48,201 ; vpmovzxbw %xmm1,%xmm1
DB 196,227,121,2,193,1 ; vpblendd $0x1,%xmm1,%xmm0,%xmm0
- DB 233,118,255,255,255 ; jmpq 320c <_sk_load_a8_hsw+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,119,255,255,255 ; jmpq 31fb <_sk_load_a8_hsw+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 197,249,196,192,6 ; vpinsrw $0x6,%eax,%xmm0,%xmm0
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,249,196,192,5 ; vpinsrw $0x5,%eax,%xmm0,%xmm0
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,249,196,192,4 ; vpinsrw $0x4,%eax,%xmm0,%xmm0
- DB 196,193,121,110,12,25 ; vmovd (%r9,%rbx,1),%xmm1
+ DB 196,129,121,110,12,24 ; vmovd (%r8,%r11,1),%xmm1
DB 196,226,121,48,201 ; vpmovzxbw %xmm1,%xmm1
DB 196,227,113,2,192,12 ; vpblendd $0xc,%xmm0,%xmm1,%xmm0
- DB 233,59,255,255,255 ; jmpq 320c <_sk_load_a8_hsw+0x1f>
- DB 15,31,0 ; nopl (%rax)
- DB 143 ; (bad)
+ DB 233,60,255,255,255 ; jmpq 31fb <_sk_load_a8_hsw+0x1e>
+ DB 144 ; nop
+ DB 145 ; xchg %eax,%ecx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,169,255,255,255,154 ; ljmp *-0x65000001(%rcx)
+ DB 255,171,255,255,255,156 ; ljmp *-0x63000001(%rbx)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
+ DB 233,255,255,255,222 ; jmpq ffffffffdf0032d0 <_sk_overlay_sse2_8bit+0xffffffffdefd765b>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
- DB 255 ; (bad)
- DB 255,209 ; callq *%rcx
+ DB 255,211 ; callq *%rbx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,194 ; inc %edx
+ DB 255,196 ; inc %esp
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_a8_dst_hsw
_sk_load_a8_dst_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,53 ; jne 333e <_sk_load_a8_dst_hsw+0x4e>
- DB 196,194,121,48,36,25 ; vpmovzxbw (%r9,%rbx,1),%xmm4
- DB 197,217,219,37,57,151,2,0 ; vpand 0x29739(%rip),%xmm4,%xmm4 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,52 ; jne 3328 <_sk_load_a8_dst_hsw+0x4c>
+ DB 196,130,121,48,36,24 ; vpmovzxbw (%r8,%r11,1),%xmm4
+ DB 197,217,219,37,206,151,2,0 ; vpand 0x297ce(%rip),%xmm4,%xmm4 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,226,125,51,228 ; vpmovzxwd %xmm4,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,226,125,24,45,7,142,2,0 ; vbroadcastss 0x28e07(%rip),%ymm5 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,45,68,142,2,0 ; vbroadcastss 0x28e44(%rip),%ymm5 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,220,89,253 ; vmulps %ymm5,%ymm4,%ymm7
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,220,87,228 ; vxorps %ymm4,%ymm4,%ymm4
DB 197,212,87,237 ; vxorps %ymm5,%ymm5,%ymm5
DB 197,204,87,246 ; vxorps %ymm6,%ymm6,%ymm6
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,189 ; ja 330f <_sk_load_a8_dst_hsw+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,119,0,0,0 ; lea 0x77(%rip),%r11 # 33d4 <_sk_load_a8_dst_hsw+0xe4>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,190 ; ja 32fa <_sk_load_a8_dst_hsw+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,121,0,0,0 ; lea 0x79(%rip),%r10 # 33c0 <_sk_load_a8_dst_hsw+0xe4>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
- DB 235,158 ; jmp 330f <_sk_load_a8_dst_hsw+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,159 ; jmp 32fa <_sk_load_a8_dst_hsw+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 197,217,196,224,2 ; vpinsrw $0x2,%eax,%xmm4,%xmm4
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,249,110,232 ; vmovd %eax,%xmm5
DB 196,226,121,48,237 ; vpmovzxbw %xmm5,%xmm5
DB 196,227,89,2,229,1 ; vpblendd $0x1,%xmm5,%xmm4,%xmm4
- DB 233,118,255,255,255 ; jmpq 330f <_sk_load_a8_dst_hsw+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,119,255,255,255 ; jmpq 32fa <_sk_load_a8_dst_hsw+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 197,217,196,224,6 ; vpinsrw $0x6,%eax,%xmm4,%xmm4
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,217,196,224,5 ; vpinsrw $0x5,%eax,%xmm4,%xmm4
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,217,196,224,4 ; vpinsrw $0x4,%eax,%xmm4,%xmm4
- DB 196,193,121,110,44,25 ; vmovd (%r9,%rbx,1),%xmm5
+ DB 196,129,121,110,44,24 ; vmovd (%r8,%r11,1),%xmm5
DB 196,226,121,48,237 ; vpmovzxbw %xmm5,%xmm5
DB 196,227,81,2,228,12 ; vpblendd $0xc,%xmm4,%xmm5,%xmm4
- DB 233,59,255,255,255 ; jmpq 330f <_sk_load_a8_dst_hsw+0x1f>
- DB 146 ; xchg %eax,%edx
- DB 255 ; (bad)
+ DB 233,60,255,255,255 ; jmpq 32fa <_sk_load_a8_dst_hsw+0x1e>
+ DB 102,144 ; xchg %ax,%ax
+ DB 144 ; nop
DB 255 ; (bad)
- DB 255,172,255,255,255,157,255 ; ljmp *-0x620001(%rdi,%rdi,8)
DB 255 ; (bad)
+ DB 255,170,255,255,255,155 ; ljmp *-0x64000001(%rdx)
DB 255 ; (bad)
- DB 234 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 232,255,255,255,221 ; callq ffffffffde0033d0 <_sk_overlay_sse2_8bit+0xffffffffddfd775b>
DB 255 ; (bad)
- DB 223,255 ; (bad)
DB 255 ; (bad)
- DB 255,212 ; callq *%rsp
+ DB 255,210 ; callq *%rdx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,197 ; inc %ebp
+ DB 255,195 ; inc %ebx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_a8_hsw
_sk_gather_a8_hsw LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
DB 196,226,125,88,80,8 ; vpbroadcastd 0x8(%rax),%ymm2
DB 196,226,109,64,201 ; vpmulld %ymm1,%ymm2,%ymm1
DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
DB 197,245,254,192 ; vpaddd %ymm0,%ymm1,%ymm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,195,121,32,12,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm1
DB 196,227,249,22,192,1 ; vpextrq $0x1,%xmm0,%rax
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,113,32,12,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm1,%xmm1
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 196,227,125,57,192,1 ; vextracti128 $0x1,%ymm0,%xmm0
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,113,32,202,2 ; vpinsrb $0x2,%r10d,%xmm1,%xmm1
DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
- DB 196,227,113,32,200,3 ; vpinsrb $0x3,%eax,%xmm1,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
- DB 196,227,113,32,200,4 ; vpinsrb $0x4,%eax,%xmm1,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 67,15,182,4,17 ; movzbl (%r9,%r10,1),%eax
- DB 196,227,113,32,192,5 ; vpinsrb $0x5,%eax,%xmm1,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
+ DB 196,227,125,57,192,1 ; vextracti128 $0x1,%ymm0,%xmm0
+ DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,193,249,126,199 ; vmovq %xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 196,131,121,32,4,24,0 ; vpinsrb $0x0,(%r8,%r11,1),%xmm0,%xmm0
+ DB 196,131,121,32,4,16,1 ; vpinsrb $0x1,(%r8,%r10,1),%xmm0,%xmm0
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,121,32,193,2 ; vpinsrb $0x2,%r9d,%xmm0,%xmm0
+ DB 65,15,182,4,0 ; movzbl (%r8,%rax,1),%eax
+ DB 196,227,121,32,192,3 ; vpinsrb $0x3,%eax,%xmm0,%xmm0
+ DB 67,15,182,4,32 ; movzbl (%r8,%r12,1),%eax
+ DB 196,227,121,32,192,4 ; vpinsrb $0x4,%eax,%xmm0,%xmm0
+ DB 67,15,182,4,56 ; movzbl (%r8,%r15,1),%eax
+ DB 196,227,121,32,192,5 ; vpinsrb $0x5,%eax,%xmm0,%xmm0
+ DB 67,15,182,4,48 ; movzbl (%r8,%r14,1),%eax
DB 196,227,121,32,192,6 ; vpinsrb $0x6,%eax,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 65,15,182,4,24 ; movzbl (%r8,%rbx,1),%eax
DB 196,227,121,32,192,7 ; vpinsrb $0x7,%eax,%xmm0,%xmm0
DB 196,226,125,49,192 ; vpmovzxbd %xmm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,138,140,2,0 ; vbroadcastss 0x28c8a(%rip),%ymm1 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,13,191,140,2,0 ; vbroadcastss 0x28cbf(%rip),%ymm1 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,252,89,217 ; vmulps %ymm1,%ymm0,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,87,192 ; vxorps %ymm0,%ymm0,%ymm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 197,237,239,210 ; vpxor %ymm2,%ymm2,%ymm2
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_a8_hsw
_sk_store_a8_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 196,98,125,24,5,17,140,2,0 ; vbroadcastss 0x28c11(%rip),%ymm8 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 196,98,125,24,5,64,140,2,0 ; vbroadcastss 0x28c40(%rip),%ymm8 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,65,100,89,192 ; vmulps %ymm8,%ymm3,%ymm8
DB 196,65,125,91,192 ; vcvtps2dq %ymm8,%ymm8
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
DB 196,66,57,43,193 ; vpackusdw %xmm9,%xmm8,%xmm8
DB 196,65,57,103,192 ; vpackuswb %xmm8,%xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,11 ; jne 3501 <_sk_store_a8_hsw+0x47>
- DB 196,65,123,17,4,25 ; vmovsd %xmm8,(%r9,%rbx,1)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 34f9 <_sk_store_a8_hsw+0x45>
+ DB 196,1,123,17,4,24 ; vmovsd %xmm8,(%r8,%r11,1)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,235 ; ja 34fc <_sk_store_a8_hsw+0x42>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,236 ; ja 34f5 <_sk_store_a8_hsw+0x41>
DB 196,66,121,48,192 ; vpmovzxbw %xmm8,%xmm8
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,87,0,0,0 ; lea 0x57(%rip),%r11 # 3578 <_sk_store_a8_hsw+0xbe>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,67,121,20,4,25,0 ; vpextrb $0x0,%xmm8,(%r9,%rbx,1)
- DB 235,201 ; jmp 34fc <_sk_store_a8_hsw+0x42>
- DB 196,67,121,20,68,25,2,4 ; vpextrb $0x4,%xmm8,0x2(%r9,%rbx,1)
- DB 196,98,57,0,5,28,149,2,0 ; vpshufb 0x2951c(%rip),%xmm8,%xmm8 # 2ca60 <_sk_overlay_sse2_8bit+0xe13>
- DB 196,67,121,21,4,25,0 ; vpextrw $0x0,%xmm8,(%r9,%rbx,1)
- DB 235,175 ; jmp 34fc <_sk_store_a8_hsw+0x42>
- DB 196,67,121,20,68,25,6,12 ; vpextrb $0xc,%xmm8,0x6(%r9,%rbx,1)
- DB 196,67,121,20,68,25,5,10 ; vpextrb $0xa,%xmm8,0x5(%r9,%rbx,1)
- DB 196,67,121,20,68,25,4,8 ; vpextrb $0x8,%xmm8,0x4(%r9,%rbx,1)
- DB 196,98,57,0,5,2,149,2,0 ; vpshufb 0x29502(%rip),%xmm8,%xmm8 # 2ca70 <_sk_overlay_sse2_8bit+0xe23>
- DB 196,65,121,126,4,25 ; vmovd %xmm8,(%r9,%rbx,1)
- DB 235,134 ; jmp 34fc <_sk_store_a8_hsw+0x42>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,87,0,0,0 ; lea 0x57(%rip),%r10 # 3570 <_sk_store_a8_hsw+0xbc>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,3,121,20,4,24,0 ; vpextrb $0x0,%xmm8,(%r8,%r11,1)
+ DB 235,202 ; jmp 34f5 <_sk_store_a8_hsw+0x41>
+ DB 196,3,121,20,68,24,2,4 ; vpextrb $0x4,%xmm8,0x2(%r8,%r11,1)
+ DB 196,98,57,0,5,164,149,2,0 ; vpshufb 0x295a4(%rip),%xmm8,%xmm8 # 2cae0 <_sk_overlay_sse2_8bit+0xe6b>
+ DB 196,3,121,21,4,24,0 ; vpextrw $0x0,%xmm8,(%r8,%r11,1)
+ DB 235,176 ; jmp 34f5 <_sk_store_a8_hsw+0x41>
+ DB 196,3,121,20,68,24,6,12 ; vpextrb $0xc,%xmm8,0x6(%r8,%r11,1)
+ DB 196,3,121,20,68,24,5,10 ; vpextrb $0xa,%xmm8,0x5(%r8,%r11,1)
+ DB 196,3,121,20,68,24,4,8 ; vpextrb $0x8,%xmm8,0x4(%r8,%r11,1)
+ DB 196,98,57,0,5,138,149,2,0 ; vpshufb 0x2958a(%rip),%xmm8,%xmm8 # 2caf0 <_sk_overlay_sse2_8bit+0xe7b>
+ DB 196,1,121,126,4,24 ; vmovd %xmm8,(%r8,%r11,1)
+ DB 235,135 ; jmp 34f5 <_sk_store_a8_hsw+0x41>
DB 102,144 ; xchg %ax,%ax
DB 178,255 ; mov $0xff,%dl
DB 255 ; (bad)
@@ -3200,263 +3186,261 @@ _sk_store_a8_hsw LABEL PROC
PUBLIC _sk_load_g8_hsw
_sk_load_g8_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,58 ; jne 35e7 <_sk_load_g8_hsw+0x53>
- DB 196,194,121,48,4,25 ; vpmovzxbw (%r9,%rbx,1),%xmm0
- DB 197,249,219,5,149,148,2,0 ; vpand 0x29495(%rip),%xmm0,%xmm0 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,57 ; jne 35dd <_sk_load_g8_hsw+0x51>
+ DB 196,130,121,48,4,24 ; vpmovzxbw (%r8,%r11,1),%xmm0
+ DB 197,249,219,5,30,149,2,0 ; vpand 0x2951e(%rip),%xmm0,%xmm0 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,226,125,51,192 ; vpmovzxwd %xmm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,99,139,2,0 ; vbroadcastss 0x28b63(%rip),%ymm1 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,13,148,139,2,0 ; vbroadcastss 0x28b94(%rip),%ymm1 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,224,138,2,0 ; vbroadcastss 0x28ae0(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,17,139,2,0 ; vbroadcastss 0x28b11(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,40,200 ; vmovaps %ymm0,%ymm1
DB 197,252,40,208 ; vmovaps %ymm0,%ymm2
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,184 ; ja 35b3 <_sk_load_g8_hsw+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,122,0,0,0 ; lea 0x7a(%rip),%r11 # 3680 <_sk_load_g8_hsw+0xec>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,185 ; ja 35aa <_sk_load_g8_hsw+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,120,0,0,0 ; lea 0x78(%rip),%r10 # 3674 <_sk_load_g8_hsw+0xe8>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,249,110,192 ; vmovd %eax,%xmm0
- DB 235,153 ; jmp 35b3 <_sk_load_g8_hsw+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,154 ; jmp 35aa <_sk_load_g8_hsw+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 197,249,196,192,2 ; vpinsrw $0x2,%eax,%xmm0,%xmm0
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,249,110,200 ; vmovd %eax,%xmm1
DB 196,226,121,48,201 ; vpmovzxbw %xmm1,%xmm1
DB 196,227,121,2,193,1 ; vpblendd $0x1,%xmm1,%xmm0,%xmm0
- DB 233,113,255,255,255 ; jmpq 35b3 <_sk_load_g8_hsw+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,114,255,255,255 ; jmpq 35aa <_sk_load_g8_hsw+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 197,249,196,192,6 ; vpinsrw $0x6,%eax,%xmm0,%xmm0
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,249,196,192,5 ; vpinsrw $0x5,%eax,%xmm0,%xmm0
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,249,196,192,4 ; vpinsrw $0x4,%eax,%xmm0,%xmm0
- DB 196,193,121,110,12,25 ; vmovd (%r9,%rbx,1),%xmm1
+ DB 196,129,121,110,12,24 ; vmovd (%r8,%r11,1),%xmm1
DB 196,226,121,48,201 ; vpmovzxbw %xmm1,%xmm1
DB 196,227,113,2,192,12 ; vpblendd $0xc,%xmm0,%xmm1,%xmm0
- DB 233,54,255,255,255 ; jmpq 35b3 <_sk_load_g8_hsw+0x1f>
- DB 15,31,0 ; nopl (%rax)
- DB 143 ; (bad)
+ DB 233,55,255,255,255 ; jmpq 35aa <_sk_load_g8_hsw+0x1e>
+ DB 144 ; nop
+ DB 145 ; xchg %eax,%ecx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,169,255,255,255,154 ; ljmp *-0x65000001(%rcx)
- DB 255 ; (bad)
+ DB 255,171,255,255,255,156 ; ljmp *-0x63000001(%rbx)
DB 255 ; (bad)
- DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 233,255,255,255,222 ; jmpq ffffffffdf003684 <_sk_overlay_sse2_8bit+0xffffffffdefd7a0f>
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
DB 255 ; (bad)
- DB 255,209 ; callq *%rcx
+ DB 255,211 ; callq *%rbx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,194 ; inc %edx
+ DB 255,196 ; inc %esp
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_g8_dst_hsw
_sk_load_g8_dst_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,58 ; jne 36ef <_sk_load_g8_dst_hsw+0x53>
- DB 196,194,121,48,36,25 ; vpmovzxbw (%r9,%rbx,1),%xmm4
- DB 197,217,219,37,141,147,2,0 ; vpand 0x2938d(%rip),%xmm4,%xmm4 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,57 ; jne 36e1 <_sk_load_g8_dst_hsw+0x51>
+ DB 196,130,121,48,36,24 ; vpmovzxbw (%r8,%r11,1),%xmm4
+ DB 197,217,219,37,26,148,2,0 ; vpand 0x2941a(%rip),%xmm4,%xmm4 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,226,125,51,228 ; vpmovzxwd %xmm4,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,226,125,24,45,91,138,2,0 ; vbroadcastss 0x28a5b(%rip),%ymm5 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,45,144,138,2,0 ; vbroadcastss 0x28a90(%rip),%ymm5 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,220,89,229 ; vmulps %ymm5,%ymm4,%ymm4
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,61,216,137,2,0 ; vbroadcastss 0x289d8(%rip),%ymm7 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,61,13,138,2,0 ; vbroadcastss 0x28a0d(%rip),%ymm7 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,40,236 ; vmovaps %ymm4,%ymm5
DB 197,252,40,244 ; vmovaps %ymm4,%ymm6
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,184 ; ja 36bb <_sk_load_g8_dst_hsw+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,122,0,0,0 ; lea 0x7a(%rip),%r11 # 3788 <_sk_load_g8_dst_hsw+0xec>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,185 ; ja 36ae <_sk_load_g8_dst_hsw+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,120,0,0,0 ; lea 0x78(%rip),%r10 # 3778 <_sk_load_g8_dst_hsw+0xe8>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
- DB 235,153 ; jmp 36bb <_sk_load_g8_dst_hsw+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,154 ; jmp 36ae <_sk_load_g8_dst_hsw+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 197,217,196,224,2 ; vpinsrw $0x2,%eax,%xmm4,%xmm4
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,249,110,232 ; vmovd %eax,%xmm5
DB 196,226,121,48,237 ; vpmovzxbw %xmm5,%xmm5
DB 196,227,89,2,229,1 ; vpblendd $0x1,%xmm5,%xmm4,%xmm4
- DB 233,113,255,255,255 ; jmpq 36bb <_sk_load_g8_dst_hsw+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,114,255,255,255 ; jmpq 36ae <_sk_load_g8_dst_hsw+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 197,217,196,224,6 ; vpinsrw $0x6,%eax,%xmm4,%xmm4
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,217,196,224,5 ; vpinsrw $0x5,%eax,%xmm4,%xmm4
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,217,196,224,4 ; vpinsrw $0x4,%eax,%xmm4,%xmm4
- DB 196,193,121,110,44,25 ; vmovd (%r9,%rbx,1),%xmm5
+ DB 196,129,121,110,44,24 ; vmovd (%r8,%r11,1),%xmm5
DB 196,226,121,48,237 ; vpmovzxbw %xmm5,%xmm5
DB 196,227,81,2,228,12 ; vpblendd $0xc,%xmm4,%xmm5,%xmm4
- DB 233,54,255,255,255 ; jmpq 36bb <_sk_load_g8_dst_hsw+0x1f>
- DB 15,31,0 ; nopl (%rax)
- DB 143 ; (bad)
- DB 255 ; (bad)
+ DB 233,55,255,255,255 ; jmpq 36ae <_sk_load_g8_dst_hsw+0x1e>
+ DB 144 ; nop
+ DB 145 ; xchg %eax,%ecx
DB 255 ; (bad)
- DB 255,169,255,255,255,154 ; ljmp *-0x65000001(%rcx)
DB 255 ; (bad)
+ DB 255,171,255,255,255,156 ; ljmp *-0x63000001(%rbx)
DB 255 ; (bad)
- DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 233,255,255,255,222 ; jmpq ffffffffdf003788 <_sk_overlay_sse2_8bit+0xffffffffdefd7b13>
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
DB 255 ; (bad)
- DB 255,209 ; callq *%rcx
+ DB 255,211 ; callq *%rbx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,194 ; inc %edx
+ DB 255,196 ; inc %esp
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_g8_hsw
_sk_gather_g8_hsw LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
DB 196,226,125,88,80,8 ; vpbroadcastd 0x8(%rax),%ymm2
DB 196,226,109,64,201 ; vpmulld %ymm1,%ymm2,%ymm1
DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
DB 197,245,254,192 ; vpaddd %ymm0,%ymm1,%ymm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,195,121,32,12,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm1
DB 196,227,249,22,192,1 ; vpextrq $0x1,%xmm0,%rax
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,113,32,12,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm1,%xmm1
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 196,227,125,57,192,1 ; vextracti128 $0x1,%ymm0,%xmm0
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,113,32,202,2 ; vpinsrb $0x2,%r10d,%xmm1,%xmm1
DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
- DB 196,227,113,32,200,3 ; vpinsrb $0x3,%eax,%xmm1,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
- DB 196,227,113,32,200,4 ; vpinsrb $0x4,%eax,%xmm1,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 67,15,182,4,17 ; movzbl (%r9,%r10,1),%eax
- DB 196,227,113,32,192,5 ; vpinsrb $0x5,%eax,%xmm1,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
+ DB 196,227,125,57,192,1 ; vextracti128 $0x1,%ymm0,%xmm0
+ DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,193,249,126,199 ; vmovq %xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 196,131,121,32,4,24,0 ; vpinsrb $0x0,(%r8,%r11,1),%xmm0,%xmm0
+ DB 196,131,121,32,4,16,1 ; vpinsrb $0x1,(%r8,%r10,1),%xmm0,%xmm0
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,121,32,193,2 ; vpinsrb $0x2,%r9d,%xmm0,%xmm0
+ DB 65,15,182,4,0 ; movzbl (%r8,%rax,1),%eax
+ DB 196,227,121,32,192,3 ; vpinsrb $0x3,%eax,%xmm0,%xmm0
+ DB 67,15,182,4,32 ; movzbl (%r8,%r12,1),%eax
+ DB 196,227,121,32,192,4 ; vpinsrb $0x4,%eax,%xmm0,%xmm0
+ DB 67,15,182,4,56 ; movzbl (%r8,%r15,1),%eax
+ DB 196,227,121,32,192,5 ; vpinsrb $0x5,%eax,%xmm0,%xmm0
+ DB 67,15,182,4,48 ; movzbl (%r8,%r14,1),%eax
DB 196,227,121,32,192,6 ; vpinsrb $0x6,%eax,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 65,15,182,4,24 ; movzbl (%r8,%rbx,1),%eax
DB 196,227,121,32,192,7 ; vpinsrb $0x7,%eax,%xmm0,%xmm0
DB 196,226,125,49,192 ; vpmovzxbd %xmm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,214,136,2,0 ; vbroadcastss 0x288d6(%rip),%ymm1 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,13,7,137,2,0 ; vbroadcastss 0x28907(%rip),%ymm1 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,83,136,2,0 ; vbroadcastss 0x28853(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,132,136,2,0 ; vbroadcastss 0x28884(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,40,200 ; vmovaps %ymm0,%ymm1
DB 197,252,40,208 ; vmovaps %ymm0,%ymm2
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_load_565_hsw
_sk_load_565_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,115 ; jne 3902 <_sk_load_565_hsw+0x8f>
- DB 196,193,122,111,4,89 ; vmovdqu (%r9,%rbx,2),%xmm0
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,114 ; jne 38fe <_sk_load_565_hsw+0x8d>
+ DB 196,129,122,111,4,88 ; vmovdqu (%r8,%r11,2),%xmm0
DB 196,226,125,51,208 ; vpmovzxwd %xmm0,%ymm2
- DB 196,226,125,88,5,145,136,2,0 ; vpbroadcastd 0x28891(%rip),%ymm0 # 2c134 <_sk_overlay_sse2_8bit+0x4e7>
+ DB 196,226,125,88,5,188,136,2,0 ; vpbroadcastd 0x288bc(%rip),%ymm0 # 2c15c <_sk_overlay_sse2_8bit+0x4e7>
DB 197,237,219,192 ; vpand %ymm0,%ymm2,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,132,136,2,0 ; vbroadcastss 0x28884(%rip),%ymm1 # 2c138 <_sk_overlay_sse2_8bit+0x4eb>
+ DB 196,226,125,24,13,175,136,2,0 ; vbroadcastss 0x288af(%rip),%ymm1 # 2c160 <_sk_overlay_sse2_8bit+0x4eb>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
- DB 196,226,125,88,13,123,136,2,0 ; vpbroadcastd 0x2887b(%rip),%ymm1 # 2c13c <_sk_overlay_sse2_8bit+0x4ef>
+ DB 196,226,125,88,13,166,136,2,0 ; vpbroadcastd 0x288a6(%rip),%ymm1 # 2c164 <_sk_overlay_sse2_8bit+0x4ef>
DB 197,237,219,201 ; vpand %ymm1,%ymm2,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
- DB 196,226,125,24,29,110,136,2,0 ; vbroadcastss 0x2886e(%rip),%ymm3 # 2c140 <_sk_overlay_sse2_8bit+0x4f3>
+ DB 196,226,125,24,29,153,136,2,0 ; vbroadcastss 0x28899(%rip),%ymm3 # 2c168 <_sk_overlay_sse2_8bit+0x4f3>
DB 197,244,89,203 ; vmulps %ymm3,%ymm1,%ymm1
- DB 196,226,125,88,29,101,136,2,0 ; vpbroadcastd 0x28865(%rip),%ymm3 # 2c144 <_sk_overlay_sse2_8bit+0x4f7>
+ DB 196,226,125,88,29,144,136,2,0 ; vpbroadcastd 0x28890(%rip),%ymm3 # 2c16c <_sk_overlay_sse2_8bit+0x4f7>
DB 197,237,219,211 ; vpand %ymm3,%ymm2,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
- DB 196,226,125,24,29,88,136,2,0 ; vbroadcastss 0x28858(%rip),%ymm3 # 2c148 <_sk_overlay_sse2_8bit+0x4fb>
+ DB 196,226,125,24,29,131,136,2,0 ; vbroadcastss 0x28883(%rip),%ymm3 # 2c170 <_sk_overlay_sse2_8bit+0x4fb>
DB 197,236,89,211 ; vmulps %ymm3,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,189,135,2,0 ; vbroadcastss 0x287bd(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
- DB 91 ; pop %rbx
+ DB 196,226,125,24,29,232,135,2,0 ; vbroadcastss 0x287e8(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,123,255,255,255 ; ja 3895 <_sk_load_565_hsw+0x22>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,99,0,0,0 ; lea 0x63(%rip),%r11 # 3988 <_sk_load_565_hsw+0x115>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,128 ; ja 3892 <_sk_load_565_hsw+0x21>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,99,0,0,0 ; lea 0x63(%rip),%r10 # 3980 <_sk_load_565_hsw+0x10f>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,249,110,192 ; vmovd %eax,%xmm0
- DB 233,89,255,255,255 ; jmpq 3895 <_sk_load_565_hsw+0x22>
+ DB 233,94,255,255,255 ; jmpq 3892 <_sk_load_565_hsw+0x21>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 196,193,121,196,68,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,110,12,89 ; vmovd (%r9,%rbx,2),%xmm1
+ DB 196,129,121,196,68,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,110,12,88 ; vmovd (%r8,%r11,2),%xmm1
DB 196,227,121,2,193,1 ; vpblendd $0x1,%xmm1,%xmm0,%xmm0
- DB 233,60,255,255,255 ; jmpq 3895 <_sk_load_565_hsw+0x22>
+ DB 233,65,255,255,255 ; jmpq 3892 <_sk_load_565_hsw+0x21>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 196,193,121,196,68,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,196,68,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,196,68,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,122,126,12,89 ; vmovq (%r9,%rbx,2),%xmm1
+ DB 196,129,121,196,68,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,196,68,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,196,68,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,122,126,12,88 ; vmovq (%r8,%r11,2),%xmm1
DB 196,227,113,2,192,12 ; vpblendd $0xc,%xmm0,%xmm1,%xmm0
- DB 233,15,255,255,255 ; jmpq 3895 <_sk_load_565_hsw+0x22>
+ DB 233,20,255,255,255 ; jmpq 3892 <_sk_load_565_hsw+0x21>
DB 102,144 ; xchg %ax,%ax
DB 166 ; cmpsb %es:(%rdi),%ds:(%rsi)
DB 255 ; (bad)
@@ -3479,157 +3463,164 @@ _sk_load_565_hsw LABEL PROC
PUBLIC _sk_load_565_dst_hsw
_sk_load_565_dst_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,115 ; jne 3a33 <_sk_load_565_dst_hsw+0x8f>
- DB 196,193,122,111,36,89 ; vmovdqu (%r9,%rbx,2),%xmm4
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,114 ; jne 3a29 <_sk_load_565_dst_hsw+0x8d>
+ DB 196,129,122,111,36,88 ; vmovdqu (%r8,%r11,2),%xmm4
DB 196,226,125,51,244 ; vpmovzxwd %xmm4,%ymm6
- DB 196,226,125,88,37,96,135,2,0 ; vpbroadcastd 0x28760(%rip),%ymm4 # 2c134 <_sk_overlay_sse2_8bit+0x4e7>
+ DB 196,226,125,88,37,145,135,2,0 ; vpbroadcastd 0x28791(%rip),%ymm4 # 2c15c <_sk_overlay_sse2_8bit+0x4e7>
DB 197,205,219,228 ; vpand %ymm4,%ymm6,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,226,125,24,45,83,135,2,0 ; vbroadcastss 0x28753(%rip),%ymm5 # 2c138 <_sk_overlay_sse2_8bit+0x4eb>
+ DB 196,226,125,24,45,132,135,2,0 ; vbroadcastss 0x28784(%rip),%ymm5 # 2c160 <_sk_overlay_sse2_8bit+0x4eb>
DB 197,220,89,229 ; vmulps %ymm5,%ymm4,%ymm4
- DB 196,226,125,88,45,74,135,2,0 ; vpbroadcastd 0x2874a(%rip),%ymm5 # 2c13c <_sk_overlay_sse2_8bit+0x4ef>
+ DB 196,226,125,88,45,123,135,2,0 ; vpbroadcastd 0x2877b(%rip),%ymm5 # 2c164 <_sk_overlay_sse2_8bit+0x4ef>
DB 197,205,219,237 ; vpand %ymm5,%ymm6,%ymm5
DB 197,252,91,237 ; vcvtdq2ps %ymm5,%ymm5
- DB 196,226,125,24,61,61,135,2,0 ; vbroadcastss 0x2873d(%rip),%ymm7 # 2c140 <_sk_overlay_sse2_8bit+0x4f3>
+ DB 196,226,125,24,61,110,135,2,0 ; vbroadcastss 0x2876e(%rip),%ymm7 # 2c168 <_sk_overlay_sse2_8bit+0x4f3>
DB 197,212,89,239 ; vmulps %ymm7,%ymm5,%ymm5
- DB 196,226,125,88,61,52,135,2,0 ; vpbroadcastd 0x28734(%rip),%ymm7 # 2c144 <_sk_overlay_sse2_8bit+0x4f7>
+ DB 196,226,125,88,61,101,135,2,0 ; vpbroadcastd 0x28765(%rip),%ymm7 # 2c16c <_sk_overlay_sse2_8bit+0x4f7>
DB 197,205,219,247 ; vpand %ymm7,%ymm6,%ymm6
DB 197,252,91,246 ; vcvtdq2ps %ymm6,%ymm6
- DB 196,226,125,24,61,39,135,2,0 ; vbroadcastss 0x28727(%rip),%ymm7 # 2c148 <_sk_overlay_sse2_8bit+0x4fb>
+ DB 196,226,125,24,61,88,135,2,0 ; vbroadcastss 0x28758(%rip),%ymm7 # 2c170 <_sk_overlay_sse2_8bit+0x4fb>
DB 197,204,89,247 ; vmulps %ymm7,%ymm6,%ymm6
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,61,140,134,2,0 ; vbroadcastss 0x2868c(%rip),%ymm7 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
- DB 91 ; pop %rbx
+ DB 196,226,125,24,61,189,134,2,0 ; vbroadcastss 0x286bd(%rip),%ymm7 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,123,255,255,255 ; ja 39c6 <_sk_load_565_dst_hsw+0x22>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,98,0,0,0 ; lea 0x62(%rip),%r11 # 3ab8 <_sk_load_565_dst_hsw+0x114>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,128 ; ja 39bd <_sk_load_565_dst_hsw+0x21>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,100,0,0,0 ; lea 0x64(%rip),%r10 # 3aac <_sk_load_565_dst_hsw+0x110>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
- DB 233,89,255,255,255 ; jmpq 39c6 <_sk_load_565_dst_hsw+0x22>
+ DB 233,94,255,255,255 ; jmpq 39bd <_sk_load_565_dst_hsw+0x21>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 196,193,89,196,100,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,121,110,44,89 ; vmovd (%r9,%rbx,2),%xmm5
+ DB 196,129,89,196,100,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,121,110,44,88 ; vmovd (%r8,%r11,2),%xmm5
DB 196,227,89,2,229,1 ; vpblendd $0x1,%xmm5,%xmm4,%xmm4
- DB 233,60,255,255,255 ; jmpq 39c6 <_sk_load_565_dst_hsw+0x22>
+ DB 233,65,255,255,255 ; jmpq 39bd <_sk_load_565_dst_hsw+0x21>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 196,193,89,196,100,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,89,196,100,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,89,196,100,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,122,126,44,89 ; vmovq (%r9,%rbx,2),%xmm5
+ DB 196,129,89,196,100,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,89,196,100,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,89,196,100,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,122,126,44,88 ; vmovq (%r8,%r11,2),%xmm5
DB 196,227,81,2,228,12 ; vpblendd $0xc,%xmm4,%xmm5,%xmm4
- DB 233,15,255,255,255 ; jmpq 39c6 <_sk_load_565_dst_hsw+0x22>
- DB 144 ; nop
- DB 167 ; cmpsl %es:(%rdi),%ds:(%rsi)
+ DB 233,20,255,255,255 ; jmpq 39bd <_sk_load_565_dst_hsw+0x21>
+ DB 15,31,0 ; nopl (%rax)
+ DB 165 ; movsl %ds:(%rsi),%es:(%rdi)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,193 ; inc %ecx
DB 255 ; (bad)
+ DB 191,255,255,255,179 ; mov $0xb3ffffff,%edi
DB 255 ; (bad)
- DB 255,181,255,255,255,238 ; pushq -0x11000001(%rbp)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,230 ; jmpq *%rsi
+ DB 236 ; in (%dx),%al
+ DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,228 ; jmpq *%rsp
DB 255 ; (bad)
DB 255 ; (bad)
- DB 222,255 ; fdivrp %st,%st(7)
DB 255 ; (bad)
- DB 255,210 ; callq *%rdx
+ DB 220,255 ; fdivr %st,%st(7)
+ DB 255 ; (bad)
+ DB 255,208 ; callq *%rax
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_565_hsw
_sk_gather_565_hsw LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
DB 196,226,125,88,80,8 ; vpbroadcastd 0x8(%rax),%ymm2
DB 196,226,109,64,201 ; vpmulld %ymm1,%ymm2,%ymm1
DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
DB 197,245,254,192 ; vpaddd %ymm0,%ymm1,%ymm0
+ DB 196,227,249,22,192,1 ; vpextrq $0x1,%xmm0,%rax
+ DB 65,137,193 ; mov %eax,%r9d
+ DB 72,193,232,32 ; shr $0x20,%rax
DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,249,110,200 ; vmovd %eax,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 67,15,183,4,81 ; movzwl (%r9,%r10,2),%eax
- DB 197,241,196,200,1 ; vpinsrw $0x1,%eax,%xmm1,%xmm1
- DB 68,137,216 ; mov %r11d,%eax
- DB 73,193,235,32 ; shr $0x20,%r11
DB 196,227,125,57,192,1 ; vextracti128 $0x1,%ymm0,%xmm0
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,241,196,200,2 ; vpinsrw $0x2,%eax,%xmm1,%xmm1
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
- DB 197,241,196,200,3 ; vpinsrw $0x3,%eax,%xmm1,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,241,196,200,4 ; vpinsrw $0x4,%eax,%xmm1,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 67,15,183,4,81 ; movzwl (%r9,%r10,2),%eax
- DB 197,241,196,192,5 ; vpinsrw $0x5,%eax,%xmm1,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
+ DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,193,249,126,199 ; vmovq %xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 71,15,183,20,80 ; movzwl (%r8,%r10,2),%r10d
+ DB 71,15,183,28,88 ; movzwl (%r8,%r11,2),%r11d
+ DB 196,193,121,110,195 ; vmovd %r11d,%xmm0
+ DB 196,193,121,196,194,1 ; vpinsrw $0x1,%r10d,%xmm0,%xmm0
+ DB 71,15,183,12,72 ; movzwl (%r8,%r9,2),%r9d
+ DB 196,193,121,196,193,2 ; vpinsrw $0x2,%r9d,%xmm0,%xmm0
+ DB 65,15,183,4,64 ; movzwl (%r8,%rax,2),%eax
+ DB 197,249,196,192,3 ; vpinsrw $0x3,%eax,%xmm0,%xmm0
+ DB 67,15,183,4,96 ; movzwl (%r8,%r12,2),%eax
+ DB 197,249,196,192,4 ; vpinsrw $0x4,%eax,%xmm0,%xmm0
+ DB 67,15,183,4,120 ; movzwl (%r8,%r15,2),%eax
+ DB 197,249,196,192,5 ; vpinsrw $0x5,%eax,%xmm0,%xmm0
+ DB 67,15,183,4,112 ; movzwl (%r8,%r14,2),%eax
DB 197,249,196,192,6 ; vpinsrw $0x6,%eax,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 65,15,183,4,88 ; movzwl (%r8,%rbx,2),%eax
DB 197,249,196,192,7 ; vpinsrw $0x7,%eax,%xmm0,%xmm0
DB 196,226,125,51,208 ; vpmovzxwd %xmm0,%ymm2
- DB 196,226,125,88,5,175,133,2,0 ; vpbroadcastd 0x285af(%rip),%ymm0 # 2c134 <_sk_overlay_sse2_8bit+0x4e7>
+ DB 196,226,125,88,5,217,133,2,0 ; vpbroadcastd 0x285d9(%rip),%ymm0 # 2c15c <_sk_overlay_sse2_8bit+0x4e7>
DB 197,237,219,192 ; vpand %ymm0,%ymm2,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,162,133,2,0 ; vbroadcastss 0x285a2(%rip),%ymm1 # 2c138 <_sk_overlay_sse2_8bit+0x4eb>
+ DB 196,226,125,24,13,204,133,2,0 ; vbroadcastss 0x285cc(%rip),%ymm1 # 2c160 <_sk_overlay_sse2_8bit+0x4eb>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
- DB 196,226,125,88,13,153,133,2,0 ; vpbroadcastd 0x28599(%rip),%ymm1 # 2c13c <_sk_overlay_sse2_8bit+0x4ef>
+ DB 196,226,125,88,13,195,133,2,0 ; vpbroadcastd 0x285c3(%rip),%ymm1 # 2c164 <_sk_overlay_sse2_8bit+0x4ef>
DB 197,237,219,201 ; vpand %ymm1,%ymm2,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
- DB 196,226,125,24,29,140,133,2,0 ; vbroadcastss 0x2858c(%rip),%ymm3 # 2c140 <_sk_overlay_sse2_8bit+0x4f3>
+ DB 196,226,125,24,29,182,133,2,0 ; vbroadcastss 0x285b6(%rip),%ymm3 # 2c168 <_sk_overlay_sse2_8bit+0x4f3>
DB 197,244,89,203 ; vmulps %ymm3,%ymm1,%ymm1
- DB 196,226,125,88,29,131,133,2,0 ; vpbroadcastd 0x28583(%rip),%ymm3 # 2c144 <_sk_overlay_sse2_8bit+0x4f7>
+ DB 196,226,125,88,29,173,133,2,0 ; vpbroadcastd 0x285ad(%rip),%ymm3 # 2c16c <_sk_overlay_sse2_8bit+0x4f7>
DB 197,237,219,211 ; vpand %ymm3,%ymm2,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
- DB 196,226,125,24,29,118,133,2,0 ; vbroadcastss 0x28576(%rip),%ymm3 # 2c148 <_sk_overlay_sse2_8bit+0x4fb>
+ DB 196,226,125,24,29,160,133,2,0 ; vbroadcastss 0x285a0(%rip),%ymm3 # 2c170 <_sk_overlay_sse2_8bit+0x4fb>
DB 197,236,89,211 ; vmulps %ymm3,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,219,132,2,0 ; vbroadcastss 0x284db(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,5,133,2,0 ; vbroadcastss 0x28505(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_565_hsw
_sk_store_565_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 196,98,125,24,5,165,133,2,0 ; vbroadcastss 0x285a5(%rip),%ymm8 # 2c1a8 <_sk_overlay_sse2_8bit+0x55b>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 196,98,125,24,5,201,133,2,0 ; vbroadcastss 0x285c9(%rip),%ymm8 # 2c1d0 <_sk_overlay_sse2_8bit+0x55b>
DB 196,65,124,89,200 ; vmulps %ymm8,%ymm0,%ymm9
DB 196,65,125,91,201 ; vcvtps2dq %ymm9,%ymm9
DB 196,193,53,114,241,11 ; vpslld $0xb,%ymm9,%ymm9
- DB 196,98,125,24,21,144,133,2,0 ; vbroadcastss 0x28590(%rip),%ymm10 # 2c1ac <_sk_overlay_sse2_8bit+0x55f>
+ DB 196,98,125,24,21,180,133,2,0 ; vbroadcastss 0x285b4(%rip),%ymm10 # 2c1d4 <_sk_overlay_sse2_8bit+0x55f>
DB 196,65,116,89,210 ; vmulps %ymm10,%ymm1,%ymm10
DB 196,65,125,91,210 ; vcvtps2dq %ymm10,%ymm10
DB 196,193,45,114,242,5 ; vpslld $0x5,%ymm10,%ymm10
@@ -3639,295 +3630,304 @@ _sk_store_565_hsw LABEL PROC
DB 196,65,53,235,192 ; vpor %ymm8,%ymm9,%ymm8
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
DB 196,66,57,43,193 ; vpackusdw %xmm9,%xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,11 ; jne 3c5b <_sk_store_565_hsw+0x78>
- DB 196,65,122,127,4,89 ; vmovdqu %xmm8,(%r9,%rbx,2)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 3c5e <_sk_store_565_hsw+0x76>
+ DB 196,1,122,127,4,88 ; vmovdqu %xmm8,(%r8,%r11,2)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,235 ; ja 3c56 <_sk_store_565_hsw+0x73>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,66,0,0,0 ; lea 0x42(%rip),%r11 # 3cb8 <_sk_store_565_hsw+0xd5>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,67,121,21,4,89,0 ; vpextrw $0x0,%xmm8,(%r9,%rbx,2)
- DB 235,206 ; jmp 3c56 <_sk_store_565_hsw+0x73>
- DB 196,67,121,21,68,89,4,2 ; vpextrw $0x2,%xmm8,0x4(%r9,%rbx,2)
- DB 196,65,121,126,4,89 ; vmovd %xmm8,(%r9,%rbx,2)
- DB 235,190 ; jmp 3c56 <_sk_store_565_hsw+0x73>
- DB 196,67,121,21,68,89,12,6 ; vpextrw $0x6,%xmm8,0xc(%r9,%rbx,2)
- DB 196,67,121,21,68,89,10,5 ; vpextrw $0x5,%xmm8,0xa(%r9,%rbx,2)
- DB 196,67,121,21,68,89,8,4 ; vpextrw $0x4,%xmm8,0x8(%r9,%rbx,2)
- DB 196,65,121,214,4,89 ; vmovq %xmm8,(%r9,%rbx,2)
- DB 235,158 ; jmp 3c56 <_sk_store_565_hsw+0x73>
- DB 199 ; (bad)
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,236 ; ja 3c5a <_sk_store_565_hsw+0x72>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,67,0,0,0 ; lea 0x43(%rip),%r10 # 3cbc <_sk_store_565_hsw+0xd4>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,3,121,21,4,88,0 ; vpextrw $0x0,%xmm8,(%r8,%r11,2)
+ DB 235,207 ; jmp 3c5a <_sk_store_565_hsw+0x72>
+ DB 196,3,121,21,68,88,4,2 ; vpextrw $0x2,%xmm8,0x4(%r8,%r11,2)
+ DB 196,1,121,126,4,88 ; vmovd %xmm8,(%r8,%r11,2)
+ DB 235,191 ; jmp 3c5a <_sk_store_565_hsw+0x72>
+ DB 196,3,121,21,68,88,12,6 ; vpextrw $0x6,%xmm8,0xc(%r8,%r11,2)
+ DB 196,3,121,21,68,88,10,5 ; vpextrw $0x5,%xmm8,0xa(%r8,%r11,2)
+ DB 196,3,121,21,68,88,8,4 ; vpextrw $0x4,%xmm8,0x8(%r8,%r11,2)
+ DB 196,1,121,214,4,88 ; vmovq %xmm8,(%r8,%r11,2)
+ DB 235,159 ; jmp 3c5a <_sk_store_565_hsw+0x72>
+ DB 144 ; nop
+ DB 198 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,215 ; callq *%rdi
DB 255 ; (bad)
- DB 216,255 ; fdivr %st(7),%st
DB 255 ; (bad)
- DB 255,208 ; callq *%rax
+ DB 255,207 ; dec %edi
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,247 ; push %rdi
DB 255 ; (bad)
- DB 248 ; clc
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,240 ; push %rax
+ DB 239 ; out %eax,(%dx)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
- DB 232,255,255,255,224 ; callq ffffffffe1003cd0 <_sk_overlay_sse2_8bit+0xffffffffe0fd8083>
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 223,255 ; (bad)
+ DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_4444_hsw
_sk_load_4444_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,139,0,0,0 ; jne 3d7f <_sk_load_4444_hsw+0xab>
- DB 196,193,122,111,4,89 ; vmovdqu (%r9,%rbx,2),%xmm0
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,138,0,0,0 ; jne 3d81 <_sk_load_4444_hsw+0xa9>
+ DB 196,129,122,111,4,88 ; vmovdqu (%r8,%r11,2),%xmm0
DB 196,226,125,51,216 ; vpmovzxwd %xmm0,%ymm3
- DB 196,226,125,88,5,168,132,2,0 ; vpbroadcastd 0x284a8(%rip),%ymm0 # 2c1b0 <_sk_overlay_sse2_8bit+0x563>
+ DB 196,226,125,88,5,205,132,2,0 ; vpbroadcastd 0x284cd(%rip),%ymm0 # 2c1d8 <_sk_overlay_sse2_8bit+0x563>
DB 197,229,219,192 ; vpand %ymm0,%ymm3,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,155,132,2,0 ; vbroadcastss 0x2849b(%rip),%ymm1 # 2c1b4 <_sk_overlay_sse2_8bit+0x567>
+ DB 196,226,125,24,13,192,132,2,0 ; vbroadcastss 0x284c0(%rip),%ymm1 # 2c1dc <_sk_overlay_sse2_8bit+0x567>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
- DB 196,226,125,88,13,146,132,2,0 ; vpbroadcastd 0x28492(%rip),%ymm1 # 2c1b8 <_sk_overlay_sse2_8bit+0x56b>
+ DB 196,226,125,88,13,183,132,2,0 ; vpbroadcastd 0x284b7(%rip),%ymm1 # 2c1e0 <_sk_overlay_sse2_8bit+0x56b>
DB 197,229,219,201 ; vpand %ymm1,%ymm3,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
- DB 196,226,125,24,21,133,132,2,0 ; vbroadcastss 0x28485(%rip),%ymm2 # 2c1bc <_sk_overlay_sse2_8bit+0x56f>
+ DB 196,226,125,24,21,170,132,2,0 ; vbroadcastss 0x284aa(%rip),%ymm2 # 2c1e4 <_sk_overlay_sse2_8bit+0x56f>
DB 197,244,89,202 ; vmulps %ymm2,%ymm1,%ymm1
- DB 196,226,125,88,21,124,132,2,0 ; vpbroadcastd 0x2847c(%rip),%ymm2 # 2c1c0 <_sk_overlay_sse2_8bit+0x573>
+ DB 196,226,125,88,21,161,132,2,0 ; vpbroadcastd 0x284a1(%rip),%ymm2 # 2c1e8 <_sk_overlay_sse2_8bit+0x573>
DB 197,229,219,210 ; vpand %ymm2,%ymm3,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
- DB 196,98,125,24,5,111,132,2,0 ; vbroadcastss 0x2846f(%rip),%ymm8 # 2c1c4 <_sk_overlay_sse2_8bit+0x577>
+ DB 196,98,125,24,5,148,132,2,0 ; vbroadcastss 0x28494(%rip),%ymm8 # 2c1ec <_sk_overlay_sse2_8bit+0x577>
DB 196,193,108,89,208 ; vmulps %ymm8,%ymm2,%ymm2
- DB 196,98,125,88,5,101,132,2,0 ; vpbroadcastd 0x28465(%rip),%ymm8 # 2c1c8 <_sk_overlay_sse2_8bit+0x57b>
+ DB 196,98,125,88,5,138,132,2,0 ; vpbroadcastd 0x2848a(%rip),%ymm8 # 2c1f0 <_sk_overlay_sse2_8bit+0x57b>
DB 196,193,101,219,216 ; vpand %ymm8,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
- DB 196,98,125,24,5,87,132,2,0 ; vbroadcastss 0x28457(%rip),%ymm8 # 2c1cc <_sk_overlay_sse2_8bit+0x57f>
+ DB 196,98,125,24,5,124,132,2,0 ; vbroadcastss 0x2847c(%rip),%ymm8 # 2c1f4 <_sk_overlay_sse2_8bit+0x57f>
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,99,255,255,255 ; ja 3cfa <_sk_load_4444_hsw+0x26>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,98,0,0,0 ; lea 0x62(%rip),%r11 # 3e04 <_sk_load_4444_hsw+0x130>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,100,255,255,255 ; ja 3cfd <_sk_load_4444_hsw+0x25>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,100,0,0,0 ; lea 0x64(%rip),%r10 # 3e08 <_sk_load_4444_hsw+0x130>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,249,110,192 ; vmovd %eax,%xmm0
- DB 233,65,255,255,255 ; jmpq 3cfa <_sk_load_4444_hsw+0x26>
+ DB 233,66,255,255,255 ; jmpq 3cfd <_sk_load_4444_hsw+0x25>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 196,193,121,196,68,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,110,12,89 ; vmovd (%r9,%rbx,2),%xmm1
+ DB 196,129,121,196,68,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,110,12,88 ; vmovd (%r8,%r11,2),%xmm1
DB 196,227,121,2,193,1 ; vpblendd $0x1,%xmm1,%xmm0,%xmm0
- DB 233,36,255,255,255 ; jmpq 3cfa <_sk_load_4444_hsw+0x26>
+ DB 233,37,255,255,255 ; jmpq 3cfd <_sk_load_4444_hsw+0x25>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 196,193,121,196,68,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,196,68,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,196,68,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,122,126,12,89 ; vmovq (%r9,%rbx,2),%xmm1
+ DB 196,129,121,196,68,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,196,68,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,196,68,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,122,126,12,88 ; vmovq (%r8,%r11,2),%xmm1
DB 196,227,113,2,192,12 ; vpblendd $0xc,%xmm0,%xmm1,%xmm0
- DB 233,247,254,255,255 ; jmpq 3cfa <_sk_load_4444_hsw+0x26>
- DB 144 ; nop
- DB 167 ; cmpsl %es:(%rdi),%ds:(%rsi)
+ DB 233,248,254,255,255 ; jmpq 3cfd <_sk_load_4444_hsw+0x25>
+ DB 15,31,0 ; nopl (%rax)
+ DB 165 ; movsl %ds:(%rsi),%es:(%rdi)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,193 ; inc %ecx
DB 255 ; (bad)
+ DB 191,255,255,255,179 ; mov $0xb3ffffff,%edi
DB 255 ; (bad)
- DB 255,181,255,255,255,238 ; pushq -0x11000001(%rbp)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,230 ; jmpq *%rsi
+ DB 236 ; in (%dx),%al
+ DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,228 ; jmpq *%rsp
DB 255 ; (bad)
DB 255 ; (bad)
- DB 222,255 ; fdivrp %st,%st(7)
DB 255 ; (bad)
- DB 255,210 ; callq *%rdx
+ DB 220,255 ; fdivr %st,%st(7)
+ DB 255 ; (bad)
+ DB 255,208 ; callq *%rax
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_4444_dst_hsw
_sk_load_4444_dst_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,139,0,0,0 ; jne 3ecb <_sk_load_4444_dst_hsw+0xab>
- DB 196,193,122,111,36,89 ; vmovdqu (%r9,%rbx,2),%xmm4
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,138,0,0,0 ; jne 3ecd <_sk_load_4444_dst_hsw+0xa9>
+ DB 196,129,122,111,36,88 ; vmovdqu (%r8,%r11,2),%xmm4
DB 196,226,125,51,252 ; vpmovzxwd %xmm4,%ymm7
- DB 196,226,125,88,37,92,131,2,0 ; vpbroadcastd 0x2835c(%rip),%ymm4 # 2c1b0 <_sk_overlay_sse2_8bit+0x563>
+ DB 196,226,125,88,37,129,131,2,0 ; vpbroadcastd 0x28381(%rip),%ymm4 # 2c1d8 <_sk_overlay_sse2_8bit+0x563>
DB 197,197,219,228 ; vpand %ymm4,%ymm7,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,226,125,24,45,79,131,2,0 ; vbroadcastss 0x2834f(%rip),%ymm5 # 2c1b4 <_sk_overlay_sse2_8bit+0x567>
+ DB 196,226,125,24,45,116,131,2,0 ; vbroadcastss 0x28374(%rip),%ymm5 # 2c1dc <_sk_overlay_sse2_8bit+0x567>
DB 197,220,89,229 ; vmulps %ymm5,%ymm4,%ymm4
- DB 196,226,125,88,45,70,131,2,0 ; vpbroadcastd 0x28346(%rip),%ymm5 # 2c1b8 <_sk_overlay_sse2_8bit+0x56b>
+ DB 196,226,125,88,45,107,131,2,0 ; vpbroadcastd 0x2836b(%rip),%ymm5 # 2c1e0 <_sk_overlay_sse2_8bit+0x56b>
DB 197,197,219,237 ; vpand %ymm5,%ymm7,%ymm5
DB 197,252,91,237 ; vcvtdq2ps %ymm5,%ymm5
- DB 196,226,125,24,53,57,131,2,0 ; vbroadcastss 0x28339(%rip),%ymm6 # 2c1bc <_sk_overlay_sse2_8bit+0x56f>
+ DB 196,226,125,24,53,94,131,2,0 ; vbroadcastss 0x2835e(%rip),%ymm6 # 2c1e4 <_sk_overlay_sse2_8bit+0x56f>
DB 197,212,89,238 ; vmulps %ymm6,%ymm5,%ymm5
- DB 196,226,125,88,53,48,131,2,0 ; vpbroadcastd 0x28330(%rip),%ymm6 # 2c1c0 <_sk_overlay_sse2_8bit+0x573>
+ DB 196,226,125,88,53,85,131,2,0 ; vpbroadcastd 0x28355(%rip),%ymm6 # 2c1e8 <_sk_overlay_sse2_8bit+0x573>
DB 197,197,219,246 ; vpand %ymm6,%ymm7,%ymm6
DB 197,252,91,246 ; vcvtdq2ps %ymm6,%ymm6
- DB 196,98,125,24,5,35,131,2,0 ; vbroadcastss 0x28323(%rip),%ymm8 # 2c1c4 <_sk_overlay_sse2_8bit+0x577>
+ DB 196,98,125,24,5,72,131,2,0 ; vbroadcastss 0x28348(%rip),%ymm8 # 2c1ec <_sk_overlay_sse2_8bit+0x577>
DB 196,193,76,89,240 ; vmulps %ymm8,%ymm6,%ymm6
- DB 196,98,125,88,5,25,131,2,0 ; vpbroadcastd 0x28319(%rip),%ymm8 # 2c1c8 <_sk_overlay_sse2_8bit+0x57b>
+ DB 196,98,125,88,5,62,131,2,0 ; vpbroadcastd 0x2833e(%rip),%ymm8 # 2c1f0 <_sk_overlay_sse2_8bit+0x57b>
DB 196,193,69,219,248 ; vpand %ymm8,%ymm7,%ymm7
DB 197,252,91,255 ; vcvtdq2ps %ymm7,%ymm7
- DB 196,98,125,24,5,11,131,2,0 ; vbroadcastss 0x2830b(%rip),%ymm8 # 2c1cc <_sk_overlay_sse2_8bit+0x57f>
+ DB 196,98,125,24,5,48,131,2,0 ; vbroadcastss 0x28330(%rip),%ymm8 # 2c1f4 <_sk_overlay_sse2_8bit+0x57f>
DB 196,193,68,89,248 ; vmulps %ymm8,%ymm7,%ymm7
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,99,255,255,255 ; ja 3e46 <_sk_load_4444_dst_hsw+0x26>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,98,0,0,0 ; lea 0x62(%rip),%r11 # 3f50 <_sk_load_4444_dst_hsw+0x130>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,100,255,255,255 ; ja 3e49 <_sk_load_4444_dst_hsw+0x25>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,100,0,0,0 ; lea 0x64(%rip),%r10 # 3f54 <_sk_load_4444_dst_hsw+0x130>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
- DB 233,65,255,255,255 ; jmpq 3e46 <_sk_load_4444_dst_hsw+0x26>
+ DB 233,66,255,255,255 ; jmpq 3e49 <_sk_load_4444_dst_hsw+0x25>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 196,193,89,196,100,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,121,110,44,89 ; vmovd (%r9,%rbx,2),%xmm5
+ DB 196,129,89,196,100,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,121,110,44,88 ; vmovd (%r8,%r11,2),%xmm5
DB 196,227,89,2,229,1 ; vpblendd $0x1,%xmm5,%xmm4,%xmm4
- DB 233,36,255,255,255 ; jmpq 3e46 <_sk_load_4444_dst_hsw+0x26>
+ DB 233,37,255,255,255 ; jmpq 3e49 <_sk_load_4444_dst_hsw+0x25>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 196,193,89,196,100,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,89,196,100,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,89,196,100,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,122,126,44,89 ; vmovq (%r9,%rbx,2),%xmm5
+ DB 196,129,89,196,100,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,89,196,100,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,89,196,100,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,122,126,44,88 ; vmovq (%r8,%r11,2),%xmm5
DB 196,227,81,2,228,12 ; vpblendd $0xc,%xmm4,%xmm5,%xmm4
- DB 233,247,254,255,255 ; jmpq 3e46 <_sk_load_4444_dst_hsw+0x26>
- DB 144 ; nop
- DB 167 ; cmpsl %es:(%rdi),%ds:(%rsi)
+ DB 233,248,254,255,255 ; jmpq 3e49 <_sk_load_4444_dst_hsw+0x25>
+ DB 15,31,0 ; nopl (%rax)
+ DB 165 ; movsl %ds:(%rsi),%es:(%rdi)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,193 ; inc %ecx
DB 255 ; (bad)
+ DB 191,255,255,255,179 ; mov $0xb3ffffff,%edi
DB 255 ; (bad)
- DB 255,181,255,255,255,238 ; pushq -0x11000001(%rbp)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,230 ; jmpq *%rsi
+ DB 236 ; in (%dx),%al
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,228 ; jmpq *%rsp
DB 255 ; (bad)
- DB 222,255 ; fdivrp %st,%st(7)
DB 255 ; (bad)
- DB 255,210 ; callq *%rdx
+ DB 255 ; (bad)
+ DB 220,255 ; fdivr %st,%st(7)
+ DB 255 ; (bad)
+ DB 255,208 ; callq *%rax
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_4444_hsw
_sk_gather_4444_hsw LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
DB 196,226,125,88,80,8 ; vpbroadcastd 0x8(%rax),%ymm2
DB 196,226,109,64,201 ; vpmulld %ymm1,%ymm2,%ymm1
DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
DB 197,245,254,192 ; vpaddd %ymm0,%ymm1,%ymm0
+ DB 196,227,249,22,192,1 ; vpextrq $0x1,%xmm0,%rax
+ DB 65,137,193 ; mov %eax,%r9d
+ DB 72,193,232,32 ; shr $0x20,%rax
DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,249,110,200 ; vmovd %eax,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 67,15,183,4,81 ; movzwl (%r9,%r10,2),%eax
- DB 197,241,196,200,1 ; vpinsrw $0x1,%eax,%xmm1,%xmm1
- DB 68,137,216 ; mov %r11d,%eax
- DB 73,193,235,32 ; shr $0x20,%r11
DB 196,227,125,57,192,1 ; vextracti128 $0x1,%ymm0,%xmm0
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,241,196,200,2 ; vpinsrw $0x2,%eax,%xmm1,%xmm1
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
- DB 197,241,196,200,3 ; vpinsrw $0x3,%eax,%xmm1,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,241,196,200,4 ; vpinsrw $0x4,%eax,%xmm1,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 67,15,183,4,81 ; movzwl (%r9,%r10,2),%eax
- DB 197,241,196,192,5 ; vpinsrw $0x5,%eax,%xmm1,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
+ DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,193,249,126,199 ; vmovq %xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 71,15,183,20,80 ; movzwl (%r8,%r10,2),%r10d
+ DB 71,15,183,28,88 ; movzwl (%r8,%r11,2),%r11d
+ DB 196,193,121,110,195 ; vmovd %r11d,%xmm0
+ DB 196,193,121,196,194,1 ; vpinsrw $0x1,%r10d,%xmm0,%xmm0
+ DB 71,15,183,12,72 ; movzwl (%r8,%r9,2),%r9d
+ DB 196,193,121,196,193,2 ; vpinsrw $0x2,%r9d,%xmm0,%xmm0
+ DB 65,15,183,4,64 ; movzwl (%r8,%rax,2),%eax
+ DB 197,249,196,192,3 ; vpinsrw $0x3,%eax,%xmm0,%xmm0
+ DB 67,15,183,4,96 ; movzwl (%r8,%r12,2),%eax
+ DB 197,249,196,192,4 ; vpinsrw $0x4,%eax,%xmm0,%xmm0
+ DB 67,15,183,4,120 ; movzwl (%r8,%r15,2),%eax
+ DB 197,249,196,192,5 ; vpinsrw $0x5,%eax,%xmm0,%xmm0
+ DB 67,15,183,4,112 ; movzwl (%r8,%r14,2),%eax
DB 197,249,196,192,6 ; vpinsrw $0x6,%eax,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 65,15,183,4,88 ; movzwl (%r8,%rbx,2),%eax
DB 197,249,196,192,7 ; vpinsrw $0x7,%eax,%xmm0,%xmm0
DB 196,226,125,51,216 ; vpmovzxwd %xmm0,%ymm3
- DB 196,226,125,88,5,147,129,2,0 ; vpbroadcastd 0x28193(%rip),%ymm0 # 2c1b0 <_sk_overlay_sse2_8bit+0x563>
+ DB 196,226,125,88,5,173,129,2,0 ; vpbroadcastd 0x281ad(%rip),%ymm0 # 2c1d8 <_sk_overlay_sse2_8bit+0x563>
DB 197,229,219,192 ; vpand %ymm0,%ymm3,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,134,129,2,0 ; vbroadcastss 0x28186(%rip),%ymm1 # 2c1b4 <_sk_overlay_sse2_8bit+0x567>
+ DB 196,226,125,24,13,160,129,2,0 ; vbroadcastss 0x281a0(%rip),%ymm1 # 2c1dc <_sk_overlay_sse2_8bit+0x567>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
- DB 196,226,125,88,13,125,129,2,0 ; vpbroadcastd 0x2817d(%rip),%ymm1 # 2c1b8 <_sk_overlay_sse2_8bit+0x56b>
+ DB 196,226,125,88,13,151,129,2,0 ; vpbroadcastd 0x28197(%rip),%ymm1 # 2c1e0 <_sk_overlay_sse2_8bit+0x56b>
DB 197,229,219,201 ; vpand %ymm1,%ymm3,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
- DB 196,226,125,24,21,112,129,2,0 ; vbroadcastss 0x28170(%rip),%ymm2 # 2c1bc <_sk_overlay_sse2_8bit+0x56f>
+ DB 196,226,125,24,21,138,129,2,0 ; vbroadcastss 0x2818a(%rip),%ymm2 # 2c1e4 <_sk_overlay_sse2_8bit+0x56f>
DB 197,244,89,202 ; vmulps %ymm2,%ymm1,%ymm1
- DB 196,226,125,88,21,103,129,2,0 ; vpbroadcastd 0x28167(%rip),%ymm2 # 2c1c0 <_sk_overlay_sse2_8bit+0x573>
+ DB 196,226,125,88,21,129,129,2,0 ; vpbroadcastd 0x28181(%rip),%ymm2 # 2c1e8 <_sk_overlay_sse2_8bit+0x573>
DB 197,229,219,210 ; vpand %ymm2,%ymm3,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
- DB 196,98,125,24,5,90,129,2,0 ; vbroadcastss 0x2815a(%rip),%ymm8 # 2c1c4 <_sk_overlay_sse2_8bit+0x577>
+ DB 196,98,125,24,5,116,129,2,0 ; vbroadcastss 0x28174(%rip),%ymm8 # 2c1ec <_sk_overlay_sse2_8bit+0x577>
DB 196,193,108,89,208 ; vmulps %ymm8,%ymm2,%ymm2
- DB 196,98,125,88,5,80,129,2,0 ; vpbroadcastd 0x28150(%rip),%ymm8 # 2c1c8 <_sk_overlay_sse2_8bit+0x57b>
+ DB 196,98,125,88,5,106,129,2,0 ; vpbroadcastd 0x2816a(%rip),%ymm8 # 2c1f0 <_sk_overlay_sse2_8bit+0x57b>
DB 196,193,101,219,216 ; vpand %ymm8,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
- DB 196,98,125,24,5,66,129,2,0 ; vbroadcastss 0x28142(%rip),%ymm8 # 2c1cc <_sk_overlay_sse2_8bit+0x57f>
+ DB 196,98,125,24,5,92,129,2,0 ; vbroadcastss 0x2815c(%rip),%ymm8 # 2c1f4 <_sk_overlay_sse2_8bit+0x57f>
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_4444_hsw
_sk_store_4444_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 196,98,125,24,5,29,129,2,0 ; vbroadcastss 0x2811d(%rip),%ymm8 # 2c1d0 <_sk_overlay_sse2_8bit+0x583>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 196,98,125,24,5,49,129,2,0 ; vbroadcastss 0x28131(%rip),%ymm8 # 2c1f8 <_sk_overlay_sse2_8bit+0x583>
DB 196,65,124,89,200 ; vmulps %ymm8,%ymm0,%ymm9
DB 196,65,125,91,201 ; vcvtps2dq %ymm9,%ymm9
DB 196,193,53,114,241,12 ; vpslld $0xc,%ymm9,%ymm9
@@ -3944,241 +3944,237 @@ _sk_store_4444_hsw LABEL PROC
DB 196,65,53,235,192 ; vpor %ymm8,%ymm9,%ymm8
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
DB 196,66,57,43,193 ; vpackusdw %xmm9,%xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,11 ; jne 4117 <_sk_store_4444_hsw+0x84>
- DB 196,65,122,127,4,89 ; vmovdqu %xmm8,(%r9,%rbx,2)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 412a <_sk_store_4444_hsw+0x82>
+ DB 196,1,122,127,4,88 ; vmovdqu %xmm8,(%r8,%r11,2)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,235 ; ja 4112 <_sk_store_4444_hsw+0x7f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,66,0,0,0 ; lea 0x42(%rip),%r11 # 4174 <_sk_store_4444_hsw+0xe1>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,67,121,21,4,89,0 ; vpextrw $0x0,%xmm8,(%r9,%rbx,2)
- DB 235,206 ; jmp 4112 <_sk_store_4444_hsw+0x7f>
- DB 196,67,121,21,68,89,4,2 ; vpextrw $0x2,%xmm8,0x4(%r9,%rbx,2)
- DB 196,65,121,126,4,89 ; vmovd %xmm8,(%r9,%rbx,2)
- DB 235,190 ; jmp 4112 <_sk_store_4444_hsw+0x7f>
- DB 196,67,121,21,68,89,12,6 ; vpextrw $0x6,%xmm8,0xc(%r9,%rbx,2)
- DB 196,67,121,21,68,89,10,5 ; vpextrw $0x5,%xmm8,0xa(%r9,%rbx,2)
- DB 196,67,121,21,68,89,8,4 ; vpextrw $0x4,%xmm8,0x8(%r9,%rbx,2)
- DB 196,65,121,214,4,89 ; vmovq %xmm8,(%r9,%rbx,2)
- DB 235,158 ; jmp 4112 <_sk_store_4444_hsw+0x7f>
- DB 199 ; (bad)
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,236 ; ja 4126 <_sk_store_4444_hsw+0x7e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,67,0,0,0 ; lea 0x43(%rip),%r10 # 4188 <_sk_store_4444_hsw+0xe0>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,3,121,21,4,88,0 ; vpextrw $0x0,%xmm8,(%r8,%r11,2)
+ DB 235,207 ; jmp 4126 <_sk_store_4444_hsw+0x7e>
+ DB 196,3,121,21,68,88,4,2 ; vpextrw $0x2,%xmm8,0x4(%r8,%r11,2)
+ DB 196,1,121,126,4,88 ; vmovd %xmm8,(%r8,%r11,2)
+ DB 235,191 ; jmp 4126 <_sk_store_4444_hsw+0x7e>
+ DB 196,3,121,21,68,88,12,6 ; vpextrw $0x6,%xmm8,0xc(%r8,%r11,2)
+ DB 196,3,121,21,68,88,10,5 ; vpextrw $0x5,%xmm8,0xa(%r8,%r11,2)
+ DB 196,3,121,21,68,88,8,4 ; vpextrw $0x4,%xmm8,0x8(%r8,%r11,2)
+ DB 196,1,121,214,4,88 ; vmovq %xmm8,(%r8,%r11,2)
+ DB 235,159 ; jmp 4126 <_sk_store_4444_hsw+0x7e>
+ DB 144 ; nop
+ DB 198 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,215 ; callq *%rdi
DB 255 ; (bad)
- DB 216,255 ; fdivr %st(7),%st
DB 255 ; (bad)
- DB 255,208 ; callq *%rax
+ DB 255,207 ; dec %edi
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,247 ; push %rdi
DB 255 ; (bad)
- DB 248 ; clc
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,240 ; push %rax
+ DB 239 ; out %eax,(%dx)
+ DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
DB 255 ; (bad)
- DB 232,255,255,255,224 ; callq ffffffffe100418c <_sk_overlay_sse2_8bit+0xffffffffe0fd853f>
DB 255 ; (bad)
+ DB 223,255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_8888_hsw
_sk_load_8888_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,87 ; jne 4204 <_sk_load_8888_hsw+0x74>
- DB 196,193,126,111,28,153 ; vmovdqu (%r9,%rbx,4),%ymm3
- DB 197,229,219,5,101,129,2,0 ; vpand 0x28165(%rip),%ymm3,%ymm0 # 2c320 <_sk_overlay_sse2_8bit+0x6d3>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,86 ; jne 4216 <_sk_load_8888_hsw+0x72>
+ DB 196,129,126,111,28,152 ; vmovdqu (%r8,%r11,4),%ymm3
+ DB 197,229,219,5,178,129,2,0 ; vpand 0x281b2(%rip),%ymm3,%ymm0 # 2c380 <_sk_overlay_sse2_8bit+0x70b>
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,5,104,127,2,0 ; vbroadcastss 0x27f68(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,125,127,2,0 ; vbroadcastss 0x27f7d(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
- DB 196,226,101,0,13,106,129,2,0 ; vpshufb 0x2816a(%rip),%ymm3,%ymm1 # 2c340 <_sk_overlay_sse2_8bit+0x6f3>
+ DB 196,226,101,0,13,183,129,2,0 ; vpshufb 0x281b7(%rip),%ymm3,%ymm1 # 2c3a0 <_sk_overlay_sse2_8bit+0x72b>
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
DB 196,193,116,89,200 ; vmulps %ymm8,%ymm1,%ymm1
- DB 196,226,101,0,21,120,129,2,0 ; vpshufb 0x28178(%rip),%ymm3,%ymm2 # 2c360 <_sk_overlay_sse2_8bit+0x713>
+ DB 196,226,101,0,21,197,129,2,0 ; vpshufb 0x281c5(%rip),%ymm3,%ymm2 # 2c3c0 <_sk_overlay_sse2_8bit+0x74b>
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
DB 196,193,108,89,208 ; vmulps %ymm8,%ymm2,%ymm2
DB 197,229,114,211,24 ; vpsrld $0x18,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,155 ; ja 41b3 <_sk_load_8888_hsw+0x23>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,141,0,0,0 ; lea 0x8d(%rip),%r11 # 42b0 <_sk_load_8888_hsw+0x120>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,193,121,110,28,153 ; vmovd (%r9,%rbx,4),%xmm3
- DB 233,124,255,255,255 ; jmpq 41b3 <_sk_load_8888_hsw+0x23>
- DB 196,193,121,110,68,153,8 ; vmovd 0x8(%r9,%rbx,4),%xmm0
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,156 ; ja 41c6 <_sk_load_8888_hsw+0x22>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,135,0,0,0 ; lea 0x87(%rip),%r10 # 42bc <_sk_load_8888_hsw+0x118>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,129,121,110,28,152 ; vmovd (%r8,%r11,4),%xmm3
+ DB 235,128 ; jmp 41c6 <_sk_load_8888_hsw+0x22>
+ DB 196,129,121,110,68,152,8 ; vmovd 0x8(%r8,%r11,4),%xmm0
DB 196,226,121,89,192 ; vpbroadcastq %xmm0,%xmm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
DB 196,227,117,2,216,4 ; vpblendd $0x4,%ymm0,%ymm1,%ymm3
- DB 196,193,122,126,4,153 ; vmovq (%r9,%rbx,4),%xmm0
+ DB 196,129,122,126,4,152 ; vmovq (%r8,%r11,4),%xmm0
DB 196,227,101,2,216,3 ; vpblendd $0x3,%ymm0,%ymm3,%ymm3
- DB 233,85,255,255,255 ; jmpq 41b3 <_sk_load_8888_hsw+0x23>
- DB 196,193,121,110,68,153,24 ; vmovd 0x18(%r9,%rbx,4),%xmm0
+ DB 233,89,255,255,255 ; jmpq 41c6 <_sk_load_8888_hsw+0x22>
+ DB 196,129,121,110,68,152,24 ; vmovd 0x18(%r8,%r11,4),%xmm0
DB 196,226,125,89,192 ; vpbroadcastq %xmm0,%ymm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
DB 196,227,117,2,216,64 ; vpblendd $0x40,%ymm0,%ymm1,%ymm3
DB 196,227,125,57,216,1 ; vextracti128 $0x1,%ymm3,%xmm0
- DB 196,195,121,34,68,153,20,1 ; vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm0,%xmm0
+ DB 196,131,121,34,68,152,20,1 ; vpinsrd $0x1,0x14(%r8,%r11,4),%xmm0,%xmm0
DB 196,227,101,56,216,1 ; vinserti128 $0x1,%xmm0,%ymm3,%ymm3
DB 196,227,125,57,216,1 ; vextracti128 $0x1,%ymm3,%xmm0
- DB 196,195,121,34,68,153,16,0 ; vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm0,%xmm0
+ DB 196,131,121,34,68,152,16,0 ; vpinsrd $0x0,0x10(%r8,%r11,4),%xmm0,%xmm0
DB 196,227,101,56,216,1 ; vinserti128 $0x1,%xmm0,%ymm3,%ymm3
- DB 196,193,122,111,4,153 ; vmovdqu (%r9,%rbx,4),%xmm0
+ DB 196,129,122,111,4,152 ; vmovdqu (%r8,%r11,4),%xmm0
DB 196,227,125,2,219,240 ; vpblendd $0xf0,%ymm3,%ymm0,%ymm3
- DB 233,6,255,255,255 ; jmpq 41b3 <_sk_load_8888_hsw+0x23>
- DB 15,31,0 ; nopl (%rax)
- DB 124,255 ; jl 42b1 <_sk_load_8888_hsw+0x121>
+ DB 233,10,255,255,255 ; jmpq 41c6 <_sk_load_8888_hsw+0x22>
+ DB 130 ; (bad)
DB 255 ; (bad)
- DB 255,157,255,255,255,135 ; lcall *-0x78000001(%rbp)
DB 255 ; (bad)
+ DB 255,160,255,255,255,138 ; jmpq *-0x75000001(%rax)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
DB 255 ; (bad)
+ DB 239 ; out %eax,(%dx)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 216,255 ; fdivr %st(7),%st
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 219,255 ; (bad)
DB 255 ; (bad)
+ DB 255,199 ; inc %edi
DB 255 ; (bad)
- DB 255 ; .byte 0xff
- DB 174 ; scas %es:(%rdi),%al
DB 255 ; (bad)
+ DB 255 ; .byte 0xff
+ DB 177,255 ; mov $0xff,%cl
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_8888_dst_hsw
_sk_load_8888_dst_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,87 ; jne 4340 <_sk_load_8888_dst_hsw+0x74>
- DB 196,193,126,111,60,153 ; vmovdqu (%r9,%rbx,4),%ymm7
- DB 197,197,219,37,137,128,2,0 ; vpand 0x28089(%rip),%ymm7,%ymm4 # 2c380 <_sk_overlay_sse2_8bit+0x733>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,86 ; jne 434a <_sk_load_8888_dst_hsw+0x72>
+ DB 196,129,126,111,60,152 ; vmovdqu (%r8,%r11,4),%ymm7
+ DB 197,197,219,37,222,128,2,0 ; vpand 0x280de(%rip),%ymm7,%ymm4 # 2c3e0 <_sk_overlay_sse2_8bit+0x76b>
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,98,125,24,5,44,126,2,0 ; vbroadcastss 0x27e2c(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,73,126,2,0 ; vbroadcastss 0x27e49(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,92,89,224 ; vmulps %ymm8,%ymm4,%ymm4
- DB 196,226,69,0,45,142,128,2,0 ; vpshufb 0x2808e(%rip),%ymm7,%ymm5 # 2c3a0 <_sk_overlay_sse2_8bit+0x753>
+ DB 196,226,69,0,45,227,128,2,0 ; vpshufb 0x280e3(%rip),%ymm7,%ymm5 # 2c400 <_sk_overlay_sse2_8bit+0x78b>
DB 197,252,91,237 ; vcvtdq2ps %ymm5,%ymm5
DB 196,193,84,89,232 ; vmulps %ymm8,%ymm5,%ymm5
- DB 196,226,69,0,53,156,128,2,0 ; vpshufb 0x2809c(%rip),%ymm7,%ymm6 # 2c3c0 <_sk_overlay_sse2_8bit+0x773>
+ DB 196,226,69,0,53,241,128,2,0 ; vpshufb 0x280f1(%rip),%ymm7,%ymm6 # 2c420 <_sk_overlay_sse2_8bit+0x7ab>
DB 197,252,91,246 ; vcvtdq2ps %ymm6,%ymm6
DB 196,193,76,89,240 ; vmulps %ymm8,%ymm6,%ymm6
DB 197,197,114,215,24 ; vpsrld $0x18,%ymm7,%ymm7
DB 197,252,91,255 ; vcvtdq2ps %ymm7,%ymm7
DB 196,193,68,89,248 ; vmulps %ymm8,%ymm7,%ymm7
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,197,239,255 ; vpxor %ymm7,%ymm7,%ymm7
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,155 ; ja 42ef <_sk_load_8888_dst_hsw+0x23>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,141,0,0,0 ; lea 0x8d(%rip),%r11 # 43ec <_sk_load_8888_dst_hsw+0x120>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,193,121,110,60,153 ; vmovd (%r9,%rbx,4),%xmm7
- DB 233,124,255,255,255 ; jmpq 42ef <_sk_load_8888_dst_hsw+0x23>
- DB 196,193,121,110,100,153,8 ; vmovd 0x8(%r9,%rbx,4),%xmm4
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,156 ; ja 42fa <_sk_load_8888_dst_hsw+0x22>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,135,0,0,0 ; lea 0x87(%rip),%r10 # 43f0 <_sk_load_8888_dst_hsw+0x118>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,129,121,110,60,152 ; vmovd (%r8,%r11,4),%xmm7
+ DB 235,128 ; jmp 42fa <_sk_load_8888_dst_hsw+0x22>
+ DB 196,129,121,110,100,152,8 ; vmovd 0x8(%r8,%r11,4),%xmm4
DB 196,226,121,89,228 ; vpbroadcastq %xmm4,%xmm4
DB 197,213,239,237 ; vpxor %ymm5,%ymm5,%ymm5
DB 196,227,85,2,252,4 ; vpblendd $0x4,%ymm4,%ymm5,%ymm7
- DB 196,193,122,126,36,153 ; vmovq (%r9,%rbx,4),%xmm4
+ DB 196,129,122,126,36,152 ; vmovq (%r8,%r11,4),%xmm4
DB 196,227,69,2,252,3 ; vpblendd $0x3,%ymm4,%ymm7,%ymm7
- DB 233,85,255,255,255 ; jmpq 42ef <_sk_load_8888_dst_hsw+0x23>
- DB 196,193,121,110,100,153,24 ; vmovd 0x18(%r9,%rbx,4),%xmm4
+ DB 233,89,255,255,255 ; jmpq 42fa <_sk_load_8888_dst_hsw+0x22>
+ DB 196,129,121,110,100,152,24 ; vmovd 0x18(%r8,%r11,4),%xmm4
DB 196,226,125,89,228 ; vpbroadcastq %xmm4,%ymm4
DB 197,213,239,237 ; vpxor %ymm5,%ymm5,%ymm5
DB 196,227,85,2,252,64 ; vpblendd $0x40,%ymm4,%ymm5,%ymm7
DB 196,227,125,57,252,1 ; vextracti128 $0x1,%ymm7,%xmm4
- DB 196,195,89,34,100,153,20,1 ; vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,20,1 ; vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
DB 196,227,69,56,252,1 ; vinserti128 $0x1,%xmm4,%ymm7,%ymm7
DB 196,227,125,57,252,1 ; vextracti128 $0x1,%ymm7,%xmm4
- DB 196,195,89,34,100,153,16,0 ; vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,16,0 ; vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
DB 196,227,69,56,252,1 ; vinserti128 $0x1,%xmm4,%ymm7,%ymm7
- DB 196,193,122,111,36,153 ; vmovdqu (%r9,%rbx,4),%xmm4
+ DB 196,129,122,111,36,152 ; vmovdqu (%r8,%r11,4),%xmm4
DB 196,227,93,2,255,240 ; vpblendd $0xf0,%ymm7,%ymm4,%ymm7
- DB 233,6,255,255,255 ; jmpq 42ef <_sk_load_8888_dst_hsw+0x23>
- DB 15,31,0 ; nopl (%rax)
- DB 124,255 ; jl 43ed <_sk_load_8888_dst_hsw+0x121>
+ DB 233,10,255,255,255 ; jmpq 42fa <_sk_load_8888_dst_hsw+0x22>
+ DB 130 ; (bad)
DB 255 ; (bad)
- DB 255,157,255,255,255,135 ; lcall *-0x78000001(%rbp)
DB 255 ; (bad)
+ DB 255,160,255,255,255,138 ; jmpq *-0x75000001(%rax)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
DB 255 ; (bad)
+ DB 239 ; out %eax,(%dx)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 216,255 ; fdivr %st(7),%st
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 219,255 ; (bad)
DB 255 ; (bad)
+ DB 255,199 ; inc %edi
DB 255 ; (bad)
- DB 255 ; .byte 0xff
- DB 174 ; scas %es:(%rdi),%al
DB 255 ; (bad)
+ DB 255 ; .byte 0xff
+ DB 177,255 ; mov $0xff,%cl
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_8888_hsw
_sk_gather_8888_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
DB 196,226,125,88,80,8 ; vpbroadcastd 0x8(%rax),%ymm2
DB 196,226,109,64,201 ; vpmulld %ymm1,%ymm2,%ymm1
DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
DB 197,245,254,192 ; vpaddd %ymm0,%ymm1,%ymm0
DB 197,245,118,201 ; vpcmpeqd %ymm1,%ymm1,%ymm1
- DB 196,194,117,144,28,129 ; vpgatherdd %ymm1,(%r9,%ymm0,4),%ymm3
- DB 197,229,219,5,170,127,2,0 ; vpand 0x27faa(%rip),%ymm3,%ymm0 # 2c3e0 <_sk_overlay_sse2_8bit+0x793>
+ DB 196,194,117,144,28,128 ; vpgatherdd %ymm1,(%r8,%ymm0,4),%ymm3
+ DB 197,229,219,5,6,128,2,0 ; vpand 0x28006(%rip),%ymm3,%ymm0 # 2c440 <_sk_overlay_sse2_8bit+0x7cb>
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,5,237,124,2,0 ; vbroadcastss 0x27ced(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,17,125,2,0 ; vbroadcastss 0x27d11(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
- DB 196,226,101,0,13,175,127,2,0 ; vpshufb 0x27faf(%rip),%ymm3,%ymm1 # 2c400 <_sk_overlay_sse2_8bit+0x7b3>
+ DB 196,226,101,0,13,11,128,2,0 ; vpshufb 0x2800b(%rip),%ymm3,%ymm1 # 2c460 <_sk_overlay_sse2_8bit+0x7eb>
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
DB 196,193,116,89,200 ; vmulps %ymm8,%ymm1,%ymm1
- DB 196,226,101,0,21,189,127,2,0 ; vpshufb 0x27fbd(%rip),%ymm3,%ymm2 # 2c420 <_sk_overlay_sse2_8bit+0x7d3>
+ DB 196,226,101,0,21,25,128,2,0 ; vpshufb 0x28019(%rip),%ymm3,%ymm2 # 2c480 <_sk_overlay_sse2_8bit+0x80b>
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
DB 196,193,108,89,208 ; vmulps %ymm8,%ymm2,%ymm2
DB 197,229,114,211,24 ; vpsrld $0x18,%ymm3,%ymm3
@@ -4189,15 +4185,14 @@ _sk_gather_8888_hsw LABEL PROC
PUBLIC _sk_store_8888_hsw
_sk_store_8888_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 196,98,125,24,5,73,124,2,0 ; vbroadcastss 0x27c49(%rip),%ymm8 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 196,98,125,24,5,110,124,2,0 ; vbroadcastss 0x27c6e(%rip),%ymm8 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,65,124,89,200 ; vmulps %ymm8,%ymm0,%ymm9
DB 196,65,125,91,201 ; vcvtps2dq %ymm9,%ymm9
DB 196,65,116,89,208 ; vmulps %ymm8,%ymm1,%ymm10
@@ -4212,241 +4207,237 @@ _sk_store_8888_hsw LABEL PROC
DB 196,193,61,114,240,24 ; vpslld $0x18,%ymm8,%ymm8
DB 196,65,45,235,192 ; vpor %ymm8,%ymm10,%ymm8
DB 196,65,53,235,192 ; vpor %ymm8,%ymm9,%ymm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,11 ; jne 44f8 <_sk_store_8888_hsw+0x7a>
- DB 196,65,126,127,4,153 ; vmovdqu %ymm8,(%r9,%rbx,4)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 44fa <_sk_store_8888_hsw+0x78>
+ DB 196,1,126,127,4,152 ; vmovdqu %ymm8,(%r8,%r11,4)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,235 ; ja 44f3 <_sk_store_8888_hsw+0x75>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,85,0,0,0 ; lea 0x55(%rip),%r11 # 4568 <_sk_store_8888_hsw+0xea>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,121,126,4,153 ; vmovd %xmm8,(%r9,%rbx,4)
- DB 235,207 ; jmp 44f3 <_sk_store_8888_hsw+0x75>
- DB 196,67,121,22,68,153,8,2 ; vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- DB 196,65,121,214,4,153 ; vmovq %xmm8,(%r9,%rbx,4)
- DB 235,191 ; jmp 44f3 <_sk_store_8888_hsw+0x75>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,236 ; ja 44f6 <_sk_store_8888_hsw+0x74>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,83,0,0,0 ; lea 0x53(%rip),%r10 # 4568 <_sk_store_8888_hsw+0xe6>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,1,121,126,4,152 ; vmovd %xmm8,(%r8,%r11,4)
+ DB 235,208 ; jmp 44f6 <_sk_store_8888_hsw+0x74>
+ DB 196,3,121,22,68,152,8,2 ; vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ DB 196,1,121,214,4,152 ; vmovq %xmm8,(%r8,%r11,4)
+ DB 235,192 ; jmp 44f6 <_sk_store_8888_hsw+0x74>
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,24,2 ; vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,24,2 ; vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,20,1 ; vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,20,1 ; vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
- DB 196,65,121,126,76,153,16 ; vmovd %xmm9,0x10(%r9,%rbx,4)
- DB 196,65,122,127,4,153 ; vmovdqu %xmm8,(%r9,%rbx,4)
- DB 235,142 ; jmp 44f3 <_sk_store_8888_hsw+0x75>
- DB 15,31,0 ; nopl (%rax)
- DB 180,255 ; mov $0xff,%ah
+ DB 196,1,121,126,76,152,16 ; vmovd %xmm9,0x10(%r8,%r11,4)
+ DB 196,1,122,127,4,152 ; vmovdqu %xmm8,(%r8,%r11,4)
+ DB 235,143 ; jmp 44f6 <_sk_store_8888_hsw+0x74>
+ DB 144 ; nop
+ DB 182,255 ; mov $0xff,%dh
+ DB 255 ; (bad)
+ DB 255,198 ; inc %esi
+ DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,196 ; inc %esp
DB 255 ; (bad)
+ DB 190,255,255,255,247 ; mov $0xf7ffffff,%esi
DB 255 ; (bad)
DB 255 ; (bad)
- DB 188,255,255,255,245 ; mov $0xf5ffffff,%esp
DB 255 ; (bad)
+ DB 234 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 232,255,255,255,218 ; callq ffffffffdb00457c <_sk_overlay_sse2_8bit+0xffffffffdafd892f>
DB 255 ; (bad)
+ DB 220,255 ; fdivr %st,%st(7)
DB 255 ; (bad)
- DB 255,204 ; dec %esp
+ DB 255,206 ; dec %esi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_bgra_hsw
_sk_load_bgra_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,87 ; jne 45f8 <_sk_load_bgra_hsw+0x74>
- DB 196,193,126,111,28,153 ; vmovdqu (%r9,%rbx,4),%ymm3
- DB 197,229,219,5,145,126,2,0 ; vpand 0x27e91(%rip),%ymm3,%ymm0 # 2c440 <_sk_overlay_sse2_8bit+0x7f3>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,86 ; jne 45f6 <_sk_load_bgra_hsw+0x72>
+ DB 196,129,126,111,28,152 ; vmovdqu (%r8,%r11,4),%ymm3
+ DB 197,229,219,5,242,126,2,0 ; vpand 0x27ef2(%rip),%ymm3,%ymm0 # 2c4a0 <_sk_overlay_sse2_8bit+0x82b>
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,5,116,123,2,0 ; vbroadcastss 0x27b74(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,157,123,2,0 ; vbroadcastss 0x27b9d(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,208 ; vmulps %ymm8,%ymm0,%ymm2
- DB 196,226,101,0,5,150,126,2,0 ; vpshufb 0x27e96(%rip),%ymm3,%ymm0 # 2c460 <_sk_overlay_sse2_8bit+0x813>
+ DB 196,226,101,0,5,247,126,2,0 ; vpshufb 0x27ef7(%rip),%ymm3,%ymm0 # 2c4c0 <_sk_overlay_sse2_8bit+0x84b>
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
DB 196,193,124,89,200 ; vmulps %ymm8,%ymm0,%ymm1
- DB 196,226,101,0,5,164,126,2,0 ; vpshufb 0x27ea4(%rip),%ymm3,%ymm0 # 2c480 <_sk_overlay_sse2_8bit+0x833>
+ DB 196,226,101,0,5,5,127,2,0 ; vpshufb 0x27f05(%rip),%ymm3,%ymm0 # 2c4e0 <_sk_overlay_sse2_8bit+0x86b>
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
DB 197,229,114,211,24 ; vpsrld $0x18,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,155 ; ja 45a7 <_sk_load_bgra_hsw+0x23>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,141,0,0,0 ; lea 0x8d(%rip),%r11 # 46a4 <_sk_load_bgra_hsw+0x120>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,193,121,110,28,153 ; vmovd (%r9,%rbx,4),%xmm3
- DB 233,124,255,255,255 ; jmpq 45a7 <_sk_load_bgra_hsw+0x23>
- DB 196,193,121,110,68,153,8 ; vmovd 0x8(%r9,%rbx,4),%xmm0
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,156 ; ja 45a6 <_sk_load_bgra_hsw+0x22>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,135,0,0,0 ; lea 0x87(%rip),%r10 # 469c <_sk_load_bgra_hsw+0x118>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,129,121,110,28,152 ; vmovd (%r8,%r11,4),%xmm3
+ DB 235,128 ; jmp 45a6 <_sk_load_bgra_hsw+0x22>
+ DB 196,129,121,110,68,152,8 ; vmovd 0x8(%r8,%r11,4),%xmm0
DB 196,226,121,89,192 ; vpbroadcastq %xmm0,%xmm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
DB 196,227,117,2,216,4 ; vpblendd $0x4,%ymm0,%ymm1,%ymm3
- DB 196,193,122,126,4,153 ; vmovq (%r9,%rbx,4),%xmm0
+ DB 196,129,122,126,4,152 ; vmovq (%r8,%r11,4),%xmm0
DB 196,227,101,2,216,3 ; vpblendd $0x3,%ymm0,%ymm3,%ymm3
- DB 233,85,255,255,255 ; jmpq 45a7 <_sk_load_bgra_hsw+0x23>
- DB 196,193,121,110,68,153,24 ; vmovd 0x18(%r9,%rbx,4),%xmm0
+ DB 233,89,255,255,255 ; jmpq 45a6 <_sk_load_bgra_hsw+0x22>
+ DB 196,129,121,110,68,152,24 ; vmovd 0x18(%r8,%r11,4),%xmm0
DB 196,226,125,89,192 ; vpbroadcastq %xmm0,%ymm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
DB 196,227,117,2,216,64 ; vpblendd $0x40,%ymm0,%ymm1,%ymm3
DB 196,227,125,57,216,1 ; vextracti128 $0x1,%ymm3,%xmm0
- DB 196,195,121,34,68,153,20,1 ; vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm0,%xmm0
+ DB 196,131,121,34,68,152,20,1 ; vpinsrd $0x1,0x14(%r8,%r11,4),%xmm0,%xmm0
DB 196,227,101,56,216,1 ; vinserti128 $0x1,%xmm0,%ymm3,%ymm3
DB 196,227,125,57,216,1 ; vextracti128 $0x1,%ymm3,%xmm0
- DB 196,195,121,34,68,153,16,0 ; vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm0,%xmm0
+ DB 196,131,121,34,68,152,16,0 ; vpinsrd $0x0,0x10(%r8,%r11,4),%xmm0,%xmm0
DB 196,227,101,56,216,1 ; vinserti128 $0x1,%xmm0,%ymm3,%ymm3
- DB 196,193,122,111,4,153 ; vmovdqu (%r9,%rbx,4),%xmm0
+ DB 196,129,122,111,4,152 ; vmovdqu (%r8,%r11,4),%xmm0
DB 196,227,125,2,219,240 ; vpblendd $0xf0,%ymm3,%ymm0,%ymm3
- DB 233,6,255,255,255 ; jmpq 45a7 <_sk_load_bgra_hsw+0x23>
- DB 15,31,0 ; nopl (%rax)
- DB 124,255 ; jl 46a5 <_sk_load_bgra_hsw+0x121>
+ DB 233,10,255,255,255 ; jmpq 45a6 <_sk_load_bgra_hsw+0x22>
+ DB 130 ; (bad)
DB 255 ; (bad)
- DB 255,157,255,255,255,135 ; lcall *-0x78000001(%rbp)
DB 255 ; (bad)
+ DB 255,160,255,255,255,138 ; jmpq *-0x75000001(%rax)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
DB 255 ; (bad)
+ DB 239 ; out %eax,(%dx)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 216,255 ; fdivr %st(7),%st
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 219,255 ; (bad)
DB 255 ; (bad)
+ DB 255,199 ; inc %edi
DB 255 ; (bad)
- DB 255 ; .byte 0xff
- DB 174 ; scas %es:(%rdi),%al
DB 255 ; (bad)
+ DB 255 ; .byte 0xff
+ DB 177,255 ; mov $0xff,%cl
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_bgra_dst_hsw
_sk_load_bgra_dst_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,87 ; jne 4734 <_sk_load_bgra_dst_hsw+0x74>
- DB 196,193,126,111,60,153 ; vmovdqu (%r9,%rbx,4),%ymm7
- DB 197,197,219,37,181,125,2,0 ; vpand 0x27db5(%rip),%ymm7,%ymm4 # 2c4a0 <_sk_overlay_sse2_8bit+0x853>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,86 ; jne 472a <_sk_load_bgra_dst_hsw+0x72>
+ DB 196,129,126,111,60,152 ; vmovdqu (%r8,%r11,4),%ymm7
+ DB 197,197,219,37,30,126,2,0 ; vpand 0x27e1e(%rip),%ymm7,%ymm4 # 2c500 <_sk_overlay_sse2_8bit+0x88b>
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,98,125,24,5,56,122,2,0 ; vbroadcastss 0x27a38(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,105,122,2,0 ; vbroadcastss 0x27a69(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,92,89,240 ; vmulps %ymm8,%ymm4,%ymm6
- DB 196,226,69,0,37,186,125,2,0 ; vpshufb 0x27dba(%rip),%ymm7,%ymm4 # 2c4c0 <_sk_overlay_sse2_8bit+0x873>
+ DB 196,226,69,0,37,35,126,2,0 ; vpshufb 0x27e23(%rip),%ymm7,%ymm4 # 2c520 <_sk_overlay_sse2_8bit+0x8ab>
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
DB 196,193,92,89,232 ; vmulps %ymm8,%ymm4,%ymm5
- DB 196,226,69,0,37,200,125,2,0 ; vpshufb 0x27dc8(%rip),%ymm7,%ymm4 # 2c4e0 <_sk_overlay_sse2_8bit+0x893>
+ DB 196,226,69,0,37,49,126,2,0 ; vpshufb 0x27e31(%rip),%ymm7,%ymm4 # 2c540 <_sk_overlay_sse2_8bit+0x8cb>
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
DB 196,193,92,89,224 ; vmulps %ymm8,%ymm4,%ymm4
DB 197,197,114,215,24 ; vpsrld $0x18,%ymm7,%ymm7
DB 197,252,91,255 ; vcvtdq2ps %ymm7,%ymm7
DB 196,193,68,89,248 ; vmulps %ymm8,%ymm7,%ymm7
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,197,239,255 ; vpxor %ymm7,%ymm7,%ymm7
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,155 ; ja 46e3 <_sk_load_bgra_dst_hsw+0x23>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,141,0,0,0 ; lea 0x8d(%rip),%r11 # 47e0 <_sk_load_bgra_dst_hsw+0x120>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,193,121,110,60,153 ; vmovd (%r9,%rbx,4),%xmm7
- DB 233,124,255,255,255 ; jmpq 46e3 <_sk_load_bgra_dst_hsw+0x23>
- DB 196,193,121,110,100,153,8 ; vmovd 0x8(%r9,%rbx,4),%xmm4
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,156 ; ja 46da <_sk_load_bgra_dst_hsw+0x22>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,135,0,0,0 ; lea 0x87(%rip),%r10 # 47d0 <_sk_load_bgra_dst_hsw+0x118>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,129,121,110,60,152 ; vmovd (%r8,%r11,4),%xmm7
+ DB 235,128 ; jmp 46da <_sk_load_bgra_dst_hsw+0x22>
+ DB 196,129,121,110,100,152,8 ; vmovd 0x8(%r8,%r11,4),%xmm4
DB 196,226,121,89,228 ; vpbroadcastq %xmm4,%xmm4
DB 197,213,239,237 ; vpxor %ymm5,%ymm5,%ymm5
DB 196,227,85,2,252,4 ; vpblendd $0x4,%ymm4,%ymm5,%ymm7
- DB 196,193,122,126,36,153 ; vmovq (%r9,%rbx,4),%xmm4
+ DB 196,129,122,126,36,152 ; vmovq (%r8,%r11,4),%xmm4
DB 196,227,69,2,252,3 ; vpblendd $0x3,%ymm4,%ymm7,%ymm7
- DB 233,85,255,255,255 ; jmpq 46e3 <_sk_load_bgra_dst_hsw+0x23>
- DB 196,193,121,110,100,153,24 ; vmovd 0x18(%r9,%rbx,4),%xmm4
+ DB 233,89,255,255,255 ; jmpq 46da <_sk_load_bgra_dst_hsw+0x22>
+ DB 196,129,121,110,100,152,24 ; vmovd 0x18(%r8,%r11,4),%xmm4
DB 196,226,125,89,228 ; vpbroadcastq %xmm4,%ymm4
DB 197,213,239,237 ; vpxor %ymm5,%ymm5,%ymm5
DB 196,227,85,2,252,64 ; vpblendd $0x40,%ymm4,%ymm5,%ymm7
DB 196,227,125,57,252,1 ; vextracti128 $0x1,%ymm7,%xmm4
- DB 196,195,89,34,100,153,20,1 ; vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,20,1 ; vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
DB 196,227,69,56,252,1 ; vinserti128 $0x1,%xmm4,%ymm7,%ymm7
DB 196,227,125,57,252,1 ; vextracti128 $0x1,%ymm7,%xmm4
- DB 196,195,89,34,100,153,16,0 ; vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,16,0 ; vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
DB 196,227,69,56,252,1 ; vinserti128 $0x1,%xmm4,%ymm7,%ymm7
- DB 196,193,122,111,36,153 ; vmovdqu (%r9,%rbx,4),%xmm4
+ DB 196,129,122,111,36,152 ; vmovdqu (%r8,%r11,4),%xmm4
DB 196,227,93,2,255,240 ; vpblendd $0xf0,%ymm7,%ymm4,%ymm7
- DB 233,6,255,255,255 ; jmpq 46e3 <_sk_load_bgra_dst_hsw+0x23>
- DB 15,31,0 ; nopl (%rax)
- DB 124,255 ; jl 47e1 <_sk_load_bgra_dst_hsw+0x121>
+ DB 233,10,255,255,255 ; jmpq 46da <_sk_load_bgra_dst_hsw+0x22>
+ DB 130 ; (bad)
DB 255 ; (bad)
- DB 255,157,255,255,255,135 ; lcall *-0x78000001(%rbp)
DB 255 ; (bad)
+ DB 255,160,255,255,255,138 ; jmpq *-0x75000001(%rax)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
DB 255 ; (bad)
+ DB 239 ; out %eax,(%dx)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 216,255 ; fdivr %st(7),%st
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 219,255 ; (bad)
DB 255 ; (bad)
+ DB 255,199 ; inc %edi
DB 255 ; (bad)
- DB 255 ; .byte 0xff
- DB 174 ; scas %es:(%rdi),%al
DB 255 ; (bad)
+ DB 255 ; .byte 0xff
+ DB 177,255 ; mov $0xff,%cl
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_bgra_hsw
_sk_gather_bgra_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
DB 196,226,125,88,80,8 ; vpbroadcastd 0x8(%rax),%ymm2
DB 196,226,109,64,201 ; vpmulld %ymm1,%ymm2,%ymm1
DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
DB 197,245,254,192 ; vpaddd %ymm0,%ymm1,%ymm0
DB 197,245,118,201 ; vpcmpeqd %ymm1,%ymm1,%ymm1
- DB 196,194,117,144,28,129 ; vpgatherdd %ymm1,(%r9,%ymm0,4),%ymm3
- DB 197,229,219,5,214,124,2,0 ; vpand 0x27cd6(%rip),%ymm3,%ymm0 # 2c500 <_sk_overlay_sse2_8bit+0x8b3>
+ DB 196,194,117,144,28,128 ; vpgatherdd %ymm1,(%r8,%ymm0,4),%ymm3
+ DB 197,229,219,5,70,125,2,0 ; vpand 0x27d46(%rip),%ymm3,%ymm0 # 2c560 <_sk_overlay_sse2_8bit+0x8eb>
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,5,249,120,2,0 ; vbroadcastss 0x278f9(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,49,121,2,0 ; vbroadcastss 0x27931(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,208 ; vmulps %ymm8,%ymm0,%ymm2
- DB 196,226,101,0,5,219,124,2,0 ; vpshufb 0x27cdb(%rip),%ymm3,%ymm0 # 2c520 <_sk_overlay_sse2_8bit+0x8d3>
+ DB 196,226,101,0,5,75,125,2,0 ; vpshufb 0x27d4b(%rip),%ymm3,%ymm0 # 2c580 <_sk_overlay_sse2_8bit+0x90b>
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
DB 196,193,124,89,200 ; vmulps %ymm8,%ymm0,%ymm1
- DB 196,226,101,0,5,233,124,2,0 ; vpshufb 0x27ce9(%rip),%ymm3,%ymm0 # 2c540 <_sk_overlay_sse2_8bit+0x8f3>
+ DB 196,226,101,0,5,89,125,2,0 ; vpshufb 0x27d59(%rip),%ymm3,%ymm0 # 2c5a0 <_sk_overlay_sse2_8bit+0x92b>
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
DB 197,229,114,211,24 ; vpsrld $0x18,%ymm3,%ymm3
@@ -4457,15 +4448,14 @@ _sk_gather_bgra_hsw LABEL PROC
PUBLIC _sk_store_bgra_hsw
_sk_store_bgra_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 196,98,125,24,5,85,120,2,0 ; vbroadcastss 0x27855(%rip),%ymm8 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 196,98,125,24,5,142,120,2,0 ; vbroadcastss 0x2788e(%rip),%ymm8 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,65,108,89,200 ; vmulps %ymm8,%ymm2,%ymm9
DB 196,65,125,91,201 ; vcvtps2dq %ymm9,%ymm9
DB 196,65,116,89,208 ; vmulps %ymm8,%ymm1,%ymm10
@@ -4480,50 +4470,52 @@ _sk_store_bgra_hsw LABEL PROC
DB 196,193,61,114,240,24 ; vpslld $0x18,%ymm8,%ymm8
DB 196,65,45,235,192 ; vpor %ymm8,%ymm10,%ymm8
DB 196,65,53,235,192 ; vpor %ymm8,%ymm9,%ymm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,11 ; jne 48ec <_sk_store_bgra_hsw+0x7a>
- DB 196,65,126,127,4,153 ; vmovdqu %ymm8,(%r9,%rbx,4)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 48da <_sk_store_bgra_hsw+0x78>
+ DB 196,1,126,127,4,152 ; vmovdqu %ymm8,(%r8,%r11,4)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,235 ; ja 48e7 <_sk_store_bgra_hsw+0x75>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,85,0,0,0 ; lea 0x55(%rip),%r11 # 495c <_sk_store_bgra_hsw+0xea>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,121,126,4,153 ; vmovd %xmm8,(%r9,%rbx,4)
- DB 235,207 ; jmp 48e7 <_sk_store_bgra_hsw+0x75>
- DB 196,67,121,22,68,153,8,2 ; vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- DB 196,65,121,214,4,153 ; vmovq %xmm8,(%r9,%rbx,4)
- DB 235,191 ; jmp 48e7 <_sk_store_bgra_hsw+0x75>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,236 ; ja 48d6 <_sk_store_bgra_hsw+0x74>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,83,0,0,0 ; lea 0x53(%rip),%r10 # 4948 <_sk_store_bgra_hsw+0xe6>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,1,121,126,4,152 ; vmovd %xmm8,(%r8,%r11,4)
+ DB 235,208 ; jmp 48d6 <_sk_store_bgra_hsw+0x74>
+ DB 196,3,121,22,68,152,8,2 ; vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ DB 196,1,121,214,4,152 ; vmovq %xmm8,(%r8,%r11,4)
+ DB 235,192 ; jmp 48d6 <_sk_store_bgra_hsw+0x74>
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,24,2 ; vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,24,2 ; vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,20,1 ; vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,20,1 ; vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
DB 196,67,125,57,193,1 ; vextracti128 $0x1,%ymm8,%xmm9
- DB 196,65,121,126,76,153,16 ; vmovd %xmm9,0x10(%r9,%rbx,4)
- DB 196,65,122,127,4,153 ; vmovdqu %xmm8,(%r9,%rbx,4)
- DB 235,142 ; jmp 48e7 <_sk_store_bgra_hsw+0x75>
- DB 15,31,0 ; nopl (%rax)
- DB 180,255 ; mov $0xff,%ah
+ DB 196,1,121,126,76,152,16 ; vmovd %xmm9,0x10(%r8,%r11,4)
+ DB 196,1,122,127,4,152 ; vmovdqu %xmm8,(%r8,%r11,4)
+ DB 235,143 ; jmp 48d6 <_sk_store_bgra_hsw+0x74>
+ DB 144 ; nop
+ DB 182,255 ; mov $0xff,%dh
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 255,198 ; inc %esi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 188,255,255,255,245 ; mov $0xf5ffffff,%esp
+ DB 190,255,255,255,247 ; mov $0xf7ffffff,%esi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 232,255,255,255,218 ; callq ffffffffdb004970 <_sk_overlay_sse2_8bit+0xffffffffdafd8d23>
+ DB 234 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,204 ; dec %esp
+ DB 255 ; (bad)
+ DB 220,255 ; fdivr %st,%st(7)
+ DB 255 ; (bad)
+ DB 255,206 ; dec %esi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
@@ -4531,18 +4523,18 @@ _sk_store_bgra_hsw LABEL PROC
PUBLIC _sk_load_f16_hsw
_sk_load_f16_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,101 ; jne 49f9 <_sk_load_f16_hsw+0x81>
- DB 196,65,121,16,4,193 ; vmovupd (%r9,%rax,8),%xmm8
- DB 196,193,121,16,84,193,16 ; vmovupd 0x10(%r9,%rax,8),%xmm2
- DB 196,193,121,16,92,193,32 ; vmovupd 0x20(%r9,%rax,8),%xmm3
- DB 196,65,122,111,76,193,48 ; vmovdqu 0x30(%r9,%rax,8),%xmm9
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,101 ; jne 49e5 <_sk_load_f16_hsw+0x81>
+ DB 196,65,121,16,4,192 ; vmovupd (%r8,%rax,8),%xmm8
+ DB 196,193,121,16,84,192,16 ; vmovupd 0x10(%r8,%rax,8),%xmm2
+ DB 196,193,121,16,92,192,32 ; vmovupd 0x20(%r8,%rax,8),%xmm3
+ DB 196,65,122,111,76,192,48 ; vmovdqu 0x30(%r8,%rax,8),%xmm9
DB 197,185,97,194 ; vpunpcklwd %xmm2,%xmm8,%xmm0
DB 197,185,105,210 ; vpunpckhwd %xmm2,%xmm8,%xmm2
DB 196,193,97,97,201 ; vpunpcklwd %xmm9,%xmm3,%xmm1
@@ -4561,48 +4553,48 @@ _sk_load_f16_hsw LABEL PROC
DB 196,226,125,19,219 ; vcvtph2ps %xmm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 196,65,123,16,4,193 ; vmovsd (%r9,%rax,8),%xmm8
+ DB 196,65,123,16,4,192 ; vmovsd (%r8,%rax,8),%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,85 ; je 4a5f <_sk_load_f16_hsw+0xe7>
- DB 196,65,57,22,68,193,8 ; vmovhpd 0x8(%r9,%rax,8),%xmm8,%xmm8
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,72 ; jb 4a5f <_sk_load_f16_hsw+0xe7>
- DB 196,193,123,16,84,193,16 ; vmovsd 0x10(%r9,%rax,8),%xmm2
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 116,72 ; je 4a6c <_sk_load_f16_hsw+0xf4>
- DB 196,193,105,22,84,193,24 ; vmovhpd 0x18(%r9,%rax,8),%xmm2,%xmm2
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,59 ; jb 4a6c <_sk_load_f16_hsw+0xf4>
- DB 196,193,123,16,92,193,32 ; vmovsd 0x20(%r9,%rax,8),%xmm3
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 15,132,109,255,255,255 ; je 49af <_sk_load_f16_hsw+0x37>
- DB 196,193,97,22,92,193,40 ; vmovhpd 0x28(%r9,%rax,8),%xmm3,%xmm3
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,130,92,255,255,255 ; jb 49af <_sk_load_f16_hsw+0x37>
- DB 196,65,122,126,76,193,48 ; vmovq 0x30(%r9,%rax,8),%xmm9
- DB 233,80,255,255,255 ; jmpq 49af <_sk_load_f16_hsw+0x37>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,85 ; je 4a4b <_sk_load_f16_hsw+0xe7>
+ DB 196,65,57,22,68,192,8 ; vmovhpd 0x8(%r8,%rax,8),%xmm8,%xmm8
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,72 ; jb 4a4b <_sk_load_f16_hsw+0xe7>
+ DB 196,193,123,16,84,192,16 ; vmovsd 0x10(%r8,%rax,8),%xmm2
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 116,72 ; je 4a58 <_sk_load_f16_hsw+0xf4>
+ DB 196,193,105,22,84,192,24 ; vmovhpd 0x18(%r8,%rax,8),%xmm2,%xmm2
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,59 ; jb 4a58 <_sk_load_f16_hsw+0xf4>
+ DB 196,193,123,16,92,192,32 ; vmovsd 0x20(%r8,%rax,8),%xmm3
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 15,132,109,255,255,255 ; je 499b <_sk_load_f16_hsw+0x37>
+ DB 196,193,97,22,92,192,40 ; vmovhpd 0x28(%r8,%rax,8),%xmm3,%xmm3
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,130,92,255,255,255 ; jb 499b <_sk_load_f16_hsw+0x37>
+ DB 196,65,122,126,76,192,48 ; vmovq 0x30(%r8,%rax,8),%xmm9
+ DB 233,80,255,255,255 ; jmpq 499b <_sk_load_f16_hsw+0x37>
DB 197,225,87,219 ; vxorpd %xmm3,%xmm3,%xmm3
DB 197,233,87,210 ; vxorpd %xmm2,%xmm2,%xmm2
- DB 233,67,255,255,255 ; jmpq 49af <_sk_load_f16_hsw+0x37>
+ DB 233,67,255,255,255 ; jmpq 499b <_sk_load_f16_hsw+0x37>
DB 197,225,87,219 ; vxorpd %xmm3,%xmm3,%xmm3
- DB 233,58,255,255,255 ; jmpq 49af <_sk_load_f16_hsw+0x37>
+ DB 233,58,255,255,255 ; jmpq 499b <_sk_load_f16_hsw+0x37>
PUBLIC _sk_load_f16_dst_hsw
_sk_load_f16_dst_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,101 ; jne 4af6 <_sk_load_f16_dst_hsw+0x81>
- DB 196,65,121,16,4,193 ; vmovupd (%r9,%rax,8),%xmm8
- DB 196,193,121,16,116,193,16 ; vmovupd 0x10(%r9,%rax,8),%xmm6
- DB 196,193,121,16,124,193,32 ; vmovupd 0x20(%r9,%rax,8),%xmm7
- DB 196,65,122,111,76,193,48 ; vmovdqu 0x30(%r9,%rax,8),%xmm9
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,101 ; jne 4ae2 <_sk_load_f16_dst_hsw+0x81>
+ DB 196,65,121,16,4,192 ; vmovupd (%r8,%rax,8),%xmm8
+ DB 196,193,121,16,116,192,16 ; vmovupd 0x10(%r8,%rax,8),%xmm6
+ DB 196,193,121,16,124,192,32 ; vmovupd 0x20(%r8,%rax,8),%xmm7
+ DB 196,65,122,111,76,192,48 ; vmovdqu 0x30(%r8,%rax,8),%xmm9
DB 197,185,97,230 ; vpunpcklwd %xmm6,%xmm8,%xmm4
DB 197,185,105,246 ; vpunpckhwd %xmm6,%xmm8,%xmm6
DB 196,193,65,97,233 ; vpunpcklwd %xmm9,%xmm7,%xmm5
@@ -4621,37 +4613,37 @@ _sk_load_f16_dst_hsw LABEL PROC
DB 196,226,125,19,255 ; vcvtph2ps %xmm7,%ymm7
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 196,65,123,16,4,193 ; vmovsd (%r9,%rax,8),%xmm8
+ DB 196,65,123,16,4,192 ; vmovsd (%r8,%rax,8),%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,85 ; je 4b5c <_sk_load_f16_dst_hsw+0xe7>
- DB 196,65,57,22,68,193,8 ; vmovhpd 0x8(%r9,%rax,8),%xmm8,%xmm8
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,72 ; jb 4b5c <_sk_load_f16_dst_hsw+0xe7>
- DB 196,193,123,16,116,193,16 ; vmovsd 0x10(%r9,%rax,8),%xmm6
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 116,72 ; je 4b69 <_sk_load_f16_dst_hsw+0xf4>
- DB 196,193,73,22,116,193,24 ; vmovhpd 0x18(%r9,%rax,8),%xmm6,%xmm6
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,59 ; jb 4b69 <_sk_load_f16_dst_hsw+0xf4>
- DB 196,193,123,16,124,193,32 ; vmovsd 0x20(%r9,%rax,8),%xmm7
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 15,132,109,255,255,255 ; je 4aac <_sk_load_f16_dst_hsw+0x37>
- DB 196,193,65,22,124,193,40 ; vmovhpd 0x28(%r9,%rax,8),%xmm7,%xmm7
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,130,92,255,255,255 ; jb 4aac <_sk_load_f16_dst_hsw+0x37>
- DB 196,65,122,126,76,193,48 ; vmovq 0x30(%r9,%rax,8),%xmm9
- DB 233,80,255,255,255 ; jmpq 4aac <_sk_load_f16_dst_hsw+0x37>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,85 ; je 4b48 <_sk_load_f16_dst_hsw+0xe7>
+ DB 196,65,57,22,68,192,8 ; vmovhpd 0x8(%r8,%rax,8),%xmm8,%xmm8
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,72 ; jb 4b48 <_sk_load_f16_dst_hsw+0xe7>
+ DB 196,193,123,16,116,192,16 ; vmovsd 0x10(%r8,%rax,8),%xmm6
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 116,72 ; je 4b55 <_sk_load_f16_dst_hsw+0xf4>
+ DB 196,193,73,22,116,192,24 ; vmovhpd 0x18(%r8,%rax,8),%xmm6,%xmm6
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,59 ; jb 4b55 <_sk_load_f16_dst_hsw+0xf4>
+ DB 196,193,123,16,124,192,32 ; vmovsd 0x20(%r8,%rax,8),%xmm7
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 15,132,109,255,255,255 ; je 4a98 <_sk_load_f16_dst_hsw+0x37>
+ DB 196,193,65,22,124,192,40 ; vmovhpd 0x28(%r8,%rax,8),%xmm7,%xmm7
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,130,92,255,255,255 ; jb 4a98 <_sk_load_f16_dst_hsw+0x37>
+ DB 196,65,122,126,76,192,48 ; vmovq 0x30(%r8,%rax,8),%xmm9
+ DB 233,80,255,255,255 ; jmpq 4a98 <_sk_load_f16_dst_hsw+0x37>
DB 197,193,87,255 ; vxorpd %xmm7,%xmm7,%xmm7
DB 197,201,87,246 ; vxorpd %xmm6,%xmm6,%xmm6
- DB 233,67,255,255,255 ; jmpq 4aac <_sk_load_f16_dst_hsw+0x37>
+ DB 233,67,255,255,255 ; jmpq 4a98 <_sk_load_f16_dst_hsw+0x37>
DB 197,193,87,255 ; vxorpd %xmm7,%xmm7,%xmm7
- DB 233,58,255,255,255 ; jmpq 4aac <_sk_load_f16_dst_hsw+0x37>
+ DB 233,58,255,255,255 ; jmpq 4a98 <_sk_load_f16_dst_hsw+0x37>
PUBLIC _sk_gather_f16_hsw
_sk_gather_f16_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
DB 196,226,125,88,80,8 ; vpbroadcastd 0x8(%rax),%ymm2
DB 196,226,109,64,201 ; vpmulld %ymm1,%ymm2,%ymm1
@@ -4659,9 +4651,9 @@ _sk_gather_f16_hsw LABEL PROC
DB 197,245,254,192 ; vpaddd %ymm0,%ymm1,%ymm0
DB 197,245,118,201 ; vpcmpeqd %ymm1,%ymm1,%ymm1
DB 197,237,118,210 ; vpcmpeqd %ymm2,%ymm2,%ymm2
- DB 196,194,237,144,28,193 ; vpgatherdq %ymm2,(%r9,%xmm0,8),%ymm3
+ DB 196,194,237,144,28,192 ; vpgatherdq %ymm2,(%r8,%xmm0,8),%ymm3
DB 196,227,125,57,192,1 ; vextracti128 $0x1,%ymm0,%xmm0
- DB 196,194,245,144,20,193 ; vpgatherdq %ymm1,(%r9,%xmm0,8),%ymm2
+ DB 196,194,245,144,20,192 ; vpgatherdq %ymm1,(%r8,%xmm0,8),%ymm2
DB 196,227,125,57,216,1 ; vextracti128 $0x1,%ymm3,%xmm0
DB 196,227,125,57,209,1 ; vextracti128 $0x1,%ymm2,%xmm1
DB 197,97,97,192 ; vpunpcklwd %xmm0,%xmm3,%xmm8
@@ -4686,11 +4678,11 @@ _sk_gather_f16_hsw LABEL PROC
PUBLIC _sk_store_f16_hsw
_sk_store_f16_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
DB 196,195,125,29,192,4 ; vcvtps2ph $0x4,%ymm0,%xmm8
DB 196,195,125,29,201,4 ; vcvtps2ph $0x4,%ymm1,%xmm9
@@ -4704,49 +4696,49 @@ _sk_store_f16_hsw LABEL PROC
DB 196,65,25,106,209 ; vpunpckhdq %xmm9,%xmm12,%xmm10
DB 196,65,57,98,205 ; vpunpckldq %xmm13,%xmm8,%xmm9
DB 196,65,57,106,197 ; vpunpckhdq %xmm13,%xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,31 ; jne 4c77 <_sk_store_f16_hsw+0x7b>
- DB 196,65,120,17,28,193 ; vmovups %xmm11,(%r9,%rax,8)
- DB 196,65,120,17,84,193,16 ; vmovups %xmm10,0x10(%r9,%rax,8)
- DB 196,65,120,17,76,193,32 ; vmovups %xmm9,0x20(%r9,%rax,8)
- DB 196,65,122,127,68,193,48 ; vmovdqu %xmm8,0x30(%r9,%rax,8)
- DB 72,173 ; lods %ds:(%rsi),%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,121,214,28,193 ; vmovq %xmm11,(%r9,%rax,8)
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,240 ; je 4c73 <_sk_store_f16_hsw+0x77>
- DB 196,65,121,23,92,193,8 ; vmovhpd %xmm11,0x8(%r9,%rax,8)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,227 ; jb 4c73 <_sk_store_f16_hsw+0x77>
- DB 196,65,121,214,84,193,16 ; vmovq %xmm10,0x10(%r9,%rax,8)
- DB 116,218 ; je 4c73 <_sk_store_f16_hsw+0x77>
- DB 196,65,121,23,84,193,24 ; vmovhpd %xmm10,0x18(%r9,%rax,8)
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,205 ; jb 4c73 <_sk_store_f16_hsw+0x77>
- DB 196,65,121,214,76,193,32 ; vmovq %xmm9,0x20(%r9,%rax,8)
- DB 116,196 ; je 4c73 <_sk_store_f16_hsw+0x77>
- DB 196,65,121,23,76,193,40 ; vmovhpd %xmm9,0x28(%r9,%rax,8)
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 114,183 ; jb 4c73 <_sk_store_f16_hsw+0x77>
- DB 196,65,121,214,68,193,48 ; vmovq %xmm8,0x30(%r9,%rax,8)
- DB 235,174 ; jmp 4c73 <_sk_store_f16_hsw+0x77>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,31 ; jne 4c63 <_sk_store_f16_hsw+0x7b>
+ DB 196,65,120,17,28,192 ; vmovups %xmm11,(%r8,%rax,8)
+ DB 196,65,120,17,84,192,16 ; vmovups %xmm10,0x10(%r8,%rax,8)
+ DB 196,65,120,17,76,192,32 ; vmovups %xmm9,0x20(%r8,%rax,8)
+ DB 196,65,122,127,68,192,48 ; vmovdqu %xmm8,0x30(%r8,%rax,8)
+ DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,65,121,214,28,192 ; vmovq %xmm11,(%r8,%rax,8)
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,240 ; je 4c5f <_sk_store_f16_hsw+0x77>
+ DB 196,65,121,23,92,192,8 ; vmovhpd %xmm11,0x8(%r8,%rax,8)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,227 ; jb 4c5f <_sk_store_f16_hsw+0x77>
+ DB 196,65,121,214,84,192,16 ; vmovq %xmm10,0x10(%r8,%rax,8)
+ DB 116,218 ; je 4c5f <_sk_store_f16_hsw+0x77>
+ DB 196,65,121,23,84,192,24 ; vmovhpd %xmm10,0x18(%r8,%rax,8)
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,205 ; jb 4c5f <_sk_store_f16_hsw+0x77>
+ DB 196,65,121,214,76,192,32 ; vmovq %xmm9,0x20(%r8,%rax,8)
+ DB 116,196 ; je 4c5f <_sk_store_f16_hsw+0x77>
+ DB 196,65,121,23,76,192,40 ; vmovhpd %xmm9,0x28(%r8,%rax,8)
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 114,183 ; jb 4c5f <_sk_store_f16_hsw+0x77>
+ DB 196,65,121,214,68,192,48 ; vmovq %xmm8,0x30(%r8,%rax,8)
+ DB 235,174 ; jmp 4c5f <_sk_store_f16_hsw+0x77>
PUBLIC _sk_load_u16_be_hsw
_sk_load_u16_be_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,204,0,0,0 ; jne 4db8 <_sk_load_u16_be_hsw+0xf3>
- DB 196,65,121,16,4,65 ; vmovupd (%r9,%rax,2),%xmm8
- DB 196,193,121,16,84,65,16 ; vmovupd 0x10(%r9,%rax,2),%xmm2
- DB 196,193,121,16,92,65,32 ; vmovupd 0x20(%r9,%rax,2),%xmm3
- DB 196,65,122,111,76,65,48 ; vmovdqu 0x30(%r9,%rax,2),%xmm9
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,204,0,0,0 ; jne 4da4 <_sk_load_u16_be_hsw+0xf3>
+ DB 196,65,121,16,4,64 ; vmovupd (%r8,%rax,2),%xmm8
+ DB 196,193,121,16,84,64,16 ; vmovupd 0x10(%r8,%rax,2),%xmm2
+ DB 196,193,121,16,92,64,32 ; vmovupd 0x20(%r8,%rax,2),%xmm3
+ DB 196,65,122,111,76,64,48 ; vmovdqu 0x30(%r8,%rax,2),%xmm9
DB 197,185,97,194 ; vpunpcklwd %xmm2,%xmm8,%xmm0
DB 197,185,105,210 ; vpunpckhwd %xmm2,%xmm8,%xmm2
DB 196,193,97,97,201 ; vpunpcklwd %xmm9,%xmm3,%xmm1
@@ -4761,7 +4753,7 @@ _sk_load_u16_be_hsw LABEL PROC
DB 197,241,235,192 ; vpor %xmm0,%xmm1,%xmm0
DB 196,226,125,51,192 ; vpmovzxwd %xmm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,21,255,115,2,0 ; vbroadcastss 0x273ff(%rip),%ymm10 # 2c14c <_sk_overlay_sse2_8bit+0x4ff>
+ DB 196,98,125,24,21,59,116,2,0 ; vbroadcastss 0x2743b(%rip),%ymm10 # 2c174 <_sk_overlay_sse2_8bit+0x4ff>
DB 196,193,124,89,194 ; vmulps %ymm10,%ymm0,%ymm0
DB 197,185,109,202 ; vpunpckhqdq %xmm2,%xmm8,%xmm1
DB 197,233,113,241,8 ; vpsllw $0x8,%xmm1,%xmm2
@@ -4786,51 +4778,51 @@ _sk_load_u16_be_hsw LABEL PROC
DB 196,193,100,89,218 ; vmulps %ymm10,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 196,65,123,16,4,65 ; vmovsd (%r9,%rax,2),%xmm8
+ DB 196,65,123,16,4,64 ; vmovsd (%r8,%rax,2),%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,85 ; je 4e1e <_sk_load_u16_be_hsw+0x159>
- DB 196,65,57,22,68,65,8 ; vmovhpd 0x8(%r9,%rax,2),%xmm8,%xmm8
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,72 ; jb 4e1e <_sk_load_u16_be_hsw+0x159>
- DB 196,193,123,16,84,65,16 ; vmovsd 0x10(%r9,%rax,2),%xmm2
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 116,72 ; je 4e2b <_sk_load_u16_be_hsw+0x166>
- DB 196,193,105,22,84,65,24 ; vmovhpd 0x18(%r9,%rax,2),%xmm2,%xmm2
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,59 ; jb 4e2b <_sk_load_u16_be_hsw+0x166>
- DB 196,193,123,16,92,65,32 ; vmovsd 0x20(%r9,%rax,2),%xmm3
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 15,132,6,255,255,255 ; je 4d07 <_sk_load_u16_be_hsw+0x42>
- DB 196,193,97,22,92,65,40 ; vmovhpd 0x28(%r9,%rax,2),%xmm3,%xmm3
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,130,245,254,255,255 ; jb 4d07 <_sk_load_u16_be_hsw+0x42>
- DB 196,65,122,126,76,65,48 ; vmovq 0x30(%r9,%rax,2),%xmm9
- DB 233,233,254,255,255 ; jmpq 4d07 <_sk_load_u16_be_hsw+0x42>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,85 ; je 4e0a <_sk_load_u16_be_hsw+0x159>
+ DB 196,65,57,22,68,64,8 ; vmovhpd 0x8(%r8,%rax,2),%xmm8,%xmm8
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,72 ; jb 4e0a <_sk_load_u16_be_hsw+0x159>
+ DB 196,193,123,16,84,64,16 ; vmovsd 0x10(%r8,%rax,2),%xmm2
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 116,72 ; je 4e17 <_sk_load_u16_be_hsw+0x166>
+ DB 196,193,105,22,84,64,24 ; vmovhpd 0x18(%r8,%rax,2),%xmm2,%xmm2
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,59 ; jb 4e17 <_sk_load_u16_be_hsw+0x166>
+ DB 196,193,123,16,92,64,32 ; vmovsd 0x20(%r8,%rax,2),%xmm3
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 15,132,6,255,255,255 ; je 4cf3 <_sk_load_u16_be_hsw+0x42>
+ DB 196,193,97,22,92,64,40 ; vmovhpd 0x28(%r8,%rax,2),%xmm3,%xmm3
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,130,245,254,255,255 ; jb 4cf3 <_sk_load_u16_be_hsw+0x42>
+ DB 196,65,122,126,76,64,48 ; vmovq 0x30(%r8,%rax,2),%xmm9
+ DB 233,233,254,255,255 ; jmpq 4cf3 <_sk_load_u16_be_hsw+0x42>
DB 197,225,87,219 ; vxorpd %xmm3,%xmm3,%xmm3
DB 197,233,87,210 ; vxorpd %xmm2,%xmm2,%xmm2
- DB 233,220,254,255,255 ; jmpq 4d07 <_sk_load_u16_be_hsw+0x42>
+ DB 233,220,254,255,255 ; jmpq 4cf3 <_sk_load_u16_be_hsw+0x42>
DB 197,225,87,219 ; vxorpd %xmm3,%xmm3,%xmm3
- DB 233,211,254,255,255 ; jmpq 4d07 <_sk_load_u16_be_hsw+0x42>
+ DB 233,211,254,255,255 ; jmpq 4cf3 <_sk_load_u16_be_hsw+0x42>
PUBLIC _sk_load_rgb_u16_be_hsw
_sk_load_rgb_u16_be_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,137,208 ; mov %rdx,%rax
DB 72,193,224,32 ; shl $0x20,%rax
DB 72,141,4,64 ; lea (%rax,%rax,2),%rax
DB 72,193,248,32 ; sar $0x20,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,203,0,0,0 ; jne 4f2a <_sk_load_rgb_u16_be_hsw+0xf6>
- DB 196,65,122,111,28,65 ; vmovdqu (%r9,%rax,2),%xmm11
- DB 196,193,122,111,92,65,12 ; vmovdqu 0xc(%r9,%rax,2),%xmm3
- DB 196,193,122,111,84,65,24 ; vmovdqu 0x18(%r9,%rax,2),%xmm2
- DB 196,193,122,111,68,65,32 ; vmovdqu 0x20(%r9,%rax,2),%xmm0
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,203,0,0,0 ; jne 4f16 <_sk_load_rgb_u16_be_hsw+0xf6>
+ DB 196,65,122,111,28,64 ; vmovdqu (%r8,%rax,2),%xmm11
+ DB 196,193,122,111,92,64,12 ; vmovdqu 0xc(%r8,%rax,2),%xmm3
+ DB 196,193,122,111,84,64,24 ; vmovdqu 0x18(%r8,%rax,2),%xmm2
+ DB 196,193,122,111,68,64,32 ; vmovdqu 0x20(%r8,%rax,2),%xmm0
DB 197,249,115,216,4 ; vpsrldq $0x4,%xmm0,%xmm0
DB 196,193,57,115,219,6 ; vpsrldq $0x6,%xmm11,%xmm8
DB 197,169,115,219,6 ; vpsrldq $0x6,%xmm3,%xmm10
@@ -4850,7 +4842,7 @@ _sk_load_rgb_u16_be_hsw LABEL PROC
DB 197,225,235,192 ; vpor %xmm0,%xmm3,%xmm0
DB 196,226,125,51,192 ; vpmovzxwd %xmm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,29,114,114,2,0 ; vbroadcastss 0x27272(%rip),%ymm3 # 2c14c <_sk_overlay_sse2_8bit+0x4ff>
+ DB 196,226,125,24,29,174,114,2,0 ; vbroadcastss 0x272ae(%rip),%ymm3 # 2c174 <_sk_overlay_sse2_8bit+0x4ff>
DB 197,252,89,195 ; vmulps %ymm3,%ymm0,%ymm0
DB 197,185,109,201 ; vpunpckhqdq %xmm1,%xmm8,%xmm1
DB 197,233,113,241,8 ; vpsllw $0x8,%xmm1,%xmm2
@@ -4867,81 +4859,81 @@ _sk_load_rgb_u16_be_hsw LABEL PROC
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
DB 197,236,89,211 ; vmulps %ymm3,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,148,113,2,0 ; vbroadcastss 0x27194(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,208,113,2,0 ; vbroadcastss 0x271d0(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 255,224 ; jmpq *%rax
- DB 196,193,121,110,4,65 ; vmovd (%r9,%rax,2),%xmm0
- DB 196,65,121,196,92,65,4,2 ; vpinsrw $0x2,0x4(%r9,%rax,2),%xmm0,%xmm11
+ DB 196,193,121,110,4,64 ; vmovd (%r8,%rax,2),%xmm0
+ DB 196,65,121,196,92,64,4,2 ; vpinsrw $0x2,0x4(%r8,%rax,2),%xmm0,%xmm11
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,32 ; jne 4f63 <_sk_load_rgb_u16_be_hsw+0x12f>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,32 ; jne 4f4f <_sk_load_rgb_u16_be_hsw+0x12f>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
DB 197,225,239,219 ; vpxor %xmm3,%xmm3,%xmm3
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 233,49,255,255,255 ; jmpq 4e94 <_sk_load_rgb_u16_be_hsw+0x60>
- DB 196,193,121,110,68,65,6 ; vmovd 0x6(%r9,%rax,2),%xmm0
- DB 196,65,121,196,68,65,10,2 ; vpinsrw $0x2,0xa(%r9,%rax,2),%xmm0,%xmm8
+ DB 233,49,255,255,255 ; jmpq 4e80 <_sk_load_rgb_u16_be_hsw+0x60>
+ DB 196,193,121,110,68,64,6 ; vmovd 0x6(%r8,%rax,2),%xmm0
+ DB 196,65,121,196,68,64,10,2 ; vpinsrw $0x2,0xa(%r8,%rax,2),%xmm0,%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,49 ; jb 4fae <_sk_load_rgb_u16_be_hsw+0x17a>
- DB 196,193,121,110,68,65,12 ; vmovd 0xc(%r9,%rax,2),%xmm0
- DB 196,193,121,196,92,65,16,2 ; vpinsrw $0x2,0x10(%r9,%rax,2),%xmm0,%xmm3
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,49 ; jb 4f9a <_sk_load_rgb_u16_be_hsw+0x17a>
+ DB 196,193,121,110,68,64,12 ; vmovd 0xc(%r8,%rax,2),%xmm0
+ DB 196,193,121,196,92,64,16,2 ; vpinsrw $0x2,0x10(%r8,%rax,2),%xmm0,%xmm3
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 117,50 ; jne 4fc9 <_sk_load_rgb_u16_be_hsw+0x195>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 117,50 ; jne 4fb5 <_sk_load_rgb_u16_be_hsw+0x195>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
- DB 233,230,254,255,255 ; jmpq 4e94 <_sk_load_rgb_u16_be_hsw+0x60>
+ DB 233,230,254,255,255 ; jmpq 4e80 <_sk_load_rgb_u16_be_hsw+0x60>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
DB 197,225,239,219 ; vpxor %xmm3,%xmm3,%xmm3
- DB 233,203,254,255,255 ; jmpq 4e94 <_sk_load_rgb_u16_be_hsw+0x60>
- DB 196,193,121,110,68,65,18 ; vmovd 0x12(%r9,%rax,2),%xmm0
- DB 196,65,121,196,84,65,22,2 ; vpinsrw $0x2,0x16(%r9,%rax,2),%xmm0,%xmm10
+ DB 233,203,254,255,255 ; jmpq 4e80 <_sk_load_rgb_u16_be_hsw+0x60>
+ DB 196,193,121,110,68,64,18 ; vmovd 0x12(%r8,%rax,2),%xmm0
+ DB 196,65,121,196,84,64,22,2 ; vpinsrw $0x2,0x16(%r8,%rax,2),%xmm0,%xmm10
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,40 ; jb 500b <_sk_load_rgb_u16_be_hsw+0x1d7>
- DB 196,193,121,110,68,65,24 ; vmovd 0x18(%r9,%rax,2),%xmm0
- DB 196,193,121,196,84,65,28,2 ; vpinsrw $0x2,0x1c(%r9,%rax,2),%xmm0,%xmm2
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,40 ; jb 4ff7 <_sk_load_rgb_u16_be_hsw+0x1d7>
+ DB 196,193,121,110,68,64,24 ; vmovd 0x18(%r8,%rax,2),%xmm0
+ DB 196,193,121,196,84,64,28,2 ; vpinsrw $0x2,0x1c(%r8,%rax,2),%xmm0,%xmm2
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 117,32 ; jne 501d <_sk_load_rgb_u16_be_hsw+0x1e9>
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 117,32 ; jne 5009 <_sk_load_rgb_u16_be_hsw+0x1e9>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
- DB 233,137,254,255,255 ; jmpq 4e94 <_sk_load_rgb_u16_be_hsw+0x60>
+ DB 233,137,254,255,255 ; jmpq 4e80 <_sk_load_rgb_u16_be_hsw+0x60>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
- DB 233,119,254,255,255 ; jmpq 4e94 <_sk_load_rgb_u16_be_hsw+0x60>
- DB 196,193,121,110,68,65,30 ; vmovd 0x1e(%r9,%rax,2),%xmm0
- DB 196,65,121,196,100,65,34,2 ; vpinsrw $0x2,0x22(%r9,%rax,2),%xmm0,%xmm12
+ DB 233,119,254,255,255 ; jmpq 4e80 <_sk_load_rgb_u16_be_hsw+0x60>
+ DB 196,193,121,110,68,64,30 ; vmovd 0x1e(%r8,%rax,2),%xmm0
+ DB 196,65,121,196,100,64,34,2 ; vpinsrw $0x2,0x22(%r8,%rax,2),%xmm0,%xmm12
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 114,25 ; jb 5050 <_sk_load_rgb_u16_be_hsw+0x21c>
- DB 196,193,121,110,68,65,36 ; vmovd 0x24(%r9,%rax,2),%xmm0
- DB 196,193,121,196,68,65,40,2 ; vpinsrw $0x2,0x28(%r9,%rax,2),%xmm0,%xmm0
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 114,25 ; jb 503c <_sk_load_rgb_u16_be_hsw+0x21c>
+ DB 196,193,121,110,68,64,36 ; vmovd 0x24(%r8,%rax,2),%xmm0
+ DB 196,193,121,196,68,64,40,2 ; vpinsrw $0x2,0x28(%r8,%rax,2),%xmm0,%xmm0
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 233,68,254,255,255 ; jmpq 4e94 <_sk_load_rgb_u16_be_hsw+0x60>
+ DB 233,68,254,255,255 ; jmpq 4e80 <_sk_load_rgb_u16_be_hsw+0x60>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 233,59,254,255,255 ; jmpq 4e94 <_sk_load_rgb_u16_be_hsw+0x60>
+ DB 233,59,254,255,255 ; jmpq 4e80 <_sk_load_rgb_u16_be_hsw+0x60>
PUBLIC _sk_store_u16_be_hsw
_sk_store_u16_be_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 196,98,125,24,5,84,113,2,0 ; vbroadcastss 0x27154(%rip),%ymm8 # 2c1d4 <_sk_overlay_sse2_8bit+0x587>
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 196,98,125,24,5,144,113,2,0 ; vbroadcastss 0x27190(%rip),%ymm8 # 2c1fc <_sk_overlay_sse2_8bit+0x587>
DB 196,65,124,89,200 ; vmulps %ymm8,%ymm0,%ymm9
DB 196,65,125,91,201 ; vcvtps2dq %ymm9,%ymm9
DB 196,67,125,25,202,1 ; vextractf128 $0x1,%ymm9,%xmm10
@@ -4978,54 +4970,54 @@ _sk_store_u16_be_hsw LABEL PROC
DB 196,65,25,106,209 ; vpunpckhdq %xmm9,%xmm12,%xmm10
DB 196,65,17,98,200 ; vpunpckldq %xmm8,%xmm13,%xmm9
DB 196,65,17,106,192 ; vpunpckhdq %xmm8,%xmm13,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,31 ; jne 5164 <_sk_store_u16_be_hsw+0x10b>
- DB 196,65,120,17,28,65 ; vmovups %xmm11,(%r9,%rax,2)
- DB 196,65,120,17,84,65,16 ; vmovups %xmm10,0x10(%r9,%rax,2)
- DB 196,65,120,17,76,65,32 ; vmovups %xmm9,0x20(%r9,%rax,2)
- DB 196,65,122,127,68,65,48 ; vmovdqu %xmm8,0x30(%r9,%rax,2)
- DB 72,173 ; lods %ds:(%rsi),%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,121,214,28,65 ; vmovq %xmm11,(%r9,%rax,2)
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,240 ; je 5160 <_sk_store_u16_be_hsw+0x107>
- DB 196,65,121,23,92,65,8 ; vmovhpd %xmm11,0x8(%r9,%rax,2)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,227 ; jb 5160 <_sk_store_u16_be_hsw+0x107>
- DB 196,65,121,214,84,65,16 ; vmovq %xmm10,0x10(%r9,%rax,2)
- DB 116,218 ; je 5160 <_sk_store_u16_be_hsw+0x107>
- DB 196,65,121,23,84,65,24 ; vmovhpd %xmm10,0x18(%r9,%rax,2)
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,205 ; jb 5160 <_sk_store_u16_be_hsw+0x107>
- DB 196,65,121,214,76,65,32 ; vmovq %xmm9,0x20(%r9,%rax,2)
- DB 116,196 ; je 5160 <_sk_store_u16_be_hsw+0x107>
- DB 196,65,121,23,76,65,40 ; vmovhpd %xmm9,0x28(%r9,%rax,2)
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 114,183 ; jb 5160 <_sk_store_u16_be_hsw+0x107>
- DB 196,65,121,214,68,65,48 ; vmovq %xmm8,0x30(%r9,%rax,2)
- DB 235,174 ; jmp 5160 <_sk_store_u16_be_hsw+0x107>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,31 ; jne 5150 <_sk_store_u16_be_hsw+0x10b>
+ DB 196,65,120,17,28,64 ; vmovups %xmm11,(%r8,%rax,2)
+ DB 196,65,120,17,84,64,16 ; vmovups %xmm10,0x10(%r8,%rax,2)
+ DB 196,65,120,17,76,64,32 ; vmovups %xmm9,0x20(%r8,%rax,2)
+ DB 196,65,122,127,68,64,48 ; vmovdqu %xmm8,0x30(%r8,%rax,2)
+ DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,65,121,214,28,64 ; vmovq %xmm11,(%r8,%rax,2)
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,240 ; je 514c <_sk_store_u16_be_hsw+0x107>
+ DB 196,65,121,23,92,64,8 ; vmovhpd %xmm11,0x8(%r8,%rax,2)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,227 ; jb 514c <_sk_store_u16_be_hsw+0x107>
+ DB 196,65,121,214,84,64,16 ; vmovq %xmm10,0x10(%r8,%rax,2)
+ DB 116,218 ; je 514c <_sk_store_u16_be_hsw+0x107>
+ DB 196,65,121,23,84,64,24 ; vmovhpd %xmm10,0x18(%r8,%rax,2)
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,205 ; jb 514c <_sk_store_u16_be_hsw+0x107>
+ DB 196,65,121,214,76,64,32 ; vmovq %xmm9,0x20(%r8,%rax,2)
+ DB 116,196 ; je 514c <_sk_store_u16_be_hsw+0x107>
+ DB 196,65,121,23,76,64,40 ; vmovhpd %xmm9,0x28(%r8,%rax,2)
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 114,183 ; jb 514c <_sk_store_u16_be_hsw+0x107>
+ DB 196,65,121,214,68,64,48 ; vmovq %xmm8,0x30(%r8,%rax,2)
+ DB 235,174 ; jmp 514c <_sk_store_u16_be_hsw+0x107>
PUBLIC _sk_load_f32_hsw
_sk_load_f32_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,253,87,192 ; vxorpd %ymm0,%ymm0,%ymm0
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,135,101,1,0,0 ; ja 5327 <_sk_load_f32_hsw+0x175>
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,135,101,1,0,0 ; ja 5313 <_sk_load_f32_hsw+0x175>
DB 72,129,236,152,0,0,0 ; sub $0x98,%rsp
DB 197,253,17,36,36 ; vmovupd %ymm4,(%rsp)
DB 197,253,17,108,36,32 ; vmovupd %ymm5,0x20(%rsp)
DB 197,253,17,116,36,64 ; vmovupd %ymm6,0x40(%rsp)
DB 197,253,17,124,36,96 ; vmovupd %ymm7,0x60(%rsp)
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 77,99,210 ; movslq %r10d,%r10
- DB 76,141,29,52,1,0,0 ; lea 0x134(%rip),%r11 # 5338 <_sk_load_f32_hsw+0x186>
- DB 75,99,4,131 ; movslq (%r11,%r8,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 77,99,201 ; movslq %r9d,%r9
+ DB 76,141,21,52,1,0,0 ; lea 0x134(%rip),%r10 # 5324 <_sk_load_f32_hsw+0x186>
+ DB 73,99,4,186 ; movslq (%r10,%rdi,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 197,221,87,228 ; vxorpd %ymm4,%ymm4,%ymm4
DB 196,65,53,87,201 ; vxorpd %ymm9,%ymm9,%ymm9
DB 197,237,87,210 ; vxorpd %ymm2,%ymm2,%ymm2
@@ -5042,31 +5034,31 @@ _sk_load_f32_hsw LABEL PROC
DB 196,65,45,87,210 ; vxorpd %ymm10,%ymm10,%ymm10
DB 197,197,87,255 ; vxorpd %ymm7,%ymm7,%ymm7
DB 255,224 ; jmpq *%rax
- DB 196,129,121,16,68,145,112 ; vmovupd 0x70(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,112 ; vmovupd 0x70(%r8,%r9,4),%xmm0
DB 196,227,125,6,192,40 ; vperm2f128 $0x28,%ymm0,%ymm0,%ymm0
- DB 196,129,121,16,76,145,96 ; vmovupd 0x60(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,96 ; vmovupd 0x60(%r8,%r9,4),%xmm1
DB 196,227,125,6,225,40 ; vperm2f128 $0x28,%ymm1,%ymm0,%ymm4
- DB 196,129,121,16,76,145,80 ; vmovupd 0x50(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,80 ; vmovupd 0x50(%r8,%r9,4),%xmm1
DB 196,227,125,6,209,40 ; vperm2f128 $0x28,%ymm1,%ymm0,%ymm2
DB 197,125,40,204 ; vmovapd %ymm4,%ymm9
- DB 196,129,121,16,76,145,64 ; vmovupd 0x40(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,64 ; vmovupd 0x40(%r8,%r9,4),%xmm1
DB 196,99,125,6,193,40 ; vperm2f128 $0x28,%ymm1,%ymm0,%ymm8
DB 196,65,125,40,217 ; vmovapd %ymm9,%ymm11
DB 197,125,40,226 ; vmovapd %ymm2,%ymm12
- DB 196,129,121,16,76,145,48 ; vmovupd 0x30(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,48 ; vmovupd 0x30(%r8,%r9,4),%xmm1
DB 196,227,117,13,192,12 ; vblendpd $0xc,%ymm0,%ymm1,%ymm0
DB 196,65,125,40,243 ; vmovapd %ymm11,%ymm14
DB 197,125,41,230 ; vmovapd %ymm12,%ymm6
DB 196,65,125,40,248 ; vmovapd %ymm8,%ymm15
- DB 196,129,121,16,76,145,32 ; vmovupd 0x20(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,32 ; vmovupd 0x20(%r8,%r9,4),%xmm1
DB 196,195,117,13,206,12 ; vblendpd $0xc,%ymm14,%ymm1,%ymm1
DB 197,125,40,238 ; vmovapd %ymm6,%ymm13
DB 197,125,41,253 ; vmovapd %ymm15,%ymm5
- DB 196,129,121,16,84,145,16 ; vmovupd 0x10(%r9,%r10,4),%xmm2
+ DB 196,129,121,16,84,136,16 ; vmovupd 0x10(%r8,%r9,4),%xmm2
DB 196,67,109,13,213,12 ; vblendpd $0xc,%ymm13,%ymm2,%ymm10
DB 197,253,40,217 ; vmovapd %ymm1,%ymm3
DB 197,253,40,253 ; vmovapd %ymm5,%ymm7
- DB 196,129,121,16,12,145 ; vmovupd (%r9,%r10,4),%xmm1
+ DB 196,129,121,16,12,136 ; vmovupd (%r8,%r9,4),%xmm1
DB 196,227,117,13,207,12 ; vblendpd $0xc,%ymm7,%ymm1,%ymm1
DB 197,252,16,124,36,96 ; vmovups 0x60(%rsp),%ymm7
DB 197,252,16,116,36,64 ; vmovups 0x40(%rsp),%ymm6
@@ -5086,7 +5078,7 @@ _sk_load_f32_hsw LABEL PROC
DB 197,229,87,219 ; vxorpd %ymm3,%ymm3,%ymm3
DB 196,65,45,87,210 ; vxorpd %ymm10,%ymm10,%ymm10
DB 197,245,87,201 ; vxorpd %ymm1,%ymm1,%ymm1
- DB 235,203 ; jmp 5301 <_sk_load_f32_hsw+0x14f>
+ DB 235,203 ; jmp 52ed <_sk_load_f32_hsw+0x14f>
DB 102,144 ; xchg %ax,%ax
DB 25,255 ; sbb %edi,%edi
DB 255 ; (bad)
@@ -5110,23 +5102,23 @@ PUBLIC _sk_load_f32_dst_hsw
_sk_load_f32_dst_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,221,87,228 ; vxorpd %ymm4,%ymm4,%ymm4
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,135,101,1,0,0 ; ja 54cd <_sk_load_f32_dst_hsw+0x175>
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,135,101,1,0,0 ; ja 54b9 <_sk_load_f32_dst_hsw+0x175>
DB 72,129,236,152,0,0,0 ; sub $0x98,%rsp
DB 197,253,17,4,36 ; vmovupd %ymm0,(%rsp)
DB 197,253,17,76,36,32 ; vmovupd %ymm1,0x20(%rsp)
DB 197,253,17,84,36,64 ; vmovupd %ymm2,0x40(%rsp)
DB 197,253,17,92,36,96 ; vmovupd %ymm3,0x60(%rsp)
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 77,99,210 ; movslq %r10d,%r10
- DB 76,141,29,50,1,0,0 ; lea 0x132(%rip),%r11 # 54dc <_sk_load_f32_dst_hsw+0x184>
- DB 75,99,4,131 ; movslq (%r11,%r8,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 77,99,201 ; movslq %r9d,%r9
+ DB 76,141,21,50,1,0,0 ; lea 0x132(%rip),%r10 # 54c8 <_sk_load_f32_dst_hsw+0x184>
+ DB 73,99,4,186 ; movslq (%r10,%rdi,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 197,253,87,192 ; vxorpd %ymm0,%ymm0,%ymm0
DB 196,65,53,87,201 ; vxorpd %ymm9,%ymm9,%ymm9
DB 197,205,87,246 ; vxorpd %ymm6,%ymm6,%ymm6
@@ -5143,31 +5135,31 @@ _sk_load_f32_dst_hsw LABEL PROC
DB 196,65,45,87,210 ; vxorpd %ymm10,%ymm10,%ymm10
DB 197,229,87,219 ; vxorpd %ymm3,%ymm3,%ymm3
DB 255,224 ; jmpq *%rax
- DB 196,129,121,16,68,145,112 ; vmovupd 0x70(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,112 ; vmovupd 0x70(%r8,%r9,4),%xmm0
DB 196,227,125,6,224,40 ; vperm2f128 $0x28,%ymm0,%ymm0,%ymm4
- DB 196,129,121,16,68,145,96 ; vmovupd 0x60(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,96 ; vmovupd 0x60(%r8,%r9,4),%xmm0
DB 196,227,125,6,192,40 ; vperm2f128 $0x28,%ymm0,%ymm0,%ymm0
- DB 196,129,121,16,76,145,80 ; vmovupd 0x50(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,80 ; vmovupd 0x50(%r8,%r9,4),%xmm1
DB 196,227,125,6,241,40 ; vperm2f128 $0x28,%ymm1,%ymm0,%ymm6
DB 197,125,40,200 ; vmovapd %ymm0,%ymm9
- DB 196,129,121,16,68,145,64 ; vmovupd 0x40(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,64 ; vmovupd 0x40(%r8,%r9,4),%xmm0
DB 196,99,125,6,192,40 ; vperm2f128 $0x28,%ymm0,%ymm0,%ymm8
DB 196,65,125,40,217 ; vmovapd %ymm9,%ymm11
DB 197,125,40,230 ; vmovapd %ymm6,%ymm12
- DB 196,129,121,16,68,145,48 ; vmovupd 0x30(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,48 ; vmovupd 0x30(%r8,%r9,4),%xmm0
DB 196,227,125,13,228,12 ; vblendpd $0xc,%ymm4,%ymm0,%ymm4
DB 196,65,125,40,243 ; vmovapd %ymm11,%ymm14
DB 197,125,41,226 ; vmovapd %ymm12,%ymm2
DB 196,65,125,40,248 ; vmovapd %ymm8,%ymm15
- DB 196,129,121,16,68,145,32 ; vmovupd 0x20(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,32 ; vmovupd 0x20(%r8,%r9,4),%xmm0
DB 196,195,125,13,238,12 ; vblendpd $0xc,%ymm14,%ymm0,%ymm5
DB 197,125,40,234 ; vmovapd %ymm2,%ymm13
DB 197,125,41,249 ; vmovapd %ymm15,%ymm1
- DB 196,129,121,16,68,145,16 ; vmovupd 0x10(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,16 ; vmovupd 0x10(%r8,%r9,4),%xmm0
DB 196,67,125,13,213,12 ; vblendpd $0xc,%ymm13,%ymm0,%ymm10
DB 197,253,40,253 ; vmovapd %ymm5,%ymm7
DB 197,253,40,217 ; vmovapd %ymm1,%ymm3
- DB 196,129,121,16,4,145 ; vmovupd (%r9,%r10,4),%xmm0
+ DB 196,129,121,16,4,136 ; vmovupd (%r8,%r9,4),%xmm0
DB 196,227,125,13,235,12 ; vblendpd $0xc,%ymm3,%ymm0,%ymm5
DB 197,252,16,92,36,96 ; vmovups 0x60(%rsp),%ymm3
DB 197,252,16,84,36,64 ; vmovups 0x40(%rsp),%ymm2
@@ -5187,7 +5179,7 @@ _sk_load_f32_dst_hsw LABEL PROC
DB 197,197,87,255 ; vxorpd %ymm7,%ymm7,%ymm7
DB 196,65,45,87,210 ; vxorpd %ymm10,%ymm10,%ymm10
DB 197,213,87,237 ; vxorpd %ymm5,%ymm5,%ymm5
- DB 235,203 ; jmp 54a7 <_sk_load_f32_dst_hsw+0x14f>
+ DB 235,203 ; jmp 5493 <_sk_load_f32_dst_hsw+0x14f>
DB 27,255 ; sbb %edi,%edi
DB 255 ; (bad)
DB 255,161,255,255,255,140 ; jmpq *-0x73000001(%rcx)
@@ -5198,7 +5190,7 @@ _sk_load_f32_dst_hsw LABEL PROC
DB 255,92,255,255 ; lcall *-0x1(%rdi,%rdi,8)
DB 255,70,255 ; incl -0x1(%rsi)
DB 255 ; (bad)
- DB 255,53,255,255,255,40 ; pushq 0x28ffffff(%rip) # 290054f8 <_sk_overlay_sse2_8bit+0x28fd98ab>
+ DB 255,53,255,255,255,40 ; pushq 0x28ffffff(%rip) # 290054e4 <_sk_overlay_sse2_8bit+0x28fd986f>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
@@ -5206,13 +5198,13 @@ _sk_load_f32_dst_hsw LABEL PROC
PUBLIC _sk_store_f32_hsw
_sk_store_f32_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
DB 197,124,20,193 ; vunpcklps %ymm1,%ymm0,%ymm8
DB 197,124,21,217 ; vunpckhps %ymm1,%ymm0,%ymm11
DB 197,108,20,203 ; vunpcklps %ymm3,%ymm2,%ymm9
@@ -5221,36 +5213,36 @@ _sk_store_f32_hsw LABEL PROC
DB 196,65,61,21,201 ; vunpckhpd %ymm9,%ymm8,%ymm9
DB 196,65,37,20,196 ; vunpcklpd %ymm12,%ymm11,%ymm8
DB 196,65,37,21,220 ; vunpckhpd %ymm12,%ymm11,%ymm11
- DB 77,133,192 ; test %r8,%r8
- DB 117,55 ; jne 557b <_sk_store_f32_hsw+0x7f>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,55 ; jne 5567 <_sk_store_f32_hsw+0x7f>
DB 196,67,45,24,225,1 ; vinsertf128 $0x1,%xmm9,%ymm10,%ymm12
DB 196,67,61,24,235,1 ; vinsertf128 $0x1,%xmm11,%ymm8,%ymm13
DB 196,67,45,6,201,49 ; vperm2f128 $0x31,%ymm9,%ymm10,%ymm9
DB 196,67,61,6,195,49 ; vperm2f128 $0x31,%ymm11,%ymm8,%ymm8
- DB 196,65,125,17,36,129 ; vmovupd %ymm12,(%r9,%rax,4)
- DB 196,65,125,17,108,129,32 ; vmovupd %ymm13,0x20(%r9,%rax,4)
- DB 196,65,125,17,76,129,64 ; vmovupd %ymm9,0x40(%r9,%rax,4)
- DB 196,65,125,17,68,129,96 ; vmovupd %ymm8,0x60(%r9,%rax,4)
- DB 72,173 ; lods %ds:(%rsi),%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,121,17,20,129 ; vmovupd %xmm10,(%r9,%rax,4)
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,240 ; je 5577 <_sk_store_f32_hsw+0x7b>
- DB 196,65,121,17,76,129,16 ; vmovupd %xmm9,0x10(%r9,%rax,4)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,227 ; jb 5577 <_sk_store_f32_hsw+0x7b>
- DB 196,65,121,17,68,129,32 ; vmovupd %xmm8,0x20(%r9,%rax,4)
- DB 116,218 ; je 5577 <_sk_store_f32_hsw+0x7b>
- DB 196,65,121,17,92,129,48 ; vmovupd %xmm11,0x30(%r9,%rax,4)
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,205 ; jb 5577 <_sk_store_f32_hsw+0x7b>
- DB 196,67,125,25,84,129,64,1 ; vextractf128 $0x1,%ymm10,0x40(%r9,%rax,4)
- DB 116,195 ; je 5577 <_sk_store_f32_hsw+0x7b>
- DB 196,67,125,25,76,129,80,1 ; vextractf128 $0x1,%ymm9,0x50(%r9,%rax,4)
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 114,181 ; jb 5577 <_sk_store_f32_hsw+0x7b>
- DB 196,67,125,25,68,129,96,1 ; vextractf128 $0x1,%ymm8,0x60(%r9,%rax,4)
- DB 235,171 ; jmp 5577 <_sk_store_f32_hsw+0x7b>
+ DB 196,65,125,17,36,128 ; vmovupd %ymm12,(%r8,%rax,4)
+ DB 196,65,125,17,108,128,32 ; vmovupd %ymm13,0x20(%r8,%rax,4)
+ DB 196,65,125,17,76,128,64 ; vmovupd %ymm9,0x40(%r8,%rax,4)
+ DB 196,65,125,17,68,128,96 ; vmovupd %ymm8,0x60(%r8,%rax,4)
+ DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,65,121,17,20,128 ; vmovupd %xmm10,(%r8,%rax,4)
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,240 ; je 5563 <_sk_store_f32_hsw+0x7b>
+ DB 196,65,121,17,76,128,16 ; vmovupd %xmm9,0x10(%r8,%rax,4)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,227 ; jb 5563 <_sk_store_f32_hsw+0x7b>
+ DB 196,65,121,17,68,128,32 ; vmovupd %xmm8,0x20(%r8,%rax,4)
+ DB 116,218 ; je 5563 <_sk_store_f32_hsw+0x7b>
+ DB 196,65,121,17,92,128,48 ; vmovupd %xmm11,0x30(%r8,%rax,4)
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,205 ; jb 5563 <_sk_store_f32_hsw+0x7b>
+ DB 196,67,125,25,84,128,64,1 ; vextractf128 $0x1,%ymm10,0x40(%r8,%rax,4)
+ DB 116,195 ; je 5563 <_sk_store_f32_hsw+0x7b>
+ DB 196,67,125,25,76,128,80,1 ; vextractf128 $0x1,%ymm9,0x50(%r8,%rax,4)
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 114,181 ; jb 5563 <_sk_store_f32_hsw+0x7b>
+ DB 196,67,125,25,68,128,96,1 ; vextractf128 $0x1,%ymm8,0x60(%r8,%rax,4)
+ DB 235,171 ; jmp 5563 <_sk_store_f32_hsw+0x7b>
PUBLIC _sk_clamp_x_hsw
_sk_clamp_x_hsw LABEL PROC
@@ -5317,7 +5309,7 @@ _sk_mirror_x_hsw LABEL PROC
DB 196,65,124,92,218 ; vsubps %ymm10,%ymm0,%ymm11
DB 196,193,58,88,192 ; vaddss %xmm8,%xmm8,%xmm0
DB 196,98,125,24,192 ; vbroadcastss %xmm0,%ymm8
- DB 197,178,89,5,15,106,2,0 ; vmulss 0x26a0f(%rip),%xmm9,%xmm0 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 197,178,89,5,75,106,2,0 ; vmulss 0x26a4b(%rip),%xmm9,%xmm0 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,226,125,24,192 ; vbroadcastss %xmm0,%ymm0
DB 197,164,89,192 ; vmulps %ymm0,%ymm11,%ymm0
DB 196,227,125,8,192,1 ; vroundps $0x1,%ymm0,%ymm0
@@ -5342,7 +5334,7 @@ _sk_mirror_y_hsw LABEL PROC
DB 196,65,116,92,218 ; vsubps %ymm10,%ymm1,%ymm11
DB 196,193,58,88,200 ; vaddss %xmm8,%xmm8,%xmm1
DB 196,98,125,24,193 ; vbroadcastss %xmm1,%ymm8
- DB 197,178,89,13,171,105,2,0 ; vmulss 0x269ab(%rip),%xmm9,%xmm1 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 197,178,89,13,231,105,2,0 ; vmulss 0x269e7(%rip),%xmm9,%xmm1 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,226,125,24,201 ; vbroadcastss %xmm1,%ymm1
DB 197,164,89,201 ; vmulps %ymm1,%ymm11,%ymm1
DB 196,227,125,8,201,1 ; vroundps $0x1,%ymm1,%ymm1
@@ -5362,7 +5354,7 @@ PUBLIC _sk_clamp_x_1_hsw
_sk_clamp_x_1_hsw LABEL PROC
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 197,188,95,192 ; vmaxps %ymm0,%ymm8,%ymm0
- DB 196,98,125,24,5,96,105,2,0 ; vbroadcastss 0x26960(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,156,105,2,0 ; vbroadcastss 0x2699c(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,124,93,192 ; vminps %ymm8,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -5376,9 +5368,9 @@ _sk_repeat_x_1_hsw LABEL PROC
PUBLIC _sk_mirror_x_1_hsw
_sk_mirror_x_1_hsw LABEL PROC
- DB 196,98,125,24,5,87,105,2,0 ; vbroadcastss 0x26957(%rip),%ymm8 # 2c0d4 <_sk_overlay_sse2_8bit+0x487>
+ DB 196,98,125,24,5,147,105,2,0 ; vbroadcastss 0x26993(%rip),%ymm8 # 2c0fc <_sk_overlay_sse2_8bit+0x487>
DB 196,193,124,88,192 ; vaddps %ymm8,%ymm0,%ymm0
- DB 196,98,125,24,13,45,105,2,0 ; vbroadcastss 0x2692d(%rip),%ymm9 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,13,105,105,2,0 ; vbroadcastss 0x26969(%rip),%ymm9 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,124,89,201 ; vmulps %ymm9,%ymm0,%ymm9
DB 196,67,125,8,201,1 ; vroundps $0x1,%ymm9,%ymm9
DB 196,65,52,88,201 ; vaddps %ymm9,%ymm9,%ymm9
@@ -5392,11 +5384,11 @@ _sk_mirror_x_1_hsw LABEL PROC
PUBLIC _sk_luminance_to_alpha_hsw
_sk_luminance_to_alpha_hsw LABEL PROC
- DB 196,226,125,24,29,25,106,2,0 ; vbroadcastss 0x26a19(%rip),%ymm3 # 2c1d8 <_sk_overlay_sse2_8bit+0x58b>
- DB 196,98,125,24,5,20,106,2,0 ; vbroadcastss 0x26a14(%rip),%ymm8 # 2c1dc <_sk_overlay_sse2_8bit+0x58f>
+ DB 196,226,125,24,29,85,106,2,0 ; vbroadcastss 0x26a55(%rip),%ymm3 # 2c200 <_sk_overlay_sse2_8bit+0x58b>
+ DB 196,98,125,24,5,80,106,2,0 ; vbroadcastss 0x26a50(%rip),%ymm8 # 2c204 <_sk_overlay_sse2_8bit+0x58f>
DB 196,193,116,89,200 ; vmulps %ymm8,%ymm1,%ymm1
DB 196,226,125,184,203 ; vfmadd231ps %ymm3,%ymm0,%ymm1
- DB 196,226,125,24,29,5,106,2,0 ; vbroadcastss 0x26a05(%rip),%ymm3 # 2c1e0 <_sk_overlay_sse2_8bit+0x593>
+ DB 196,226,125,24,29,65,106,2,0 ; vbroadcastss 0x26a41(%rip),%ymm3 # 2c208 <_sk_overlay_sse2_8bit+0x593>
DB 196,226,109,168,217 ; vfmadd213ps %ymm1,%ymm2,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,87,192 ; vxorps %ymm0,%ymm0,%ymm0
@@ -5574,63 +5566,62 @@ _sk_matrix_perspective_hsw LABEL PROC
PUBLIC _sk_evenly_spaced_gradient_hsw
_sk_evenly_spaced_gradient_hsw LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,16 ; mov (%rax),%r10
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
+ DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 77,137,202 ; mov %r9,%r10
+ DB 73,255,202 ; dec %r10
+ DB 120,7 ; js 5abf <_sk_evenly_spaced_gradient_hsw+0x18>
+ DB 196,193,242,42,202 ; vcvtsi2ss %r10,%xmm1,%xmm1
+ DB 235,22 ; jmp 5ad5 <_sk_evenly_spaced_gradient_hsw+0x2e>
DB 77,137,211 ; mov %r10,%r11
- DB 73,255,203 ; dec %r11
- DB 120,7 ; js 5ad4 <_sk_evenly_spaced_gradient_hsw+0x19>
- DB 196,193,242,42,203 ; vcvtsi2ss %r11,%xmm1,%xmm1
- DB 235,22 ; jmp 5aea <_sk_evenly_spaced_gradient_hsw+0x2f>
- DB 76,137,219 ; mov %r11,%rbx
- DB 72,209,235 ; shr %rbx
- DB 65,131,227,1 ; and $0x1,%r11d
- DB 73,9,219 ; or %rbx,%r11
- DB 196,193,242,42,203 ; vcvtsi2ss %r11,%xmm1,%xmm1
+ DB 73,209,235 ; shr %r11
+ DB 65,131,226,1 ; and $0x1,%r10d
+ DB 77,9,218 ; or %r11,%r10
+ DB 196,193,242,42,202 ; vcvtsi2ss %r10,%xmm1,%xmm1
DB 197,242,88,201 ; vaddss %xmm1,%xmm1,%xmm1
DB 196,226,125,24,201 ; vbroadcastss %xmm1,%ymm1
DB 197,244,89,200 ; vmulps %ymm0,%ymm1,%ymm1
DB 197,126,91,217 ; vcvttps2dq %ymm1,%ymm11
- DB 73,131,250,8 ; cmp $0x8,%r10
- DB 119,70 ; ja 5b43 <_sk_evenly_spaced_gradient_hsw+0x88>
- DB 196,66,37,22,1 ; vpermps (%r9),%ymm11,%ymm8
- DB 72,139,88,40 ; mov 0x28(%rax),%rbx
- DB 196,98,37,22,11 ; vpermps (%rbx),%ymm11,%ymm9
- DB 72,139,88,16 ; mov 0x10(%rax),%rbx
+ DB 73,131,249,8 ; cmp $0x8,%r9
+ DB 119,70 ; ja 5b2e <_sk_evenly_spaced_gradient_hsw+0x87>
+ DB 196,66,37,22,0 ; vpermps (%r8),%ymm11,%ymm8
+ DB 76,139,64,40 ; mov 0x28(%rax),%r8
+ DB 196,66,37,22,8 ; vpermps (%r8),%ymm11,%ymm9
+ DB 76,139,64,16 ; mov 0x10(%rax),%r8
DB 76,139,72,24 ; mov 0x18(%rax),%r9
- DB 196,226,37,22,11 ; vpermps (%rbx),%ymm11,%ymm1
- DB 72,139,88,48 ; mov 0x30(%rax),%rbx
- DB 196,98,37,22,19 ; vpermps (%rbx),%ymm11,%ymm10
+ DB 196,194,37,22,8 ; vpermps (%r8),%ymm11,%ymm1
+ DB 76,139,64,48 ; mov 0x30(%rax),%r8
+ DB 196,66,37,22,16 ; vpermps (%r8),%ymm11,%ymm10
DB 196,194,37,22,17 ; vpermps (%r9),%ymm11,%ymm2
- DB 72,139,88,56 ; mov 0x38(%rax),%rbx
- DB 196,98,37,22,35 ; vpermps (%rbx),%ymm11,%ymm12
- DB 72,139,88,32 ; mov 0x20(%rax),%rbx
- DB 196,226,37,22,27 ; vpermps (%rbx),%ymm11,%ymm3
+ DB 76,139,64,56 ; mov 0x38(%rax),%r8
+ DB 196,66,37,22,32 ; vpermps (%r8),%ymm11,%ymm12
+ DB 76,139,64,32 ; mov 0x20(%rax),%r8
+ DB 196,194,37,22,24 ; vpermps (%r8),%ymm11,%ymm3
DB 72,139,64,64 ; mov 0x40(%rax),%rax
DB 196,98,37,22,40 ; vpermps (%rax),%ymm11,%ymm13
- DB 235,110 ; jmp 5bb1 <_sk_evenly_spaced_gradient_hsw+0xf6>
+ DB 235,110 ; jmp 5b9c <_sk_evenly_spaced_gradient_hsw+0xf5>
DB 196,65,13,118,246 ; vpcmpeqd %ymm14,%ymm14,%ymm14
DB 197,245,118,201 ; vpcmpeqd %ymm1,%ymm1,%ymm1
- DB 196,2,117,146,4,153 ; vgatherdps %ymm1,(%r9,%ymm11,4),%ymm8
- DB 72,139,88,40 ; mov 0x28(%rax),%rbx
+ DB 196,2,117,146,4,152 ; vgatherdps %ymm1,(%r8,%ymm11,4),%ymm8
+ DB 76,139,64,40 ; mov 0x28(%rax),%r8
DB 197,245,118,201 ; vpcmpeqd %ymm1,%ymm1,%ymm1
- DB 196,34,117,146,12,155 ; vgatherdps %ymm1,(%rbx,%ymm11,4),%ymm9
- DB 72,139,88,16 ; mov 0x10(%rax),%rbx
+ DB 196,2,117,146,12,152 ; vgatherdps %ymm1,(%r8,%ymm11,4),%ymm9
+ DB 76,139,64,16 ; mov 0x10(%rax),%r8
DB 76,139,72,24 ; mov 0x18(%rax),%r9
DB 197,237,118,210 ; vpcmpeqd %ymm2,%ymm2,%ymm2
- DB 196,162,109,146,12,155 ; vgatherdps %ymm2,(%rbx,%ymm11,4),%ymm1
- DB 72,139,88,48 ; mov 0x30(%rax),%rbx
+ DB 196,130,109,146,12,152 ; vgatherdps %ymm2,(%r8,%ymm11,4),%ymm1
+ DB 76,139,64,48 ; mov 0x30(%rax),%r8
DB 197,237,118,210 ; vpcmpeqd %ymm2,%ymm2,%ymm2
- DB 196,34,109,146,20,155 ; vgatherdps %ymm2,(%rbx,%ymm11,4),%ymm10
+ DB 196,2,109,146,20,152 ; vgatherdps %ymm2,(%r8,%ymm11,4),%ymm10
DB 197,229,118,219 ; vpcmpeqd %ymm3,%ymm3,%ymm3
DB 196,130,101,146,20,153 ; vgatherdps %ymm3,(%r9,%ymm11,4),%ymm2
- DB 72,139,88,56 ; mov 0x38(%rax),%rbx
+ DB 76,139,64,56 ; mov 0x38(%rax),%r8
DB 197,229,118,219 ; vpcmpeqd %ymm3,%ymm3,%ymm3
- DB 196,34,101,146,36,155 ; vgatherdps %ymm3,(%rbx,%ymm11,4),%ymm12
- DB 72,139,88,32 ; mov 0x20(%rax),%rbx
+ DB 196,2,101,146,36,152 ; vgatherdps %ymm3,(%r8,%ymm11,4),%ymm12
+ DB 76,139,64,32 ; mov 0x20(%rax),%r8
DB 196,65,21,118,237 ; vpcmpeqd %ymm13,%ymm13,%ymm13
- DB 196,162,21,146,28,155 ; vgatherdps %ymm13,(%rbx,%ymm11,4),%ymm3
+ DB 196,130,21,146,28,152 ; vgatherdps %ymm13,(%r8,%ymm11,4),%ymm3
DB 72,139,64,64 ; mov 0x40(%rax),%rax
DB 196,34,13,146,44,152 ; vgatherdps %ymm14,(%rax,%ymm11,4),%ymm13
DB 196,66,125,168,193 ; vfmadd213ps %ymm9,%ymm0,%ymm8
@@ -5639,19 +5630,18 @@ _sk_evenly_spaced_gradient_hsw LABEL PROC
DB 196,194,125,168,221 ; vfmadd213ps %ymm13,%ymm0,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,124,41,192 ; vmovaps %ymm8,%ymm0
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_gauss_a_to_rgba_hsw
_sk_gauss_a_to_rgba_hsw LABEL PROC
- DB 196,226,125,24,5,13,102,2,0 ; vbroadcastss 0x2660d(%rip),%ymm0 # 2c1e4 <_sk_overlay_sse2_8bit+0x597>
- DB 196,226,125,24,13,8,102,2,0 ; vbroadcastss 0x26608(%rip),%ymm1 # 2c1e8 <_sk_overlay_sse2_8bit+0x59b>
+ DB 196,226,125,24,5,75,102,2,0 ; vbroadcastss 0x2664b(%rip),%ymm0 # 2c20c <_sk_overlay_sse2_8bit+0x597>
+ DB 196,226,125,24,13,70,102,2,0 ; vbroadcastss 0x26646(%rip),%ymm1 # 2c210 <_sk_overlay_sse2_8bit+0x59b>
DB 196,226,101,168,200 ; vfmadd213ps %ymm0,%ymm3,%ymm1
- DB 196,226,125,24,5,254,101,2,0 ; vbroadcastss 0x265fe(%rip),%ymm0 # 2c1ec <_sk_overlay_sse2_8bit+0x59f>
+ DB 196,226,125,24,5,60,102,2,0 ; vbroadcastss 0x2663c(%rip),%ymm0 # 2c214 <_sk_overlay_sse2_8bit+0x59f>
DB 196,226,101,184,193 ; vfmadd231ps %ymm1,%ymm3,%ymm0
- DB 196,226,125,24,13,244,101,2,0 ; vbroadcastss 0x265f4(%rip),%ymm1 # 2c1f0 <_sk_overlay_sse2_8bit+0x5a3>
+ DB 196,226,125,24,13,50,102,2,0 ; vbroadcastss 0x26632(%rip),%ymm1 # 2c218 <_sk_overlay_sse2_8bit+0x5a3>
DB 196,226,101,184,200 ; vfmadd231ps %ymm0,%ymm3,%ymm1
- DB 196,226,125,24,5,234,101,2,0 ; vbroadcastss 0x265ea(%rip),%ymm0 # 2c1f4 <_sk_overlay_sse2_8bit+0x5a7>
+ DB 196,226,125,24,5,40,102,2,0 ; vbroadcastss 0x26628(%rip),%ymm0 # 2c21c <_sk_overlay_sse2_8bit+0x5a7>
DB 196,226,101,184,193 ; vfmadd231ps %ymm1,%ymm3,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,40,200 ; vmovaps %ymm0,%ymm1
@@ -5662,63 +5652,63 @@ _sk_gauss_a_to_rgba_hsw LABEL PROC
PUBLIC _sk_gradient_hsw
_sk_gradient_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 73,131,249,1 ; cmp $0x1,%r9
- DB 15,134,180,0,0,0 ; jbe 5ce2 <_sk_gradient_hsw+0xc3>
- DB 76,139,80,72 ; mov 0x48(%rax),%r10
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 73,131,248,1 ; cmp $0x1,%r8
+ DB 15,134,180,0,0,0 ; jbe 5ccc <_sk_gradient_hsw+0xc3>
+ DB 76,139,72,72 ; mov 0x48(%rax),%r9
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
- DB 65,187,1,0,0,0 ; mov $0x1,%r11d
- DB 196,226,125,24,21,123,100,2,0 ; vbroadcastss 0x2647b(%rip),%ymm2 # 2c0c0 <_sk_overlay_sse2_8bit+0x473>
+ DB 65,186,1,0,0,0 ; mov $0x1,%r10d
+ DB 196,226,125,24,21,185,100,2,0 ; vbroadcastss 0x264b9(%rip),%ymm2 # 2c0e8 <_sk_overlay_sse2_8bit+0x473>
DB 196,65,53,239,201 ; vpxor %ymm9,%ymm9,%ymm9
- DB 196,130,125,24,28,154 ; vbroadcastss (%r10,%r11,4),%ymm3
+ DB 196,130,125,24,28,145 ; vbroadcastss (%r9,%r10,4),%ymm3
DB 197,228,194,216,2 ; vcmpleps %ymm0,%ymm3,%ymm3
DB 196,227,117,74,218,48 ; vblendvps %ymm3,%ymm2,%ymm1,%ymm3
DB 196,65,101,254,201 ; vpaddd %ymm9,%ymm3,%ymm9
- DB 73,255,195 ; inc %r11
- DB 77,57,217 ; cmp %r11,%r9
- DB 117,226 ; jne 5c4a <_sk_gradient_hsw+0x2b>
- DB 76,139,80,8 ; mov 0x8(%rax),%r10
- DB 73,131,249,8 ; cmp $0x8,%r9
- DB 118,121 ; jbe 5ceb <_sk_gradient_hsw+0xcc>
+ DB 73,255,194 ; inc %r10
+ DB 77,57,208 ; cmp %r10,%r8
+ DB 117,226 ; jne 5c34 <_sk_gradient_hsw+0x2b>
+ DB 76,139,72,8 ; mov 0x8(%rax),%r9
+ DB 73,131,248,8 ; cmp $0x8,%r8
+ DB 118,121 ; jbe 5cd5 <_sk_gradient_hsw+0xcc>
DB 196,65,13,118,246 ; vpcmpeqd %ymm14,%ymm14,%ymm14
DB 197,245,118,201 ; vpcmpeqd %ymm1,%ymm1,%ymm1
- DB 196,2,117,146,4,138 ; vgatherdps %ymm1,(%r10,%ymm9,4),%ymm8
- DB 76,139,72,40 ; mov 0x28(%rax),%r9
+ DB 196,2,117,146,4,137 ; vgatherdps %ymm1,(%r9,%ymm9,4),%ymm8
+ DB 76,139,64,40 ; mov 0x28(%rax),%r8
DB 197,245,118,201 ; vpcmpeqd %ymm1,%ymm1,%ymm1
- DB 196,2,117,146,20,137 ; vgatherdps %ymm1,(%r9,%ymm9,4),%ymm10
- DB 76,139,72,16 ; mov 0x10(%rax),%r9
- DB 76,139,80,24 ; mov 0x18(%rax),%r10
+ DB 196,2,117,146,20,136 ; vgatherdps %ymm1,(%r8,%ymm9,4),%ymm10
+ DB 76,139,64,16 ; mov 0x10(%rax),%r8
+ DB 76,139,72,24 ; mov 0x18(%rax),%r9
DB 197,237,118,210 ; vpcmpeqd %ymm2,%ymm2,%ymm2
- DB 196,130,109,146,12,137 ; vgatherdps %ymm2,(%r9,%ymm9,4),%ymm1
- DB 76,139,72,48 ; mov 0x30(%rax),%r9
+ DB 196,130,109,146,12,136 ; vgatherdps %ymm2,(%r8,%ymm9,4),%ymm1
+ DB 76,139,64,48 ; mov 0x30(%rax),%r8
DB 197,237,118,210 ; vpcmpeqd %ymm2,%ymm2,%ymm2
- DB 196,2,109,146,28,137 ; vgatherdps %ymm2,(%r9,%ymm9,4),%ymm11
+ DB 196,2,109,146,28,136 ; vgatherdps %ymm2,(%r8,%ymm9,4),%ymm11
DB 197,229,118,219 ; vpcmpeqd %ymm3,%ymm3,%ymm3
- DB 196,130,101,146,20,138 ; vgatherdps %ymm3,(%r10,%ymm9,4),%ymm2
- DB 76,139,72,56 ; mov 0x38(%rax),%r9
+ DB 196,130,101,146,20,137 ; vgatherdps %ymm3,(%r9,%ymm9,4),%ymm2
+ DB 76,139,64,56 ; mov 0x38(%rax),%r8
DB 197,229,118,219 ; vpcmpeqd %ymm3,%ymm3,%ymm3
- DB 196,2,101,146,36,137 ; vgatherdps %ymm3,(%r9,%ymm9,4),%ymm12
- DB 76,139,72,32 ; mov 0x20(%rax),%r9
+ DB 196,2,101,146,36,136 ; vgatherdps %ymm3,(%r8,%ymm9,4),%ymm12
+ DB 76,139,64,32 ; mov 0x20(%rax),%r8
DB 196,65,21,118,237 ; vpcmpeqd %ymm13,%ymm13,%ymm13
- DB 196,130,21,146,28,137 ; vgatherdps %ymm13,(%r9,%ymm9,4),%ymm3
+ DB 196,130,21,146,28,136 ; vgatherdps %ymm13,(%r8,%ymm9,4),%ymm3
DB 72,139,64,64 ; mov 0x40(%rax),%rax
DB 196,34,13,146,44,136 ; vgatherdps %ymm14,(%rax,%ymm9,4),%ymm13
- DB 235,77 ; jmp 5d2f <_sk_gradient_hsw+0x110>
- DB 76,139,80,8 ; mov 0x8(%rax),%r10
+ DB 235,77 ; jmp 5d19 <_sk_gradient_hsw+0x110>
+ DB 76,139,72,8 ; mov 0x8(%rax),%r9
DB 196,65,52,87,201 ; vxorps %ymm9,%ymm9,%ymm9
- DB 196,66,53,22,2 ; vpermps (%r10),%ymm9,%ymm8
- DB 76,139,72,40 ; mov 0x28(%rax),%r9
- DB 196,66,53,22,17 ; vpermps (%r9),%ymm9,%ymm10
- DB 76,139,72,16 ; mov 0x10(%rax),%r9
- DB 76,139,80,24 ; mov 0x18(%rax),%r10
- DB 196,194,53,22,9 ; vpermps (%r9),%ymm9,%ymm1
- DB 76,139,72,48 ; mov 0x30(%rax),%r9
- DB 196,66,53,22,25 ; vpermps (%r9),%ymm9,%ymm11
- DB 196,194,53,22,18 ; vpermps (%r10),%ymm9,%ymm2
- DB 76,139,72,56 ; mov 0x38(%rax),%r9
- DB 196,66,53,22,33 ; vpermps (%r9),%ymm9,%ymm12
- DB 76,139,72,32 ; mov 0x20(%rax),%r9
- DB 196,194,53,22,25 ; vpermps (%r9),%ymm9,%ymm3
+ DB 196,66,53,22,1 ; vpermps (%r9),%ymm9,%ymm8
+ DB 76,139,64,40 ; mov 0x28(%rax),%r8
+ DB 196,66,53,22,16 ; vpermps (%r8),%ymm9,%ymm10
+ DB 76,139,64,16 ; mov 0x10(%rax),%r8
+ DB 76,139,72,24 ; mov 0x18(%rax),%r9
+ DB 196,194,53,22,8 ; vpermps (%r8),%ymm9,%ymm1
+ DB 76,139,64,48 ; mov 0x30(%rax),%r8
+ DB 196,66,53,22,24 ; vpermps (%r8),%ymm9,%ymm11
+ DB 196,194,53,22,17 ; vpermps (%r9),%ymm9,%ymm2
+ DB 76,139,64,56 ; mov 0x38(%rax),%r8
+ DB 196,66,53,22,32 ; vpermps (%r8),%ymm9,%ymm12
+ DB 76,139,64,32 ; mov 0x20(%rax),%r8
+ DB 196,194,53,22,24 ; vpermps (%r8),%ymm9,%ymm3
DB 72,139,64,64 ; mov 0x40(%rax),%rax
DB 196,98,53,22,40 ; vpermps (%rax),%ymm9,%ymm13
DB 196,66,125,168,194 ; vfmadd213ps %ymm10,%ymm0,%ymm8
@@ -5759,24 +5749,24 @@ _sk_xy_to_unit_angle_hsw LABEL PROC
DB 196,65,52,95,226 ; vmaxps %ymm10,%ymm9,%ymm12
DB 196,65,36,94,220 ; vdivps %ymm12,%ymm11,%ymm11
DB 196,65,36,89,227 ; vmulps %ymm11,%ymm11,%ymm12
- DB 196,98,125,24,45,46,100,2,0 ; vbroadcastss 0x2642e(%rip),%ymm13 # 2c1f8 <_sk_overlay_sse2_8bit+0x5ab>
- DB 196,98,125,24,53,41,100,2,0 ; vbroadcastss 0x26429(%rip),%ymm14 # 2c1fc <_sk_overlay_sse2_8bit+0x5af>
+ DB 196,98,125,24,45,108,100,2,0 ; vbroadcastss 0x2646c(%rip),%ymm13 # 2c220 <_sk_overlay_sse2_8bit+0x5ab>
+ DB 196,98,125,24,53,103,100,2,0 ; vbroadcastss 0x26467(%rip),%ymm14 # 2c224 <_sk_overlay_sse2_8bit+0x5af>
DB 196,66,29,184,245 ; vfmadd231ps %ymm13,%ymm12,%ymm14
- DB 196,98,125,24,45,31,100,2,0 ; vbroadcastss 0x2641f(%rip),%ymm13 # 2c200 <_sk_overlay_sse2_8bit+0x5b3>
+ DB 196,98,125,24,45,93,100,2,0 ; vbroadcastss 0x2645d(%rip),%ymm13 # 2c228 <_sk_overlay_sse2_8bit+0x5b3>
DB 196,66,29,184,238 ; vfmadd231ps %ymm14,%ymm12,%ymm13
- DB 196,98,125,24,53,21,100,2,0 ; vbroadcastss 0x26415(%rip),%ymm14 # 2c204 <_sk_overlay_sse2_8bit+0x5b7>
+ DB 196,98,125,24,53,83,100,2,0 ; vbroadcastss 0x26453(%rip),%ymm14 # 2c22c <_sk_overlay_sse2_8bit+0x5b7>
DB 196,66,29,184,245 ; vfmadd231ps %ymm13,%ymm12,%ymm14
DB 196,65,36,89,222 ; vmulps %ymm14,%ymm11,%ymm11
DB 196,65,52,194,202,1 ; vcmpltps %ymm10,%ymm9,%ymm9
- DB 196,98,125,24,21,0,100,2,0 ; vbroadcastss 0x26400(%rip),%ymm10 # 2c208 <_sk_overlay_sse2_8bit+0x5bb>
+ DB 196,98,125,24,21,62,100,2,0 ; vbroadcastss 0x2643e(%rip),%ymm10 # 2c230 <_sk_overlay_sse2_8bit+0x5bb>
DB 196,65,44,92,211 ; vsubps %ymm11,%ymm10,%ymm10
DB 196,67,37,74,202,144 ; vblendvps %ymm9,%ymm10,%ymm11,%ymm9
DB 196,193,124,194,192,1 ; vcmpltps %ymm8,%ymm0,%ymm0
- DB 196,98,125,24,21,150,98,2,0 ; vbroadcastss 0x26296(%rip),%ymm10 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,21,212,98,2,0 ; vbroadcastss 0x262d4(%rip),%ymm10 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,44,92,209 ; vsubps %ymm9,%ymm10,%ymm10
DB 196,195,53,74,194,0 ; vblendvps %ymm0,%ymm10,%ymm9,%ymm0
DB 196,65,116,194,200,1 ; vcmpltps %ymm8,%ymm1,%ymm9
- DB 196,98,125,24,21,128,98,2,0 ; vbroadcastss 0x26280(%rip),%ymm10 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,21,190,98,2,0 ; vbroadcastss 0x262be(%rip),%ymm10 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,44,92,208 ; vsubps %ymm0,%ymm10,%ymm10
DB 196,195,125,74,194,144 ; vblendvps %ymm9,%ymm10,%ymm0,%ymm0
DB 196,65,124,194,200,3 ; vcmpunordps %ymm8,%ymm0,%ymm9
@@ -5800,23 +5790,23 @@ _sk_xy_to_2pt_conical_quadratic_max_hsw LABEL PROC
DB 197,50,89,80,44 ; vmulss 0x2c(%rax),%xmm9,%xmm10
DB 196,66,125,24,210 ; vbroadcastss %xmm10,%ymm10
DB 197,44,88,208 ; vaddps %ymm0,%ymm10,%ymm10
- DB 196,98,125,24,29,128,99,2,0 ; vbroadcastss 0x26380(%rip),%ymm11 # 2c20c <_sk_overlay_sse2_8bit+0x5bf>
+ DB 196,98,125,24,29,190,99,2,0 ; vbroadcastss 0x263be(%rip),%ymm11 # 2c234 <_sk_overlay_sse2_8bit+0x5bf>
DB 196,65,44,89,211 ; vmulps %ymm11,%ymm10,%ymm10
DB 197,116,89,217 ; vmulps %ymm1,%ymm1,%ymm11
DB 196,98,125,184,216 ; vfmadd231ps %ymm0,%ymm0,%ymm11
DB 196,193,50,89,193 ; vmulss %xmm9,%xmm9,%xmm0
DB 196,226,125,24,192 ; vbroadcastss %xmm0,%ymm0
DB 197,164,92,192 ; vsubps %ymm0,%ymm11,%ymm0
- DB 196,98,125,24,13,95,99,2,0 ; vbroadcastss 0x2635f(%rip),%ymm9 # 2c210 <_sk_overlay_sse2_8bit+0x5c3>
+ DB 196,98,125,24,13,157,99,2,0 ; vbroadcastss 0x2639d(%rip),%ymm9 # 2c238 <_sk_overlay_sse2_8bit+0x5c3>
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 196,194,45,184,194 ; vfmadd231ps %ymm10,%ymm10,%ymm0
DB 197,252,81,192 ; vsqrtps %ymm0,%ymm0
DB 196,98,125,24,64,36 ; vbroadcastss 0x24(%rax),%ymm8
- DB 196,98,125,24,13,66,99,2,0 ; vbroadcastss 0x26342(%rip),%ymm9 # 2c214 <_sk_overlay_sse2_8bit+0x5c7>
+ DB 196,98,125,24,13,128,99,2,0 ; vbroadcastss 0x26380(%rip),%ymm9 # 2c23c <_sk_overlay_sse2_8bit+0x5c7>
DB 196,65,44,87,201 ; vxorps %ymm9,%ymm10,%ymm9
DB 196,65,124,92,210 ; vsubps %ymm10,%ymm0,%ymm10
- DB 196,98,125,24,29,211,97,2,0 ; vbroadcastss 0x261d3(%rip),%ymm11 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,29,17,98,2,0 ; vbroadcastss 0x26211(%rip),%ymm11 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,60,89,195 ; vmulps %ymm11,%ymm8,%ymm8
DB 196,65,44,89,208 ; vmulps %ymm8,%ymm10,%ymm10
DB 197,180,92,192 ; vsubps %ymm0,%ymm9,%ymm0
@@ -5833,23 +5823,23 @@ _sk_xy_to_2pt_conical_quadratic_min_hsw LABEL PROC
DB 197,50,89,80,44 ; vmulss 0x2c(%rax),%xmm9,%xmm10
DB 196,66,125,24,210 ; vbroadcastss %xmm10,%ymm10
DB 197,44,88,208 ; vaddps %ymm0,%ymm10,%ymm10
- DB 196,98,125,24,29,232,98,2,0 ; vbroadcastss 0x262e8(%rip),%ymm11 # 2c20c <_sk_overlay_sse2_8bit+0x5bf>
+ DB 196,98,125,24,29,38,99,2,0 ; vbroadcastss 0x26326(%rip),%ymm11 # 2c234 <_sk_overlay_sse2_8bit+0x5bf>
DB 196,65,44,89,211 ; vmulps %ymm11,%ymm10,%ymm10
DB 197,116,89,217 ; vmulps %ymm1,%ymm1,%ymm11
DB 196,98,125,184,216 ; vfmadd231ps %ymm0,%ymm0,%ymm11
DB 196,193,50,89,193 ; vmulss %xmm9,%xmm9,%xmm0
DB 196,226,125,24,192 ; vbroadcastss %xmm0,%ymm0
DB 197,164,92,192 ; vsubps %ymm0,%ymm11,%ymm0
- DB 196,98,125,24,13,199,98,2,0 ; vbroadcastss 0x262c7(%rip),%ymm9 # 2c210 <_sk_overlay_sse2_8bit+0x5c3>
+ DB 196,98,125,24,13,5,99,2,0 ; vbroadcastss 0x26305(%rip),%ymm9 # 2c238 <_sk_overlay_sse2_8bit+0x5c3>
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 196,194,45,184,194 ; vfmadd231ps %ymm10,%ymm10,%ymm0
DB 197,252,81,192 ; vsqrtps %ymm0,%ymm0
DB 196,98,125,24,64,36 ; vbroadcastss 0x24(%rax),%ymm8
- DB 196,98,125,24,13,170,98,2,0 ; vbroadcastss 0x262aa(%rip),%ymm9 # 2c214 <_sk_overlay_sse2_8bit+0x5c7>
+ DB 196,98,125,24,13,232,98,2,0 ; vbroadcastss 0x262e8(%rip),%ymm9 # 2c23c <_sk_overlay_sse2_8bit+0x5c7>
DB 196,65,44,87,201 ; vxorps %ymm9,%ymm10,%ymm9
DB 196,65,124,92,210 ; vsubps %ymm10,%ymm0,%ymm10
- DB 196,98,125,24,29,59,97,2,0 ; vbroadcastss 0x2613b(%rip),%ymm11 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,29,121,97,2,0 ; vbroadcastss 0x26179(%rip),%ymm11 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,60,89,195 ; vmulps %ymm11,%ymm8,%ymm8
DB 196,65,44,89,208 ; vmulps %ymm8,%ymm10,%ymm10
DB 197,180,92,192 ; vsubps %ymm0,%ymm9,%ymm0
@@ -5865,14 +5855,14 @@ _sk_xy_to_2pt_conical_linear_hsw LABEL PROC
DB 197,58,89,72,44 ; vmulss 0x2c(%rax),%xmm8,%xmm9
DB 196,66,125,24,201 ; vbroadcastss %xmm9,%ymm9
DB 197,52,88,200 ; vaddps %ymm0,%ymm9,%ymm9
- DB 196,98,125,24,21,86,98,2,0 ; vbroadcastss 0x26256(%rip),%ymm10 # 2c20c <_sk_overlay_sse2_8bit+0x5bf>
+ DB 196,98,125,24,21,148,98,2,0 ; vbroadcastss 0x26294(%rip),%ymm10 # 2c234 <_sk_overlay_sse2_8bit+0x5bf>
DB 196,65,52,89,202 ; vmulps %ymm10,%ymm9,%ymm9
DB 197,116,89,209 ; vmulps %ymm1,%ymm1,%ymm10
DB 196,98,125,184,208 ; vfmadd231ps %ymm0,%ymm0,%ymm10
DB 196,193,58,89,192 ; vmulss %xmm8,%xmm8,%xmm0
DB 196,226,125,24,192 ; vbroadcastss %xmm0,%ymm0
DB 197,172,92,192 ; vsubps %ymm0,%ymm10,%ymm0
- DB 196,98,125,24,5,57,98,2,0 ; vbroadcastss 0x26239(%rip),%ymm8 # 2c214 <_sk_overlay_sse2_8bit+0x5c7>
+ DB 196,98,125,24,5,119,98,2,0 ; vbroadcastss 0x26277(%rip),%ymm8 # 2c23c <_sk_overlay_sse2_8bit+0x5c7>
DB 196,193,124,87,192 ; vxorps %ymm8,%ymm0,%ymm0
DB 196,193,124,94,193 ; vdivps %ymm9,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -5906,7 +5896,7 @@ _sk_apply_vector_mask_hsw LABEL PROC
PUBLIC _sk_save_xy_hsw
_sk_save_xy_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,98,125,24,5,121,96,2,0 ; vbroadcastss 0x26079(%rip),%ymm8 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,5,183,96,2,0 ; vbroadcastss 0x260b7(%rip),%ymm8 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,124,88,200 ; vaddps %ymm8,%ymm0,%ymm9
DB 196,67,125,8,209,1 ; vroundps $0x1,%ymm9,%ymm10
DB 196,65,52,92,202 ; vsubps %ymm10,%ymm9,%ymm9
@@ -5936,9 +5926,9 @@ _sk_accumulate_hsw LABEL PROC
PUBLIC _sk_bilinear_nx_hsw
_sk_bilinear_nx_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,105,97,2,0 ; vbroadcastss 0x26169(%rip),%ymm0 # 2c218 <_sk_overlay_sse2_8bit+0x5cb>
+ DB 196,226,125,24,5,167,97,2,0 ; vbroadcastss 0x261a7(%rip),%ymm0 # 2c240 <_sk_overlay_sse2_8bit+0x5cb>
DB 197,252,88,0 ; vaddps (%rax),%ymm0,%ymm0
- DB 196,98,125,24,5,0,96,2,0 ; vbroadcastss 0x26000(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,62,96,2,0 ; vbroadcastss 0x2603e(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,64 ; vsubps 0x40(%rax),%ymm8,%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -5947,7 +5937,7 @@ _sk_bilinear_nx_hsw LABEL PROC
PUBLIC _sk_bilinear_px_hsw
_sk_bilinear_px_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,224,95,2,0 ; vbroadcastss 0x25fe0(%rip),%ymm0 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,226,125,24,5,30,96,2,0 ; vbroadcastss 0x2601e(%rip),%ymm0 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,252,88,0 ; vaddps (%rax),%ymm0,%ymm0
DB 197,124,16,64,64 ; vmovups 0x40(%rax),%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
@@ -5957,9 +5947,9 @@ _sk_bilinear_px_hsw LABEL PROC
PUBLIC _sk_bilinear_ny_hsw
_sk_bilinear_ny_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,13,32,97,2,0 ; vbroadcastss 0x26120(%rip),%ymm1 # 2c218 <_sk_overlay_sse2_8bit+0x5cb>
+ DB 196,226,125,24,13,94,97,2,0 ; vbroadcastss 0x2615e(%rip),%ymm1 # 2c240 <_sk_overlay_sse2_8bit+0x5cb>
DB 197,244,88,72,32 ; vaddps 0x20(%rax),%ymm1,%ymm1
- DB 196,98,125,24,5,182,95,2,0 ; vbroadcastss 0x25fb6(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,244,95,2,0 ; vbroadcastss 0x25ff4(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,96 ; vsubps 0x60(%rax),%ymm8,%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -5968,7 +5958,7 @@ _sk_bilinear_ny_hsw LABEL PROC
PUBLIC _sk_bilinear_py_hsw
_sk_bilinear_py_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,13,150,95,2,0 ; vbroadcastss 0x25f96(%rip),%ymm1 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,226,125,24,13,212,95,2,0 ; vbroadcastss 0x25fd4(%rip),%ymm1 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,244,88,72,32 ; vaddps 0x20(%rax),%ymm1,%ymm1
DB 197,124,16,64,96 ; vmovups 0x60(%rax),%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
@@ -5978,13 +5968,13 @@ _sk_bilinear_py_hsw LABEL PROC
PUBLIC _sk_bicubic_n3x_hsw
_sk_bicubic_n3x_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,217,96,2,0 ; vbroadcastss 0x260d9(%rip),%ymm0 # 2c21c <_sk_overlay_sse2_8bit+0x5cf>
+ DB 196,226,125,24,5,23,97,2,0 ; vbroadcastss 0x26117(%rip),%ymm0 # 2c244 <_sk_overlay_sse2_8bit+0x5cf>
DB 197,252,88,0 ; vaddps (%rax),%ymm0,%ymm0
- DB 196,98,125,24,5,108,95,2,0 ; vbroadcastss 0x25f6c(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,170,95,2,0 ; vbroadcastss 0x25faa(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,64 ; vsubps 0x40(%rax),%ymm8,%ymm8
DB 196,65,60,89,200 ; vmulps %ymm8,%ymm8,%ymm9
- DB 196,98,125,24,21,201,95,2,0 ; vbroadcastss 0x25fc9(%rip),%ymm10 # 2c12c <_sk_overlay_sse2_8bit+0x4df>
- DB 196,98,125,24,29,180,96,2,0 ; vbroadcastss 0x260b4(%rip),%ymm11 # 2c220 <_sk_overlay_sse2_8bit+0x5d3>
+ DB 196,98,125,24,21,7,96,2,0 ; vbroadcastss 0x26007(%rip),%ymm10 # 2c154 <_sk_overlay_sse2_8bit+0x4df>
+ DB 196,98,125,24,29,242,96,2,0 ; vbroadcastss 0x260f2(%rip),%ymm11 # 2c248 <_sk_overlay_sse2_8bit+0x5d3>
DB 196,66,61,168,218 ; vfmadd213ps %ymm10,%ymm8,%ymm11
DB 196,65,36,89,193 ; vmulps %ymm9,%ymm11,%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
@@ -5994,16 +5984,16 @@ _sk_bicubic_n3x_hsw LABEL PROC
PUBLIC _sk_bicubic_n1x_hsw
_sk_bicubic_n1x_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,139,96,2,0 ; vbroadcastss 0x2608b(%rip),%ymm0 # 2c218 <_sk_overlay_sse2_8bit+0x5cb>
+ DB 196,226,125,24,5,201,96,2,0 ; vbroadcastss 0x260c9(%rip),%ymm0 # 2c240 <_sk_overlay_sse2_8bit+0x5cb>
DB 197,252,88,0 ; vaddps (%rax),%ymm0,%ymm0
- DB 196,98,125,24,5,34,95,2,0 ; vbroadcastss 0x25f22(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,96,95,2,0 ; vbroadcastss 0x25f60(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,64 ; vsubps 0x40(%rax),%ymm8,%ymm8
- DB 196,98,125,24,13,124,96,2,0 ; vbroadcastss 0x2607c(%rip),%ymm9 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
- DB 196,98,125,24,21,119,96,2,0 ; vbroadcastss 0x26077(%rip),%ymm10 # 2c228 <_sk_overlay_sse2_8bit+0x5db>
+ DB 196,98,125,24,13,186,96,2,0 ; vbroadcastss 0x260ba(%rip),%ymm9 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,98,125,24,21,181,96,2,0 ; vbroadcastss 0x260b5(%rip),%ymm10 # 2c250 <_sk_overlay_sse2_8bit+0x5db>
DB 196,66,61,168,209 ; vfmadd213ps %ymm9,%ymm8,%ymm10
- DB 196,98,125,24,13,249,94,2,0 ; vbroadcastss 0x25ef9(%rip),%ymm9 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,13,55,95,2,0 ; vbroadcastss 0x25f37(%rip),%ymm9 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,66,61,184,202 ; vfmadd231ps %ymm10,%ymm8,%ymm9
- DB 196,98,125,24,21,95,96,2,0 ; vbroadcastss 0x2605f(%rip),%ymm10 # 2c22c <_sk_overlay_sse2_8bit+0x5df>
+ DB 196,98,125,24,21,157,96,2,0 ; vbroadcastss 0x2609d(%rip),%ymm10 # 2c254 <_sk_overlay_sse2_8bit+0x5df>
DB 196,66,61,184,209 ; vfmadd231ps %ymm9,%ymm8,%ymm10
DB 197,124,17,144,128,0,0,0 ; vmovups %ymm10,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -6012,14 +6002,14 @@ _sk_bicubic_n1x_hsw LABEL PROC
PUBLIC _sk_bicubic_p1x_hsw
_sk_bicubic_p1x_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,98,125,24,5,207,94,2,0 ; vbroadcastss 0x25ecf(%rip),%ymm8 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,5,13,95,2,0 ; vbroadcastss 0x25f0d(%rip),%ymm8 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,188,88,0 ; vaddps (%rax),%ymm8,%ymm0
DB 197,124,16,72,64 ; vmovups 0x40(%rax),%ymm9
- DB 196,98,125,24,21,41,96,2,0 ; vbroadcastss 0x26029(%rip),%ymm10 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
- DB 196,98,125,24,29,36,96,2,0 ; vbroadcastss 0x26024(%rip),%ymm11 # 2c228 <_sk_overlay_sse2_8bit+0x5db>
+ DB 196,98,125,24,21,103,96,2,0 ; vbroadcastss 0x26067(%rip),%ymm10 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,98,125,24,29,98,96,2,0 ; vbroadcastss 0x26062(%rip),%ymm11 # 2c250 <_sk_overlay_sse2_8bit+0x5db>
DB 196,66,53,168,218 ; vfmadd213ps %ymm10,%ymm9,%ymm11
DB 196,66,53,168,216 ; vfmadd213ps %ymm8,%ymm9,%ymm11
- DB 196,98,125,24,5,21,96,2,0 ; vbroadcastss 0x26015(%rip),%ymm8 # 2c22c <_sk_overlay_sse2_8bit+0x5df>
+ DB 196,98,125,24,5,83,96,2,0 ; vbroadcastss 0x26053(%rip),%ymm8 # 2c254 <_sk_overlay_sse2_8bit+0x5df>
DB 196,66,53,184,195 ; vfmadd231ps %ymm11,%ymm9,%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -6028,12 +6018,12 @@ _sk_bicubic_p1x_hsw LABEL PROC
PUBLIC _sk_bicubic_p3x_hsw
_sk_bicubic_p3x_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,241,95,2,0 ; vbroadcastss 0x25ff1(%rip),%ymm0 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,226,125,24,5,47,96,2,0 ; vbroadcastss 0x2602f(%rip),%ymm0 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
DB 197,252,88,0 ; vaddps (%rax),%ymm0,%ymm0
DB 197,124,16,64,64 ; vmovups 0x40(%rax),%ymm8
DB 196,65,60,89,200 ; vmulps %ymm8,%ymm8,%ymm9
- DB 196,98,125,24,21,226,94,2,0 ; vbroadcastss 0x25ee2(%rip),%ymm10 # 2c12c <_sk_overlay_sse2_8bit+0x4df>
- DB 196,98,125,24,29,205,95,2,0 ; vbroadcastss 0x25fcd(%rip),%ymm11 # 2c220 <_sk_overlay_sse2_8bit+0x5d3>
+ DB 196,98,125,24,21,32,95,2,0 ; vbroadcastss 0x25f20(%rip),%ymm10 # 2c154 <_sk_overlay_sse2_8bit+0x4df>
+ DB 196,98,125,24,29,11,96,2,0 ; vbroadcastss 0x2600b(%rip),%ymm11 # 2c248 <_sk_overlay_sse2_8bit+0x5d3>
DB 196,66,61,168,218 ; vfmadd213ps %ymm10,%ymm8,%ymm11
DB 196,65,52,89,195 ; vmulps %ymm11,%ymm9,%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
@@ -6043,13 +6033,13 @@ _sk_bicubic_p3x_hsw LABEL PROC
PUBLIC _sk_bicubic_n3y_hsw
_sk_bicubic_n3y_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,13,168,95,2,0 ; vbroadcastss 0x25fa8(%rip),%ymm1 # 2c21c <_sk_overlay_sse2_8bit+0x5cf>
+ DB 196,226,125,24,13,230,95,2,0 ; vbroadcastss 0x25fe6(%rip),%ymm1 # 2c244 <_sk_overlay_sse2_8bit+0x5cf>
DB 197,244,88,72,32 ; vaddps 0x20(%rax),%ymm1,%ymm1
- DB 196,98,125,24,5,58,94,2,0 ; vbroadcastss 0x25e3a(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,120,94,2,0 ; vbroadcastss 0x25e78(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,96 ; vsubps 0x60(%rax),%ymm8,%ymm8
DB 196,65,60,89,200 ; vmulps %ymm8,%ymm8,%ymm9
- DB 196,98,125,24,21,151,94,2,0 ; vbroadcastss 0x25e97(%rip),%ymm10 # 2c12c <_sk_overlay_sse2_8bit+0x4df>
- DB 196,98,125,24,29,130,95,2,0 ; vbroadcastss 0x25f82(%rip),%ymm11 # 2c220 <_sk_overlay_sse2_8bit+0x5d3>
+ DB 196,98,125,24,21,213,94,2,0 ; vbroadcastss 0x25ed5(%rip),%ymm10 # 2c154 <_sk_overlay_sse2_8bit+0x4df>
+ DB 196,98,125,24,29,192,95,2,0 ; vbroadcastss 0x25fc0(%rip),%ymm11 # 2c248 <_sk_overlay_sse2_8bit+0x5d3>
DB 196,66,61,168,218 ; vfmadd213ps %ymm10,%ymm8,%ymm11
DB 196,65,36,89,193 ; vmulps %ymm9,%ymm11,%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
@@ -6059,16 +6049,16 @@ _sk_bicubic_n3y_hsw LABEL PROC
PUBLIC _sk_bicubic_n1y_hsw
_sk_bicubic_n1y_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,13,89,95,2,0 ; vbroadcastss 0x25f59(%rip),%ymm1 # 2c218 <_sk_overlay_sse2_8bit+0x5cb>
+ DB 196,226,125,24,13,151,95,2,0 ; vbroadcastss 0x25f97(%rip),%ymm1 # 2c240 <_sk_overlay_sse2_8bit+0x5cb>
DB 197,244,88,72,32 ; vaddps 0x20(%rax),%ymm1,%ymm1
- DB 196,98,125,24,5,239,93,2,0 ; vbroadcastss 0x25def(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,45,94,2,0 ; vbroadcastss 0x25e2d(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,96 ; vsubps 0x60(%rax),%ymm8,%ymm8
- DB 196,98,125,24,13,73,95,2,0 ; vbroadcastss 0x25f49(%rip),%ymm9 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
- DB 196,98,125,24,21,68,95,2,0 ; vbroadcastss 0x25f44(%rip),%ymm10 # 2c228 <_sk_overlay_sse2_8bit+0x5db>
+ DB 196,98,125,24,13,135,95,2,0 ; vbroadcastss 0x25f87(%rip),%ymm9 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,98,125,24,21,130,95,2,0 ; vbroadcastss 0x25f82(%rip),%ymm10 # 2c250 <_sk_overlay_sse2_8bit+0x5db>
DB 196,66,61,168,209 ; vfmadd213ps %ymm9,%ymm8,%ymm10
- DB 196,98,125,24,13,198,93,2,0 ; vbroadcastss 0x25dc6(%rip),%ymm9 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,13,4,94,2,0 ; vbroadcastss 0x25e04(%rip),%ymm9 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,66,61,184,202 ; vfmadd231ps %ymm10,%ymm8,%ymm9
- DB 196,98,125,24,21,44,95,2,0 ; vbroadcastss 0x25f2c(%rip),%ymm10 # 2c22c <_sk_overlay_sse2_8bit+0x5df>
+ DB 196,98,125,24,21,106,95,2,0 ; vbroadcastss 0x25f6a(%rip),%ymm10 # 2c254 <_sk_overlay_sse2_8bit+0x5df>
DB 196,66,61,184,209 ; vfmadd231ps %ymm9,%ymm8,%ymm10
DB 197,124,17,144,160,0,0,0 ; vmovups %ymm10,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -6077,14 +6067,14 @@ _sk_bicubic_n1y_hsw LABEL PROC
PUBLIC _sk_bicubic_p1y_hsw
_sk_bicubic_p1y_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,98,125,24,5,156,93,2,0 ; vbroadcastss 0x25d9c(%rip),%ymm8 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,5,218,93,2,0 ; vbroadcastss 0x25dda(%rip),%ymm8 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,188,88,72,32 ; vaddps 0x20(%rax),%ymm8,%ymm1
DB 197,124,16,72,96 ; vmovups 0x60(%rax),%ymm9
- DB 196,98,125,24,21,245,94,2,0 ; vbroadcastss 0x25ef5(%rip),%ymm10 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
- DB 196,98,125,24,29,240,94,2,0 ; vbroadcastss 0x25ef0(%rip),%ymm11 # 2c228 <_sk_overlay_sse2_8bit+0x5db>
+ DB 196,98,125,24,21,51,95,2,0 ; vbroadcastss 0x25f33(%rip),%ymm10 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,98,125,24,29,46,95,2,0 ; vbroadcastss 0x25f2e(%rip),%ymm11 # 2c250 <_sk_overlay_sse2_8bit+0x5db>
DB 196,66,53,168,218 ; vfmadd213ps %ymm10,%ymm9,%ymm11
DB 196,66,53,168,216 ; vfmadd213ps %ymm8,%ymm9,%ymm11
- DB 196,98,125,24,5,225,94,2,0 ; vbroadcastss 0x25ee1(%rip),%ymm8 # 2c22c <_sk_overlay_sse2_8bit+0x5df>
+ DB 196,98,125,24,5,31,95,2,0 ; vbroadcastss 0x25f1f(%rip),%ymm8 # 2c254 <_sk_overlay_sse2_8bit+0x5df>
DB 196,66,53,184,195 ; vfmadd231ps %ymm11,%ymm9,%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -6093,12 +6083,12 @@ _sk_bicubic_p1y_hsw LABEL PROC
PUBLIC _sk_bicubic_p3y_hsw
_sk_bicubic_p3y_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,13,189,94,2,0 ; vbroadcastss 0x25ebd(%rip),%ymm1 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,226,125,24,13,251,94,2,0 ; vbroadcastss 0x25efb(%rip),%ymm1 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
DB 197,244,88,72,32 ; vaddps 0x20(%rax),%ymm1,%ymm1
DB 197,124,16,64,96 ; vmovups 0x60(%rax),%ymm8
DB 196,65,60,89,200 ; vmulps %ymm8,%ymm8,%ymm9
- DB 196,98,125,24,21,173,93,2,0 ; vbroadcastss 0x25dad(%rip),%ymm10 # 2c12c <_sk_overlay_sse2_8bit+0x4df>
- DB 196,98,125,24,29,152,94,2,0 ; vbroadcastss 0x25e98(%rip),%ymm11 # 2c220 <_sk_overlay_sse2_8bit+0x5d3>
+ DB 196,98,125,24,21,235,93,2,0 ; vbroadcastss 0x25deb(%rip),%ymm10 # 2c154 <_sk_overlay_sse2_8bit+0x4df>
+ DB 196,98,125,24,29,214,94,2,0 ; vbroadcastss 0x25ed6(%rip),%ymm11 # 2c248 <_sk_overlay_sse2_8bit+0x5d3>
DB 196,66,61,168,218 ; vfmadd213ps %ymm10,%ymm8,%ymm11
DB 196,65,52,89,195 ; vmulps %ymm11,%ymm9,%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
@@ -6111,7 +6101,6 @@ _sk_callback_hsw LABEL PROC
DB 72,137,229 ; mov %rsp,%rbp
DB 65,87 ; push %r15
DB 65,86 ; push %r14
- DB 65,84 ; push %r12
DB 83 ; push %rbx
DB 72,131,228,224 ; and $0xffffffffffffffe0,%rsp
DB 72,129,236,192,0,0,0 ; sub $0xc0,%rsp
@@ -6119,7 +6108,6 @@ _sk_callback_hsw LABEL PROC
DB 197,252,41,116,36,96 ; vmovaps %ymm6,0x60(%rsp)
DB 197,252,41,108,36,64 ; vmovaps %ymm5,0x40(%rsp)
DB 197,252,41,100,36,32 ; vmovaps %ymm4,0x20(%rsp)
- DB 77,137,196 ; mov %r8,%r12
DB 73,137,206 ; mov %rcx,%r14
DB 73,137,215 ; mov %rdx,%r15
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -6140,9 +6128,9 @@ _sk_callback_hsw LABEL PROC
DB 197,253,17,107,40 ; vmovupd %ymm5,0x28(%rbx)
DB 197,253,17,75,72 ; vmovupd %ymm1,0x48(%rbx)
DB 197,253,17,67,104 ; vmovupd %ymm0,0x68(%rbx)
- DB 77,133,228 ; test %r12,%r12
+ DB 72,133,255 ; test %rdi,%rdi
DB 186,8,0,0,0 ; mov $0x8,%edx
- DB 65,15,69,212 ; cmovne %r12d,%edx
+ DB 15,69,215 ; cmovne %edi,%edx
DB 72,137,217 ; mov %rbx,%rcx
DB 197,248,119 ; vzeroupper
DB 255,19 ; callq *(%rbx)
@@ -6166,14 +6154,12 @@ _sk_callback_hsw LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 76,137,250 ; mov %r15,%rdx
DB 76,137,241 ; mov %r14,%rcx
- DB 77,137,224 ; mov %r12,%r8
DB 197,252,40,100,36,32 ; vmovaps 0x20(%rsp),%ymm4
DB 197,252,40,108,36,64 ; vmovaps 0x40(%rsp),%ymm5
DB 197,252,40,116,36,96 ; vmovaps 0x60(%rsp),%ymm6
DB 197,252,40,188,36,128,0,0,0 ; vmovaps 0x80(%rsp),%ymm7
- DB 72,141,101,224 ; lea -0x20(%rbp),%rsp
+ DB 72,141,101,232 ; lea -0x18(%rbp),%rsp
DB 91 ; pop %rbx
- DB 65,92 ; pop %r12
DB 65,94 ; pop %r14
DB 65,95 ; pop %r15
DB 93 ; pop %rbp
@@ -6188,21 +6174,21 @@ _sk_clut_3D_hsw LABEL PROC
DB 197,252,17,164,36,192,1,0,0 ; vmovups %ymm4,0x1c0(%rsp)
DB 197,252,17,156,36,160,1,0,0 ; vmovups %ymm3,0x1a0(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,16 ; mov 0x10(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 196,193,121,110,218 ; vmovd %r10d,%xmm3
+ DB 68,139,64,16 ; mov 0x10(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 196,193,121,110,217 ; vmovd %r9d,%xmm3
DB 196,226,125,88,219 ; vpbroadcastd %xmm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 197,228,89,210 ; vmulps %ymm2,%ymm3,%ymm2
DB 197,252,17,84,36,96 ; vmovups %ymm2,0x60(%rsp)
DB 197,254,91,234 ; vcvttps2dq %ymm2,%ymm5
- DB 196,193,121,110,209 ; vmovd %r9d,%xmm2
- DB 196,193,121,110,217 ; vmovd %r9d,%xmm3
+ DB 196,193,121,110,208 ; vmovd %r8d,%xmm2
+ DB 196,193,121,110,216 ; vmovd %r8d,%xmm3
DB 196,226,125,88,219 ; vpbroadcastd %xmm3,%ymm3
DB 197,254,127,28,36 ; vmovdqu %ymm3,(%rsp)
- DB 68,139,72,12 ; mov 0xc(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 196,193,121,110,226 ; vmovd %r10d,%xmm4
+ DB 68,139,64,12 ; mov 0xc(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 196,193,121,110,225 ; vmovd %r9d,%xmm4
DB 196,226,125,88,228 ; vpbroadcastd %xmm4,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
DB 197,220,89,201 ; vmulps %ymm1,%ymm4,%ymm1
@@ -6214,12 +6200,12 @@ _sk_clut_3D_hsw LABEL PROC
DB 197,117,254,229 ; vpaddd %ymm5,%ymm1,%ymm12
DB 197,125,111,205 ; vmovdqa %ymm5,%ymm9
DB 197,126,127,140,36,96,1,0,0 ; vmovdqu %ymm9,0x160(%rsp)
- DB 196,193,121,110,201 ; vmovd %r9d,%xmm1
+ DB 196,193,121,110,200 ; vmovd %r8d,%xmm1
DB 196,226,117,64,202 ; vpmulld %ymm2,%ymm1,%ymm1
DB 196,226,125,88,233 ; vpbroadcastd %xmm1,%ymm5
- DB 68,139,72,8 ; mov 0x8(%rax),%r9d
- DB 65,255,201 ; dec %r9d
- DB 196,193,121,110,201 ; vmovd %r9d,%xmm1
+ DB 68,139,64,8 ; mov 0x8(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 196,193,121,110,200 ; vmovd %r8d,%xmm1
DB 196,226,125,88,201 ; vpbroadcastd %xmm1,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
DB 197,244,89,192 ; vmulps %ymm0,%ymm1,%ymm0
@@ -6228,19 +6214,19 @@ _sk_clut_3D_hsw LABEL PROC
DB 197,254,127,76,36,32 ; vmovdqu %ymm1,0x20(%rsp)
DB 72,139,0 ; mov (%rax),%rax
DB 196,193,117,254,204 ; vpaddd %ymm12,%ymm1,%ymm1
- DB 196,226,125,88,61,107,92,2,0 ; vpbroadcastd 0x25c6b(%rip),%ymm7 # 2c234 <_sk_overlay_sse2_8bit+0x5e7>
+ DB 196,226,125,88,61,180,92,2,0 ; vpbroadcastd 0x25cb4(%rip),%ymm7 # 2c25c <_sk_overlay_sse2_8bit+0x5e7>
DB 196,226,117,64,207 ; vpmulld %ymm7,%ymm1,%ymm1
DB 197,205,118,246 ; vpcmpeqd %ymm6,%ymm6,%ymm6
DB 196,98,77,146,4,136 ; vgatherdps %ymm6,(%rax,%ymm1,4),%ymm8
- DB 196,98,125,88,21,223,90,2,0 ; vpbroadcastd 0x25adf(%rip),%ymm10 # 2c0c0 <_sk_overlay_sse2_8bit+0x473>
+ DB 196,98,125,88,21,40,91,2,0 ; vpbroadcastd 0x25b28(%rip),%ymm10 # 2c0e8 <_sk_overlay_sse2_8bit+0x473>
DB 196,193,117,254,242 ; vpaddd %ymm10,%ymm1,%ymm6
DB 196,65,37,118,219 ; vpcmpeqd %ymm11,%ymm11,%ymm11
DB 196,226,37,146,28,176 ; vgatherdps %ymm11,(%rax,%ymm6,4),%ymm3
- DB 196,98,125,88,29,206,90,2,0 ; vpbroadcastd 0x25ace(%rip),%ymm11 # 2c0c8 <_sk_overlay_sse2_8bit+0x47b>
+ DB 196,98,125,88,29,23,91,2,0 ; vpbroadcastd 0x25b17(%rip),%ymm11 # 2c0f0 <_sk_overlay_sse2_8bit+0x47b>
DB 196,193,117,254,203 ; vpaddd %ymm11,%ymm1,%ymm1
DB 197,205,118,246 ; vpcmpeqd %ymm6,%ymm6,%ymm6
DB 196,226,77,146,36,136 ; vgatherdps %ymm6,(%rax,%ymm1,4),%ymm4
- DB 196,98,125,24,45,30,92,2,0 ; vbroadcastss 0x25c1e(%rip),%ymm13 # 2c230 <_sk_overlay_sse2_8bit+0x5e3>
+ DB 196,98,125,24,45,103,92,2,0 ; vbroadcastss 0x25c67(%rip),%ymm13 # 2c258 <_sk_overlay_sse2_8bit+0x5e3>
DB 196,193,124,88,245 ; vaddps %ymm13,%ymm0,%ymm6
DB 197,254,91,246 ; vcvttps2dq %ymm6,%ymm6
DB 196,226,77,64,205 ; vpmulld %ymm5,%ymm6,%ymm1
@@ -6403,22 +6389,22 @@ _sk_clut_4D_hsw LABEL PROC
DB 197,252,17,172,36,192,3,0,0 ; vmovups %ymm5,0x3c0(%rsp)
DB 197,252,17,164,36,160,3,0,0 ; vmovups %ymm4,0x3a0(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,20 ; mov 0x14(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 196,193,121,110,226 ; vmovd %r10d,%xmm4
+ DB 68,139,64,20 ; mov 0x14(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 196,193,121,110,225 ; vmovd %r9d,%xmm4
DB 196,226,125,88,228 ; vpbroadcastd %xmm4,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
DB 197,220,89,219 ; vmulps %ymm3,%ymm4,%ymm3
DB 197,252,17,156,36,32,1,0,0 ; vmovups %ymm3,0x120(%rsp)
DB 197,254,91,243 ; vcvttps2dq %ymm3,%ymm6
DB 197,254,127,180,36,0,1,0,0 ; vmovdqu %ymm6,0x100(%rsp)
- DB 196,193,121,110,225 ; vmovd %r9d,%xmm4
- DB 196,193,121,110,217 ; vmovd %r9d,%xmm3
+ DB 196,193,121,110,224 ; vmovd %r8d,%xmm4
+ DB 196,193,121,110,216 ; vmovd %r8d,%xmm3
DB 196,226,125,88,219 ; vpbroadcastd %xmm3,%ymm3
DB 197,254,127,92,36,64 ; vmovdqu %ymm3,0x40(%rsp)
- DB 68,139,72,16 ; mov 0x10(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 196,193,121,110,234 ; vmovd %r10d,%xmm5
+ DB 68,139,64,16 ; mov 0x10(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 196,193,121,110,233 ; vmovd %r9d,%xmm5
DB 196,226,125,88,237 ; vpbroadcastd %xmm5,%ymm5
DB 197,252,91,237 ; vcvtdq2ps %ymm5,%ymm5
DB 197,212,89,210 ; vmulps %ymm2,%ymm5,%ymm2
@@ -6429,21 +6415,21 @@ _sk_clut_4D_hsw LABEL PROC
DB 197,254,127,84,36,96 ; vmovdqu %ymm2,0x60(%rsp)
DB 197,237,254,222 ; vpaddd %ymm6,%ymm2,%ymm3
DB 197,254,127,156,36,128,0,0,0 ; vmovdqu %ymm3,0x80(%rsp)
- DB 196,193,121,110,233 ; vmovd %r9d,%xmm5
+ DB 196,193,121,110,232 ; vmovd %r8d,%xmm5
DB 196,226,85,64,236 ; vpmulld %ymm4,%ymm5,%ymm5
DB 196,226,125,88,253 ; vpbroadcastd %xmm5,%ymm7
DB 197,254,127,188,36,160,0,0,0 ; vmovdqu %ymm7,0xa0(%rsp)
- DB 68,139,72,12 ; mov 0xc(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 196,193,121,110,242 ; vmovd %r10d,%xmm6
+ DB 68,139,64,12 ; mov 0xc(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 196,193,121,110,241 ; vmovd %r9d,%xmm6
DB 196,226,125,88,246 ; vpbroadcastd %xmm6,%ymm6
DB 197,252,91,246 ; vcvtdq2ps %ymm6,%ymm6
DB 197,204,89,225 ; vmulps %ymm1,%ymm6,%ymm4
- DB 196,193,121,110,201 ; vmovd %r9d,%xmm1
+ DB 196,193,121,110,200 ; vmovd %r8d,%xmm1
DB 196,226,117,64,205 ; vpmulld %ymm5,%ymm1,%ymm1
- DB 68,139,72,8 ; mov 0x8(%rax),%r9d
- DB 65,255,201 ; dec %r9d
- DB 196,193,121,110,233 ; vmovd %r9d,%xmm5
+ DB 68,139,64,8 ; mov 0x8(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 196,193,121,110,232 ; vmovd %r8d,%xmm5
DB 196,226,125,88,237 ; vpbroadcastd %xmm5,%ymm5
DB 197,252,91,237 ; vcvtdq2ps %ymm5,%ymm5
DB 197,212,89,232 ; vmulps %ymm0,%ymm5,%ymm5
@@ -6458,19 +6444,19 @@ _sk_clut_4D_hsw LABEL PROC
DB 197,126,91,245 ; vcvttps2dq %ymm5,%ymm14
DB 196,98,13,64,233 ; vpmulld %ymm1,%ymm14,%ymm13
DB 197,149,254,198 ; vpaddd %ymm6,%ymm13,%ymm0
- DB 196,98,125,88,21,151,87,2,0 ; vpbroadcastd 0x25797(%rip),%ymm10 # 2c234 <_sk_overlay_sse2_8bit+0x5e7>
+ DB 196,98,125,88,21,224,87,2,0 ; vpbroadcastd 0x257e0(%rip),%ymm10 # 2c25c <_sk_overlay_sse2_8bit+0x5e7>
DB 196,194,125,64,194 ; vpmulld %ymm10,%ymm0,%ymm0
DB 196,65,61,118,192 ; vpcmpeqd %ymm8,%ymm8,%ymm8
DB 196,98,61,146,60,128 ; vgatherdps %ymm8,(%rax,%ymm0,4),%ymm15
- DB 196,98,125,88,29,10,86,2,0 ; vpbroadcastd 0x2560a(%rip),%ymm11 # 2c0c0 <_sk_overlay_sse2_8bit+0x473>
+ DB 196,98,125,88,29,83,86,2,0 ; vpbroadcastd 0x25653(%rip),%ymm11 # 2c0e8 <_sk_overlay_sse2_8bit+0x473>
DB 196,65,125,254,195 ; vpaddd %ymm11,%ymm0,%ymm8
DB 196,65,53,118,201 ; vpcmpeqd %ymm9,%ymm9,%ymm9
DB 196,162,53,146,20,128 ; vgatherdps %ymm9,(%rax,%ymm8,4),%ymm2
- DB 196,98,125,88,37,249,85,2,0 ; vpbroadcastd 0x255f9(%rip),%ymm12 # 2c0c8 <_sk_overlay_sse2_8bit+0x47b>
+ DB 196,98,125,88,37,66,86,2,0 ; vpbroadcastd 0x25642(%rip),%ymm12 # 2c0f0 <_sk_overlay_sse2_8bit+0x47b>
DB 196,193,125,254,196 ; vpaddd %ymm12,%ymm0,%ymm0
DB 196,65,61,118,192 ; vpcmpeqd %ymm8,%ymm8,%ymm8
DB 196,226,61,146,60,128 ; vgatherdps %ymm8,(%rax,%ymm0,4),%ymm7
- DB 196,98,125,24,13,72,87,2,0 ; vbroadcastss 0x25748(%rip),%ymm9 # 2c230 <_sk_overlay_sse2_8bit+0x5e3>
+ DB 196,98,125,24,13,145,87,2,0 ; vbroadcastss 0x25791(%rip),%ymm9 # 2c258 <_sk_overlay_sse2_8bit+0x5e3>
DB 196,65,84,88,193 ; vaddps %ymm9,%ymm5,%ymm8
DB 196,65,126,91,192 ; vcvttps2dq %ymm8,%ymm8
DB 196,226,61,64,193 ; vpmulld %ymm1,%ymm8,%ymm0
@@ -6795,7 +6781,7 @@ _sk_clut_4D_hsw LABEL PROC
DB 197,196,92,214 ; vsubps %ymm6,%ymm7,%ymm2
DB 196,226,61,168,214 ; vfmadd213ps %ymm6,%ymm8,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,215,78,2,0 ; vbroadcastss 0x24ed7(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,32,79,2,0 ; vbroadcastss 0x24f20(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,16,164,36,160,3,0,0 ; vmovups 0x3a0(%rsp),%ymm4
DB 197,252,16,172,36,192,3,0,0 ; vmovups 0x3c0(%rsp),%ymm5
DB 197,252,16,180,36,224,3,0,0 ; vmovups 0x3e0(%rsp),%ymm6
@@ -6804,6 +6790,7 @@ _sk_clut_4D_hsw LABEL PROC
DB 255,224 ; jmpq *%rax
DB 144 ; nop
DB 144 ; nop
+ DB 144 ; nop
PUBLIC _sk_start_pipeline_avx
_sk_start_pipeline_avx LABEL PROC
@@ -6836,16 +6823,15 @@ _sk_start_pipeline_avx LABEL PROC
DB 73,137,246 ; mov %rsi,%r14
DB 76,137,141,8,255,255,255 ; mov %r9,-0xf8(%rbp)
DB 76,57,203 ; cmp %r9,%rbx
- DB 115,110 ; jae 7301 <_sk_start_pipeline_avx+0xed>
+ DB 115,101 ; jae 72d8 <_sk_start_pipeline_avx+0xe4>
DB 72,139,133,24,255,255,255 ; mov -0xe8(%rbp),%rax
DB 72,141,64,8 ; lea 0x8(%rax),%rax
DB 72,137,133,16,255,255,255 ; mov %rax,-0xf0(%rbp)
DB 72,139,149,24,255,255,255 ; mov -0xe8(%rbp),%rdx
DB 76,57,189,16,255,255,255 ; cmp %r15,-0xf0(%rbp)
- DB 119,43 ; ja 72e0 <_sk_start_pipeline_avx+0xcc>
+ DB 119,38 ; ja 72bb <_sk_start_pipeline_avx+0xc7>
DB 76,139,165,24,255,255,255 ; mov -0xe8(%rbp),%r12
- DB 69,49,192 ; xor %r8d,%r8d
- DB 72,139,125,56 ; mov 0x38(%rbp),%rdi
+ DB 49,255 ; xor %edi,%edi
DB 76,137,246 ; mov %r14,%rsi
DB 76,137,226 ; mov %r12,%rdx
DB 72,137,217 ; mov %rbx,%rcx
@@ -6854,17 +6840,16 @@ _sk_start_pipeline_avx LABEL PROC
DB 73,131,196,16 ; add $0x10,%r12
DB 77,57,252 ; cmp %r15,%r12
DB 73,137,212 ; mov %rdx,%r12
- DB 118,220 ; jbe 72bc <_sk_start_pipeline_avx+0xa8>
- DB 77,137,248 ; mov %r15,%r8
- DB 73,41,208 ; sub %rdx,%r8
- DB 116,13 ; je 72f5 <_sk_start_pipeline_avx+0xe1>
- DB 72,139,125,56 ; mov 0x38(%rbp),%rdi
+ DB 118,225 ; jbe 729c <_sk_start_pipeline_avx+0xa8>
+ DB 76,137,255 ; mov %r15,%rdi
+ DB 72,41,215 ; sub %rdx,%rdi
+ DB 116,9 ; je 72cc <_sk_start_pipeline_avx+0xd8>
DB 76,137,246 ; mov %r14,%rsi
DB 72,137,217 ; mov %rbx,%rcx
DB 65,255,213 ; callq *%r13
DB 72,255,195 ; inc %rbx
DB 72,59,157,8,255,255,255 ; cmp -0xf8(%rbp),%rbx
- DB 117,164 ; jne 72a5 <_sk_start_pipeline_avx+0x91>
+ DB 117,173 ; jne 7285 <_sk_start_pipeline_avx+0x91>
DB 197,248,40,181,32,255,255,255 ; vmovaps -0xe0(%rbp),%xmm6
DB 197,248,40,189,48,255,255,255 ; vmovaps -0xd0(%rbp),%xmm7
DB 197,120,40,133,64,255,255,255 ; vmovaps -0xc0(%rbp),%xmm8
@@ -6897,16 +6882,16 @@ _sk_seed_shader_avx LABEL PROC
DB 197,249,112,192,0 ; vpshufd $0x0,%xmm0,%xmm0
DB 196,227,125,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,63,77,2,0 ; vbroadcastss 0x24d3f(%rip),%ymm1 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,226,125,24,13,144,77,2,0 ; vbroadcastss 0x24d90(%rip),%ymm1 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,252,88,193 ; vaddps %ymm1,%ymm0,%ymm0
- DB 197,252,88,7 ; vaddps (%rdi),%ymm0,%ymm0
+ DB 197,252,88,5,100,82,2,0 ; vaddps 0x25264(%rip),%ymm0,%ymm0 # 2c5c0 <_sk_overlay_sse2_8bit+0x94b>
DB 197,249,110,209 ; vmovd %ecx,%xmm2
DB 197,249,112,210,0 ; vpshufd $0x0,%xmm2,%xmm2
DB 196,227,109,24,210,1 ; vinsertf128 $0x1,%xmm2,%ymm2,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
DB 197,236,88,201 ; vaddps %ymm1,%ymm2,%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,21,25,77,2,0 ; vbroadcastss 0x24d19(%rip),%ymm2 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,21,102,77,2,0 ; vbroadcastss 0x24d66(%rip),%ymm2 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,228,87,219 ; vxorps %ymm3,%ymm3,%ymm3
DB 197,220,87,228 ; vxorps %ymm4,%ymm4,%ymm4
DB 197,212,87,237 ; vxorps %ymm5,%ymm5,%ymm5
@@ -6917,18 +6902,16 @@ _sk_seed_shader_avx LABEL PROC
PUBLIC _sk_dither_avx
_sk_dither_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 197,124,16,71,32 ; vmovups 0x20(%rdi),%ymm8
- DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
- DB 197,121,110,210 ; vmovd %edx,%xmm10
- DB 196,65,121,112,210,0 ; vpshufd $0x0,%xmm10,%xmm10
- DB 196,65,49,254,202 ; vpaddd %xmm10,%xmm9,%xmm9
- DB 196,65,57,254,194 ; vpaddd %xmm10,%xmm8,%xmm8
- DB 196,67,61,24,193,1 ; vinsertf128 $0x1,%xmm9,%ymm8,%ymm8
+ DB 197,121,110,194 ; vmovd %edx,%xmm8
+ DB 196,65,121,112,192,0 ; vpshufd $0x0,%xmm8,%xmm8
+ DB 197,57,254,13,88,87,2,0 ; vpaddd 0x25758(%rip),%xmm8,%xmm9 # 2cb00 <_sk_overlay_sse2_8bit+0xe8b>
+ DB 197,57,254,5,96,87,2,0 ; vpaddd 0x25760(%rip),%xmm8,%xmm8 # 2cb10 <_sk_overlay_sse2_8bit+0xe9b>
+ DB 196,67,53,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm9,%ymm8
DB 197,121,110,201 ; vmovd %ecx,%xmm9
DB 196,65,121,112,201,0 ; vpshufd $0x0,%xmm9,%xmm9
DB 196,67,53,24,201,1 ; vinsertf128 $0x1,%xmm9,%ymm9,%ymm9
DB 196,65,52,87,208 ; vxorps %ymm8,%ymm9,%ymm10
- DB 196,98,125,24,29,194,76,2,0 ; vbroadcastss 0x24cc2(%rip),%ymm11 # 2c0c0 <_sk_overlay_sse2_8bit+0x473>
+ DB 196,98,125,24,29,20,77,2,0 ; vbroadcastss 0x24d14(%rip),%ymm11 # 2c0e8 <_sk_overlay_sse2_8bit+0x473>
DB 196,65,44,84,203 ; vandps %ymm11,%ymm10,%ymm9
DB 196,193,25,114,241,5 ; vpslld $0x5,%xmm9,%xmm12
DB 196,67,125,25,201,1 ; vextractf128 $0x1,%ymm9,%xmm9
@@ -6939,8 +6922,8 @@ _sk_dither_avx LABEL PROC
DB 196,67,125,25,219,1 ; vextractf128 $0x1,%ymm11,%xmm11
DB 196,193,33,114,243,4 ; vpslld $0x4,%xmm11,%xmm11
DB 196,67,29,24,219,1 ; vinsertf128 $0x1,%xmm11,%ymm12,%ymm11
- DB 196,98,125,24,37,131,76,2,0 ; vbroadcastss 0x24c83(%rip),%ymm12 # 2c0c4 <_sk_overlay_sse2_8bit+0x477>
- DB 196,98,125,24,45,126,76,2,0 ; vbroadcastss 0x24c7e(%rip),%ymm13 # 2c0c8 <_sk_overlay_sse2_8bit+0x47b>
+ DB 196,98,125,24,37,213,76,2,0 ; vbroadcastss 0x24cd5(%rip),%ymm12 # 2c0ec <_sk_overlay_sse2_8bit+0x477>
+ DB 196,98,125,24,45,208,76,2,0 ; vbroadcastss 0x24cd0(%rip),%ymm13 # 2c0f0 <_sk_overlay_sse2_8bit+0x47b>
DB 196,65,44,84,245 ; vandps %ymm13,%ymm10,%ymm14
DB 196,193,1,114,246,2 ; vpslld $0x2,%xmm14,%xmm15
DB 196,67,125,25,246,1 ; vextractf128 $0x1,%ymm14,%xmm14
@@ -6967,12 +6950,12 @@ _sk_dither_avx LABEL PROC
DB 196,65,60,86,193 ; vorps %ymm9,%ymm8,%ymm8
DB 196,65,60,86,194 ; vorps %ymm10,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
- DB 196,98,125,24,13,233,75,2,0 ; vbroadcastss 0x24be9(%rip),%ymm9 # 2c0cc <_sk_overlay_sse2_8bit+0x47f>
+ DB 196,98,125,24,13,59,76,2,0 ; vbroadcastss 0x24c3b(%rip),%ymm9 # 2c0f4 <_sk_overlay_sse2_8bit+0x47f>
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
- DB 196,98,125,24,13,223,75,2,0 ; vbroadcastss 0x24bdf(%rip),%ymm9 # 2c0d0 <_sk_overlay_sse2_8bit+0x483>
+ DB 196,98,125,24,13,49,76,2,0 ; vbroadcastss 0x24c31(%rip),%ymm9 # 2c0f8 <_sk_overlay_sse2_8bit+0x483>
DB 196,65,60,88,193 ; vaddps %ymm9,%ymm8,%ymm8
DB 196,98,125,24,8 ; vbroadcastss (%rax),%ymm9
- DB 196,65,52,89,192 ; vmulps %ymm8,%ymm9,%ymm8
+ DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
DB 197,188,88,192 ; vaddps %ymm0,%ymm8,%ymm0
DB 197,188,88,201 ; vaddps %ymm1,%ymm8,%ymm1
DB 197,188,88,210 ; vaddps %ymm2,%ymm8,%ymm2
@@ -6999,7 +6982,7 @@ _sk_uniform_color_avx LABEL PROC
PUBLIC _sk_black_color_avx
_sk_black_color_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,103,75,2,0 ; vbroadcastss 0x24b67(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,185,75,2,0 ; vbroadcastss 0x24bb9(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,87,192 ; vxorps %ymm0,%ymm0,%ymm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 197,236,87,210 ; vxorps %ymm2,%ymm2,%ymm2
@@ -7008,7 +6991,7 @@ _sk_black_color_avx LABEL PROC
PUBLIC _sk_white_color_avx
_sk_white_color_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,78,75,2,0 ; vbroadcastss 0x24b4e(%rip),%ymm0 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,5,160,75,2,0 ; vbroadcastss 0x24ba0(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,40,200 ; vmovaps %ymm0,%ymm1
DB 197,252,40,208 ; vmovaps %ymm0,%ymm2
DB 197,252,40,216 ; vmovaps %ymm0,%ymm3
@@ -7046,7 +7029,7 @@ _sk_clear_avx LABEL PROC
PUBLIC _sk_srcatop_avx
_sk_srcatop_avx LABEL PROC
DB 197,252,89,199 ; vmulps %ymm7,%ymm0,%ymm0
- DB 196,98,125,24,5,237,74,2,0 ; vbroadcastss 0x24aed(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,63,75,2,0 ; vbroadcastss 0x24b3f(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 197,60,89,204 ; vmulps %ymm4,%ymm8,%ymm9
DB 197,180,88,192 ; vaddps %ymm0,%ymm9,%ymm0
@@ -7065,7 +7048,7 @@ _sk_srcatop_avx LABEL PROC
PUBLIC _sk_dstatop_avx
_sk_dstatop_avx LABEL PROC
DB 197,100,89,196 ; vmulps %ymm4,%ymm3,%ymm8
- DB 196,98,125,24,13,171,74,2,0 ; vbroadcastss 0x24aab(%rip),%ymm9 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,13,253,74,2,0 ; vbroadcastss 0x24afd(%rip),%ymm9 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,52,92,207 ; vsubps %ymm7,%ymm9,%ymm9
DB 197,180,89,192 ; vmulps %ymm0,%ymm9,%ymm0
DB 197,188,88,192 ; vaddps %ymm0,%ymm8,%ymm0
@@ -7101,7 +7084,7 @@ _sk_dstin_avx LABEL PROC
PUBLIC _sk_srcout_avx
_sk_srcout_avx LABEL PROC
- DB 196,98,125,24,5,70,74,2,0 ; vbroadcastss 0x24a46(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,152,74,2,0 ; vbroadcastss 0x24a98(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,199 ; vsubps %ymm7,%ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
@@ -7112,7 +7095,7 @@ _sk_srcout_avx LABEL PROC
PUBLIC _sk_dstout_avx
_sk_dstout_avx LABEL PROC
- DB 196,226,125,24,5,37,74,2,0 ; vbroadcastss 0x24a25(%rip),%ymm0 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,5,119,74,2,0 ; vbroadcastss 0x24a77(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,92,219 ; vsubps %ymm3,%ymm0,%ymm3
DB 197,228,89,196 ; vmulps %ymm4,%ymm3,%ymm0
DB 197,228,89,205 ; vmulps %ymm5,%ymm3,%ymm1
@@ -7123,7 +7106,7 @@ _sk_dstout_avx LABEL PROC
PUBLIC _sk_srcover_avx
_sk_srcover_avx LABEL PROC
- DB 196,98,125,24,5,4,74,2,0 ; vbroadcastss 0x24a04(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,86,74,2,0 ; vbroadcastss 0x24a56(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 197,60,89,204 ; vmulps %ymm4,%ymm8,%ymm9
DB 197,180,88,192 ; vaddps %ymm0,%ymm9,%ymm0
@@ -7138,7 +7121,7 @@ _sk_srcover_avx LABEL PROC
PUBLIC _sk_dstover_avx
_sk_dstover_avx LABEL PROC
- DB 196,98,125,24,5,211,73,2,0 ; vbroadcastss 0x249d3(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,37,74,2,0 ; vbroadcastss 0x24a25(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,199 ; vsubps %ymm7,%ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 197,252,88,196 ; vaddps %ymm4,%ymm0,%ymm0
@@ -7162,7 +7145,7 @@ _sk_modulate_avx LABEL PROC
PUBLIC _sk_multiply_avx
_sk_multiply_avx LABEL PROC
- DB 196,98,125,24,5,142,73,2,0 ; vbroadcastss 0x2498e(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,224,73,2,0 ; vbroadcastss 0x249e0(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,207 ; vsubps %ymm7,%ymm8,%ymm9
DB 197,52,89,208 ; vmulps %ymm0,%ymm9,%ymm10
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
@@ -7191,7 +7174,7 @@ _sk_multiply_avx LABEL PROC
PUBLIC _sk_plus__avx
_sk_plus__avx LABEL PROC
DB 197,252,88,196 ; vaddps %ymm4,%ymm0,%ymm0
- DB 196,98,125,24,5,29,73,2,0 ; vbroadcastss 0x2491d(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,111,73,2,0 ; vbroadcastss 0x2496f(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,124,93,192 ; vminps %ymm8,%ymm0,%ymm0
DB 197,244,88,205 ; vaddps %ymm5,%ymm1,%ymm1
DB 196,193,116,93,200 ; vminps %ymm8,%ymm1,%ymm1
@@ -7221,7 +7204,7 @@ _sk_screen_avx LABEL PROC
PUBLIC _sk_xor__avx
_sk_xor__avx LABEL PROC
- DB 196,98,125,24,5,188,72,2,0 ; vbroadcastss 0x248bc(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,14,73,2,0 ; vbroadcastss 0x2490e(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,207 ; vsubps %ymm7,%ymm8,%ymm9
DB 197,180,89,192 ; vmulps %ymm0,%ymm9,%ymm0
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
@@ -7256,7 +7239,7 @@ _sk_darken_avx LABEL PROC
DB 197,100,89,206 ; vmulps %ymm6,%ymm3,%ymm9
DB 196,193,108,95,209 ; vmaxps %ymm9,%ymm2,%ymm2
DB 197,188,92,210 ; vsubps %ymm2,%ymm8,%ymm2
- DB 196,98,125,24,5,56,72,2,0 ; vbroadcastss 0x24838(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,138,72,2,0 ; vbroadcastss 0x2488a(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 197,60,89,199 ; vmulps %ymm7,%ymm8,%ymm8
DB 197,188,88,219 ; vaddps %ymm3,%ymm8,%ymm3
@@ -7280,7 +7263,7 @@ _sk_lighten_avx LABEL PROC
DB 197,100,89,206 ; vmulps %ymm6,%ymm3,%ymm9
DB 196,193,108,93,209 ; vminps %ymm9,%ymm2,%ymm2
DB 197,188,92,210 ; vsubps %ymm2,%ymm8,%ymm2
- DB 196,98,125,24,5,224,71,2,0 ; vbroadcastss 0x247e0(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,50,72,2,0 ; vbroadcastss 0x24832(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 197,60,89,199 ; vmulps %ymm7,%ymm8,%ymm8
DB 197,188,88,219 ; vaddps %ymm3,%ymm8,%ymm3
@@ -7307,7 +7290,7 @@ _sk_difference_avx LABEL PROC
DB 196,193,108,93,209 ; vminps %ymm9,%ymm2,%ymm2
DB 197,236,88,210 ; vaddps %ymm2,%ymm2,%ymm2
DB 197,188,92,210 ; vsubps %ymm2,%ymm8,%ymm2
- DB 196,98,125,24,5,124,71,2,0 ; vbroadcastss 0x2477c(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,206,71,2,0 ; vbroadcastss 0x247ce(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 197,60,89,199 ; vmulps %ymm7,%ymm8,%ymm8
DB 197,188,88,219 ; vaddps %ymm3,%ymm8,%ymm3
@@ -7328,7 +7311,7 @@ _sk_exclusion_avx LABEL PROC
DB 197,236,89,214 ; vmulps %ymm6,%ymm2,%ymm2
DB 197,236,88,210 ; vaddps %ymm2,%ymm2,%ymm2
DB 197,188,92,210 ; vsubps %ymm2,%ymm8,%ymm2
- DB 196,98,125,24,5,51,71,2,0 ; vbroadcastss 0x24733(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,133,71,2,0 ; vbroadcastss 0x24785(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
DB 197,60,89,199 ; vmulps %ymm7,%ymm8,%ymm8
DB 197,188,88,219 ; vaddps %ymm3,%ymm8,%ymm3
@@ -7337,7 +7320,7 @@ _sk_exclusion_avx LABEL PROC
PUBLIC _sk_colorburn_avx
_sk_colorburn_avx LABEL PROC
- DB 196,98,125,24,5,26,71,2,0 ; vbroadcastss 0x2471a(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,108,71,2,0 ; vbroadcastss 0x2476c(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,207 ; vsubps %ymm7,%ymm8,%ymm9
DB 197,52,89,216 ; vmulps %ymm0,%ymm9,%ymm11
DB 196,65,44,87,210 ; vxorps %ymm10,%ymm10,%ymm10
@@ -7397,7 +7380,7 @@ _sk_colorburn_avx LABEL PROC
PUBLIC _sk_colordodge_avx
_sk_colordodge_avx LABEL PROC
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
- DB 196,98,125,24,13,30,70,2,0 ; vbroadcastss 0x2461e(%rip),%ymm9 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,13,112,70,2,0 ; vbroadcastss 0x24670(%rip),%ymm9 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,52,92,215 ; vsubps %ymm7,%ymm9,%ymm10
DB 197,44,89,216 ; vmulps %ymm0,%ymm10,%ymm11
DB 197,52,92,203 ; vsubps %ymm3,%ymm9,%ymm9
@@ -7452,7 +7435,7 @@ _sk_colordodge_avx LABEL PROC
PUBLIC _sk_hardlight_avx
_sk_hardlight_avx LABEL PROC
- DB 196,98,125,24,5,41,69,2,0 ; vbroadcastss 0x24529(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,123,69,2,0 ; vbroadcastss 0x2457b(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,215 ; vsubps %ymm7,%ymm8,%ymm10
DB 197,44,89,200 ; vmulps %ymm0,%ymm10,%ymm9
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
@@ -7505,7 +7488,7 @@ _sk_hardlight_avx LABEL PROC
PUBLIC _sk_overlay_avx
_sk_overlay_avx LABEL PROC
- DB 196,98,125,24,5,78,68,2,0 ; vbroadcastss 0x2444e(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,160,68,2,0 ; vbroadcastss 0x244a0(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,215 ; vsubps %ymm7,%ymm8,%ymm10
DB 197,44,89,200 ; vmulps %ymm0,%ymm10,%ymm9
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
@@ -7570,10 +7553,10 @@ _sk_softlight_avx LABEL PROC
DB 196,65,60,88,192 ; vaddps %ymm8,%ymm8,%ymm8
DB 196,65,60,89,216 ; vmulps %ymm8,%ymm8,%ymm11
DB 196,65,60,88,195 ; vaddps %ymm11,%ymm8,%ymm8
- DB 196,98,125,24,29,81,67,2,0 ; vbroadcastss 0x24351(%rip),%ymm11 # 2c0d4 <_sk_overlay_sse2_8bit+0x487>
+ DB 196,98,125,24,29,163,67,2,0 ; vbroadcastss 0x243a3(%rip),%ymm11 # 2c0fc <_sk_overlay_sse2_8bit+0x487>
DB 196,65,28,88,235 ; vaddps %ymm11,%ymm12,%ymm13
DB 196,65,20,89,192 ; vmulps %ymm8,%ymm13,%ymm8
- DB 196,98,125,24,45,66,67,2,0 ; vbroadcastss 0x24342(%rip),%ymm13 # 2c0d8 <_sk_overlay_sse2_8bit+0x48b>
+ DB 196,98,125,24,45,148,67,2,0 ; vbroadcastss 0x24394(%rip),%ymm13 # 2c100 <_sk_overlay_sse2_8bit+0x48b>
DB 196,65,28,89,245 ; vmulps %ymm13,%ymm12,%ymm14
DB 196,65,12,88,192 ; vaddps %ymm8,%ymm14,%ymm8
DB 196,65,124,82,244 ; vrsqrtps %ymm12,%ymm14
@@ -7584,7 +7567,7 @@ _sk_softlight_avx LABEL PROC
DB 197,4,194,255,2 ; vcmpleps %ymm7,%ymm15,%ymm15
DB 196,67,13,74,240,240 ; vblendvps %ymm15,%ymm8,%ymm14,%ymm14
DB 197,116,88,249 ; vaddps %ymm1,%ymm1,%ymm15
- DB 196,98,125,24,5,236,66,2,0 ; vbroadcastss 0x242ec(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,62,67,2,0 ; vbroadcastss 0x2433e(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,65,60,92,228 ; vsubps %ymm12,%ymm8,%ymm12
DB 197,132,92,195 ; vsubps %ymm3,%ymm15,%ymm0
DB 196,65,124,89,228 ; vmulps %ymm12,%ymm0,%ymm12
@@ -7711,12 +7694,12 @@ _sk_hue_avx LABEL PROC
DB 196,65,28,89,219 ; vmulps %ymm11,%ymm12,%ymm11
DB 196,65,36,94,222 ; vdivps %ymm14,%ymm11,%ymm11
DB 196,67,37,74,224,240 ; vblendvps %ymm15,%ymm8,%ymm11,%ymm12
- DB 196,98,125,24,53,202,64,2,0 ; vbroadcastss 0x240ca(%rip),%ymm14 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,53,28,65,2,0 ; vbroadcastss 0x2411c(%rip),%ymm14 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
DB 196,65,92,89,222 ; vmulps %ymm14,%ymm4,%ymm11
- DB 196,98,125,24,61,192,64,2,0 ; vbroadcastss 0x240c0(%rip),%ymm15 # 2c0e0 <_sk_overlay_sse2_8bit+0x493>
+ DB 196,98,125,24,61,18,65,2,0 ; vbroadcastss 0x24112(%rip),%ymm15 # 2c108 <_sk_overlay_sse2_8bit+0x493>
DB 196,65,84,89,239 ; vmulps %ymm15,%ymm5,%ymm13
DB 196,65,36,88,221 ; vaddps %ymm13,%ymm11,%ymm11
- DB 196,226,125,24,5,177,64,2,0 ; vbroadcastss 0x240b1(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x497>
+ DB 196,226,125,24,5,3,65,2,0 ; vbroadcastss 0x24103(%rip),%ymm0 # 2c10c <_sk_overlay_sse2_8bit+0x497>
DB 197,76,89,232 ; vmulps %ymm0,%ymm6,%ymm13
DB 196,65,36,88,221 ; vaddps %ymm13,%ymm11,%ymm11
DB 196,65,52,89,238 ; vmulps %ymm14,%ymm9,%ymm13
@@ -7777,7 +7760,7 @@ _sk_hue_avx LABEL PROC
DB 196,65,36,95,208 ; vmaxps %ymm8,%ymm11,%ymm10
DB 196,195,109,74,209,240 ; vblendvps %ymm15,%ymm9,%ymm2,%ymm2
DB 196,193,108,95,208 ; vmaxps %ymm8,%ymm2,%ymm2
- DB 196,98,125,24,5,94,63,2,0 ; vbroadcastss 0x23f5e(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,176,63,2,0 ; vbroadcastss 0x23fb0(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,207 ; vsubps %ymm7,%ymm8,%ymm9
DB 197,180,89,201 ; vmulps %ymm1,%ymm9,%ymm1
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
@@ -7834,12 +7817,12 @@ _sk_saturation_avx LABEL PROC
DB 196,65,28,89,219 ; vmulps %ymm11,%ymm12,%ymm11
DB 196,65,36,94,222 ; vdivps %ymm14,%ymm11,%ymm11
DB 196,67,37,74,224,240 ; vblendvps %ymm15,%ymm8,%ymm11,%ymm12
- DB 196,98,125,24,53,130,62,2,0 ; vbroadcastss 0x23e82(%rip),%ymm14 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,53,212,62,2,0 ; vbroadcastss 0x23ed4(%rip),%ymm14 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
DB 196,65,92,89,222 ; vmulps %ymm14,%ymm4,%ymm11
- DB 196,98,125,24,61,120,62,2,0 ; vbroadcastss 0x23e78(%rip),%ymm15 # 2c0e0 <_sk_overlay_sse2_8bit+0x493>
+ DB 196,98,125,24,61,202,62,2,0 ; vbroadcastss 0x23eca(%rip),%ymm15 # 2c108 <_sk_overlay_sse2_8bit+0x493>
DB 196,65,84,89,239 ; vmulps %ymm15,%ymm5,%ymm13
DB 196,65,36,88,221 ; vaddps %ymm13,%ymm11,%ymm11
- DB 196,226,125,24,5,105,62,2,0 ; vbroadcastss 0x23e69(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x497>
+ DB 196,226,125,24,5,187,62,2,0 ; vbroadcastss 0x23ebb(%rip),%ymm0 # 2c10c <_sk_overlay_sse2_8bit+0x497>
DB 197,76,89,232 ; vmulps %ymm0,%ymm6,%ymm13
DB 196,65,36,88,221 ; vaddps %ymm13,%ymm11,%ymm11
DB 196,65,52,89,238 ; vmulps %ymm14,%ymm9,%ymm13
@@ -7900,7 +7883,7 @@ _sk_saturation_avx LABEL PROC
DB 196,65,36,95,208 ; vmaxps %ymm8,%ymm11,%ymm10
DB 196,195,109,74,209,240 ; vblendvps %ymm15,%ymm9,%ymm2,%ymm2
DB 196,193,108,95,208 ; vmaxps %ymm8,%ymm2,%ymm2
- DB 196,98,125,24,5,22,61,2,0 ; vbroadcastss 0x23d16(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,104,61,2,0 ; vbroadcastss 0x23d68(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,207 ; vsubps %ymm7,%ymm8,%ymm9
DB 197,180,89,201 ; vmulps %ymm1,%ymm9,%ymm1
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
@@ -7929,12 +7912,12 @@ _sk_color_avx LABEL PROC
DB 197,252,17,68,36,32 ; vmovups %ymm0,0x20(%rsp)
DB 197,124,89,199 ; vmulps %ymm7,%ymm0,%ymm8
DB 197,116,89,207 ; vmulps %ymm7,%ymm1,%ymm9
- DB 196,98,125,24,45,194,60,2,0 ; vbroadcastss 0x23cc2(%rip),%ymm13 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,45,20,61,2,0 ; vbroadcastss 0x23d14(%rip),%ymm13 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
DB 196,65,92,89,213 ; vmulps %ymm13,%ymm4,%ymm10
- DB 196,98,125,24,53,184,60,2,0 ; vbroadcastss 0x23cb8(%rip),%ymm14 # 2c0e0 <_sk_overlay_sse2_8bit+0x493>
+ DB 196,98,125,24,53,10,61,2,0 ; vbroadcastss 0x23d0a(%rip),%ymm14 # 2c108 <_sk_overlay_sse2_8bit+0x493>
DB 196,65,84,89,222 ; vmulps %ymm14,%ymm5,%ymm11
DB 196,65,44,88,211 ; vaddps %ymm11,%ymm10,%ymm10
- DB 196,98,125,24,61,169,60,2,0 ; vbroadcastss 0x23ca9(%rip),%ymm15 # 2c0e4 <_sk_overlay_sse2_8bit+0x497>
+ DB 196,98,125,24,61,251,60,2,0 ; vbroadcastss 0x23cfb(%rip),%ymm15 # 2c10c <_sk_overlay_sse2_8bit+0x497>
DB 196,65,76,89,223 ; vmulps %ymm15,%ymm6,%ymm11
DB 196,193,44,88,195 ; vaddps %ymm11,%ymm10,%ymm0
DB 196,65,60,89,221 ; vmulps %ymm13,%ymm8,%ymm11
@@ -7997,7 +7980,7 @@ _sk_color_avx LABEL PROC
DB 196,65,44,95,207 ; vmaxps %ymm15,%ymm10,%ymm9
DB 196,195,37,74,192,0 ; vblendvps %ymm0,%ymm8,%ymm11,%ymm0
DB 196,65,124,95,199 ; vmaxps %ymm15,%ymm0,%ymm8
- DB 196,226,125,24,5,68,59,2,0 ; vbroadcastss 0x23b44(%rip),%ymm0 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,5,150,59,2,0 ; vbroadcastss 0x23b96(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,124,92,215 ; vsubps %ymm7,%ymm0,%ymm10
DB 197,172,89,84,36,32 ; vmulps 0x20(%rsp),%ymm10,%ymm2
DB 197,124,92,219 ; vsubps %ymm3,%ymm0,%ymm11
@@ -8027,12 +8010,12 @@ _sk_luminosity_avx LABEL PROC
DB 197,252,40,208 ; vmovaps %ymm0,%ymm2
DB 197,100,89,196 ; vmulps %ymm4,%ymm3,%ymm8
DB 197,100,89,205 ; vmulps %ymm5,%ymm3,%ymm9
- DB 196,98,125,24,45,236,58,2,0 ; vbroadcastss 0x23aec(%rip),%ymm13 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,45,62,59,2,0 ; vbroadcastss 0x23b3e(%rip),%ymm13 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
DB 196,65,108,89,213 ; vmulps %ymm13,%ymm2,%ymm10
- DB 196,98,125,24,53,226,58,2,0 ; vbroadcastss 0x23ae2(%rip),%ymm14 # 2c0e0 <_sk_overlay_sse2_8bit+0x493>
+ DB 196,98,125,24,53,52,59,2,0 ; vbroadcastss 0x23b34(%rip),%ymm14 # 2c108 <_sk_overlay_sse2_8bit+0x493>
DB 196,65,116,89,222 ; vmulps %ymm14,%ymm1,%ymm11
DB 196,65,44,88,211 ; vaddps %ymm11,%ymm10,%ymm10
- DB 196,98,125,24,61,211,58,2,0 ; vbroadcastss 0x23ad3(%rip),%ymm15 # 2c0e4 <_sk_overlay_sse2_8bit+0x497>
+ DB 196,98,125,24,61,37,59,2,0 ; vbroadcastss 0x23b25(%rip),%ymm15 # 2c10c <_sk_overlay_sse2_8bit+0x497>
DB 196,65,28,89,223 ; vmulps %ymm15,%ymm12,%ymm11
DB 196,193,44,88,195 ; vaddps %ymm11,%ymm10,%ymm0
DB 196,65,60,89,221 ; vmulps %ymm13,%ymm8,%ymm11
@@ -8095,7 +8078,7 @@ _sk_luminosity_avx LABEL PROC
DB 196,65,44,95,207 ; vmaxps %ymm15,%ymm10,%ymm9
DB 196,195,37,74,192,0 ; vblendvps %ymm0,%ymm8,%ymm11,%ymm0
DB 196,65,124,95,199 ; vmaxps %ymm15,%ymm0,%ymm8
- DB 196,226,125,24,5,110,57,2,0 ; vbroadcastss 0x2396e(%rip),%ymm0 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,5,192,57,2,0 ; vbroadcastss 0x239c0(%rip),%ymm0 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,124,92,215 ; vsubps %ymm7,%ymm0,%ymm10
DB 197,172,89,210 ; vmulps %ymm2,%ymm10,%ymm2
DB 197,124,92,219 ; vsubps %ymm3,%ymm0,%ymm11
@@ -8118,18 +8101,17 @@ _sk_luminosity_avx LABEL PROC
PUBLIC _sk_srcover_rgba_8888_avx
_sk_srcover_rgba_8888_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,43,1,0,0 ; jne 88e8 <_sk_srcover_rgba_8888_avx+0x14c>
- DB 196,65,125,16,4,153 ; vmovupd (%r9,%rbx,4),%ymm8
- DB 197,125,40,13,149,61,2,0 ; vmovapd 0x23d95(%rip),%ymm9 # 2c560 <_sk_overlay_sse2_8bit+0x913>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,42,1,0,0 ; jne 88bc <_sk_srcover_rgba_8888_avx+0x14a>
+ DB 196,1,125,16,4,152 ; vmovupd (%r8,%r11,4),%ymm8
+ DB 197,125,40,13,64,62,2,0 ; vmovapd 0x23e40(%rip),%ymm9 # 2c5e0 <_sk_overlay_sse2_8bit+0x96b>
DB 196,193,61,84,225 ; vandpd %ymm9,%ymm8,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
DB 196,193,81,114,208,8 ; vpsrld $0x8,%xmm8,%xmm5
@@ -8147,9 +8129,9 @@ _sk_srcover_rgba_8888_avx LABEL PROC
DB 197,193,114,215,24 ; vpsrld $0x18,%xmm7,%xmm7
DB 196,227,61,24,255,1 ; vinsertf128 $0x1,%xmm7,%ymm8,%ymm7
DB 197,252,91,255 ; vcvtdq2ps %ymm7,%ymm7
- DB 196,98,125,24,5,144,56,2,0 ; vbroadcastss 0x23890(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,227,56,2,0 ; vbroadcastss 0x238e3(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,195 ; vsubps %ymm3,%ymm8,%ymm8
- DB 196,98,125,24,13,175,56,2,0 ; vbroadcastss 0x238af(%rip),%ymm9 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 196,98,125,24,13,2,57,2,0 ; vbroadcastss 0x23902(%rip),%ymm9 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,193,124,89,193 ; vmulps %ymm9,%ymm0,%ymm0
DB 197,60,89,212 ; vmulps %ymm4,%ymm8,%ymm10
DB 196,193,124,88,194 ; vaddps %ymm10,%ymm0,%ymm0
@@ -8181,69 +8163,68 @@ _sk_srcover_rgba_8888_avx LABEL PROC
DB 196,67,37,24,210,1 ; vinsertf128 $0x1,%xmm10,%ymm11,%ymm10
DB 196,65,53,86,202 ; vorpd %ymm10,%ymm9,%ymm9
DB 196,65,61,86,193 ; vorpd %ymm9,%ymm8,%ymm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,67 ; jne 8920 <_sk_srcover_rgba_8888_avx+0x184>
- DB 196,65,124,17,4,153 ; vmovups %ymm8,(%r9,%rbx,4)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,66 ; jne 88f4 <_sk_srcover_rgba_8888_avx+0x182>
+ DB 196,1,124,17,4,152 ; vmovups %ymm8,(%r8,%r11,4)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,194,254,255,255 ; ja 87c3 <_sk_srcover_rgba_8888_avx+0x27>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,4,1,0,0 ; lea 0x104(%rip),%r11 # 8a10 <_sk_srcover_rgba_8888_avx+0x274>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,122,16,4,153 ; vmovss (%r9,%rbx,4),%xmm8
- DB 233,163,254,255,255 ; jmpq 87c3 <_sk_srcover_rgba_8888_avx+0x27>
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,179 ; ja 88e3 <_sk_srcover_rgba_8888_avx+0x147>
- DB 65,15,182,194 ; movzbl %r10b,%eax
- DB 76,141,21,241,0,0,0 ; lea 0xf1(%rip),%r10 # 8a2c <_sk_srcover_rgba_8888_avx+0x290>
- DB 73,99,4,130 ; movslq (%r10,%rax,4),%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,195,254,255,255 ; ja 8798 <_sk_srcover_rgba_8888_avx+0x26>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,4,1,0,0 ; lea 0x104(%rip),%r10 # 89e4 <_sk_srcover_rgba_8888_avx+0x272>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 196,65,121,126,4,153 ; vmovd %xmm8,(%r9,%rbx,4)
- DB 235,151 ; jmp 88e3 <_sk_srcover_rgba_8888_avx+0x147>
- DB 196,193,121,110,100,153,8 ; vmovd 0x8(%r9,%rbx,4),%xmm4
+ DB 196,1,122,16,4,152 ; vmovss (%r8,%r11,4),%xmm8
+ DB 233,164,254,255,255 ; jmpq 8798 <_sk_srcover_rgba_8888_avx+0x26>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,180 ; ja 88b8 <_sk_srcover_rgba_8888_avx+0x146>
+ DB 65,15,182,193 ; movzbl %r9b,%eax
+ DB 76,141,13,241,0,0,0 ; lea 0xf1(%rip),%r9 # 8a00 <_sk_srcover_rgba_8888_avx+0x28e>
+ DB 73,99,4,129 ; movslq (%r9,%rax,4),%rax
+ DB 76,1,200 ; add %r9,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,1,121,126,4,152 ; vmovd %xmm8,(%r8,%r11,4)
+ DB 235,152 ; jmp 88b8 <_sk_srcover_rgba_8888_avx+0x146>
+ DB 196,129,121,110,100,152,8 ; vmovd 0x8(%r8,%r11,4),%xmm4
DB 197,249,112,228,68 ; vpshufd $0x44,%xmm4,%xmm4
DB 197,212,87,237 ; vxorps %ymm5,%ymm5,%ymm5
DB 196,99,85,12,196,4 ; vblendps $0x4,%ymm4,%ymm5,%ymm8
- DB 196,193,123,16,36,153 ; vmovsd (%r9,%rbx,4),%xmm4
+ DB 196,129,123,16,36,152 ; vmovsd (%r8,%r11,4),%xmm4
DB 196,99,61,13,196,1 ; vblendpd $0x1,%ymm4,%ymm8,%ymm8
- DB 233,80,254,255,255 ; jmpq 87c3 <_sk_srcover_rgba_8888_avx+0x27>
- DB 196,193,121,110,100,153,24 ; vmovd 0x18(%r9,%rbx,4),%xmm4
+ DB 233,81,254,255,255 ; jmpq 8798 <_sk_srcover_rgba_8888_avx+0x26>
+ DB 196,129,121,110,100,152,24 ; vmovd 0x18(%r8,%r11,4),%xmm4
DB 197,249,112,228,68 ; vpshufd $0x44,%xmm4,%xmm4
DB 196,227,125,24,228,1 ; vinsertf128 $0x1,%xmm4,%ymm0,%ymm4
DB 197,212,87,237 ; vxorps %ymm5,%ymm5,%ymm5
DB 196,99,85,12,196,64 ; vblendps $0x40,%ymm4,%ymm5,%ymm8
DB 196,99,125,25,196,1 ; vextractf128 $0x1,%ymm8,%xmm4
- DB 196,195,89,34,100,153,20,1 ; vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,20,1 ; vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
DB 196,99,61,24,196,1 ; vinsertf128 $0x1,%xmm4,%ymm8,%ymm8
DB 196,99,125,25,196,1 ; vextractf128 $0x1,%ymm8,%xmm4
- DB 196,195,89,34,100,153,16,0 ; vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,16,0 ; vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
DB 196,99,61,24,196,1 ; vinsertf128 $0x1,%xmm4,%ymm8,%ymm8
- DB 196,193,121,16,36,153 ; vmovupd (%r9,%rbx,4),%xmm4
+ DB 196,129,121,16,36,152 ; vmovupd (%r8,%r11,4),%xmm4
DB 196,67,93,13,192,12 ; vblendpd $0xc,%ymm8,%ymm4,%ymm8
- DB 233,251,253,255,255 ; jmpq 87c3 <_sk_srcover_rgba_8888_avx+0x27>
- DB 196,67,121,22,68,153,8,2 ; vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- DB 196,65,121,214,4,153 ; vmovq %xmm8,(%r9,%rbx,4)
- DB 233,8,255,255,255 ; jmpq 88e3 <_sk_srcover_rgba_8888_avx+0x147>
+ DB 233,252,253,255,255 ; jmpq 8798 <_sk_srcover_rgba_8888_avx+0x26>
+ DB 196,3,121,22,68,152,8,2 ; vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ DB 196,1,121,214,4,152 ; vmovq %xmm8,(%r8,%r11,4)
+ DB 233,9,255,255,255 ; jmpq 88b8 <_sk_srcover_rgba_8888_avx+0x146>
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,24,2 ; vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,24,2 ; vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,20,1 ; vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,20,1 ; vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
- DB 196,65,122,17,76,153,16 ; vmovss %xmm9,0x10(%r9,%rbx,4)
- DB 196,65,121,17,4,153 ; vmovupd %xmm8,(%r9,%rbx,4)
- DB 233,212,254,255,255 ; jmpq 88e3 <_sk_srcover_rgba_8888_avx+0x147>
+ DB 196,1,122,17,76,152,16 ; vmovss %xmm9,0x10(%r8,%r11,4)
+ DB 196,1,121,17,4,152 ; vmovupd %xmm8,(%r8,%r11,4)
+ DB 233,213,254,255,255 ; jmpq 88b8 <_sk_srcover_rgba_8888_avx+0x146>
DB 144 ; nop
DB 5,255,255,255,82 ; add $0x52ffffff,%eax
DB 255 ; (bad)
@@ -8255,7 +8236,7 @@ _sk_srcover_rgba_8888_avx LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,255 ; jg 8a25 <_sk_srcover_rgba_8888_avx+0x289>
+ DB 127,255 ; jg 89f9 <_sk_srcover_rgba_8888_avx+0x287>
DB 255 ; (bad)
DB 255,99,255 ; jmpq *-0x1(%rbx)
DB 255 ; (bad)
@@ -8288,7 +8269,7 @@ _sk_clamp_0_avx LABEL PROC
PUBLIC _sk_clamp_1_avx
_sk_clamp_1_avx LABEL PROC
- DB 196,98,125,24,5,78,54,2,0 ; vbroadcastss 0x2364e(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,162,54,2,0 ; vbroadcastss 0x236a2(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,124,93,192 ; vminps %ymm8,%ymm0,%ymm0
DB 196,193,116,93,200 ; vminps %ymm8,%ymm1,%ymm1
DB 196,193,108,93,208 ; vminps %ymm8,%ymm2,%ymm2
@@ -8298,7 +8279,7 @@ _sk_clamp_1_avx LABEL PROC
PUBLIC _sk_clamp_a_avx
_sk_clamp_a_avx LABEL PROC
- DB 196,98,125,24,5,45,54,2,0 ; vbroadcastss 0x2362d(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,129,54,2,0 ; vbroadcastss 0x23681(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,100,93,216 ; vminps %ymm8,%ymm3,%ymm3
DB 197,252,93,195 ; vminps %ymm3,%ymm0,%ymm0
DB 197,244,93,203 ; vminps %ymm3,%ymm1,%ymm1
@@ -8308,7 +8289,7 @@ _sk_clamp_a_avx LABEL PROC
PUBLIC _sk_clamp_a_dst_avx
_sk_clamp_a_dst_avx LABEL PROC
- DB 196,98,125,24,5,15,54,2,0 ; vbroadcastss 0x2360f(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,99,54,2,0 ; vbroadcastss 0x23663(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,68,93,248 ; vminps %ymm8,%ymm7,%ymm7
DB 197,220,93,231 ; vminps %ymm7,%ymm4,%ymm4
DB 197,212,93,239 ; vminps %ymm7,%ymm5,%ymm5
@@ -8335,7 +8316,7 @@ _sk_swap_rb_avx LABEL PROC
PUBLIC _sk_invert_avx
_sk_invert_avx LABEL PROC
- DB 196,98,125,24,5,202,53,2,0 ; vbroadcastss 0x235ca(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,30,54,2,0 ; vbroadcastss 0x2361e(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,188,92,192 ; vsubps %ymm0,%ymm8,%ymm0
DB 197,188,92,201 ; vsubps %ymm1,%ymm8,%ymm1
DB 197,188,92,210 ; vsubps %ymm2,%ymm8,%ymm2
@@ -8381,7 +8362,7 @@ PUBLIC _sk_unpremul_avx
_sk_unpremul_avx LABEL PROC
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 196,65,100,194,200,0 ; vcmpeqps %ymm8,%ymm3,%ymm9
- DB 196,98,125,24,21,90,53,2,0 ; vbroadcastss 0x2355a(%rip),%ymm10 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,21,174,53,2,0 ; vbroadcastss 0x235ae(%rip),%ymm10 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,44,94,211 ; vdivps %ymm3,%ymm10,%ymm10
DB 196,67,45,74,192,144 ; vblendvps %ymm9,%ymm8,%ymm10,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
@@ -8392,17 +8373,17 @@ _sk_unpremul_avx LABEL PROC
PUBLIC _sk_from_srgb_avx
_sk_from_srgb_avx LABEL PROC
- DB 196,98,125,24,5,103,53,2,0 ; vbroadcastss 0x23567(%rip),%ymm8 # 2c0ec <_sk_overlay_sse2_8bit+0x49f>
+ DB 196,98,125,24,5,187,53,2,0 ; vbroadcastss 0x235bb(%rip),%ymm8 # 2c114 <_sk_overlay_sse2_8bit+0x49f>
DB 196,65,124,89,200 ; vmulps %ymm8,%ymm0,%ymm9
DB 197,124,89,208 ; vmulps %ymm0,%ymm0,%ymm10
- DB 196,98,125,24,29,69,53,2,0 ; vbroadcastss 0x23545(%rip),%ymm11 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,29,153,53,2,0 ; vbroadcastss 0x23599(%rip),%ymm11 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
DB 196,65,124,89,227 ; vmulps %ymm11,%ymm0,%ymm12
- DB 196,98,125,24,45,75,53,2,0 ; vbroadcastss 0x2354b(%rip),%ymm13 # 2c0f0 <_sk_overlay_sse2_8bit+0x4a3>
+ DB 196,98,125,24,45,159,53,2,0 ; vbroadcastss 0x2359f(%rip),%ymm13 # 2c118 <_sk_overlay_sse2_8bit+0x4a3>
DB 196,65,28,88,229 ; vaddps %ymm13,%ymm12,%ymm12
DB 196,65,44,89,212 ; vmulps %ymm12,%ymm10,%ymm10
- DB 196,98,125,24,37,60,53,2,0 ; vbroadcastss 0x2353c(%rip),%ymm12 # 2c0f4 <_sk_overlay_sse2_8bit+0x4a7>
+ DB 196,98,125,24,37,144,53,2,0 ; vbroadcastss 0x23590(%rip),%ymm12 # 2c11c <_sk_overlay_sse2_8bit+0x4a7>
DB 196,65,44,88,212 ; vaddps %ymm12,%ymm10,%ymm10
- DB 196,98,125,24,53,50,53,2,0 ; vbroadcastss 0x23532(%rip),%ymm14 # 2c0f8 <_sk_overlay_sse2_8bit+0x4ab>
+ DB 196,98,125,24,53,134,53,2,0 ; vbroadcastss 0x23586(%rip),%ymm14 # 2c120 <_sk_overlay_sse2_8bit+0x4ab>
DB 196,193,124,194,198,1 ; vcmpltps %ymm14,%ymm0,%ymm0
DB 196,195,45,74,193,0 ; vblendvps %ymm0,%ymm9,%ymm10,%ymm0
DB 196,65,116,89,200 ; vmulps %ymm8,%ymm1,%ymm9
@@ -8426,17 +8407,17 @@ _sk_from_srgb_avx LABEL PROC
PUBLIC _sk_from_srgb_dst_avx
_sk_from_srgb_dst_avx LABEL PROC
- DB 196,98,125,24,5,187,52,2,0 ; vbroadcastss 0x234bb(%rip),%ymm8 # 2c0ec <_sk_overlay_sse2_8bit+0x49f>
+ DB 196,98,125,24,5,15,53,2,0 ; vbroadcastss 0x2350f(%rip),%ymm8 # 2c114 <_sk_overlay_sse2_8bit+0x49f>
DB 196,65,92,89,200 ; vmulps %ymm8,%ymm4,%ymm9
DB 197,92,89,212 ; vmulps %ymm4,%ymm4,%ymm10
- DB 196,98,125,24,29,153,52,2,0 ; vbroadcastss 0x23499(%rip),%ymm11 # 2c0dc <_sk_overlay_sse2_8bit+0x48f>
+ DB 196,98,125,24,29,237,52,2,0 ; vbroadcastss 0x234ed(%rip),%ymm11 # 2c104 <_sk_overlay_sse2_8bit+0x48f>
DB 196,65,92,89,227 ; vmulps %ymm11,%ymm4,%ymm12
- DB 196,98,125,24,45,159,52,2,0 ; vbroadcastss 0x2349f(%rip),%ymm13 # 2c0f0 <_sk_overlay_sse2_8bit+0x4a3>
+ DB 196,98,125,24,45,243,52,2,0 ; vbroadcastss 0x234f3(%rip),%ymm13 # 2c118 <_sk_overlay_sse2_8bit+0x4a3>
DB 196,65,28,88,229 ; vaddps %ymm13,%ymm12,%ymm12
DB 196,65,44,89,212 ; vmulps %ymm12,%ymm10,%ymm10
- DB 196,98,125,24,37,144,52,2,0 ; vbroadcastss 0x23490(%rip),%ymm12 # 2c0f4 <_sk_overlay_sse2_8bit+0x4a7>
+ DB 196,98,125,24,37,228,52,2,0 ; vbroadcastss 0x234e4(%rip),%ymm12 # 2c11c <_sk_overlay_sse2_8bit+0x4a7>
DB 196,65,44,88,212 ; vaddps %ymm12,%ymm10,%ymm10
- DB 196,98,125,24,53,134,52,2,0 ; vbroadcastss 0x23486(%rip),%ymm14 # 2c0f8 <_sk_overlay_sse2_8bit+0x4ab>
+ DB 196,98,125,24,53,218,52,2,0 ; vbroadcastss 0x234da(%rip),%ymm14 # 2c120 <_sk_overlay_sse2_8bit+0x4ab>
DB 196,193,92,194,230,1 ; vcmpltps %ymm14,%ymm4,%ymm4
DB 196,195,45,74,225,64 ; vblendvps %ymm4,%ymm9,%ymm10,%ymm4
DB 196,65,84,89,200 ; vmulps %ymm8,%ymm5,%ymm9
@@ -8461,20 +8442,20 @@ _sk_from_srgb_dst_avx LABEL PROC
PUBLIC _sk_to_srgb_avx
_sk_to_srgb_avx LABEL PROC
DB 197,124,82,200 ; vrsqrtps %ymm0,%ymm9
- DB 196,98,125,24,5,27,52,2,0 ; vbroadcastss 0x2341b(%rip),%ymm8 # 2c0fc <_sk_overlay_sse2_8bit+0x4af>
+ DB 196,98,125,24,5,111,52,2,0 ; vbroadcastss 0x2346f(%rip),%ymm8 # 2c124 <_sk_overlay_sse2_8bit+0x4af>
DB 196,65,124,89,208 ; vmulps %ymm8,%ymm0,%ymm10
- DB 196,98,125,24,29,21,52,2,0 ; vbroadcastss 0x23415(%rip),%ymm11 # 2c104 <_sk_overlay_sse2_8bit+0x4b7>
+ DB 196,98,125,24,29,105,52,2,0 ; vbroadcastss 0x23469(%rip),%ymm11 # 2c12c <_sk_overlay_sse2_8bit+0x4b7>
DB 196,65,52,89,227 ; vmulps %ymm11,%ymm9,%ymm12
- DB 196,98,125,24,45,3,52,2,0 ; vbroadcastss 0x23403(%rip),%ymm13 # 2c100 <_sk_overlay_sse2_8bit+0x4b3>
+ DB 196,98,125,24,45,87,52,2,0 ; vbroadcastss 0x23457(%rip),%ymm13 # 2c128 <_sk_overlay_sse2_8bit+0x4b3>
DB 196,65,28,88,229 ; vaddps %ymm13,%ymm12,%ymm12
DB 196,65,52,89,228 ; vmulps %ymm12,%ymm9,%ymm12
- DB 196,98,125,24,53,248,51,2,0 ; vbroadcastss 0x233f8(%rip),%ymm14 # 2c108 <_sk_overlay_sse2_8bit+0x4bb>
+ DB 196,98,125,24,53,76,52,2,0 ; vbroadcastss 0x2344c(%rip),%ymm14 # 2c130 <_sk_overlay_sse2_8bit+0x4bb>
DB 196,65,28,88,230 ; vaddps %ymm14,%ymm12,%ymm12
- DB 196,98,125,24,61,238,51,2,0 ; vbroadcastss 0x233ee(%rip),%ymm15 # 2c10c <_sk_overlay_sse2_8bit+0x4bf>
+ DB 196,98,125,24,61,66,52,2,0 ; vbroadcastss 0x23442(%rip),%ymm15 # 2c134 <_sk_overlay_sse2_8bit+0x4bf>
DB 196,65,52,88,207 ; vaddps %ymm15,%ymm9,%ymm9
DB 196,65,124,83,201 ; vrcpps %ymm9,%ymm9
DB 196,65,52,89,204 ; vmulps %ymm12,%ymm9,%ymm9
- DB 196,98,125,24,37,218,51,2,0 ; vbroadcastss 0x233da(%rip),%ymm12 # 2c110 <_sk_overlay_sse2_8bit+0x4c3>
+ DB 196,98,125,24,37,46,52,2,0 ; vbroadcastss 0x2342e(%rip),%ymm12 # 2c138 <_sk_overlay_sse2_8bit+0x4c3>
DB 196,193,124,194,196,1 ; vcmpltps %ymm12,%ymm0,%ymm0
DB 196,195,53,74,194,0 ; vblendvps %ymm0,%ymm10,%ymm9,%ymm0
DB 197,124,82,201 ; vrsqrtps %ymm1,%ymm9
@@ -8509,7 +8490,7 @@ _sk_rgb_to_hsl_avx LABEL PROC
DB 197,116,93,202 ; vminps %ymm2,%ymm1,%ymm9
DB 196,65,124,93,201 ; vminps %ymm9,%ymm0,%ymm9
DB 196,65,60,92,209 ; vsubps %ymm9,%ymm8,%ymm10
- DB 196,98,125,24,29,230,50,2,0 ; vbroadcastss 0x232e6(%rip),%ymm11 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,29,58,51,2,0 ; vbroadcastss 0x2333a(%rip),%ymm11 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,65,36,94,218 ; vdivps %ymm10,%ymm11,%ymm11
DB 197,116,92,226 ; vsubps %ymm2,%ymm1,%ymm12
DB 196,65,28,89,227 ; vmulps %ymm11,%ymm12,%ymm12
@@ -8519,19 +8500,19 @@ _sk_rgb_to_hsl_avx LABEL PROC
DB 196,193,108,89,211 ; vmulps %ymm11,%ymm2,%ymm2
DB 197,252,92,201 ; vsubps %ymm1,%ymm0,%ymm1
DB 196,193,116,89,203 ; vmulps %ymm11,%ymm1,%ymm1
- DB 196,98,125,24,29,19,51,2,0 ; vbroadcastss 0x23313(%rip),%ymm11 # 2c11c <_sk_overlay_sse2_8bit+0x4cf>
+ DB 196,98,125,24,29,103,51,2,0 ; vbroadcastss 0x23367(%rip),%ymm11 # 2c144 <_sk_overlay_sse2_8bit+0x4cf>
DB 196,193,116,88,203 ; vaddps %ymm11,%ymm1,%ymm1
- DB 196,98,125,24,29,1,51,2,0 ; vbroadcastss 0x23301(%rip),%ymm11 # 2c118 <_sk_overlay_sse2_8bit+0x4cb>
+ DB 196,98,125,24,29,85,51,2,0 ; vbroadcastss 0x23355(%rip),%ymm11 # 2c140 <_sk_overlay_sse2_8bit+0x4cb>
DB 196,193,108,88,211 ; vaddps %ymm11,%ymm2,%ymm2
DB 196,227,117,74,202,224 ; vblendvps %ymm14,%ymm2,%ymm1,%ymm1
- DB 196,226,125,24,21,233,50,2,0 ; vbroadcastss 0x232e9(%rip),%ymm2 # 2c114 <_sk_overlay_sse2_8bit+0x4c7>
+ DB 196,226,125,24,21,61,51,2,0 ; vbroadcastss 0x2333d(%rip),%ymm2 # 2c13c <_sk_overlay_sse2_8bit+0x4c7>
DB 196,65,12,87,246 ; vxorps %ymm14,%ymm14,%ymm14
DB 196,227,13,74,210,208 ; vblendvps %ymm13,%ymm2,%ymm14,%ymm2
DB 197,188,194,192,0 ; vcmpeqps %ymm0,%ymm8,%ymm0
DB 196,193,108,88,212 ; vaddps %ymm12,%ymm2,%ymm2
DB 196,227,117,74,194,0 ; vblendvps %ymm0,%ymm2,%ymm1,%ymm0
DB 196,193,60,88,201 ; vaddps %ymm9,%ymm8,%ymm1
- DB 196,98,125,24,37,100,50,2,0 ; vbroadcastss 0x23264(%rip),%ymm12 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,37,184,50,2,0 ; vbroadcastss 0x232b8(%rip),%ymm12 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,193,116,89,212 ; vmulps %ymm12,%ymm1,%ymm2
DB 197,28,194,226,1 ; vcmpltps %ymm2,%ymm12,%ymm12
DB 196,65,36,92,216 ; vsubps %ymm8,%ymm11,%ymm11
@@ -8541,7 +8522,7 @@ _sk_rgb_to_hsl_avx LABEL PROC
DB 197,172,94,201 ; vdivps %ymm1,%ymm10,%ymm1
DB 196,195,125,74,198,128 ; vblendvps %ymm8,%ymm14,%ymm0,%ymm0
DB 196,195,117,74,206,128 ; vblendvps %ymm8,%ymm14,%ymm1,%ymm1
- DB 196,98,125,24,5,147,50,2,0 ; vbroadcastss 0x23293(%rip),%ymm8 # 2c120 <_sk_overlay_sse2_8bit+0x4d3>
+ DB 196,98,125,24,5,231,50,2,0 ; vbroadcastss 0x232e7(%rip),%ymm8 # 2c148 <_sk_overlay_sse2_8bit+0x4d3>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -8556,7 +8537,7 @@ _sk_hsl_to_rgb_avx LABEL PROC
DB 197,252,17,28,36 ; vmovups %ymm3,(%rsp)
DB 197,252,40,225 ; vmovaps %ymm1,%ymm4
DB 197,252,40,216 ; vmovaps %ymm0,%ymm3
- DB 196,98,125,24,5,234,49,2,0 ; vbroadcastss 0x231ea(%rip),%ymm8 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,5,62,50,2,0 ; vbroadcastss 0x2323e(%rip),%ymm8 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,60,194,202,2 ; vcmpleps %ymm2,%ymm8,%ymm9
DB 197,92,89,210 ; vmulps %ymm2,%ymm4,%ymm10
DB 196,65,92,92,218 ; vsubps %ymm10,%ymm4,%ymm11
@@ -8564,23 +8545,23 @@ _sk_hsl_to_rgb_avx LABEL PROC
DB 197,52,88,210 ; vaddps %ymm2,%ymm9,%ymm10
DB 197,108,88,202 ; vaddps %ymm2,%ymm2,%ymm9
DB 196,65,52,92,202 ; vsubps %ymm10,%ymm9,%ymm9
- DB 196,98,125,24,29,44,50,2,0 ; vbroadcastss 0x2322c(%rip),%ymm11 # 2c124 <_sk_overlay_sse2_8bit+0x4d7>
+ DB 196,98,125,24,29,128,50,2,0 ; vbroadcastss 0x23280(%rip),%ymm11 # 2c14c <_sk_overlay_sse2_8bit+0x4d7>
DB 196,65,100,88,219 ; vaddps %ymm11,%ymm3,%ymm11
DB 196,67,125,8,227,1 ; vroundps $0x1,%ymm11,%ymm12
DB 196,65,36,92,252 ; vsubps %ymm12,%ymm11,%ymm15
DB 196,65,44,92,217 ; vsubps %ymm9,%ymm10,%ymm11
- DB 196,98,125,24,37,254,49,2,0 ; vbroadcastss 0x231fe(%rip),%ymm12 # 2c114 <_sk_overlay_sse2_8bit+0x4c7>
+ DB 196,98,125,24,37,82,50,2,0 ; vbroadcastss 0x23252(%rip),%ymm12 # 2c13c <_sk_overlay_sse2_8bit+0x4c7>
DB 196,193,4,89,196 ; vmulps %ymm12,%ymm15,%ymm0
- DB 196,98,125,24,45,248,49,2,0 ; vbroadcastss 0x231f8(%rip),%ymm13 # 2c11c <_sk_overlay_sse2_8bit+0x4cf>
+ DB 196,98,125,24,45,76,50,2,0 ; vbroadcastss 0x2324c(%rip),%ymm13 # 2c144 <_sk_overlay_sse2_8bit+0x4cf>
DB 197,20,92,240 ; vsubps %ymm0,%ymm13,%ymm14
DB 196,65,36,89,246 ; vmulps %ymm14,%ymm11,%ymm14
DB 196,65,52,88,246 ; vaddps %ymm14,%ymm9,%ymm14
- DB 196,226,125,24,13,237,49,2,0 ; vbroadcastss 0x231ed(%rip),%ymm1 # 2c128 <_sk_overlay_sse2_8bit+0x4db>
+ DB 196,226,125,24,13,65,50,2,0 ; vbroadcastss 0x23241(%rip),%ymm1 # 2c150 <_sk_overlay_sse2_8bit+0x4db>
DB 196,193,116,194,255,2 ; vcmpleps %ymm15,%ymm1,%ymm7
DB 196,195,13,74,249,112 ; vblendvps %ymm7,%ymm9,%ymm14,%ymm7
DB 196,65,60,194,247,2 ; vcmpleps %ymm15,%ymm8,%ymm14
DB 196,227,45,74,255,224 ; vblendvps %ymm14,%ymm7,%ymm10,%ymm7
- DB 196,98,125,24,53,196,49,2,0 ; vbroadcastss 0x231c4(%rip),%ymm14 # 2c120 <_sk_overlay_sse2_8bit+0x4d3>
+ DB 196,98,125,24,53,24,50,2,0 ; vbroadcastss 0x23218(%rip),%ymm14 # 2c148 <_sk_overlay_sse2_8bit+0x4d3>
DB 196,65,12,194,255,2 ; vcmpleps %ymm15,%ymm14,%ymm15
DB 196,193,124,89,195 ; vmulps %ymm11,%ymm0,%ymm0
DB 197,180,88,192 ; vaddps %ymm0,%ymm9,%ymm0
@@ -8599,7 +8580,7 @@ _sk_hsl_to_rgb_avx LABEL PROC
DB 197,164,89,247 ; vmulps %ymm7,%ymm11,%ymm6
DB 197,180,88,246 ; vaddps %ymm6,%ymm9,%ymm6
DB 196,227,77,74,237,0 ; vblendvps %ymm0,%ymm5,%ymm6,%ymm5
- DB 196,226,125,24,5,110,49,2,0 ; vbroadcastss 0x2316e(%rip),%ymm0 # 2c12c <_sk_overlay_sse2_8bit+0x4df>
+ DB 196,226,125,24,5,194,49,2,0 ; vbroadcastss 0x231c2(%rip),%ymm0 # 2c154 <_sk_overlay_sse2_8bit+0x4df>
DB 197,228,88,192 ; vaddps %ymm0,%ymm3,%ymm0
DB 196,227,125,8,216,1 ; vroundps $0x1,%ymm0,%ymm3
DB 197,252,92,195 ; vsubps %ymm3,%ymm0,%ymm0
@@ -8642,116 +8623,110 @@ _sk_scale_1_float_avx LABEL PROC
PUBLIC _sk_scale_u8_avx
_sk_scale_u8_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,75 ; jne 90cb <_sk_scale_u8_avx+0x64>
- DB 196,66,121,48,4,25 ; vpmovzxbw (%r9,%rbx,1),%xmm8
- DB 197,57,219,5,194,57,2,0 ; vpand 0x239c2(%rip),%xmm8,%xmm8 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,74 ; jne 909d <_sk_scale_u8_avx+0x62>
+ DB 196,2,121,48,4,24 ; vpmovzxbw (%r8,%r11,1),%xmm8
+ DB 197,57,219,5,111,58,2,0 ; vpand 0x23a6f(%rip),%xmm8,%xmm8 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
DB 196,65,57,105,201 ; vpunpckhwd %xmm9,%xmm8,%xmm9
DB 196,66,121,51,192 ; vpmovzxwd %xmm8,%xmm8
DB 196,67,61,24,193,1 ; vinsertf128 $0x1,%xmm9,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
- DB 196,98,125,24,13,127,48,2,0 ; vbroadcastss 0x2307f(%rip),%ymm9 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,13,212,48,2,0 ; vbroadcastss 0x230d4(%rip),%ymm9 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
DB 197,188,89,210 ; vmulps %ymm2,%ymm8,%ymm2
DB 197,188,89,219 ; vmulps %ymm3,%ymm8,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,166 ; ja 9086 <_sk_scale_u8_avx+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,121,0,0,0 ; lea 0x79(%rip),%r11 # 9164 <_sk_scale_u8_avx+0xfd>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,167 ; ja 9059 <_sk_scale_u8_avx+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,123,0,0,0 ; lea 0x7b(%rip),%r10 # 9138 <_sk_scale_u8_avx+0xfd>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
- DB 235,135 ; jmp 9086 <_sk_scale_u8_avx+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,136 ; jmp 9059 <_sk_scale_u8_avx+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
DB 197,57,196,192,2 ; vpinsrw $0x2,%eax,%xmm8,%xmm8
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,121,110,200 ; vmovd %eax,%xmm9
DB 196,66,121,48,201 ; vpmovzxbw %xmm9,%xmm9
DB 196,67,57,14,193,3 ; vpblendw $0x3,%xmm9,%xmm8,%xmm8
- DB 233,94,255,255,255 ; jmpq 9086 <_sk_scale_u8_avx+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,95,255,255,255 ; jmpq 9059 <_sk_scale_u8_avx+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
DB 197,57,196,192,6 ; vpinsrw $0x6,%eax,%xmm8,%xmm8
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,57,196,192,5 ; vpinsrw $0x5,%eax,%xmm8,%xmm8
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,57,196,192,4 ; vpinsrw $0x4,%eax,%xmm8,%xmm8
- DB 196,65,121,110,12,25 ; vmovd (%r9,%rbx,1),%xmm9
+ DB 196,1,121,110,12,24 ; vmovd (%r8,%r11,1),%xmm9
DB 196,66,121,48,201 ; vpmovzxbw %xmm9,%xmm9
DB 196,67,49,14,192,240 ; vpblendw $0xf0,%xmm8,%xmm9,%xmm8
- DB 233,34,255,255,255 ; jmpq 9086 <_sk_scale_u8_avx+0x1f>
- DB 144 ; nop
- DB 255 ; (bad)
- DB 255 ; (bad)
- DB 255,171,255,255,255,155 ; ljmp *-0x64000001(%rbx)
- DB 255 ; (bad)
+ DB 233,35,255,255,255 ; jmpq 9059 <_sk_scale_u8_avx+0x1e>
+ DB 102,144 ; xchg %ax,%ax
+ DB 142,255 ; mov %edi,%?
DB 255 ; (bad)
+ DB 255,169,255,255,255,153 ; ljmp *-0x66000001(%rcx)
DB 255 ; (bad)
- DB 234 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 232,255,255,255,221 ; callq ffffffffde009148 <_sk_overlay_sse2_8bit+0xffffffffddfdd4d3>
DB 255 ; (bad)
- DB 223,255 ; (bad)
DB 255 ; (bad)
- DB 255,212 ; callq *%rsp
+ DB 255,210 ; callq *%rdx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 255,194 ; inc %edx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_scale_565_avx
_sk_scale_565_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,178,0,0,0 ; jne 9252 <_sk_scale_565_avx+0xd2>
- DB 196,65,122,111,4,89 ; vmovdqu (%r9,%rbx,2),%xmm8
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,177,0,0,0 ; jne 9224 <_sk_scale_565_avx+0xd0>
+ DB 196,1,122,111,4,88 ; vmovdqu (%r8,%r11,2),%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
DB 196,65,57,105,201 ; vpunpckhwd %xmm9,%xmm8,%xmm9
DB 196,66,121,51,192 ; vpmovzxwd %xmm8,%xmm8
DB 196,67,61,24,193,1 ; vinsertf128 $0x1,%xmm9,%ymm8,%ymm8
- DB 196,98,125,24,13,112,47,2,0 ; vbroadcastss 0x22f70(%rip),%ymm9 # 2c134 <_sk_overlay_sse2_8bit+0x4e7>
+ DB 196,98,125,24,13,197,47,2,0 ; vbroadcastss 0x22fc5(%rip),%ymm9 # 2c15c <_sk_overlay_sse2_8bit+0x4e7>
DB 196,65,60,84,201 ; vandps %ymm9,%ymm8,%ymm9
DB 196,65,124,91,201 ; vcvtdq2ps %ymm9,%ymm9
- DB 196,98,125,24,21,97,47,2,0 ; vbroadcastss 0x22f61(%rip),%ymm10 # 2c138 <_sk_overlay_sse2_8bit+0x4eb>
+ DB 196,98,125,24,21,182,47,2,0 ; vbroadcastss 0x22fb6(%rip),%ymm10 # 2c160 <_sk_overlay_sse2_8bit+0x4eb>
DB 196,65,52,89,202 ; vmulps %ymm10,%ymm9,%ymm9
- DB 196,98,125,24,21,87,47,2,0 ; vbroadcastss 0x22f57(%rip),%ymm10 # 2c13c <_sk_overlay_sse2_8bit+0x4ef>
+ DB 196,98,125,24,21,172,47,2,0 ; vbroadcastss 0x22fac(%rip),%ymm10 # 2c164 <_sk_overlay_sse2_8bit+0x4ef>
DB 196,65,60,84,210 ; vandps %ymm10,%ymm8,%ymm10
DB 196,65,124,91,210 ; vcvtdq2ps %ymm10,%ymm10
- DB 196,98,125,24,29,72,47,2,0 ; vbroadcastss 0x22f48(%rip),%ymm11 # 2c140 <_sk_overlay_sse2_8bit+0x4f3>
+ DB 196,98,125,24,29,157,47,2,0 ; vbroadcastss 0x22f9d(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x4f3>
DB 196,65,44,89,211 ; vmulps %ymm11,%ymm10,%ymm10
- DB 196,98,125,24,29,62,47,2,0 ; vbroadcastss 0x22f3e(%rip),%ymm11 # 2c144 <_sk_overlay_sse2_8bit+0x4f7>
+ DB 196,98,125,24,29,147,47,2,0 ; vbroadcastss 0x22f93(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x4f7>
DB 196,65,60,84,195 ; vandps %ymm11,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
- DB 196,98,125,24,29,47,47,2,0 ; vbroadcastss 0x22f2f(%rip),%ymm11 # 2c148 <_sk_overlay_sse2_8bit+0x4fb>
+ DB 196,98,125,24,29,132,47,2,0 ; vbroadcastss 0x22f84(%rip),%ymm11 # 2c170 <_sk_overlay_sse2_8bit+0x4fb>
DB 196,65,60,89,195 ; vmulps %ymm11,%ymm8,%ymm8
DB 197,100,194,223,1 ; vcmpltps %ymm7,%ymm3,%ymm11
DB 196,65,44,93,224 ; vminps %ymm8,%ymm10,%ymm12
@@ -8764,49 +8739,50 @@ _sk_scale_565_avx LABEL PROC
DB 197,188,89,210 ; vmulps %ymm2,%ymm8,%ymm2
DB 197,164,89,219 ; vmulps %ymm3,%ymm11,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,59,255,255,255 ; ja 91a6 <_sk_scale_565_avx+0x26>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,102,0,0,0 ; lea 0x66(%rip),%r11 # 92dc <_sk_scale_565_avx+0x15c>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,60,255,255,255 ; ja 9179 <_sk_scale_565_avx+0x25>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,100,0,0,0 ; lea 0x64(%rip),%r10 # 92ac <_sk_scale_565_avx+0x158>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
- DB 233,25,255,255,255 ; jmpq 91a6 <_sk_scale_565_avx+0x26>
+ DB 233,26,255,255,255 ; jmpq 9179 <_sk_scale_565_avx+0x25>
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 196,65,57,196,68,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,121,110,12,89 ; vmovd (%r9,%rbx,2),%xmm9
+ DB 196,1,57,196,68,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,121,110,12,88 ; vmovd (%r8,%r11,2),%xmm9
DB 196,67,57,14,193,3 ; vpblendw $0x3,%xmm9,%xmm8,%xmm8
- DB 233,251,254,255,255 ; jmpq 91a6 <_sk_scale_565_avx+0x26>
+ DB 233,252,254,255,255 ; jmpq 9179 <_sk_scale_565_avx+0x25>
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 196,65,57,196,68,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,57,196,68,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,57,196,68,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,122,126,12,89 ; vmovq (%r9,%rbx,2),%xmm9
+ DB 196,1,57,196,68,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,57,196,68,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,57,196,68,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,122,126,12,88 ; vmovq (%r8,%r11,2),%xmm9
DB 196,67,49,14,192,240 ; vpblendw $0xf0,%xmm8,%xmm9,%xmm8
- DB 233,205,254,255,255 ; jmpq 91a6 <_sk_scale_565_avx+0x26>
- DB 15,31,0 ; nopl (%rax)
- DB 163,255,255,255,190,255,255,255,177 ; movabs %eax,0xb1ffffffbeffffff
+ DB 233,206,254,255,255 ; jmpq 9179 <_sk_scale_565_avx+0x25>
+ DB 144 ; nop
+ DB 165 ; movsl %ds:(%rsi),%es:(%rdi)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,192 ; inc %eax
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
DB 255 ; (bad)
+ DB 255,179,255,255,255,238 ; pushq -0x11000001(%rbx)
DB 255 ; (bad)
- DB 255,228 ; jmpq *%rsp
+ DB 255 ; (bad)
+ DB 255,230 ; jmpq *%rsi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
+ DB 222,255 ; fdivrp %st,%st(7)
DB 255 ; (bad)
- DB 255,207 ; dec %edi
+ DB 255,209 ; callq *%rcx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
@@ -8832,23 +8808,22 @@ _sk_lerp_1_float_avx LABEL PROC
PUBLIC _sk_lerp_u8_avx
_sk_lerp_u8_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,111 ; jne 93bf <_sk_lerp_u8_avx+0x88>
- DB 196,66,121,48,4,25 ; vpmovzxbw (%r9,%rbx,1),%xmm8
- DB 197,57,219,5,242,54,2,0 ; vpand 0x236f2(%rip),%xmm8,%xmm8 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,110 ; jne 938d <_sk_lerp_u8_avx+0x86>
+ DB 196,2,121,48,4,24 ; vpmovzxbw (%r8,%r11,1),%xmm8
+ DB 197,57,219,5,163,55,2,0 ; vpand 0x237a3(%rip),%xmm8,%xmm8 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
DB 196,65,57,105,201 ; vpunpckhwd %xmm9,%xmm8,%xmm9
DB 196,66,121,51,192 ; vpmovzxwd %xmm8,%xmm8
DB 196,67,61,24,193,1 ; vinsertf128 $0x1,%xmm9,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
- DB 196,98,125,24,13,175,45,2,0 ; vbroadcastss 0x22daf(%rip),%ymm9 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,13,8,46,2,0 ; vbroadcastss 0x22e08(%rip),%ymm9 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
DB 197,252,92,196 ; vsubps %ymm4,%ymm0,%ymm0
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
@@ -8863,90 +8838,90 @@ _sk_lerp_u8_avx LABEL PROC
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 197,228,88,223 ; vaddps %ymm7,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,130 ; ja 9356 <_sk_lerp_u8_avx+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,125,0,0,0 ; lea 0x7d(%rip),%r11 # 945c <_sk_lerp_u8_avx+0x125>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,131 ; ja 9325 <_sk_lerp_u8_avx+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,127,0,0,0 ; lea 0x7f(%rip),%r10 # 942c <_sk_lerp_u8_avx+0x125>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
- DB 233,96,255,255,255 ; jmpq 9356 <_sk_lerp_u8_avx+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 233,97,255,255,255 ; jmpq 9325 <_sk_lerp_u8_avx+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
DB 197,57,196,192,2 ; vpinsrw $0x2,%eax,%xmm8,%xmm8
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,121,110,200 ; vmovd %eax,%xmm9
DB 196,66,121,48,201 ; vpmovzxbw %xmm9,%xmm9
DB 196,67,57,14,193,3 ; vpblendw $0x3,%xmm9,%xmm8,%xmm8
- DB 233,55,255,255,255 ; jmpq 9356 <_sk_lerp_u8_avx+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,56,255,255,255 ; jmpq 9325 <_sk_lerp_u8_avx+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
DB 197,57,196,192,6 ; vpinsrw $0x6,%eax,%xmm8,%xmm8
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,57,196,192,5 ; vpinsrw $0x5,%eax,%xmm8,%xmm8
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,57,196,192,4 ; vpinsrw $0x4,%eax,%xmm8,%xmm8
- DB 196,65,121,110,12,25 ; vmovd (%r9,%rbx,1),%xmm9
+ DB 196,1,121,110,12,24 ; vmovd (%r8,%r11,1),%xmm9
DB 196,66,121,48,201 ; vpmovzxbw %xmm9,%xmm9
DB 196,67,49,14,192,240 ; vpblendw $0xf0,%xmm8,%xmm9,%xmm8
- DB 233,251,254,255,255 ; jmpq 9356 <_sk_lerp_u8_avx+0x1f>
- DB 144 ; nop
- DB 140,255 ; mov %?,%edi
+ DB 233,252,254,255,255 ; jmpq 9325 <_sk_lerp_u8_avx+0x1e>
+ DB 15,31,0 ; nopl (%rax)
+ DB 138,255 ; mov %bh,%bh
DB 255 ; (bad)
- DB 255,170,255,255,255,154 ; ljmp *-0x65000001(%rdx)
+ DB 255,168,255,255,255,152 ; ljmp *-0x67000001(%rax)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
- DB 233,255,255,255,222 ; jmpq ffffffffdf00946c <_sk_overlay_sse2_8bit+0xffffffffdefdd81f>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,211 ; callq *%rbx
+ DB 220,255 ; fdivr %st,%st(7)
DB 255 ; (bad)
+ DB 255,209 ; callq *%rcx
DB 255 ; (bad)
- DB 255,195 ; inc %ebx
+ DB 255 ; (bad)
+ DB 255,193 ; inc %ecx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_lerp_565_avx
_sk_lerp_565_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,214,0,0,0 ; jne 956e <_sk_lerp_565_avx+0xf6>
- DB 196,65,122,111,4,89 ; vmovdqu (%r9,%rbx,2),%xmm8
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,213,0,0,0 ; jne 953c <_sk_lerp_565_avx+0xf4>
+ DB 196,1,122,111,4,88 ; vmovdqu (%r8,%r11,2),%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
DB 196,65,57,105,201 ; vpunpckhwd %xmm9,%xmm8,%xmm9
DB 196,66,121,51,192 ; vpmovzxwd %xmm8,%xmm8
DB 196,67,61,24,193,1 ; vinsertf128 $0x1,%xmm9,%ymm8,%ymm8
- DB 196,98,125,24,13,120,44,2,0 ; vbroadcastss 0x22c78(%rip),%ymm9 # 2c134 <_sk_overlay_sse2_8bit+0x4e7>
+ DB 196,98,125,24,13,209,44,2,0 ; vbroadcastss 0x22cd1(%rip),%ymm9 # 2c15c <_sk_overlay_sse2_8bit+0x4e7>
DB 196,65,60,84,201 ; vandps %ymm9,%ymm8,%ymm9
DB 196,65,124,91,201 ; vcvtdq2ps %ymm9,%ymm9
- DB 196,98,125,24,21,105,44,2,0 ; vbroadcastss 0x22c69(%rip),%ymm10 # 2c138 <_sk_overlay_sse2_8bit+0x4eb>
+ DB 196,98,125,24,21,194,44,2,0 ; vbroadcastss 0x22cc2(%rip),%ymm10 # 2c160 <_sk_overlay_sse2_8bit+0x4eb>
DB 196,65,52,89,202 ; vmulps %ymm10,%ymm9,%ymm9
- DB 196,98,125,24,21,95,44,2,0 ; vbroadcastss 0x22c5f(%rip),%ymm10 # 2c13c <_sk_overlay_sse2_8bit+0x4ef>
+ DB 196,98,125,24,21,184,44,2,0 ; vbroadcastss 0x22cb8(%rip),%ymm10 # 2c164 <_sk_overlay_sse2_8bit+0x4ef>
DB 196,65,60,84,210 ; vandps %ymm10,%ymm8,%ymm10
DB 196,65,124,91,210 ; vcvtdq2ps %ymm10,%ymm10
- DB 196,98,125,24,29,80,44,2,0 ; vbroadcastss 0x22c50(%rip),%ymm11 # 2c140 <_sk_overlay_sse2_8bit+0x4f3>
+ DB 196,98,125,24,29,169,44,2,0 ; vbroadcastss 0x22ca9(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x4f3>
DB 196,65,44,89,211 ; vmulps %ymm11,%ymm10,%ymm10
- DB 196,98,125,24,29,70,44,2,0 ; vbroadcastss 0x22c46(%rip),%ymm11 # 2c144 <_sk_overlay_sse2_8bit+0x4f7>
+ DB 196,98,125,24,29,159,44,2,0 ; vbroadcastss 0x22c9f(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x4f7>
DB 196,65,60,84,195 ; vandps %ymm11,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
- DB 196,98,125,24,29,55,44,2,0 ; vbroadcastss 0x22c37(%rip),%ymm11 # 2c148 <_sk_overlay_sse2_8bit+0x4fb>
+ DB 196,98,125,24,29,144,44,2,0 ; vbroadcastss 0x22c90(%rip),%ymm11 # 2c170 <_sk_overlay_sse2_8bit+0x4fb>
DB 196,65,60,89,195 ; vmulps %ymm11,%ymm8,%ymm8
DB 197,100,194,223,1 ; vcmpltps %ymm7,%ymm3,%ymm11
DB 196,65,44,93,224 ; vminps %ymm8,%ymm10,%ymm12
@@ -8967,49 +8942,50 @@ _sk_lerp_565_avx LABEL PROC
DB 196,193,100,89,219 ; vmulps %ymm11,%ymm3,%ymm3
DB 197,228,88,223 ; vaddps %ymm7,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,23,255,255,255 ; ja 949e <_sk_lerp_565_avx+0x26>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,102,0,0,0 ; lea 0x66(%rip),%r11 # 95f8 <_sk_lerp_565_avx+0x180>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,24,255,255,255 ; ja 946d <_sk_lerp_565_avx+0x25>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,100,0,0,0 ; lea 0x64(%rip),%r10 # 95c4 <_sk_lerp_565_avx+0x17c>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
- DB 233,245,254,255,255 ; jmpq 949e <_sk_lerp_565_avx+0x26>
+ DB 233,246,254,255,255 ; jmpq 946d <_sk_lerp_565_avx+0x25>
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 196,65,57,196,68,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,121,110,12,89 ; vmovd (%r9,%rbx,2),%xmm9
+ DB 196,1,57,196,68,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,121,110,12,88 ; vmovd (%r8,%r11,2),%xmm9
DB 196,67,57,14,193,3 ; vpblendw $0x3,%xmm9,%xmm8,%xmm8
- DB 233,215,254,255,255 ; jmpq 949e <_sk_lerp_565_avx+0x26>
+ DB 233,216,254,255,255 ; jmpq 946d <_sk_lerp_565_avx+0x25>
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 196,65,57,196,68,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,57,196,68,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,57,196,68,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm8,%xmm8
- DB 196,65,122,126,12,89 ; vmovq (%r9,%rbx,2),%xmm9
+ DB 196,1,57,196,68,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,57,196,68,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,57,196,68,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm8,%xmm8
+ DB 196,1,122,126,12,88 ; vmovq (%r8,%r11,2),%xmm9
DB 196,67,49,14,192,240 ; vpblendw $0xf0,%xmm8,%xmm9,%xmm8
- DB 233,169,254,255,255 ; jmpq 949e <_sk_lerp_565_avx+0x26>
- DB 15,31,0 ; nopl (%rax)
- DB 163,255,255,255,190,255,255,255,177 ; movabs %eax,0xb1ffffffbeffffff
+ DB 233,170,254,255,255 ; jmpq 946d <_sk_lerp_565_avx+0x25>
+ DB 144 ; nop
+ DB 165 ; movsl %ds:(%rsi),%es:(%rdi)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,192 ; inc %eax
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
DB 255 ; (bad)
+ DB 255,179,255,255,255,238 ; pushq -0x11000001(%rbx)
DB 255 ; (bad)
- DB 255,228 ; jmpq *%rsp
DB 255 ; (bad)
+ DB 255,230 ; jmpq *%rsi
DB 255 ; (bad)
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
DB 255 ; (bad)
- DB 255,207 ; dec %edi
+ DB 222,255 ; fdivrp %st,%st(7)
+ DB 255 ; (bad)
+ DB 255,209 ; callq *%rcx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
@@ -9019,91 +8995,91 @@ _sk_load_tables_avx LABEL PROC
DB 72,131,236,56 ; sub $0x38,%rsp
DB 197,252,17,60,36 ; vmovups %ymm7,(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,7,2,0,0 ; jne 9832 <_sk_load_tables_avx+0x21e>
- DB 196,65,125,16,20,145 ; vmovupd (%r9,%rdx,4),%ymm10
- DB 197,125,40,13,71,47,2,0 ; vmovapd 0x22f47(%rip),%ymm9 # 2c580 <_sk_overlay_sse2_8bit+0x933>
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,7,2,0,0 ; jne 97fe <_sk_load_tables_avx+0x21e>
+ DB 196,65,125,16,20,144 ; vmovupd (%r8,%rdx,4),%ymm10
+ DB 197,125,40,13,251,47,2,0 ; vmovapd 0x22ffb(%rip),%ymm9 # 2c600 <_sk_overlay_sse2_8bit+0x98b>
DB 196,193,45,84,201 ; vandpd %ymm9,%ymm10,%ymm1
DB 196,227,125,25,200,1 ; vextractf128 $0x1,%ymm1,%xmm0
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 76,139,88,8 ; mov 0x8(%rax),%r11
- DB 196,129,122,16,20,147 ; vmovss (%r11,%r10,4),%xmm2
- DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 76,139,80,8 ; mov 0x8(%rax),%r10
+ DB 196,129,122,16,20,138 ; vmovss (%r10,%r9,4),%xmm2
+ DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,131,105,33,4,130,16 ; vinsertps $0x10,(%r10,%r8,4),%xmm2,%xmm0
+ DB 69,137,200 ; mov %r9d,%r8d
+ DB 196,131,121,33,4,130,32 ; vinsertps $0x20,(%r10,%r8,4),%xmm0,%xmm0
+ DB 196,193,249,126,200 ; vmovq %xmm1,%r8
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,131,105,33,4,139,16 ; vinsertps $0x10,(%r11,%r9,4),%xmm2,%xmm0
- DB 69,137,209 ; mov %r10d,%r9d
- DB 196,131,121,33,4,139,32 ; vinsertps $0x20,(%r11,%r9,4),%xmm0,%xmm0
- DB 196,193,249,126,201 ; vmovq %xmm1,%r9
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,121,33,4,147,48 ; vinsertps $0x30,(%r11,%r10,4),%xmm0,%xmm8
- DB 69,137,202 ; mov %r9d,%r10d
- DB 196,129,122,16,20,147 ; vmovss (%r11,%r10,4),%xmm2
- DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
+ DB 196,3,121,33,4,138,48 ; vinsertps $0x30,(%r10,%r9,4),%xmm0,%xmm8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 196,129,122,16,20,138 ; vmovss (%r10,%r9,4),%xmm2
+ DB 196,195,249,22,201,1 ; vpextrq $0x1,%xmm1,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,131,105,33,12,130,16 ; vinsertps $0x10,(%r10,%r8,4),%xmm2,%xmm1
+ DB 69,137,200 ; mov %r9d,%r8d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,131,105,33,12,139,16 ; vinsertps $0x10,(%r11,%r9,4),%xmm2,%xmm1
- DB 69,137,209 ; mov %r10d,%r9d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,113,33,12,139,32 ; vinsertps $0x20,(%r11,%r9,4),%xmm1,%xmm1
- DB 76,139,72,16 ; mov 0x10(%rax),%r9
- DB 196,3,113,33,36,147,48 ; vinsertps $0x30,(%r11,%r10,4),%xmm1,%xmm12
+ DB 196,131,113,33,12,130,32 ; vinsertps $0x20,(%r10,%r8,4),%xmm1,%xmm1
+ DB 76,139,64,16 ; mov 0x10(%rax),%r8
+ DB 196,3,113,33,36,138,48 ; vinsertps $0x30,(%r10,%r9,4),%xmm1,%xmm12
DB 196,193,105,114,210,8 ; vpsrld $0x8,%xmm10,%xmm2
DB 196,67,125,25,213,1 ; vextractf128 $0x1,%ymm10,%xmm13
DB 196,193,121,114,213,8 ; vpsrld $0x8,%xmm13,%xmm0
DB 196,227,109,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm2,%ymm0
DB 196,193,125,84,209 ; vandpd %ymm9,%ymm0,%ymm2
DB 196,227,125,25,208,1 ; vextractf128 $0x1,%ymm2,%xmm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,129,122,16,12,153 ; vmovss (%r9,%r11,4),%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,113,33,52,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm1,%xmm14
- DB 69,137,218 ; mov %r11d,%r10d
- DB 196,129,122,16,28,145 ; vmovss (%r9,%r10,4),%xmm3
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,129,122,16,12,153 ; vmovss (%r9,%r11,4),%xmm1
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,129,122,16,4,153 ; vmovss (%r9,%r11,4),%xmm0
- DB 196,195,249,22,211,1 ; vpextrq $0x1,%xmm2,%r11
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 196,129,122,16,12,144 ; vmovss (%r8,%r10,4),%xmm1
+ DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,3,113,33,52,136,16 ; vinsertps $0x10,(%r8,%r9,4),%xmm1,%xmm14
+ DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,129,122,16,28,136 ; vmovss (%r8,%r9,4),%xmm3
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,121,33,28,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm0,%xmm11
- DB 69,137,218 ; mov %r11d,%r10d
- DB 196,1,122,16,60,145 ; vmovss (%r9,%r10,4),%xmm15
+ DB 196,129,122,16,12,144 ; vmovss (%r8,%r10,4),%xmm1
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 196,129,122,16,4,144 ; vmovss (%r8,%r10,4),%xmm0
+ DB 196,195,249,22,210,1 ; vpextrq $0x1,%xmm2,%r10
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,3,121,33,28,136,16 ; vinsertps $0x10,(%r8,%r9,4),%xmm0,%xmm11
+ DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,1,122,16,60,136 ; vmovss (%r8,%r9,4),%xmm15
DB 196,195,29,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm12,%ymm0
- DB 73,193,235,32 ; shr $0x20,%r11
+ DB 73,193,234,32 ; shr $0x20,%r10
DB 196,227,9,33,219,32 ; vinsertps $0x20,%xmm3,%xmm14,%xmm3
DB 196,227,97,33,249,48 ; vinsertps $0x30,%xmm1,%xmm3,%xmm7
- DB 196,1,122,16,52,153 ; vmovss (%r9,%r11,4),%xmm14
- DB 76,139,80,24 ; mov 0x18(%rax),%r10
+ DB 196,1,122,16,52,144 ; vmovss (%r8,%r10,4),%xmm14
+ DB 76,139,72,24 ; mov 0x18(%rax),%r9
DB 196,193,97,114,210,16 ; vpsrld $0x10,%xmm10,%xmm3
DB 196,193,105,114,213,16 ; vpsrld $0x10,%xmm13,%xmm2
DB 196,227,101,24,210,1 ; vinsertf128 $0x1,%xmm2,%ymm3,%ymm2
DB 196,65,109,84,201 ; vandpd %ymm9,%ymm2,%ymm9
DB 196,99,125,25,202,1 ; vextractf128 $0x1,%ymm9,%xmm2
- DB 196,193,249,126,209 ; vmovq %xmm2,%r9
- DB 68,137,200 ; mov %r9d,%eax
- DB 196,193,122,16,28,130 ; vmovss (%r10,%rax,4),%xmm3
- DB 196,195,249,22,211,1 ; vpextrq $0x1,%xmm2,%r11
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,3,97,33,36,138,16 ; vinsertps $0x10,(%r10,%r9,4),%xmm3,%xmm12
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,193,122,16,28,130 ; vmovss (%r10,%rax,4),%xmm3
- DB 196,65,249,126,201 ; vmovq %xmm9,%r9
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,129,122,16,20,154 ; vmovss (%r10,%r11,4),%xmm2
- DB 68,137,200 ; mov %r9d,%eax
- DB 196,193,122,16,12,130 ; vmovss (%r10,%rax,4),%xmm1
- DB 196,67,249,22,203,1 ; vpextrq $0x1,%xmm9,%r11
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,3,113,33,12,138,16 ; vinsertps $0x10,(%r10,%r9,4),%xmm1,%xmm9
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,65,122,16,4,130 ; vmovss (%r10,%rax,4),%xmm8
+ DB 196,193,249,126,208 ; vmovq %xmm2,%r8
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 196,193,122,16,28,129 ; vmovss (%r9,%rax,4),%xmm3
+ DB 196,195,249,22,210,1 ; vpextrq $0x1,%xmm2,%r10
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,3,97,33,36,129,16 ; vinsertps $0x10,(%r9,%r8,4),%xmm3,%xmm12
+ DB 68,137,208 ; mov %r10d,%eax
+ DB 196,193,122,16,28,129 ; vmovss (%r9,%rax,4),%xmm3
+ DB 196,65,249,126,200 ; vmovq %xmm9,%r8
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,129,122,16,20,145 ; vmovss (%r9,%r10,4),%xmm2
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 196,193,122,16,12,129 ; vmovss (%r9,%rax,4),%xmm1
+ DB 196,67,249,22,202,1 ; vpextrq $0x1,%xmm9,%r10
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,3,113,33,12,129,16 ; vinsertps $0x10,(%r9,%r8,4),%xmm1,%xmm9
+ DB 68,137,208 ; mov %r10d,%eax
+ DB 196,65,122,16,4,129 ; vmovss (%r9,%rax,4),%xmm8
DB 196,195,33,33,207,32 ; vinsertps $0x20,%xmm15,%xmm11,%xmm1
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,1,122,16,28,154 ; vmovss (%r10,%r11,4),%xmm11
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,1,122,16,28,145 ; vmovss (%r9,%r10,4),%xmm11
DB 196,195,113,33,206,48 ; vinsertps $0x30,%xmm14,%xmm1,%xmm1
DB 196,227,117,24,207,1 ; vinsertf128 $0x1,%xmm7,%ymm1,%ymm1
DB 196,227,25,33,219,32 ; vinsertps $0x20,%xmm3,%xmm12,%xmm3
@@ -9115,48 +9091,48 @@ _sk_load_tables_avx LABEL PROC
DB 196,193,65,114,213,24 ; vpsrld $0x18,%xmm13,%xmm7
DB 196,227,101,24,223,1 ; vinsertf128 $0x1,%xmm7,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
- DB 196,226,125,24,61,15,41,2,0 ; vbroadcastss 0x2290f(%rip),%ymm7 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,61,107,41,2,0 ; vbroadcastss 0x2296b(%rip),%ymm7 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,228,89,223 ; vmulps %ymm7,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,16,60,36 ; vmovups (%rsp),%ymm7
DB 72,131,196,56 ; add $0x38,%rsp
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,44,87,210 ; vxorps %ymm10,%ymm10,%ymm10
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,230,253,255,255 ; ja 9631 <_sk_load_tables_avx+0x1d>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,146,0,0,0 ; lea 0x92(%rip),%r11 # 98e8 <_sk_load_tables_avx+0x2d4>
- DB 79,99,20,147 ; movslq (%r11,%r10,4),%r10
- DB 77,1,218 ; add %r11,%r10
- DB 65,255,226 ; jmpq *%r10
- DB 196,65,122,16,20,145 ; vmovss (%r9,%rdx,4),%xmm10
- DB 233,198,253,255,255 ; jmpq 9631 <_sk_load_tables_avx+0x1d>
- DB 196,193,121,110,68,145,8 ; vmovd 0x8(%r9,%rdx,4),%xmm0
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,230,253,255,255 ; ja 95fd <_sk_load_tables_avx+0x1d>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,146,0,0,0 ; lea 0x92(%rip),%r10 # 98b4 <_sk_load_tables_avx+0x2d4>
+ DB 79,99,12,138 ; movslq (%r10,%r9,4),%r9
+ DB 77,1,209 ; add %r10,%r9
+ DB 65,255,225 ; jmpq *%r9
+ DB 196,65,122,16,20,144 ; vmovss (%r8,%rdx,4),%xmm10
+ DB 233,198,253,255,255 ; jmpq 95fd <_sk_load_tables_avx+0x1d>
+ DB 196,193,121,110,68,144,8 ; vmovd 0x8(%r8,%rdx,4),%xmm0
DB 197,249,112,192,68 ; vpshufd $0x44,%xmm0,%xmm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 196,99,117,12,208,4 ; vblendps $0x4,%ymm0,%ymm1,%ymm10
- DB 196,193,123,16,4,145 ; vmovsd (%r9,%rdx,4),%xmm0
+ DB 196,193,123,16,4,144 ; vmovsd (%r8,%rdx,4),%xmm0
DB 196,99,45,13,208,1 ; vblendpd $0x1,%ymm0,%ymm10,%ymm10
- DB 233,159,253,255,255 ; jmpq 9631 <_sk_load_tables_avx+0x1d>
- DB 196,193,121,110,68,145,24 ; vmovd 0x18(%r9,%rdx,4),%xmm0
+ DB 233,159,253,255,255 ; jmpq 95fd <_sk_load_tables_avx+0x1d>
+ DB 196,193,121,110,68,144,24 ; vmovd 0x18(%r8,%rdx,4),%xmm0
DB 197,249,112,192,68 ; vpshufd $0x44,%xmm0,%xmm0
DB 196,227,125,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 196,99,117,12,208,64 ; vblendps $0x40,%ymm0,%ymm1,%ymm10
DB 196,99,125,25,208,1 ; vextractf128 $0x1,%ymm10,%xmm0
- DB 196,195,121,34,68,145,20,1 ; vpinsrd $0x1,0x14(%r9,%rdx,4),%xmm0,%xmm0
+ DB 196,195,121,34,68,144,20,1 ; vpinsrd $0x1,0x14(%r8,%rdx,4),%xmm0,%xmm0
DB 196,99,45,24,208,1 ; vinsertf128 $0x1,%xmm0,%ymm10,%ymm10
DB 196,99,125,25,208,1 ; vextractf128 $0x1,%ymm10,%xmm0
- DB 196,195,121,34,68,145,16,0 ; vpinsrd $0x0,0x10(%r9,%rdx,4),%xmm0,%xmm0
+ DB 196,195,121,34,68,144,16,0 ; vpinsrd $0x0,0x10(%r8,%rdx,4),%xmm0,%xmm0
DB 196,99,45,24,208,1 ; vinsertf128 $0x1,%xmm0,%ymm10,%ymm10
- DB 196,193,121,16,4,145 ; vmovupd (%r9,%rdx,4),%xmm0
+ DB 196,193,121,16,4,144 ; vmovupd (%r8,%rdx,4),%xmm0
DB 196,67,125,13,210,12 ; vblendpd $0xc,%ymm10,%ymm0,%ymm10
- DB 233,74,253,255,255 ; jmpq 9631 <_sk_load_tables_avx+0x1d>
+ DB 233,74,253,255,255 ; jmpq 95fd <_sk_load_tables_avx+0x1d>
DB 144 ; nop
- DB 120,255 ; js 98e9 <_sk_load_tables_avx+0x2d5>
+ DB 120,255 ; js 98b5 <_sk_load_tables_avx+0x2d5>
DB 255 ; (bad)
DB 255,153,255,255,255,131 ; lcall *-0x7c000001(%rcx)
DB 255 ; (bad)
@@ -9181,15 +9157,15 @@ PUBLIC _sk_load_tables_u16_be_avx
_sk_load_tables_u16_be_avx LABEL PROC
DB 72,131,236,56 ; sub $0x38,%rsp
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 76,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10
- DB 77,133,192 ; test %r8,%r8
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 76,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9
+ DB 72,133,255 ; test %rdi,%rdi
DB 197,252,17,60,36 ; vmovups %ymm7,(%rsp)
- DB 15,133,87,2,0,0 ; jne 9b7a <_sk_load_tables_u16_be_avx+0x276>
- DB 196,1,121,16,4,81 ; vmovupd (%r9,%r10,2),%xmm8
- DB 196,129,121,16,84,81,16 ; vmovupd 0x10(%r9,%r10,2),%xmm2
- DB 196,129,121,16,92,81,32 ; vmovupd 0x20(%r9,%r10,2),%xmm3
- DB 196,1,122,111,76,81,48 ; vmovdqu 0x30(%r9,%r10,2),%xmm9
+ DB 15,133,87,2,0,0 ; jne 9b46 <_sk_load_tables_u16_be_avx+0x276>
+ DB 196,1,121,16,4,72 ; vmovupd (%r8,%r9,2),%xmm8
+ DB 196,129,121,16,84,72,16 ; vmovupd 0x10(%r8,%r9,2),%xmm2
+ DB 196,129,121,16,92,72,32 ; vmovupd 0x20(%r8,%r9,2),%xmm3
+ DB 196,1,122,111,76,72,48 ; vmovdqu 0x30(%r8,%r9,2),%xmm9
DB 197,185,97,194 ; vpunpcklwd %xmm2,%xmm8,%xmm0
DB 197,185,105,210 ; vpunpckhwd %xmm2,%xmm8,%xmm2
DB 196,193,97,97,201 ; vpunpcklwd %xmm9,%xmm3,%xmm1
@@ -9200,90 +9176,90 @@ _sk_load_tables_u16_be_avx LABEL PROC
DB 197,113,105,219 ; vpunpckhwd %xmm3,%xmm1,%xmm11
DB 197,177,108,200 ; vpunpcklqdq %xmm0,%xmm9,%xmm1
DB 197,49,109,224 ; vpunpckhqdq %xmm0,%xmm9,%xmm12
- DB 197,121,111,21,224,48,2,0 ; vmovdqa 0x230e0(%rip),%xmm10 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 197,121,111,21,148,49,2,0 ; vmovdqa 0x23194(%rip),%xmm10 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,193,113,219,202 ; vpand %xmm10,%xmm1,%xmm1
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
DB 196,193,113,105,209 ; vpunpckhwd %xmm9,%xmm1,%xmm2
- DB 196,193,249,126,209 ; vmovq %xmm2,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 76,139,88,8 ; mov 0x8(%rax),%r11
- DB 196,129,122,16,28,147 ; vmovss (%r11,%r10,4),%xmm3
- DB 196,195,249,22,210,1 ; vpextrq $0x1,%xmm2,%r10
+ DB 196,193,249,126,208 ; vmovq %xmm2,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 76,139,80,8 ; mov 0x8(%rax),%r10
+ DB 196,129,122,16,28,138 ; vmovss (%r10,%r9,4),%xmm3
+ DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,3,97,33,44,130,16 ; vinsertps $0x10,(%r10,%r8,4),%xmm3,%xmm13
+ DB 69,137,200 ; mov %r9d,%r8d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,3,97,33,44,139,16 ; vinsertps $0x10,(%r11,%r9,4),%xmm3,%xmm13
- DB 69,137,209 ; mov %r10d,%r9d
- DB 73,193,234,32 ; shr $0x20,%r10
DB 196,226,121,51,201 ; vpmovzxwd %xmm1,%xmm1
- DB 196,129,122,16,28,139 ; vmovss (%r11,%r9,4),%xmm3
- DB 196,193,249,126,201 ; vmovq %xmm1,%r9
- DB 196,129,122,16,4,147 ; vmovss (%r11,%r10,4),%xmm0
- DB 69,137,202 ; mov %r9d,%r10d
+ DB 196,129,122,16,28,130 ; vmovss (%r10,%r8,4),%xmm3
+ DB 196,193,249,126,200 ; vmovq %xmm1,%r8
+ DB 196,129,122,16,4,138 ; vmovss (%r10,%r9,4),%xmm0
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 73,193,232,30 ; shr $0x1e,%r8
+ DB 196,129,122,16,20,138 ; vmovss (%r10,%r9,4),%xmm2
+ DB 196,195,249,22,201,1 ; vpextrq $0x1,%xmm1,%r9
+ DB 196,131,105,33,12,2,16 ; vinsertps $0x10,(%r10,%r8,1),%xmm2,%xmm1
+ DB 69,137,200 ; mov %r9d,%r8d
DB 73,193,233,30 ; shr $0x1e,%r9
- DB 196,129,122,16,20,147 ; vmovss (%r11,%r10,4),%xmm2
- DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
- DB 196,131,105,33,12,11,16 ; vinsertps $0x10,(%r11,%r9,1),%xmm2,%xmm1
- DB 69,137,209 ; mov %r10d,%r9d
- DB 73,193,234,30 ; shr $0x1e,%r10
- DB 196,129,122,16,20,139 ; vmovss (%r11,%r9,4),%xmm2
- DB 76,139,72,16 ; mov 0x10(%rax),%r9
+ DB 196,129,122,16,20,130 ; vmovss (%r10,%r8,4),%xmm2
+ DB 76,139,64,16 ; mov 0x10(%rax),%r8
DB 196,227,17,33,219,32 ; vinsertps $0x20,%xmm3,%xmm13,%xmm3
DB 196,99,97,33,232,48 ; vinsertps $0x30,%xmm0,%xmm3,%xmm13
DB 196,99,113,33,242,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm14
- DB 196,1,122,16,60,19 ; vmovss (%r11,%r10,1),%xmm15
+ DB 196,1,122,16,60,10 ; vmovss (%r10,%r9,1),%xmm15
DB 196,193,25,219,210 ; vpand %xmm10,%xmm12,%xmm2
DB 196,193,105,105,193 ; vpunpckhwd %xmm9,%xmm2,%xmm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,129,122,16,12,153 ; vmovss (%r9,%r11,4),%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 196,129,122,16,12,144 ; vmovss (%r8,%r10,4),%xmm1
+ DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,3,113,33,36,136,16 ; vinsertps $0x10,(%r8,%r9,4),%xmm1,%xmm12
+ DB 69,137,209 ; mov %r10d,%r9d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,113,33,36,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm1,%xmm12
- DB 69,137,218 ; mov %r11d,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
DB 196,226,121,51,194 ; vpmovzxwd %xmm2,%xmm0
- DB 196,129,122,16,20,145 ; vmovss (%r9,%r10,4),%xmm2
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 196,129,122,16,28,153 ; vmovss (%r9,%r11,4),%xmm3
- DB 69,137,211 ; mov %r10d,%r11d
- DB 73,193,234,30 ; shr $0x1e,%r10
- DB 196,129,122,16,12,153 ; vmovss (%r9,%r11,4),%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 196,131,113,33,12,17,16 ; vinsertps $0x10,(%r9,%r10,1),%xmm1,%xmm1
- DB 69,137,218 ; mov %r11d,%r10d
- DB 196,129,122,16,60,145 ; vmovss (%r9,%r10,4),%xmm7
+ DB 196,129,122,16,20,136 ; vmovss (%r8,%r9,4),%xmm2
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 196,129,122,16,28,144 ; vmovss (%r8,%r10,4),%xmm3
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 73,193,233,30 ; shr $0x1e,%r9
+ DB 196,129,122,16,12,144 ; vmovss (%r8,%r10,4),%xmm1
+ DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 196,131,113,33,12,8,16 ; vinsertps $0x10,(%r8,%r9,1),%xmm1,%xmm1
+ DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,129,122,16,60,136 ; vmovss (%r8,%r9,4),%xmm7
DB 196,195,9,33,199,48 ; vinsertps $0x30,%xmm15,%xmm14,%xmm0
DB 196,65,57,108,243 ; vpunpcklqdq %xmm11,%xmm8,%xmm14
DB 196,195,125,24,197,1 ; vinsertf128 $0x1,%xmm13,%ymm0,%ymm0
- DB 73,193,235,30 ; shr $0x1e,%r11
+ DB 73,193,234,30 ; shr $0x1e,%r10
DB 196,227,25,33,210,32 ; vinsertps $0x20,%xmm2,%xmm12,%xmm2
DB 196,227,105,33,219,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm3
DB 196,99,113,33,239,32 ; vinsertps $0x20,%xmm7,%xmm1,%xmm13
- DB 196,1,122,16,60,25 ; vmovss (%r9,%r11,1),%xmm15
- DB 76,139,80,24 ; mov 0x18(%rax),%r10
+ DB 196,1,122,16,60,16 ; vmovss (%r8,%r10,1),%xmm15
+ DB 76,139,72,24 ; mov 0x18(%rax),%r9
DB 196,193,9,219,250 ; vpand %xmm10,%xmm14,%xmm7
DB 196,193,65,105,209 ; vpunpckhwd %xmm9,%xmm7,%xmm2
- DB 196,193,249,126,209 ; vmovq %xmm2,%r9
- DB 68,137,200 ; mov %r9d,%eax
- DB 196,193,122,16,12,130 ; vmovss (%r10,%rax,4),%xmm1
+ DB 196,193,249,126,208 ; vmovq %xmm2,%r8
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 196,193,122,16,12,129 ; vmovss (%r9,%rax,4),%xmm1
DB 196,227,249,22,208,1 ; vpextrq $0x1,%xmm2,%rax
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,3,113,33,20,138,16 ; vinsertps $0x10,(%r10,%r9,4),%xmm1,%xmm10
- DB 65,137,193 ; mov %eax,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,3,113,33,20,129,16 ; vinsertps $0x10,(%r9,%r8,4),%xmm1,%xmm10
+ DB 65,137,192 ; mov %eax,%r8d
DB 72,193,232,32 ; shr $0x20,%rax
DB 196,226,121,51,207 ; vpmovzxwd %xmm7,%xmm1
- DB 196,1,122,16,52,138 ; vmovss (%r10,%r9,4),%xmm14
- DB 196,193,249,126,201 ; vmovq %xmm1,%r9
- DB 196,65,122,16,36,130 ; vmovss (%r10,%rax,4),%xmm12
- DB 68,137,200 ; mov %r9d,%eax
- DB 73,193,233,30 ; shr $0x1e,%r9
- DB 196,193,122,16,20,130 ; vmovss (%r10,%rax,4),%xmm2
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 196,131,105,33,20,10,16 ; vinsertps $0x10,(%r10,%r9,1),%xmm2,%xmm2
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,193,122,16,60,130 ; vmovss (%r10,%rax,4),%xmm7
+ DB 196,1,122,16,52,129 ; vmovss (%r9,%r8,4),%xmm14
+ DB 196,193,249,126,200 ; vmovq %xmm1,%r8
+ DB 196,65,122,16,36,129 ; vmovss (%r9,%rax,4),%xmm12
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 73,193,232,30 ; shr $0x1e,%r8
+ DB 196,193,122,16,20,129 ; vmovss (%r9,%rax,4),%xmm2
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
+ DB 196,131,105,33,20,1,16 ; vinsertps $0x10,(%r9,%r8,1),%xmm2,%xmm2
+ DB 68,137,208 ; mov %r10d,%eax
+ DB 196,193,122,16,60,129 ; vmovss (%r9,%rax,4),%xmm7
DB 196,195,17,33,207,48 ; vinsertps $0x30,%xmm15,%xmm13,%xmm1
- DB 73,193,235,30 ; shr $0x1e,%r11
- DB 196,1,122,16,44,26 ; vmovss (%r10,%r11,1),%xmm13
+ DB 73,193,234,30 ; shr $0x1e,%r10
+ DB 196,1,122,16,44,17 ; vmovss (%r9,%r10,1),%xmm13
DB 196,227,117,24,203,1 ; vinsertf128 $0x1,%xmm3,%ymm1,%ymm1
DB 196,195,41,33,222,32 ; vinsertps $0x20,%xmm14,%xmm10,%xmm3
DB 196,195,97,33,220,48 ; vinsertps $0x30,%xmm12,%xmm3,%xmm3
@@ -9298,53 +9274,53 @@ _sk_load_tables_u16_be_avx LABEL PROC
DB 196,226,121,51,219 ; vpmovzxwd %xmm3,%xmm3
DB 196,227,101,24,223,1 ; vinsertf128 $0x1,%xmm7,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
- DB 196,226,125,24,61,227,37,2,0 ; vbroadcastss 0x225e3(%rip),%ymm7 # 2c14c <_sk_overlay_sse2_8bit+0x4ff>
+ DB 196,226,125,24,61,63,38,2,0 ; vbroadcastss 0x2263f(%rip),%ymm7 # 2c174 <_sk_overlay_sse2_8bit+0x4ff>
DB 197,228,89,223 ; vmulps %ymm7,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,16,60,36 ; vmovups (%rsp),%ymm7
DB 72,131,196,56 ; add $0x38,%rsp
DB 255,224 ; jmpq *%rax
- DB 196,1,123,16,4,81 ; vmovsd (%r9,%r10,2),%xmm8
+ DB 196,1,123,16,4,72 ; vmovsd (%r8,%r9,2),%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,85 ; je 9be0 <_sk_load_tables_u16_be_avx+0x2dc>
- DB 196,1,57,22,68,81,8 ; vmovhpd 0x8(%r9,%r10,2),%xmm8,%xmm8
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,72 ; jb 9be0 <_sk_load_tables_u16_be_avx+0x2dc>
- DB 196,129,123,16,84,81,16 ; vmovsd 0x10(%r9,%r10,2),%xmm2
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 116,72 ; je 9bed <_sk_load_tables_u16_be_avx+0x2e9>
- DB 196,129,105,22,84,81,24 ; vmovhpd 0x18(%r9,%r10,2),%xmm2,%xmm2
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,59 ; jb 9bed <_sk_load_tables_u16_be_avx+0x2e9>
- DB 196,129,123,16,92,81,32 ; vmovsd 0x20(%r9,%r10,2),%xmm3
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 15,132,123,253,255,255 ; je 993e <_sk_load_tables_u16_be_avx+0x3a>
- DB 196,129,97,22,92,81,40 ; vmovhpd 0x28(%r9,%r10,2),%xmm3,%xmm3
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,130,106,253,255,255 ; jb 993e <_sk_load_tables_u16_be_avx+0x3a>
- DB 196,1,122,126,76,81,48 ; vmovq 0x30(%r9,%r10,2),%xmm9
- DB 233,94,253,255,255 ; jmpq 993e <_sk_load_tables_u16_be_avx+0x3a>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,85 ; je 9bac <_sk_load_tables_u16_be_avx+0x2dc>
+ DB 196,1,57,22,68,72,8 ; vmovhpd 0x8(%r8,%r9,2),%xmm8,%xmm8
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,72 ; jb 9bac <_sk_load_tables_u16_be_avx+0x2dc>
+ DB 196,129,123,16,84,72,16 ; vmovsd 0x10(%r8,%r9,2),%xmm2
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 116,72 ; je 9bb9 <_sk_load_tables_u16_be_avx+0x2e9>
+ DB 196,129,105,22,84,72,24 ; vmovhpd 0x18(%r8,%r9,2),%xmm2,%xmm2
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,59 ; jb 9bb9 <_sk_load_tables_u16_be_avx+0x2e9>
+ DB 196,129,123,16,92,72,32 ; vmovsd 0x20(%r8,%r9,2),%xmm3
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 15,132,123,253,255,255 ; je 990a <_sk_load_tables_u16_be_avx+0x3a>
+ DB 196,129,97,22,92,72,40 ; vmovhpd 0x28(%r8,%r9,2),%xmm3,%xmm3
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,130,106,253,255,255 ; jb 990a <_sk_load_tables_u16_be_avx+0x3a>
+ DB 196,1,122,126,76,72,48 ; vmovq 0x30(%r8,%r9,2),%xmm9
+ DB 233,94,253,255,255 ; jmpq 990a <_sk_load_tables_u16_be_avx+0x3a>
DB 197,225,87,219 ; vxorpd %xmm3,%xmm3,%xmm3
DB 197,233,87,210 ; vxorpd %xmm2,%xmm2,%xmm2
- DB 233,81,253,255,255 ; jmpq 993e <_sk_load_tables_u16_be_avx+0x3a>
+ DB 233,81,253,255,255 ; jmpq 990a <_sk_load_tables_u16_be_avx+0x3a>
DB 197,225,87,219 ; vxorpd %xmm3,%xmm3,%xmm3
- DB 233,72,253,255,255 ; jmpq 993e <_sk_load_tables_u16_be_avx+0x3a>
+ DB 233,72,253,255,255 ; jmpq 990a <_sk_load_tables_u16_be_avx+0x3a>
PUBLIC _sk_load_tables_rgb_u16_be_avx
_sk_load_tables_rgb_u16_be_avx LABEL PROC
DB 72,131,236,88 ; sub $0x58,%rsp
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 76,141,20,82 ; lea (%rdx,%rdx,2),%r10
- DB 77,133,192 ; test %r8,%r8
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 76,141,12,82 ; lea (%rdx,%rdx,2),%r9
+ DB 72,133,255 ; test %rdi,%rdi
DB 197,252,17,124,36,32 ; vmovups %ymm7,0x20(%rsp)
DB 197,252,17,52,36 ; vmovups %ymm6,(%rsp)
- DB 15,133,75,2,0,0 ; jne 9e62 <_sk_load_tables_rgb_u16_be_avx+0x26c>
- DB 196,1,122,111,28,81 ; vmovdqu (%r9,%r10,2),%xmm11
- DB 196,129,122,111,92,81,12 ; vmovdqu 0xc(%r9,%r10,2),%xmm3
- DB 196,129,122,111,84,81,24 ; vmovdqu 0x18(%r9,%r10,2),%xmm2
- DB 196,129,122,111,68,81,32 ; vmovdqu 0x20(%r9,%r10,2),%xmm0
+ DB 15,133,75,2,0,0 ; jne 9e2e <_sk_load_tables_rgb_u16_be_avx+0x26c>
+ DB 196,1,122,111,28,72 ; vmovdqu (%r8,%r9,2),%xmm11
+ DB 196,129,122,111,92,72,12 ; vmovdqu 0xc(%r8,%r9,2),%xmm3
+ DB 196,129,122,111,84,72,24 ; vmovdqu 0x18(%r8,%r9,2),%xmm2
+ DB 196,129,122,111,68,72,32 ; vmovdqu 0x20(%r8,%r9,2),%xmm0
DB 197,249,115,216,4 ; vpsrldq $0x4,%xmm0,%xmm0
DB 196,193,57,115,219,6 ; vpsrldq $0x6,%xmm11,%xmm8
DB 197,169,115,219,6 ; vpsrldq $0x6,%xmm3,%xmm10
@@ -9361,86 +9337,86 @@ _sk_load_tables_rgb_u16_be_avx LABEL PROC
DB 197,185,108,211 ; vpunpcklqdq %xmm3,%xmm8,%xmm2
DB 197,57,109,219 ; vpunpckhqdq %xmm3,%xmm8,%xmm11
DB 197,113,108,192 ; vpunpcklqdq %xmm0,%xmm1,%xmm8
- DB 197,121,111,13,206,45,2,0 ; vmovdqa 0x22dce(%rip),%xmm9 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 197,121,111,13,130,46,2,0 ; vmovdqa 0x22e82(%rip),%xmm9 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 196,193,105,219,193 ; vpand %xmm9,%xmm2,%xmm0
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
DB 196,193,121,105,202 ; vpunpckhwd %xmm10,%xmm0,%xmm1
- DB 196,193,249,126,201 ; vmovq %xmm1,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 76,139,88,8 ; mov 0x8(%rax),%r11
- DB 196,129,122,16,20,147 ; vmovss (%r11,%r10,4),%xmm2
- DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
+ DB 196,193,249,126,200 ; vmovq %xmm1,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 76,139,80,8 ; mov 0x8(%rax),%r10
+ DB 196,129,122,16,20,138 ; vmovss (%r10,%r9,4),%xmm2
+ DB 196,195,249,22,201,1 ; vpextrq $0x1,%xmm1,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,3,105,33,36,130,16 ; vinsertps $0x10,(%r10,%r8,4),%xmm2,%xmm12
+ DB 69,137,200 ; mov %r9d,%r8d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,3,105,33,36,139,16 ; vinsertps $0x10,(%r11,%r9,4),%xmm2,%xmm12
- DB 69,137,209 ; mov %r10d,%r9d
- DB 73,193,234,32 ; shr $0x20,%r10
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
- DB 196,129,122,16,20,139 ; vmovss (%r11,%r9,4),%xmm2
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 196,129,122,16,12,147 ; vmovss (%r11,%r10,4),%xmm1
- DB 69,137,202 ; mov %r9d,%r10d
+ DB 196,129,122,16,20,130 ; vmovss (%r10,%r8,4),%xmm2
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 196,129,122,16,12,138 ; vmovss (%r10,%r9,4),%xmm1
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 73,193,232,30 ; shr $0x1e,%r8
+ DB 196,129,122,16,28,138 ; vmovss (%r10,%r9,4),%xmm3
+ DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
+ DB 196,131,97,33,28,2,16 ; vinsertps $0x10,(%r10,%r8,1),%xmm3,%xmm3
+ DB 69,137,200 ; mov %r9d,%r8d
DB 73,193,233,30 ; shr $0x1e,%r9
- DB 196,129,122,16,28,147 ; vmovss (%r11,%r10,4),%xmm3
- DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
- DB 196,131,97,33,28,11,16 ; vinsertps $0x10,(%r11,%r9,1),%xmm3,%xmm3
- DB 69,137,209 ; mov %r10d,%r9d
- DB 73,193,234,30 ; shr $0x1e,%r10
- DB 196,129,122,16,4,139 ; vmovss (%r11,%r9,4),%xmm0
- DB 76,139,72,16 ; mov 0x10(%rax),%r9
+ DB 196,129,122,16,4,130 ; vmovss (%r10,%r8,4),%xmm0
+ DB 76,139,64,16 ; mov 0x10(%rax),%r8
DB 196,227,25,33,210,32 ; vinsertps $0x20,%xmm2,%xmm12,%xmm2
DB 196,227,105,33,201,48 ; vinsertps $0x30,%xmm1,%xmm2,%xmm1
- DB 196,129,122,16,20,19 ; vmovss (%r11,%r10,1),%xmm2
+ DB 196,129,122,16,20,10 ; vmovss (%r10,%r9,1),%xmm2
DB 196,65,33,219,225 ; vpand %xmm9,%xmm11,%xmm12
DB 196,65,25,105,218 ; vpunpckhwd %xmm10,%xmm12,%xmm11
- DB 196,65,249,126,218 ; vmovq %xmm11,%r10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,1,122,16,44,153 ; vmovss (%r9,%r11,4),%xmm13
- DB 196,67,249,22,219,1 ; vpextrq $0x1,%xmm11,%r11
+ DB 196,65,249,126,217 ; vmovq %xmm11,%r9
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 196,1,122,16,44,144 ; vmovss (%r8,%r10,4),%xmm13
+ DB 196,67,249,22,218,1 ; vpextrq $0x1,%xmm11,%r10
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,3,17,33,28,136,16 ; vinsertps $0x10,(%r8,%r9,4),%xmm13,%xmm11
+ DB 69,137,209 ; mov %r10d,%r9d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,17,33,28,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm13,%xmm11
- DB 69,137,218 ; mov %r11d,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
DB 196,66,121,51,244 ; vpmovzxwd %xmm12,%xmm14
- DB 196,1,122,16,44,145 ; vmovss (%r9,%r10,4),%xmm13
- DB 196,65,249,126,242 ; vmovq %xmm14,%r10
- DB 196,1,122,16,36,153 ; vmovss (%r9,%r11,4),%xmm12
- DB 69,137,211 ; mov %r10d,%r11d
- DB 73,193,234,30 ; shr $0x1e,%r10
- DB 196,1,122,16,60,153 ; vmovss (%r9,%r11,4),%xmm15
- DB 196,67,249,22,243,1 ; vpextrq $0x1,%xmm14,%r11
- DB 196,3,1,33,52,17,16 ; vinsertps $0x10,(%r9,%r10,1),%xmm15,%xmm14
- DB 69,137,218 ; mov %r11d,%r10d
- DB 196,1,122,16,60,145 ; vmovss (%r9,%r10,4),%xmm15
+ DB 196,1,122,16,44,136 ; vmovss (%r8,%r9,4),%xmm13
+ DB 196,65,249,126,241 ; vmovq %xmm14,%r9
+ DB 196,1,122,16,36,144 ; vmovss (%r8,%r10,4),%xmm12
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 73,193,233,30 ; shr $0x1e,%r9
+ DB 196,1,122,16,60,144 ; vmovss (%r8,%r10,4),%xmm15
+ DB 196,67,249,22,242,1 ; vpextrq $0x1,%xmm14,%r10
+ DB 196,3,1,33,52,8,16 ; vinsertps $0x10,(%r8,%r9,1),%xmm15,%xmm14
+ DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,1,122,16,60,136 ; vmovss (%r8,%r9,4),%xmm15
DB 196,227,97,33,192,32 ; vinsertps $0x20,%xmm0,%xmm3,%xmm0
DB 196,227,121,33,194,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm0
DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
- DB 73,193,235,30 ; shr $0x1e,%r11
- DB 196,129,122,16,52,25 ; vmovss (%r9,%r11,1),%xmm6
- DB 76,139,80,24 ; mov 0x18(%rax),%r10
+ DB 73,193,234,30 ; shr $0x1e,%r10
+ DB 196,129,122,16,52,16 ; vmovss (%r8,%r10,1),%xmm6
+ DB 76,139,72,24 ; mov 0x18(%rax),%r9
DB 196,65,57,219,193 ; vpand %xmm9,%xmm8,%xmm8
DB 196,193,57,105,210 ; vpunpckhwd %xmm10,%xmm8,%xmm2
- DB 196,193,249,126,209 ; vmovq %xmm2,%r9
- DB 68,137,200 ; mov %r9d,%eax
- DB 196,193,122,16,12,130 ; vmovss (%r10,%rax,4),%xmm1
+ DB 196,193,249,126,208 ; vmovq %xmm2,%r8
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 196,193,122,16,12,129 ; vmovss (%r9,%rax,4),%xmm1
DB 196,227,249,22,208,1 ; vpextrq $0x1,%xmm2,%rax
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,3,113,33,12,138,16 ; vinsertps $0x10,(%r10,%r9,4),%xmm1,%xmm9
- DB 65,137,193 ; mov %eax,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,3,113,33,12,129,16 ; vinsertps $0x10,(%r9,%r8,4),%xmm1,%xmm9
+ DB 65,137,192 ; mov %eax,%r8d
DB 72,193,232,32 ; shr $0x20,%rax
DB 196,194,121,51,200 ; vpmovzxwd %xmm8,%xmm1
- DB 196,1,122,16,4,138 ; vmovss (%r10,%r9,4),%xmm8
- DB 196,193,249,126,201 ; vmovq %xmm1,%r9
- DB 196,65,122,16,20,130 ; vmovss (%r10,%rax,4),%xmm10
- DB 68,137,200 ; mov %r9d,%eax
- DB 73,193,233,30 ; shr $0x1e,%r9
- DB 196,193,122,16,20,130 ; vmovss (%r10,%rax,4),%xmm2
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 196,131,105,33,20,10,16 ; vinsertps $0x10,(%r10,%r9,1),%xmm2,%xmm2
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,193,122,16,60,130 ; vmovss (%r10,%rax,4),%xmm7
+ DB 196,1,122,16,4,129 ; vmovss (%r9,%r8,4),%xmm8
+ DB 196,193,249,126,200 ; vmovq %xmm1,%r8
+ DB 196,65,122,16,20,129 ; vmovss (%r9,%rax,4),%xmm10
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 73,193,232,30 ; shr $0x1e,%r8
+ DB 196,193,122,16,20,129 ; vmovss (%r9,%rax,4),%xmm2
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
+ DB 196,131,105,33,20,1,16 ; vinsertps $0x10,(%r9,%r8,1),%xmm2,%xmm2
+ DB 68,137,208 ; mov %r10d,%eax
+ DB 196,193,122,16,60,129 ; vmovss (%r9,%rax,4),%xmm7
DB 196,195,33,33,205,32 ; vinsertps $0x20,%xmm13,%xmm11,%xmm1
- DB 73,193,235,30 ; shr $0x1e,%r11
- DB 196,1,122,16,28,26 ; vmovss (%r10,%r11,1),%xmm11
+ DB 73,193,234,30 ; shr $0x1e,%r10
+ DB 196,1,122,16,28,17 ; vmovss (%r9,%r10,1),%xmm11
DB 196,195,113,33,204,48 ; vinsertps $0x30,%xmm12,%xmm1,%xmm1
DB 196,195,9,33,223,32 ; vinsertps $0x20,%xmm15,%xmm14,%xmm3
DB 196,227,97,33,222,48 ; vinsertps $0x30,%xmm6,%xmm3,%xmm3
@@ -9451,188 +9427,188 @@ _sk_load_tables_rgb_u16_be_avx LABEL PROC
DB 196,195,105,33,211,48 ; vinsertps $0x30,%xmm11,%xmm2,%xmm2
DB 196,227,109,24,211,1 ; vinsertf128 $0x1,%xmm3,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,107,34,2,0 ; vbroadcastss 0x2226b(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,199,34,2,0 ; vbroadcastss 0x222c7(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,16,52,36 ; vmovups (%rsp),%ymm6
DB 197,252,16,124,36,32 ; vmovups 0x20(%rsp),%ymm7
DB 72,131,196,88 ; add $0x58,%rsp
DB 255,224 ; jmpq *%rax
- DB 196,129,121,110,4,81 ; vmovd (%r9,%r10,2),%xmm0
- DB 196,1,121,196,92,81,4,2 ; vpinsrw $0x2,0x4(%r9,%r10,2),%xmm0,%xmm11
+ DB 196,129,121,110,4,72 ; vmovd (%r8,%r9,2),%xmm0
+ DB 196,1,121,196,92,72,4,2 ; vpinsrw $0x2,0x4(%r8,%r9,2),%xmm0,%xmm11
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,32 ; jne 9e9b <_sk_load_tables_rgb_u16_be_avx+0x2a5>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,32 ; jne 9e67 <_sk_load_tables_rgb_u16_be_avx+0x2a5>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
DB 197,225,239,219 ; vpxor %xmm3,%xmm3,%xmm3
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 233,177,253,255,255 ; jmpq 9c4c <_sk_load_tables_rgb_u16_be_avx+0x56>
- DB 196,129,121,110,68,81,6 ; vmovd 0x6(%r9,%r10,2),%xmm0
- DB 196,1,121,196,68,81,10,2 ; vpinsrw $0x2,0xa(%r9,%r10,2),%xmm0,%xmm8
+ DB 233,177,253,255,255 ; jmpq 9c18 <_sk_load_tables_rgb_u16_be_avx+0x56>
+ DB 196,129,121,110,68,72,6 ; vmovd 0x6(%r8,%r9,2),%xmm0
+ DB 196,1,121,196,68,72,10,2 ; vpinsrw $0x2,0xa(%r8,%r9,2),%xmm0,%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,49 ; jb 9ee6 <_sk_load_tables_rgb_u16_be_avx+0x2f0>
- DB 196,129,121,110,68,81,12 ; vmovd 0xc(%r9,%r10,2),%xmm0
- DB 196,129,121,196,92,81,16,2 ; vpinsrw $0x2,0x10(%r9,%r10,2),%xmm0,%xmm3
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,49 ; jb 9eb2 <_sk_load_tables_rgb_u16_be_avx+0x2f0>
+ DB 196,129,121,110,68,72,12 ; vmovd 0xc(%r8,%r9,2),%xmm0
+ DB 196,129,121,196,92,72,16,2 ; vpinsrw $0x2,0x10(%r8,%r9,2),%xmm0,%xmm3
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 117,50 ; jne 9f01 <_sk_load_tables_rgb_u16_be_avx+0x30b>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 117,50 ; jne 9ecd <_sk_load_tables_rgb_u16_be_avx+0x30b>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
- DB 233,102,253,255,255 ; jmpq 9c4c <_sk_load_tables_rgb_u16_be_avx+0x56>
+ DB 233,102,253,255,255 ; jmpq 9c18 <_sk_load_tables_rgb_u16_be_avx+0x56>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
DB 197,225,239,219 ; vpxor %xmm3,%xmm3,%xmm3
- DB 233,75,253,255,255 ; jmpq 9c4c <_sk_load_tables_rgb_u16_be_avx+0x56>
- DB 196,129,121,110,68,81,18 ; vmovd 0x12(%r9,%r10,2),%xmm0
- DB 196,1,121,196,84,81,22,2 ; vpinsrw $0x2,0x16(%r9,%r10,2),%xmm0,%xmm10
+ DB 233,75,253,255,255 ; jmpq 9c18 <_sk_load_tables_rgb_u16_be_avx+0x56>
+ DB 196,129,121,110,68,72,18 ; vmovd 0x12(%r8,%r9,2),%xmm0
+ DB 196,1,121,196,84,72,22,2 ; vpinsrw $0x2,0x16(%r8,%r9,2),%xmm0,%xmm10
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,40 ; jb 9f43 <_sk_load_tables_rgb_u16_be_avx+0x34d>
- DB 196,129,121,110,68,81,24 ; vmovd 0x18(%r9,%r10,2),%xmm0
- DB 196,129,121,196,84,81,28,2 ; vpinsrw $0x2,0x1c(%r9,%r10,2),%xmm0,%xmm2
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,40 ; jb 9f0f <_sk_load_tables_rgb_u16_be_avx+0x34d>
+ DB 196,129,121,110,68,72,24 ; vmovd 0x18(%r8,%r9,2),%xmm0
+ DB 196,129,121,196,84,72,28,2 ; vpinsrw $0x2,0x1c(%r8,%r9,2),%xmm0,%xmm2
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 117,32 ; jne 9f55 <_sk_load_tables_rgb_u16_be_avx+0x35f>
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 117,32 ; jne 9f21 <_sk_load_tables_rgb_u16_be_avx+0x35f>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
- DB 233,9,253,255,255 ; jmpq 9c4c <_sk_load_tables_rgb_u16_be_avx+0x56>
+ DB 233,9,253,255,255 ; jmpq 9c18 <_sk_load_tables_rgb_u16_be_avx+0x56>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
- DB 233,247,252,255,255 ; jmpq 9c4c <_sk_load_tables_rgb_u16_be_avx+0x56>
- DB 196,129,121,110,68,81,30 ; vmovd 0x1e(%r9,%r10,2),%xmm0
- DB 196,1,121,196,100,81,34,2 ; vpinsrw $0x2,0x22(%r9,%r10,2),%xmm0,%xmm12
+ DB 233,247,252,255,255 ; jmpq 9c18 <_sk_load_tables_rgb_u16_be_avx+0x56>
+ DB 196,129,121,110,68,72,30 ; vmovd 0x1e(%r8,%r9,2),%xmm0
+ DB 196,1,121,196,100,72,34,2 ; vpinsrw $0x2,0x22(%r8,%r9,2),%xmm0,%xmm12
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 114,25 ; jb 9f88 <_sk_load_tables_rgb_u16_be_avx+0x392>
- DB 196,129,121,110,68,81,36 ; vmovd 0x24(%r9,%r10,2),%xmm0
- DB 196,129,121,196,68,81,40,2 ; vpinsrw $0x2,0x28(%r9,%r10,2),%xmm0,%xmm0
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 114,25 ; jb 9f54 <_sk_load_tables_rgb_u16_be_avx+0x392>
+ DB 196,129,121,110,68,72,36 ; vmovd 0x24(%r8,%r9,2),%xmm0
+ DB 196,129,121,196,68,72,40,2 ; vpinsrw $0x2,0x28(%r8,%r9,2),%xmm0,%xmm0
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 233,196,252,255,255 ; jmpq 9c4c <_sk_load_tables_rgb_u16_be_avx+0x56>
+ DB 233,196,252,255,255 ; jmpq 9c18 <_sk_load_tables_rgb_u16_be_avx+0x56>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 233,187,252,255,255 ; jmpq 9c4c <_sk_load_tables_rgb_u16_be_avx+0x56>
+ DB 233,187,252,255,255 ; jmpq 9c18 <_sk_load_tables_rgb_u16_be_avx+0x56>
PUBLIC _sk_byte_tables_avx
_sk_byte_tables_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,98,125,24,5,76,33,2,0 ; vbroadcastss 0x2214c(%rip),%ymm8 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 196,98,125,24,5,168,33,2,0 ; vbroadcastss 0x221a8(%rip),%ymm8 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
DB 197,125,91,200 ; vcvtps2dq %ymm0,%ymm9
- DB 196,65,249,126,201 ; vmovq %xmm9,%r9
+ DB 196,65,249,126,200 ; vmovq %xmm9,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 76,139,16 ; mov (%rax),%r10
+ DB 196,131,121,32,4,10,0 ; vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm0
+ DB 196,67,249,22,201,1 ; vpextrq $0x1,%xmm9,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,3,121,32,20,2,1 ; vpinsrb $0x1,(%r10,%r8,1),%xmm0,%xmm10
+ DB 69,137,200 ; mov %r9d,%r8d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,99,125,25,200,1 ; vextractf128 $0x1,%ymm9,%xmm0
+ DB 71,15,182,4,2 ; movzbl (%r10,%r8,1),%r8d
+ DB 196,67,41,32,200,2 ; vpinsrb $0x2,%r8d,%xmm10,%xmm9
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
+ DB 196,67,49,32,201,3 ; vpinsrb $0x3,%r9d,%xmm9,%xmm9
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 196,3,121,32,20,10,0 ; vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm10
+ DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,131,41,32,4,2,1 ; vpinsrb $0x1,(%r10,%r8,1),%xmm10,%xmm0
+ DB 69,137,200 ; mov %r9d,%r8d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 71,15,182,4,2 ; movzbl (%r10,%r8,1),%r8d
+ DB 196,195,121,32,192,2 ; vpinsrb $0x2,%r8d,%xmm0,%xmm0
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
+ DB 196,67,121,32,209,3 ; vpinsrb $0x3,%r9d,%xmm0,%xmm10
+ DB 196,193,116,89,192 ; vmulps %ymm8,%ymm1,%ymm0
+ DB 197,253,91,192 ; vcvtps2dq %ymm0,%ymm0
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 69,137,202 ; mov %r9d,%r10d
- DB 76,139,24 ; mov (%rax),%r11
- DB 196,131,121,32,4,19,0 ; vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm0
- DB 196,67,249,22,202,1 ; vpextrq $0x1,%xmm9,%r10
+ DB 196,131,121,32,12,16,0 ; vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm1
+ DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,3,121,32,20,11,1 ; vpinsrb $0x1,(%r11,%r9,1),%xmm0,%xmm10
+ DB 196,131,113,32,12,8,1 ; vpinsrb $0x1,(%r8,%r9,1),%xmm1,%xmm1
DB 69,137,209 ; mov %r10d,%r9d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,99,125,25,200,1 ; vextractf128 $0x1,%ymm9,%xmm0
- DB 71,15,182,12,11 ; movzbl (%r11,%r9,1),%r9d
- DB 196,67,41,32,201,2 ; vpinsrb $0x2,%r9d,%xmm10,%xmm9
+ DB 196,227,125,25,192,1 ; vextractf128 $0x1,%ymm0,%xmm0
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,113,32,201,2 ; vpinsrb $0x2,%r9d,%xmm1,%xmm1
DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 71,15,182,20,19 ; movzbl (%r11,%r10,1),%r10d
- DB 196,67,49,32,202,3 ; vpinsrb $0x3,%r10d,%xmm9,%xmm9
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 196,67,113,32,226,3 ; vpinsrb $0x3,%r10d,%xmm1,%xmm12
DB 69,137,202 ; mov %r9d,%r10d
- DB 196,3,121,32,20,19,0 ; vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm10
+ DB 196,131,121,32,12,16,0 ; vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm1
DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,131,41,32,4,11,1 ; vpinsrb $0x1,(%r11,%r9,1),%xmm10,%xmm0
+ DB 196,131,113,32,4,8,1 ; vpinsrb $0x1,(%r8,%r9,1),%xmm1,%xmm0
DB 69,137,209 ; mov %r10d,%r9d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 71,15,182,12,11 ; movzbl (%r11,%r9,1),%r9d
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
DB 196,195,121,32,193,2 ; vpinsrb $0x2,%r9d,%xmm0,%xmm0
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
- DB 71,15,182,20,19 ; movzbl (%r11,%r10,1),%r10d
- DB 196,67,121,32,210,3 ; vpinsrb $0x3,%r10d,%xmm0,%xmm10
- DB 196,193,116,89,192 ; vmulps %ymm8,%ymm1,%ymm0
- DB 197,253,91,192 ; vcvtps2dq %ymm0,%ymm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,131,121,32,12,25,0 ; vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,113,32,12,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm1,%xmm1
- DB 69,137,218 ; mov %r11d,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,227,125,25,192,1 ; vextractf128 $0x1,%ymm0,%xmm0
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,113,32,202,2 ; vpinsrb $0x2,%r10d,%xmm1,%xmm1
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 196,67,113,32,227,3 ; vpinsrb $0x3,%r11d,%xmm1,%xmm12
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,131,121,32,12,25,0 ; vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,113,32,4,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm1,%xmm0
- DB 69,137,218 ; mov %r11d,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,121,32,194,2 ; vpinsrb $0x2,%r10d,%xmm0,%xmm0
- DB 71,15,182,12,25 ; movzbl (%r9,%r11,1),%r9d
- DB 196,67,121,32,233,3 ; vpinsrb $0x3,%r9d,%xmm0,%xmm13
- DB 76,139,72,16 ; mov 0x10(%rax),%r9
+ DB 71,15,182,4,16 ; movzbl (%r8,%r10,1),%r8d
+ DB 196,67,121,32,232,3 ; vpinsrb $0x3,%r8d,%xmm0,%xmm13
+ DB 76,139,64,16 ; mov 0x10(%rax),%r8
DB 196,193,108,89,200 ; vmulps %ymm8,%ymm2,%ymm1
DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,131,121,32,20,25,0 ; vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm2
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 196,131,121,32,20,16,0 ; vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm2
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,131,105,32,20,8,1 ; vpinsrb $0x1,(%r8,%r9,1),%xmm2,%xmm2
+ DB 69,137,209 ; mov %r10d,%r9d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,105,32,20,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm2
- DB 69,137,218 ; mov %r11d,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,105,32,210,2 ; vpinsrb $0x2,%r10d,%xmm2,%xmm2
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 196,67,105,32,219,3 ; vpinsrb $0x3,%r11d,%xmm2,%xmm11
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,131,121,32,20,25,0 ; vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm2
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,105,32,209,2 ; vpinsrb $0x2,%r9d,%xmm2,%xmm2
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 196,67,105,32,218,3 ; vpinsrb $0x3,%r10d,%xmm2,%xmm11
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 196,131,121,32,20,16,0 ; vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm2
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,131,105,32,12,8,1 ; vpinsrb $0x1,(%r8,%r9,1),%xmm2,%xmm1
+ DB 69,137,209 ; mov %r10d,%r9d
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,113,32,201,2 ; vpinsrb $0x2,%r9d,%xmm1,%xmm1
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,105,32,12,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm1
- DB 69,137,218 ; mov %r11d,%r10d
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,113,32,202,2 ; vpinsrb $0x2,%r10d,%xmm1,%xmm1
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 71,15,182,12,25 ; movzbl (%r9,%r11,1),%r9d
- DB 196,67,113,32,241,3 ; vpinsrb $0x3,%r9d,%xmm1,%xmm14
- DB 76,139,80,24 ; mov 0x18(%rax),%r10
+ DB 71,15,182,4,16 ; movzbl (%r8,%r10,1),%r8d
+ DB 196,67,113,32,240,3 ; vpinsrb $0x3,%r8d,%xmm1,%xmm14
+ DB 76,139,72,24 ; mov 0x18(%rax),%r9
DB 196,193,100,89,200 ; vmulps %ymm8,%ymm3,%ymm1
DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
- DB 196,193,249,126,201 ; vmovq %xmm1,%r9
- DB 68,137,200 ; mov %r9d,%eax
- DB 196,195,121,32,28,2,0 ; vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm3
+ DB 196,193,249,126,200 ; vmovq %xmm1,%r8
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 196,195,121,32,28,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm3
DB 196,227,249,22,200,1 ; vpextrq $0x1,%xmm1,%rax
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,131,97,32,28,10,1 ; vpinsrb $0x1,(%r10,%r9,1),%xmm3,%xmm3
- DB 65,137,193 ; mov %eax,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,131,97,32,28,1,1 ; vpinsrb $0x1,(%r9,%r8,1),%xmm3,%xmm3
+ DB 65,137,192 ; mov %eax,%r8d
DB 72,193,232,32 ; shr $0x20,%rax
DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
- DB 196,195,97,32,217,2 ; vpinsrb $0x2,%r9d,%xmm3,%xmm3
- DB 196,193,249,126,201 ; vmovq %xmm1,%r9
- DB 65,15,182,4,2 ; movzbl (%r10,%rax,1),%eax
+ DB 71,15,182,4,1 ; movzbl (%r9,%r8,1),%r8d
+ DB 196,195,97,32,216,2 ; vpinsrb $0x2,%r8d,%xmm3,%xmm3
+ DB 196,193,249,126,200 ; vmovq %xmm1,%r8
+ DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
DB 196,99,97,32,192,3 ; vpinsrb $0x3,%eax,%xmm3,%xmm8
- DB 68,137,200 ; mov %r9d,%eax
- DB 196,195,121,32,4,2,0 ; vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm0
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,131,121,32,4,10,1 ; vpinsrb $0x1,(%r10,%r9,1),%xmm0,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,182,4,2 ; movzbl (%r10,%rax,1),%eax
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 196,195,121,32,4,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm0
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,131,121,32,4,1,1 ; vpinsrb $0x1,(%r9,%r8,1),%xmm0,%xmm0
+ DB 68,137,208 ; mov %r10d,%eax
+ DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
DB 196,99,121,32,248,2 ; vpinsrb $0x2,%eax,%xmm0,%xmm15
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,182,4,26 ; movzbl (%r10,%r11,1),%eax
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 67,15,182,4,17 ; movzbl (%r9,%r10,1),%eax
DB 196,194,121,49,193 ; vpmovzxbd %xmm9,%xmm0
DB 196,194,121,49,202 ; vpmovzxbd %xmm10,%xmm1
DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
@@ -9640,7 +9616,7 @@ _sk_byte_tables_avx LABEL PROC
DB 196,194,121,49,204 ; vpmovzxbd %xmm12,%xmm1
DB 196,194,121,49,213 ; vpmovzxbd %xmm13,%xmm2
DB 196,227,117,24,202,1 ; vinsertf128 $0x1,%xmm2,%ymm1,%ymm1
- DB 196,98,125,24,13,58,31,2,0 ; vbroadcastss 0x21f3a(%rip),%ymm9 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,13,150,31,2,0 ; vbroadcastss 0x21f96(%rip),%ymm9 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,193 ; vmulps %ymm9,%ymm0,%ymm0
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
DB 196,193,116,89,201 ; vmulps %ymm9,%ymm1,%ymm1
@@ -9661,100 +9637,100 @@ _sk_byte_tables_avx LABEL PROC
PUBLIC _sk_byte_tables_rgb_avx
_sk_byte_tables_rgb_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,24 ; mov 0x18(%rax),%r9d
- DB 65,255,201 ; dec %r9d
- DB 196,65,121,110,193 ; vmovd %r9d,%xmm8
+ DB 68,139,64,24 ; mov 0x18(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 196,65,121,110,192 ; vmovd %r8d,%xmm8
DB 196,65,121,112,192,0 ; vpshufd $0x0,%xmm8,%xmm8
DB 196,67,61,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 197,125,91,200 ; vcvtps2dq %ymm0,%ymm9
- DB 196,65,249,126,201 ; vmovq %xmm9,%r9
+ DB 196,65,249,126,200 ; vmovq %xmm9,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 76,139,16 ; mov (%rax),%r10
+ DB 196,131,121,32,4,10,0 ; vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm0
+ DB 196,67,249,22,201,1 ; vpextrq $0x1,%xmm9,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,3,121,32,20,2,1 ; vpinsrb $0x1,(%r10,%r8,1),%xmm0,%xmm10
+ DB 69,137,200 ; mov %r9d,%r8d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,99,125,25,200,1 ; vextractf128 $0x1,%ymm9,%xmm0
+ DB 71,15,182,4,2 ; movzbl (%r10,%r8,1),%r8d
+ DB 196,67,41,32,200,2 ; vpinsrb $0x2,%r8d,%xmm10,%xmm9
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
+ DB 196,67,49,32,201,3 ; vpinsrb $0x3,%r9d,%xmm9,%xmm9
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 196,3,121,32,20,10,0 ; vpinsrb $0x0,(%r10,%r9,1),%xmm0,%xmm10
+ DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,131,41,32,4,2,1 ; vpinsrb $0x1,(%r10,%r8,1),%xmm10,%xmm0
+ DB 69,137,200 ; mov %r9d,%r8d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 71,15,182,4,2 ; movzbl (%r10,%r8,1),%r8d
+ DB 196,195,121,32,192,2 ; vpinsrb $0x2,%r8d,%xmm0,%xmm0
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
+ DB 196,67,121,32,217,3 ; vpinsrb $0x3,%r9d,%xmm0,%xmm11
+ DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
+ DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
DB 69,137,202 ; mov %r9d,%r10d
- DB 76,139,24 ; mov (%rax),%r11
- DB 196,131,121,32,4,19,0 ; vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm0
- DB 196,67,249,22,202,1 ; vpextrq $0x1,%xmm9,%r10
+ DB 196,131,121,32,4,16,0 ; vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm0
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,3,121,32,20,11,1 ; vpinsrb $0x1,(%r11,%r9,1),%xmm0,%xmm10
+ DB 196,131,121,32,4,8,1 ; vpinsrb $0x1,(%r8,%r9,1),%xmm0,%xmm0
DB 69,137,209 ; mov %r10d,%r9d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,99,125,25,200,1 ; vextractf128 $0x1,%ymm9,%xmm0
- DB 71,15,182,12,11 ; movzbl (%r11,%r9,1),%r9d
- DB 196,67,41,32,201,2 ; vpinsrb $0x2,%r9d,%xmm10,%xmm9
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 71,15,182,20,19 ; movzbl (%r11,%r10,1),%r10d
- DB 196,67,49,32,202,3 ; vpinsrb $0x3,%r10d,%xmm9,%xmm9
+ DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 196,195,121,32,193,2 ; vpinsrb $0x2,%r9d,%xmm0,%xmm0
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 196,67,121,32,210,3 ; vpinsrb $0x3,%r10d,%xmm0,%xmm10
DB 69,137,202 ; mov %r9d,%r10d
- DB 196,3,121,32,20,19,0 ; vpinsrb $0x0,(%r11,%r10,1),%xmm0,%xmm10
- DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 196,131,121,32,4,16,0 ; vpinsrb $0x0,(%r8,%r10,1),%xmm0,%xmm0
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,131,41,32,4,11,1 ; vpinsrb $0x1,(%r11,%r9,1),%xmm10,%xmm0
+ DB 196,131,121,32,4,8,1 ; vpinsrb $0x1,(%r8,%r9,1),%xmm0,%xmm0
DB 69,137,209 ; mov %r10d,%r9d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 71,15,182,12,11 ; movzbl (%r11,%r9,1),%r9d
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
DB 196,195,121,32,193,2 ; vpinsrb $0x2,%r9d,%xmm0,%xmm0
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
- DB 71,15,182,20,19 ; movzbl (%r11,%r10,1),%r10d
- DB 196,67,121,32,218,3 ; vpinsrb $0x3,%r10d,%xmm0,%xmm11
- DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
- DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,131,121,32,4,25,0 ; vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm0
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,121,32,4,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm0,%xmm0
- DB 69,137,218 ; mov %r11d,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,121,32,194,2 ; vpinsrb $0x2,%r10d,%xmm0,%xmm0
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 196,67,121,32,211,3 ; vpinsrb $0x3,%r11d,%xmm0,%xmm10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 196,131,121,32,4,25,0 ; vpinsrb $0x0,(%r9,%r11,1),%xmm0,%xmm0
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,121,32,4,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm0,%xmm0
- DB 69,137,218 ; mov %r11d,%r10d
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 196,195,121,32,194,2 ; vpinsrb $0x2,%r10d,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 71,15,182,12,25 ; movzbl (%r9,%r11,1),%r9d
- DB 196,67,121,32,225,3 ; vpinsrb $0x3,%r9d,%xmm0,%xmm12
- DB 76,139,80,16 ; mov 0x10(%rax),%r10
+ DB 71,15,182,4,16 ; movzbl (%r8,%r10,1),%r8d
+ DB 196,67,121,32,224,3 ; vpinsrb $0x3,%r8d,%xmm0,%xmm12
+ DB 76,139,72,16 ; mov 0x10(%rax),%r9
DB 197,188,89,194 ; vmulps %ymm2,%ymm8,%ymm0
DB 197,253,91,192 ; vcvtps2dq %ymm0,%ymm0
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 68,137,200 ; mov %r9d,%eax
- DB 196,195,121,32,20,2,0 ; vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm2
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 196,195,121,32,20,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
DB 196,227,249,22,192,1 ; vpextrq $0x1,%xmm0,%rax
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,131,105,32,20,10,1 ; vpinsrb $0x1,(%r10,%r9,1),%xmm2,%xmm2
- DB 65,137,193 ; mov %eax,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,131,105,32,20,1,1 ; vpinsrb $0x1,(%r9,%r8,1),%xmm2,%xmm2
+ DB 65,137,192 ; mov %eax,%r8d
DB 72,193,232,32 ; shr $0x20,%rax
DB 196,227,125,25,192,1 ; vextractf128 $0x1,%ymm0,%xmm0
- DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
- DB 196,195,105,32,209,2 ; vpinsrb $0x2,%r9d,%xmm2,%xmm2
- DB 196,193,249,126,193 ; vmovq %xmm0,%r9
- DB 65,15,182,4,2 ; movzbl (%r10,%rax,1),%eax
+ DB 71,15,182,4,1 ; movzbl (%r9,%r8,1),%r8d
+ DB 196,195,105,32,208,2 ; vpinsrb $0x2,%r8d,%xmm2,%xmm2
+ DB 196,193,249,126,192 ; vmovq %xmm0,%r8
+ DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
DB 196,99,105,32,192,3 ; vpinsrb $0x3,%eax,%xmm2,%xmm8
- DB 68,137,200 ; mov %r9d,%eax
- DB 196,195,121,32,12,2,0 ; vpinsrb $0x0,(%r10,%rax,1),%xmm0,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,131,113,32,4,10,1 ; vpinsrb $0x1,(%r10,%r9,1),%xmm1,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,182,4,2 ; movzbl (%r10,%rax,1),%eax
+ DB 68,137,192 ; mov %r8d,%eax
+ DB 196,195,121,32,12,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm1
+ DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,131,113,32,4,1,1 ; vpinsrb $0x1,(%r9,%r8,1),%xmm1,%xmm0
+ DB 68,137,208 ; mov %r10d,%eax
+ DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
DB 196,99,121,32,232,2 ; vpinsrb $0x2,%eax,%xmm0,%xmm13
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,182,4,26 ; movzbl (%r10,%r11,1),%eax
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 67,15,182,4,17 ; movzbl (%r9,%r10,1),%eax
DB 196,194,121,49,193 ; vpmovzxbd %xmm9,%xmm0
DB 196,194,121,49,203 ; vpmovzxbd %xmm11,%xmm1
DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,13,23,29,2,0 ; vbroadcastss 0x21d17(%rip),%ymm9 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,13,115,29,2,0 ; vbroadcastss 0x21d73(%rip),%ymm9 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,193 ; vmulps %ymm9,%ymm0,%ymm0
DB 196,194,121,49,202 ; vpmovzxbd %xmm10,%xmm1
DB 196,194,121,49,212 ; vpmovzxbd %xmm12,%xmm2
@@ -9772,8 +9748,12 @@ _sk_byte_tables_rgb_avx LABEL PROC
PUBLIC _sk_table_r_avx
_sk_table_r_avx LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
@@ -9781,40 +9761,48 @@ _sk_table_r_avx LABEL PROC
DB 196,67,61,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
- DB 197,125,91,192 ; vcvtps2dq %ymm0,%ymm8
- DB 196,99,125,25,192,1 ; vextractf128 $0x1,%ymm8,%xmm0
+ DB 197,253,91,192 ; vcvtps2dq %ymm0,%ymm0
+ DB 196,227,249,22,192,1 ; vpextrq $0x1,%xmm0,%rax
+ DB 65,137,193 ; mov %eax,%r9d
+ DB 72,193,232,32 ; shr $0x20,%rax
DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,65,122,16,12,129 ; vmovss (%r9,%rax,4),%xmm9
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,49,33,12,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm9,%xmm9
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,65,122,16,20,129 ; vmovss (%r9,%rax,4),%xmm10
- DB 196,65,249,126,194 ; vmovq %xmm8,%r10
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,1,122,16,28,153 ; vmovss (%r9,%r11,4),%xmm11
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,193,122,16,4,129 ; vmovss (%r9,%rax,4),%xmm0
- DB 196,67,249,22,195,1 ; vpextrq $0x1,%xmm8,%r11
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,121,33,4,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm0,%xmm8
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,65,122,16,36,129 ; vmovss (%r9,%rax,4),%xmm12
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,1,122,16,44,153 ; vmovss (%r9,%r11,4),%xmm13
- DB 196,195,49,33,194,32 ; vinsertps $0x20,%xmm10,%xmm9,%xmm0
- DB 196,67,121,33,203,48 ; vinsertps $0x30,%xmm11,%xmm0,%xmm9
- DB 196,195,57,33,196,32 ; vinsertps $0x20,%xmm12,%xmm8,%xmm0
- DB 196,195,121,33,197,48 ; vinsertps $0x30,%xmm13,%xmm0,%xmm0
- DB 196,195,125,24,193,1 ; vinsertf128 $0x1,%xmm9,%ymm0,%ymm0
+ DB 196,227,125,25,192,1 ; vextractf128 $0x1,%ymm0,%xmm0
+ DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,193,249,126,199 ; vmovq %xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 196,129,122,16,4,160 ; vmovss (%r8,%r12,4),%xmm0
+ DB 196,3,121,33,4,184,16 ; vinsertps $0x10,(%r8,%r15,4),%xmm0,%xmm8
+ DB 196,129,122,16,4,176 ; vmovss (%r8,%r14,4),%xmm0
+ DB 196,99,57,33,192,32 ; vinsertps $0x20,%xmm0,%xmm8,%xmm8
+ DB 196,193,122,16,4,152 ; vmovss (%r8,%rbx,4),%xmm0
+ DB 196,99,57,33,192,48 ; vinsertps $0x30,%xmm0,%xmm8,%xmm8
+ DB 196,129,122,16,4,152 ; vmovss (%r8,%r11,4),%xmm0
+ DB 196,3,121,33,12,144,16 ; vinsertps $0x10,(%r8,%r10,4),%xmm0,%xmm9
+ DB 196,129,122,16,4,136 ; vmovss (%r8,%r9,4),%xmm0
+ DB 196,99,49,33,200,32 ; vinsertps $0x20,%xmm0,%xmm9,%xmm9
+ DB 196,193,122,16,4,128 ; vmovss (%r8,%rax,4),%xmm0
+ DB 196,227,49,33,192,48 ; vinsertps $0x30,%xmm0,%xmm9,%xmm0
+ DB 196,195,125,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_g_avx
_sk_table_g_avx LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
@@ -9822,40 +9810,48 @@ _sk_table_g_avx LABEL PROC
DB 196,67,61,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
DB 197,188,89,201 ; vmulps %ymm1,%ymm8,%ymm1
- DB 197,125,91,193 ; vcvtps2dq %ymm1,%ymm8
- DB 196,99,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm1
+ DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
+ DB 196,227,249,22,200,1 ; vpextrq $0x1,%xmm1,%rax
+ DB 65,137,193 ; mov %eax,%r9d
+ DB 72,193,232,32 ; shr $0x20,%rax
DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,65,122,16,12,129 ; vmovss (%r9,%rax,4),%xmm9
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,49,33,12,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm9,%xmm9
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,65,122,16,20,129 ; vmovss (%r9,%rax,4),%xmm10
- DB 196,65,249,126,194 ; vmovq %xmm8,%r10
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,1,122,16,28,153 ; vmovss (%r9,%r11,4),%xmm11
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,193,122,16,12,129 ; vmovss (%r9,%rax,4),%xmm1
- DB 196,67,249,22,195,1 ; vpextrq $0x1,%xmm8,%r11
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,113,33,4,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm1,%xmm8
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,65,122,16,36,129 ; vmovss (%r9,%rax,4),%xmm12
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,1,122,16,44,153 ; vmovss (%r9,%r11,4),%xmm13
- DB 196,195,49,33,202,32 ; vinsertps $0x20,%xmm10,%xmm9,%xmm1
- DB 196,67,113,33,203,48 ; vinsertps $0x30,%xmm11,%xmm1,%xmm9
- DB 196,195,57,33,204,32 ; vinsertps $0x20,%xmm12,%xmm8,%xmm1
- DB 196,195,113,33,205,48 ; vinsertps $0x30,%xmm13,%xmm1,%xmm1
- DB 196,195,117,24,201,1 ; vinsertf128 $0x1,%xmm9,%ymm1,%ymm1
+ DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
+ DB 196,227,249,22,203,1 ; vpextrq $0x1,%xmm1,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,193,249,126,207 ; vmovq %xmm1,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 196,129,122,16,12,160 ; vmovss (%r8,%r12,4),%xmm1
+ DB 196,3,113,33,4,184,16 ; vinsertps $0x10,(%r8,%r15,4),%xmm1,%xmm8
+ DB 196,129,122,16,12,176 ; vmovss (%r8,%r14,4),%xmm1
+ DB 196,99,57,33,193,32 ; vinsertps $0x20,%xmm1,%xmm8,%xmm8
+ DB 196,193,122,16,12,152 ; vmovss (%r8,%rbx,4),%xmm1
+ DB 196,99,57,33,193,48 ; vinsertps $0x30,%xmm1,%xmm8,%xmm8
+ DB 196,129,122,16,12,152 ; vmovss (%r8,%r11,4),%xmm1
+ DB 196,3,113,33,12,144,16 ; vinsertps $0x10,(%r8,%r10,4),%xmm1,%xmm9
+ DB 196,129,122,16,12,136 ; vmovss (%r8,%r9,4),%xmm1
+ DB 196,99,49,33,201,32 ; vinsertps $0x20,%xmm1,%xmm9,%xmm9
+ DB 196,193,122,16,12,128 ; vmovss (%r8,%rax,4),%xmm1
+ DB 196,227,49,33,201,48 ; vinsertps $0x30,%xmm1,%xmm9,%xmm1
+ DB 196,195,117,24,200,1 ; vinsertf128 $0x1,%xmm8,%ymm1,%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_b_avx
_sk_table_b_avx LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
@@ -9863,40 +9859,48 @@ _sk_table_b_avx LABEL PROC
DB 196,67,61,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
DB 197,188,89,210 ; vmulps %ymm2,%ymm8,%ymm2
- DB 197,125,91,194 ; vcvtps2dq %ymm2,%ymm8
- DB 196,99,125,25,194,1 ; vextractf128 $0x1,%ymm8,%xmm2
+ DB 197,253,91,210 ; vcvtps2dq %ymm2,%ymm2
+ DB 196,227,249,22,208,1 ; vpextrq $0x1,%xmm2,%rax
+ DB 65,137,193 ; mov %eax,%r9d
+ DB 72,193,232,32 ; shr $0x20,%rax
DB 196,193,249,126,210 ; vmovq %xmm2,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,65,122,16,12,129 ; vmovss (%r9,%rax,4),%xmm9
- DB 196,195,249,22,211,1 ; vpextrq $0x1,%xmm2,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,49,33,12,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm9,%xmm9
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,65,122,16,20,129 ; vmovss (%r9,%rax,4),%xmm10
- DB 196,65,249,126,194 ; vmovq %xmm8,%r10
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,1,122,16,28,153 ; vmovss (%r9,%r11,4),%xmm11
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,193,122,16,20,129 ; vmovss (%r9,%rax,4),%xmm2
- DB 196,67,249,22,195,1 ; vpextrq $0x1,%xmm8,%r11
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,105,33,4,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm2,%xmm8
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,65,122,16,36,129 ; vmovss (%r9,%rax,4),%xmm12
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,1,122,16,44,153 ; vmovss (%r9,%r11,4),%xmm13
- DB 196,195,49,33,210,32 ; vinsertps $0x20,%xmm10,%xmm9,%xmm2
- DB 196,67,105,33,203,48 ; vinsertps $0x30,%xmm11,%xmm2,%xmm9
- DB 196,195,57,33,212,32 ; vinsertps $0x20,%xmm12,%xmm8,%xmm2
- DB 196,195,105,33,213,48 ; vinsertps $0x30,%xmm13,%xmm2,%xmm2
- DB 196,195,109,24,209,1 ; vinsertf128 $0x1,%xmm9,%ymm2,%ymm2
+ DB 196,227,125,25,210,1 ; vextractf128 $0x1,%ymm2,%xmm2
+ DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,193,249,126,215 ; vmovq %xmm2,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 196,129,122,16,20,160 ; vmovss (%r8,%r12,4),%xmm2
+ DB 196,3,105,33,4,184,16 ; vinsertps $0x10,(%r8,%r15,4),%xmm2,%xmm8
+ DB 196,129,122,16,20,176 ; vmovss (%r8,%r14,4),%xmm2
+ DB 196,99,57,33,194,32 ; vinsertps $0x20,%xmm2,%xmm8,%xmm8
+ DB 196,193,122,16,20,152 ; vmovss (%r8,%rbx,4),%xmm2
+ DB 196,99,57,33,194,48 ; vinsertps $0x30,%xmm2,%xmm8,%xmm8
+ DB 196,129,122,16,20,152 ; vmovss (%r8,%r11,4),%xmm2
+ DB 196,3,105,33,12,144,16 ; vinsertps $0x10,(%r8,%r10,4),%xmm2,%xmm9
+ DB 196,129,122,16,20,136 ; vmovss (%r8,%r9,4),%xmm2
+ DB 196,99,49,33,202,32 ; vinsertps $0x20,%xmm2,%xmm9,%xmm9
+ DB 196,193,122,16,20,128 ; vmovss (%r8,%rax,4),%xmm2
+ DB 196,227,49,33,210,48 ; vinsertps $0x30,%xmm2,%xmm9,%xmm2
+ DB 196,195,109,24,208,1 ; vinsertf128 $0x1,%xmm8,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_a_avx
_sk_table_a_avx LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 197,121,110,192 ; vmovd %eax,%xmm8
@@ -9904,34 +9908,38 @@ _sk_table_a_avx LABEL PROC
DB 196,67,61,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm8,%ymm8
DB 196,65,124,91,192 ; vcvtdq2ps %ymm8,%ymm8
DB 197,188,89,219 ; vmulps %ymm3,%ymm8,%ymm3
- DB 197,125,91,195 ; vcvtps2dq %ymm3,%ymm8
- DB 196,99,125,25,195,1 ; vextractf128 $0x1,%ymm8,%xmm3
+ DB 197,253,91,219 ; vcvtps2dq %ymm3,%ymm3
+ DB 196,227,249,22,216,1 ; vpextrq $0x1,%xmm3,%rax
+ DB 65,137,193 ; mov %eax,%r9d
+ DB 72,193,232,32 ; shr $0x20,%rax
DB 196,193,249,126,218 ; vmovq %xmm3,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,65,122,16,12,129 ; vmovss (%r9,%rax,4),%xmm9
- DB 196,195,249,22,219,1 ; vpextrq $0x1,%xmm3,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,49,33,12,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm9,%xmm9
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,65,122,16,20,129 ; vmovss (%r9,%rax,4),%xmm10
- DB 196,65,249,126,194 ; vmovq %xmm8,%r10
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,1,122,16,28,153 ; vmovss (%r9,%r11,4),%xmm11
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,193,122,16,28,129 ; vmovss (%r9,%rax,4),%xmm3
- DB 196,67,249,22,195,1 ; vpextrq $0x1,%xmm8,%r11
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,3,97,33,4,145,16 ; vinsertps $0x10,(%r9,%r10,4),%xmm3,%xmm8
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,65,122,16,36,129 ; vmovss (%r9,%rax,4),%xmm12
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,1,122,16,44,153 ; vmovss (%r9,%r11,4),%xmm13
- DB 196,195,49,33,218,32 ; vinsertps $0x20,%xmm10,%xmm9,%xmm3
- DB 196,67,97,33,203,48 ; vinsertps $0x30,%xmm11,%xmm3,%xmm9
- DB 196,195,57,33,220,32 ; vinsertps $0x20,%xmm12,%xmm8,%xmm3
- DB 196,195,97,33,221,48 ; vinsertps $0x30,%xmm13,%xmm3,%xmm3
- DB 196,195,101,24,217,1 ; vinsertf128 $0x1,%xmm9,%ymm3,%ymm3
+ DB 196,227,125,25,219,1 ; vextractf128 $0x1,%ymm3,%xmm3
+ DB 196,227,249,22,219,1 ; vpextrq $0x1,%xmm3,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,193,249,126,223 ; vmovq %xmm3,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 196,129,122,16,28,160 ; vmovss (%r8,%r12,4),%xmm3
+ DB 196,3,97,33,4,184,16 ; vinsertps $0x10,(%r8,%r15,4),%xmm3,%xmm8
+ DB 196,129,122,16,28,176 ; vmovss (%r8,%r14,4),%xmm3
+ DB 196,99,57,33,195,32 ; vinsertps $0x20,%xmm3,%xmm8,%xmm8
+ DB 196,193,122,16,28,152 ; vmovss (%r8,%rbx,4),%xmm3
+ DB 196,99,57,33,195,48 ; vinsertps $0x30,%xmm3,%xmm8,%xmm8
+ DB 196,129,122,16,28,152 ; vmovss (%r8,%r11,4),%xmm3
+ DB 196,3,97,33,12,144,16 ; vinsertps $0x10,(%r8,%r10,4),%xmm3,%xmm9
+ DB 196,129,122,16,28,136 ; vmovss (%r8,%r9,4),%xmm3
+ DB 196,99,49,33,203,32 ; vinsertps $0x20,%xmm3,%xmm9,%xmm9
+ DB 196,193,122,16,28,128 ; vmovss (%r8,%rax,4),%xmm3
+ DB 196,227,49,33,219,48 ; vinsertps $0x30,%xmm3,%xmm9,%xmm3
+ DB 196,195,101,24,216,1 ; vinsertf128 $0x1,%xmm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_parametric_r_avx
@@ -9949,36 +9957,36 @@ _sk_parametric_r_avx LABEL PROC
DB 196,193,124,88,195 ; vaddps %ymm11,%ymm0,%ymm0
DB 196,98,125,24,16 ; vbroadcastss (%rax),%ymm10
DB 197,124,91,216 ; vcvtdq2ps %ymm0,%ymm11
- DB 196,98,125,24,37,224,25,2,0 ; vbroadcastss 0x219e0(%rip),%ymm12 # 2c150 <_sk_overlay_sse2_8bit+0x503>
+ DB 196,98,125,24,37,4,26,2,0 ; vbroadcastss 0x21a04(%rip),%ymm12 # 2c178 <_sk_overlay_sse2_8bit+0x503>
DB 196,65,36,89,220 ; vmulps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,214,25,2,0 ; vbroadcastss 0x219d6(%rip),%ymm12 # 2c154 <_sk_overlay_sse2_8bit+0x507>
+ DB 196,98,125,24,37,250,25,2,0 ; vbroadcastss 0x219fa(%rip),%ymm12 # 2c17c <_sk_overlay_sse2_8bit+0x507>
DB 196,193,124,84,196 ; vandps %ymm12,%ymm0,%ymm0
- DB 196,98,125,24,37,44,25,2,0 ; vbroadcastss 0x2192c(%rip),%ymm12 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,37,80,25,2,0 ; vbroadcastss 0x21950(%rip),%ymm12 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,193,124,86,196 ; vorps %ymm12,%ymm0,%ymm0
- DB 196,98,125,24,37,190,25,2,0 ; vbroadcastss 0x219be(%rip),%ymm12 # 2c158 <_sk_overlay_sse2_8bit+0x50b>
+ DB 196,98,125,24,37,226,25,2,0 ; vbroadcastss 0x219e2(%rip),%ymm12 # 2c180 <_sk_overlay_sse2_8bit+0x50b>
DB 196,65,36,88,220 ; vaddps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,180,25,2,0 ; vbroadcastss 0x219b4(%rip),%ymm12 # 2c15c <_sk_overlay_sse2_8bit+0x50f>
+ DB 196,98,125,24,37,216,25,2,0 ; vbroadcastss 0x219d8(%rip),%ymm12 # 2c184 <_sk_overlay_sse2_8bit+0x50f>
DB 196,65,124,89,228 ; vmulps %ymm12,%ymm0,%ymm12
DB 196,65,36,92,220 ; vsubps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,165,25,2,0 ; vbroadcastss 0x219a5(%rip),%ymm12 # 2c160 <_sk_overlay_sse2_8bit+0x513>
+ DB 196,98,125,24,37,201,25,2,0 ; vbroadcastss 0x219c9(%rip),%ymm12 # 2c188 <_sk_overlay_sse2_8bit+0x513>
DB 196,193,124,88,196 ; vaddps %ymm12,%ymm0,%ymm0
- DB 196,98,125,24,37,155,25,2,0 ; vbroadcastss 0x2199b(%rip),%ymm12 # 2c164 <_sk_overlay_sse2_8bit+0x517>
+ DB 196,98,125,24,37,191,25,2,0 ; vbroadcastss 0x219bf(%rip),%ymm12 # 2c18c <_sk_overlay_sse2_8bit+0x517>
DB 197,156,94,192 ; vdivps %ymm0,%ymm12,%ymm0
DB 197,164,92,192 ; vsubps %ymm0,%ymm11,%ymm0
DB 197,172,89,192 ; vmulps %ymm0,%ymm10,%ymm0
DB 196,99,125,8,208,1 ; vroundps $0x1,%ymm0,%ymm10
DB 196,65,124,92,210 ; vsubps %ymm10,%ymm0,%ymm10
- DB 196,98,125,24,29,127,25,2,0 ; vbroadcastss 0x2197f(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x51b>
+ DB 196,98,125,24,29,163,25,2,0 ; vbroadcastss 0x219a3(%rip),%ymm11 # 2c190 <_sk_overlay_sse2_8bit+0x51b>
DB 196,193,124,88,195 ; vaddps %ymm11,%ymm0,%ymm0
- DB 196,98,125,24,29,117,25,2,0 ; vbroadcastss 0x21975(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x51f>
+ DB 196,98,125,24,29,153,25,2,0 ; vbroadcastss 0x21999(%rip),%ymm11 # 2c194 <_sk_overlay_sse2_8bit+0x51f>
DB 196,65,44,89,219 ; vmulps %ymm11,%ymm10,%ymm11
DB 196,193,124,92,195 ; vsubps %ymm11,%ymm0,%ymm0
- DB 196,98,125,24,29,102,25,2,0 ; vbroadcastss 0x21966(%rip),%ymm11 # 2c170 <_sk_overlay_sse2_8bit+0x523>
+ DB 196,98,125,24,29,138,25,2,0 ; vbroadcastss 0x2198a(%rip),%ymm11 # 2c198 <_sk_overlay_sse2_8bit+0x523>
DB 196,65,36,92,210 ; vsubps %ymm10,%ymm11,%ymm10
- DB 196,98,125,24,29,92,25,2,0 ; vbroadcastss 0x2195c(%rip),%ymm11 # 2c174 <_sk_overlay_sse2_8bit+0x527>
+ DB 196,98,125,24,29,128,25,2,0 ; vbroadcastss 0x21980(%rip),%ymm11 # 2c19c <_sk_overlay_sse2_8bit+0x527>
DB 196,65,36,94,210 ; vdivps %ymm10,%ymm11,%ymm10
DB 196,193,124,88,194 ; vaddps %ymm10,%ymm0,%ymm0
- DB 196,98,125,24,21,77,25,2,0 ; vbroadcastss 0x2194d(%rip),%ymm10 # 2c178 <_sk_overlay_sse2_8bit+0x52b>
+ DB 196,98,125,24,21,113,25,2,0 ; vbroadcastss 0x21971(%rip),%ymm10 # 2c1a0 <_sk_overlay_sse2_8bit+0x52b>
DB 196,193,124,89,194 ; vmulps %ymm10,%ymm0,%ymm0
DB 197,253,91,192 ; vcvtps2dq %ymm0,%ymm0
DB 196,98,125,24,80,20 ; vbroadcastss 0x14(%rax),%ymm10
@@ -9986,7 +9994,7 @@ _sk_parametric_r_avx LABEL PROC
DB 196,195,125,74,193,128 ; vblendvps %ymm8,%ymm9,%ymm0,%ymm0
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 196,193,124,95,192 ; vmaxps %ymm8,%ymm0,%ymm0
- DB 196,98,125,24,5,100,24,2,0 ; vbroadcastss 0x21864(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,136,24,2,0 ; vbroadcastss 0x21888(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,124,93,192 ; vminps %ymm8,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -10006,36 +10014,36 @@ _sk_parametric_g_avx LABEL PROC
DB 196,193,116,88,203 ; vaddps %ymm11,%ymm1,%ymm1
DB 196,98,125,24,16 ; vbroadcastss (%rax),%ymm10
DB 197,124,91,217 ; vcvtdq2ps %ymm1,%ymm11
- DB 196,98,125,24,37,165,24,2,0 ; vbroadcastss 0x218a5(%rip),%ymm12 # 2c150 <_sk_overlay_sse2_8bit+0x503>
+ DB 196,98,125,24,37,201,24,2,0 ; vbroadcastss 0x218c9(%rip),%ymm12 # 2c178 <_sk_overlay_sse2_8bit+0x503>
DB 196,65,36,89,220 ; vmulps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,155,24,2,0 ; vbroadcastss 0x2189b(%rip),%ymm12 # 2c154 <_sk_overlay_sse2_8bit+0x507>
+ DB 196,98,125,24,37,191,24,2,0 ; vbroadcastss 0x218bf(%rip),%ymm12 # 2c17c <_sk_overlay_sse2_8bit+0x507>
DB 196,193,116,84,204 ; vandps %ymm12,%ymm1,%ymm1
- DB 196,98,125,24,37,241,23,2,0 ; vbroadcastss 0x217f1(%rip),%ymm12 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,37,21,24,2,0 ; vbroadcastss 0x21815(%rip),%ymm12 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,193,116,86,204 ; vorps %ymm12,%ymm1,%ymm1
- DB 196,98,125,24,37,131,24,2,0 ; vbroadcastss 0x21883(%rip),%ymm12 # 2c158 <_sk_overlay_sse2_8bit+0x50b>
+ DB 196,98,125,24,37,167,24,2,0 ; vbroadcastss 0x218a7(%rip),%ymm12 # 2c180 <_sk_overlay_sse2_8bit+0x50b>
DB 196,65,36,88,220 ; vaddps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,121,24,2,0 ; vbroadcastss 0x21879(%rip),%ymm12 # 2c15c <_sk_overlay_sse2_8bit+0x50f>
+ DB 196,98,125,24,37,157,24,2,0 ; vbroadcastss 0x2189d(%rip),%ymm12 # 2c184 <_sk_overlay_sse2_8bit+0x50f>
DB 196,65,116,89,228 ; vmulps %ymm12,%ymm1,%ymm12
DB 196,65,36,92,220 ; vsubps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,106,24,2,0 ; vbroadcastss 0x2186a(%rip),%ymm12 # 2c160 <_sk_overlay_sse2_8bit+0x513>
+ DB 196,98,125,24,37,142,24,2,0 ; vbroadcastss 0x2188e(%rip),%ymm12 # 2c188 <_sk_overlay_sse2_8bit+0x513>
DB 196,193,116,88,204 ; vaddps %ymm12,%ymm1,%ymm1
- DB 196,98,125,24,37,96,24,2,0 ; vbroadcastss 0x21860(%rip),%ymm12 # 2c164 <_sk_overlay_sse2_8bit+0x517>
+ DB 196,98,125,24,37,132,24,2,0 ; vbroadcastss 0x21884(%rip),%ymm12 # 2c18c <_sk_overlay_sse2_8bit+0x517>
DB 197,156,94,201 ; vdivps %ymm1,%ymm12,%ymm1
DB 197,164,92,201 ; vsubps %ymm1,%ymm11,%ymm1
DB 197,172,89,201 ; vmulps %ymm1,%ymm10,%ymm1
DB 196,99,125,8,209,1 ; vroundps $0x1,%ymm1,%ymm10
DB 196,65,116,92,210 ; vsubps %ymm10,%ymm1,%ymm10
- DB 196,98,125,24,29,68,24,2,0 ; vbroadcastss 0x21844(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x51b>
+ DB 196,98,125,24,29,104,24,2,0 ; vbroadcastss 0x21868(%rip),%ymm11 # 2c190 <_sk_overlay_sse2_8bit+0x51b>
DB 196,193,116,88,203 ; vaddps %ymm11,%ymm1,%ymm1
- DB 196,98,125,24,29,58,24,2,0 ; vbroadcastss 0x2183a(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x51f>
+ DB 196,98,125,24,29,94,24,2,0 ; vbroadcastss 0x2185e(%rip),%ymm11 # 2c194 <_sk_overlay_sse2_8bit+0x51f>
DB 196,65,44,89,219 ; vmulps %ymm11,%ymm10,%ymm11
DB 196,193,116,92,203 ; vsubps %ymm11,%ymm1,%ymm1
- DB 196,98,125,24,29,43,24,2,0 ; vbroadcastss 0x2182b(%rip),%ymm11 # 2c170 <_sk_overlay_sse2_8bit+0x523>
+ DB 196,98,125,24,29,79,24,2,0 ; vbroadcastss 0x2184f(%rip),%ymm11 # 2c198 <_sk_overlay_sse2_8bit+0x523>
DB 196,65,36,92,210 ; vsubps %ymm10,%ymm11,%ymm10
- DB 196,98,125,24,29,33,24,2,0 ; vbroadcastss 0x21821(%rip),%ymm11 # 2c174 <_sk_overlay_sse2_8bit+0x527>
+ DB 196,98,125,24,29,69,24,2,0 ; vbroadcastss 0x21845(%rip),%ymm11 # 2c19c <_sk_overlay_sse2_8bit+0x527>
DB 196,65,36,94,210 ; vdivps %ymm10,%ymm11,%ymm10
DB 196,193,116,88,202 ; vaddps %ymm10,%ymm1,%ymm1
- DB 196,98,125,24,21,18,24,2,0 ; vbroadcastss 0x21812(%rip),%ymm10 # 2c178 <_sk_overlay_sse2_8bit+0x52b>
+ DB 196,98,125,24,21,54,24,2,0 ; vbroadcastss 0x21836(%rip),%ymm10 # 2c1a0 <_sk_overlay_sse2_8bit+0x52b>
DB 196,193,116,89,202 ; vmulps %ymm10,%ymm1,%ymm1
DB 197,253,91,201 ; vcvtps2dq %ymm1,%ymm1
DB 196,98,125,24,80,20 ; vbroadcastss 0x14(%rax),%ymm10
@@ -10043,7 +10051,7 @@ _sk_parametric_g_avx LABEL PROC
DB 196,195,117,74,201,128 ; vblendvps %ymm8,%ymm9,%ymm1,%ymm1
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 196,193,116,95,200 ; vmaxps %ymm8,%ymm1,%ymm1
- DB 196,98,125,24,5,41,23,2,0 ; vbroadcastss 0x21729(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,77,23,2,0 ; vbroadcastss 0x2174d(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,116,93,200 ; vminps %ymm8,%ymm1,%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -10063,36 +10071,36 @@ _sk_parametric_b_avx LABEL PROC
DB 196,193,108,88,211 ; vaddps %ymm11,%ymm2,%ymm2
DB 196,98,125,24,16 ; vbroadcastss (%rax),%ymm10
DB 197,124,91,218 ; vcvtdq2ps %ymm2,%ymm11
- DB 196,98,125,24,37,106,23,2,0 ; vbroadcastss 0x2176a(%rip),%ymm12 # 2c150 <_sk_overlay_sse2_8bit+0x503>
+ DB 196,98,125,24,37,142,23,2,0 ; vbroadcastss 0x2178e(%rip),%ymm12 # 2c178 <_sk_overlay_sse2_8bit+0x503>
DB 196,65,36,89,220 ; vmulps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,96,23,2,0 ; vbroadcastss 0x21760(%rip),%ymm12 # 2c154 <_sk_overlay_sse2_8bit+0x507>
+ DB 196,98,125,24,37,132,23,2,0 ; vbroadcastss 0x21784(%rip),%ymm12 # 2c17c <_sk_overlay_sse2_8bit+0x507>
DB 196,193,108,84,212 ; vandps %ymm12,%ymm2,%ymm2
- DB 196,98,125,24,37,182,22,2,0 ; vbroadcastss 0x216b6(%rip),%ymm12 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,37,218,22,2,0 ; vbroadcastss 0x216da(%rip),%ymm12 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,193,108,86,212 ; vorps %ymm12,%ymm2,%ymm2
- DB 196,98,125,24,37,72,23,2,0 ; vbroadcastss 0x21748(%rip),%ymm12 # 2c158 <_sk_overlay_sse2_8bit+0x50b>
+ DB 196,98,125,24,37,108,23,2,0 ; vbroadcastss 0x2176c(%rip),%ymm12 # 2c180 <_sk_overlay_sse2_8bit+0x50b>
DB 196,65,36,88,220 ; vaddps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,62,23,2,0 ; vbroadcastss 0x2173e(%rip),%ymm12 # 2c15c <_sk_overlay_sse2_8bit+0x50f>
+ DB 196,98,125,24,37,98,23,2,0 ; vbroadcastss 0x21762(%rip),%ymm12 # 2c184 <_sk_overlay_sse2_8bit+0x50f>
DB 196,65,108,89,228 ; vmulps %ymm12,%ymm2,%ymm12
DB 196,65,36,92,220 ; vsubps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,47,23,2,0 ; vbroadcastss 0x2172f(%rip),%ymm12 # 2c160 <_sk_overlay_sse2_8bit+0x513>
+ DB 196,98,125,24,37,83,23,2,0 ; vbroadcastss 0x21753(%rip),%ymm12 # 2c188 <_sk_overlay_sse2_8bit+0x513>
DB 196,193,108,88,212 ; vaddps %ymm12,%ymm2,%ymm2
- DB 196,98,125,24,37,37,23,2,0 ; vbroadcastss 0x21725(%rip),%ymm12 # 2c164 <_sk_overlay_sse2_8bit+0x517>
+ DB 196,98,125,24,37,73,23,2,0 ; vbroadcastss 0x21749(%rip),%ymm12 # 2c18c <_sk_overlay_sse2_8bit+0x517>
DB 197,156,94,210 ; vdivps %ymm2,%ymm12,%ymm2
DB 197,164,92,210 ; vsubps %ymm2,%ymm11,%ymm2
DB 197,172,89,210 ; vmulps %ymm2,%ymm10,%ymm2
DB 196,99,125,8,210,1 ; vroundps $0x1,%ymm2,%ymm10
DB 196,65,108,92,210 ; vsubps %ymm10,%ymm2,%ymm10
- DB 196,98,125,24,29,9,23,2,0 ; vbroadcastss 0x21709(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x51b>
+ DB 196,98,125,24,29,45,23,2,0 ; vbroadcastss 0x2172d(%rip),%ymm11 # 2c190 <_sk_overlay_sse2_8bit+0x51b>
DB 196,193,108,88,211 ; vaddps %ymm11,%ymm2,%ymm2
- DB 196,98,125,24,29,255,22,2,0 ; vbroadcastss 0x216ff(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x51f>
+ DB 196,98,125,24,29,35,23,2,0 ; vbroadcastss 0x21723(%rip),%ymm11 # 2c194 <_sk_overlay_sse2_8bit+0x51f>
DB 196,65,44,89,219 ; vmulps %ymm11,%ymm10,%ymm11
DB 196,193,108,92,211 ; vsubps %ymm11,%ymm2,%ymm2
- DB 196,98,125,24,29,240,22,2,0 ; vbroadcastss 0x216f0(%rip),%ymm11 # 2c170 <_sk_overlay_sse2_8bit+0x523>
+ DB 196,98,125,24,29,20,23,2,0 ; vbroadcastss 0x21714(%rip),%ymm11 # 2c198 <_sk_overlay_sse2_8bit+0x523>
DB 196,65,36,92,210 ; vsubps %ymm10,%ymm11,%ymm10
- DB 196,98,125,24,29,230,22,2,0 ; vbroadcastss 0x216e6(%rip),%ymm11 # 2c174 <_sk_overlay_sse2_8bit+0x527>
+ DB 196,98,125,24,29,10,23,2,0 ; vbroadcastss 0x2170a(%rip),%ymm11 # 2c19c <_sk_overlay_sse2_8bit+0x527>
DB 196,65,36,94,210 ; vdivps %ymm10,%ymm11,%ymm10
DB 196,193,108,88,210 ; vaddps %ymm10,%ymm2,%ymm2
- DB 196,98,125,24,21,215,22,2,0 ; vbroadcastss 0x216d7(%rip),%ymm10 # 2c178 <_sk_overlay_sse2_8bit+0x52b>
+ DB 196,98,125,24,21,251,22,2,0 ; vbroadcastss 0x216fb(%rip),%ymm10 # 2c1a0 <_sk_overlay_sse2_8bit+0x52b>
DB 196,193,108,89,210 ; vmulps %ymm10,%ymm2,%ymm2
DB 197,253,91,210 ; vcvtps2dq %ymm2,%ymm2
DB 196,98,125,24,80,20 ; vbroadcastss 0x14(%rax),%ymm10
@@ -10100,7 +10108,7 @@ _sk_parametric_b_avx LABEL PROC
DB 196,195,109,74,209,128 ; vblendvps %ymm8,%ymm9,%ymm2,%ymm2
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 196,193,108,95,208 ; vmaxps %ymm8,%ymm2,%ymm2
- DB 196,98,125,24,5,238,21,2,0 ; vbroadcastss 0x215ee(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,18,22,2,0 ; vbroadcastss 0x21612(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,108,93,208 ; vminps %ymm8,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -10120,36 +10128,36 @@ _sk_parametric_a_avx LABEL PROC
DB 196,193,100,88,219 ; vaddps %ymm11,%ymm3,%ymm3
DB 196,98,125,24,16 ; vbroadcastss (%rax),%ymm10
DB 197,124,91,219 ; vcvtdq2ps %ymm3,%ymm11
- DB 196,98,125,24,37,47,22,2,0 ; vbroadcastss 0x2162f(%rip),%ymm12 # 2c150 <_sk_overlay_sse2_8bit+0x503>
+ DB 196,98,125,24,37,83,22,2,0 ; vbroadcastss 0x21653(%rip),%ymm12 # 2c178 <_sk_overlay_sse2_8bit+0x503>
DB 196,65,36,89,220 ; vmulps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,37,22,2,0 ; vbroadcastss 0x21625(%rip),%ymm12 # 2c154 <_sk_overlay_sse2_8bit+0x507>
+ DB 196,98,125,24,37,73,22,2,0 ; vbroadcastss 0x21649(%rip),%ymm12 # 2c17c <_sk_overlay_sse2_8bit+0x507>
DB 196,193,100,84,220 ; vandps %ymm12,%ymm3,%ymm3
- DB 196,98,125,24,37,123,21,2,0 ; vbroadcastss 0x2157b(%rip),%ymm12 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,37,159,21,2,0 ; vbroadcastss 0x2159f(%rip),%ymm12 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,193,100,86,220 ; vorps %ymm12,%ymm3,%ymm3
- DB 196,98,125,24,37,13,22,2,0 ; vbroadcastss 0x2160d(%rip),%ymm12 # 2c158 <_sk_overlay_sse2_8bit+0x50b>
+ DB 196,98,125,24,37,49,22,2,0 ; vbroadcastss 0x21631(%rip),%ymm12 # 2c180 <_sk_overlay_sse2_8bit+0x50b>
DB 196,65,36,88,220 ; vaddps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,3,22,2,0 ; vbroadcastss 0x21603(%rip),%ymm12 # 2c15c <_sk_overlay_sse2_8bit+0x50f>
+ DB 196,98,125,24,37,39,22,2,0 ; vbroadcastss 0x21627(%rip),%ymm12 # 2c184 <_sk_overlay_sse2_8bit+0x50f>
DB 196,65,100,89,228 ; vmulps %ymm12,%ymm3,%ymm12
DB 196,65,36,92,220 ; vsubps %ymm12,%ymm11,%ymm11
- DB 196,98,125,24,37,244,21,2,0 ; vbroadcastss 0x215f4(%rip),%ymm12 # 2c160 <_sk_overlay_sse2_8bit+0x513>
+ DB 196,98,125,24,37,24,22,2,0 ; vbroadcastss 0x21618(%rip),%ymm12 # 2c188 <_sk_overlay_sse2_8bit+0x513>
DB 196,193,100,88,220 ; vaddps %ymm12,%ymm3,%ymm3
- DB 196,98,125,24,37,234,21,2,0 ; vbroadcastss 0x215ea(%rip),%ymm12 # 2c164 <_sk_overlay_sse2_8bit+0x517>
+ DB 196,98,125,24,37,14,22,2,0 ; vbroadcastss 0x2160e(%rip),%ymm12 # 2c18c <_sk_overlay_sse2_8bit+0x517>
DB 197,156,94,219 ; vdivps %ymm3,%ymm12,%ymm3
DB 197,164,92,219 ; vsubps %ymm3,%ymm11,%ymm3
DB 197,172,89,219 ; vmulps %ymm3,%ymm10,%ymm3
DB 196,99,125,8,211,1 ; vroundps $0x1,%ymm3,%ymm10
DB 196,65,100,92,210 ; vsubps %ymm10,%ymm3,%ymm10
- DB 196,98,125,24,29,206,21,2,0 ; vbroadcastss 0x215ce(%rip),%ymm11 # 2c168 <_sk_overlay_sse2_8bit+0x51b>
+ DB 196,98,125,24,29,242,21,2,0 ; vbroadcastss 0x215f2(%rip),%ymm11 # 2c190 <_sk_overlay_sse2_8bit+0x51b>
DB 196,193,100,88,219 ; vaddps %ymm11,%ymm3,%ymm3
- DB 196,98,125,24,29,196,21,2,0 ; vbroadcastss 0x215c4(%rip),%ymm11 # 2c16c <_sk_overlay_sse2_8bit+0x51f>
+ DB 196,98,125,24,29,232,21,2,0 ; vbroadcastss 0x215e8(%rip),%ymm11 # 2c194 <_sk_overlay_sse2_8bit+0x51f>
DB 196,65,44,89,219 ; vmulps %ymm11,%ymm10,%ymm11
DB 196,193,100,92,219 ; vsubps %ymm11,%ymm3,%ymm3
- DB 196,98,125,24,29,181,21,2,0 ; vbroadcastss 0x215b5(%rip),%ymm11 # 2c170 <_sk_overlay_sse2_8bit+0x523>
+ DB 196,98,125,24,29,217,21,2,0 ; vbroadcastss 0x215d9(%rip),%ymm11 # 2c198 <_sk_overlay_sse2_8bit+0x523>
DB 196,65,36,92,210 ; vsubps %ymm10,%ymm11,%ymm10
- DB 196,98,125,24,29,171,21,2,0 ; vbroadcastss 0x215ab(%rip),%ymm11 # 2c174 <_sk_overlay_sse2_8bit+0x527>
+ DB 196,98,125,24,29,207,21,2,0 ; vbroadcastss 0x215cf(%rip),%ymm11 # 2c19c <_sk_overlay_sse2_8bit+0x527>
DB 196,65,36,94,210 ; vdivps %ymm10,%ymm11,%ymm10
DB 196,193,100,88,218 ; vaddps %ymm10,%ymm3,%ymm3
- DB 196,98,125,24,21,156,21,2,0 ; vbroadcastss 0x2159c(%rip),%ymm10 # 2c178 <_sk_overlay_sse2_8bit+0x52b>
+ DB 196,98,125,24,21,192,21,2,0 ; vbroadcastss 0x215c0(%rip),%ymm10 # 2c1a0 <_sk_overlay_sse2_8bit+0x52b>
DB 196,193,100,89,218 ; vmulps %ymm10,%ymm3,%ymm3
DB 197,253,91,219 ; vcvtps2dq %ymm3,%ymm3
DB 196,98,125,24,80,20 ; vbroadcastss 0x14(%rax),%ymm10
@@ -10157,7 +10165,7 @@ _sk_parametric_a_avx LABEL PROC
DB 196,195,101,74,217,128 ; vblendvps %ymm8,%ymm9,%ymm3,%ymm3
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 196,193,100,95,216 ; vmaxps %ymm8,%ymm3,%ymm3
- DB 196,98,125,24,5,179,20,2,0 ; vbroadcastss 0x214b3(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,215,20,2,0 ; vbroadcastss 0x214d7(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,100,93,216 ; vminps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -10174,34 +10182,34 @@ _sk_gamma_avx LABEL PROC
DB 197,252,40,233 ; vmovaps %ymm1,%ymm5
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,91,200 ; vcvtdq2ps %ymm0,%ymm1
- DB 196,98,125,24,5,252,20,2,0 ; vbroadcastss 0x214fc(%rip),%ymm8 # 2c150 <_sk_overlay_sse2_8bit+0x503>
+ DB 196,98,125,24,5,32,21,2,0 ; vbroadcastss 0x21520(%rip),%ymm8 # 2c178 <_sk_overlay_sse2_8bit+0x503>
DB 196,193,116,89,200 ; vmulps %ymm8,%ymm1,%ymm1
- DB 196,98,125,24,13,242,20,2,0 ; vbroadcastss 0x214f2(%rip),%ymm9 # 2c154 <_sk_overlay_sse2_8bit+0x507>
+ DB 196,98,125,24,13,22,21,2,0 ; vbroadcastss 0x21516(%rip),%ymm9 # 2c17c <_sk_overlay_sse2_8bit+0x507>
DB 196,193,124,84,193 ; vandps %ymm9,%ymm0,%ymm0
- DB 196,226,125,24,37,72,20,2,0 ; vbroadcastss 0x21448(%rip),%ymm4 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,226,125,24,37,108,20,2,0 ; vbroadcastss 0x2146c(%rip),%ymm4 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,252,86,196 ; vorps %ymm4,%ymm0,%ymm0
- DB 196,98,125,24,21,219,20,2,0 ; vbroadcastss 0x214db(%rip),%ymm10 # 2c158 <_sk_overlay_sse2_8bit+0x50b>
+ DB 196,98,125,24,21,255,20,2,0 ; vbroadcastss 0x214ff(%rip),%ymm10 # 2c180 <_sk_overlay_sse2_8bit+0x50b>
DB 196,193,116,88,202 ; vaddps %ymm10,%ymm1,%ymm1
- DB 196,98,125,24,29,209,20,2,0 ; vbroadcastss 0x214d1(%rip),%ymm11 # 2c15c <_sk_overlay_sse2_8bit+0x50f>
+ DB 196,98,125,24,29,245,20,2,0 ; vbroadcastss 0x214f5(%rip),%ymm11 # 2c184 <_sk_overlay_sse2_8bit+0x50f>
DB 196,193,124,89,211 ; vmulps %ymm11,%ymm0,%ymm2
DB 197,244,92,202 ; vsubps %ymm2,%ymm1,%ymm1
- DB 196,98,125,24,37,195,20,2,0 ; vbroadcastss 0x214c3(%rip),%ymm12 # 2c160 <_sk_overlay_sse2_8bit+0x513>
+ DB 196,98,125,24,37,231,20,2,0 ; vbroadcastss 0x214e7(%rip),%ymm12 # 2c188 <_sk_overlay_sse2_8bit+0x513>
DB 196,193,124,88,196 ; vaddps %ymm12,%ymm0,%ymm0
- DB 196,98,125,24,45,185,20,2,0 ; vbroadcastss 0x214b9(%rip),%ymm13 # 2c164 <_sk_overlay_sse2_8bit+0x517>
+ DB 196,98,125,24,45,221,20,2,0 ; vbroadcastss 0x214dd(%rip),%ymm13 # 2c18c <_sk_overlay_sse2_8bit+0x517>
DB 197,148,94,192 ; vdivps %ymm0,%ymm13,%ymm0
DB 197,244,92,192 ; vsubps %ymm0,%ymm1,%ymm0
DB 196,98,125,24,48 ; vbroadcastss (%rax),%ymm14
DB 196,193,124,89,198 ; vmulps %ymm14,%ymm0,%ymm0
DB 196,227,125,8,200,1 ; vroundps $0x1,%ymm0,%ymm1
DB 197,252,92,241 ; vsubps %ymm1,%ymm0,%ymm6
- DB 196,98,125,24,61,152,20,2,0 ; vbroadcastss 0x21498(%rip),%ymm15 # 2c168 <_sk_overlay_sse2_8bit+0x51b>
+ DB 196,98,125,24,61,188,20,2,0 ; vbroadcastss 0x214bc(%rip),%ymm15 # 2c190 <_sk_overlay_sse2_8bit+0x51b>
DB 196,193,124,88,199 ; vaddps %ymm15,%ymm0,%ymm0
- DB 196,226,125,24,29,142,20,2,0 ; vbroadcastss 0x2148e(%rip),%ymm3 # 2c16c <_sk_overlay_sse2_8bit+0x51f>
+ DB 196,226,125,24,29,178,20,2,0 ; vbroadcastss 0x214b2(%rip),%ymm3 # 2c194 <_sk_overlay_sse2_8bit+0x51f>
DB 197,204,89,203 ; vmulps %ymm3,%ymm6,%ymm1
DB 197,252,92,201 ; vsubps %ymm1,%ymm0,%ymm1
- DB 196,226,125,24,21,129,20,2,0 ; vbroadcastss 0x21481(%rip),%ymm2 # 2c170 <_sk_overlay_sse2_8bit+0x523>
+ DB 196,226,125,24,21,165,20,2,0 ; vbroadcastss 0x214a5(%rip),%ymm2 # 2c198 <_sk_overlay_sse2_8bit+0x523>
DB 197,236,92,198 ; vsubps %ymm6,%ymm2,%ymm0
- DB 196,226,125,24,53,120,20,2,0 ; vbroadcastss 0x21478(%rip),%ymm6 # 2c174 <_sk_overlay_sse2_8bit+0x527>
+ DB 196,226,125,24,53,156,20,2,0 ; vbroadcastss 0x2149c(%rip),%ymm6 # 2c19c <_sk_overlay_sse2_8bit+0x527>
DB 197,204,94,192 ; vdivps %ymm0,%ymm6,%ymm0
DB 197,244,88,192 ; vaddps %ymm0,%ymm1,%ymm0
DB 197,252,17,4,36 ; vmovups %ymm0,(%rsp)
@@ -10243,7 +10251,7 @@ _sk_gamma_avx LABEL PROC
DB 197,236,92,212 ; vsubps %ymm4,%ymm2,%ymm2
DB 197,204,94,210 ; vdivps %ymm2,%ymm6,%ymm2
DB 197,244,88,202 ; vaddps %ymm2,%ymm1,%ymm1
- DB 196,226,125,24,21,188,19,2,0 ; vbroadcastss 0x213bc(%rip),%ymm2 # 2c178 <_sk_overlay_sse2_8bit+0x52b>
+ DB 196,226,125,24,21,224,19,2,0 ; vbroadcastss 0x213e0(%rip),%ymm2 # 2c1a0 <_sk_overlay_sse2_8bit+0x52b>
DB 197,236,89,28,36 ; vmulps (%rsp),%ymm2,%ymm3
DB 197,252,89,226 ; vmulps %ymm2,%ymm0,%ymm4
DB 197,244,89,210 ; vmulps %ymm2,%ymm1,%ymm2
@@ -10261,31 +10269,31 @@ _sk_gamma_avx LABEL PROC
PUBLIC _sk_lab_to_xyz_avx
_sk_lab_to_xyz_avx LABEL PROC
- DB 196,98,125,24,5,111,19,2,0 ; vbroadcastss 0x2136f(%rip),%ymm8 # 2c17c <_sk_overlay_sse2_8bit+0x52f>
+ DB 196,98,125,24,5,147,19,2,0 ; vbroadcastss 0x21393(%rip),%ymm8 # 2c1a4 <_sk_overlay_sse2_8bit+0x52f>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
- DB 196,98,125,24,5,205,18,2,0 ; vbroadcastss 0x212cd(%rip),%ymm8 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 196,98,125,24,5,241,18,2,0 ; vbroadcastss 0x212f1(%rip),%ymm8 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,193,116,89,200 ; vmulps %ymm8,%ymm1,%ymm1
- DB 196,98,125,24,13,87,19,2,0 ; vbroadcastss 0x21357(%rip),%ymm9 # 2c180 <_sk_overlay_sse2_8bit+0x533>
+ DB 196,98,125,24,13,123,19,2,0 ; vbroadcastss 0x2137b(%rip),%ymm9 # 2c1a8 <_sk_overlay_sse2_8bit+0x533>
DB 196,193,116,88,201 ; vaddps %ymm9,%ymm1,%ymm1
DB 196,193,108,89,208 ; vmulps %ymm8,%ymm2,%ymm2
DB 196,193,108,88,209 ; vaddps %ymm9,%ymm2,%ymm2
- DB 196,98,125,24,5,67,19,2,0 ; vbroadcastss 0x21343(%rip),%ymm8 # 2c184 <_sk_overlay_sse2_8bit+0x537>
+ DB 196,98,125,24,5,103,19,2,0 ; vbroadcastss 0x21367(%rip),%ymm8 # 2c1ac <_sk_overlay_sse2_8bit+0x537>
DB 196,193,124,88,192 ; vaddps %ymm8,%ymm0,%ymm0
- DB 196,98,125,24,5,57,19,2,0 ; vbroadcastss 0x21339(%rip),%ymm8 # 2c188 <_sk_overlay_sse2_8bit+0x53b>
+ DB 196,98,125,24,5,93,19,2,0 ; vbroadcastss 0x2135d(%rip),%ymm8 # 2c1b0 <_sk_overlay_sse2_8bit+0x53b>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
- DB 196,98,125,24,5,47,19,2,0 ; vbroadcastss 0x2132f(%rip),%ymm8 # 2c18c <_sk_overlay_sse2_8bit+0x53f>
+ DB 196,98,125,24,5,83,19,2,0 ; vbroadcastss 0x21353(%rip),%ymm8 # 2c1b4 <_sk_overlay_sse2_8bit+0x53f>
DB 196,193,116,89,200 ; vmulps %ymm8,%ymm1,%ymm1
DB 197,252,88,201 ; vaddps %ymm1,%ymm0,%ymm1
- DB 196,98,125,24,5,33,19,2,0 ; vbroadcastss 0x21321(%rip),%ymm8 # 2c190 <_sk_overlay_sse2_8bit+0x543>
+ DB 196,98,125,24,5,69,19,2,0 ; vbroadcastss 0x21345(%rip),%ymm8 # 2c1b8 <_sk_overlay_sse2_8bit+0x543>
DB 196,193,108,89,208 ; vmulps %ymm8,%ymm2,%ymm2
DB 197,252,92,210 ; vsubps %ymm2,%ymm0,%ymm2
DB 197,116,89,193 ; vmulps %ymm1,%ymm1,%ymm8
DB 196,65,116,89,192 ; vmulps %ymm8,%ymm1,%ymm8
- DB 196,98,125,24,13,10,19,2,0 ; vbroadcastss 0x2130a(%rip),%ymm9 # 2c194 <_sk_overlay_sse2_8bit+0x547>
+ DB 196,98,125,24,13,46,19,2,0 ; vbroadcastss 0x2132e(%rip),%ymm9 # 2c1bc <_sk_overlay_sse2_8bit+0x547>
DB 196,65,52,194,208,1 ; vcmpltps %ymm8,%ymm9,%ymm10
- DB 196,98,125,24,29,255,18,2,0 ; vbroadcastss 0x212ff(%rip),%ymm11 # 2c198 <_sk_overlay_sse2_8bit+0x54b>
+ DB 196,98,125,24,29,35,19,2,0 ; vbroadcastss 0x21323(%rip),%ymm11 # 2c1c0 <_sk_overlay_sse2_8bit+0x54b>
DB 196,193,116,88,203 ; vaddps %ymm11,%ymm1,%ymm1
- DB 196,98,125,24,37,245,18,2,0 ; vbroadcastss 0x212f5(%rip),%ymm12 # 2c19c <_sk_overlay_sse2_8bit+0x54f>
+ DB 196,98,125,24,37,25,19,2,0 ; vbroadcastss 0x21319(%rip),%ymm12 # 2c1c4 <_sk_overlay_sse2_8bit+0x54f>
DB 196,193,116,89,204 ; vmulps %ymm12,%ymm1,%ymm1
DB 196,67,117,74,192,160 ; vblendvps %ymm10,%ymm8,%ymm1,%ymm8
DB 197,252,89,200 ; vmulps %ymm0,%ymm0,%ymm1
@@ -10300,265 +10308,266 @@ _sk_lab_to_xyz_avx LABEL PROC
DB 196,193,108,88,211 ; vaddps %ymm11,%ymm2,%ymm2
DB 196,193,108,89,212 ; vmulps %ymm12,%ymm2,%ymm2
DB 196,227,109,74,208,144 ; vblendvps %ymm9,%ymm0,%ymm2,%ymm2
- DB 196,226,125,24,5,171,18,2,0 ; vbroadcastss 0x212ab(%rip),%ymm0 # 2c1a0 <_sk_overlay_sse2_8bit+0x553>
+ DB 196,226,125,24,5,207,18,2,0 ; vbroadcastss 0x212cf(%rip),%ymm0 # 2c1c8 <_sk_overlay_sse2_8bit+0x553>
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
- DB 196,98,125,24,5,162,18,2,0 ; vbroadcastss 0x212a2(%rip),%ymm8 # 2c1a4 <_sk_overlay_sse2_8bit+0x557>
+ DB 196,98,125,24,5,198,18,2,0 ; vbroadcastss 0x212c6(%rip),%ymm8 # 2c1cc <_sk_overlay_sse2_8bit+0x557>
DB 196,193,108,89,208 ; vmulps %ymm8,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
PUBLIC _sk_load_a8_avx
_sk_load_a8_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,67 ; jne af67 <_sk_load_a8_avx+0x5c>
- DB 196,194,121,48,4,25 ; vpmovzxbw (%r9,%rbx,1),%xmm0
- DB 197,249,219,5,30,27,2,0 ; vpand 0x21b1e(%rip),%xmm0,%xmm0 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,66 ; jne af69 <_sk_load_a8_avx+0x5a>
+ DB 196,130,121,48,4,24 ; vpmovzxbw (%r8,%r11,1),%xmm0
+ DB 197,249,219,5,155,27,2,0 ; vpand 0x21b9b(%rip),%xmm0,%xmm0 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 197,241,239,201 ; vpxor %xmm1,%xmm1,%xmm1
DB 197,249,105,201 ; vpunpckhwd %xmm1,%xmm0,%xmm1
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,222,17,2,0 ; vbroadcastss 0x211de(%rip),%ymm1 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,13,3,18,2,0 ; vbroadcastss 0x21203(%rip),%ymm1 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,252,89,217 ; vmulps %ymm1,%ymm0,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,87,192 ; vxorps %ymm0,%ymm0,%ymm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 197,236,87,210 ; vxorps %ymm2,%ymm2,%ymm2
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,175 ; ja af2a <_sk_load_a8_avx+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,122,0,0,0 ; lea 0x7a(%rip),%r11 # b000 <_sk_load_a8_avx+0xf5>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,176 ; ja af2d <_sk_load_a8_avx+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,120,0,0,0 ; lea 0x78(%rip),%r10 # b000 <_sk_load_a8_avx+0xf1>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,249,110,192 ; vmovd %eax,%xmm0
- DB 235,144 ; jmp af2a <_sk_load_a8_avx+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,145 ; jmp af2d <_sk_load_a8_avx+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 197,249,196,192,2 ; vpinsrw $0x2,%eax,%xmm0,%xmm0
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,249,110,200 ; vmovd %eax,%xmm1
DB 196,226,121,48,201 ; vpmovzxbw %xmm1,%xmm1
DB 196,227,121,14,193,3 ; vpblendw $0x3,%xmm1,%xmm0,%xmm0
- DB 233,104,255,255,255 ; jmpq af2a <_sk_load_a8_avx+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,105,255,255,255 ; jmpq af2d <_sk_load_a8_avx+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 197,249,196,192,6 ; vpinsrw $0x6,%eax,%xmm0,%xmm0
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,249,196,192,5 ; vpinsrw $0x5,%eax,%xmm0,%xmm0
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,249,196,192,4 ; vpinsrw $0x4,%eax,%xmm0,%xmm0
- DB 196,193,121,110,12,25 ; vmovd (%r9,%rbx,1),%xmm1
+ DB 196,129,121,110,12,24 ; vmovd (%r8,%r11,1),%xmm1
DB 196,226,121,48,201 ; vpmovzxbw %xmm1,%xmm1
DB 196,227,113,14,192,240 ; vpblendw $0xf0,%xmm0,%xmm1,%xmm0
- DB 233,45,255,255,255 ; jmpq af2a <_sk_load_a8_avx+0x1f>
- DB 15,31,0 ; nopl (%rax)
- DB 143 ; (bad)
- DB 255 ; (bad)
+ DB 233,46,255,255,255 ; jmpq af2d <_sk_load_a8_avx+0x1e>
+ DB 144 ; nop
+ DB 145 ; xchg %eax,%ecx
DB 255 ; (bad)
- DB 255,169,255,255,255,154 ; ljmp *-0x65000001(%rcx)
DB 255 ; (bad)
+ DB 255,171,255,255,255,156 ; ljmp *-0x63000001(%rbx)
DB 255 ; (bad)
- DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 233,255,255,255,222 ; jmpq ffffffffdf00b010 <_sk_overlay_sse2_8bit+0xffffffffdefdf39b>
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
DB 255 ; (bad)
- DB 255,209 ; callq *%rcx
+ DB 255,211 ; callq *%rbx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,194 ; inc %edx
+ DB 255,196 ; inc %esp
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_a8_dst_avx
_sk_load_a8_dst_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,67 ; jne b078 <_sk_load_a8_dst_avx+0x5c>
- DB 196,194,121,48,36,25 ; vpmovzxbw (%r9,%rbx,1),%xmm4
- DB 197,217,219,37,13,26,2,0 ; vpand 0x21a0d(%rip),%xmm4,%xmm4 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,66 ; jne b076 <_sk_load_a8_dst_avx+0x5a>
+ DB 196,130,121,48,36,24 ; vpmovzxbw (%r8,%r11,1),%xmm4
+ DB 197,217,219,37,142,26,2,0 ; vpand 0x21a8e(%rip),%xmm4,%xmm4 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 197,209,239,237 ; vpxor %xmm5,%xmm5,%xmm5
DB 197,217,105,237 ; vpunpckhwd %xmm5,%xmm4,%xmm5
DB 196,226,121,51,228 ; vpmovzxwd %xmm4,%xmm4
DB 196,227,93,24,229,1 ; vinsertf128 $0x1,%xmm5,%ymm4,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,226,125,24,45,205,16,2,0 ; vbroadcastss 0x210cd(%rip),%ymm5 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,45,246,16,2,0 ; vbroadcastss 0x210f6(%rip),%ymm5 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,220,89,253 ; vmulps %ymm5,%ymm4,%ymm7
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,220,87,228 ; vxorps %ymm4,%ymm4,%ymm4
DB 197,212,87,237 ; vxorps %ymm5,%ymm5,%ymm5
DB 197,204,87,246 ; vxorps %ymm6,%ymm6,%ymm6
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,175 ; ja b03b <_sk_load_a8_dst_avx+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,121,0,0,0 ; lea 0x79(%rip),%r11 # b110 <_sk_load_a8_dst_avx+0xf4>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,176 ; ja b03a <_sk_load_a8_dst_avx+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,119,0,0,0 ; lea 0x77(%rip),%r10 # b10c <_sk_load_a8_dst_avx+0xf0>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
- DB 235,144 ; jmp b03b <_sk_load_a8_dst_avx+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,145 ; jmp b03a <_sk_load_a8_dst_avx+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 197,217,196,224,2 ; vpinsrw $0x2,%eax,%xmm4,%xmm4
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,249,110,232 ; vmovd %eax,%xmm5
DB 196,226,121,48,237 ; vpmovzxbw %xmm5,%xmm5
DB 196,227,89,14,229,3 ; vpblendw $0x3,%xmm5,%xmm4,%xmm4
- DB 233,104,255,255,255 ; jmpq b03b <_sk_load_a8_dst_avx+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,105,255,255,255 ; jmpq b03a <_sk_load_a8_dst_avx+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 197,217,196,224,6 ; vpinsrw $0x6,%eax,%xmm4,%xmm4
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,217,196,224,5 ; vpinsrw $0x5,%eax,%xmm4,%xmm4
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,217,196,224,4 ; vpinsrw $0x4,%eax,%xmm4,%xmm4
- DB 196,193,121,110,44,25 ; vmovd (%r9,%rbx,1),%xmm5
+ DB 196,129,121,110,44,24 ; vmovd (%r8,%r11,1),%xmm5
DB 196,226,121,48,237 ; vpmovzxbw %xmm5,%xmm5
DB 196,227,81,14,228,240 ; vpblendw $0xf0,%xmm4,%xmm5,%xmm4
- DB 233,45,255,255,255 ; jmpq b03b <_sk_load_a8_dst_avx+0x1f>
- DB 102,144 ; xchg %ax,%ax
- DB 144 ; nop
+ DB 233,46,255,255,255 ; jmpq b03a <_sk_load_a8_dst_avx+0x1e>
+ DB 146 ; xchg %eax,%edx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,170,255,255,255,155 ; ljmp *-0x64000001(%rdx)
+ DB 255,172,255,255,255,157,255 ; ljmp *-0x620001(%rdi,%rdi,8)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 234 ; (bad)
DB 255 ; (bad)
- DB 232,255,255,255,221 ; callq ffffffffde00b120 <_sk_overlay_sse2_8bit+0xffffffffddfdf4d3>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,210 ; callq *%rdx
+ DB 223,255 ; (bad)
DB 255 ; (bad)
+ DB 255,212 ; callq *%rsp
DB 255 ; (bad)
- DB 255,195 ; inc %ebx
+ DB 255 ; (bad)
+ DB 255,197 ; inc %ebp
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_a8_avx
_sk_gather_a8_avx LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
- DB 197,249,110,80,8 ; vmovd 0x8(%rax),%xmm2
- DB 197,249,112,210,0 ; vpshufd $0x0,%xmm2,%xmm2
- DB 196,226,105,64,217 ; vpmulld %xmm1,%xmm2,%xmm3
- DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 196,226,105,64,201 ; vpmulld %xmm1,%xmm2,%xmm1
- DB 197,254,91,208 ; vcvttps2dq %ymm0,%ymm2
- DB 196,227,125,25,208,1 ; vextractf128 $0x1,%ymm2,%xmm0
- DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
- DB 197,225,254,202 ; vpaddd %xmm2,%xmm3,%xmm1
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,195,121,32,20,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 197,254,91,209 ; vcvttps2dq %ymm1,%ymm2
+ DB 197,249,110,72,8 ; vmovd 0x8(%rax),%xmm1
+ DB 197,249,112,217,0 ; vpshufd $0x0,%xmm1,%xmm3
+ DB 196,226,97,64,202 ; vpmulld %xmm2,%xmm3,%xmm1
+ DB 196,227,125,25,210,1 ; vextractf128 $0x1,%ymm2,%xmm2
+ DB 196,226,97,64,210 ; vpmulld %xmm2,%xmm3,%xmm2
+ DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
+ DB 196,227,125,25,195,1 ; vextractf128 $0x1,%ymm0,%xmm3
+ DB 197,233,254,211 ; vpaddd %xmm3,%xmm2,%xmm2
+ DB 196,227,249,22,208,1 ; vpextrq $0x1,%xmm2,%rax
+ DB 65,137,193 ; mov %eax,%r9d
+ DB 72,193,232,32 ; shr $0x20,%rax
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,105,32,12,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm1
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
- DB 196,227,113,32,200,2 ; vpinsrb $0x2,%eax,%xmm1,%xmm1
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
+ DB 196,225,249,126,195 ; vmovq %xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 196,195,249,22,199,1 ; vpextrq $0x1,%xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,131,121,32,4,48,0 ; vpinsrb $0x0,(%r8,%r14,1),%xmm0,%xmm0
+ DB 196,195,121,32,4,24,1 ; vpinsrb $0x1,(%r8,%rbx,1),%xmm0,%xmm0
+ DB 67,15,182,28,32 ; movzbl (%r8,%r12,1),%ebx
+ DB 196,227,121,32,195,2 ; vpinsrb $0x2,%ebx,%xmm0,%xmm0
+ DB 67,15,182,28,56 ; movzbl (%r8,%r15,1),%ebx
+ DB 196,227,121,32,195,3 ; vpinsrb $0x3,%ebx,%xmm0,%xmm0
+ DB 196,226,121,49,192 ; vpmovzxbd %xmm0,%xmm0
+ DB 196,131,121,32,12,24,0 ; vpinsrb $0x0,(%r8,%r11,1),%xmm0,%xmm1
+ DB 196,131,113,32,12,16,1 ; vpinsrb $0x1,(%r8,%r10,1),%xmm1,%xmm1
+ DB 67,15,182,28,8 ; movzbl (%r8,%r9,1),%ebx
+ DB 196,227,113,32,203,2 ; vpinsrb $0x2,%ebx,%xmm1,%xmm1
+ DB 65,15,182,4,0 ; movzbl (%r8,%rax,1),%eax
DB 196,227,113,32,200,3 ; vpinsrb $0x3,%eax,%xmm1,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,195,121,32,20,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,105,32,4,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
- DB 196,227,121,32,192,2 ; vpinsrb $0x2,%eax,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
DB 196,226,121,49,201 ; vpmovzxbd %xmm1,%xmm1
- DB 196,227,121,32,192,3 ; vpinsrb $0x3,%eax,%xmm0,%xmm0
- DB 196,226,121,49,192 ; vpmovzxbd %xmm0,%xmm0
- DB 196,227,117,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm1,%ymm0
+ DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,56,15,2,0 ; vbroadcastss 0x20f38(%rip),%ymm1 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,13,93,15,2,0 ; vbroadcastss 0x20f5d(%rip),%ymm1 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,252,89,217 ; vmulps %ymm1,%ymm0,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,87,192 ; vxorps %ymm0,%ymm0,%ymm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 197,236,87,210 ; vxorps %ymm2,%ymm2,%ymm2
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_a8_avx
_sk_store_a8_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 196,98,125,24,5,191,14,2,0 ; vbroadcastss 0x20ebf(%rip),%ymm8 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 196,98,125,24,5,222,14,2,0 ; vbroadcastss 0x20ede(%rip),%ymm8 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,65,100,89,192 ; vmulps %ymm8,%ymm3,%ymm8
DB 196,65,125,91,192 ; vcvtps2dq %ymm8,%ymm8
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
DB 196,66,57,43,193 ; vpackusdw %xmm9,%xmm8,%xmm8
DB 196,65,57,103,192 ; vpackuswb %xmm8,%xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,11 ; jne b253 <_sk_store_a8_avx+0x47>
- DB 196,65,123,17,4,25 ; vmovsd %xmm8,(%r9,%rbx,1)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne b25b <_sk_store_a8_avx+0x45>
+ DB 196,1,123,17,4,24 ; vmovsd %xmm8,(%r8,%r11,1)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,235 ; ja b24e <_sk_store_a8_avx+0x42>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,236 ; ja b257 <_sk_store_a8_avx+0x41>
DB 196,66,121,48,192 ; vpmovzxbw %xmm8,%xmm8
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,85,0,0,0 ; lea 0x55(%rip),%r11 # b2c8 <_sk_store_a8_avx+0xbc>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,67,121,20,4,25,0 ; vpextrb $0x0,%xmm8,(%r9,%rbx,1)
- DB 235,201 ; jmp b24e <_sk_store_a8_avx+0x42>
- DB 196,67,121,20,68,25,2,4 ; vpextrb $0x4,%xmm8,0x2(%r9,%rbx,1)
- DB 196,98,57,0,5,202,23,2,0 ; vpshufb 0x217ca(%rip),%xmm8,%xmm8 # 2ca60 <_sk_overlay_sse2_8bit+0xe13>
- DB 196,67,121,21,4,25,0 ; vpextrw $0x0,%xmm8,(%r9,%rbx,1)
- DB 235,175 ; jmp b24e <_sk_store_a8_avx+0x42>
- DB 196,67,121,20,68,25,6,12 ; vpextrb $0xc,%xmm8,0x6(%r9,%rbx,1)
- DB 196,67,121,20,68,25,5,10 ; vpextrb $0xa,%xmm8,0x5(%r9,%rbx,1)
- DB 196,67,121,20,68,25,4,8 ; vpextrb $0x8,%xmm8,0x4(%r9,%rbx,1)
- DB 196,98,57,0,5,176,23,2,0 ; vpshufb 0x217b0(%rip),%xmm8,%xmm8 # 2ca70 <_sk_overlay_sse2_8bit+0xe23>
- DB 196,65,121,126,4,25 ; vmovd %xmm8,(%r9,%rbx,1)
- DB 235,134 ; jmp b24e <_sk_store_a8_avx+0x42>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,85,0,0,0 ; lea 0x55(%rip),%r10 # b2d0 <_sk_store_a8_avx+0xba>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,3,121,20,4,24,0 ; vpextrb $0x0,%xmm8,(%r8,%r11,1)
+ DB 235,202 ; jmp b257 <_sk_store_a8_avx+0x41>
+ DB 196,3,121,20,68,24,2,4 ; vpextrb $0x4,%xmm8,0x2(%r8,%r11,1)
+ DB 196,98,57,0,5,66,24,2,0 ; vpshufb 0x21842(%rip),%xmm8,%xmm8 # 2cae0 <_sk_overlay_sse2_8bit+0xe6b>
+ DB 196,3,121,21,4,24,0 ; vpextrw $0x0,%xmm8,(%r8,%r11,1)
+ DB 235,176 ; jmp b257 <_sk_store_a8_avx+0x41>
+ DB 196,3,121,20,68,24,6,12 ; vpextrb $0xc,%xmm8,0x6(%r8,%r11,1)
+ DB 196,3,121,20,68,24,5,10 ; vpextrb $0xa,%xmm8,0x5(%r8,%r11,1)
+ DB 196,3,121,20,68,24,4,8 ; vpextrb $0x8,%xmm8,0x4(%r8,%r11,1)
+ DB 196,98,57,0,5,40,24,2,0 ; vpshufb 0x21828(%rip),%xmm8,%xmm8 # 2caf0 <_sk_overlay_sse2_8bit+0xe7b>
+ DB 196,1,121,126,4,24 ; vmovd %xmm8,(%r8,%r11,1)
+ DB 235,135 ; jmp b257 <_sk_store_a8_avx+0x41>
DB 180,255 ; mov $0xff,%ah
DB 255 ; (bad)
DB 255,197 ; inc %ebp
@@ -10581,272 +10590,278 @@ _sk_store_a8_avx LABEL PROC
PUBLIC _sk_load_g8_avx
_sk_load_g8_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,72 ; jne b345 <_sk_load_g8_avx+0x61>
- DB 196,194,121,48,4,25 ; vpmovzxbw (%r9,%rbx,1),%xmm0
- DB 197,249,219,5,69,23,2,0 ; vpand 0x21745(%rip),%xmm0,%xmm0 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,71 ; jne b34b <_sk_load_g8_avx+0x5f>
+ DB 196,130,121,48,4,24 ; vpmovzxbw (%r8,%r11,1),%xmm0
+ DB 197,249,219,5,190,23,2,0 ; vpand 0x217be(%rip),%xmm0,%xmm0 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 197,241,239,201 ; vpxor %xmm1,%xmm1,%xmm1
DB 197,249,105,201 ; vpunpckhwd %xmm1,%xmm0,%xmm1
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,5,14,2,0 ; vbroadcastss 0x20e05(%rip),%ymm1 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,13,38,14,2,0 ; vbroadcastss 0x20e26(%rip),%ymm1 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,130,13,2,0 ; vbroadcastss 0x20d82(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,163,13,2,0 ; vbroadcastss 0x20da3(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,40,200 ; vmovaps %ymm0,%ymm1
DB 197,252,40,208 ; vmovaps %ymm0,%ymm2
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,170 ; ja b303 <_sk_load_g8_avx+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,120,0,0,0 ; lea 0x78(%rip),%r11 # b3dc <_sk_load_g8_avx+0xf8>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,171 ; ja b30a <_sk_load_g8_avx+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,122,0,0,0 ; lea 0x7a(%rip),%r10 # b3e4 <_sk_load_g8_avx+0xf8>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,249,110,192 ; vmovd %eax,%xmm0
- DB 235,139 ; jmp b303 <_sk_load_g8_avx+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,140 ; jmp b30a <_sk_load_g8_avx+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 197,249,196,192,2 ; vpinsrw $0x2,%eax,%xmm0,%xmm0
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,249,110,200 ; vmovd %eax,%xmm1
DB 196,226,121,48,201 ; vpmovzxbw %xmm1,%xmm1
DB 196,227,121,14,193,3 ; vpblendw $0x3,%xmm1,%xmm0,%xmm0
- DB 233,99,255,255,255 ; jmpq b303 <_sk_load_g8_avx+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,100,255,255,255 ; jmpq b30a <_sk_load_g8_avx+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 197,249,196,192,6 ; vpinsrw $0x6,%eax,%xmm0,%xmm0
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,249,196,192,5 ; vpinsrw $0x5,%eax,%xmm0,%xmm0
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,249,196,192,4 ; vpinsrw $0x4,%eax,%xmm0,%xmm0
- DB 196,193,121,110,12,25 ; vmovd (%r9,%rbx,1),%xmm1
+ DB 196,129,121,110,12,24 ; vmovd (%r8,%r11,1),%xmm1
DB 196,226,121,48,201 ; vpmovzxbw %xmm1,%xmm1
DB 196,227,113,14,192,240 ; vpblendw $0xf0,%xmm0,%xmm1,%xmm0
- DB 233,40,255,255,255 ; jmpq b303 <_sk_load_g8_avx+0x1f>
- DB 144 ; nop
- DB 145 ; xchg %eax,%ecx
+ DB 233,41,255,255,255 ; jmpq b30a <_sk_load_g8_avx+0x1e>
+ DB 15,31,0 ; nopl (%rax)
+ DB 143 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,171,255,255,255,156 ; ljmp *-0x63000001(%rbx)
+ DB 255,169,255,255,255,154 ; ljmp *-0x65000001(%rcx)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
- DB 233,255,255,255,222 ; jmpq ffffffffdf00b3ec <_sk_overlay_sse2_8bit+0xffffffffdefdf79f>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,211 ; callq *%rbx
+ DB 220,255 ; fdivr %st,%st(7)
DB 255 ; (bad)
+ DB 255,209 ; callq *%rcx
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 255 ; (bad)
+ DB 255,194 ; inc %edx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_g8_dst_avx
_sk_load_g8_dst_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 117,72 ; jne b459 <_sk_load_g8_dst_avx+0x61>
- DB 196,194,121,48,36,25 ; vpmovzxbw (%r9,%rbx,1),%xmm4
- DB 197,217,219,37,49,22,2,0 ; vpand 0x21631(%rip),%xmm4,%xmm4 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,71 ; jne b45f <_sk_load_g8_dst_avx+0x5f>
+ DB 196,130,121,48,36,24 ; vpmovzxbw (%r8,%r11,1),%xmm4
+ DB 197,217,219,37,170,22,2,0 ; vpand 0x216aa(%rip),%xmm4,%xmm4 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 197,209,239,237 ; vpxor %xmm5,%xmm5,%xmm5
DB 197,217,105,237 ; vpunpckhwd %xmm5,%xmm4,%xmm5
DB 196,226,121,51,228 ; vpmovzxwd %xmm4,%xmm4
DB 196,227,93,24,229,1 ; vinsertf128 $0x1,%xmm5,%ymm4,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,226,125,24,45,241,12,2,0 ; vbroadcastss 0x20cf1(%rip),%ymm5 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,45,18,13,2,0 ; vbroadcastss 0x20d12(%rip),%ymm5 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,220,89,229 ; vmulps %ymm5,%ymm4,%ymm4
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,61,110,12,2,0 ; vbroadcastss 0x20c6e(%rip),%ymm7 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,61,143,12,2,0 ; vbroadcastss 0x20c8f(%rip),%ymm7 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,40,236 ; vmovaps %ymm4,%ymm5
DB 197,252,40,244 ; vmovaps %ymm4,%ymm6
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,170 ; ja b417 <_sk_load_g8_dst_avx+0x1f>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,120,0,0,0 ; lea 0x78(%rip),%r11 # b4f0 <_sk_load_g8_dst_avx+0xf8>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,171 ; ja b41e <_sk_load_g8_dst_avx+0x1e>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,122,0,0,0 ; lea 0x7a(%rip),%r10 # b4f8 <_sk_load_g8_dst_avx+0xf8>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 255,224 ; jmpq *%rax
- DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
+ DB 67,15,182,4,24 ; movzbl (%r8,%r11,1),%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
- DB 235,139 ; jmp b417 <_sk_load_g8_dst_avx+0x1f>
- DB 65,15,182,68,25,2 ; movzbl 0x2(%r9,%rbx,1),%eax
+ DB 235,140 ; jmp b41e <_sk_load_g8_dst_avx+0x1e>
+ DB 67,15,182,68,24,2 ; movzbl 0x2(%r8,%r11,1),%eax
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 197,217,196,224,2 ; vpinsrw $0x2,%eax,%xmm4,%xmm4
- DB 65,15,183,4,25 ; movzwl (%r9,%rbx,1),%eax
+ DB 67,15,183,4,24 ; movzwl (%r8,%r11,1),%eax
DB 197,249,110,232 ; vmovd %eax,%xmm5
DB 196,226,121,48,237 ; vpmovzxbw %xmm5,%xmm5
DB 196,227,89,14,229,3 ; vpblendw $0x3,%xmm5,%xmm4,%xmm4
- DB 233,99,255,255,255 ; jmpq b417 <_sk_load_g8_dst_avx+0x1f>
- DB 65,15,182,68,25,6 ; movzbl 0x6(%r9,%rbx,1),%eax
+ DB 233,100,255,255,255 ; jmpq b41e <_sk_load_g8_dst_avx+0x1e>
+ DB 67,15,182,68,24,6 ; movzbl 0x6(%r8,%r11,1),%eax
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 197,217,196,224,6 ; vpinsrw $0x6,%eax,%xmm4,%xmm4
- DB 65,15,182,68,25,5 ; movzbl 0x5(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,5 ; movzbl 0x5(%r8,%r11,1),%eax
DB 197,217,196,224,5 ; vpinsrw $0x5,%eax,%xmm4,%xmm4
- DB 65,15,182,68,25,4 ; movzbl 0x4(%r9,%rbx,1),%eax
+ DB 67,15,182,68,24,4 ; movzbl 0x4(%r8,%r11,1),%eax
DB 197,217,196,224,4 ; vpinsrw $0x4,%eax,%xmm4,%xmm4
- DB 196,193,121,110,44,25 ; vmovd (%r9,%rbx,1),%xmm5
+ DB 196,129,121,110,44,24 ; vmovd (%r8,%r11,1),%xmm5
DB 196,226,121,48,237 ; vpmovzxbw %xmm5,%xmm5
DB 196,227,81,14,228,240 ; vpblendw $0xf0,%xmm4,%xmm5,%xmm4
- DB 233,40,255,255,255 ; jmpq b417 <_sk_load_g8_dst_avx+0x1f>
- DB 144 ; nop
- DB 145 ; xchg %eax,%ecx
+ DB 233,41,255,255,255 ; jmpq b41e <_sk_load_g8_dst_avx+0x1e>
+ DB 15,31,0 ; nopl (%rax)
+ DB 143 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,171,255,255,255,156 ; ljmp *-0x63000001(%rbx)
+ DB 255,169,255,255,255,154 ; ljmp *-0x65000001(%rcx)
DB 255 ; (bad)
DB 255 ; (bad)
+ DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
- DB 233,255,255,255,222 ; jmpq ffffffffdf00b500 <_sk_overlay_sse2_8bit+0xffffffffdefdf8b3>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,211 ; callq *%rbx
+ DB 220,255 ; fdivr %st,%st(7)
DB 255 ; (bad)
+ DB 255,209 ; callq *%rcx
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 255 ; (bad)
+ DB 255,194 ; inc %edx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_g8_avx
_sk_gather_g8_avx LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
- DB 197,249,110,80,8 ; vmovd 0x8(%rax),%xmm2
- DB 197,249,112,210,0 ; vpshufd $0x0,%xmm2,%xmm2
- DB 196,226,105,64,217 ; vpmulld %xmm1,%xmm2,%xmm3
- DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 196,226,105,64,201 ; vpmulld %xmm1,%xmm2,%xmm1
- DB 197,254,91,208 ; vcvttps2dq %ymm0,%ymm2
- DB 196,227,125,25,208,1 ; vextractf128 $0x1,%ymm2,%xmm0
- DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
- DB 197,225,254,202 ; vpaddd %xmm2,%xmm3,%xmm1
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,195,121,32,20,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 197,254,91,209 ; vcvttps2dq %ymm1,%ymm2
+ DB 197,249,110,72,8 ; vmovd 0x8(%rax),%xmm1
+ DB 197,249,112,217,0 ; vpshufd $0x0,%xmm1,%xmm3
+ DB 196,226,97,64,202 ; vpmulld %xmm2,%xmm3,%xmm1
+ DB 196,227,125,25,210,1 ; vextractf128 $0x1,%ymm2,%xmm2
+ DB 196,226,97,64,210 ; vpmulld %xmm2,%xmm3,%xmm2
+ DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
+ DB 196,227,125,25,195,1 ; vextractf128 $0x1,%ymm0,%xmm3
+ DB 197,233,254,211 ; vpaddd %xmm3,%xmm2,%xmm2
+ DB 196,227,249,22,208,1 ; vpextrq $0x1,%xmm2,%rax
+ DB 65,137,193 ; mov %eax,%r9d
+ DB 72,193,232,32 ; shr $0x20,%rax
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,105,32,12,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm1
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
- DB 196,227,113,32,200,2 ; vpinsrb $0x2,%eax,%xmm1,%xmm1
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
+ DB 196,225,249,126,195 ; vmovq %xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 196,195,249,22,199,1 ; vpextrq $0x1,%xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,131,121,32,4,48,0 ; vpinsrb $0x0,(%r8,%r14,1),%xmm0,%xmm0
+ DB 196,195,121,32,4,24,1 ; vpinsrb $0x1,(%r8,%rbx,1),%xmm0,%xmm0
+ DB 67,15,182,28,32 ; movzbl (%r8,%r12,1),%ebx
+ DB 196,227,121,32,195,2 ; vpinsrb $0x2,%ebx,%xmm0,%xmm0
+ DB 67,15,182,28,56 ; movzbl (%r8,%r15,1),%ebx
+ DB 196,227,121,32,195,3 ; vpinsrb $0x3,%ebx,%xmm0,%xmm0
+ DB 196,226,121,49,192 ; vpmovzxbd %xmm0,%xmm0
+ DB 196,131,121,32,12,24,0 ; vpinsrb $0x0,(%r8,%r11,1),%xmm0,%xmm1
+ DB 196,131,113,32,12,16,1 ; vpinsrb $0x1,(%r8,%r10,1),%xmm1,%xmm1
+ DB 67,15,182,28,8 ; movzbl (%r8,%r9,1),%ebx
+ DB 196,227,113,32,203,2 ; vpinsrb $0x2,%ebx,%xmm1,%xmm1
+ DB 65,15,182,4,0 ; movzbl (%r8,%rax,1),%eax
DB 196,227,113,32,200,3 ; vpinsrb $0x3,%eax,%xmm1,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,195,121,32,20,1,0 ; vpinsrb $0x0,(%r9,%rax,1),%xmm0,%xmm2
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,105,32,4,17,1 ; vpinsrb $0x1,(%r9,%r10,1),%xmm2,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
- DB 196,227,121,32,192,2 ; vpinsrb $0x2,%eax,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
DB 196,226,121,49,201 ; vpmovzxbd %xmm1,%xmm1
- DB 196,227,121,32,192,3 ; vpinsrb $0x3,%eax,%xmm0,%xmm0
- DB 196,226,121,49,192 ; vpmovzxbd %xmm0,%xmm0
- DB 196,227,117,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm1,%ymm0
+ DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,88,11,2,0 ; vbroadcastss 0x20b58(%rip),%ymm1 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,226,125,24,13,113,11,2,0 ; vbroadcastss 0x20b71(%rip),%ymm1 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,213,10,2,0 ; vbroadcastss 0x20ad5(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,238,10,2,0 ; vbroadcastss 0x20aee(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,40,200 ; vmovaps %ymm0,%ymm1
DB 197,252,40,208 ; vmovaps %ymm0,%ymm2
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_load_565_avx
_sk_load_565_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,129,0,0,0 ; jne b692 <_sk_load_565_avx+0xa1>
- DB 196,193,122,111,4,89 ; vmovdqu (%r9,%rbx,2),%xmm0
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,128,0,0,0 ; jne b6a6 <_sk_load_565_avx+0x9f>
+ DB 196,129,122,111,4,88 ; vmovdqu (%r8,%r11,2),%xmm0
DB 197,241,239,201 ; vpxor %xmm1,%xmm1,%xmm1
DB 197,249,105,201 ; vpunpckhwd %xmm1,%xmm0,%xmm1
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
DB 196,227,125,24,209,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm2
- DB 196,226,125,24,5,1,11,2,0 ; vbroadcastss 0x20b01(%rip),%ymm0 # 2c134 <_sk_overlay_sse2_8bit+0x4e7>
+ DB 196,226,125,24,5,20,11,2,0 ; vbroadcastss 0x20b14(%rip),%ymm0 # 2c15c <_sk_overlay_sse2_8bit+0x4e7>
DB 197,236,84,192 ; vandps %ymm0,%ymm2,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,244,10,2,0 ; vbroadcastss 0x20af4(%rip),%ymm1 # 2c138 <_sk_overlay_sse2_8bit+0x4eb>
+ DB 196,226,125,24,13,7,11,2,0 ; vbroadcastss 0x20b07(%rip),%ymm1 # 2c160 <_sk_overlay_sse2_8bit+0x4eb>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
- DB 196,226,125,24,13,235,10,2,0 ; vbroadcastss 0x20aeb(%rip),%ymm1 # 2c13c <_sk_overlay_sse2_8bit+0x4ef>
+ DB 196,226,125,24,13,254,10,2,0 ; vbroadcastss 0x20afe(%rip),%ymm1 # 2c164 <_sk_overlay_sse2_8bit+0x4ef>
DB 197,236,84,201 ; vandps %ymm1,%ymm2,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
- DB 196,226,125,24,29,222,10,2,0 ; vbroadcastss 0x20ade(%rip),%ymm3 # 2c140 <_sk_overlay_sse2_8bit+0x4f3>
+ DB 196,226,125,24,29,241,10,2,0 ; vbroadcastss 0x20af1(%rip),%ymm3 # 2c168 <_sk_overlay_sse2_8bit+0x4f3>
DB 197,244,89,203 ; vmulps %ymm3,%ymm1,%ymm1
- DB 196,226,125,24,29,213,10,2,0 ; vbroadcastss 0x20ad5(%rip),%ymm3 # 2c144 <_sk_overlay_sse2_8bit+0x4f7>
+ DB 196,226,125,24,29,232,10,2,0 ; vbroadcastss 0x20ae8(%rip),%ymm3 # 2c16c <_sk_overlay_sse2_8bit+0x4f7>
DB 197,236,84,211 ; vandps %ymm3,%ymm2,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
- DB 196,226,125,24,29,200,10,2,0 ; vbroadcastss 0x20ac8(%rip),%ymm3 # 2c148 <_sk_overlay_sse2_8bit+0x4fb>
+ DB 196,226,125,24,29,219,10,2,0 ; vbroadcastss 0x20adb(%rip),%ymm3 # 2c170 <_sk_overlay_sse2_8bit+0x4fb>
DB 197,236,89,211 ; vmulps %ymm3,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,45,10,2,0 ; vbroadcastss 0x20a2d(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
- DB 91 ; pop %rbx
+ DB 196,226,125,24,29,64,10,2,0 ; vbroadcastss 0x20a40(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,109,255,255,255 ; ja b617 <_sk_load_565_avx+0x26>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,99,0,0,0 ; lea 0x63(%rip),%r11 # b718 <_sk_load_565_avx+0x127>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,110,255,255,255 ; ja b62c <_sk_load_565_avx+0x25>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,99,0,0,0 ; lea 0x63(%rip),%r10 # b72c <_sk_load_565_avx+0x125>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,249,110,192 ; vmovd %eax,%xmm0
- DB 233,75,255,255,255 ; jmpq b617 <_sk_load_565_avx+0x26>
+ DB 233,76,255,255,255 ; jmpq b62c <_sk_load_565_avx+0x25>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 196,193,121,196,68,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,110,12,89 ; vmovd (%r9,%rbx,2),%xmm1
+ DB 196,129,121,196,68,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,110,12,88 ; vmovd (%r8,%r11,2),%xmm1
DB 196,227,121,14,193,3 ; vpblendw $0x3,%xmm1,%xmm0,%xmm0
- DB 233,46,255,255,255 ; jmpq b617 <_sk_load_565_avx+0x26>
+ DB 233,47,255,255,255 ; jmpq b62c <_sk_load_565_avx+0x25>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 196,193,121,196,68,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,196,68,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,196,68,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,122,126,12,89 ; vmovq (%r9,%rbx,2),%xmm1
+ DB 196,129,121,196,68,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,196,68,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,196,68,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,122,126,12,88 ; vmovq (%r8,%r11,2),%xmm1
DB 196,227,113,14,192,240 ; vpblendw $0xf0,%xmm0,%xmm1,%xmm0
- DB 233,1,255,255,255 ; jmpq b617 <_sk_load_565_avx+0x26>
+ DB 233,2,255,255,255 ; jmpq b62c <_sk_load_565_avx+0x25>
DB 102,144 ; xchg %ax,%ax
DB 166 ; cmpsb %es:(%rdi),%ds:(%rsi)
DB 255 ; (bad)
@@ -10869,172 +10884,177 @@ _sk_load_565_avx LABEL PROC
PUBLIC _sk_load_565_dst_avx
_sk_load_565_dst_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,129,0,0,0 ; jne b7d5 <_sk_load_565_dst_avx+0xa1>
- DB 196,193,122,111,36,89 ; vmovdqu (%r9,%rbx,2),%xmm4
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,128,0,0,0 ; jne b7e7 <_sk_load_565_dst_avx+0x9f>
+ DB 196,129,122,111,36,88 ; vmovdqu (%r8,%r11,2),%xmm4
DB 197,209,239,237 ; vpxor %xmm5,%xmm5,%xmm5
DB 197,217,105,237 ; vpunpckhwd %xmm5,%xmm4,%xmm5
DB 196,226,121,51,228 ; vpmovzxwd %xmm4,%xmm4
DB 196,227,93,24,245,1 ; vinsertf128 $0x1,%xmm5,%ymm4,%ymm6
- DB 196,226,125,24,37,190,9,2,0 ; vbroadcastss 0x209be(%rip),%ymm4 # 2c134 <_sk_overlay_sse2_8bit+0x4e7>
+ DB 196,226,125,24,37,211,9,2,0 ; vbroadcastss 0x209d3(%rip),%ymm4 # 2c15c <_sk_overlay_sse2_8bit+0x4e7>
DB 197,204,84,228 ; vandps %ymm4,%ymm6,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,226,125,24,45,177,9,2,0 ; vbroadcastss 0x209b1(%rip),%ymm5 # 2c138 <_sk_overlay_sse2_8bit+0x4eb>
+ DB 196,226,125,24,45,198,9,2,0 ; vbroadcastss 0x209c6(%rip),%ymm5 # 2c160 <_sk_overlay_sse2_8bit+0x4eb>
DB 197,220,89,229 ; vmulps %ymm5,%ymm4,%ymm4
- DB 196,226,125,24,45,168,9,2,0 ; vbroadcastss 0x209a8(%rip),%ymm5 # 2c13c <_sk_overlay_sse2_8bit+0x4ef>
+ DB 196,226,125,24,45,189,9,2,0 ; vbroadcastss 0x209bd(%rip),%ymm5 # 2c164 <_sk_overlay_sse2_8bit+0x4ef>
DB 197,204,84,237 ; vandps %ymm5,%ymm6,%ymm5
DB 197,252,91,237 ; vcvtdq2ps %ymm5,%ymm5
- DB 196,226,125,24,61,155,9,2,0 ; vbroadcastss 0x2099b(%rip),%ymm7 # 2c140 <_sk_overlay_sse2_8bit+0x4f3>
+ DB 196,226,125,24,61,176,9,2,0 ; vbroadcastss 0x209b0(%rip),%ymm7 # 2c168 <_sk_overlay_sse2_8bit+0x4f3>
DB 197,212,89,239 ; vmulps %ymm7,%ymm5,%ymm5
- DB 196,226,125,24,61,146,9,2,0 ; vbroadcastss 0x20992(%rip),%ymm7 # 2c144 <_sk_overlay_sse2_8bit+0x4f7>
+ DB 196,226,125,24,61,167,9,2,0 ; vbroadcastss 0x209a7(%rip),%ymm7 # 2c16c <_sk_overlay_sse2_8bit+0x4f7>
DB 197,204,84,247 ; vandps %ymm7,%ymm6,%ymm6
DB 197,252,91,246 ; vcvtdq2ps %ymm6,%ymm6
- DB 196,226,125,24,61,133,9,2,0 ; vbroadcastss 0x20985(%rip),%ymm7 # 2c148 <_sk_overlay_sse2_8bit+0x4fb>
+ DB 196,226,125,24,61,154,9,2,0 ; vbroadcastss 0x2099a(%rip),%ymm7 # 2c170 <_sk_overlay_sse2_8bit+0x4fb>
DB 197,204,89,247 ; vmulps %ymm7,%ymm6,%ymm6
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,61,234,8,2,0 ; vbroadcastss 0x208ea(%rip),%ymm7 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
- DB 91 ; pop %rbx
+ DB 196,226,125,24,61,255,8,2,0 ; vbroadcastss 0x208ff(%rip),%ymm7 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,109,255,255,255 ; ja b75a <_sk_load_565_dst_avx+0x26>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,100,0,0,0 ; lea 0x64(%rip),%r11 # b85c <_sk_load_565_dst_avx+0x128>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,110,255,255,255 ; ja b76d <_sk_load_565_dst_avx+0x25>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,98,0,0,0 ; lea 0x62(%rip),%r10 # b86c <_sk_load_565_dst_avx+0x124>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
- DB 233,75,255,255,255 ; jmpq b75a <_sk_load_565_dst_avx+0x26>
+ DB 233,76,255,255,255 ; jmpq b76d <_sk_load_565_dst_avx+0x25>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 196,193,89,196,100,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,121,110,44,89 ; vmovd (%r9,%rbx,2),%xmm5
+ DB 196,129,89,196,100,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,121,110,44,88 ; vmovd (%r8,%r11,2),%xmm5
DB 196,227,89,14,229,3 ; vpblendw $0x3,%xmm5,%xmm4,%xmm4
- DB 233,46,255,255,255 ; jmpq b75a <_sk_load_565_dst_avx+0x26>
+ DB 233,47,255,255,255 ; jmpq b76d <_sk_load_565_dst_avx+0x25>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 196,193,89,196,100,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,89,196,100,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,89,196,100,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,122,126,44,89 ; vmovq (%r9,%rbx,2),%xmm5
+ DB 196,129,89,196,100,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,89,196,100,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,89,196,100,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,122,126,44,88 ; vmovq (%r8,%r11,2),%xmm5
DB 196,227,81,14,228,240 ; vpblendw $0xf0,%xmm4,%xmm5,%xmm4
- DB 233,1,255,255,255 ; jmpq b75a <_sk_load_565_dst_avx+0x26>
- DB 15,31,0 ; nopl (%rax)
- DB 165 ; movsl %ds:(%rsi),%es:(%rdi)
- DB 255 ; (bad)
- DB 255 ; (bad)
+ DB 233,2,255,255,255 ; jmpq b76d <_sk_load_565_dst_avx+0x25>
+ DB 144 ; nop
+ DB 167 ; cmpsl %es:(%rdi),%ds:(%rsi)
DB 255 ; (bad)
- DB 191,255,255,255,179 ; mov $0xb3ffffff,%edi
DB 255 ; (bad)
+ DB 255,193 ; inc %ecx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
+ DB 255,181,255,255,255,238 ; pushq -0x11000001(%rbp)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,228 ; jmpq *%rsp
+ DB 255,230 ; jmpq *%rsi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
+ DB 222,255 ; fdivrp %st,%st(7)
DB 255 ; (bad)
- DB 255,208 ; callq *%rax
+ DB 255,210 ; callq *%rdx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_565_avx
_sk_gather_565_avx LABEL PROC
+ DB 85 ; push %rbp
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
- DB 197,249,110,80,8 ; vmovd 0x8(%rax),%xmm2
- DB 197,249,112,210,0 ; vpshufd $0x0,%xmm2,%xmm2
- DB 196,226,105,64,217 ; vpmulld %xmm1,%xmm2,%xmm3
- DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 196,226,105,64,201 ; vpmulld %xmm1,%xmm2,%xmm1
- DB 197,254,91,208 ; vcvttps2dq %ymm0,%ymm2
- DB 196,227,125,25,208,1 ; vextractf128 $0x1,%ymm2,%xmm0
- DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
- DB 197,225,254,202 ; vpaddd %xmm2,%xmm3,%xmm1
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,249,110,208 ; vmovd %eax,%xmm2
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 67,15,183,4,81 ; movzwl (%r9,%r10,2),%eax
- DB 197,233,196,200,1 ; vpinsrw $0x1,%eax,%xmm2,%xmm1
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,241,196,200,2 ; vpinsrw $0x2,%eax,%xmm1,%xmm1
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
- DB 197,241,196,200,3 ; vpinsrw $0x3,%eax,%xmm1,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,241,196,200,4 ; vpinsrw $0x4,%eax,%xmm1,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 197,254,91,209 ; vcvttps2dq %ymm1,%ymm2
+ DB 197,249,110,72,8 ; vmovd 0x8(%rax),%xmm1
+ DB 197,249,112,217,0 ; vpshufd $0x0,%xmm1,%xmm3
+ DB 196,226,97,64,202 ; vpmulld %xmm2,%xmm3,%xmm1
+ DB 196,227,125,25,210,1 ; vextractf128 $0x1,%ymm2,%xmm2
+ DB 196,226,97,64,210 ; vpmulld %xmm2,%xmm3,%xmm2
+ DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
+ DB 196,227,125,25,195,1 ; vextractf128 $0x1,%ymm0,%xmm3
+ DB 197,233,254,211 ; vpaddd %xmm3,%xmm2,%xmm2
+ DB 196,227,249,22,208,1 ; vpextrq $0x1,%xmm2,%rax
+ DB 65,137,193 ; mov %eax,%r9d
+ DB 72,193,232,32 ; shr $0x20,%rax
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 67,15,183,4,81 ; movzwl (%r9,%r10,2),%eax
- DB 197,241,196,192,5 ; vpinsrw $0x5,%eax,%xmm1,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,249,196,192,6 ; vpinsrw $0x6,%eax,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
+ DB 196,225,249,126,195 ; vmovq %xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 196,195,249,22,199,1 ; vpextrq $0x1,%xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,15,183,28,88 ; movzwl (%r8,%rbx,2),%ebx
+ DB 67,15,183,44,112 ; movzwl (%r8,%r14,2),%ebp
+ DB 197,249,110,197 ; vmovd %ebp,%xmm0
+ DB 197,249,196,195,1 ; vpinsrw $0x1,%ebx,%xmm0,%xmm0
+ DB 67,15,183,28,96 ; movzwl (%r8,%r12,2),%ebx
+ DB 197,249,196,195,2 ; vpinsrw $0x2,%ebx,%xmm0,%xmm0
+ DB 67,15,183,28,120 ; movzwl (%r8,%r15,2),%ebx
+ DB 197,249,196,195,3 ; vpinsrw $0x3,%ebx,%xmm0,%xmm0
+ DB 67,15,183,44,88 ; movzwl (%r8,%r11,2),%ebp
+ DB 197,249,196,197,4 ; vpinsrw $0x4,%ebp,%xmm0,%xmm0
+ DB 67,15,183,44,80 ; movzwl (%r8,%r10,2),%ebp
+ DB 197,249,196,197,5 ; vpinsrw $0x5,%ebp,%xmm0,%xmm0
+ DB 67,15,183,44,72 ; movzwl (%r8,%r9,2),%ebp
+ DB 197,249,196,197,6 ; vpinsrw $0x6,%ebp,%xmm0,%xmm0
+ DB 65,15,183,4,64 ; movzwl (%r8,%rax,2),%eax
DB 197,249,196,192,7 ; vpinsrw $0x7,%eax,%xmm0,%xmm0
DB 197,241,239,201 ; vpxor %xmm1,%xmm1,%xmm1
DB 197,249,105,201 ; vpunpckhwd %xmm1,%xmm0,%xmm1
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
DB 196,227,125,24,209,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm2
- DB 196,226,125,24,5,234,7,2,0 ; vbroadcastss 0x207ea(%rip),%ymm0 # 2c134 <_sk_overlay_sse2_8bit+0x4e7>
+ DB 196,226,125,24,5,250,7,2,0 ; vbroadcastss 0x207fa(%rip),%ymm0 # 2c15c <_sk_overlay_sse2_8bit+0x4e7>
DB 197,236,84,192 ; vandps %ymm0,%ymm2,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,221,7,2,0 ; vbroadcastss 0x207dd(%rip),%ymm1 # 2c138 <_sk_overlay_sse2_8bit+0x4eb>
+ DB 196,226,125,24,13,237,7,2,0 ; vbroadcastss 0x207ed(%rip),%ymm1 # 2c160 <_sk_overlay_sse2_8bit+0x4eb>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
- DB 196,226,125,24,13,212,7,2,0 ; vbroadcastss 0x207d4(%rip),%ymm1 # 2c13c <_sk_overlay_sse2_8bit+0x4ef>
+ DB 196,226,125,24,13,228,7,2,0 ; vbroadcastss 0x207e4(%rip),%ymm1 # 2c164 <_sk_overlay_sse2_8bit+0x4ef>
DB 197,236,84,201 ; vandps %ymm1,%ymm2,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
- DB 196,226,125,24,29,199,7,2,0 ; vbroadcastss 0x207c7(%rip),%ymm3 # 2c140 <_sk_overlay_sse2_8bit+0x4f3>
+ DB 196,226,125,24,29,215,7,2,0 ; vbroadcastss 0x207d7(%rip),%ymm3 # 2c168 <_sk_overlay_sse2_8bit+0x4f3>
DB 197,244,89,203 ; vmulps %ymm3,%ymm1,%ymm1
- DB 196,226,125,24,29,190,7,2,0 ; vbroadcastss 0x207be(%rip),%ymm3 # 2c144 <_sk_overlay_sse2_8bit+0x4f7>
+ DB 196,226,125,24,29,206,7,2,0 ; vbroadcastss 0x207ce(%rip),%ymm3 # 2c16c <_sk_overlay_sse2_8bit+0x4f7>
DB 197,236,84,211 ; vandps %ymm3,%ymm2,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
- DB 196,226,125,24,29,177,7,2,0 ; vbroadcastss 0x207b1(%rip),%ymm3 # 2c148 <_sk_overlay_sse2_8bit+0x4fb>
+ DB 196,226,125,24,29,193,7,2,0 ; vbroadcastss 0x207c1(%rip),%ymm3 # 2c170 <_sk_overlay_sse2_8bit+0x4fb>
DB 197,236,89,211 ; vmulps %ymm3,%ymm2,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,22,7,2,0 ; vbroadcastss 0x20716(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,38,7,2,0 ; vbroadcastss 0x20726(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
+ DB 93 ; pop %rbp
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_565_avx
_sk_store_565_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 196,98,125,24,5,224,7,2,0 ; vbroadcastss 0x207e0(%rip),%ymm8 # 2c1a8 <_sk_overlay_sse2_8bit+0x55b>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 196,98,125,24,5,233,7,2,0 ; vbroadcastss 0x207e9(%rip),%ymm8 # 2c1d0 <_sk_overlay_sse2_8bit+0x55b>
DB 196,65,124,89,200 ; vmulps %ymm8,%ymm0,%ymm9
DB 196,65,125,91,201 ; vcvtps2dq %ymm9,%ymm9
DB 196,193,41,114,241,11 ; vpslld $0xb,%xmm9,%xmm10
DB 196,67,125,25,201,1 ; vextractf128 $0x1,%ymm9,%xmm9
DB 196,193,49,114,241,11 ; vpslld $0xb,%xmm9,%xmm9
DB 196,67,45,24,201,1 ; vinsertf128 $0x1,%xmm9,%ymm10,%ymm9
- DB 196,98,125,24,21,185,7,2,0 ; vbroadcastss 0x207b9(%rip),%ymm10 # 2c1ac <_sk_overlay_sse2_8bit+0x55f>
+ DB 196,98,125,24,21,194,7,2,0 ; vbroadcastss 0x207c2(%rip),%ymm10 # 2c1d4 <_sk_overlay_sse2_8bit+0x55f>
DB 196,65,116,89,210 ; vmulps %ymm10,%ymm1,%ymm10
DB 196,65,125,91,210 ; vcvtps2dq %ymm10,%ymm10
DB 196,193,33,114,242,5 ; vpslld $0x5,%xmm10,%xmm11
@@ -11047,315 +11067,315 @@ _sk_store_565_avx LABEL PROC
DB 196,65,53,86,192 ; vorpd %ymm8,%ymm9,%ymm8
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
DB 196,66,57,43,193 ; vpackusdw %xmm9,%xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,11 ; jne ba44 <_sk_store_565_avx+0x9c>
- DB 196,65,122,127,4,89 ; vmovdqu %xmm8,(%r9,%rbx,2)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne ba62 <_sk_store_565_avx+0x9a>
+ DB 196,1,122,127,4,88 ; vmovdqu %xmm8,(%r8,%r11,2)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,235 ; ja ba3f <_sk_store_565_avx+0x97>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,69,0,0,0 ; lea 0x45(%rip),%r11 # baa4 <_sk_store_565_avx+0xfc>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,67,121,21,4,89,0 ; vpextrw $0x0,%xmm8,(%r9,%rbx,2)
- DB 235,206 ; jmp ba3f <_sk_store_565_avx+0x97>
- DB 196,67,121,21,68,89,4,2 ; vpextrw $0x2,%xmm8,0x4(%r9,%rbx,2)
- DB 196,65,121,126,4,89 ; vmovd %xmm8,(%r9,%rbx,2)
- DB 235,190 ; jmp ba3f <_sk_store_565_avx+0x97>
- DB 196,67,121,21,68,89,12,6 ; vpextrw $0x6,%xmm8,0xc(%r9,%rbx,2)
- DB 196,67,121,21,68,89,10,5 ; vpextrw $0x5,%xmm8,0xa(%r9,%rbx,2)
- DB 196,67,121,21,68,89,8,4 ; vpextrw $0x4,%xmm8,0x8(%r9,%rbx,2)
- DB 196,65,121,214,4,89 ; vmovq %xmm8,(%r9,%rbx,2)
- DB 235,158 ; jmp ba3f <_sk_store_565_avx+0x97>
- DB 15,31,0 ; nopl (%rax)
- DB 196 ; (bad)
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,236 ; ja ba5e <_sk_store_565_avx+0x96>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,67,0,0,0 ; lea 0x43(%rip),%r10 # bac0 <_sk_store_565_avx+0xf8>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,3,121,21,4,88,0 ; vpextrw $0x0,%xmm8,(%r8,%r11,2)
+ DB 235,207 ; jmp ba5e <_sk_store_565_avx+0x96>
+ DB 196,3,121,21,68,88,4,2 ; vpextrw $0x2,%xmm8,0x4(%r8,%r11,2)
+ DB 196,1,121,126,4,88 ; vmovd %xmm8,(%r8,%r11,2)
+ DB 235,191 ; jmp ba5e <_sk_store_565_avx+0x96>
+ DB 196,3,121,21,68,88,12,6 ; vpextrw $0x6,%xmm8,0xc(%r8,%r11,2)
+ DB 196,3,121,21,68,88,10,5 ; vpextrw $0x5,%xmm8,0xa(%r8,%r11,2)
+ DB 196,3,121,21,68,88,8,4 ; vpextrw $0x4,%xmm8,0x8(%r8,%r11,2)
+ DB 196,1,121,214,4,88 ; vmovq %xmm8,(%r8,%r11,2)
+ DB 235,159 ; jmp ba5e <_sk_store_565_avx+0x96>
+ DB 144 ; nop
+ DB 198 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,213 ; callq *%rbp
+ DB 255,215 ; callq *%rdi
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,205 ; dec %ebp
+ DB 255,207 ; dec %edi
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,245 ; push %rbp
+ DB 255,247 ; push %rdi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 237 ; in (%dx),%eax
+ DB 239 ; out %eax,(%dx)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,229 ; jmpq *%rbp
+ DB 255,231 ; jmpq *%rdi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 221,255 ; (bad)
+ DB 223,255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_4444_avx
_sk_load_4444_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,153,0,0,0 ; jne bb79 <_sk_load_4444_avx+0xb9>
- DB 196,193,122,111,4,89 ; vmovdqu (%r9,%rbx,2),%xmm0
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,152,0,0,0 ; jne bb93 <_sk_load_4444_avx+0xb7>
+ DB 196,129,122,111,4,88 ; vmovdqu (%r8,%r11,2),%xmm0
DB 197,241,239,201 ; vpxor %xmm1,%xmm1,%xmm1
DB 197,249,105,201 ; vpunpckhwd %xmm1,%xmm0,%xmm1
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
DB 196,227,125,24,217,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm3
- DB 196,226,125,24,5,174,6,2,0 ; vbroadcastss 0x206ae(%rip),%ymm0 # 2c1b0 <_sk_overlay_sse2_8bit+0x563>
+ DB 196,226,125,24,5,187,6,2,0 ; vbroadcastss 0x206bb(%rip),%ymm0 # 2c1d8 <_sk_overlay_sse2_8bit+0x563>
DB 197,228,84,192 ; vandps %ymm0,%ymm3,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,161,6,2,0 ; vbroadcastss 0x206a1(%rip),%ymm1 # 2c1b4 <_sk_overlay_sse2_8bit+0x567>
+ DB 196,226,125,24,13,174,6,2,0 ; vbroadcastss 0x206ae(%rip),%ymm1 # 2c1dc <_sk_overlay_sse2_8bit+0x567>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
- DB 196,226,125,24,13,152,6,2,0 ; vbroadcastss 0x20698(%rip),%ymm1 # 2c1b8 <_sk_overlay_sse2_8bit+0x56b>
+ DB 196,226,125,24,13,165,6,2,0 ; vbroadcastss 0x206a5(%rip),%ymm1 # 2c1e0 <_sk_overlay_sse2_8bit+0x56b>
DB 197,228,84,201 ; vandps %ymm1,%ymm3,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
- DB 196,226,125,24,21,139,6,2,0 ; vbroadcastss 0x2068b(%rip),%ymm2 # 2c1bc <_sk_overlay_sse2_8bit+0x56f>
+ DB 196,226,125,24,21,152,6,2,0 ; vbroadcastss 0x20698(%rip),%ymm2 # 2c1e4 <_sk_overlay_sse2_8bit+0x56f>
DB 197,244,89,202 ; vmulps %ymm2,%ymm1,%ymm1
- DB 196,226,125,24,21,130,6,2,0 ; vbroadcastss 0x20682(%rip),%ymm2 # 2c1c0 <_sk_overlay_sse2_8bit+0x573>
+ DB 196,226,125,24,21,143,6,2,0 ; vbroadcastss 0x2068f(%rip),%ymm2 # 2c1e8 <_sk_overlay_sse2_8bit+0x573>
DB 197,228,84,210 ; vandps %ymm2,%ymm3,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
- DB 196,98,125,24,5,117,6,2,0 ; vbroadcastss 0x20675(%rip),%ymm8 # 2c1c4 <_sk_overlay_sse2_8bit+0x577>
+ DB 196,98,125,24,5,130,6,2,0 ; vbroadcastss 0x20682(%rip),%ymm8 # 2c1ec <_sk_overlay_sse2_8bit+0x577>
DB 196,193,108,89,208 ; vmulps %ymm8,%ymm2,%ymm2
- DB 196,98,125,24,5,107,6,2,0 ; vbroadcastss 0x2066b(%rip),%ymm8 # 2c1c8 <_sk_overlay_sse2_8bit+0x57b>
+ DB 196,98,125,24,5,120,6,2,0 ; vbroadcastss 0x20678(%rip),%ymm8 # 2c1f0 <_sk_overlay_sse2_8bit+0x57b>
DB 196,193,100,84,216 ; vandps %ymm8,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
- DB 196,98,125,24,5,93,6,2,0 ; vbroadcastss 0x2065d(%rip),%ymm8 # 2c1cc <_sk_overlay_sse2_8bit+0x57f>
+ DB 196,98,125,24,5,106,6,2,0 ; vbroadcastss 0x2066a(%rip),%ymm8 # 2c1f4 <_sk_overlay_sse2_8bit+0x57f>
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,85,255,255,255 ; ja bae6 <_sk_load_4444_avx+0x26>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,100,0,0,0 ; lea 0x64(%rip),%r11 # bc00 <_sk_load_4444_avx+0x140>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,86,255,255,255 ; ja bb01 <_sk_load_4444_avx+0x25>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,98,0,0,0 ; lea 0x62(%rip),%r10 # bc18 <_sk_load_4444_avx+0x13c>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,249,110,192 ; vmovd %eax,%xmm0
- DB 233,51,255,255,255 ; jmpq bae6 <_sk_load_4444_avx+0x26>
+ DB 233,52,255,255,255 ; jmpq bb01 <_sk_load_4444_avx+0x25>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 196,193,121,196,68,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,110,12,89 ; vmovd (%r9,%rbx,2),%xmm1
+ DB 196,129,121,196,68,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,110,12,88 ; vmovd (%r8,%r11,2),%xmm1
DB 196,227,121,14,193,3 ; vpblendw $0x3,%xmm1,%xmm0,%xmm0
- DB 233,22,255,255,255 ; jmpq bae6 <_sk_load_4444_avx+0x26>
+ DB 233,23,255,255,255 ; jmpq bb01 <_sk_load_4444_avx+0x25>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 196,193,121,196,68,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,196,68,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,121,196,68,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm0,%xmm0
- DB 196,193,122,126,12,89 ; vmovq (%r9,%rbx,2),%xmm1
+ DB 196,129,121,196,68,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,196,68,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,121,196,68,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm0,%xmm0
+ DB 196,129,122,126,12,88 ; vmovq (%r8,%r11,2),%xmm1
DB 196,227,113,14,192,240 ; vpblendw $0xf0,%xmm0,%xmm1,%xmm0
- DB 233,233,254,255,255 ; jmpq bae6 <_sk_load_4444_avx+0x26>
- DB 15,31,0 ; nopl (%rax)
- DB 165 ; movsl %ds:(%rsi),%es:(%rdi)
- DB 255 ; (bad)
- DB 255 ; (bad)
+ DB 233,234,254,255,255 ; jmpq bb01 <_sk_load_4444_avx+0x25>
+ DB 144 ; nop
+ DB 167 ; cmpsl %es:(%rdi),%ds:(%rsi)
DB 255 ; (bad)
- DB 191,255,255,255,179 ; mov $0xb3ffffff,%edi
DB 255 ; (bad)
+ DB 255,193 ; inc %ecx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
+ DB 255,181,255,255,255,238 ; pushq -0x11000001(%rbp)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,228 ; jmpq *%rsp
+ DB 255,230 ; jmpq *%rsi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
+ DB 222,255 ; fdivrp %st,%st(7)
DB 255 ; (bad)
- DB 255,208 ; callq *%rax
+ DB 255,210 ; callq *%rdx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_4444_dst_avx
_sk_load_4444_dst_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,153,0,0,0 ; jne bcd5 <_sk_load_4444_dst_avx+0xb9>
- DB 196,193,122,111,36,89 ; vmovdqu (%r9,%rbx,2),%xmm4
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,152,0,0,0 ; jne bceb <_sk_load_4444_dst_avx+0xb7>
+ DB 196,129,122,111,36,88 ; vmovdqu (%r8,%r11,2),%xmm4
DB 197,209,239,237 ; vpxor %xmm5,%xmm5,%xmm5
DB 197,217,105,237 ; vpunpckhwd %xmm5,%xmm4,%xmm5
DB 196,226,121,51,228 ; vpmovzxwd %xmm4,%xmm4
DB 196,227,93,24,253,1 ; vinsertf128 $0x1,%xmm5,%ymm4,%ymm7
- DB 196,226,125,24,37,82,5,2,0 ; vbroadcastss 0x20552(%rip),%ymm4 # 2c1b0 <_sk_overlay_sse2_8bit+0x563>
+ DB 196,226,125,24,37,99,5,2,0 ; vbroadcastss 0x20563(%rip),%ymm4 # 2c1d8 <_sk_overlay_sse2_8bit+0x563>
DB 197,196,84,228 ; vandps %ymm4,%ymm7,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,226,125,24,45,69,5,2,0 ; vbroadcastss 0x20545(%rip),%ymm5 # 2c1b4 <_sk_overlay_sse2_8bit+0x567>
+ DB 196,226,125,24,45,86,5,2,0 ; vbroadcastss 0x20556(%rip),%ymm5 # 2c1dc <_sk_overlay_sse2_8bit+0x567>
DB 197,220,89,229 ; vmulps %ymm5,%ymm4,%ymm4
- DB 196,226,125,24,45,60,5,2,0 ; vbroadcastss 0x2053c(%rip),%ymm5 # 2c1b8 <_sk_overlay_sse2_8bit+0x56b>
+ DB 196,226,125,24,45,77,5,2,0 ; vbroadcastss 0x2054d(%rip),%ymm5 # 2c1e0 <_sk_overlay_sse2_8bit+0x56b>
DB 197,196,84,237 ; vandps %ymm5,%ymm7,%ymm5
DB 197,252,91,237 ; vcvtdq2ps %ymm5,%ymm5
- DB 196,226,125,24,53,47,5,2,0 ; vbroadcastss 0x2052f(%rip),%ymm6 # 2c1bc <_sk_overlay_sse2_8bit+0x56f>
+ DB 196,226,125,24,53,64,5,2,0 ; vbroadcastss 0x20540(%rip),%ymm6 # 2c1e4 <_sk_overlay_sse2_8bit+0x56f>
DB 197,212,89,238 ; vmulps %ymm6,%ymm5,%ymm5
- DB 196,226,125,24,53,38,5,2,0 ; vbroadcastss 0x20526(%rip),%ymm6 # 2c1c0 <_sk_overlay_sse2_8bit+0x573>
+ DB 196,226,125,24,53,55,5,2,0 ; vbroadcastss 0x20537(%rip),%ymm6 # 2c1e8 <_sk_overlay_sse2_8bit+0x573>
DB 197,196,84,246 ; vandps %ymm6,%ymm7,%ymm6
DB 197,252,91,246 ; vcvtdq2ps %ymm6,%ymm6
- DB 196,98,125,24,5,25,5,2,0 ; vbroadcastss 0x20519(%rip),%ymm8 # 2c1c4 <_sk_overlay_sse2_8bit+0x577>
+ DB 196,98,125,24,5,42,5,2,0 ; vbroadcastss 0x2052a(%rip),%ymm8 # 2c1ec <_sk_overlay_sse2_8bit+0x577>
DB 196,193,76,89,240 ; vmulps %ymm8,%ymm6,%ymm6
- DB 196,98,125,24,5,15,5,2,0 ; vbroadcastss 0x2050f(%rip),%ymm8 # 2c1c8 <_sk_overlay_sse2_8bit+0x57b>
+ DB 196,98,125,24,5,32,5,2,0 ; vbroadcastss 0x20520(%rip),%ymm8 # 2c1f0 <_sk_overlay_sse2_8bit+0x57b>
DB 196,193,68,84,248 ; vandps %ymm8,%ymm7,%ymm7
DB 197,252,91,255 ; vcvtdq2ps %ymm7,%ymm7
- DB 196,98,125,24,5,1,5,2,0 ; vbroadcastss 0x20501(%rip),%ymm8 # 2c1cc <_sk_overlay_sse2_8bit+0x57f>
+ DB 196,98,125,24,5,18,5,2,0 ; vbroadcastss 0x20512(%rip),%ymm8 # 2c1f4 <_sk_overlay_sse2_8bit+0x57f>
DB 196,193,68,89,248 ; vmulps %ymm8,%ymm7,%ymm7
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,85,255,255,255 ; ja bc42 <_sk_load_4444_dst_avx+0x26>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,100,0,0,0 ; lea 0x64(%rip),%r11 # bd5c <_sk_load_4444_dst_avx+0x140>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 65,15,183,4,89 ; movzwl (%r9,%rbx,2),%eax
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,86,255,255,255 ; ja bc59 <_sk_load_4444_dst_avx+0x25>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,98,0,0,0 ; lea 0x62(%rip),%r10 # bd70 <_sk_load_4444_dst_avx+0x13c>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 67,15,183,4,88 ; movzwl (%r8,%r11,2),%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
- DB 233,51,255,255,255 ; jmpq bc42 <_sk_load_4444_dst_avx+0x26>
+ DB 233,52,255,255,255 ; jmpq bc59 <_sk_load_4444_dst_avx+0x25>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 196,193,89,196,100,89,4,2 ; vpinsrw $0x2,0x4(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,121,110,44,89 ; vmovd (%r9,%rbx,2),%xmm5
+ DB 196,129,89,196,100,88,4,2 ; vpinsrw $0x2,0x4(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,121,110,44,88 ; vmovd (%r8,%r11,2),%xmm5
DB 196,227,89,14,229,3 ; vpblendw $0x3,%xmm5,%xmm4,%xmm4
- DB 233,22,255,255,255 ; jmpq bc42 <_sk_load_4444_dst_avx+0x26>
+ DB 233,23,255,255,255 ; jmpq bc59 <_sk_load_4444_dst_avx+0x25>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
- DB 196,193,89,196,100,89,12,6 ; vpinsrw $0x6,0xc(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,89,196,100,89,10,5 ; vpinsrw $0x5,0xa(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,89,196,100,89,8,4 ; vpinsrw $0x4,0x8(%r9,%rbx,2),%xmm4,%xmm4
- DB 196,193,122,126,44,89 ; vmovq (%r9,%rbx,2),%xmm5
+ DB 196,129,89,196,100,88,12,6 ; vpinsrw $0x6,0xc(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,89,196,100,88,10,5 ; vpinsrw $0x5,0xa(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,89,196,100,88,8,4 ; vpinsrw $0x4,0x8(%r8,%r11,2),%xmm4,%xmm4
+ DB 196,129,122,126,44,88 ; vmovq (%r8,%r11,2),%xmm5
DB 196,227,81,14,228,240 ; vpblendw $0xf0,%xmm4,%xmm5,%xmm4
- DB 233,233,254,255,255 ; jmpq bc42 <_sk_load_4444_dst_avx+0x26>
- DB 15,31,0 ; nopl (%rax)
- DB 165 ; movsl %ds:(%rsi),%es:(%rdi)
- DB 255 ; (bad)
- DB 255 ; (bad)
+ DB 233,234,254,255,255 ; jmpq bc59 <_sk_load_4444_dst_avx+0x25>
+ DB 144 ; nop
+ DB 167 ; cmpsl %es:(%rdi),%ds:(%rsi)
DB 255 ; (bad)
- DB 191,255,255,255,179 ; mov $0xb3ffffff,%edi
DB 255 ; (bad)
+ DB 255,193 ; inc %ecx
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
+ DB 255,181,255,255,255,238 ; pushq -0x11000001(%rbp)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,228 ; jmpq *%rsp
+ DB 255,230 ; jmpq *%rsi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 220,255 ; fdivr %st,%st(7)
+ DB 222,255 ; fdivrp %st,%st(7)
DB 255 ; (bad)
- DB 255,208 ; callq *%rax
+ DB 255,210 ; callq *%rdx
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_4444_avx
_sk_gather_4444_avx LABEL PROC
+ DB 85 ; push %rbp
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
- DB 197,249,110,80,8 ; vmovd 0x8(%rax),%xmm2
- DB 197,249,112,210,0 ; vpshufd $0x0,%xmm2,%xmm2
- DB 196,226,105,64,217 ; vpmulld %xmm1,%xmm2,%xmm3
- DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 196,226,105,64,201 ; vpmulld %xmm1,%xmm2,%xmm1
- DB 197,254,91,208 ; vcvttps2dq %ymm0,%ymm2
- DB 196,227,125,25,208,1 ; vextractf128 $0x1,%ymm2,%xmm0
- DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
- DB 197,225,254,202 ; vpaddd %xmm2,%xmm3,%xmm1
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,249,110,208 ; vmovd %eax,%xmm2
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 67,15,183,4,81 ; movzwl (%r9,%r10,2),%eax
- DB 197,233,196,200,1 ; vpinsrw $0x1,%eax,%xmm2,%xmm1
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,241,196,200,2 ; vpinsrw $0x2,%eax,%xmm1,%xmm1
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
- DB 197,241,196,200,3 ; vpinsrw $0x3,%eax,%xmm1,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,241,196,200,4 ; vpinsrw $0x4,%eax,%xmm1,%xmm1
- DB 196,195,249,22,195,1 ; vpextrq $0x1,%xmm0,%r11
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 197,254,91,209 ; vcvttps2dq %ymm1,%ymm2
+ DB 197,249,110,72,8 ; vmovd 0x8(%rax),%xmm1
+ DB 197,249,112,217,0 ; vpshufd $0x0,%xmm1,%xmm3
+ DB 196,226,97,64,202 ; vpmulld %xmm2,%xmm3,%xmm1
+ DB 196,227,125,25,210,1 ; vextractf128 $0x1,%ymm2,%xmm2
+ DB 196,226,97,64,210 ; vpmulld %xmm2,%xmm3,%xmm2
+ DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
+ DB 196,227,125,25,195,1 ; vextractf128 $0x1,%ymm0,%xmm3
+ DB 197,233,254,211 ; vpaddd %xmm3,%xmm2,%xmm2
+ DB 196,227,249,22,208,1 ; vpextrq $0x1,%xmm2,%rax
+ DB 65,137,193 ; mov %eax,%r9d
+ DB 72,193,232,32 ; shr $0x20,%rax
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 67,15,183,4,81 ; movzwl (%r9,%r10,2),%eax
- DB 197,241,196,192,5 ; vpinsrw $0x5,%eax,%xmm1,%xmm0
- DB 68,137,216 ; mov %r11d,%eax
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
- DB 197,249,196,192,6 ; vpinsrw $0x6,%eax,%xmm0,%xmm0
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
+ DB 196,225,249,126,195 ; vmovq %xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 196,195,249,22,199,1 ; vpextrq $0x1,%xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,15,183,28,88 ; movzwl (%r8,%rbx,2),%ebx
+ DB 67,15,183,44,112 ; movzwl (%r8,%r14,2),%ebp
+ DB 197,249,110,197 ; vmovd %ebp,%xmm0
+ DB 197,249,196,195,1 ; vpinsrw $0x1,%ebx,%xmm0,%xmm0
+ DB 67,15,183,28,96 ; movzwl (%r8,%r12,2),%ebx
+ DB 197,249,196,195,2 ; vpinsrw $0x2,%ebx,%xmm0,%xmm0
+ DB 67,15,183,28,120 ; movzwl (%r8,%r15,2),%ebx
+ DB 197,249,196,195,3 ; vpinsrw $0x3,%ebx,%xmm0,%xmm0
+ DB 67,15,183,44,88 ; movzwl (%r8,%r11,2),%ebp
+ DB 197,249,196,197,4 ; vpinsrw $0x4,%ebp,%xmm0,%xmm0
+ DB 67,15,183,44,80 ; movzwl (%r8,%r10,2),%ebp
+ DB 197,249,196,197,5 ; vpinsrw $0x5,%ebp,%xmm0,%xmm0
+ DB 67,15,183,44,72 ; movzwl (%r8,%r9,2),%ebp
+ DB 197,249,196,197,6 ; vpinsrw $0x6,%ebp,%xmm0,%xmm0
+ DB 65,15,183,4,64 ; movzwl (%r8,%rax,2),%eax
DB 197,249,196,192,7 ; vpinsrw $0x7,%eax,%xmm0,%xmm0
DB 197,241,239,201 ; vpxor %xmm1,%xmm1,%xmm1
DB 197,249,105,201 ; vpunpckhwd %xmm1,%xmm0,%xmm1
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
DB 196,227,125,24,217,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm3
- DB 196,226,125,24,5,102,3,2,0 ; vbroadcastss 0x20366(%rip),%ymm0 # 2c1b0 <_sk_overlay_sse2_8bit+0x563>
+ DB 196,226,125,24,5,114,3,2,0 ; vbroadcastss 0x20372(%rip),%ymm0 # 2c1d8 <_sk_overlay_sse2_8bit+0x563>
DB 197,228,84,192 ; vandps %ymm0,%ymm3,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,13,89,3,2,0 ; vbroadcastss 0x20359(%rip),%ymm1 # 2c1b4 <_sk_overlay_sse2_8bit+0x567>
+ DB 196,226,125,24,13,101,3,2,0 ; vbroadcastss 0x20365(%rip),%ymm1 # 2c1dc <_sk_overlay_sse2_8bit+0x567>
DB 197,252,89,193 ; vmulps %ymm1,%ymm0,%ymm0
- DB 196,226,125,24,13,80,3,2,0 ; vbroadcastss 0x20350(%rip),%ymm1 # 2c1b8 <_sk_overlay_sse2_8bit+0x56b>
+ DB 196,226,125,24,13,92,3,2,0 ; vbroadcastss 0x2035c(%rip),%ymm1 # 2c1e0 <_sk_overlay_sse2_8bit+0x56b>
DB 197,228,84,201 ; vandps %ymm1,%ymm3,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
- DB 196,226,125,24,21,67,3,2,0 ; vbroadcastss 0x20343(%rip),%ymm2 # 2c1bc <_sk_overlay_sse2_8bit+0x56f>
+ DB 196,226,125,24,21,79,3,2,0 ; vbroadcastss 0x2034f(%rip),%ymm2 # 2c1e4 <_sk_overlay_sse2_8bit+0x56f>
DB 197,244,89,202 ; vmulps %ymm2,%ymm1,%ymm1
- DB 196,226,125,24,21,58,3,2,0 ; vbroadcastss 0x2033a(%rip),%ymm2 # 2c1c0 <_sk_overlay_sse2_8bit+0x573>
+ DB 196,226,125,24,21,70,3,2,0 ; vbroadcastss 0x20346(%rip),%ymm2 # 2c1e8 <_sk_overlay_sse2_8bit+0x573>
DB 197,228,84,210 ; vandps %ymm2,%ymm3,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
- DB 196,98,125,24,5,45,3,2,0 ; vbroadcastss 0x2032d(%rip),%ymm8 # 2c1c4 <_sk_overlay_sse2_8bit+0x577>
+ DB 196,98,125,24,5,57,3,2,0 ; vbroadcastss 0x20339(%rip),%ymm8 # 2c1ec <_sk_overlay_sse2_8bit+0x577>
DB 196,193,108,89,208 ; vmulps %ymm8,%ymm2,%ymm2
- DB 196,98,125,24,5,35,3,2,0 ; vbroadcastss 0x20323(%rip),%ymm8 # 2c1c8 <_sk_overlay_sse2_8bit+0x57b>
+ DB 196,98,125,24,5,47,3,2,0 ; vbroadcastss 0x2032f(%rip),%ymm8 # 2c1f0 <_sk_overlay_sse2_8bit+0x57b>
DB 196,193,100,84,216 ; vandps %ymm8,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
- DB 196,98,125,24,5,21,3,2,0 ; vbroadcastss 0x20315(%rip),%ymm8 # 2c1cc <_sk_overlay_sse2_8bit+0x57f>
+ DB 196,98,125,24,5,33,3,2,0 ; vbroadcastss 0x20321(%rip),%ymm8 # 2c1f4 <_sk_overlay_sse2_8bit+0x57f>
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
+ DB 93 ; pop %rbp
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_4444_avx
_sk_store_4444_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 196,98,125,24,5,240,2,2,0 ; vbroadcastss 0x202f0(%rip),%ymm8 # 2c1d0 <_sk_overlay_sse2_8bit+0x583>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 196,98,125,24,5,245,2,2,0 ; vbroadcastss 0x202f5(%rip),%ymm8 # 2c1f8 <_sk_overlay_sse2_8bit+0x583>
DB 196,65,124,89,200 ; vmulps %ymm8,%ymm0,%ymm9
DB 196,65,125,91,201 ; vcvtps2dq %ymm9,%ymm9
DB 196,193,41,114,241,12 ; vpslld $0xc,%xmm9,%xmm10
@@ -11381,74 +11401,72 @@ _sk_store_4444_avx LABEL PROC
DB 196,65,53,86,192 ; vorpd %ymm8,%ymm9,%ymm8
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
DB 196,66,57,43,193 ; vpackusdw %xmm9,%xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,11 ; jne bf7a <_sk_store_4444_avx+0xba>
- DB 196,65,122,127,4,89 ; vmovdqu %xmm8,(%r9,%rbx,2)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne bf9c <_sk_store_4444_avx+0xb8>
+ DB 196,1,122,127,4,88 ; vmovdqu %xmm8,(%r8,%r11,2)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,235 ; ja bf75 <_sk_store_4444_avx+0xb5>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,67,0,0,0 ; lea 0x43(%rip),%r11 # bfd8 <_sk_store_4444_avx+0x118>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,67,121,21,4,89,0 ; vpextrw $0x0,%xmm8,(%r9,%rbx,2)
- DB 235,206 ; jmp bf75 <_sk_store_4444_avx+0xb5>
- DB 196,67,121,21,68,89,4,2 ; vpextrw $0x2,%xmm8,0x4(%r9,%rbx,2)
- DB 196,65,121,126,4,89 ; vmovd %xmm8,(%r9,%rbx,2)
- DB 235,190 ; jmp bf75 <_sk_store_4444_avx+0xb5>
- DB 196,67,121,21,68,89,12,6 ; vpextrw $0x6,%xmm8,0xc(%r9,%rbx,2)
- DB 196,67,121,21,68,89,10,5 ; vpextrw $0x5,%xmm8,0xa(%r9,%rbx,2)
- DB 196,67,121,21,68,89,8,4 ; vpextrw $0x4,%xmm8,0x8(%r9,%rbx,2)
- DB 196,65,121,214,4,89 ; vmovq %xmm8,(%r9,%rbx,2)
- DB 235,158 ; jmp bf75 <_sk_store_4444_avx+0xb5>
- DB 144 ; nop
- DB 198 ; (bad)
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,236 ; ja bf98 <_sk_store_4444_avx+0xb4>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,69,0,0,0 ; lea 0x45(%rip),%r10 # bffc <_sk_store_4444_avx+0x118>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,3,121,21,4,88,0 ; vpextrw $0x0,%xmm8,(%r8,%r11,2)
+ DB 235,207 ; jmp bf98 <_sk_store_4444_avx+0xb4>
+ DB 196,3,121,21,68,88,4,2 ; vpextrw $0x2,%xmm8,0x4(%r8,%r11,2)
+ DB 196,1,121,126,4,88 ; vmovd %xmm8,(%r8,%r11,2)
+ DB 235,191 ; jmp bf98 <_sk_store_4444_avx+0xb4>
+ DB 196,3,121,21,68,88,12,6 ; vpextrw $0x6,%xmm8,0xc(%r8,%r11,2)
+ DB 196,3,121,21,68,88,10,5 ; vpextrw $0x5,%xmm8,0xa(%r8,%r11,2)
+ DB 196,3,121,21,68,88,8,4 ; vpextrw $0x4,%xmm8,0x8(%r8,%r11,2)
+ DB 196,1,121,214,4,88 ; vmovq %xmm8,(%r8,%r11,2)
+ DB 235,159 ; jmp bf98 <_sk_store_4444_avx+0xb4>
+ DB 15,31,0 ; nopl (%rax)
+ DB 196 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,215 ; callq *%rdi
+ DB 255,213 ; callq *%rbp
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,207 ; dec %edi
+ DB 255,205 ; dec %ebp
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,247 ; push %rdi
+ DB 255,245 ; push %rbp
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 239 ; out %eax,(%dx)
+ DB 237 ; in (%dx),%eax
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,231 ; jmpq *%rdi
+ DB 255,229 ; jmpq *%rbp
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 223,255 ; (bad)
+ DB 221,255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_8888_avx
_sk_load_8888_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,136,0,0,0 ; jne c09d <_sk_load_8888_avx+0xa9>
- DB 196,65,125,16,12,153 ; vmovupd (%r9,%rbx,4),%ymm9
- DB 197,125,40,21,125,5,2,0 ; vmovapd 0x2057d(%rip),%ymm10 # 2c5a0 <_sk_overlay_sse2_8bit+0x953>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,135,0,0,0 ; jne c0bf <_sk_load_8888_avx+0xa7>
+ DB 196,1,125,16,12,152 ; vmovupd (%r8,%r11,4),%ymm9
+ DB 197,125,40,21,218,5,2,0 ; vmovapd 0x205da(%rip),%ymm10 # 2c620 <_sk_overlay_sse2_8bit+0x9ab>
DB 196,193,53,84,194 ; vandpd %ymm10,%ymm9,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,5,251,0,2,0 ; vbroadcastss 0x200fb(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,0,1,2,0 ; vbroadcastss 0x20100(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,192 ; vmulps %ymm8,%ymm0,%ymm0
DB 196,193,113,114,209,8 ; vpsrld $0x8,%xmm9,%xmm1
DB 196,99,125,25,203,1 ; vextractf128 $0x1,%ymm9,%xmm3
@@ -11469,80 +11487,79 @@ _sk_load_8888_avx LABEL PROC
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,52,87,201 ; vxorps %ymm9,%ymm9,%ymm9
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,101,255,255,255 ; ja c01b <_sk_load_8888_avx+0x27>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,147,0,0,0 ; lea 0x93(%rip),%r11 # c154 <_sk_load_8888_avx+0x160>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,122,16,12,153 ; vmovss (%r9,%rbx,4),%xmm9
- DB 233,70,255,255,255 ; jmpq c01b <_sk_load_8888_avx+0x27>
- DB 196,193,121,110,68,153,8 ; vmovd 0x8(%r9,%rbx,4),%xmm0
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,102,255,255,255 ; ja c03e <_sk_load_8888_avx+0x26>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,145,0,0,0 ; lea 0x91(%rip),%r10 # c174 <_sk_load_8888_avx+0x15c>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,1,122,16,12,152 ; vmovss (%r8,%r11,4),%xmm9
+ DB 233,71,255,255,255 ; jmpq c03e <_sk_load_8888_avx+0x26>
+ DB 196,129,121,110,68,152,8 ; vmovd 0x8(%r8,%r11,4),%xmm0
DB 197,249,112,192,68 ; vpshufd $0x44,%xmm0,%xmm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 196,99,117,12,200,4 ; vblendps $0x4,%ymm0,%ymm1,%ymm9
- DB 196,193,123,16,4,153 ; vmovsd (%r9,%rbx,4),%xmm0
+ DB 196,129,123,16,4,152 ; vmovsd (%r8,%r11,4),%xmm0
DB 196,99,53,13,200,1 ; vblendpd $0x1,%ymm0,%ymm9,%ymm9
- DB 233,31,255,255,255 ; jmpq c01b <_sk_load_8888_avx+0x27>
- DB 196,193,121,110,68,153,24 ; vmovd 0x18(%r9,%rbx,4),%xmm0
+ DB 233,32,255,255,255 ; jmpq c03e <_sk_load_8888_avx+0x26>
+ DB 196,129,121,110,68,152,24 ; vmovd 0x18(%r8,%r11,4),%xmm0
DB 197,249,112,192,68 ; vpshufd $0x44,%xmm0,%xmm0
DB 196,227,125,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 196,99,117,12,200,64 ; vblendps $0x40,%ymm0,%ymm1,%ymm9
DB 196,99,125,25,200,1 ; vextractf128 $0x1,%ymm9,%xmm0
- DB 196,195,121,34,68,153,20,1 ; vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm0,%xmm0
+ DB 196,131,121,34,68,152,20,1 ; vpinsrd $0x1,0x14(%r8,%r11,4),%xmm0,%xmm0
DB 196,99,53,24,200,1 ; vinsertf128 $0x1,%xmm0,%ymm9,%ymm9
DB 196,99,125,25,200,1 ; vextractf128 $0x1,%ymm9,%xmm0
- DB 196,195,121,34,68,153,16,0 ; vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm0,%xmm0
+ DB 196,131,121,34,68,152,16,0 ; vpinsrd $0x0,0x10(%r8,%r11,4),%xmm0,%xmm0
DB 196,99,53,24,200,1 ; vinsertf128 $0x1,%xmm0,%ymm9,%ymm9
- DB 196,193,121,16,4,153 ; vmovupd (%r9,%rbx,4),%xmm0
+ DB 196,129,121,16,4,152 ; vmovupd (%r8,%r11,4),%xmm0
DB 196,67,125,13,201,12 ; vblendpd $0xc,%ymm9,%ymm0,%ymm9
- DB 233,202,254,255,255 ; jmpq c01b <_sk_load_8888_avx+0x27>
- DB 15,31,0 ; nopl (%rax)
- DB 118,255 ; jbe c155 <_sk_load_8888_avx+0x161>
+ DB 233,203,254,255,255 ; jmpq c03e <_sk_load_8888_avx+0x26>
+ DB 144 ; nop
+ DB 120,255 ; js c175 <_sk_load_8888_avx+0x15d>
DB 255 ; (bad)
- DB 255,151,255,255,255,129 ; callq *-0x7e000001(%rdi)
+ DB 255,153,255,255,255,131 ; lcall *-0x7c000001(%rcx)
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
+ DB 238 ; out %al,(%dx)
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 216,255 ; fdivr %st(7),%st
+ DB 218,255 ; (bad)
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 255,198 ; inc %esi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
- DB 168,255 ; test $0xff,%al
+ DB 170 ; stos %al,%es:(%rdi)
+ DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_8888_dst_avx
_sk_load_8888_dst_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,136,0,0,0 ; jne c219 <_sk_load_8888_dst_avx+0xa9>
- DB 196,65,125,16,12,153 ; vmovupd (%r9,%rbx,4),%ymm9
- DB 197,125,40,21,33,4,2,0 ; vmovapd 0x20421(%rip),%ymm10 # 2c5c0 <_sk_overlay_sse2_8bit+0x973>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,135,0,0,0 ; jne c237 <_sk_load_8888_dst_avx+0xa7>
+ DB 196,1,125,16,12,152 ; vmovupd (%r8,%r11,4),%ymm9
+ DB 197,125,40,21,130,4,2,0 ; vmovapd 0x20482(%rip),%ymm10 # 2c640 <_sk_overlay_sse2_8bit+0x9cb>
DB 196,193,53,84,226 ; vandpd %ymm10,%ymm9,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
- DB 196,98,125,24,5,127,255,1,0 ; vbroadcastss 0x1ff7f(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,136,255,1,0 ; vbroadcastss 0x1ff88(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,92,89,224 ; vmulps %ymm8,%ymm4,%ymm4
DB 196,193,81,114,209,8 ; vpsrld $0x8,%xmm9,%xmm5
DB 196,99,125,25,207,1 ; vextractf128 $0x1,%ymm9,%xmm7
@@ -11563,102 +11580,106 @@ _sk_load_8888_dst_avx LABEL PROC
DB 197,252,91,255 ; vcvtdq2ps %ymm7,%ymm7
DB 196,193,68,89,248 ; vmulps %ymm8,%ymm7,%ymm7
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,52,87,201 ; vxorps %ymm9,%ymm9,%ymm9
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,101,255,255,255 ; ja c197 <_sk_load_8888_dst_avx+0x27>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,147,0,0,0 ; lea 0x93(%rip),%r11 # c2d0 <_sk_load_8888_dst_avx+0x160>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,122,16,12,153 ; vmovss (%r9,%rbx,4),%xmm9
- DB 233,70,255,255,255 ; jmpq c197 <_sk_load_8888_dst_avx+0x27>
- DB 196,193,121,110,100,153,8 ; vmovd 0x8(%r9,%rbx,4),%xmm4
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,102,255,255,255 ; ja c1b6 <_sk_load_8888_dst_avx+0x26>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,145,0,0,0 ; lea 0x91(%rip),%r10 # c2ec <_sk_load_8888_dst_avx+0x15c>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,1,122,16,12,152 ; vmovss (%r8,%r11,4),%xmm9
+ DB 233,71,255,255,255 ; jmpq c1b6 <_sk_load_8888_dst_avx+0x26>
+ DB 196,129,121,110,100,152,8 ; vmovd 0x8(%r8,%r11,4),%xmm4
DB 197,249,112,228,68 ; vpshufd $0x44,%xmm4,%xmm4
DB 197,212,87,237 ; vxorps %ymm5,%ymm5,%ymm5
DB 196,99,85,12,204,4 ; vblendps $0x4,%ymm4,%ymm5,%ymm9
- DB 196,193,123,16,36,153 ; vmovsd (%r9,%rbx,4),%xmm4
+ DB 196,129,123,16,36,152 ; vmovsd (%r8,%r11,4),%xmm4
DB 196,99,53,13,204,1 ; vblendpd $0x1,%ymm4,%ymm9,%ymm9
- DB 233,31,255,255,255 ; jmpq c197 <_sk_load_8888_dst_avx+0x27>
- DB 196,193,121,110,100,153,24 ; vmovd 0x18(%r9,%rbx,4),%xmm4
+ DB 233,32,255,255,255 ; jmpq c1b6 <_sk_load_8888_dst_avx+0x26>
+ DB 196,129,121,110,100,152,24 ; vmovd 0x18(%r8,%r11,4),%xmm4
DB 197,249,112,228,68 ; vpshufd $0x44,%xmm4,%xmm4
DB 196,227,125,24,228,1 ; vinsertf128 $0x1,%xmm4,%ymm0,%ymm4
DB 197,212,87,237 ; vxorps %ymm5,%ymm5,%ymm5
DB 196,99,85,12,204,64 ; vblendps $0x40,%ymm4,%ymm5,%ymm9
DB 196,99,125,25,204,1 ; vextractf128 $0x1,%ymm9,%xmm4
- DB 196,195,89,34,100,153,20,1 ; vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,20,1 ; vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
DB 196,99,53,24,204,1 ; vinsertf128 $0x1,%xmm4,%ymm9,%ymm9
DB 196,99,125,25,204,1 ; vextractf128 $0x1,%ymm9,%xmm4
- DB 196,195,89,34,100,153,16,0 ; vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,16,0 ; vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
DB 196,99,53,24,204,1 ; vinsertf128 $0x1,%xmm4,%ymm9,%ymm9
- DB 196,193,121,16,36,153 ; vmovupd (%r9,%rbx,4),%xmm4
+ DB 196,129,121,16,36,152 ; vmovupd (%r8,%r11,4),%xmm4
DB 196,67,93,13,201,12 ; vblendpd $0xc,%ymm9,%ymm4,%ymm9
- DB 233,202,254,255,255 ; jmpq c197 <_sk_load_8888_dst_avx+0x27>
- DB 15,31,0 ; nopl (%rax)
- DB 118,255 ; jbe c2d1 <_sk_load_8888_dst_avx+0x161>
+ DB 233,203,254,255,255 ; jmpq c1b6 <_sk_load_8888_dst_avx+0x26>
+ DB 144 ; nop
+ DB 120,255 ; js c2ed <_sk_load_8888_dst_avx+0x15d>
DB 255 ; (bad)
- DB 255,151,255,255,255,129 ; callq *-0x7e000001(%rdi)
+ DB 255,153,255,255,255,131 ; lcall *-0x7c000001(%rcx)
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
+ DB 238 ; out %al,(%dx)
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 216,255 ; fdivr %st(7),%st
+ DB 218,255 ; (bad)
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 255,198 ; inc %esi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
- DB 168,255 ; test $0xff,%al
+ DB 170 ; stos %al,%es:(%rdi)
+ DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_8888_avx
_sk_gather_8888_avx LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
DB 197,249,110,80,8 ; vmovd 0x8(%rax),%xmm2
DB 197,249,112,210,0 ; vpshufd $0x0,%xmm2,%xmm2
DB 196,226,105,64,217 ; vpmulld %xmm1,%xmm2,%xmm3
DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
DB 196,226,105,64,201 ; vpmulld %xmm1,%xmm2,%xmm1
- DB 197,254,91,208 ; vcvttps2dq %ymm0,%ymm2
- DB 196,227,125,25,208,1 ; vextractf128 $0x1,%ymm2,%xmm0
- DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
- DB 197,225,254,202 ; vpaddd %xmm2,%xmm3,%xmm1
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,193,121,110,20,129 ; vmovd (%r9,%rax,4),%xmm2
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,105,34,12,145,1 ; vpinsrd $0x1,(%r9,%r10,4),%xmm2,%xmm1
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,195,113,34,12,129,2 ; vpinsrd $0x2,(%r9,%rax,4),%xmm1,%xmm1
- DB 196,225,249,126,192 ; vmovq %xmm0,%rax
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,3,113,34,4,153,3 ; vpinsrd $0x3,(%r9,%r11,4),%xmm1,%xmm8
- DB 65,137,194 ; mov %eax,%r10d
+ DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
+ DB 196,227,125,25,194,1 ; vextractf128 $0x1,%ymm0,%xmm2
+ DB 197,241,254,202 ; vpaddd %xmm2,%xmm1,%xmm1
+ DB 196,225,249,126,200 ; vmovq %xmm1,%rax
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 196,129,121,110,12,145 ; vmovd (%r9,%r10,4),%xmm1
- DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
- DB 196,195,113,34,4,129,1 ; vpinsrd $0x1,(%r9,%rax,4),%xmm1,%xmm0
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,195,121,34,4,129,2 ; vpinsrd $0x2,(%r9,%rax,4),%xmm0,%xmm0
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,121,34,28,145,3 ; vpinsrd $0x3,(%r9,%r10,4),%xmm0,%xmm3
+ DB 197,225,254,192 ; vpaddd %xmm0,%xmm3,%xmm0
+ DB 196,225,249,126,195 ; vmovq %xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 196,195,249,22,199,1 ; vpextrq $0x1,%xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 196,129,121,110,4,176 ; vmovd (%r8,%r14,4),%xmm0
+ DB 196,195,121,34,4,152,1 ; vpinsrd $0x1,(%r8,%rbx,4),%xmm0,%xmm0
+ DB 196,131,121,34,4,160,2 ; vpinsrd $0x2,(%r8,%r12,4),%xmm0,%xmm0
+ DB 196,3,121,34,4,184,3 ; vpinsrd $0x3,(%r8,%r15,4),%xmm0,%xmm8
+ DB 196,129,121,110,4,136 ; vmovd (%r8,%r9,4),%xmm0
+ DB 196,195,121,34,4,128,1 ; vpinsrd $0x1,(%r8,%rax,4),%xmm0,%xmm0
+ DB 196,131,121,34,4,152,2 ; vpinsrd $0x2,(%r8,%r11,4),%xmm0,%xmm0
+ DB 196,131,121,34,28,144,3 ; vpinsrd $0x3,(%r8,%r10,4),%xmm0,%xmm3
DB 196,227,61,24,195,1 ; vinsertf128 $0x1,%xmm3,%ymm8,%ymm0
- DB 197,124,40,21,73,2,2,0 ; vmovaps 0x20249(%rip),%ymm10 # 2c5e0 <_sk_overlay_sse2_8bit+0x993>
+ DB 197,124,40,21,166,2,2,0 ; vmovaps 0x202a6(%rip),%ymm10 # 2c660 <_sk_overlay_sse2_8bit+0x9eb>
DB 196,193,124,84,194 ; vandps %ymm10,%ymm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,13,135,253,1,0 ; vbroadcastss 0x1fd87(%rip),%ymm9 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,13,140,253,1,0 ; vbroadcastss 0x1fd8c(%rip),%ymm9 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,193 ; vmulps %ymm9,%ymm0,%ymm0
DB 196,193,113,114,208,8 ; vpsrld $0x8,%xmm8,%xmm1
DB 197,233,114,211,8 ; vpsrld $0x8,%xmm3,%xmm2
@@ -11678,19 +11699,22 @@ _sk_gather_8888_avx LABEL PROC
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 196,193,100,89,217 ; vmulps %ymm9,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_8888_avx
_sk_store_8888_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 196,98,125,24,5,189,252,1,0 ; vbroadcastss 0x1fcbd(%rip),%ymm8 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 196,98,125,24,5,188,252,1,0 ; vbroadcastss 0x1fcbc(%rip),%ymm8 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,65,124,89,200 ; vmulps %ymm8,%ymm0,%ymm9
DB 196,65,125,91,201 ; vcvtps2dq %ymm9,%ymm9
DB 196,65,116,89,208 ; vmulps %ymm8,%ymm1,%ymm10
@@ -11714,35 +11738,34 @@ _sk_store_8888_avx LABEL PROC
DB 196,67,37,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm11,%ymm8
DB 196,65,45,86,192 ; vorpd %ymm8,%ymm10,%ymm8
DB 196,65,53,86,192 ; vorpd %ymm8,%ymm9,%ymm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,11 ; jne c4ba <_sk_store_8888_avx+0xb0>
- DB 196,65,124,17,4,153 ; vmovups %ymm8,(%r9,%rbx,4)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne c4e2 <_sk_store_8888_avx+0xae>
+ DB 196,1,124,17,4,152 ; vmovups %ymm8,(%r8,%r11,4)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,235 ; ja c4b5 <_sk_store_8888_avx+0xab>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,83,0,0,0 ; lea 0x53(%rip),%r11 # c528 <_sk_store_8888_avx+0x11e>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,121,126,4,153 ; vmovd %xmm8,(%r9,%rbx,4)
- DB 235,207 ; jmp c4b5 <_sk_store_8888_avx+0xab>
- DB 196,67,121,22,68,153,8,2 ; vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- DB 196,65,121,214,4,153 ; vmovq %xmm8,(%r9,%rbx,4)
- DB 235,191 ; jmp c4b5 <_sk_store_8888_avx+0xab>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,236 ; ja c4de <_sk_store_8888_avx+0xaa>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,83,0,0,0 ; lea 0x53(%rip),%r10 # c550 <_sk_store_8888_avx+0x11c>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,1,121,126,4,152 ; vmovd %xmm8,(%r8,%r11,4)
+ DB 235,208 ; jmp c4de <_sk_store_8888_avx+0xaa>
+ DB 196,3,121,22,68,152,8,2 ; vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ DB 196,1,121,214,4,152 ; vmovq %xmm8,(%r8,%r11,4)
+ DB 235,192 ; jmp c4de <_sk_store_8888_avx+0xaa>
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,24,2 ; vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,24,2 ; vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,20,1 ; vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,20,1 ; vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
- DB 196,65,122,17,76,153,16 ; vmovss %xmm9,0x10(%r9,%rbx,4)
- DB 196,65,121,17,4,153 ; vmovupd %xmm8,(%r9,%rbx,4)
- DB 235,142 ; jmp c4b5 <_sk_store_8888_avx+0xab>
+ DB 196,1,122,17,76,152,16 ; vmovss %xmm9,0x10(%r8,%r11,4)
+ DB 196,1,121,17,4,152 ; vmovupd %xmm8,(%r8,%r11,4)
+ DB 235,143 ; jmp c4de <_sk_store_8888_avx+0xaa>
DB 144 ; nop
DB 182,255 ; mov $0xff,%dh
DB 255 ; (bad)
@@ -11767,21 +11790,20 @@ _sk_store_8888_avx LABEL PROC
PUBLIC _sk_load_bgra_avx
_sk_load_bgra_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,136,0,0,0 ; jne c5ed <_sk_load_bgra_avx+0xa9>
- DB 196,65,125,16,12,153 ; vmovupd (%r9,%rbx,4),%ymm9
- DB 197,125,40,21,141,0,2,0 ; vmovapd 0x2008d(%rip),%ymm10 # 2c600 <_sk_overlay_sse2_8bit+0x9b3>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,135,0,0,0 ; jne c613 <_sk_load_bgra_avx+0xa7>
+ DB 196,1,125,16,12,152 ; vmovupd (%r8,%r11,4),%ymm9
+ DB 197,125,40,21,230,0,2,0 ; vmovapd 0x200e6(%rip),%ymm10 # 2c680 <_sk_overlay_sse2_8bit+0xa0b>
DB 196,193,53,84,202 ; vandpd %ymm10,%ymm9,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
- DB 196,98,125,24,5,171,251,1,0 ; vbroadcastss 0x1fbab(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,172,251,1,0 ; vbroadcastss 0x1fbac(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,116,89,208 ; vmulps %ymm8,%ymm1,%ymm2
DB 196,193,113,114,209,8 ; vpsrld $0x8,%xmm9,%xmm1
DB 196,99,125,25,203,1 ; vextractf128 $0x1,%ymm9,%xmm3
@@ -11802,80 +11824,79 @@ _sk_load_bgra_avx LABEL PROC
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 196,193,100,89,216 ; vmulps %ymm8,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,52,87,201 ; vxorps %ymm9,%ymm9,%ymm9
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,101,255,255,255 ; ja c56b <_sk_load_bgra_avx+0x27>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,147,0,0,0 ; lea 0x93(%rip),%r11 # c6a4 <_sk_load_bgra_avx+0x160>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,122,16,12,153 ; vmovss (%r9,%rbx,4),%xmm9
- DB 233,70,255,255,255 ; jmpq c56b <_sk_load_bgra_avx+0x27>
- DB 196,193,121,110,68,153,8 ; vmovd 0x8(%r9,%rbx,4),%xmm0
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,102,255,255,255 ; ja c592 <_sk_load_bgra_avx+0x26>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,145,0,0,0 ; lea 0x91(%rip),%r10 # c6c8 <_sk_load_bgra_avx+0x15c>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,1,122,16,12,152 ; vmovss (%r8,%r11,4),%xmm9
+ DB 233,71,255,255,255 ; jmpq c592 <_sk_load_bgra_avx+0x26>
+ DB 196,129,121,110,68,152,8 ; vmovd 0x8(%r8,%r11,4),%xmm0
DB 197,249,112,192,68 ; vpshufd $0x44,%xmm0,%xmm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 196,99,117,12,200,4 ; vblendps $0x4,%ymm0,%ymm1,%ymm9
- DB 196,193,123,16,4,153 ; vmovsd (%r9,%rbx,4),%xmm0
+ DB 196,129,123,16,4,152 ; vmovsd (%r8,%r11,4),%xmm0
DB 196,99,53,13,200,1 ; vblendpd $0x1,%ymm0,%ymm9,%ymm9
- DB 233,31,255,255,255 ; jmpq c56b <_sk_load_bgra_avx+0x27>
- DB 196,193,121,110,68,153,24 ; vmovd 0x18(%r9,%rbx,4),%xmm0
+ DB 233,32,255,255,255 ; jmpq c592 <_sk_load_bgra_avx+0x26>
+ DB 196,129,121,110,68,152,24 ; vmovd 0x18(%r8,%r11,4),%xmm0
DB 197,249,112,192,68 ; vpshufd $0x44,%xmm0,%xmm0
DB 196,227,125,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 196,99,117,12,200,64 ; vblendps $0x40,%ymm0,%ymm1,%ymm9
DB 196,99,125,25,200,1 ; vextractf128 $0x1,%ymm9,%xmm0
- DB 196,195,121,34,68,153,20,1 ; vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm0,%xmm0
+ DB 196,131,121,34,68,152,20,1 ; vpinsrd $0x1,0x14(%r8,%r11,4),%xmm0,%xmm0
DB 196,99,53,24,200,1 ; vinsertf128 $0x1,%xmm0,%ymm9,%ymm9
DB 196,99,125,25,200,1 ; vextractf128 $0x1,%ymm9,%xmm0
- DB 196,195,121,34,68,153,16,0 ; vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm0,%xmm0
+ DB 196,131,121,34,68,152,16,0 ; vpinsrd $0x0,0x10(%r8,%r11,4),%xmm0,%xmm0
DB 196,99,53,24,200,1 ; vinsertf128 $0x1,%xmm0,%ymm9,%ymm9
- DB 196,193,121,16,4,153 ; vmovupd (%r9,%rbx,4),%xmm0
+ DB 196,129,121,16,4,152 ; vmovupd (%r8,%r11,4),%xmm0
DB 196,67,125,13,201,12 ; vblendpd $0xc,%ymm9,%ymm0,%ymm9
- DB 233,202,254,255,255 ; jmpq c56b <_sk_load_bgra_avx+0x27>
- DB 15,31,0 ; nopl (%rax)
- DB 118,255 ; jbe c6a5 <_sk_load_bgra_avx+0x161>
+ DB 233,203,254,255,255 ; jmpq c592 <_sk_load_bgra_avx+0x26>
+ DB 144 ; nop
+ DB 120,255 ; js c6c9 <_sk_load_bgra_avx+0x15d>
DB 255 ; (bad)
- DB 255,151,255,255,255,129 ; callq *-0x7e000001(%rdi)
+ DB 255,153,255,255,255,131 ; lcall *-0x7c000001(%rcx)
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
+ DB 238 ; out %al,(%dx)
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 216,255 ; fdivr %st(7),%st
+ DB 218,255 ; (bad)
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 255,198 ; inc %esi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
- DB 168,255 ; test $0xff,%al
+ DB 170 ; stos %al,%es:(%rdi)
+ DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_load_bgra_dst_avx
_sk_load_bgra_dst_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,136,0,0,0 ; jne c769 <_sk_load_bgra_dst_avx+0xa9>
- DB 196,65,125,16,12,153 ; vmovupd (%r9,%rbx,4),%ymm9
- DB 197,125,40,21,49,255,1,0 ; vmovapd 0x1ff31(%rip),%ymm10 # 2c620 <_sk_overlay_sse2_8bit+0x9d3>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,135,0,0,0 ; jne c78b <_sk_load_bgra_dst_avx+0xa7>
+ DB 196,1,125,16,12,152 ; vmovupd (%r8,%r11,4),%ymm9
+ DB 197,125,40,21,142,255,1,0 ; vmovapd 0x1ff8e(%rip),%ymm10 # 2c6a0 <_sk_overlay_sse2_8bit+0xa2b>
DB 196,193,53,84,234 ; vandpd %ymm10,%ymm9,%ymm5
DB 197,252,91,237 ; vcvtdq2ps %ymm5,%ymm5
- DB 196,98,125,24,5,47,250,1,0 ; vbroadcastss 0x1fa2f(%rip),%ymm8 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,5,52,250,1,0 ; vbroadcastss 0x1fa34(%rip),%ymm8 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,84,89,240 ; vmulps %ymm8,%ymm5,%ymm6
DB 196,193,81,114,209,8 ; vpsrld $0x8,%xmm9,%xmm5
DB 196,99,125,25,207,1 ; vextractf128 $0x1,%ymm9,%xmm7
@@ -11896,102 +11917,106 @@ _sk_load_bgra_dst_avx LABEL PROC
DB 197,252,91,255 ; vcvtdq2ps %ymm7,%ymm7
DB 196,193,68,89,248 ; vmulps %ymm8,%ymm7,%ymm7
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
DB 196,65,52,87,201 ; vxorps %ymm9,%ymm9,%ymm9
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 15,135,101,255,255,255 ; ja c6e7 <_sk_load_bgra_dst_avx+0x27>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,147,0,0,0 ; lea 0x93(%rip),%r11 # c820 <_sk_load_bgra_dst_avx+0x160>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,122,16,12,153 ; vmovss (%r9,%rbx,4),%xmm9
- DB 233,70,255,255,255 ; jmpq c6e7 <_sk_load_bgra_dst_avx+0x27>
- DB 196,193,121,110,100,153,8 ; vmovd 0x8(%r9,%rbx,4),%xmm4
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 15,135,102,255,255,255 ; ja c70a <_sk_load_bgra_dst_avx+0x26>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,145,0,0,0 ; lea 0x91(%rip),%r10 # c840 <_sk_load_bgra_dst_avx+0x15c>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,1,122,16,12,152 ; vmovss (%r8,%r11,4),%xmm9
+ DB 233,71,255,255,255 ; jmpq c70a <_sk_load_bgra_dst_avx+0x26>
+ DB 196,129,121,110,100,152,8 ; vmovd 0x8(%r8,%r11,4),%xmm4
DB 197,249,112,228,68 ; vpshufd $0x44,%xmm4,%xmm4
DB 197,212,87,237 ; vxorps %ymm5,%ymm5,%ymm5
DB 196,99,85,12,204,4 ; vblendps $0x4,%ymm4,%ymm5,%ymm9
- DB 196,193,123,16,36,153 ; vmovsd (%r9,%rbx,4),%xmm4
+ DB 196,129,123,16,36,152 ; vmovsd (%r8,%r11,4),%xmm4
DB 196,99,53,13,204,1 ; vblendpd $0x1,%ymm4,%ymm9,%ymm9
- DB 233,31,255,255,255 ; jmpq c6e7 <_sk_load_bgra_dst_avx+0x27>
- DB 196,193,121,110,100,153,24 ; vmovd 0x18(%r9,%rbx,4),%xmm4
+ DB 233,32,255,255,255 ; jmpq c70a <_sk_load_bgra_dst_avx+0x26>
+ DB 196,129,121,110,100,152,24 ; vmovd 0x18(%r8,%r11,4),%xmm4
DB 197,249,112,228,68 ; vpshufd $0x44,%xmm4,%xmm4
DB 196,227,125,24,228,1 ; vinsertf128 $0x1,%xmm4,%ymm0,%ymm4
DB 197,212,87,237 ; vxorps %ymm5,%ymm5,%ymm5
DB 196,99,85,12,204,64 ; vblendps $0x40,%ymm4,%ymm5,%ymm9
DB 196,99,125,25,204,1 ; vextractf128 $0x1,%ymm9,%xmm4
- DB 196,195,89,34,100,153,20,1 ; vpinsrd $0x1,0x14(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,20,1 ; vpinsrd $0x1,0x14(%r8,%r11,4),%xmm4,%xmm4
DB 196,99,53,24,204,1 ; vinsertf128 $0x1,%xmm4,%ymm9,%ymm9
DB 196,99,125,25,204,1 ; vextractf128 $0x1,%ymm9,%xmm4
- DB 196,195,89,34,100,153,16,0 ; vpinsrd $0x0,0x10(%r9,%rbx,4),%xmm4,%xmm4
+ DB 196,131,89,34,100,152,16,0 ; vpinsrd $0x0,0x10(%r8,%r11,4),%xmm4,%xmm4
DB 196,99,53,24,204,1 ; vinsertf128 $0x1,%xmm4,%ymm9,%ymm9
- DB 196,193,121,16,36,153 ; vmovupd (%r9,%rbx,4),%xmm4
+ DB 196,129,121,16,36,152 ; vmovupd (%r8,%r11,4),%xmm4
DB 196,67,93,13,201,12 ; vblendpd $0xc,%ymm9,%ymm4,%ymm9
- DB 233,202,254,255,255 ; jmpq c6e7 <_sk_load_bgra_dst_avx+0x27>
- DB 15,31,0 ; nopl (%rax)
- DB 118,255 ; jbe c821 <_sk_load_bgra_dst_avx+0x161>
+ DB 233,203,254,255,255 ; jmpq c70a <_sk_load_bgra_dst_avx+0x26>
+ DB 144 ; nop
+ DB 120,255 ; js c841 <_sk_load_bgra_dst_avx+0x15d>
DB 255 ; (bad)
- DB 255,151,255,255,255,129 ; callq *-0x7e000001(%rdi)
+ DB 255,153,255,255,255,131 ; lcall *-0x7c000001(%rcx)
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 236 ; in (%dx),%al
+ DB 238 ; out %al,(%dx)
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 216,255 ; fdivr %st(7),%st
+ DB 218,255 ; (bad)
DB 255 ; (bad)
- DB 255,196 ; inc %esp
+ DB 255,198 ; inc %esi
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
- DB 168,255 ; test $0xff,%al
+ DB 170 ; stos %al,%es:(%rdi)
+ DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
PUBLIC _sk_gather_bgra_avx
_sk_gather_bgra_avx LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
DB 197,249,110,80,8 ; vmovd 0x8(%rax),%xmm2
DB 197,249,112,210,0 ; vpshufd $0x0,%xmm2,%xmm2
DB 196,226,105,64,217 ; vpmulld %xmm1,%xmm2,%xmm3
DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
DB 196,226,105,64,201 ; vpmulld %xmm1,%xmm2,%xmm1
- DB 197,254,91,208 ; vcvttps2dq %ymm0,%ymm2
- DB 196,227,125,25,208,1 ; vextractf128 $0x1,%ymm2,%xmm0
- DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
- DB 197,225,254,202 ; vpaddd %xmm2,%xmm3,%xmm1
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,193,121,110,20,129 ; vmovd (%r9,%rax,4),%xmm2
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,105,34,12,145,1 ; vpinsrd $0x1,(%r9,%r10,4),%xmm2,%xmm1
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,195,113,34,12,129,2 ; vpinsrd $0x2,(%r9,%rax,4),%xmm1,%xmm1
- DB 196,225,249,126,192 ; vmovq %xmm0,%rax
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,3,113,34,4,153,3 ; vpinsrd $0x3,(%r9,%r11,4),%xmm1,%xmm8
- DB 65,137,194 ; mov %eax,%r10d
+ DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
+ DB 196,227,125,25,194,1 ; vextractf128 $0x1,%ymm0,%xmm2
+ DB 197,241,254,202 ; vpaddd %xmm2,%xmm1,%xmm1
+ DB 196,225,249,126,200 ; vmovq %xmm1,%rax
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 196,129,121,110,12,145 ; vmovd (%r9,%r10,4),%xmm1
- DB 196,195,249,22,194,1 ; vpextrq $0x1,%xmm0,%r10
- DB 196,195,113,34,4,129,1 ; vpinsrd $0x1,(%r9,%rax,4),%xmm1,%xmm0
- DB 68,137,208 ; mov %r10d,%eax
- DB 196,195,121,34,4,129,2 ; vpinsrd $0x2,(%r9,%rax,4),%xmm0,%xmm0
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,131,121,34,28,145,3 ; vpinsrd $0x3,(%r9,%r10,4),%xmm0,%xmm3
+ DB 197,225,254,192 ; vpaddd %xmm0,%xmm3,%xmm0
+ DB 196,225,249,126,195 ; vmovq %xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 196,195,249,22,199,1 ; vpextrq $0x1,%xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 196,129,121,110,4,176 ; vmovd (%r8,%r14,4),%xmm0
+ DB 196,195,121,34,4,152,1 ; vpinsrd $0x1,(%r8,%rbx,4),%xmm0,%xmm0
+ DB 196,131,121,34,4,160,2 ; vpinsrd $0x2,(%r8,%r12,4),%xmm0,%xmm0
+ DB 196,3,121,34,4,184,3 ; vpinsrd $0x3,(%r8,%r15,4),%xmm0,%xmm8
+ DB 196,129,121,110,4,136 ; vmovd (%r8,%r9,4),%xmm0
+ DB 196,195,121,34,4,128,1 ; vpinsrd $0x1,(%r8,%rax,4),%xmm0,%xmm0
+ DB 196,131,121,34,4,152,2 ; vpinsrd $0x2,(%r8,%r11,4),%xmm0,%xmm0
+ DB 196,131,121,34,28,144,3 ; vpinsrd $0x3,(%r8,%r10,4),%xmm0,%xmm3
DB 196,227,61,24,195,1 ; vinsertf128 $0x1,%xmm3,%ymm8,%ymm0
- DB 197,124,40,13,89,253,1,0 ; vmovaps 0x1fd59(%rip),%ymm9 # 2c640 <_sk_overlay_sse2_8bit+0x9f3>
+ DB 197,124,40,13,178,253,1,0 ; vmovaps 0x1fdb2(%rip),%ymm9 # 2c6c0 <_sk_overlay_sse2_8bit+0xa4b>
DB 196,193,124,84,193 ; vandps %ymm9,%ymm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,21,55,248,1,0 ; vbroadcastss 0x1f837(%rip),%ymm10 # 2c130 <_sk_overlay_sse2_8bit+0x4e3>
+ DB 196,98,125,24,21,56,248,1,0 ; vbroadcastss 0x1f838(%rip),%ymm10 # 2c158 <_sk_overlay_sse2_8bit+0x4e3>
DB 196,193,124,89,210 ; vmulps %ymm10,%ymm0,%ymm2
DB 196,193,121,114,208,8 ; vpsrld $0x8,%xmm8,%xmm0
DB 197,241,114,211,8 ; vpsrld $0x8,%xmm3,%xmm1
@@ -12011,19 +12036,22 @@ _sk_gather_bgra_avx LABEL PROC
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 196,193,100,89,218 ; vmulps %ymm10,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_bgra_avx
_sk_store_bgra_avx LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 72,99,218 ; movslq %edx,%rbx
- DB 196,98,125,24,5,109,247,1,0 ; vbroadcastss 0x1f76d(%rip),%ymm8 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,218 ; movslq %edx,%r11
+ DB 196,98,125,24,5,104,247,1,0 ; vbroadcastss 0x1f768(%rip),%ymm8 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 196,65,108,89,200 ; vmulps %ymm8,%ymm2,%ymm9
DB 196,65,125,91,201 ; vcvtps2dq %ymm9,%ymm9
DB 196,65,116,89,208 ; vmulps %ymm8,%ymm1,%ymm10
@@ -12047,35 +12075,34 @@ _sk_store_bgra_avx LABEL PROC
DB 196,67,37,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm11,%ymm8
DB 196,65,45,86,192 ; vorpd %ymm8,%ymm10,%ymm8
DB 196,65,53,86,192 ; vorpd %ymm8,%ymm9,%ymm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,11 ; jne ca0a <_sk_store_bgra_avx+0xb0>
- DB 196,65,124,17,4,153 ; vmovups %ymm8,(%r9,%rbx,4)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne ca36 <_sk_store_bgra_avx+0xae>
+ DB 196,1,124,17,4,152 ; vmovups %ymm8,(%r8,%r11,4)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,7 ; and $0x7,%r10b
- DB 65,254,202 ; dec %r10b
- DB 65,128,250,6 ; cmp $0x6,%r10b
- DB 119,235 ; ja ca05 <_sk_store_bgra_avx+0xab>
- DB 69,15,182,210 ; movzbl %r10b,%r10d
- DB 76,141,29,83,0,0,0 ; lea 0x53(%rip),%r11 # ca78 <_sk_store_bgra_avx+0x11e>
- DB 75,99,4,147 ; movslq (%r11,%r10,4),%rax
- DB 76,1,216 ; add %r11,%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,121,126,4,153 ; vmovd %xmm8,(%r9,%rbx,4)
- DB 235,207 ; jmp ca05 <_sk_store_bgra_avx+0xab>
- DB 196,67,121,22,68,153,8,2 ; vpextrd $0x2,%xmm8,0x8(%r9,%rbx,4)
- DB 196,65,121,214,4,153 ; vmovq %xmm8,(%r9,%rbx,4)
- DB 235,191 ; jmp ca05 <_sk_store_bgra_avx+0xab>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,7 ; and $0x7,%r9b
+ DB 65,254,201 ; dec %r9b
+ DB 65,128,249,6 ; cmp $0x6,%r9b
+ DB 119,236 ; ja ca32 <_sk_store_bgra_avx+0xaa>
+ DB 69,15,182,201 ; movzbl %r9b,%r9d
+ DB 76,141,21,83,0,0,0 ; lea 0x53(%rip),%r10 # caa4 <_sk_store_bgra_avx+0x11c>
+ DB 75,99,4,138 ; movslq (%r10,%r9,4),%rax
+ DB 76,1,208 ; add %r10,%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,1,121,126,4,152 ; vmovd %xmm8,(%r8,%r11,4)
+ DB 235,208 ; jmp ca32 <_sk_store_bgra_avx+0xaa>
+ DB 196,3,121,22,68,152,8,2 ; vpextrd $0x2,%xmm8,0x8(%r8,%r11,4)
+ DB 196,1,121,214,4,152 ; vmovq %xmm8,(%r8,%r11,4)
+ DB 235,192 ; jmp ca32 <_sk_store_bgra_avx+0xaa>
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,24,2 ; vpextrd $0x2,%xmm9,0x18(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,24,2 ; vpextrd $0x2,%xmm9,0x18(%r8,%r11,4)
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
- DB 196,67,121,22,76,153,20,1 ; vpextrd $0x1,%xmm9,0x14(%r9,%rbx,4)
+ DB 196,3,121,22,76,152,20,1 ; vpextrd $0x1,%xmm9,0x14(%r8,%r11,4)
DB 196,67,125,25,193,1 ; vextractf128 $0x1,%ymm8,%xmm9
- DB 196,65,122,17,76,153,16 ; vmovss %xmm9,0x10(%r9,%rbx,4)
- DB 196,65,121,17,4,153 ; vmovupd %xmm8,(%r9,%rbx,4)
- DB 235,142 ; jmp ca05 <_sk_store_bgra_avx+0xab>
+ DB 196,1,122,17,76,152,16 ; vmovss %xmm9,0x10(%r8,%r11,4)
+ DB 196,1,121,17,4,152 ; vmovupd %xmm8,(%r8,%r11,4)
+ DB 235,143 ; jmp ca32 <_sk_store_bgra_avx+0xaa>
DB 144 ; nop
DB 182,255 ; mov $0xff,%dh
DB 255 ; (bad)
@@ -12102,22 +12129,22 @@ PUBLIC _sk_load_f16_avx
_sk_load_f16_avx LABEL PROC
DB 72,129,236,152,0,0,0 ; sub $0x98,%rsp
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
+ DB 72,133,255 ; test %rdi,%rdi
DB 197,252,17,124,36,96 ; vmovups %ymm7,0x60(%rsp)
DB 197,252,17,116,36,64 ; vmovups %ymm6,0x40(%rsp)
DB 197,252,17,108,36,32 ; vmovups %ymm5,0x20(%rsp)
DB 197,254,127,36,36 ; vmovdqu %ymm4,(%rsp)
- DB 15,133,147,2,0,0 ; jne cd65 <_sk_load_f16_avx+0x2d1>
- DB 196,65,121,16,4,193 ; vmovupd (%r9,%rax,8),%xmm8
- DB 196,193,121,16,84,193,16 ; vmovupd 0x10(%r9,%rax,8),%xmm2
- DB 196,193,121,16,76,193,32 ; vmovupd 0x20(%r9,%rax,8),%xmm1
- DB 196,65,122,111,76,193,48 ; vmovdqu 0x30(%r9,%rax,8),%xmm9
+ DB 15,133,147,2,0,0 ; jne cd91 <_sk_load_f16_avx+0x2d1>
+ DB 196,65,121,16,4,192 ; vmovupd (%r8,%rax,8),%xmm8
+ DB 196,193,121,16,84,192,16 ; vmovupd 0x10(%r8,%rax,8),%xmm2
+ DB 196,193,121,16,76,192,32 ; vmovupd 0x20(%r8,%rax,8),%xmm1
+ DB 196,65,122,111,76,192,48 ; vmovdqu 0x30(%r8,%rax,8),%xmm9
DB 197,185,97,194 ; vpunpcklwd %xmm2,%xmm8,%xmm0
DB 197,185,105,210 ; vpunpckhwd %xmm2,%xmm8,%xmm2
DB 196,193,113,97,217 ; vpunpcklwd %xmm9,%xmm1,%xmm3
@@ -12131,13 +12158,13 @@ _sk_load_f16_avx LABEL PROC
DB 197,249,105,201 ; vpunpckhwd %xmm1,%xmm0,%xmm1
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
- DB 196,98,125,24,37,9,247,1,0 ; vbroadcastss 0x1f709(%rip),%ymm12 # 2c238 <_sk_overlay_sse2_8bit+0x5eb>
+ DB 196,98,125,24,37,5,247,1,0 ; vbroadcastss 0x1f705(%rip),%ymm12 # 2c260 <_sk_overlay_sse2_8bit+0x5eb>
DB 196,193,124,84,204 ; vandps %ymm12,%ymm0,%ymm1
DB 197,252,87,193 ; vxorps %ymm1,%ymm0,%ymm0
DB 196,195,125,25,198,1 ; vextractf128 $0x1,%ymm0,%xmm14
- DB 196,98,121,24,29,205,246,1,0 ; vbroadcastss 0x1f6cd(%rip),%xmm11 # 2c214 <_sk_overlay_sse2_8bit+0x5c7>
+ DB 196,98,121,24,29,201,246,1,0 ; vbroadcastss 0x1f6c9(%rip),%xmm11 # 2c23c <_sk_overlay_sse2_8bit+0x5c7>
DB 196,193,8,87,219 ; vxorps %xmm11,%xmm14,%xmm3
- DB 196,98,121,24,45,231,246,1,0 ; vbroadcastss 0x1f6e7(%rip),%xmm13 # 2c23c <_sk_overlay_sse2_8bit+0x5ef>
+ DB 196,98,121,24,45,227,246,1,0 ; vbroadcastss 0x1f6e3(%rip),%xmm13 # 2c264 <_sk_overlay_sse2_8bit+0x5ef>
DB 197,145,102,219 ; vpcmpgtd %xmm3,%xmm13,%xmm3
DB 196,65,120,87,211 ; vxorps %xmm11,%xmm0,%xmm10
DB 196,65,17,102,210 ; vpcmpgtd %xmm10,%xmm13,%xmm10
@@ -12151,7 +12178,7 @@ _sk_load_f16_avx LABEL PROC
DB 196,227,125,24,195,1 ; vinsertf128 $0x1,%xmm3,%ymm0,%ymm0
DB 197,252,86,193 ; vorps %ymm1,%ymm0,%ymm0
DB 196,227,125,25,193,1 ; vextractf128 $0x1,%ymm0,%xmm1
- DB 196,226,121,24,29,157,246,1,0 ; vbroadcastss 0x1f69d(%rip),%xmm3 # 2c240 <_sk_overlay_sse2_8bit+0x5f3>
+ DB 196,226,121,24,29,153,246,1,0 ; vbroadcastss 0x1f699(%rip),%xmm3 # 2c268 <_sk_overlay_sse2_8bit+0x5f3>
DB 197,241,254,203 ; vpaddd %xmm3,%xmm1,%xmm1
DB 197,249,254,195 ; vpaddd %xmm3,%xmm0,%xmm0
DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
@@ -12241,53 +12268,53 @@ _sk_load_f16_avx LABEL PROC
DB 197,252,16,124,36,96 ; vmovups 0x60(%rsp),%ymm7
DB 72,129,196,152,0,0,0 ; add $0x98,%rsp
DB 255,224 ; jmpq *%rax
- DB 196,65,123,16,4,193 ; vmovsd (%r9,%rax,8),%xmm8
+ DB 196,65,123,16,4,192 ; vmovsd (%r8,%rax,8),%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,85 ; je cdcb <_sk_load_f16_avx+0x337>
- DB 196,65,57,22,68,193,8 ; vmovhpd 0x8(%r9,%rax,8),%xmm8,%xmm8
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,72 ; jb cdcb <_sk_load_f16_avx+0x337>
- DB 196,193,123,16,84,193,16 ; vmovsd 0x10(%r9,%rax,8),%xmm2
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 116,72 ; je cdd8 <_sk_load_f16_avx+0x344>
- DB 196,193,105,22,84,193,24 ; vmovhpd 0x18(%r9,%rax,8),%xmm2,%xmm2
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,59 ; jb cdd8 <_sk_load_f16_avx+0x344>
- DB 196,193,123,16,76,193,32 ; vmovsd 0x20(%r9,%rax,8),%xmm1
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 15,132,63,253,255,255 ; je caed <_sk_load_f16_avx+0x59>
- DB 196,193,113,22,76,193,40 ; vmovhpd 0x28(%r9,%rax,8),%xmm1,%xmm1
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,130,46,253,255,255 ; jb caed <_sk_load_f16_avx+0x59>
- DB 196,65,122,126,76,193,48 ; vmovq 0x30(%r9,%rax,8),%xmm9
- DB 233,34,253,255,255 ; jmpq caed <_sk_load_f16_avx+0x59>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,85 ; je cdf7 <_sk_load_f16_avx+0x337>
+ DB 196,65,57,22,68,192,8 ; vmovhpd 0x8(%r8,%rax,8),%xmm8,%xmm8
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,72 ; jb cdf7 <_sk_load_f16_avx+0x337>
+ DB 196,193,123,16,84,192,16 ; vmovsd 0x10(%r8,%rax,8),%xmm2
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 116,72 ; je ce04 <_sk_load_f16_avx+0x344>
+ DB 196,193,105,22,84,192,24 ; vmovhpd 0x18(%r8,%rax,8),%xmm2,%xmm2
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,59 ; jb ce04 <_sk_load_f16_avx+0x344>
+ DB 196,193,123,16,76,192,32 ; vmovsd 0x20(%r8,%rax,8),%xmm1
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 15,132,63,253,255,255 ; je cb19 <_sk_load_f16_avx+0x59>
+ DB 196,193,113,22,76,192,40 ; vmovhpd 0x28(%r8,%rax,8),%xmm1,%xmm1
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,130,46,253,255,255 ; jb cb19 <_sk_load_f16_avx+0x59>
+ DB 196,65,122,126,76,192,48 ; vmovq 0x30(%r8,%rax,8),%xmm9
+ DB 233,34,253,255,255 ; jmpq cb19 <_sk_load_f16_avx+0x59>
DB 197,241,87,201 ; vxorpd %xmm1,%xmm1,%xmm1
DB 197,233,87,210 ; vxorpd %xmm2,%xmm2,%xmm2
- DB 233,21,253,255,255 ; jmpq caed <_sk_load_f16_avx+0x59>
+ DB 233,21,253,255,255 ; jmpq cb19 <_sk_load_f16_avx+0x59>
DB 197,241,87,201 ; vxorpd %xmm1,%xmm1,%xmm1
- DB 233,12,253,255,255 ; jmpq caed <_sk_load_f16_avx+0x59>
+ DB 233,12,253,255,255 ; jmpq cb19 <_sk_load_f16_avx+0x59>
PUBLIC _sk_load_f16_dst_avx
_sk_load_f16_dst_avx LABEL PROC
DB 72,129,236,152,0,0,0 ; sub $0x98,%rsp
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
+ DB 72,133,255 ; test %rdi,%rdi
DB 197,252,17,92,36,96 ; vmovups %ymm3,0x60(%rsp)
DB 197,252,17,84,36,64 ; vmovups %ymm2,0x40(%rsp)
DB 197,252,17,76,36,32 ; vmovups %ymm1,0x20(%rsp)
DB 197,254,127,4,36 ; vmovdqu %ymm0,(%rsp)
- DB 15,133,147,2,0,0 ; jne d0b2 <_sk_load_f16_dst_avx+0x2d1>
- DB 196,65,121,16,4,193 ; vmovupd (%r9,%rax,8),%xmm8
- DB 196,193,121,16,116,193,16 ; vmovupd 0x10(%r9,%rax,8),%xmm6
- DB 196,193,121,16,108,193,32 ; vmovupd 0x20(%r9,%rax,8),%xmm5
- DB 196,65,122,111,76,193,48 ; vmovdqu 0x30(%r9,%rax,8),%xmm9
+ DB 15,133,147,2,0,0 ; jne d0de <_sk_load_f16_dst_avx+0x2d1>
+ DB 196,65,121,16,4,192 ; vmovupd (%r8,%rax,8),%xmm8
+ DB 196,193,121,16,116,192,16 ; vmovupd 0x10(%r8,%rax,8),%xmm6
+ DB 196,193,121,16,108,192,32 ; vmovupd 0x20(%r8,%rax,8),%xmm5
+ DB 196,65,122,111,76,192,48 ; vmovdqu 0x30(%r8,%rax,8),%xmm9
DB 197,185,97,230 ; vpunpcklwd %xmm6,%xmm8,%xmm4
DB 197,185,105,246 ; vpunpckhwd %xmm6,%xmm8,%xmm6
DB 196,193,81,97,249 ; vpunpcklwd %xmm9,%xmm5,%xmm7
@@ -12301,13 +12328,13 @@ _sk_load_f16_dst_avx LABEL PROC
DB 197,217,105,232 ; vpunpckhwd %xmm0,%xmm4,%xmm5
DB 196,226,121,51,228 ; vpmovzxwd %xmm4,%xmm4
DB 196,227,93,24,229,1 ; vinsertf128 $0x1,%xmm5,%ymm4,%ymm4
- DB 196,98,125,24,37,188,243,1,0 ; vbroadcastss 0x1f3bc(%rip),%ymm12 # 2c238 <_sk_overlay_sse2_8bit+0x5eb>
+ DB 196,98,125,24,37,184,243,1,0 ; vbroadcastss 0x1f3b8(%rip),%ymm12 # 2c260 <_sk_overlay_sse2_8bit+0x5eb>
DB 196,193,92,84,236 ; vandps %ymm12,%ymm4,%ymm5
DB 197,220,87,229 ; vxorps %ymm5,%ymm4,%ymm4
DB 196,195,125,25,230,1 ; vextractf128 $0x1,%ymm4,%xmm14
- DB 196,98,121,24,29,128,243,1,0 ; vbroadcastss 0x1f380(%rip),%xmm11 # 2c214 <_sk_overlay_sse2_8bit+0x5c7>
+ DB 196,98,121,24,29,124,243,1,0 ; vbroadcastss 0x1f37c(%rip),%xmm11 # 2c23c <_sk_overlay_sse2_8bit+0x5c7>
DB 196,193,8,87,251 ; vxorps %xmm11,%xmm14,%xmm7
- DB 196,98,121,24,45,154,243,1,0 ; vbroadcastss 0x1f39a(%rip),%xmm13 # 2c23c <_sk_overlay_sse2_8bit+0x5ef>
+ DB 196,98,121,24,45,150,243,1,0 ; vbroadcastss 0x1f396(%rip),%xmm13 # 2c264 <_sk_overlay_sse2_8bit+0x5ef>
DB 197,145,102,255 ; vpcmpgtd %xmm7,%xmm13,%xmm7
DB 196,65,88,87,211 ; vxorps %xmm11,%xmm4,%xmm10
DB 196,65,17,102,210 ; vpcmpgtd %xmm10,%xmm13,%xmm10
@@ -12321,7 +12348,7 @@ _sk_load_f16_dst_avx LABEL PROC
DB 196,227,93,24,231,1 ; vinsertf128 $0x1,%xmm7,%ymm4,%ymm4
DB 197,220,86,229 ; vorps %ymm5,%ymm4,%ymm4
DB 196,227,125,25,229,1 ; vextractf128 $0x1,%ymm4,%xmm5
- DB 196,226,121,24,61,80,243,1,0 ; vbroadcastss 0x1f350(%rip),%xmm7 # 2c240 <_sk_overlay_sse2_8bit+0x5f3>
+ DB 196,226,121,24,61,76,243,1,0 ; vbroadcastss 0x1f34c(%rip),%xmm7 # 2c268 <_sk_overlay_sse2_8bit+0x5f3>
DB 197,209,254,239 ; vpaddd %xmm7,%xmm5,%xmm5
DB 197,217,254,231 ; vpaddd %xmm7,%xmm4,%xmm4
DB 196,227,93,24,229,1 ; vinsertf128 $0x1,%xmm5,%ymm4,%ymm4
@@ -12411,117 +12438,120 @@ _sk_load_f16_dst_avx LABEL PROC
DB 197,252,16,92,36,96 ; vmovups 0x60(%rsp),%ymm3
DB 72,129,196,152,0,0,0 ; add $0x98,%rsp
DB 255,224 ; jmpq *%rax
- DB 196,65,123,16,4,193 ; vmovsd (%r9,%rax,8),%xmm8
+ DB 196,65,123,16,4,192 ; vmovsd (%r8,%rax,8),%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,85 ; je d118 <_sk_load_f16_dst_avx+0x337>
- DB 196,65,57,22,68,193,8 ; vmovhpd 0x8(%r9,%rax,8),%xmm8,%xmm8
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,72 ; jb d118 <_sk_load_f16_dst_avx+0x337>
- DB 196,193,123,16,116,193,16 ; vmovsd 0x10(%r9,%rax,8),%xmm6
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 116,72 ; je d125 <_sk_load_f16_dst_avx+0x344>
- DB 196,193,73,22,116,193,24 ; vmovhpd 0x18(%r9,%rax,8),%xmm6,%xmm6
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,59 ; jb d125 <_sk_load_f16_dst_avx+0x344>
- DB 196,193,123,16,108,193,32 ; vmovsd 0x20(%r9,%rax,8),%xmm5
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 15,132,63,253,255,255 ; je ce3a <_sk_load_f16_dst_avx+0x59>
- DB 196,193,81,22,108,193,40 ; vmovhpd 0x28(%r9,%rax,8),%xmm5,%xmm5
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,130,46,253,255,255 ; jb ce3a <_sk_load_f16_dst_avx+0x59>
- DB 196,65,122,126,76,193,48 ; vmovq 0x30(%r9,%rax,8),%xmm9
- DB 233,34,253,255,255 ; jmpq ce3a <_sk_load_f16_dst_avx+0x59>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,85 ; je d144 <_sk_load_f16_dst_avx+0x337>
+ DB 196,65,57,22,68,192,8 ; vmovhpd 0x8(%r8,%rax,8),%xmm8,%xmm8
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,72 ; jb d144 <_sk_load_f16_dst_avx+0x337>
+ DB 196,193,123,16,116,192,16 ; vmovsd 0x10(%r8,%rax,8),%xmm6
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 116,72 ; je d151 <_sk_load_f16_dst_avx+0x344>
+ DB 196,193,73,22,116,192,24 ; vmovhpd 0x18(%r8,%rax,8),%xmm6,%xmm6
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,59 ; jb d151 <_sk_load_f16_dst_avx+0x344>
+ DB 196,193,123,16,108,192,32 ; vmovsd 0x20(%r8,%rax,8),%xmm5
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 15,132,63,253,255,255 ; je ce66 <_sk_load_f16_dst_avx+0x59>
+ DB 196,193,81,22,108,192,40 ; vmovhpd 0x28(%r8,%rax,8),%xmm5,%xmm5
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,130,46,253,255,255 ; jb ce66 <_sk_load_f16_dst_avx+0x59>
+ DB 196,65,122,126,76,192,48 ; vmovq 0x30(%r8,%rax,8),%xmm9
+ DB 233,34,253,255,255 ; jmpq ce66 <_sk_load_f16_dst_avx+0x59>
DB 197,209,87,237 ; vxorpd %xmm5,%xmm5,%xmm5
DB 197,201,87,246 ; vxorpd %xmm6,%xmm6,%xmm6
- DB 233,21,253,255,255 ; jmpq ce3a <_sk_load_f16_dst_avx+0x59>
+ DB 233,21,253,255,255 ; jmpq ce66 <_sk_load_f16_dst_avx+0x59>
DB 197,209,87,237 ; vxorpd %xmm5,%xmm5,%xmm5
- DB 233,12,253,255,255 ; jmpq ce3a <_sk_load_f16_dst_avx+0x59>
+ DB 233,12,253,255,255 ; jmpq ce66 <_sk_load_f16_dst_avx+0x59>
PUBLIC _sk_gather_f16_avx
_sk_gather_f16_avx LABEL PROC
+ DB 65,87 ; push %r15
+ DB 65,86 ; push %r14
+ DB 65,84 ; push %r12
+ DB 83 ; push %rbx
DB 72,129,236,152,0,0,0 ; sub $0x98,%rsp
DB 197,252,17,124,36,96 ; vmovups %ymm7,0x60(%rsp)
DB 197,252,17,116,36,64 ; vmovups %ymm6,0x40(%rsp)
DB 197,252,17,108,36,32 ; vmovups %ymm5,0x20(%rsp)
DB 197,254,127,36,36 ; vmovdqu %ymm4,(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
- DB 197,249,110,80,8 ; vmovd 0x8(%rax),%xmm2
- DB 197,249,112,210,0 ; vpshufd $0x0,%xmm2,%xmm2
- DB 196,226,105,64,217 ; vpmulld %xmm1,%xmm2,%xmm3
- DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 196,226,105,64,201 ; vpmulld %xmm1,%xmm2,%xmm1
- DB 197,254,91,208 ; vcvttps2dq %ymm0,%ymm2
- DB 196,227,125,25,208,1 ; vextractf128 $0x1,%ymm2,%xmm0
- DB 197,113,254,192 ; vpaddd %xmm0,%xmm1,%xmm8
- DB 197,225,254,202 ; vpaddd %xmm2,%xmm3,%xmm1
- DB 196,225,249,126,200 ; vmovq %xmm1,%rax
- DB 65,137,194 ; mov %eax,%r10d
- DB 72,193,232,32 ; shr $0x20,%rax
- DB 196,65,122,126,12,193 ; vmovq (%r9,%rax,8),%xmm9
- DB 196,227,249,22,200,1 ; vpextrq $0x1,%xmm1,%rax
- DB 196,1,122,126,20,209 ; vmovq (%r9,%r10,8),%xmm10
- DB 65,137,194 ; mov %eax,%r10d
- DB 72,193,232,32 ; shr $0x20,%rax
- DB 196,65,122,126,28,193 ; vmovq (%r9,%rax,8),%xmm11
- DB 196,97,249,126,192 ; vmovq %xmm8,%rax
- DB 196,1,122,126,36,209 ; vmovq (%r9,%r10,8),%xmm12
- DB 65,137,194 ; mov %eax,%r10d
- DB 72,193,232,32 ; shr $0x20,%rax
- DB 196,65,122,126,44,193 ; vmovq (%r9,%rax,8),%xmm13
- DB 196,67,249,22,195,1 ; vpextrq $0x1,%xmm8,%r11
- DB 196,1,122,126,4,209 ; vmovq (%r9,%r10,8),%xmm8
- DB 76,137,216 ; mov %r11,%rax
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 197,254,91,209 ; vcvttps2dq %ymm1,%ymm2
+ DB 197,249,110,72,8 ; vmovd 0x8(%rax),%xmm1
+ DB 197,249,112,217,0 ; vpshufd $0x0,%xmm1,%xmm3
+ DB 196,226,97,64,202 ; vpmulld %xmm2,%xmm3,%xmm1
+ DB 196,227,125,25,210,1 ; vextractf128 $0x1,%ymm2,%xmm2
+ DB 196,226,97,64,210 ; vpmulld %xmm2,%xmm3,%xmm2
+ DB 197,254,91,192 ; vcvttps2dq %ymm0,%ymm0
+ DB 196,227,125,25,195,1 ; vextractf128 $0x1,%ymm0,%xmm3
+ DB 197,233,254,211 ; vpaddd %xmm3,%xmm2,%xmm2
+ DB 196,227,249,22,208,1 ; vpextrq $0x1,%xmm2,%rax
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 196,65,122,126,52,193 ; vmovq (%r9,%rax,8),%xmm14
- DB 68,137,216 ; mov %r11d,%eax
- DB 196,193,122,126,4,193 ; vmovq (%r9,%rax,8),%xmm0
- DB 196,193,41,108,209 ; vpunpcklqdq %xmm9,%xmm10,%xmm2
- DB 196,193,25,108,203 ; vpunpcklqdq %xmm11,%xmm12,%xmm1
- DB 196,193,57,108,221 ; vpunpcklqdq %xmm13,%xmm8,%xmm3
- DB 196,193,121,108,198 ; vpunpcklqdq %xmm14,%xmm0,%xmm0
- DB 197,105,97,193 ; vpunpcklwd %xmm1,%xmm2,%xmm8
- DB 197,233,105,209 ; vpunpckhwd %xmm1,%xmm2,%xmm2
- DB 197,225,97,200 ; vpunpcklwd %xmm0,%xmm3,%xmm1
- DB 197,225,105,192 ; vpunpckhwd %xmm0,%xmm3,%xmm0
- DB 197,57,97,250 ; vpunpcklwd %xmm2,%xmm8,%xmm15
- DB 197,57,105,194 ; vpunpckhwd %xmm2,%xmm8,%xmm8
- DB 197,241,97,208 ; vpunpcklwd %xmm0,%xmm1,%xmm2
- DB 197,113,105,200 ; vpunpckhwd %xmm0,%xmm1,%xmm9
- DB 197,129,108,194 ; vpunpcklqdq %xmm2,%xmm15,%xmm0
- DB 197,241,239,201 ; vpxor %xmm1,%xmm1,%xmm1
- DB 197,249,105,201 ; vpunpckhwd %xmm1,%xmm0,%xmm1
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 197,241,254,192 ; vpaddd %xmm0,%xmm1,%xmm0
+ DB 196,225,249,126,195 ; vmovq %xmm0,%rbx
+ DB 65,137,222 ; mov %ebx,%r14d
+ DB 196,195,249,22,199,1 ; vpextrq $0x1,%xmm0,%r15
+ DB 69,137,252 ; mov %r15d,%r12d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 196,193,122,126,4,216 ; vmovq (%r8,%rbx,8),%xmm0
+ DB 196,129,122,126,12,240 ; vmovq (%r8,%r14,8),%xmm1
+ DB 197,113,108,200 ; vpunpcklqdq %xmm0,%xmm1,%xmm9
+ DB 196,129,122,126,12,248 ; vmovq (%r8,%r15,8),%xmm1
+ DB 196,129,122,126,20,224 ; vmovq (%r8,%r12,8),%xmm2
+ DB 197,233,108,201 ; vpunpcklqdq %xmm1,%xmm2,%xmm1
+ DB 196,129,122,126,20,208 ; vmovq (%r8,%r10,8),%xmm2
+ DB 196,129,122,126,28,216 ; vmovq (%r8,%r11,8),%xmm3
+ DB 197,97,108,210 ; vpunpcklqdq %xmm2,%xmm3,%xmm10
+ DB 196,65,122,126,4,192 ; vmovq (%r8,%rax,8),%xmm8
+ DB 196,129,122,126,28,200 ; vmovq (%r8,%r9,8),%xmm3
+ DB 196,193,97,108,216 ; vpunpcklqdq %xmm8,%xmm3,%xmm3
+ DB 197,177,97,193 ; vpunpcklwd %xmm1,%xmm9,%xmm0
+ DB 197,177,105,201 ; vpunpckhwd %xmm1,%xmm9,%xmm1
+ DB 197,169,97,211 ; vpunpcklwd %xmm3,%xmm10,%xmm2
+ DB 197,169,105,219 ; vpunpckhwd %xmm3,%xmm10,%xmm3
+ DB 197,121,97,249 ; vpunpcklwd %xmm1,%xmm0,%xmm15
+ DB 197,121,105,193 ; vpunpckhwd %xmm1,%xmm0,%xmm8
+ DB 197,233,97,203 ; vpunpcklwd %xmm3,%xmm2,%xmm1
+ DB 197,105,105,203 ; vpunpckhwd %xmm3,%xmm2,%xmm9
+ DB 197,129,108,193 ; vpunpcklqdq %xmm1,%xmm15,%xmm0
+ DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
+ DB 197,249,105,210 ; vpunpckhwd %xmm2,%xmm0,%xmm2
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
- DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
- DB 196,98,125,24,37,254,239,1,0 ; vbroadcastss 0x1effe(%rip),%ymm12 # 2c238 <_sk_overlay_sse2_8bit+0x5eb>
- DB 196,193,124,84,204 ; vandps %ymm12,%ymm0,%ymm1
- DB 197,252,87,193 ; vxorps %ymm1,%ymm0,%ymm0
+ DB 196,227,125,24,194,1 ; vinsertf128 $0x1,%xmm2,%ymm0,%ymm0
+ DB 196,98,125,24,37,249,239,1,0 ; vbroadcastss 0x1eff9(%rip),%ymm12 # 2c260 <_sk_overlay_sse2_8bit+0x5eb>
+ DB 196,193,124,84,212 ; vandps %ymm12,%ymm0,%ymm2
+ DB 197,252,87,194 ; vxorps %ymm2,%ymm0,%ymm0
DB 196,195,125,25,198,1 ; vextractf128 $0x1,%ymm0,%xmm14
- DB 196,98,121,24,29,194,239,1,0 ; vbroadcastss 0x1efc2(%rip),%xmm11 # 2c214 <_sk_overlay_sse2_8bit+0x5c7>
+ DB 196,98,121,24,29,189,239,1,0 ; vbroadcastss 0x1efbd(%rip),%xmm11 # 2c23c <_sk_overlay_sse2_8bit+0x5c7>
DB 196,193,8,87,219 ; vxorps %xmm11,%xmm14,%xmm3
- DB 196,98,121,24,45,220,239,1,0 ; vbroadcastss 0x1efdc(%rip),%xmm13 # 2c23c <_sk_overlay_sse2_8bit+0x5ef>
+ DB 196,98,121,24,45,215,239,1,0 ; vbroadcastss 0x1efd7(%rip),%xmm13 # 2c264 <_sk_overlay_sse2_8bit+0x5ef>
DB 197,145,102,219 ; vpcmpgtd %xmm3,%xmm13,%xmm3
DB 196,65,120,87,211 ; vxorps %xmm11,%xmm0,%xmm10
DB 196,65,17,102,210 ; vpcmpgtd %xmm10,%xmm13,%xmm10
DB 196,99,45,24,211,1 ; vinsertf128 $0x1,%xmm3,%ymm10,%ymm10
- DB 197,225,114,241,16 ; vpslld $0x10,%xmm1,%xmm3
- DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 197,241,114,241,16 ; vpslld $0x10,%xmm1,%xmm1
- DB 196,227,101,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm3,%ymm1
+ DB 197,225,114,242,16 ; vpslld $0x10,%xmm2,%xmm3
+ DB 196,227,125,25,210,1 ; vextractf128 $0x1,%ymm2,%xmm2
+ DB 197,233,114,242,16 ; vpslld $0x10,%xmm2,%xmm2
+ DB 196,227,101,24,210,1 ; vinsertf128 $0x1,%xmm2,%ymm3,%ymm2
DB 197,249,114,240,13 ; vpslld $0xd,%xmm0,%xmm0
DB 196,193,97,114,246,13 ; vpslld $0xd,%xmm14,%xmm3
DB 196,227,125,24,195,1 ; vinsertf128 $0x1,%xmm3,%ymm0,%ymm0
- DB 197,252,86,193 ; vorps %ymm1,%ymm0,%ymm0
- DB 196,227,125,25,193,1 ; vextractf128 $0x1,%ymm0,%xmm1
- DB 196,226,121,24,29,146,239,1,0 ; vbroadcastss 0x1ef92(%rip),%xmm3 # 2c240 <_sk_overlay_sse2_8bit+0x5f3>
- DB 197,241,254,203 ; vpaddd %xmm3,%xmm1,%xmm1
+ DB 197,252,86,194 ; vorps %ymm2,%ymm0,%ymm0
+ DB 196,227,125,25,194,1 ; vextractf128 $0x1,%ymm0,%xmm2
+ DB 196,226,121,24,29,141,239,1,0 ; vbroadcastss 0x1ef8d(%rip),%xmm3 # 2c268 <_sk_overlay_sse2_8bit+0x5f3>
+ DB 197,233,254,211 ; vpaddd %xmm3,%xmm2,%xmm2
DB 197,249,254,195 ; vpaddd %xmm3,%xmm0,%xmm0
- DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
+ DB 196,227,125,24,194,1 ; vinsertf128 $0x1,%xmm2,%ymm0,%ymm0
DB 196,65,12,87,246 ; vxorps %ymm14,%ymm14,%ymm14
DB 196,195,125,74,198,160 ; vblendvps %ymm10,%ymm14,%ymm0,%ymm0
- DB 197,129,109,202 ; vpunpckhqdq %xmm2,%xmm15,%xmm1
+ DB 197,129,109,201 ; vpunpckhqdq %xmm1,%xmm15,%xmm1
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 197,241,105,212 ; vpunpckhwd %xmm4,%xmm1,%xmm2
DB 196,226,121,51,201 ; vpmovzxwd %xmm1,%xmm1
@@ -12604,6 +12634,10 @@ _sk_gather_f16_avx LABEL PROC
DB 197,252,16,116,36,64 ; vmovups 0x40(%rsp),%ymm6
DB 197,252,16,124,36,96 ; vmovups 0x60(%rsp),%ymm7
DB 72,129,196,152,0,0,0 ; add $0x98,%rsp
+ DB 91 ; pop %rbx
+ DB 65,92 ; pop %r12
+ DB 65,94 ; pop %r14
+ DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_f16_avx
@@ -12613,12 +12647,12 @@ _sk_store_f16_avx LABEL PROC
DB 197,252,17,180,36,128,0,0,0 ; vmovups %ymm6,0x80(%rsp)
DB 197,252,17,108,36,96 ; vmovups %ymm5,0x60(%rsp)
DB 197,252,17,100,36,64 ; vmovups %ymm4,0x40(%rsp)
- DB 196,98,125,24,13,118,237,1,0 ; vbroadcastss 0x1ed76(%rip),%ymm9 # 2c214 <_sk_overlay_sse2_8bit+0x5c7>
+ DB 196,98,125,24,13,106,237,1,0 ; vbroadcastss 0x1ed6a(%rip),%ymm9 # 2c23c <_sk_overlay_sse2_8bit+0x5c7>
DB 196,65,124,84,209 ; vandps %ymm9,%ymm0,%ymm10
DB 197,252,17,4,36 ; vmovups %ymm0,(%rsp)
DB 196,65,124,87,218 ; vxorps %ymm10,%ymm0,%ymm11
DB 196,67,125,25,220,1 ; vextractf128 $0x1,%ymm11,%xmm12
- DB 196,98,121,24,5,136,237,1,0 ; vbroadcastss 0x1ed88(%rip),%xmm8 # 2c244 <_sk_overlay_sse2_8bit+0x5f7>
+ DB 196,98,121,24,5,124,237,1,0 ; vbroadcastss 0x1ed7c(%rip),%xmm8 # 2c26c <_sk_overlay_sse2_8bit+0x5f7>
DB 196,65,57,102,236 ; vpcmpgtd %xmm12,%xmm8,%xmm13
DB 196,65,57,102,243 ; vpcmpgtd %xmm11,%xmm8,%xmm14
DB 196,67,13,24,237,1 ; vinsertf128 $0x1,%xmm13,%ymm14,%ymm13
@@ -12628,7 +12662,7 @@ _sk_store_f16_avx LABEL PROC
DB 196,67,13,24,242,1 ; vinsertf128 $0x1,%xmm10,%ymm14,%ymm14
DB 196,193,33,114,211,13 ; vpsrld $0xd,%xmm11,%xmm11
DB 196,193,25,114,212,13 ; vpsrld $0xd,%xmm12,%xmm12
- DB 196,98,125,24,21,79,237,1,0 ; vbroadcastss 0x1ed4f(%rip),%ymm10 # 2c248 <_sk_overlay_sse2_8bit+0x5fb>
+ DB 196,98,125,24,21,67,237,1,0 ; vbroadcastss 0x1ed43(%rip),%ymm10 # 2c270 <_sk_overlay_sse2_8bit+0x5fb>
DB 196,65,12,86,242 ; vorps %ymm10,%ymm14,%ymm14
DB 196,67,125,25,247,1 ; vextractf128 $0x1,%ymm14,%xmm15
DB 196,65,1,254,228 ; vpaddd %xmm12,%xmm15,%xmm12
@@ -12708,18 +12742,18 @@ _sk_store_f16_avx LABEL PROC
DB 197,121,98,201 ; vpunpckldq %xmm1,%xmm0,%xmm9
DB 197,121,106,193 ; vpunpckhdq %xmm1,%xmm0,%xmm8
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,79 ; jne d6f6 <_sk_store_f16_avx+0x286>
- DB 196,65,120,17,28,193 ; vmovups %xmm11,(%r9,%rax,8)
- DB 196,65,120,17,84,193,16 ; vmovups %xmm10,0x10(%r9,%rax,8)
- DB 196,65,120,17,76,193,32 ; vmovups %xmm9,0x20(%r9,%rax,8)
- DB 196,65,122,127,68,193,48 ; vmovdqu %xmm8,0x30(%r9,%rax,8)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,79 ; jne d72a <_sk_store_f16_avx+0x286>
+ DB 196,65,120,17,28,192 ; vmovups %xmm11,(%r8,%rax,8)
+ DB 196,65,120,17,84,192,16 ; vmovups %xmm10,0x10(%r8,%rax,8)
+ DB 196,65,120,17,76,192,32 ; vmovups %xmm9,0x20(%r8,%rax,8)
+ DB 196,65,122,127,68,192,48 ; vmovdqu %xmm8,0x30(%r8,%rax,8)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,16,4,36 ; vmovups (%rsp),%ymm0
DB 197,252,16,76,36,32 ; vmovups 0x20(%rsp),%ymm1
@@ -12729,41 +12763,41 @@ _sk_store_f16_avx LABEL PROC
DB 197,252,16,188,36,160,0,0,0 ; vmovups 0xa0(%rsp),%ymm7
DB 72,129,196,216,0,0,0 ; add $0xd8,%rsp
DB 255,224 ; jmpq *%rax
- DB 196,65,121,214,28,193 ; vmovq %xmm11,(%r9,%rax,8)
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,192 ; je d6c2 <_sk_store_f16_avx+0x252>
- DB 196,65,121,23,92,193,8 ; vmovhpd %xmm11,0x8(%r9,%rax,8)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,179 ; jb d6c2 <_sk_store_f16_avx+0x252>
- DB 196,65,121,214,84,193,16 ; vmovq %xmm10,0x10(%r9,%rax,8)
- DB 116,170 ; je d6c2 <_sk_store_f16_avx+0x252>
- DB 196,65,121,23,84,193,24 ; vmovhpd %xmm10,0x18(%r9,%rax,8)
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,157 ; jb d6c2 <_sk_store_f16_avx+0x252>
- DB 196,65,121,214,76,193,32 ; vmovq %xmm9,0x20(%r9,%rax,8)
- DB 116,148 ; je d6c2 <_sk_store_f16_avx+0x252>
- DB 196,65,121,23,76,193,40 ; vmovhpd %xmm9,0x28(%r9,%rax,8)
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 114,135 ; jb d6c2 <_sk_store_f16_avx+0x252>
- DB 196,65,121,214,68,193,48 ; vmovq %xmm8,0x30(%r9,%rax,8)
- DB 233,123,255,255,255 ; jmpq d6c2 <_sk_store_f16_avx+0x252>
+ DB 196,65,121,214,28,192 ; vmovq %xmm11,(%r8,%rax,8)
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,192 ; je d6f6 <_sk_store_f16_avx+0x252>
+ DB 196,65,121,23,92,192,8 ; vmovhpd %xmm11,0x8(%r8,%rax,8)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,179 ; jb d6f6 <_sk_store_f16_avx+0x252>
+ DB 196,65,121,214,84,192,16 ; vmovq %xmm10,0x10(%r8,%rax,8)
+ DB 116,170 ; je d6f6 <_sk_store_f16_avx+0x252>
+ DB 196,65,121,23,84,192,24 ; vmovhpd %xmm10,0x18(%r8,%rax,8)
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,157 ; jb d6f6 <_sk_store_f16_avx+0x252>
+ DB 196,65,121,214,76,192,32 ; vmovq %xmm9,0x20(%r8,%rax,8)
+ DB 116,148 ; je d6f6 <_sk_store_f16_avx+0x252>
+ DB 196,65,121,23,76,192,40 ; vmovhpd %xmm9,0x28(%r8,%rax,8)
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 114,135 ; jb d6f6 <_sk_store_f16_avx+0x252>
+ DB 196,65,121,214,68,192,48 ; vmovq %xmm8,0x30(%r8,%rax,8)
+ DB 233,123,255,255,255 ; jmpq d6f6 <_sk_store_f16_avx+0x252>
PUBLIC _sk_load_u16_be_avx
_sk_load_u16_be_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,253,0,0,0 ; jne d86b <_sk_load_u16_be_avx+0x124>
- DB 196,65,121,16,4,65 ; vmovupd (%r9,%rax,2),%xmm8
- DB 196,193,121,16,84,65,16 ; vmovupd 0x10(%r9,%rax,2),%xmm2
- DB 196,193,121,16,92,65,32 ; vmovupd 0x20(%r9,%rax,2),%xmm3
- DB 196,65,122,111,76,65,48 ; vmovdqu 0x30(%r9,%rax,2),%xmm9
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,253,0,0,0 ; jne d89f <_sk_load_u16_be_avx+0x124>
+ DB 196,65,121,16,4,64 ; vmovupd (%r8,%rax,2),%xmm8
+ DB 196,193,121,16,84,64,16 ; vmovupd 0x10(%r8,%rax,2),%xmm2
+ DB 196,193,121,16,92,64,32 ; vmovupd 0x20(%r8,%rax,2),%xmm3
+ DB 196,65,122,111,76,64,48 ; vmovdqu 0x30(%r8,%rax,2),%xmm9
DB 197,185,97,194 ; vpunpcklwd %xmm2,%xmm8,%xmm0
DB 197,185,105,210 ; vpunpckhwd %xmm2,%xmm8,%xmm2
DB 196,193,97,97,201 ; vpunpcklwd %xmm9,%xmm3,%xmm1
@@ -12781,7 +12815,7 @@ _sk_load_u16_be_avx LABEL PROC
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
DB 196,227,125,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,98,125,24,29,109,233,1,0 ; vbroadcastss 0x1e96d(%rip),%ymm11 # 2c14c <_sk_overlay_sse2_8bit+0x4ff>
+ DB 196,98,125,24,29,97,233,1,0 ; vbroadcastss 0x1e961(%rip),%ymm11 # 2c174 <_sk_overlay_sse2_8bit+0x4ff>
DB 196,193,124,89,195 ; vmulps %ymm11,%ymm0,%ymm0
DB 197,177,109,202 ; vpunpckhqdq %xmm2,%xmm9,%xmm1
DB 197,233,113,241,8 ; vpsllw $0x8,%xmm1,%xmm2
@@ -12812,51 +12846,51 @@ _sk_load_u16_be_avx LABEL PROC
DB 196,193,100,89,219 ; vmulps %ymm11,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 196,65,123,16,4,65 ; vmovsd (%r9,%rax,2),%xmm8
+ DB 196,65,123,16,4,64 ; vmovsd (%r8,%rax,2),%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,85 ; je d8d1 <_sk_load_u16_be_avx+0x18a>
- DB 196,65,57,22,68,65,8 ; vmovhpd 0x8(%r9,%rax,2),%xmm8,%xmm8
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,72 ; jb d8d1 <_sk_load_u16_be_avx+0x18a>
- DB 196,193,123,16,84,65,16 ; vmovsd 0x10(%r9,%rax,2),%xmm2
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 116,72 ; je d8de <_sk_load_u16_be_avx+0x197>
- DB 196,193,105,22,84,65,24 ; vmovhpd 0x18(%r9,%rax,2),%xmm2,%xmm2
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,59 ; jb d8de <_sk_load_u16_be_avx+0x197>
- DB 196,193,123,16,92,65,32 ; vmovsd 0x20(%r9,%rax,2),%xmm3
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 15,132,213,254,255,255 ; je d789 <_sk_load_u16_be_avx+0x42>
- DB 196,193,97,22,92,65,40 ; vmovhpd 0x28(%r9,%rax,2),%xmm3,%xmm3
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,130,196,254,255,255 ; jb d789 <_sk_load_u16_be_avx+0x42>
- DB 196,65,122,126,76,65,48 ; vmovq 0x30(%r9,%rax,2),%xmm9
- DB 233,184,254,255,255 ; jmpq d789 <_sk_load_u16_be_avx+0x42>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,85 ; je d905 <_sk_load_u16_be_avx+0x18a>
+ DB 196,65,57,22,68,64,8 ; vmovhpd 0x8(%r8,%rax,2),%xmm8,%xmm8
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,72 ; jb d905 <_sk_load_u16_be_avx+0x18a>
+ DB 196,193,123,16,84,64,16 ; vmovsd 0x10(%r8,%rax,2),%xmm2
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 116,72 ; je d912 <_sk_load_u16_be_avx+0x197>
+ DB 196,193,105,22,84,64,24 ; vmovhpd 0x18(%r8,%rax,2),%xmm2,%xmm2
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,59 ; jb d912 <_sk_load_u16_be_avx+0x197>
+ DB 196,193,123,16,92,64,32 ; vmovsd 0x20(%r8,%rax,2),%xmm3
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 15,132,213,254,255,255 ; je d7bd <_sk_load_u16_be_avx+0x42>
+ DB 196,193,97,22,92,64,40 ; vmovhpd 0x28(%r8,%rax,2),%xmm3,%xmm3
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,130,196,254,255,255 ; jb d7bd <_sk_load_u16_be_avx+0x42>
+ DB 196,65,122,126,76,64,48 ; vmovq 0x30(%r8,%rax,2),%xmm9
+ DB 233,184,254,255,255 ; jmpq d7bd <_sk_load_u16_be_avx+0x42>
DB 197,225,87,219 ; vxorpd %xmm3,%xmm3,%xmm3
DB 197,233,87,210 ; vxorpd %xmm2,%xmm2,%xmm2
- DB 233,171,254,255,255 ; jmpq d789 <_sk_load_u16_be_avx+0x42>
+ DB 233,171,254,255,255 ; jmpq d7bd <_sk_load_u16_be_avx+0x42>
DB 197,225,87,219 ; vxorpd %xmm3,%xmm3,%xmm3
- DB 233,162,254,255,255 ; jmpq d789 <_sk_load_u16_be_avx+0x42>
+ DB 233,162,254,255,255 ; jmpq d7bd <_sk_load_u16_be_avx+0x42>
PUBLIC _sk_load_rgb_u16_be_avx
_sk_load_rgb_u16_be_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,137,208 ; mov %rdx,%rax
DB 72,193,224,32 ; shl $0x20,%rax
DB 72,141,4,64 ; lea (%rax,%rax,2),%rax
DB 72,193,248,32 ; sar $0x20,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,241,0,0,0 ; jne da03 <_sk_load_rgb_u16_be_avx+0x11c>
- DB 196,65,122,111,28,65 ; vmovdqu (%r9,%rax,2),%xmm11
- DB 196,193,122,111,92,65,12 ; vmovdqu 0xc(%r9,%rax,2),%xmm3
- DB 196,193,122,111,84,65,24 ; vmovdqu 0x18(%r9,%rax,2),%xmm2
- DB 196,193,122,111,68,65,32 ; vmovdqu 0x20(%r9,%rax,2),%xmm0
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,241,0,0,0 ; jne da37 <_sk_load_rgb_u16_be_avx+0x11c>
+ DB 196,65,122,111,28,64 ; vmovdqu (%r8,%rax,2),%xmm11
+ DB 196,193,122,111,92,64,12 ; vmovdqu 0xc(%r8,%rax,2),%xmm3
+ DB 196,193,122,111,84,64,24 ; vmovdqu 0x18(%r8,%rax,2),%xmm2
+ DB 196,193,122,111,68,64,32 ; vmovdqu 0x20(%r8,%rax,2),%xmm0
DB 197,249,115,216,4 ; vpsrldq $0x4,%xmm0,%xmm0
DB 196,193,57,115,219,6 ; vpsrldq $0x6,%xmm11,%xmm8
DB 197,169,115,219,6 ; vpsrldq $0x6,%xmm3,%xmm10
@@ -12879,7 +12913,7 @@ _sk_load_rgb_u16_be_avx LABEL PROC
DB 196,226,121,51,192 ; vpmovzxwd %xmm0,%xmm0
DB 196,227,125,24,194,1 ; vinsertf128 $0x1,%xmm2,%ymm0,%ymm0
DB 197,252,91,192 ; vcvtdq2ps %ymm0,%ymm0
- DB 196,226,125,24,21,175,231,1,0 ; vbroadcastss 0x1e7af(%rip),%ymm2 # 2c14c <_sk_overlay_sse2_8bit+0x4ff>
+ DB 196,226,125,24,21,163,231,1,0 ; vbroadcastss 0x1e7a3(%rip),%ymm2 # 2c174 <_sk_overlay_sse2_8bit+0x4ff>
DB 197,252,89,194 ; vmulps %ymm2,%ymm0,%ymm0
DB 197,185,109,201 ; vpunpckhqdq %xmm1,%xmm8,%xmm1
DB 197,225,113,241,8 ; vpsllw $0x8,%xmm1,%xmm3
@@ -12900,81 +12934,81 @@ _sk_load_rgb_u16_be_avx LABEL PROC
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 197,228,89,210 ; vmulps %ymm2,%ymm3,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,187,230,1,0 ; vbroadcastss 0x1e6bb(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,175,230,1,0 ; vbroadcastss 0x1e6af(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 255,224 ; jmpq *%rax
- DB 196,193,121,110,4,65 ; vmovd (%r9,%rax,2),%xmm0
- DB 196,65,121,196,92,65,4,2 ; vpinsrw $0x2,0x4(%r9,%rax,2),%xmm0,%xmm11
+ DB 196,193,121,110,4,64 ; vmovd (%r8,%rax,2),%xmm0
+ DB 196,65,121,196,92,64,4,2 ; vpinsrw $0x2,0x4(%r8,%rax,2),%xmm0,%xmm11
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,32 ; jne da3c <_sk_load_rgb_u16_be_avx+0x155>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,32 ; jne da70 <_sk_load_rgb_u16_be_avx+0x155>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
DB 197,225,239,219 ; vpxor %xmm3,%xmm3,%xmm3
DB 196,65,57,239,192 ; vpxor %xmm8,%xmm8,%xmm8
- DB 233,11,255,255,255 ; jmpq d947 <_sk_load_rgb_u16_be_avx+0x60>
- DB 196,193,121,110,68,65,6 ; vmovd 0x6(%r9,%rax,2),%xmm0
- DB 196,65,121,196,68,65,10,2 ; vpinsrw $0x2,0xa(%r9,%rax,2),%xmm0,%xmm8
+ DB 233,11,255,255,255 ; jmpq d97b <_sk_load_rgb_u16_be_avx+0x60>
+ DB 196,193,121,110,68,64,6 ; vmovd 0x6(%r8,%rax,2),%xmm0
+ DB 196,65,121,196,68,64,10,2 ; vpinsrw $0x2,0xa(%r8,%rax,2),%xmm0,%xmm8
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,49 ; jb da87 <_sk_load_rgb_u16_be_avx+0x1a0>
- DB 196,193,121,110,68,65,12 ; vmovd 0xc(%r9,%rax,2),%xmm0
- DB 196,193,121,196,92,65,16,2 ; vpinsrw $0x2,0x10(%r9,%rax,2),%xmm0,%xmm3
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,49 ; jb dabb <_sk_load_rgb_u16_be_avx+0x1a0>
+ DB 196,193,121,110,68,64,12 ; vmovd 0xc(%r8,%rax,2),%xmm0
+ DB 196,193,121,196,92,64,16,2 ; vpinsrw $0x2,0x10(%r8,%rax,2),%xmm0,%xmm3
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 117,50 ; jne daa2 <_sk_load_rgb_u16_be_avx+0x1bb>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 117,50 ; jne dad6 <_sk_load_rgb_u16_be_avx+0x1bb>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
- DB 233,192,254,255,255 ; jmpq d947 <_sk_load_rgb_u16_be_avx+0x60>
+ DB 233,192,254,255,255 ; jmpq d97b <_sk_load_rgb_u16_be_avx+0x60>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,65,41,239,210 ; vpxor %xmm10,%xmm10,%xmm10
DB 197,225,239,219 ; vpxor %xmm3,%xmm3,%xmm3
- DB 233,165,254,255,255 ; jmpq d947 <_sk_load_rgb_u16_be_avx+0x60>
- DB 196,193,121,110,68,65,18 ; vmovd 0x12(%r9,%rax,2),%xmm0
- DB 196,65,121,196,84,65,22,2 ; vpinsrw $0x2,0x16(%r9,%rax,2),%xmm0,%xmm10
+ DB 233,165,254,255,255 ; jmpq d97b <_sk_load_rgb_u16_be_avx+0x60>
+ DB 196,193,121,110,68,64,18 ; vmovd 0x12(%r8,%rax,2),%xmm0
+ DB 196,65,121,196,84,64,22,2 ; vpinsrw $0x2,0x16(%r8,%rax,2),%xmm0,%xmm10
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,40 ; jb dae4 <_sk_load_rgb_u16_be_avx+0x1fd>
- DB 196,193,121,110,68,65,24 ; vmovd 0x18(%r9,%rax,2),%xmm0
- DB 196,193,121,196,84,65,28,2 ; vpinsrw $0x2,0x1c(%r9,%rax,2),%xmm0,%xmm2
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,40 ; jb db18 <_sk_load_rgb_u16_be_avx+0x1fd>
+ DB 196,193,121,110,68,64,24 ; vmovd 0x18(%r8,%rax,2),%xmm0
+ DB 196,193,121,196,84,64,28,2 ; vpinsrw $0x2,0x1c(%r8,%rax,2),%xmm0,%xmm2
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 117,32 ; jne daf6 <_sk_load_rgb_u16_be_avx+0x20f>
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 117,32 ; jne db2a <_sk_load_rgb_u16_be_avx+0x20f>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
- DB 233,99,254,255,255 ; jmpq d947 <_sk_load_rgb_u16_be_avx+0x60>
+ DB 233,99,254,255,255 ; jmpq d97b <_sk_load_rgb_u16_be_avx+0x60>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,65,25,239,228 ; vpxor %xmm12,%xmm12,%xmm12
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
- DB 233,81,254,255,255 ; jmpq d947 <_sk_load_rgb_u16_be_avx+0x60>
- DB 196,193,121,110,68,65,30 ; vmovd 0x1e(%r9,%rax,2),%xmm0
- DB 196,65,121,196,100,65,34,2 ; vpinsrw $0x2,0x22(%r9,%rax,2),%xmm0,%xmm12
+ DB 233,81,254,255,255 ; jmpq d97b <_sk_load_rgb_u16_be_avx+0x60>
+ DB 196,193,121,110,68,64,30 ; vmovd 0x1e(%r8,%rax,2),%xmm0
+ DB 196,65,121,196,100,64,34,2 ; vpinsrw $0x2,0x22(%r8,%rax,2),%xmm0,%xmm12
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 114,25 ; jb db29 <_sk_load_rgb_u16_be_avx+0x242>
- DB 196,193,121,110,68,65,36 ; vmovd 0x24(%r9,%rax,2),%xmm0
- DB 196,193,121,196,68,65,40,2 ; vpinsrw $0x2,0x28(%r9,%rax,2),%xmm0,%xmm0
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 114,25 ; jb db5d <_sk_load_rgb_u16_be_avx+0x242>
+ DB 196,193,121,110,68,64,36 ; vmovd 0x24(%r8,%rax,2),%xmm0
+ DB 196,193,121,196,68,64,40,2 ; vpinsrw $0x2,0x28(%r8,%rax,2),%xmm0,%xmm0
DB 196,65,49,239,201 ; vpxor %xmm9,%xmm9,%xmm9
- DB 233,30,254,255,255 ; jmpq d947 <_sk_load_rgb_u16_be_avx+0x60>
+ DB 233,30,254,255,255 ; jmpq d97b <_sk_load_rgb_u16_be_avx+0x60>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
- DB 233,21,254,255,255 ; jmpq d947 <_sk_load_rgb_u16_be_avx+0x60>
+ DB 233,21,254,255,255 ; jmpq d97b <_sk_load_rgb_u16_be_avx+0x60>
PUBLIC _sk_store_u16_be_avx
_sk_store_u16_be_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 196,98,125,24,5,123,230,1,0 ; vbroadcastss 0x1e67b(%rip),%ymm8 # 2c1d4 <_sk_overlay_sse2_8bit+0x587>
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 196,98,125,24,5,111,230,1,0 ; vbroadcastss 0x1e66f(%rip),%ymm8 # 2c1fc <_sk_overlay_sse2_8bit+0x587>
DB 196,65,124,89,200 ; vmulps %ymm8,%ymm0,%ymm9
DB 196,65,125,91,201 ; vcvtps2dq %ymm9,%ymm9
DB 196,67,125,25,202,1 ; vextractf128 $0x1,%ymm9,%xmm10
@@ -13011,54 +13045,54 @@ _sk_store_u16_be_avx LABEL PROC
DB 196,65,25,106,209 ; vpunpckhdq %xmm9,%xmm12,%xmm10
DB 196,65,17,98,200 ; vpunpckldq %xmm8,%xmm13,%xmm9
DB 196,65,17,106,192 ; vpunpckhdq %xmm8,%xmm13,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,31 ; jne dc3d <_sk_store_u16_be_avx+0x10b>
- DB 196,65,120,17,28,65 ; vmovups %xmm11,(%r9,%rax,2)
- DB 196,65,120,17,84,65,16 ; vmovups %xmm10,0x10(%r9,%rax,2)
- DB 196,65,120,17,76,65,32 ; vmovups %xmm9,0x20(%r9,%rax,2)
- DB 196,65,122,127,68,65,48 ; vmovdqu %xmm8,0x30(%r9,%rax,2)
- DB 72,173 ; lods %ds:(%rsi),%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,121,214,28,65 ; vmovq %xmm11,(%r9,%rax,2)
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,240 ; je dc39 <_sk_store_u16_be_avx+0x107>
- DB 196,65,121,23,92,65,8 ; vmovhpd %xmm11,0x8(%r9,%rax,2)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,227 ; jb dc39 <_sk_store_u16_be_avx+0x107>
- DB 196,65,121,214,84,65,16 ; vmovq %xmm10,0x10(%r9,%rax,2)
- DB 116,218 ; je dc39 <_sk_store_u16_be_avx+0x107>
- DB 196,65,121,23,84,65,24 ; vmovhpd %xmm10,0x18(%r9,%rax,2)
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,205 ; jb dc39 <_sk_store_u16_be_avx+0x107>
- DB 196,65,121,214,76,65,32 ; vmovq %xmm9,0x20(%r9,%rax,2)
- DB 116,196 ; je dc39 <_sk_store_u16_be_avx+0x107>
- DB 196,65,121,23,76,65,40 ; vmovhpd %xmm9,0x28(%r9,%rax,2)
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 114,183 ; jb dc39 <_sk_store_u16_be_avx+0x107>
- DB 196,65,121,214,68,65,48 ; vmovq %xmm8,0x30(%r9,%rax,2)
- DB 235,174 ; jmp dc39 <_sk_store_u16_be_avx+0x107>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,31 ; jne dc71 <_sk_store_u16_be_avx+0x10b>
+ DB 196,65,120,17,28,64 ; vmovups %xmm11,(%r8,%rax,2)
+ DB 196,65,120,17,84,64,16 ; vmovups %xmm10,0x10(%r8,%rax,2)
+ DB 196,65,120,17,76,64,32 ; vmovups %xmm9,0x20(%r8,%rax,2)
+ DB 196,65,122,127,68,64,48 ; vmovdqu %xmm8,0x30(%r8,%rax,2)
+ DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,65,121,214,28,64 ; vmovq %xmm11,(%r8,%rax,2)
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,240 ; je dc6d <_sk_store_u16_be_avx+0x107>
+ DB 196,65,121,23,92,64,8 ; vmovhpd %xmm11,0x8(%r8,%rax,2)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,227 ; jb dc6d <_sk_store_u16_be_avx+0x107>
+ DB 196,65,121,214,84,64,16 ; vmovq %xmm10,0x10(%r8,%rax,2)
+ DB 116,218 ; je dc6d <_sk_store_u16_be_avx+0x107>
+ DB 196,65,121,23,84,64,24 ; vmovhpd %xmm10,0x18(%r8,%rax,2)
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,205 ; jb dc6d <_sk_store_u16_be_avx+0x107>
+ DB 196,65,121,214,76,64,32 ; vmovq %xmm9,0x20(%r8,%rax,2)
+ DB 116,196 ; je dc6d <_sk_store_u16_be_avx+0x107>
+ DB 196,65,121,23,76,64,40 ; vmovhpd %xmm9,0x28(%r8,%rax,2)
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 114,183 ; jb dc6d <_sk_store_u16_be_avx+0x107>
+ DB 196,65,121,214,68,64,48 ; vmovq %xmm8,0x30(%r8,%rax,2)
+ DB 235,174 ; jmp dc6d <_sk_store_u16_be_avx+0x107>
PUBLIC _sk_load_f32_avx
_sk_load_f32_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,253,87,192 ; vxorpd %ymm0,%ymm0,%ymm0
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,135,101,1,0,0 ; ja de00 <_sk_load_f32_avx+0x175>
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,135,101,1,0,0 ; ja de34 <_sk_load_f32_avx+0x175>
DB 72,129,236,152,0,0,0 ; sub $0x98,%rsp
DB 197,253,17,36,36 ; vmovupd %ymm4,(%rsp)
DB 197,253,17,108,36,32 ; vmovupd %ymm5,0x20(%rsp)
DB 197,253,17,116,36,64 ; vmovupd %ymm6,0x40(%rsp)
DB 197,253,17,124,36,96 ; vmovupd %ymm7,0x60(%rsp)
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 77,99,210 ; movslq %r10d,%r10
- DB 76,141,29,51,1,0,0 ; lea 0x133(%rip),%r11 # de10 <_sk_load_f32_avx+0x185>
- DB 75,99,4,131 ; movslq (%r11,%r8,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 77,99,201 ; movslq %r9d,%r9
+ DB 76,141,21,51,1,0,0 ; lea 0x133(%rip),%r10 # de44 <_sk_load_f32_avx+0x185>
+ DB 73,99,4,186 ; movslq (%r10,%rdi,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 197,221,87,228 ; vxorpd %ymm4,%ymm4,%ymm4
DB 196,65,53,87,201 ; vxorpd %ymm9,%ymm9,%ymm9
DB 197,237,87,210 ; vxorpd %ymm2,%ymm2,%ymm2
@@ -13075,31 +13109,31 @@ _sk_load_f32_avx LABEL PROC
DB 196,65,45,87,210 ; vxorpd %ymm10,%ymm10,%ymm10
DB 197,197,87,255 ; vxorpd %ymm7,%ymm7,%ymm7
DB 255,224 ; jmpq *%rax
- DB 196,129,121,16,68,145,112 ; vmovupd 0x70(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,112 ; vmovupd 0x70(%r8,%r9,4),%xmm0
DB 196,227,125,6,192,40 ; vperm2f128 $0x28,%ymm0,%ymm0,%ymm0
- DB 196,129,121,16,76,145,96 ; vmovupd 0x60(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,96 ; vmovupd 0x60(%r8,%r9,4),%xmm1
DB 196,227,125,6,225,40 ; vperm2f128 $0x28,%ymm1,%ymm0,%ymm4
- DB 196,129,121,16,76,145,80 ; vmovupd 0x50(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,80 ; vmovupd 0x50(%r8,%r9,4),%xmm1
DB 196,227,125,6,209,40 ; vperm2f128 $0x28,%ymm1,%ymm0,%ymm2
DB 197,125,40,204 ; vmovapd %ymm4,%ymm9
- DB 196,129,121,16,76,145,64 ; vmovupd 0x40(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,64 ; vmovupd 0x40(%r8,%r9,4),%xmm1
DB 196,99,125,6,193,40 ; vperm2f128 $0x28,%ymm1,%ymm0,%ymm8
DB 196,65,125,40,217 ; vmovapd %ymm9,%ymm11
DB 197,125,40,226 ; vmovapd %ymm2,%ymm12
- DB 196,129,121,16,76,145,48 ; vmovupd 0x30(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,48 ; vmovupd 0x30(%r8,%r9,4),%xmm1
DB 196,227,117,13,192,12 ; vblendpd $0xc,%ymm0,%ymm1,%ymm0
DB 196,65,125,40,243 ; vmovapd %ymm11,%ymm14
DB 197,125,41,230 ; vmovapd %ymm12,%ymm6
DB 196,65,125,40,248 ; vmovapd %ymm8,%ymm15
- DB 196,129,121,16,76,145,32 ; vmovupd 0x20(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,32 ; vmovupd 0x20(%r8,%r9,4),%xmm1
DB 196,195,117,13,206,12 ; vblendpd $0xc,%ymm14,%ymm1,%ymm1
DB 197,125,40,238 ; vmovapd %ymm6,%ymm13
DB 197,125,41,253 ; vmovapd %ymm15,%ymm5
- DB 196,129,121,16,84,145,16 ; vmovupd 0x10(%r9,%r10,4),%xmm2
+ DB 196,129,121,16,84,136,16 ; vmovupd 0x10(%r8,%r9,4),%xmm2
DB 196,67,109,13,213,12 ; vblendpd $0xc,%ymm13,%ymm2,%ymm10
DB 197,253,40,217 ; vmovapd %ymm1,%ymm3
DB 197,253,40,253 ; vmovapd %ymm5,%ymm7
- DB 196,129,121,16,12,145 ; vmovupd (%r9,%r10,4),%xmm1
+ DB 196,129,121,16,12,136 ; vmovupd (%r8,%r9,4),%xmm1
DB 196,227,117,13,207,12 ; vblendpd $0xc,%ymm7,%ymm1,%ymm1
DB 197,252,16,124,36,96 ; vmovups 0x60(%rsp),%ymm7
DB 197,252,16,116,36,64 ; vmovups 0x40(%rsp),%ymm6
@@ -13119,7 +13153,7 @@ _sk_load_f32_avx LABEL PROC
DB 197,229,87,219 ; vxorpd %ymm3,%ymm3,%ymm3
DB 196,65,45,87,210 ; vxorpd %ymm10,%ymm10,%ymm10
DB 197,245,87,201 ; vxorpd %ymm1,%ymm1,%ymm1
- DB 235,203 ; jmp ddda <_sk_load_f32_avx+0x14f>
+ DB 235,203 ; jmp de0e <_sk_load_f32_avx+0x14f>
DB 144 ; nop
DB 26,255 ; sbb %bh,%bh
DB 255 ; (bad)
@@ -13143,23 +13177,23 @@ PUBLIC _sk_load_f32_dst_avx
_sk_load_f32_dst_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,221,87,228 ; vxorpd %ymm4,%ymm4,%ymm4
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 15,135,101,1,0,0 ; ja dfa5 <_sk_load_f32_dst_avx+0x175>
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 15,135,101,1,0,0 ; ja dfd9 <_sk_load_f32_dst_avx+0x175>
DB 72,129,236,152,0,0,0 ; sub $0x98,%rsp
DB 197,253,17,4,36 ; vmovupd %ymm0,(%rsp)
DB 197,253,17,76,36,32 ; vmovupd %ymm1,0x20(%rsp)
DB 197,253,17,84,36,64 ; vmovupd %ymm2,0x40(%rsp)
DB 197,253,17,92,36,96 ; vmovupd %ymm3,0x60(%rsp)
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 77,99,210 ; movslq %r10d,%r10
- DB 76,141,29,50,1,0,0 ; lea 0x132(%rip),%r11 # dfb4 <_sk_load_f32_dst_avx+0x184>
- DB 75,99,4,131 ; movslq (%r11,%r8,4),%rax
- DB 76,1,216 ; add %r11,%rax
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 77,99,201 ; movslq %r9d,%r9
+ DB 76,141,21,50,1,0,0 ; lea 0x132(%rip),%r10 # dfe8 <_sk_load_f32_dst_avx+0x184>
+ DB 73,99,4,186 ; movslq (%r10,%rdi,4),%rax
+ DB 76,1,208 ; add %r10,%rax
DB 197,253,87,192 ; vxorpd %ymm0,%ymm0,%ymm0
DB 196,65,53,87,201 ; vxorpd %ymm9,%ymm9,%ymm9
DB 197,205,87,246 ; vxorpd %ymm6,%ymm6,%ymm6
@@ -13176,31 +13210,31 @@ _sk_load_f32_dst_avx LABEL PROC
DB 196,65,45,87,210 ; vxorpd %ymm10,%ymm10,%ymm10
DB 197,229,87,219 ; vxorpd %ymm3,%ymm3,%ymm3
DB 255,224 ; jmpq *%rax
- DB 196,129,121,16,68,145,112 ; vmovupd 0x70(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,112 ; vmovupd 0x70(%r8,%r9,4),%xmm0
DB 196,227,125,6,224,40 ; vperm2f128 $0x28,%ymm0,%ymm0,%ymm4
- DB 196,129,121,16,68,145,96 ; vmovupd 0x60(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,96 ; vmovupd 0x60(%r8,%r9,4),%xmm0
DB 196,227,125,6,192,40 ; vperm2f128 $0x28,%ymm0,%ymm0,%ymm0
- DB 196,129,121,16,76,145,80 ; vmovupd 0x50(%r9,%r10,4),%xmm1
+ DB 196,129,121,16,76,136,80 ; vmovupd 0x50(%r8,%r9,4),%xmm1
DB 196,227,125,6,241,40 ; vperm2f128 $0x28,%ymm1,%ymm0,%ymm6
DB 197,125,40,200 ; vmovapd %ymm0,%ymm9
- DB 196,129,121,16,68,145,64 ; vmovupd 0x40(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,64 ; vmovupd 0x40(%r8,%r9,4),%xmm0
DB 196,99,125,6,192,40 ; vperm2f128 $0x28,%ymm0,%ymm0,%ymm8
DB 196,65,125,40,217 ; vmovapd %ymm9,%ymm11
DB 197,125,40,230 ; vmovapd %ymm6,%ymm12
- DB 196,129,121,16,68,145,48 ; vmovupd 0x30(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,48 ; vmovupd 0x30(%r8,%r9,4),%xmm0
DB 196,227,125,13,228,12 ; vblendpd $0xc,%ymm4,%ymm0,%ymm4
DB 196,65,125,40,243 ; vmovapd %ymm11,%ymm14
DB 197,125,41,226 ; vmovapd %ymm12,%ymm2
DB 196,65,125,40,248 ; vmovapd %ymm8,%ymm15
- DB 196,129,121,16,68,145,32 ; vmovupd 0x20(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,32 ; vmovupd 0x20(%r8,%r9,4),%xmm0
DB 196,195,125,13,238,12 ; vblendpd $0xc,%ymm14,%ymm0,%ymm5
DB 197,125,40,234 ; vmovapd %ymm2,%ymm13
DB 197,125,41,249 ; vmovapd %ymm15,%ymm1
- DB 196,129,121,16,68,145,16 ; vmovupd 0x10(%r9,%r10,4),%xmm0
+ DB 196,129,121,16,68,136,16 ; vmovupd 0x10(%r8,%r9,4),%xmm0
DB 196,67,125,13,213,12 ; vblendpd $0xc,%ymm13,%ymm0,%ymm10
DB 197,253,40,253 ; vmovapd %ymm5,%ymm7
DB 197,253,40,217 ; vmovapd %ymm1,%ymm3
- DB 196,129,121,16,4,145 ; vmovupd (%r9,%r10,4),%xmm0
+ DB 196,129,121,16,4,136 ; vmovupd (%r8,%r9,4),%xmm0
DB 196,227,125,13,235,12 ; vblendpd $0xc,%ymm3,%ymm0,%ymm5
DB 197,252,16,92,36,96 ; vmovups 0x60(%rsp),%ymm3
DB 197,252,16,84,36,64 ; vmovups 0x40(%rsp),%ymm2
@@ -13220,7 +13254,7 @@ _sk_load_f32_dst_avx LABEL PROC
DB 197,197,87,255 ; vxorpd %ymm7,%ymm7,%ymm7
DB 196,65,45,87,210 ; vxorpd %ymm10,%ymm10,%ymm10
DB 197,213,87,237 ; vxorpd %ymm5,%ymm5,%ymm5
- DB 235,203 ; jmp df7f <_sk_load_f32_dst_avx+0x14f>
+ DB 235,203 ; jmp dfb3 <_sk_load_f32_dst_avx+0x14f>
DB 27,255 ; sbb %edi,%edi
DB 255 ; (bad)
DB 255,161,255,255,255,140 ; jmpq *-0x73000001(%rcx)
@@ -13231,7 +13265,7 @@ _sk_load_f32_dst_avx LABEL PROC
DB 255,92,255,255 ; lcall *-0x1(%rdi,%rdi,8)
DB 255,70,255 ; incl -0x1(%rsi)
DB 255 ; (bad)
- DB 255,53,255,255,255,40 ; pushq 0x28ffffff(%rip) # 2900dfd0 <_sk_overlay_sse2_8bit+0x28fe2383>
+ DB 255,53,255,255,255,40 ; pushq 0x28ffffff(%rip) # 2900e004 <_sk_overlay_sse2_8bit+0x28fe238f>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
@@ -13239,13 +13273,13 @@ _sk_load_f32_dst_avx LABEL PROC
PUBLIC _sk_store_f32_avx
_sk_store_f32_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
DB 197,124,20,193 ; vunpcklps %ymm1,%ymm0,%ymm8
DB 197,124,21,217 ; vunpckhps %ymm1,%ymm0,%ymm11
DB 197,108,20,203 ; vunpcklps %ymm3,%ymm2,%ymm9
@@ -13254,36 +13288,36 @@ _sk_store_f32_avx LABEL PROC
DB 196,65,61,21,201 ; vunpckhpd %ymm9,%ymm8,%ymm9
DB 196,65,37,20,196 ; vunpcklpd %ymm12,%ymm11,%ymm8
DB 196,65,37,21,220 ; vunpckhpd %ymm12,%ymm11,%ymm11
- DB 77,133,192 ; test %r8,%r8
- DB 117,55 ; jne e053 <_sk_store_f32_avx+0x7f>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,55 ; jne e087 <_sk_store_f32_avx+0x7f>
DB 196,67,45,24,225,1 ; vinsertf128 $0x1,%xmm9,%ymm10,%ymm12
DB 196,67,61,24,235,1 ; vinsertf128 $0x1,%xmm11,%ymm8,%ymm13
DB 196,67,45,6,201,49 ; vperm2f128 $0x31,%ymm9,%ymm10,%ymm9
DB 196,67,61,6,195,49 ; vperm2f128 $0x31,%ymm11,%ymm8,%ymm8
- DB 196,65,125,17,36,129 ; vmovupd %ymm12,(%r9,%rax,4)
- DB 196,65,125,17,108,129,32 ; vmovupd %ymm13,0x20(%r9,%rax,4)
- DB 196,65,125,17,76,129,64 ; vmovupd %ymm9,0x40(%r9,%rax,4)
- DB 196,65,125,17,68,129,96 ; vmovupd %ymm8,0x60(%r9,%rax,4)
- DB 72,173 ; lods %ds:(%rsi),%rax
- DB 255,224 ; jmpq *%rax
- DB 196,65,121,17,20,129 ; vmovupd %xmm10,(%r9,%rax,4)
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,240 ; je e04f <_sk_store_f32_avx+0x7b>
- DB 196,65,121,17,76,129,16 ; vmovupd %xmm9,0x10(%r9,%rax,4)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,227 ; jb e04f <_sk_store_f32_avx+0x7b>
- DB 196,65,121,17,68,129,32 ; vmovupd %xmm8,0x20(%r9,%rax,4)
- DB 116,218 ; je e04f <_sk_store_f32_avx+0x7b>
- DB 196,65,121,17,92,129,48 ; vmovupd %xmm11,0x30(%r9,%rax,4)
- DB 73,131,248,5 ; cmp $0x5,%r8
- DB 114,205 ; jb e04f <_sk_store_f32_avx+0x7b>
- DB 196,67,125,25,84,129,64,1 ; vextractf128 $0x1,%ymm10,0x40(%r9,%rax,4)
- DB 116,195 ; je e04f <_sk_store_f32_avx+0x7b>
- DB 196,67,125,25,76,129,80,1 ; vextractf128 $0x1,%ymm9,0x50(%r9,%rax,4)
- DB 73,131,248,7 ; cmp $0x7,%r8
- DB 114,181 ; jb e04f <_sk_store_f32_avx+0x7b>
- DB 196,67,125,25,68,129,96,1 ; vextractf128 $0x1,%ymm8,0x60(%r9,%rax,4)
- DB 235,171 ; jmp e04f <_sk_store_f32_avx+0x7b>
+ DB 196,65,125,17,36,128 ; vmovupd %ymm12,(%r8,%rax,4)
+ DB 196,65,125,17,108,128,32 ; vmovupd %ymm13,0x20(%r8,%rax,4)
+ DB 196,65,125,17,76,128,64 ; vmovupd %ymm9,0x40(%r8,%rax,4)
+ DB 196,65,125,17,68,128,96 ; vmovupd %ymm8,0x60(%r8,%rax,4)
+ DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 255,224 ; jmpq *%rax
+ DB 196,65,121,17,20,128 ; vmovupd %xmm10,(%r8,%rax,4)
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,240 ; je e083 <_sk_store_f32_avx+0x7b>
+ DB 196,65,121,17,76,128,16 ; vmovupd %xmm9,0x10(%r8,%rax,4)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,227 ; jb e083 <_sk_store_f32_avx+0x7b>
+ DB 196,65,121,17,68,128,32 ; vmovupd %xmm8,0x20(%r8,%rax,4)
+ DB 116,218 ; je e083 <_sk_store_f32_avx+0x7b>
+ DB 196,65,121,17,92,128,48 ; vmovupd %xmm11,0x30(%r8,%rax,4)
+ DB 72,131,255,5 ; cmp $0x5,%rdi
+ DB 114,205 ; jb e083 <_sk_store_f32_avx+0x7b>
+ DB 196,67,125,25,84,128,64,1 ; vextractf128 $0x1,%ymm10,0x40(%r8,%rax,4)
+ DB 116,195 ; je e083 <_sk_store_f32_avx+0x7b>
+ DB 196,67,125,25,76,128,80,1 ; vextractf128 $0x1,%ymm9,0x50(%r8,%rax,4)
+ DB 72,131,255,7 ; cmp $0x7,%rdi
+ DB 114,181 ; jb e083 <_sk_store_f32_avx+0x7b>
+ DB 196,67,125,25,68,128,96,1 ; vextractf128 $0x1,%ymm8,0x60(%r8,%rax,4)
+ DB 235,171 ; jmp e083 <_sk_store_f32_avx+0x7b>
PUBLIC _sk_clamp_x_avx
_sk_clamp_x_avx LABEL PROC
@@ -13366,7 +13400,7 @@ _sk_mirror_x_avx LABEL PROC
DB 196,193,58,88,192 ; vaddss %xmm8,%xmm8,%xmm0
DB 196,227,121,4,192,0 ; vpermilps $0x0,%xmm0,%xmm0
DB 196,99,125,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm0,%ymm8
- DB 197,178,89,5,223,222,1,0 ; vmulss 0x1dedf(%rip),%xmm9,%xmm0 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 197,178,89,5,211,222,1,0 ; vmulss 0x1ded3(%rip),%xmm9,%xmm0 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,227,121,4,192,0 ; vpermilps $0x0,%xmm0,%xmm0
DB 196,227,125,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
DB 197,164,89,192 ; vmulps %ymm0,%ymm11,%ymm0
@@ -13398,7 +13432,7 @@ _sk_mirror_y_avx LABEL PROC
DB 196,193,58,88,200 ; vaddss %xmm8,%xmm8,%xmm1
DB 196,227,121,4,201,0 ; vpermilps $0x0,%xmm1,%xmm1
DB 196,99,117,24,193,1 ; vinsertf128 $0x1,%xmm1,%ymm1,%ymm8
- DB 197,178,89,13,82,222,1,0 ; vmulss 0x1de52(%rip),%xmm9,%xmm1 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 197,178,89,13,70,222,1,0 ; vmulss 0x1de46(%rip),%xmm9,%xmm1 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,227,121,4,201,0 ; vpermilps $0x0,%xmm1,%xmm1
DB 196,227,117,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm1,%ymm1
DB 197,164,89,201 ; vmulps %ymm1,%ymm11,%ymm1
@@ -13423,7 +13457,7 @@ PUBLIC _sk_clamp_x_1_avx
_sk_clamp_x_1_avx LABEL PROC
DB 196,65,60,87,192 ; vxorps %ymm8,%ymm8,%ymm8
DB 197,188,95,192 ; vmaxps %ymm0,%ymm8,%ymm0
- DB 196,98,125,24,5,236,221,1,0 ; vbroadcastss 0x1ddec(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,224,221,1,0 ; vbroadcastss 0x1dde0(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 196,193,124,93,192 ; vminps %ymm8,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -13437,9 +13471,9 @@ _sk_repeat_x_1_avx LABEL PROC
PUBLIC _sk_mirror_x_1_avx
_sk_mirror_x_1_avx LABEL PROC
- DB 196,98,125,24,5,227,221,1,0 ; vbroadcastss 0x1dde3(%rip),%ymm8 # 2c0d4 <_sk_overlay_sse2_8bit+0x487>
+ DB 196,98,125,24,5,215,221,1,0 ; vbroadcastss 0x1ddd7(%rip),%ymm8 # 2c0fc <_sk_overlay_sse2_8bit+0x487>
DB 196,193,124,88,192 ; vaddps %ymm8,%ymm0,%ymm0
- DB 196,98,125,24,13,185,221,1,0 ; vbroadcastss 0x1ddb9(%rip),%ymm9 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,13,173,221,1,0 ; vbroadcastss 0x1ddad(%rip),%ymm9 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,124,89,201 ; vmulps %ymm9,%ymm0,%ymm9
DB 196,67,125,8,201,1 ; vroundps $0x1,%ymm9,%ymm9
DB 196,65,52,88,201 ; vaddps %ymm9,%ymm9,%ymm9
@@ -13453,12 +13487,12 @@ _sk_mirror_x_1_avx LABEL PROC
PUBLIC _sk_luminance_to_alpha_avx
_sk_luminance_to_alpha_avx LABEL PROC
- DB 196,226,125,24,29,165,222,1,0 ; vbroadcastss 0x1dea5(%rip),%ymm3 # 2c1d8 <_sk_overlay_sse2_8bit+0x58b>
+ DB 196,226,125,24,29,153,222,1,0 ; vbroadcastss 0x1de99(%rip),%ymm3 # 2c200 <_sk_overlay_sse2_8bit+0x58b>
DB 197,252,89,195 ; vmulps %ymm3,%ymm0,%ymm0
- DB 196,226,125,24,29,156,222,1,0 ; vbroadcastss 0x1de9c(%rip),%ymm3 # 2c1dc <_sk_overlay_sse2_8bit+0x58f>
+ DB 196,226,125,24,29,144,222,1,0 ; vbroadcastss 0x1de90(%rip),%ymm3 # 2c204 <_sk_overlay_sse2_8bit+0x58f>
DB 197,244,89,203 ; vmulps %ymm3,%ymm1,%ymm1
DB 197,252,88,193 ; vaddps %ymm1,%ymm0,%ymm0
- DB 196,226,125,24,13,143,222,1,0 ; vbroadcastss 0x1de8f(%rip),%ymm1 # 2c1e0 <_sk_overlay_sse2_8bit+0x593>
+ DB 196,226,125,24,13,131,222,1,0 ; vbroadcastss 0x1de83(%rip),%ymm1 # 2c208 <_sk_overlay_sse2_8bit+0x593>
DB 197,236,89,201 ; vmulps %ymm1,%ymm2,%ymm1
DB 197,252,88,217 ; vaddps %ymm1,%ymm0,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -13691,140 +13725,140 @@ _sk_evenly_spaced_gradient_avx LABEL PROC
DB 72,139,24 ; mov (%rax),%rbx
DB 72,139,104,8 ; mov 0x8(%rax),%rbp
DB 72,255,203 ; dec %rbx
- DB 120,7 ; js e6f8 <_sk_evenly_spaced_gradient_avx+0x28>
+ DB 120,7 ; js e72c <_sk_evenly_spaced_gradient_avx+0x28>
DB 196,225,242,42,203 ; vcvtsi2ss %rbx,%xmm1,%xmm1
- DB 235,21 ; jmp e70d <_sk_evenly_spaced_gradient_avx+0x3d>
- DB 73,137,217 ; mov %rbx,%r9
- DB 73,209,233 ; shr %r9
+ DB 235,21 ; jmp e741 <_sk_evenly_spaced_gradient_avx+0x3d>
+ DB 73,137,216 ; mov %rbx,%r8
+ DB 73,209,232 ; shr %r8
DB 131,227,1 ; and $0x1,%ebx
- DB 76,9,203 ; or %r9,%rbx
+ DB 76,9,195 ; or %r8,%rbx
DB 196,225,242,42,203 ; vcvtsi2ss %rbx,%xmm1,%xmm1
DB 197,242,88,201 ; vaddss %xmm1,%xmm1,%xmm1
DB 196,227,121,4,201,0 ; vpermilps $0x0,%xmm1,%xmm1
DB 196,227,117,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm1,%ymm1
DB 197,244,89,200 ; vmulps %ymm0,%ymm1,%ymm1
DB 197,254,91,201 ; vcvttps2dq %ymm1,%ymm1
- DB 196,195,249,22,201,1 ; vpextrq $0x1,%xmm1,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,193,249,126,203 ; vmovq %xmm1,%r11
- DB 69,137,222 ; mov %r11d,%r14d
- DB 73,193,235,32 ; shr $0x20,%r11
+ DB 196,195,249,22,200,1 ; vpextrq $0x1,%xmm1,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,193,249,126,202 ; vmovq %xmm1,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 196,195,249,22,204,1 ; vpextrq $0x1,%xmm1,%r12
- DB 69,137,231 ; mov %r12d,%r15d
- DB 73,193,236,32 ; shr $0x20,%r12
- DB 196,225,249,126,203 ; vmovq %xmm1,%rbx
- DB 65,137,221 ; mov %ebx,%r13d
- DB 72,193,235,32 ; shr $0x20,%rbx
- DB 196,161,122,16,76,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm1
- DB 196,227,113,33,76,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm1
- DB 196,161,122,16,84,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm2
- DB 196,33,122,16,68,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm8
- DB 196,161,122,16,92,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm3
- DB 196,35,97,33,76,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm3,%xmm9
- DB 196,161,122,16,124,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm7
- DB 196,33,122,16,92,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm11
- DB 196,99,113,33,226,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm12
- DB 72,139,104,40 ; mov 0x28(%rax),%rbp
- DB 196,161,122,16,84,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm2
- DB 196,99,105,33,108,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm2,%xmm13
- DB 196,161,122,16,92,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm3
+ DB 196,195,249,22,207,1 ; vpextrq $0x1,%xmm1,%r15
+ DB 69,137,254 ; mov %r15d,%r14d
+ DB 73,193,239,32 ; shr $0x20,%r15
+ DB 196,193,249,126,205 ; vmovq %xmm1,%r13
+ DB 69,137,236 ; mov %r13d,%r12d
+ DB 73,193,237,32 ; shr $0x20,%r13
DB 196,161,122,16,76,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm1
+ DB 196,163,113,33,76,173,0,16 ; vinsertps $0x10,0x0(%rbp,%r13,4),%xmm1,%xmm1
DB 196,161,122,16,84,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm2
- DB 196,35,105,33,116,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm14
- DB 196,33,122,16,124,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm15
- DB 196,33,122,16,84,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm10
+ DB 196,33,122,16,68,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm8
+ DB 196,161,122,16,92,157,0 ; vmovss 0x0(%rbp,%r11,4),%xmm3
+ DB 196,35,97,33,76,149,0,16 ; vinsertps $0x10,0x0(%rbp,%r10,4),%xmm3,%xmm9
+ DB 196,161,122,16,124,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm7
+ DB 196,33,122,16,92,133,0 ; vmovss 0x0(%rbp,%r8,4),%xmm11
+ DB 196,99,113,33,226,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm12
+ DB 72,139,88,40 ; mov 0x28(%rax),%rbx
+ DB 196,161,122,16,20,163 ; vmovss (%rbx,%r12,4),%xmm2
+ DB 196,35,105,33,44,171,16 ; vinsertps $0x10,(%rbx,%r13,4),%xmm2,%xmm13
+ DB 196,161,122,16,28,179 ; vmovss (%rbx,%r14,4),%xmm3
+ DB 196,161,122,16,12,187 ; vmovss (%rbx,%r15,4),%xmm1
+ DB 196,161,122,16,20,155 ; vmovss (%rbx,%r11,4),%xmm2
+ DB 196,35,105,33,52,147,16 ; vinsertps $0x10,(%rbx,%r10,4),%xmm2,%xmm14
+ DB 196,33,122,16,60,139 ; vmovss (%rbx,%r9,4),%xmm15
+ DB 196,33,122,16,20,131 ; vmovss (%rbx,%r8,4),%xmm10
DB 196,67,25,33,192,48 ; vinsertps $0x30,%xmm8,%xmm12,%xmm8
DB 196,227,49,33,215,32 ; vinsertps $0x20,%xmm7,%xmm9,%xmm2
DB 196,195,105,33,211,48 ; vinsertps $0x30,%xmm11,%xmm2,%xmm2
DB 196,67,109,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm2,%ymm8
DB 196,227,17,33,211,32 ; vinsertps $0x20,%xmm3,%xmm13,%xmm2
DB 196,99,105,33,201,48 ; vinsertps $0x30,%xmm1,%xmm2,%xmm9
- DB 72,139,104,16 ; mov 0x10(%rax),%rbp
- DB 196,161,122,16,84,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm2
- DB 196,99,105,33,92,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm2,%xmm11
- DB 196,33,122,16,100,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm12
- DB 196,161,122,16,76,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm1
- DB 196,161,122,16,124,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm7
- DB 196,163,65,33,124,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm7,%xmm7
- DB 196,161,122,16,92,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm3
- DB 196,33,122,16,108,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm13
+ DB 72,139,88,16 ; mov 0x10(%rax),%rbx
+ DB 196,161,122,16,20,163 ; vmovss (%rbx,%r12,4),%xmm2
+ DB 196,35,105,33,28,171,16 ; vinsertps $0x10,(%rbx,%r13,4),%xmm2,%xmm11
+ DB 196,33,122,16,36,179 ; vmovss (%rbx,%r14,4),%xmm12
+ DB 196,161,122,16,12,187 ; vmovss (%rbx,%r15,4),%xmm1
+ DB 196,161,122,16,60,155 ; vmovss (%rbx,%r11,4),%xmm7
+ DB 196,163,65,33,60,147,16 ; vinsertps $0x10,(%rbx,%r10,4),%xmm7,%xmm7
+ DB 196,161,122,16,28,139 ; vmovss (%rbx,%r9,4),%xmm3
+ DB 196,33,122,16,44,131 ; vmovss (%rbx,%r8,4),%xmm13
DB 196,195,9,33,215,32 ; vinsertps $0x20,%xmm15,%xmm14,%xmm2
DB 196,195,105,33,210,48 ; vinsertps $0x30,%xmm10,%xmm2,%xmm2
DB 196,67,109,24,241,1 ; vinsertf128 $0x1,%xmm9,%ymm2,%ymm14
DB 196,195,33,33,212,32 ; vinsertps $0x20,%xmm12,%xmm11,%xmm2
DB 196,99,105,33,201,48 ; vinsertps $0x30,%xmm1,%xmm2,%xmm9
DB 196,99,65,33,211,32 ; vinsertps $0x20,%xmm3,%xmm7,%xmm10
- DB 72,139,104,48 ; mov 0x30(%rax),%rbp
- DB 196,161,122,16,92,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm3
- DB 196,99,97,33,92,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm3,%xmm11
- DB 196,33,122,16,124,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm15
- DB 196,33,122,16,100,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm12
- DB 196,161,122,16,84,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm2
- DB 196,163,105,33,84,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,124,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm7
- DB 196,161,122,16,92,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm3
+ DB 72,139,88,48 ; mov 0x30(%rax),%rbx
+ DB 196,161,122,16,28,163 ; vmovss (%rbx,%r12,4),%xmm3
+ DB 196,35,97,33,28,171,16 ; vinsertps $0x10,(%rbx,%r13,4),%xmm3,%xmm11
+ DB 196,33,122,16,60,179 ; vmovss (%rbx,%r14,4),%xmm15
+ DB 196,33,122,16,36,187 ; vmovss (%rbx,%r15,4),%xmm12
+ DB 196,161,122,16,20,155 ; vmovss (%rbx,%r11,4),%xmm2
+ DB 196,163,105,33,20,147,16 ; vinsertps $0x10,(%rbx,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,60,139 ; vmovss (%rbx,%r9,4),%xmm7
+ DB 196,161,122,16,28,131 ; vmovss (%rbx,%r8,4),%xmm3
DB 196,67,41,33,213,48 ; vinsertps $0x30,%xmm13,%xmm10,%xmm10
DB 196,67,45,24,233,1 ; vinsertf128 $0x1,%xmm9,%ymm10,%ymm13
DB 196,195,33,33,207,32 ; vinsertps $0x20,%xmm15,%xmm11,%xmm1
DB 196,67,113,33,204,48 ; vinsertps $0x30,%xmm12,%xmm1,%xmm9
DB 196,227,105,33,215,32 ; vinsertps $0x20,%xmm7,%xmm2,%xmm2
DB 196,99,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm10
- DB 72,139,104,24 ; mov 0x18(%rax),%rbp
- DB 196,161,122,16,92,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm3
- DB 196,99,97,33,92,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm3,%xmm11
- DB 196,33,122,16,100,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm12
- DB 196,33,122,16,124,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm15
- DB 196,161,122,16,84,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm2
- DB 196,163,105,33,84,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,92,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm3
- DB 196,161,122,16,124,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm7
+ DB 72,139,88,24 ; mov 0x18(%rax),%rbx
+ DB 196,161,122,16,28,163 ; vmovss (%rbx,%r12,4),%xmm3
+ DB 196,35,97,33,28,171,16 ; vinsertps $0x10,(%rbx,%r13,4),%xmm3,%xmm11
+ DB 196,33,122,16,36,179 ; vmovss (%rbx,%r14,4),%xmm12
+ DB 196,33,122,16,60,187 ; vmovss (%rbx,%r15,4),%xmm15
+ DB 196,161,122,16,20,155 ; vmovss (%rbx,%r11,4),%xmm2
+ DB 196,163,105,33,20,147,16 ; vinsertps $0x10,(%rbx,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,139 ; vmovss (%rbx,%r9,4),%xmm3
+ DB 196,161,122,16,60,131 ; vmovss (%rbx,%r8,4),%xmm7
DB 196,67,45,24,201,1 ; vinsertf128 $0x1,%xmm9,%ymm10,%ymm9
DB 196,195,33,33,204,32 ; vinsertps $0x20,%xmm12,%xmm11,%xmm1
DB 196,195,113,33,207,48 ; vinsertps $0x30,%xmm15,%xmm1,%xmm1
DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
DB 196,227,105,33,215,48 ; vinsertps $0x30,%xmm7,%xmm2,%xmm2
DB 196,99,109,24,209,1 ; vinsertf128 $0x1,%xmm1,%ymm2,%ymm10
- DB 72,139,104,56 ; mov 0x38(%rax),%rbp
- DB 196,161,122,16,76,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm1
- DB 196,99,113,33,92,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm11
- DB 196,33,122,16,100,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm12
- DB 196,33,122,16,124,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm15
- DB 196,161,122,16,124,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm7
- DB 196,163,65,33,124,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm7,%xmm7
- DB 196,161,122,16,76,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm1
- DB 196,161,122,16,84,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm2
+ DB 72,139,88,56 ; mov 0x38(%rax),%rbx
+ DB 196,161,122,16,12,163 ; vmovss (%rbx,%r12,4),%xmm1
+ DB 196,35,113,33,28,171,16 ; vinsertps $0x10,(%rbx,%r13,4),%xmm1,%xmm11
+ DB 196,33,122,16,36,179 ; vmovss (%rbx,%r14,4),%xmm12
+ DB 196,33,122,16,60,187 ; vmovss (%rbx,%r15,4),%xmm15
+ DB 196,161,122,16,60,155 ; vmovss (%rbx,%r11,4),%xmm7
+ DB 196,163,65,33,60,147,16 ; vinsertps $0x10,(%rbx,%r10,4),%xmm7,%xmm7
+ DB 196,161,122,16,12,139 ; vmovss (%rbx,%r9,4),%xmm1
+ DB 196,161,122,16,20,131 ; vmovss (%rbx,%r8,4),%xmm2
DB 196,195,33,33,220,32 ; vinsertps $0x20,%xmm12,%xmm11,%xmm3
DB 196,195,97,33,223,48 ; vinsertps $0x30,%xmm15,%xmm3,%xmm3
DB 196,227,65,33,201,32 ; vinsertps $0x20,%xmm1,%xmm7,%xmm1
DB 196,227,113,33,202,48 ; vinsertps $0x30,%xmm2,%xmm1,%xmm1
DB 196,99,117,24,219,1 ; vinsertf128 $0x1,%xmm3,%ymm1,%ymm11
- DB 72,139,104,32 ; mov 0x20(%rax),%rbp
- DB 196,161,122,16,76,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm1
- DB 196,227,113,33,76,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm1
- DB 196,161,122,16,84,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm2
+ DB 72,139,88,32 ; mov 0x20(%rax),%rbx
+ DB 196,161,122,16,12,163 ; vmovss (%rbx,%r12,4),%xmm1
+ DB 196,163,113,33,12,171,16 ; vinsertps $0x10,(%rbx,%r13,4),%xmm1,%xmm1
+ DB 196,161,122,16,20,179 ; vmovss (%rbx,%r14,4),%xmm2
DB 196,227,113,33,202,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm1
- DB 196,161,122,16,84,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm2
- DB 196,161,122,16,92,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm3
- DB 196,35,97,33,100,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm3,%xmm12
- DB 196,161,122,16,124,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm7
- DB 196,161,122,16,92,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm3
+ DB 196,161,122,16,20,187 ; vmovss (%rbx,%r15,4),%xmm2
+ DB 196,161,122,16,28,155 ; vmovss (%rbx,%r11,4),%xmm3
+ DB 196,35,97,33,36,147,16 ; vinsertps $0x10,(%rbx,%r10,4),%xmm3,%xmm12
+ DB 196,161,122,16,60,139 ; vmovss (%rbx,%r9,4),%xmm7
+ DB 196,161,122,16,28,131 ; vmovss (%rbx,%r8,4),%xmm3
DB 196,99,113,33,250,48 ; vinsertps $0x30,%xmm2,%xmm1,%xmm15
DB 72,139,64,64 ; mov 0x40(%rax),%rax
- DB 196,161,122,16,20,168 ; vmovss (%rax,%r13,4),%xmm2
- DB 196,227,105,33,20,152,16 ; vinsertps $0x10,(%rax,%rbx,4),%xmm2,%xmm2
+ DB 196,161,122,16,20,160 ; vmovss (%rax,%r12,4),%xmm2
+ DB 196,163,105,33,20,168,16 ; vinsertps $0x10,(%rax,%r13,4),%xmm2,%xmm2
DB 196,227,25,33,255,32 ; vinsertps $0x20,%xmm7,%xmm12,%xmm7
- DB 196,161,122,16,12,184 ; vmovss (%rax,%r15,4),%xmm1
+ DB 196,161,122,16,12,176 ; vmovss (%rax,%r14,4),%xmm1
DB 196,227,65,33,219,48 ; vinsertps $0x30,%xmm3,%xmm7,%xmm3
- DB 196,161,122,16,60,160 ; vmovss (%rax,%r12,4),%xmm7
+ DB 196,161,122,16,60,184 ; vmovss (%rax,%r15,4),%xmm7
DB 196,67,101,24,231,1 ; vinsertf128 $0x1,%xmm15,%ymm3,%ymm12
- DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
+ DB 196,161,122,16,28,152 ; vmovss (%rax,%r11,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
DB 196,227,105,33,201,32 ; vinsertps $0x20,%xmm1,%xmm2,%xmm1
- DB 196,161,122,16,20,144 ; vmovss (%rax,%r10,4),%xmm2
+ DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
DB 196,227,113,33,207,48 ; vinsertps $0x30,%xmm7,%xmm1,%xmm1
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,227,97,33,210,32 ; vinsertps $0x20,%xmm2,%xmm3,%xmm2
DB 196,227,105,33,215,48 ; vinsertps $0x30,%xmm7,%xmm2,%xmm2
DB 196,227,109,24,217,1 ; vinsertf128 $0x1,%xmm1,%ymm2,%ymm3
@@ -13850,18 +13884,18 @@ _sk_evenly_spaced_gradient_avx LABEL PROC
PUBLIC _sk_gauss_a_to_rgba_avx
_sk_gauss_a_to_rgba_avx LABEL PROC
- DB 196,226,125,24,5,116,215,1,0 ; vbroadcastss 0x1d774(%rip),%ymm0 # 2c1e8 <_sk_overlay_sse2_8bit+0x59b>
+ DB 196,226,125,24,5,152,215,1,0 ; vbroadcastss 0x1d798(%rip),%ymm0 # 2c210 <_sk_overlay_sse2_8bit+0x59b>
DB 197,228,89,192 ; vmulps %ymm0,%ymm3,%ymm0
- DB 196,226,125,24,13,99,215,1,0 ; vbroadcastss 0x1d763(%rip),%ymm1 # 2c1e4 <_sk_overlay_sse2_8bit+0x597>
+ DB 196,226,125,24,13,135,215,1,0 ; vbroadcastss 0x1d787(%rip),%ymm1 # 2c20c <_sk_overlay_sse2_8bit+0x597>
DB 197,252,88,193 ; vaddps %ymm1,%ymm0,%ymm0
DB 197,252,89,195 ; vmulps %ymm3,%ymm0,%ymm0
- DB 196,226,125,24,13,90,215,1,0 ; vbroadcastss 0x1d75a(%rip),%ymm1 # 2c1ec <_sk_overlay_sse2_8bit+0x59f>
+ DB 196,226,125,24,13,126,215,1,0 ; vbroadcastss 0x1d77e(%rip),%ymm1 # 2c214 <_sk_overlay_sse2_8bit+0x59f>
DB 197,252,88,193 ; vaddps %ymm1,%ymm0,%ymm0
DB 197,252,89,195 ; vmulps %ymm3,%ymm0,%ymm0
- DB 196,226,125,24,13,77,215,1,0 ; vbroadcastss 0x1d74d(%rip),%ymm1 # 2c1f0 <_sk_overlay_sse2_8bit+0x5a3>
+ DB 196,226,125,24,13,113,215,1,0 ; vbroadcastss 0x1d771(%rip),%ymm1 # 2c218 <_sk_overlay_sse2_8bit+0x5a3>
DB 197,252,88,193 ; vaddps %ymm1,%ymm0,%ymm0
DB 197,252,89,195 ; vmulps %ymm3,%ymm0,%ymm0
- DB 196,226,125,24,13,64,215,1,0 ; vbroadcastss 0x1d740(%rip),%ymm1 # 2c1f4 <_sk_overlay_sse2_8bit+0x5a7>
+ DB 196,226,125,24,13,100,215,1,0 ; vbroadcastss 0x1d764(%rip),%ymm1 # 2c21c <_sk_overlay_sse2_8bit+0x5a7>
DB 197,252,88,193 ; vaddps %ymm1,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,252,40,200 ; vmovaps %ymm0,%ymm1
@@ -13871,24 +13905,23 @@ _sk_gauss_a_to_rgba_avx LABEL PROC
PUBLIC _sk_gradient_avx
_sk_gradient_avx LABEL PROC
- DB 85 ; push %rbp
DB 65,87 ; push %r15
DB 65,86 ; push %r14
DB 65,85 ; push %r13
DB 65,84 ; push %r12
DB 83 ; push %rbx
- DB 72,131,236,40 ; sub $0x28,%rsp
+ DB 72,131,236,48 ; sub $0x30,%rsp
DB 197,252,17,60,36 ; vmovups %ymm7,(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
- DB 73,131,249,2 ; cmp $0x2,%r9
- DB 114,80 ; jb eb3a <_sk_gradient_avx+0x72>
+ DB 73,131,248,2 ; cmp $0x2,%r8
+ DB 114,80 ; jb eb3d <_sk_gradient_avx+0x71>
DB 72,139,88,72 ; mov 0x48(%rax),%rbx
- DB 73,255,201 ; dec %r9
+ DB 73,255,200 ; dec %r8
DB 72,131,195,4 ; add $0x4,%rbx
DB 196,65,52,87,201 ; vxorps %ymm9,%ymm9,%ymm9
- DB 196,98,125,24,21,189,213,1,0 ; vbroadcastss 0x1d5bd(%rip),%ymm10 # 2c0c0 <_sk_overlay_sse2_8bit+0x473>
+ DB 196,98,125,24,21,226,213,1,0 ; vbroadcastss 0x1d5e2(%rip),%ymm10 # 2c0e8 <_sk_overlay_sse2_8bit+0x473>
DB 197,244,87,201 ; vxorps %ymm1,%ymm1,%ymm1
DB 196,98,125,24,3 ; vbroadcastss (%rbx),%ymm8
DB 197,60,194,192,2 ; vcmpleps %ymm0,%ymm8,%ymm8
@@ -13899,130 +13932,130 @@ _sk_gradient_avx LABEL PROC
DB 197,185,254,201 ; vpaddd %xmm1,%xmm8,%xmm1
DB 196,227,117,24,202,1 ; vinsertf128 $0x1,%xmm2,%ymm1,%ymm1
DB 72,131,195,4 ; add $0x4,%rbx
- DB 73,255,201 ; dec %r9
- DB 117,205 ; jne eb07 <_sk_gradient_avx+0x3f>
- DB 196,195,249,22,201,1 ; vpextrq $0x1,%xmm1,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,193,249,126,203 ; vmovq %xmm1,%r11
- DB 69,137,222 ; mov %r11d,%r14d
- DB 73,193,235,32 ; shr $0x20,%r11
+ DB 73,255,200 ; dec %r8
+ DB 117,205 ; jne eb0a <_sk_gradient_avx+0x3e>
+ DB 196,195,249,22,200,1 ; vpextrq $0x1,%xmm1,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,193,249,126,202 ; vmovq %xmm1,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
DB 196,227,125,25,201,1 ; vextractf128 $0x1,%ymm1,%xmm1
- DB 196,195,249,22,204,1 ; vpextrq $0x1,%xmm1,%r12
- DB 69,137,231 ; mov %r12d,%r15d
- DB 73,193,236,32 ; shr $0x20,%r12
+ DB 196,195,249,22,207,1 ; vpextrq $0x1,%xmm1,%r15
+ DB 69,137,254 ; mov %r15d,%r14d
+ DB 73,193,239,32 ; shr $0x20,%r15
DB 196,225,249,126,203 ; vmovq %xmm1,%rbx
- DB 65,137,221 ; mov %ebx,%r13d
+ DB 65,137,220 ; mov %ebx,%r12d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 72,139,104,8 ; mov 0x8(%rax),%rbp
- DB 196,161,122,16,76,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm1
- DB 196,227,113,33,76,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm1
- DB 196,161,122,16,84,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm2
- DB 196,33,122,16,68,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm8
- DB 196,161,122,16,92,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm3
- DB 196,35,97,33,76,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm3,%xmm9
- DB 196,161,122,16,124,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm7
- DB 196,33,122,16,92,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm11
+ DB 76,139,104,8 ; mov 0x8(%rax),%r13
+ DB 196,129,122,16,76,165,0 ; vmovss 0x0(%r13,%r12,4),%xmm1
+ DB 196,195,113,33,76,157,0,16 ; vinsertps $0x10,0x0(%r13,%rbx,4),%xmm1,%xmm1
+ DB 196,129,122,16,84,181,0 ; vmovss 0x0(%r13,%r14,4),%xmm2
+ DB 196,1,122,16,68,189,0 ; vmovss 0x0(%r13,%r15,4),%xmm8
+ DB 196,129,122,16,92,157,0 ; vmovss 0x0(%r13,%r11,4),%xmm3
+ DB 196,3,97,33,76,149,0,16 ; vinsertps $0x10,0x0(%r13,%r10,4),%xmm3,%xmm9
+ DB 196,129,122,16,124,141,0 ; vmovss 0x0(%r13,%r9,4),%xmm7
+ DB 196,1,122,16,92,133,0 ; vmovss 0x0(%r13,%r8,4),%xmm11
DB 196,99,113,33,226,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm12
- DB 72,139,104,40 ; mov 0x28(%rax),%rbp
- DB 196,161,122,16,84,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm2
- DB 196,99,105,33,108,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm2,%xmm13
- DB 196,161,122,16,92,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm3
- DB 196,161,122,16,76,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm1
- DB 196,161,122,16,84,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm2
- DB 196,35,105,33,116,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm14
- DB 196,33,122,16,124,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm15
- DB 196,33,122,16,84,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm10
+ DB 76,139,104,40 ; mov 0x28(%rax),%r13
+ DB 196,129,122,16,84,165,0 ; vmovss 0x0(%r13,%r12,4),%xmm2
+ DB 196,67,105,33,108,157,0,16 ; vinsertps $0x10,0x0(%r13,%rbx,4),%xmm2,%xmm13
+ DB 196,129,122,16,92,181,0 ; vmovss 0x0(%r13,%r14,4),%xmm3
+ DB 196,129,122,16,76,189,0 ; vmovss 0x0(%r13,%r15,4),%xmm1
+ DB 196,129,122,16,84,157,0 ; vmovss 0x0(%r13,%r11,4),%xmm2
+ DB 196,3,105,33,116,149,0,16 ; vinsertps $0x10,0x0(%r13,%r10,4),%xmm2,%xmm14
+ DB 196,1,122,16,124,141,0 ; vmovss 0x0(%r13,%r9,4),%xmm15
+ DB 196,1,122,16,84,133,0 ; vmovss 0x0(%r13,%r8,4),%xmm10
DB 196,67,25,33,192,48 ; vinsertps $0x30,%xmm8,%xmm12,%xmm8
DB 196,227,49,33,215,32 ; vinsertps $0x20,%xmm7,%xmm9,%xmm2
DB 196,195,105,33,211,48 ; vinsertps $0x30,%xmm11,%xmm2,%xmm2
DB 196,67,109,24,192,1 ; vinsertf128 $0x1,%xmm8,%ymm2,%ymm8
DB 196,227,17,33,211,32 ; vinsertps $0x20,%xmm3,%xmm13,%xmm2
DB 196,99,105,33,201,48 ; vinsertps $0x30,%xmm1,%xmm2,%xmm9
- DB 72,139,104,16 ; mov 0x10(%rax),%rbp
- DB 196,161,122,16,84,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm2
- DB 196,99,105,33,92,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm2,%xmm11
- DB 196,33,122,16,100,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm12
- DB 196,161,122,16,76,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm1
- DB 196,161,122,16,124,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm7
- DB 196,163,65,33,124,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm7,%xmm7
- DB 196,161,122,16,92,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm3
- DB 196,33,122,16,108,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm13
+ DB 76,139,104,16 ; mov 0x10(%rax),%r13
+ DB 196,129,122,16,84,165,0 ; vmovss 0x0(%r13,%r12,4),%xmm2
+ DB 196,67,105,33,92,157,0,16 ; vinsertps $0x10,0x0(%r13,%rbx,4),%xmm2,%xmm11
+ DB 196,1,122,16,100,181,0 ; vmovss 0x0(%r13,%r14,4),%xmm12
+ DB 196,129,122,16,76,189,0 ; vmovss 0x0(%r13,%r15,4),%xmm1
+ DB 196,129,122,16,124,157,0 ; vmovss 0x0(%r13,%r11,4),%xmm7
+ DB 196,131,65,33,124,149,0,16 ; vinsertps $0x10,0x0(%r13,%r10,4),%xmm7,%xmm7
+ DB 196,129,122,16,92,141,0 ; vmovss 0x0(%r13,%r9,4),%xmm3
+ DB 196,1,122,16,108,133,0 ; vmovss 0x0(%r13,%r8,4),%xmm13
DB 196,195,9,33,215,32 ; vinsertps $0x20,%xmm15,%xmm14,%xmm2
DB 196,195,105,33,210,48 ; vinsertps $0x30,%xmm10,%xmm2,%xmm2
DB 196,67,109,24,241,1 ; vinsertf128 $0x1,%xmm9,%ymm2,%ymm14
DB 196,195,33,33,212,32 ; vinsertps $0x20,%xmm12,%xmm11,%xmm2
DB 196,99,105,33,201,48 ; vinsertps $0x30,%xmm1,%xmm2,%xmm9
DB 196,99,65,33,211,32 ; vinsertps $0x20,%xmm3,%xmm7,%xmm10
- DB 72,139,104,48 ; mov 0x30(%rax),%rbp
- DB 196,161,122,16,92,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm3
- DB 196,99,97,33,92,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm3,%xmm11
- DB 196,33,122,16,124,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm15
- DB 196,33,122,16,100,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm12
- DB 196,161,122,16,84,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm2
- DB 196,163,105,33,84,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,124,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm7
- DB 196,161,122,16,92,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm3
+ DB 76,139,104,48 ; mov 0x30(%rax),%r13
+ DB 196,129,122,16,92,165,0 ; vmovss 0x0(%r13,%r12,4),%xmm3
+ DB 196,67,97,33,92,157,0,16 ; vinsertps $0x10,0x0(%r13,%rbx,4),%xmm3,%xmm11
+ DB 196,1,122,16,124,181,0 ; vmovss 0x0(%r13,%r14,4),%xmm15
+ DB 196,1,122,16,100,189,0 ; vmovss 0x0(%r13,%r15,4),%xmm12
+ DB 196,129,122,16,84,157,0 ; vmovss 0x0(%r13,%r11,4),%xmm2
+ DB 196,131,105,33,84,149,0,16 ; vinsertps $0x10,0x0(%r13,%r10,4),%xmm2,%xmm2
+ DB 196,129,122,16,124,141,0 ; vmovss 0x0(%r13,%r9,4),%xmm7
+ DB 196,129,122,16,92,133,0 ; vmovss 0x0(%r13,%r8,4),%xmm3
DB 196,67,41,33,213,48 ; vinsertps $0x30,%xmm13,%xmm10,%xmm10
DB 196,67,45,24,233,1 ; vinsertf128 $0x1,%xmm9,%ymm10,%ymm13
DB 196,195,33,33,207,32 ; vinsertps $0x20,%xmm15,%xmm11,%xmm1
DB 196,67,113,33,204,48 ; vinsertps $0x30,%xmm12,%xmm1,%xmm9
DB 196,227,105,33,215,32 ; vinsertps $0x20,%xmm7,%xmm2,%xmm2
DB 196,99,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm10
- DB 72,139,104,24 ; mov 0x18(%rax),%rbp
- DB 196,161,122,16,92,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm3
- DB 196,99,97,33,92,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm3,%xmm11
- DB 196,33,122,16,100,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm12
- DB 196,33,122,16,124,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm15
- DB 196,161,122,16,84,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm2
- DB 196,163,105,33,84,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,92,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm3
- DB 196,161,122,16,124,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm7
+ DB 76,139,104,24 ; mov 0x18(%rax),%r13
+ DB 196,129,122,16,92,165,0 ; vmovss 0x0(%r13,%r12,4),%xmm3
+ DB 196,67,97,33,92,157,0,16 ; vinsertps $0x10,0x0(%r13,%rbx,4),%xmm3,%xmm11
+ DB 196,1,122,16,100,181,0 ; vmovss 0x0(%r13,%r14,4),%xmm12
+ DB 196,1,122,16,124,189,0 ; vmovss 0x0(%r13,%r15,4),%xmm15
+ DB 196,129,122,16,84,157,0 ; vmovss 0x0(%r13,%r11,4),%xmm2
+ DB 196,131,105,33,84,149,0,16 ; vinsertps $0x10,0x0(%r13,%r10,4),%xmm2,%xmm2
+ DB 196,129,122,16,92,141,0 ; vmovss 0x0(%r13,%r9,4),%xmm3
+ DB 196,129,122,16,124,133,0 ; vmovss 0x0(%r13,%r8,4),%xmm7
DB 196,67,45,24,201,1 ; vinsertf128 $0x1,%xmm9,%ymm10,%ymm9
DB 196,195,33,33,204,32 ; vinsertps $0x20,%xmm12,%xmm11,%xmm1
DB 196,195,113,33,207,48 ; vinsertps $0x30,%xmm15,%xmm1,%xmm1
DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
DB 196,227,105,33,215,48 ; vinsertps $0x30,%xmm7,%xmm2,%xmm2
DB 196,99,109,24,209,1 ; vinsertf128 $0x1,%xmm1,%ymm2,%ymm10
- DB 72,139,104,56 ; mov 0x38(%rax),%rbp
- DB 196,161,122,16,76,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm1
- DB 196,99,113,33,92,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm11
- DB 196,33,122,16,100,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm12
- DB 196,33,122,16,124,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm15
- DB 196,161,122,16,124,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm7
- DB 196,163,65,33,124,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm7,%xmm7
- DB 196,161,122,16,76,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm1
- DB 196,161,122,16,84,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm2
+ DB 76,139,104,56 ; mov 0x38(%rax),%r13
+ DB 196,129,122,16,76,165,0 ; vmovss 0x0(%r13,%r12,4),%xmm1
+ DB 196,67,113,33,92,157,0,16 ; vinsertps $0x10,0x0(%r13,%rbx,4),%xmm1,%xmm11
+ DB 196,1,122,16,100,181,0 ; vmovss 0x0(%r13,%r14,4),%xmm12
+ DB 196,1,122,16,124,189,0 ; vmovss 0x0(%r13,%r15,4),%xmm15
+ DB 196,129,122,16,124,157,0 ; vmovss 0x0(%r13,%r11,4),%xmm7
+ DB 196,131,65,33,124,149,0,16 ; vinsertps $0x10,0x0(%r13,%r10,4),%xmm7,%xmm7
+ DB 196,129,122,16,76,141,0 ; vmovss 0x0(%r13,%r9,4),%xmm1
+ DB 196,129,122,16,84,133,0 ; vmovss 0x0(%r13,%r8,4),%xmm2
DB 196,195,33,33,220,32 ; vinsertps $0x20,%xmm12,%xmm11,%xmm3
DB 196,195,97,33,223,48 ; vinsertps $0x30,%xmm15,%xmm3,%xmm3
DB 196,227,65,33,201,32 ; vinsertps $0x20,%xmm1,%xmm7,%xmm1
DB 196,227,113,33,202,48 ; vinsertps $0x30,%xmm2,%xmm1,%xmm1
DB 196,99,117,24,219,1 ; vinsertf128 $0x1,%xmm3,%ymm1,%ymm11
- DB 72,139,104,32 ; mov 0x20(%rax),%rbp
- DB 196,161,122,16,76,173,0 ; vmovss 0x0(%rbp,%r13,4),%xmm1
- DB 196,227,113,33,76,157,0,16 ; vinsertps $0x10,0x0(%rbp,%rbx,4),%xmm1,%xmm1
- DB 196,161,122,16,84,189,0 ; vmovss 0x0(%rbp,%r15,4),%xmm2
+ DB 76,139,104,32 ; mov 0x20(%rax),%r13
+ DB 196,129,122,16,76,165,0 ; vmovss 0x0(%r13,%r12,4),%xmm1
+ DB 196,195,113,33,76,157,0,16 ; vinsertps $0x10,0x0(%r13,%rbx,4),%xmm1,%xmm1
+ DB 196,129,122,16,84,181,0 ; vmovss 0x0(%r13,%r14,4),%xmm2
DB 196,227,113,33,202,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm1
- DB 196,161,122,16,84,165,0 ; vmovss 0x0(%rbp,%r12,4),%xmm2
- DB 196,161,122,16,92,181,0 ; vmovss 0x0(%rbp,%r14,4),%xmm3
- DB 196,35,97,33,100,157,0,16 ; vinsertps $0x10,0x0(%rbp,%r11,4),%xmm3,%xmm12
- DB 196,161,122,16,124,149,0 ; vmovss 0x0(%rbp,%r10,4),%xmm7
- DB 196,161,122,16,92,141,0 ; vmovss 0x0(%rbp,%r9,4),%xmm3
+ DB 196,129,122,16,84,189,0 ; vmovss 0x0(%r13,%r15,4),%xmm2
+ DB 196,129,122,16,92,157,0 ; vmovss 0x0(%r13,%r11,4),%xmm3
+ DB 196,3,97,33,100,149,0,16 ; vinsertps $0x10,0x0(%r13,%r10,4),%xmm3,%xmm12
+ DB 196,129,122,16,124,141,0 ; vmovss 0x0(%r13,%r9,4),%xmm7
+ DB 196,129,122,16,92,133,0 ; vmovss 0x0(%r13,%r8,4),%xmm3
DB 196,99,113,33,250,48 ; vinsertps $0x30,%xmm2,%xmm1,%xmm15
DB 72,139,64,64 ; mov 0x40(%rax),%rax
- DB 196,161,122,16,20,168 ; vmovss (%rax,%r13,4),%xmm2
+ DB 196,161,122,16,20,160 ; vmovss (%rax,%r12,4),%xmm2
DB 196,227,105,33,20,152,16 ; vinsertps $0x10,(%rax,%rbx,4),%xmm2,%xmm2
DB 196,227,25,33,255,32 ; vinsertps $0x20,%xmm7,%xmm12,%xmm7
- DB 196,161,122,16,12,184 ; vmovss (%rax,%r15,4),%xmm1
+ DB 196,161,122,16,12,176 ; vmovss (%rax,%r14,4),%xmm1
DB 196,227,65,33,219,48 ; vinsertps $0x30,%xmm3,%xmm7,%xmm3
- DB 196,161,122,16,60,160 ; vmovss (%rax,%r12,4),%xmm7
+ DB 196,161,122,16,60,184 ; vmovss (%rax,%r15,4),%xmm7
DB 196,67,101,24,231,1 ; vinsertf128 $0x1,%xmm15,%ymm3,%ymm12
- DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
+ DB 196,161,122,16,28,152 ; vmovss (%rax,%r11,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
DB 196,227,105,33,201,32 ; vinsertps $0x20,%xmm1,%xmm2,%xmm1
- DB 196,161,122,16,20,144 ; vmovss (%rax,%r10,4),%xmm2
+ DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
DB 196,227,113,33,207,48 ; vinsertps $0x30,%xmm7,%xmm1,%xmm1
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,227,97,33,210,32 ; vinsertps $0x20,%xmm2,%xmm3,%xmm2
DB 196,227,105,33,215,48 ; vinsertps $0x30,%xmm7,%xmm2,%xmm2
DB 196,227,109,24,217,1 ; vinsertf128 $0x1,%xmm1,%ymm2,%ymm3
@@ -14037,13 +14070,12 @@ _sk_gradient_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,124,41,192 ; vmovaps %ymm8,%ymm0
DB 197,252,16,60,36 ; vmovups (%rsp),%ymm7
- DB 72,131,196,40 ; add $0x28,%rsp
+ DB 72,131,196,48 ; add $0x30,%rsp
DB 91 ; pop %rbx
DB 65,92 ; pop %r12
DB 65,93 ; pop %r13
DB 65,94 ; pop %r14
DB 65,95 ; pop %r15
- DB 93 ; pop %rbp
DB 255,224 ; jmpq *%rax
PUBLIC _sk_evenly_spaced_2_stop_gradient_avx
@@ -14080,27 +14112,27 @@ _sk_xy_to_unit_angle_avx LABEL PROC
DB 196,65,52,95,226 ; vmaxps %ymm10,%ymm9,%ymm12
DB 196,65,36,94,220 ; vdivps %ymm12,%ymm11,%ymm11
DB 196,65,36,89,227 ; vmulps %ymm11,%ymm11,%ymm12
- DB 196,98,125,24,45,228,210,1,0 ; vbroadcastss 0x1d2e4(%rip),%ymm13 # 2c1f8 <_sk_overlay_sse2_8bit+0x5ab>
+ DB 196,98,125,24,45,10,211,1,0 ; vbroadcastss 0x1d30a(%rip),%ymm13 # 2c220 <_sk_overlay_sse2_8bit+0x5ab>
DB 196,65,28,89,237 ; vmulps %ymm13,%ymm12,%ymm13
- DB 196,98,125,24,53,218,210,1,0 ; vbroadcastss 0x1d2da(%rip),%ymm14 # 2c1fc <_sk_overlay_sse2_8bit+0x5af>
+ DB 196,98,125,24,53,0,211,1,0 ; vbroadcastss 0x1d300(%rip),%ymm14 # 2c224 <_sk_overlay_sse2_8bit+0x5af>
DB 196,65,20,88,238 ; vaddps %ymm14,%ymm13,%ymm13
DB 196,65,28,89,237 ; vmulps %ymm13,%ymm12,%ymm13
- DB 196,98,125,24,53,203,210,1,0 ; vbroadcastss 0x1d2cb(%rip),%ymm14 # 2c200 <_sk_overlay_sse2_8bit+0x5b3>
+ DB 196,98,125,24,53,241,210,1,0 ; vbroadcastss 0x1d2f1(%rip),%ymm14 # 2c228 <_sk_overlay_sse2_8bit+0x5b3>
DB 196,65,20,88,238 ; vaddps %ymm14,%ymm13,%ymm13
DB 196,65,28,89,229 ; vmulps %ymm13,%ymm12,%ymm12
- DB 196,98,125,24,45,188,210,1,0 ; vbroadcastss 0x1d2bc(%rip),%ymm13 # 2c204 <_sk_overlay_sse2_8bit+0x5b7>
+ DB 196,98,125,24,45,226,210,1,0 ; vbroadcastss 0x1d2e2(%rip),%ymm13 # 2c22c <_sk_overlay_sse2_8bit+0x5b7>
DB 196,65,28,88,229 ; vaddps %ymm13,%ymm12,%ymm12
DB 196,65,36,89,220 ; vmulps %ymm12,%ymm11,%ymm11
DB 196,65,52,194,202,1 ; vcmpltps %ymm10,%ymm9,%ymm9
- DB 196,98,125,24,21,167,210,1,0 ; vbroadcastss 0x1d2a7(%rip),%ymm10 # 2c208 <_sk_overlay_sse2_8bit+0x5bb>
+ DB 196,98,125,24,21,205,210,1,0 ; vbroadcastss 0x1d2cd(%rip),%ymm10 # 2c230 <_sk_overlay_sse2_8bit+0x5bb>
DB 196,65,44,92,211 ; vsubps %ymm11,%ymm10,%ymm10
DB 196,67,37,74,202,144 ; vblendvps %ymm9,%ymm10,%ymm11,%ymm9
DB 196,193,124,194,192,1 ; vcmpltps %ymm8,%ymm0,%ymm0
- DB 196,98,125,24,21,61,209,1,0 ; vbroadcastss 0x1d13d(%rip),%ymm10 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,21,99,209,1,0 ; vbroadcastss 0x1d163(%rip),%ymm10 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,44,92,209 ; vsubps %ymm9,%ymm10,%ymm10
DB 196,195,53,74,194,0 ; vblendvps %ymm0,%ymm10,%ymm9,%ymm0
DB 196,65,116,194,200,1 ; vcmpltps %ymm8,%ymm1,%ymm9
- DB 196,98,125,24,21,39,209,1,0 ; vbroadcastss 0x1d127(%rip),%ymm10 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,21,77,209,1,0 ; vbroadcastss 0x1d14d(%rip),%ymm10 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,44,92,208 ; vsubps %ymm0,%ymm10,%ymm10
DB 196,195,125,74,194,144 ; vblendvps %ymm9,%ymm10,%ymm0,%ymm0
DB 196,65,124,194,200,3 ; vcmpunordps %ymm8,%ymm0,%ymm9
@@ -14126,7 +14158,7 @@ _sk_xy_to_2pt_conical_quadratic_max_avx LABEL PROC
DB 196,67,121,4,210,0 ; vpermilps $0x0,%xmm10,%xmm10
DB 196,67,45,24,210,1 ; vinsertf128 $0x1,%xmm10,%ymm10,%ymm10
DB 197,44,88,208 ; vaddps %ymm0,%ymm10,%ymm10
- DB 196,98,125,24,29,29,210,1,0 ; vbroadcastss 0x1d21d(%rip),%ymm11 # 2c20c <_sk_overlay_sse2_8bit+0x5bf>
+ DB 196,98,125,24,29,67,210,1,0 ; vbroadcastss 0x1d243(%rip),%ymm11 # 2c234 <_sk_overlay_sse2_8bit+0x5bf>
DB 196,65,44,89,211 ; vmulps %ymm11,%ymm10,%ymm10
DB 197,252,89,192 ; vmulps %ymm0,%ymm0,%ymm0
DB 197,116,89,217 ; vmulps %ymm1,%ymm1,%ymm11
@@ -14135,17 +14167,17 @@ _sk_xy_to_2pt_conical_quadratic_max_avx LABEL PROC
DB 196,227,121,4,192,0 ; vpermilps $0x0,%xmm0,%xmm0
DB 196,227,125,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
DB 197,164,92,192 ; vsubps %ymm0,%ymm11,%ymm0
- DB 196,98,125,24,13,241,209,1,0 ; vbroadcastss 0x1d1f1(%rip),%ymm9 # 2c210 <_sk_overlay_sse2_8bit+0x5c3>
+ DB 196,98,125,24,13,23,210,1,0 ; vbroadcastss 0x1d217(%rip),%ymm9 # 2c238 <_sk_overlay_sse2_8bit+0x5c3>
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 196,65,44,89,194 ; vmulps %ymm10,%ymm10,%ymm8
DB 196,193,124,88,192 ; vaddps %ymm8,%ymm0,%ymm0
DB 197,252,81,192 ; vsqrtps %ymm0,%ymm0
DB 196,98,125,24,64,36 ; vbroadcastss 0x24(%rax),%ymm8
- DB 196,98,125,24,13,207,209,1,0 ; vbroadcastss 0x1d1cf(%rip),%ymm9 # 2c214 <_sk_overlay_sse2_8bit+0x5c7>
+ DB 196,98,125,24,13,245,209,1,0 ; vbroadcastss 0x1d1f5(%rip),%ymm9 # 2c23c <_sk_overlay_sse2_8bit+0x5c7>
DB 196,65,44,87,201 ; vxorps %ymm9,%ymm10,%ymm9
DB 196,65,124,92,210 ; vsubps %ymm10,%ymm0,%ymm10
- DB 196,98,125,24,29,96,208,1,0 ; vbroadcastss 0x1d060(%rip),%ymm11 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,29,134,208,1,0 ; vbroadcastss 0x1d086(%rip),%ymm11 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,60,89,195 ; vmulps %ymm11,%ymm8,%ymm8
DB 196,65,60,89,210 ; vmulps %ymm10,%ymm8,%ymm10
DB 197,180,92,192 ; vsubps %ymm0,%ymm9,%ymm0
@@ -14163,7 +14195,7 @@ _sk_xy_to_2pt_conical_quadratic_min_avx LABEL PROC
DB 196,67,121,4,210,0 ; vpermilps $0x0,%xmm10,%xmm10
DB 196,67,45,24,210,1 ; vinsertf128 $0x1,%xmm10,%ymm10,%ymm10
DB 197,44,88,208 ; vaddps %ymm0,%ymm10,%ymm10
- DB 196,98,125,24,29,111,209,1,0 ; vbroadcastss 0x1d16f(%rip),%ymm11 # 2c20c <_sk_overlay_sse2_8bit+0x5bf>
+ DB 196,98,125,24,29,149,209,1,0 ; vbroadcastss 0x1d195(%rip),%ymm11 # 2c234 <_sk_overlay_sse2_8bit+0x5bf>
DB 196,65,44,89,211 ; vmulps %ymm11,%ymm10,%ymm10
DB 197,252,89,192 ; vmulps %ymm0,%ymm0,%ymm0
DB 197,116,89,217 ; vmulps %ymm1,%ymm1,%ymm11
@@ -14172,17 +14204,17 @@ _sk_xy_to_2pt_conical_quadratic_min_avx LABEL PROC
DB 196,227,121,4,192,0 ; vpermilps $0x0,%xmm0,%xmm0
DB 196,227,125,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
DB 197,164,92,192 ; vsubps %ymm0,%ymm11,%ymm0
- DB 196,98,125,24,13,67,209,1,0 ; vbroadcastss 0x1d143(%rip),%ymm9 # 2c210 <_sk_overlay_sse2_8bit+0x5c3>
+ DB 196,98,125,24,13,105,209,1,0 ; vbroadcastss 0x1d169(%rip),%ymm9 # 2c238 <_sk_overlay_sse2_8bit+0x5c3>
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
DB 197,188,89,192 ; vmulps %ymm0,%ymm8,%ymm0
DB 196,65,44,89,194 ; vmulps %ymm10,%ymm10,%ymm8
DB 196,193,124,88,192 ; vaddps %ymm8,%ymm0,%ymm0
DB 197,252,81,192 ; vsqrtps %ymm0,%ymm0
DB 196,98,125,24,64,36 ; vbroadcastss 0x24(%rax),%ymm8
- DB 196,98,125,24,13,33,209,1,0 ; vbroadcastss 0x1d121(%rip),%ymm9 # 2c214 <_sk_overlay_sse2_8bit+0x5c7>
+ DB 196,98,125,24,13,71,209,1,0 ; vbroadcastss 0x1d147(%rip),%ymm9 # 2c23c <_sk_overlay_sse2_8bit+0x5c7>
DB 196,65,44,87,201 ; vxorps %ymm9,%ymm10,%ymm9
DB 196,65,124,92,210 ; vsubps %ymm10,%ymm0,%ymm10
- DB 196,98,125,24,29,178,207,1,0 ; vbroadcastss 0x1cfb2(%rip),%ymm11 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,29,216,207,1,0 ; vbroadcastss 0x1cfd8(%rip),%ymm11 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,60,89,195 ; vmulps %ymm11,%ymm8,%ymm8
DB 196,65,60,89,210 ; vmulps %ymm10,%ymm8,%ymm10
DB 197,180,92,192 ; vsubps %ymm0,%ymm9,%ymm0
@@ -14199,7 +14231,7 @@ _sk_xy_to_2pt_conical_linear_avx LABEL PROC
DB 196,67,121,4,201,0 ; vpermilps $0x0,%xmm9,%xmm9
DB 196,67,53,24,201,1 ; vinsertf128 $0x1,%xmm9,%ymm9,%ymm9
DB 197,52,88,200 ; vaddps %ymm0,%ymm9,%ymm9
- DB 196,98,125,24,21,199,208,1,0 ; vbroadcastss 0x1d0c7(%rip),%ymm10 # 2c20c <_sk_overlay_sse2_8bit+0x5bf>
+ DB 196,98,125,24,21,237,208,1,0 ; vbroadcastss 0x1d0ed(%rip),%ymm10 # 2c234 <_sk_overlay_sse2_8bit+0x5bf>
DB 196,65,52,89,202 ; vmulps %ymm10,%ymm9,%ymm9
DB 197,252,89,192 ; vmulps %ymm0,%ymm0,%ymm0
DB 197,116,89,209 ; vmulps %ymm1,%ymm1,%ymm10
@@ -14208,7 +14240,7 @@ _sk_xy_to_2pt_conical_linear_avx LABEL PROC
DB 196,227,121,4,192,0 ; vpermilps $0x0,%xmm0,%xmm0
DB 196,227,125,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm0,%ymm0
DB 197,172,92,192 ; vsubps %ymm0,%ymm10,%ymm0
- DB 196,98,125,24,5,159,208,1,0 ; vbroadcastss 0x1d09f(%rip),%ymm8 # 2c214 <_sk_overlay_sse2_8bit+0x5c7>
+ DB 196,98,125,24,5,197,208,1,0 ; vbroadcastss 0x1d0c5(%rip),%ymm8 # 2c23c <_sk_overlay_sse2_8bit+0x5c7>
DB 196,193,124,87,192 ; vxorps %ymm8,%ymm0,%ymm0
DB 196,193,124,94,193 ; vdivps %ymm9,%ymm0,%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -14243,7 +14275,7 @@ _sk_apply_vector_mask_avx LABEL PROC
PUBLIC _sk_save_xy_avx
_sk_save_xy_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,98,125,24,5,219,206,1,0 ; vbroadcastss 0x1cedb(%rip),%ymm8 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,5,1,207,1,0 ; vbroadcastss 0x1cf01(%rip),%ymm8 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,124,88,200 ; vaddps %ymm8,%ymm0,%ymm9
DB 196,67,125,8,209,1 ; vroundps $0x1,%ymm9,%ymm10
DB 196,65,52,92,202 ; vsubps %ymm10,%ymm9,%ymm9
@@ -14276,9 +14308,9 @@ _sk_accumulate_avx LABEL PROC
PUBLIC _sk_bilinear_nx_avx
_sk_bilinear_nx_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,195,207,1,0 ; vbroadcastss 0x1cfc3(%rip),%ymm0 # 2c218 <_sk_overlay_sse2_8bit+0x5cb>
+ DB 196,226,125,24,5,233,207,1,0 ; vbroadcastss 0x1cfe9(%rip),%ymm0 # 2c240 <_sk_overlay_sse2_8bit+0x5cb>
DB 197,252,88,0 ; vaddps (%rax),%ymm0,%ymm0
- DB 196,98,125,24,5,90,206,1,0 ; vbroadcastss 0x1ce5a(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,128,206,1,0 ; vbroadcastss 0x1ce80(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,64 ; vsubps 0x40(%rax),%ymm8,%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -14287,7 +14319,7 @@ _sk_bilinear_nx_avx LABEL PROC
PUBLIC _sk_bilinear_px_avx
_sk_bilinear_px_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,58,206,1,0 ; vbroadcastss 0x1ce3a(%rip),%ymm0 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,226,125,24,5,96,206,1,0 ; vbroadcastss 0x1ce60(%rip),%ymm0 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,252,88,0 ; vaddps (%rax),%ymm0,%ymm0
DB 197,124,16,64,64 ; vmovups 0x40(%rax),%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
@@ -14297,9 +14329,9 @@ _sk_bilinear_px_avx LABEL PROC
PUBLIC _sk_bilinear_ny_avx
_sk_bilinear_ny_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,13,122,207,1,0 ; vbroadcastss 0x1cf7a(%rip),%ymm1 # 2c218 <_sk_overlay_sse2_8bit+0x5cb>
+ DB 196,226,125,24,13,160,207,1,0 ; vbroadcastss 0x1cfa0(%rip),%ymm1 # 2c240 <_sk_overlay_sse2_8bit+0x5cb>
DB 197,244,88,72,32 ; vaddps 0x20(%rax),%ymm1,%ymm1
- DB 196,98,125,24,5,16,206,1,0 ; vbroadcastss 0x1ce10(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,54,206,1,0 ; vbroadcastss 0x1ce36(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,96 ; vsubps 0x60(%rax),%ymm8,%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -14308,7 +14340,7 @@ _sk_bilinear_ny_avx LABEL PROC
PUBLIC _sk_bilinear_py_avx
_sk_bilinear_py_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,13,240,205,1,0 ; vbroadcastss 0x1cdf0(%rip),%ymm1 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,226,125,24,13,22,206,1,0 ; vbroadcastss 0x1ce16(%rip),%ymm1 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,244,88,72,32 ; vaddps 0x20(%rax),%ymm1,%ymm1
DB 197,124,16,64,96 ; vmovups 0x60(%rax),%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
@@ -14318,14 +14350,14 @@ _sk_bilinear_py_avx LABEL PROC
PUBLIC _sk_bicubic_n3x_avx
_sk_bicubic_n3x_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,51,207,1,0 ; vbroadcastss 0x1cf33(%rip),%ymm0 # 2c21c <_sk_overlay_sse2_8bit+0x5cf>
+ DB 196,226,125,24,5,89,207,1,0 ; vbroadcastss 0x1cf59(%rip),%ymm0 # 2c244 <_sk_overlay_sse2_8bit+0x5cf>
DB 197,252,88,0 ; vaddps (%rax),%ymm0,%ymm0
- DB 196,98,125,24,5,198,205,1,0 ; vbroadcastss 0x1cdc6(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,236,205,1,0 ; vbroadcastss 0x1cdec(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,64 ; vsubps 0x40(%rax),%ymm8,%ymm8
DB 196,65,60,89,200 ; vmulps %ymm8,%ymm8,%ymm9
- DB 196,98,125,24,21,23,207,1,0 ; vbroadcastss 0x1cf17(%rip),%ymm10 # 2c220 <_sk_overlay_sse2_8bit+0x5d3>
+ DB 196,98,125,24,21,61,207,1,0 ; vbroadcastss 0x1cf3d(%rip),%ymm10 # 2c248 <_sk_overlay_sse2_8bit+0x5d3>
DB 196,65,60,89,194 ; vmulps %ymm10,%ymm8,%ymm8
- DB 196,98,125,24,21,21,206,1,0 ; vbroadcastss 0x1ce15(%rip),%ymm10 # 2c12c <_sk_overlay_sse2_8bit+0x4df>
+ DB 196,98,125,24,21,59,206,1,0 ; vbroadcastss 0x1ce3b(%rip),%ymm10 # 2c154 <_sk_overlay_sse2_8bit+0x4df>
DB 196,65,60,88,194 ; vaddps %ymm10,%ymm8,%ymm8
DB 196,65,52,89,192 ; vmulps %ymm8,%ymm9,%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
@@ -14335,19 +14367,19 @@ _sk_bicubic_n3x_avx LABEL PROC
PUBLIC _sk_bicubic_n1x_avx
_sk_bicubic_n1x_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,224,206,1,0 ; vbroadcastss 0x1cee0(%rip),%ymm0 # 2c218 <_sk_overlay_sse2_8bit+0x5cb>
+ DB 196,226,125,24,5,6,207,1,0 ; vbroadcastss 0x1cf06(%rip),%ymm0 # 2c240 <_sk_overlay_sse2_8bit+0x5cb>
DB 197,252,88,0 ; vaddps (%rax),%ymm0,%ymm0
- DB 196,98,125,24,5,119,205,1,0 ; vbroadcastss 0x1cd77(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,157,205,1,0 ; vbroadcastss 0x1cd9d(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,64 ; vsubps 0x40(%rax),%ymm8,%ymm8
- DB 196,98,125,24,13,213,206,1,0 ; vbroadcastss 0x1ced5(%rip),%ymm9 # 2c228 <_sk_overlay_sse2_8bit+0x5db>
+ DB 196,98,125,24,13,251,206,1,0 ; vbroadcastss 0x1cefb(%rip),%ymm9 # 2c250 <_sk_overlay_sse2_8bit+0x5db>
DB 196,65,60,89,201 ; vmulps %ymm9,%ymm8,%ymm9
- DB 196,98,125,24,21,195,206,1,0 ; vbroadcastss 0x1cec3(%rip),%ymm10 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,98,125,24,21,233,206,1,0 ; vbroadcastss 0x1cee9(%rip),%ymm10 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
DB 196,65,52,88,202 ; vaddps %ymm10,%ymm9,%ymm9
DB 196,65,60,89,201 ; vmulps %ymm9,%ymm8,%ymm9
- DB 196,98,125,24,21,68,205,1,0 ; vbroadcastss 0x1cd44(%rip),%ymm10 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,21,106,205,1,0 ; vbroadcastss 0x1cd6a(%rip),%ymm10 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,52,88,202 ; vaddps %ymm10,%ymm9,%ymm9
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
- DB 196,98,125,24,13,165,206,1,0 ; vbroadcastss 0x1cea5(%rip),%ymm9 # 2c22c <_sk_overlay_sse2_8bit+0x5df>
+ DB 196,98,125,24,13,203,206,1,0 ; vbroadcastss 0x1cecb(%rip),%ymm9 # 2c254 <_sk_overlay_sse2_8bit+0x5df>
DB 196,65,60,88,193 ; vaddps %ymm9,%ymm8,%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -14356,17 +14388,17 @@ _sk_bicubic_n1x_avx LABEL PROC
PUBLIC _sk_bicubic_p1x_avx
_sk_bicubic_p1x_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,98,125,24,5,21,205,1,0 ; vbroadcastss 0x1cd15(%rip),%ymm8 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,5,59,205,1,0 ; vbroadcastss 0x1cd3b(%rip),%ymm8 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,188,88,0 ; vaddps (%rax),%ymm8,%ymm0
DB 197,124,16,72,64 ; vmovups 0x40(%rax),%ymm9
- DB 196,98,125,24,21,115,206,1,0 ; vbroadcastss 0x1ce73(%rip),%ymm10 # 2c228 <_sk_overlay_sse2_8bit+0x5db>
+ DB 196,98,125,24,21,153,206,1,0 ; vbroadcastss 0x1ce99(%rip),%ymm10 # 2c250 <_sk_overlay_sse2_8bit+0x5db>
DB 196,65,52,89,210 ; vmulps %ymm10,%ymm9,%ymm10
- DB 196,98,125,24,29,97,206,1,0 ; vbroadcastss 0x1ce61(%rip),%ymm11 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,98,125,24,29,135,206,1,0 ; vbroadcastss 0x1ce87(%rip),%ymm11 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
DB 196,65,44,88,211 ; vaddps %ymm11,%ymm10,%ymm10
DB 196,65,52,89,210 ; vmulps %ymm10,%ymm9,%ymm10
DB 196,65,44,88,192 ; vaddps %ymm8,%ymm10,%ymm8
DB 196,65,52,89,192 ; vmulps %ymm8,%ymm9,%ymm8
- DB 196,98,125,24,13,76,206,1,0 ; vbroadcastss 0x1ce4c(%rip),%ymm9 # 2c22c <_sk_overlay_sse2_8bit+0x5df>
+ DB 196,98,125,24,13,114,206,1,0 ; vbroadcastss 0x1ce72(%rip),%ymm9 # 2c254 <_sk_overlay_sse2_8bit+0x5df>
DB 196,65,60,88,193 ; vaddps %ymm9,%ymm8,%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -14375,13 +14407,13 @@ _sk_bicubic_p1x_avx LABEL PROC
PUBLIC _sk_bicubic_p3x_avx
_sk_bicubic_p3x_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,40,206,1,0 ; vbroadcastss 0x1ce28(%rip),%ymm0 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,226,125,24,5,78,206,1,0 ; vbroadcastss 0x1ce4e(%rip),%ymm0 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
DB 197,252,88,0 ; vaddps (%rax),%ymm0,%ymm0
DB 197,124,16,64,64 ; vmovups 0x40(%rax),%ymm8
DB 196,65,60,89,200 ; vmulps %ymm8,%ymm8,%ymm9
- DB 196,98,125,24,21,13,206,1,0 ; vbroadcastss 0x1ce0d(%rip),%ymm10 # 2c220 <_sk_overlay_sse2_8bit+0x5d3>
+ DB 196,98,125,24,21,51,206,1,0 ; vbroadcastss 0x1ce33(%rip),%ymm10 # 2c248 <_sk_overlay_sse2_8bit+0x5d3>
DB 196,65,60,89,194 ; vmulps %ymm10,%ymm8,%ymm8
- DB 196,98,125,24,21,11,205,1,0 ; vbroadcastss 0x1cd0b(%rip),%ymm10 # 2c12c <_sk_overlay_sse2_8bit+0x4df>
+ DB 196,98,125,24,21,49,205,1,0 ; vbroadcastss 0x1cd31(%rip),%ymm10 # 2c154 <_sk_overlay_sse2_8bit+0x4df>
DB 196,65,60,88,194 ; vaddps %ymm10,%ymm8,%ymm8
DB 196,65,52,89,192 ; vmulps %ymm8,%ymm9,%ymm8
DB 197,124,17,128,128,0,0,0 ; vmovups %ymm8,0x80(%rax)
@@ -14391,14 +14423,14 @@ _sk_bicubic_p3x_avx LABEL PROC
PUBLIC _sk_bicubic_n3y_avx
_sk_bicubic_n3y_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,13,218,205,1,0 ; vbroadcastss 0x1cdda(%rip),%ymm1 # 2c21c <_sk_overlay_sse2_8bit+0x5cf>
+ DB 196,226,125,24,13,0,206,1,0 ; vbroadcastss 0x1ce00(%rip),%ymm1 # 2c244 <_sk_overlay_sse2_8bit+0x5cf>
DB 197,244,88,72,32 ; vaddps 0x20(%rax),%ymm1,%ymm1
- DB 196,98,125,24,5,108,204,1,0 ; vbroadcastss 0x1cc6c(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,146,204,1,0 ; vbroadcastss 0x1cc92(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,96 ; vsubps 0x60(%rax),%ymm8,%ymm8
DB 196,65,60,89,200 ; vmulps %ymm8,%ymm8,%ymm9
- DB 196,98,125,24,21,189,205,1,0 ; vbroadcastss 0x1cdbd(%rip),%ymm10 # 2c220 <_sk_overlay_sse2_8bit+0x5d3>
+ DB 196,98,125,24,21,227,205,1,0 ; vbroadcastss 0x1cde3(%rip),%ymm10 # 2c248 <_sk_overlay_sse2_8bit+0x5d3>
DB 196,65,60,89,194 ; vmulps %ymm10,%ymm8,%ymm8
- DB 196,98,125,24,21,187,204,1,0 ; vbroadcastss 0x1ccbb(%rip),%ymm10 # 2c12c <_sk_overlay_sse2_8bit+0x4df>
+ DB 196,98,125,24,21,225,204,1,0 ; vbroadcastss 0x1cce1(%rip),%ymm10 # 2c154 <_sk_overlay_sse2_8bit+0x4df>
DB 196,65,60,88,194 ; vaddps %ymm10,%ymm8,%ymm8
DB 196,65,52,89,192 ; vmulps %ymm8,%ymm9,%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
@@ -14408,19 +14440,19 @@ _sk_bicubic_n3y_avx LABEL PROC
PUBLIC _sk_bicubic_n1y_avx
_sk_bicubic_n1y_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,13,134,205,1,0 ; vbroadcastss 0x1cd86(%rip),%ymm1 # 2c218 <_sk_overlay_sse2_8bit+0x5cb>
+ DB 196,226,125,24,13,172,205,1,0 ; vbroadcastss 0x1cdac(%rip),%ymm1 # 2c240 <_sk_overlay_sse2_8bit+0x5cb>
DB 197,244,88,72,32 ; vaddps 0x20(%rax),%ymm1,%ymm1
- DB 196,98,125,24,5,28,204,1,0 ; vbroadcastss 0x1cc1c(%rip),%ymm8 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,98,125,24,5,66,204,1,0 ; vbroadcastss 0x1cc42(%rip),%ymm8 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,60,92,64,96 ; vsubps 0x60(%rax),%ymm8,%ymm8
- DB 196,98,125,24,13,122,205,1,0 ; vbroadcastss 0x1cd7a(%rip),%ymm9 # 2c228 <_sk_overlay_sse2_8bit+0x5db>
+ DB 196,98,125,24,13,160,205,1,0 ; vbroadcastss 0x1cda0(%rip),%ymm9 # 2c250 <_sk_overlay_sse2_8bit+0x5db>
DB 196,65,60,89,201 ; vmulps %ymm9,%ymm8,%ymm9
- DB 196,98,125,24,21,104,205,1,0 ; vbroadcastss 0x1cd68(%rip),%ymm10 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,98,125,24,21,142,205,1,0 ; vbroadcastss 0x1cd8e(%rip),%ymm10 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
DB 196,65,52,88,202 ; vaddps %ymm10,%ymm9,%ymm9
DB 196,65,60,89,201 ; vmulps %ymm9,%ymm8,%ymm9
- DB 196,98,125,24,21,233,203,1,0 ; vbroadcastss 0x1cbe9(%rip),%ymm10 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,21,15,204,1,0 ; vbroadcastss 0x1cc0f(%rip),%ymm10 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 196,65,52,88,202 ; vaddps %ymm10,%ymm9,%ymm9
DB 196,65,60,89,193 ; vmulps %ymm9,%ymm8,%ymm8
- DB 196,98,125,24,13,74,205,1,0 ; vbroadcastss 0x1cd4a(%rip),%ymm9 # 2c22c <_sk_overlay_sse2_8bit+0x5df>
+ DB 196,98,125,24,13,112,205,1,0 ; vbroadcastss 0x1cd70(%rip),%ymm9 # 2c254 <_sk_overlay_sse2_8bit+0x5df>
DB 196,65,60,88,193 ; vaddps %ymm9,%ymm8,%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -14429,17 +14461,17 @@ _sk_bicubic_n1y_avx LABEL PROC
PUBLIC _sk_bicubic_p1y_avx
_sk_bicubic_p1y_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,98,125,24,5,186,203,1,0 ; vbroadcastss 0x1cbba(%rip),%ymm8 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 196,98,125,24,5,224,203,1,0 ; vbroadcastss 0x1cbe0(%rip),%ymm8 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 197,188,88,72,32 ; vaddps 0x20(%rax),%ymm8,%ymm1
DB 197,124,16,72,96 ; vmovups 0x60(%rax),%ymm9
- DB 196,98,125,24,21,23,205,1,0 ; vbroadcastss 0x1cd17(%rip),%ymm10 # 2c228 <_sk_overlay_sse2_8bit+0x5db>
+ DB 196,98,125,24,21,61,205,1,0 ; vbroadcastss 0x1cd3d(%rip),%ymm10 # 2c250 <_sk_overlay_sse2_8bit+0x5db>
DB 196,65,52,89,210 ; vmulps %ymm10,%ymm9,%ymm10
- DB 196,98,125,24,29,5,205,1,0 ; vbroadcastss 0x1cd05(%rip),%ymm11 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,98,125,24,29,43,205,1,0 ; vbroadcastss 0x1cd2b(%rip),%ymm11 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
DB 196,65,44,88,211 ; vaddps %ymm11,%ymm10,%ymm10
DB 196,65,52,89,210 ; vmulps %ymm10,%ymm9,%ymm10
DB 196,65,44,88,192 ; vaddps %ymm8,%ymm10,%ymm8
DB 196,65,52,89,192 ; vmulps %ymm8,%ymm9,%ymm8
- DB 196,98,125,24,13,240,204,1,0 ; vbroadcastss 0x1ccf0(%rip),%ymm9 # 2c22c <_sk_overlay_sse2_8bit+0x5df>
+ DB 196,98,125,24,13,22,205,1,0 ; vbroadcastss 0x1cd16(%rip),%ymm9 # 2c254 <_sk_overlay_sse2_8bit+0x5df>
DB 196,65,60,88,193 ; vaddps %ymm9,%ymm8,%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -14448,13 +14480,13 @@ _sk_bicubic_p1y_avx LABEL PROC
PUBLIC _sk_bicubic_p3y_avx
_sk_bicubic_p3y_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,13,204,204,1,0 ; vbroadcastss 0x1cccc(%rip),%ymm1 # 2c224 <_sk_overlay_sse2_8bit+0x5d7>
+ DB 196,226,125,24,13,242,204,1,0 ; vbroadcastss 0x1ccf2(%rip),%ymm1 # 2c24c <_sk_overlay_sse2_8bit+0x5d7>
DB 197,244,88,72,32 ; vaddps 0x20(%rax),%ymm1,%ymm1
DB 197,124,16,64,96 ; vmovups 0x60(%rax),%ymm8
DB 196,65,60,89,200 ; vmulps %ymm8,%ymm8,%ymm9
- DB 196,98,125,24,21,176,204,1,0 ; vbroadcastss 0x1ccb0(%rip),%ymm10 # 2c220 <_sk_overlay_sse2_8bit+0x5d3>
+ DB 196,98,125,24,21,214,204,1,0 ; vbroadcastss 0x1ccd6(%rip),%ymm10 # 2c248 <_sk_overlay_sse2_8bit+0x5d3>
DB 196,65,60,89,194 ; vmulps %ymm10,%ymm8,%ymm8
- DB 196,98,125,24,21,174,203,1,0 ; vbroadcastss 0x1cbae(%rip),%ymm10 # 2c12c <_sk_overlay_sse2_8bit+0x4df>
+ DB 196,98,125,24,21,212,203,1,0 ; vbroadcastss 0x1cbd4(%rip),%ymm10 # 2c154 <_sk_overlay_sse2_8bit+0x4df>
DB 196,65,60,88,194 ; vaddps %ymm10,%ymm8,%ymm8
DB 196,65,52,89,192 ; vmulps %ymm8,%ymm9,%ymm8
DB 197,124,17,128,160,0,0,0 ; vmovups %ymm8,0xa0(%rax)
@@ -14467,7 +14499,6 @@ _sk_callback_avx LABEL PROC
DB 72,137,229 ; mov %rsp,%rbp
DB 65,87 ; push %r15
DB 65,86 ; push %r14
- DB 65,84 ; push %r12
DB 83 ; push %rbx
DB 72,131,228,224 ; and $0xffffffffffffffe0,%rsp
DB 72,129,236,192,0,0,0 ; sub $0xc0,%rsp
@@ -14475,7 +14506,6 @@ _sk_callback_avx LABEL PROC
DB 197,252,41,116,36,96 ; vmovaps %ymm6,0x60(%rsp)
DB 197,252,41,108,36,64 ; vmovaps %ymm5,0x40(%rsp)
DB 197,252,41,100,36,32 ; vmovaps %ymm4,0x20(%rsp)
- DB 77,137,196 ; mov %r8,%r12
DB 73,137,206 ; mov %rcx,%r14
DB 73,137,215 ; mov %rdx,%r15
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -14496,9 +14526,9 @@ _sk_callback_avx LABEL PROC
DB 197,253,17,107,40 ; vmovupd %ymm5,0x28(%rbx)
DB 197,253,17,75,72 ; vmovupd %ymm1,0x48(%rbx)
DB 197,253,17,67,104 ; vmovupd %ymm0,0x68(%rbx)
- DB 77,133,228 ; test %r12,%r12
+ DB 72,133,255 ; test %rdi,%rdi
DB 186,8,0,0,0 ; mov $0x8,%edx
- DB 65,15,69,212 ; cmovne %r12d,%edx
+ DB 15,69,215 ; cmovne %edi,%edx
DB 72,137,217 ; mov %rbx,%rcx
DB 197,248,119 ; vzeroupper
DB 255,19 ; callq *(%rbx)
@@ -14522,14 +14552,12 @@ _sk_callback_avx LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 76,137,250 ; mov %r15,%rdx
DB 76,137,241 ; mov %r14,%rcx
- DB 77,137,224 ; mov %r12,%r8
DB 197,252,40,100,36,32 ; vmovaps 0x20(%rsp),%ymm4
DB 197,252,40,108,36,64 ; vmovaps 0x40(%rsp),%ymm5
DB 197,252,40,116,36,96 ; vmovaps 0x60(%rsp),%ymm6
DB 197,252,40,188,36,128,0,0,0 ; vmovaps 0x80(%rsp),%ymm7
- DB 72,141,101,224 ; lea -0x20(%rbp),%rsp
+ DB 72,141,101,232 ; lea -0x18(%rbp),%rsp
DB 91 ; pop %rbx
- DB 65,92 ; pop %r12
DB 65,94 ; pop %r14
DB 65,95 ; pop %r15
DB 93 ; pop %rbp
@@ -14537,35 +14565,34 @@ _sk_callback_avx LABEL PROC
PUBLIC _sk_clut_3D_avx
_sk_clut_3D_avx LABEL PROC
- DB 65,87 ; push %r15
DB 65,86 ; push %r14
DB 83 ; push %rbx
- DB 72,129,236,128,2,0,0 ; sub $0x280,%rsp
+ DB 72,129,236,136,2,0,0 ; sub $0x288,%rsp
DB 197,252,17,188,36,96,2,0,0 ; vmovups %ymm7,0x260(%rsp)
DB 197,252,17,180,36,64,2,0,0 ; vmovups %ymm6,0x240(%rsp)
DB 197,252,17,172,36,32,2,0,0 ; vmovups %ymm5,0x220(%rsp)
DB 197,252,17,164,36,0,2,0,0 ; vmovups %ymm4,0x200(%rsp)
DB 197,252,17,156,36,224,1,0,0 ; vmovups %ymm3,0x1e0(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,16 ; mov 0x10(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 196,193,121,110,218 ; vmovd %r10d,%xmm3
+ DB 68,139,64,16 ; mov 0x10(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 196,193,121,110,217 ; vmovd %r9d,%xmm3
DB 197,249,112,219,0 ; vpshufd $0x0,%xmm3,%xmm3
DB 196,227,101,24,219,1 ; vinsertf128 $0x1,%xmm3,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 197,228,89,210 ; vmulps %ymm2,%ymm3,%ymm2
DB 197,252,17,148,36,128,1,0,0 ; vmovups %ymm2,0x180(%rsp)
DB 197,254,91,218 ; vcvttps2dq %ymm2,%ymm3
- DB 68,139,80,12 ; mov 0xc(%rax),%r10d
- DB 69,141,90,255 ; lea -0x1(%r10),%r11d
- DB 196,193,121,110,211 ; vmovd %r11d,%xmm2
+ DB 68,139,72,12 ; mov 0xc(%rax),%r9d
+ DB 69,141,81,255 ; lea -0x1(%r9),%r10d
+ DB 196,193,121,110,210 ; vmovd %r10d,%xmm2
DB 197,249,112,210,0 ; vpshufd $0x0,%xmm2,%xmm2
DB 196,227,109,24,210,1 ; vinsertf128 $0x1,%xmm2,%ymm2,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
DB 197,236,89,201 ; vmulps %ymm1,%ymm2,%ymm1
DB 197,252,17,140,36,128,0,0,0 ; vmovups %ymm1,0x80(%rsp)
DB 197,254,91,225 ; vcvttps2dq %ymm1,%ymm4
- DB 196,193,121,110,201 ; vmovd %r9d,%xmm1
+ DB 196,193,121,110,200 ; vmovd %r8d,%xmm1
DB 197,121,112,233,0 ; vpshufd $0x0,%xmm1,%xmm13
DB 196,194,89,64,213 ; vpmulld %xmm13,%xmm4,%xmm2
DB 197,253,111,236 ; vmovdqa %ymm4,%ymm5
@@ -14573,12 +14600,12 @@ _sk_clut_3D_avx LABEL PROC
DB 197,249,127,148,36,32,1,0,0 ; vmovdqa %xmm2,0x120(%rsp)
DB 197,105,254,211 ; vpaddd %xmm3,%xmm2,%xmm10
DB 197,254,127,156,36,96,1,0,0 ; vmovdqu %ymm3,0x160(%rsp)
- DB 196,193,121,110,210 ; vmovd %r10d,%xmm2
+ DB 196,193,121,110,209 ; vmovd %r9d,%xmm2
DB 196,226,105,64,201 ; vpmulld %xmm1,%xmm2,%xmm1
DB 197,121,112,241,0 ; vpshufd $0x0,%xmm1,%xmm14
- DB 68,139,72,8 ; mov 0x8(%rax),%r9d
- DB 65,255,201 ; dec %r9d
- DB 196,193,121,110,201 ; vmovd %r9d,%xmm1
+ DB 68,139,64,8 ; mov 0x8(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 196,193,121,110,200 ; vmovd %r8d,%xmm1
DB 197,249,112,201,0 ; vpshufd $0x0,%xmm1,%xmm1
DB 196,227,117,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm1,%ymm1
DB 197,252,91,201 ; vcvtdq2ps %ymm1,%ymm1
@@ -14590,18 +14617,18 @@ _sk_clut_3D_avx LABEL PROC
DB 197,249,127,68,36,96 ; vmovdqa %xmm0,0x60(%rsp)
DB 72,139,0 ; mov (%rax),%rax
DB 196,193,121,254,194 ; vpaddd %xmm10,%xmm0,%xmm0
- DB 196,98,121,24,29,87,202,1,0 ; vbroadcastss 0x1ca57(%rip),%xmm11 # 2c234 <_sk_overlay_sse2_8bit+0x5e7>
+ DB 196,98,121,24,29,138,202,1,0 ; vbroadcastss 0x1ca8a(%rip),%xmm11 # 2c25c <_sk_overlay_sse2_8bit+0x5e7>
DB 196,194,121,64,203 ; vpmulld %xmm11,%xmm0,%xmm1
- DB 196,193,249,126,201 ; vmovq %xmm1,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 196,195,249,22,203,1 ; vpextrq $0x1,%xmm1,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,4,144 ; vmovss (%rax,%r10,4),%xmm0
- DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
- DB 196,227,121,33,4,152,32 ; vinsertps $0x20,(%rax,%rbx,4),%xmm0,%xmm0
- DB 196,161,122,16,20,152 ; vmovss (%rax,%r11,4),%xmm2
+ DB 196,193,249,126,200 ; vmovq %xmm1,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 196,195,249,22,202,1 ; vpextrq $0x1,%xmm1,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
+ DB 196,163,121,33,4,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 196,161,122,16,20,144 ; vmovss (%rax,%r10,4),%xmm2
DB 196,227,121,33,226,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm4
DB 196,227,125,25,232,1 ; vextractf128 $0x1,%ymm5,%xmm0
DB 196,194,121,64,213 ; vpmulld %xmm13,%xmm0,%xmm2
@@ -14614,73 +14641,73 @@ _sk_clut_3D_avx LABEL PROC
DB 197,233,254,192 ; vpaddd %xmm0,%xmm2,%xmm0
DB 197,209,254,208 ; vpaddd %xmm0,%xmm5,%xmm2
DB 196,194,105,64,211 ; vpmulld %xmm11,%xmm2,%xmm2
- DB 197,249,126,211 ; vmovd %xmm2,%ebx
+ DB 196,193,121,126,208 ; vmovd %xmm2,%r8d
DB 196,195,121,22,209,1 ; vpextrd $0x1,%xmm2,%r9d
DB 196,195,121,22,210,2 ; vpextrd $0x2,%xmm2,%r10d
DB 196,195,121,22,211,3 ; vpextrd $0x3,%xmm2,%r11d
- DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,163,65,33,60,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
DB 196,163,65,33,60,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm7,%xmm7
DB 196,163,65,33,60,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm7,%xmm7
DB 196,227,93,24,223,1 ; vinsertf128 $0x1,%xmm7,%ymm4,%ymm3
DB 197,252,17,156,36,192,0,0,0 ; vmovups %ymm3,0xc0(%rsp)
- DB 196,98,121,24,13,32,200,1,0 ; vbroadcastss 0x1c820(%rip),%xmm9 # 2c0c0 <_sk_overlay_sse2_8bit+0x473>
+ DB 196,98,121,24,13,81,200,1,0 ; vbroadcastss 0x1c851(%rip),%xmm9 # 2c0e8 <_sk_overlay_sse2_8bit+0x473>
DB 196,193,105,254,249 ; vpaddd %xmm9,%xmm2,%xmm7
- DB 196,195,249,22,249,1 ; vpextrq $0x1,%xmm7,%r9
- DB 196,193,249,126,250 ; vmovq %xmm7,%r10
+ DB 196,195,249,22,248,1 ; vpextrq $0x1,%xmm7,%r8
+ DB 196,193,249,126,249 ; vmovq %xmm7,%r9
DB 196,193,113,254,249 ; vpaddd %xmm9,%xmm1,%xmm7
- DB 196,225,249,126,251 ; vmovq %xmm7,%rbx
+ DB 196,193,249,126,250 ; vmovq %xmm7,%r10
DB 196,195,249,22,251,1 ; vpextrq $0x1,%xmm7,%r11
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,60,176 ; vmovss (%rax,%r14,4),%xmm7
- DB 196,163,65,33,60,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
- DB 196,161,122,16,52,184 ; vmovss (%rax,%r15,4),%xmm6
- DB 196,227,65,33,246,32 ; vinsertps $0x20,%xmm6,%xmm7,%xmm6
+ DB 68,137,203 ; mov %r9d,%ebx
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
+ DB 196,163,65,33,60,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
+ DB 196,161,122,16,52,176 ; vmovss (%rax,%r14,4),%xmm6
+ DB 196,227,65,33,246,32 ; vinsertps $0x20,%xmm6,%xmm7,%xmm6
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,227,73,33,247,48 ; vinsertps $0x30,%xmm7,%xmm6,%xmm6
- DB 65,137,217 ; mov %ebx,%r9d
- DB 69,137,218 ; mov %r11d,%r10d
- DB 72,193,235,32 ; shr $0x20,%rbx
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
- DB 196,227,65,33,60,152,16 ; vinsertps $0x10,(%rax,%rbx,4),%xmm7,%xmm7
- DB 196,161,122,16,44,144 ; vmovss (%rax,%r10,4),%xmm5
+ DB 68,137,211 ; mov %r10d,%ebx
+ DB 69,137,216 ; mov %r11d,%r8d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
+ DB 196,163,65,33,60,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ DB 196,161,122,16,44,128 ; vmovss (%rax,%r8,4),%xmm5
DB 196,227,65,33,237,32 ; vinsertps $0x20,%xmm5,%xmm7,%xmm5
DB 73,193,235,32 ; shr $0x20,%r11
DB 196,161,122,16,60,152 ; vmovss (%rax,%r11,4),%xmm7
DB 196,227,81,33,239,48 ; vinsertps $0x30,%xmm7,%xmm5,%xmm5
DB 196,99,85,24,254,1 ; vinsertf128 $0x1,%xmm6,%ymm5,%ymm15
- DB 196,98,121,24,37,147,199,1,0 ; vbroadcastss 0x1c793(%rip),%xmm12 # 2c0c8 <_sk_overlay_sse2_8bit+0x47b>
+ DB 196,98,121,24,37,198,199,1,0 ; vbroadcastss 0x1c7c6(%rip),%xmm12 # 2c0f0 <_sk_overlay_sse2_8bit+0x47b>
DB 196,193,105,254,212 ; vpaddd %xmm12,%xmm2,%xmm2
- DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 196,195,249,22,208,1 ; vpextrq $0x1,%xmm2,%r8
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 196,193,113,254,204 ; vpaddd %xmm12,%xmm1,%xmm1
- DB 196,193,249,126,203 ; vmovq %xmm1,%r11
+ DB 196,193,249,126,202 ; vmovq %xmm1,%r10
DB 196,227,249,22,203,1 ; vpextrq $0x1,%xmm1,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,12,176 ; vmovss (%rax,%r14,4),%xmm1
- DB 196,163,113,33,12,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
- DB 196,227,113,33,202,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm1
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,12,152 ; vmovss (%rax,%r11,4),%xmm1
+ DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
+ DB 196,227,113,33,202,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm1
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
DB 196,227,113,33,202,48 ; vinsertps $0x30,%xmm2,%xmm1,%xmm1
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,44,144 ; vmovss (%rax,%r10,4),%xmm5
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,44,136 ; vmovss (%rax,%r9,4),%xmm5
DB 196,227,105,33,213,32 ; vinsertps $0x20,%xmm5,%xmm2,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,44,152 ; vmovss (%rax,%rbx,4),%xmm5
DB 196,227,105,33,213,48 ; vinsertps $0x30,%xmm5,%xmm2,%xmm2
DB 196,227,109,24,225,1 ; vinsertf128 $0x1,%xmm1,%ymm2,%ymm4
- DB 196,226,125,24,13,103,200,1,0 ; vbroadcastss 0x1c867(%rip),%ymm1 # 2c230 <_sk_overlay_sse2_8bit+0x5e3>
+ DB 196,226,125,24,13,154,200,1,0 ; vbroadcastss 0x1c89a(%rip),%ymm1 # 2c258 <_sk_overlay_sse2_8bit+0x5e3>
DB 197,188,88,209 ; vaddps %ymm1,%ymm8,%ymm2
DB 197,252,17,140,36,160,0,0,0 ; vmovups %ymm1,0xa0(%rsp)
DB 197,254,91,210 ; vcvttps2dq %ymm2,%ymm2
@@ -14691,77 +14718,77 @@ _sk_clut_3D_avx LABEL PROC
DB 197,249,127,84,36,64 ; vmovdqa %xmm2,0x40(%rsp)
DB 196,193,105,254,210 ; vpaddd %xmm10,%xmm2,%xmm2
DB 196,194,105,64,235 ; vpmulld %xmm11,%xmm2,%xmm5
- DB 196,193,249,126,234 ; vmovq %xmm5,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,233 ; vmovq %xmm5,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,235,1 ; vpextrq $0x1,%xmm5,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,163,105,33,20,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm2,%xmm2
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
DB 196,227,105,33,214,48 ; vinsertps $0x30,%xmm6,%xmm2,%xmm2
DB 197,225,254,192 ; vpaddd %xmm0,%xmm3,%xmm0
DB 196,194,121,64,195 ; vpmulld %xmm11,%xmm0,%xmm0
DB 197,249,126,195 ; vmovd %xmm0,%ebx
- DB 196,195,121,22,193,1 ; vpextrd $0x1,%xmm0,%r9d
- DB 196,195,121,22,194,2 ; vpextrd $0x2,%xmm0,%r10d
- DB 196,195,121,22,195,3 ; vpextrd $0x3,%xmm0,%r11d
+ DB 196,195,121,22,192,1 ; vpextrd $0x1,%xmm0,%r8d
+ DB 196,195,121,22,193,2 ; vpextrd $0x2,%xmm0,%r9d
+ DB 196,195,121,22,194,3 ; vpextrd $0x3,%xmm0,%r10d
DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
- DB 196,163,73,33,52,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm6,%xmm6
- DB 196,163,73,33,52,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm6,%xmm6
- DB 196,163,73,33,52,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm6,%xmm6
+ DB 196,163,73,33,52,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm6,%xmm6
+ DB 196,163,73,33,52,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm6,%xmm6
+ DB 196,163,73,33,52,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm6,%xmm6
DB 196,227,109,24,214,1 ; vinsertf128 $0x1,%xmm6,%ymm2,%ymm2
DB 196,193,121,254,241 ; vpaddd %xmm9,%xmm0,%xmm6
- DB 196,195,249,22,241,1 ; vpextrq $0x1,%xmm6,%r9
- DB 196,193,249,126,242 ; vmovq %xmm6,%r10
+ DB 196,195,249,22,240,1 ; vpextrq $0x1,%xmm6,%r8
+ DB 196,193,249,126,241 ; vmovq %xmm6,%r9
DB 196,193,81,254,241 ; vpaddd %xmm9,%xmm5,%xmm6
- DB 196,193,249,126,243 ; vmovq %xmm6,%r11
+ DB 196,193,249,126,242 ; vmovq %xmm6,%r10
DB 196,227,249,22,243,1 ; vpextrq $0x1,%xmm6,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,52,176 ; vmovss (%rax,%r14,4),%xmm6
- DB 196,163,73,33,52,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm6,%xmm6
- DB 196,161,122,16,60,184 ; vmovss (%rax,%r15,4),%xmm7
- DB 196,227,73,33,247,32 ; vinsertps $0x20,%xmm7,%xmm6,%xmm6
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,52,152 ; vmovss (%rax,%r11,4),%xmm6
+ DB 196,163,73,33,52,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm6,%xmm6
+ DB 196,161,122,16,60,176 ; vmovss (%rax,%r14,4),%xmm7
+ DB 196,227,73,33,247,32 ; vinsertps $0x20,%xmm7,%xmm6,%xmm6
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,227,73,33,247,48 ; vinsertps $0x30,%xmm7,%xmm6,%xmm6
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
- DB 196,163,65,33,60,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm7,%xmm7
- DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
+ DB 196,163,65,33,60,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
DB 196,227,65,33,219,32 ; vinsertps $0x20,%xmm3,%xmm7,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,97,33,223,48 ; vinsertps $0x30,%xmm7,%xmm3,%xmm3
DB 196,99,101,24,214,1 ; vinsertf128 $0x1,%xmm6,%ymm3,%ymm10
DB 196,193,121,254,196 ; vpaddd %xmm12,%xmm0,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,81,254,196 ; vpaddd %xmm12,%xmm5,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,44,144 ; vmovss (%rax,%r10,4),%xmm5
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,44,136 ; vmovss (%rax,%r9,4),%xmm5
DB 196,227,97,33,221,32 ; vinsertps $0x20,%xmm5,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,44,152 ; vmovss (%rax,%rbx,4),%xmm5
@@ -14793,15 +14820,15 @@ _sk_clut_3D_avx LABEL PROC
DB 197,249,111,100,36,96 ; vmovdqa 0x60(%rsp),%xmm4
DB 197,201,254,196 ; vpaddd %xmm4,%xmm6,%xmm0
DB 196,194,121,64,235 ; vpmulld %xmm11,%xmm0,%xmm5
- DB 196,193,249,126,234 ; vmovq %xmm5,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,233 ; vmovq %xmm5,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,235,1 ; vpextrq $0x1,%xmm5,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
DB 196,227,121,33,201,48 ; vinsertps $0x30,%xmm1,%xmm0,%xmm1
DB 197,233,254,60,36 ; vpaddd (%rsp),%xmm2,%xmm7
@@ -14809,64 +14836,64 @@ _sk_clut_3D_avx LABEL PROC
DB 196,193,65,254,197 ; vpaddd %xmm13,%xmm7,%xmm0
DB 196,194,121,64,195 ; vpmulld %xmm11,%xmm0,%xmm0
DB 197,249,126,195 ; vmovd %xmm0,%ebx
- DB 196,195,121,22,193,1 ; vpextrd $0x1,%xmm0,%r9d
- DB 196,195,121,22,194,2 ; vpextrd $0x2,%xmm0,%r10d
- DB 196,195,121,22,195,3 ; vpextrd $0x3,%xmm0,%r11d
+ DB 196,195,121,22,192,1 ; vpextrd $0x1,%xmm0,%r8d
+ DB 196,195,121,22,193,2 ; vpextrd $0x2,%xmm0,%r9d
+ DB 196,195,121,22,194,3 ; vpextrd $0x3,%xmm0,%r10d
DB 197,250,16,20,152 ; vmovss (%rax,%rbx,4),%xmm2
- DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
- DB 196,163,105,33,20,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,163,105,33,20,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm2,%xmm2
DB 196,227,117,24,202,1 ; vinsertf128 $0x1,%xmm2,%ymm1,%ymm1
DB 197,252,17,12,36 ; vmovups %ymm1,(%rsp)
DB 196,193,121,254,201 ; vpaddd %xmm9,%xmm0,%xmm1
- DB 196,195,249,22,201,1 ; vpextrq $0x1,%xmm1,%r9
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
+ DB 196,195,249,22,200,1 ; vpextrq $0x1,%xmm1,%r8
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
DB 196,193,81,254,201 ; vpaddd %xmm9,%xmm5,%xmm1
- DB 196,193,249,126,203 ; vmovq %xmm1,%r11
+ DB 196,193,249,126,202 ; vmovq %xmm1,%r10
DB 196,227,249,22,203,1 ; vpextrq $0x1,%xmm1,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,12,176 ; vmovss (%rax,%r14,4),%xmm1
- DB 196,163,113,33,12,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
- DB 196,227,113,33,202,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm1
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,12,152 ; vmovss (%rax,%r11,4),%xmm1
+ DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
+ DB 196,227,113,33,202,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm1
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
DB 196,227,113,33,202,48 ; vinsertps $0x30,%xmm2,%xmm1,%xmm1
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
DB 196,99,109,24,209,1 ; vinsertf128 $0x1,%xmm1,%ymm2,%ymm10
DB 196,193,121,254,196 ; vpaddd %xmm12,%xmm0,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,81,254,196 ; vpaddd %xmm12,%xmm5,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
- DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
+ DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
DB 196,227,121,33,194,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
@@ -14875,77 +14902,77 @@ _sk_clut_3D_avx LABEL PROC
DB 197,121,111,124,36,64 ; vmovdqa 0x40(%rsp),%xmm15
DB 197,129,254,198 ; vpaddd %xmm6,%xmm15,%xmm0
DB 196,194,121,64,243 ; vpmulld %xmm11,%xmm0,%xmm6
- DB 196,193,249,126,242 ; vmovq %xmm6,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,241 ; vmovq %xmm6,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,243,1 ; vpextrq $0x1,%xmm6,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,20,152 ; vmovss (%rax,%rbx,4),%xmm2
DB 196,227,121,33,210,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm2
DB 197,193,254,68,36,112 ; vpaddd 0x70(%rsp),%xmm7,%xmm0
DB 196,194,121,64,195 ; vpmulld %xmm11,%xmm0,%xmm0
DB 197,249,126,195 ; vmovd %xmm0,%ebx
- DB 196,195,121,22,193,1 ; vpextrd $0x1,%xmm0,%r9d
- DB 196,195,121,22,194,2 ; vpextrd $0x2,%xmm0,%r10d
- DB 196,195,121,22,195,3 ; vpextrd $0x3,%xmm0,%r11d
+ DB 196,195,121,22,192,1 ; vpextrd $0x1,%xmm0,%r8d
+ DB 196,195,121,22,193,2 ; vpextrd $0x2,%xmm0,%r9d
+ DB 196,195,121,22,194,3 ; vpextrd $0x3,%xmm0,%r10d
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
- DB 196,163,97,33,28,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
- DB 196,163,97,33,28,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
- DB 196,163,97,33,28,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm3,%xmm3
DB 196,227,109,24,251,1 ; vinsertf128 $0x1,%xmm3,%ymm2,%ymm7
DB 196,193,121,254,209 ; vpaddd %xmm9,%xmm0,%xmm2
- DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 196,195,249,22,208,1 ; vpextrq $0x1,%xmm2,%r8
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 196,193,73,254,209 ; vpaddd %xmm9,%xmm6,%xmm2
- DB 196,193,249,126,211 ; vmovq %xmm2,%r11
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,20,152 ; vmovss (%rax,%r11,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,12,144 ; vmovss (%rax,%r10,4),%xmm1
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,12,136 ; vmovss (%rax,%r9,4),%xmm1
DB 196,227,97,33,201,32 ; vinsertps $0x20,%xmm1,%xmm3,%xmm1
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,113,33,203,48 ; vinsertps $0x30,%xmm3,%xmm1,%xmm1
DB 196,99,117,24,194,1 ; vinsertf128 $0x1,%xmm2,%ymm1,%ymm8
DB 196,193,121,254,196 ; vpaddd %xmm12,%xmm0,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,73,254,196 ; vpaddd %xmm12,%xmm6,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,12,184 ; vmovss (%rax,%r15,4),%xmm1
- DB 196,227,121,33,193,32 ; vinsertps $0x20,%xmm1,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,12,136 ; vmovss (%rax,%r9,4),%xmm1
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,12,176 ; vmovss (%rax,%r14,4),%xmm1
+ DB 196,227,121,33,193,32 ; vinsertps $0x20,%xmm1,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,12,128 ; vmovss (%rax,%r8,4),%xmm1
DB 196,227,121,33,193,48 ; vinsertps $0x30,%xmm1,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,12,136 ; vmovss (%rax,%r9,4),%xmm1
- DB 196,163,113,33,12,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm1,%xmm1
- DB 196,161,122,16,20,144 ; vmovss (%rax,%r10,4),%xmm2
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,12,128 ; vmovss (%rax,%r8,4),%xmm1
+ DB 196,163,113,33,12,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
+ DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
DB 196,227,113,33,202,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm1
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,20,152 ; vmovss (%rax,%rbx,4),%xmm2
@@ -14986,15 +15013,15 @@ _sk_clut_3D_avx LABEL PROC
DB 197,185,254,188,36,32,1,0,0 ; vpaddd 0x120(%rsp),%xmm8,%xmm7
DB 197,217,254,199 ; vpaddd %xmm7,%xmm4,%xmm0
DB 196,194,121,64,243 ; vpmulld %xmm11,%xmm0,%xmm6
- DB 196,193,249,126,242 ; vmovq %xmm6,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,241 ; vmovq %xmm6,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,243,1 ; vpextrq $0x1,%xmm6,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
DB 196,227,121,33,217,48 ; vinsertps $0x30,%xmm1,%xmm0,%xmm3
DB 196,99,125,25,192,1 ; vextractf128 $0x1,%ymm8,%xmm0
@@ -15003,63 +15030,63 @@ _sk_clut_3D_avx LABEL PROC
DB 197,145,254,193 ; vpaddd %xmm1,%xmm13,%xmm0
DB 196,194,121,64,195 ; vpmulld %xmm11,%xmm0,%xmm0
DB 197,249,126,195 ; vmovd %xmm0,%ebx
- DB 196,195,121,22,193,1 ; vpextrd $0x1,%xmm0,%r9d
- DB 196,195,121,22,194,2 ; vpextrd $0x2,%xmm0,%r10d
- DB 196,195,121,22,195,3 ; vpextrd $0x3,%xmm0,%r11d
+ DB 196,195,121,22,192,1 ; vpextrd $0x1,%xmm0,%r8d
+ DB 196,195,121,22,193,2 ; vpextrd $0x2,%xmm0,%r9d
+ DB 196,195,121,22,194,3 ; vpextrd $0x3,%xmm0,%r10d
DB 197,250,16,20,152 ; vmovss (%rax,%rbx,4),%xmm2
- DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
- DB 196,163,105,33,20,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,163,105,33,20,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm2,%xmm2
DB 196,227,101,24,226,1 ; vinsertf128 $0x1,%xmm2,%ymm3,%ymm4
DB 196,193,121,254,209 ; vpaddd %xmm9,%xmm0,%xmm2
- DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 196,195,249,22,208,1 ; vpextrq $0x1,%xmm2,%r8
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 196,193,73,254,209 ; vpaddd %xmm9,%xmm6,%xmm2
- DB 196,193,249,126,211 ; vmovq %xmm2,%r11
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,20,152 ; vmovss (%rax,%r11,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,44,144 ; vmovss (%rax,%r10,4),%xmm5
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,44,136 ; vmovss (%rax,%r9,4),%xmm5
DB 196,227,97,33,221,32 ; vinsertps $0x20,%xmm5,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,44,152 ; vmovss (%rax,%rbx,4),%xmm5
DB 196,227,97,33,221,48 ; vinsertps $0x30,%xmm5,%xmm3,%xmm3
DB 196,99,101,24,210,1 ; vinsertf128 $0x1,%xmm2,%ymm3,%ymm10
DB 196,193,121,254,196 ; vpaddd %xmm12,%xmm0,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,73,254,196 ; vpaddd %xmm12,%xmm6,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
- DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
+ DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
DB 196,227,121,33,194,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
@@ -15067,78 +15094,78 @@ _sk_clut_3D_avx LABEL PROC
DB 196,99,109,24,232,1 ; vinsertf128 $0x1,%xmm0,%ymm2,%ymm13
DB 197,129,254,199 ; vpaddd %xmm7,%xmm15,%xmm0
DB 196,194,121,64,243 ; vpmulld %xmm11,%xmm0,%xmm6
- DB 196,193,249,126,242 ; vmovq %xmm6,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,241 ; vmovq %xmm6,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,243,1 ; vpextrq $0x1,%xmm6,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,20,152 ; vmovss (%rax,%rbx,4),%xmm2
DB 196,227,121,33,194,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm0
DB 197,121,111,124,36,112 ; vmovdqa 0x70(%rsp),%xmm15
DB 197,129,254,201 ; vpaddd %xmm1,%xmm15,%xmm1
DB 196,194,113,64,251 ; vpmulld %xmm11,%xmm1,%xmm7
DB 197,249,126,251 ; vmovd %xmm7,%ebx
- DB 196,195,121,22,249,1 ; vpextrd $0x1,%xmm7,%r9d
- DB 196,195,121,22,250,2 ; vpextrd $0x2,%xmm7,%r10d
- DB 196,195,121,22,251,3 ; vpextrd $0x3,%xmm7,%r11d
+ DB 196,195,121,22,248,1 ; vpextrd $0x1,%xmm7,%r8d
+ DB 196,195,121,22,249,2 ; vpextrd $0x2,%xmm7,%r9d
+ DB 196,195,121,22,250,3 ; vpextrd $0x3,%xmm7,%r10d
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
- DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
DB 196,227,125,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm1
DB 196,193,65,254,193 ; vpaddd %xmm9,%xmm7,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,73,254,193 ; vpaddd %xmm9,%xmm6,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
- DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
+ DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
DB 196,227,121,33,194,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
DB 196,227,109,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm2,%ymm0
DB 196,193,65,254,212 ; vpaddd %xmm12,%xmm7,%xmm2
- DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 196,195,249,22,208,1 ; vpextrq $0x1,%xmm2,%r8
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 196,193,73,254,212 ; vpaddd %xmm12,%xmm6,%xmm2
- DB 196,193,249,126,211 ; vmovq %xmm2,%r11
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,20,152 ; vmovss (%rax,%r11,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,44,144 ; vmovss (%rax,%r10,4),%xmm5
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,44,136 ; vmovss (%rax,%r9,4),%xmm5
DB 196,227,97,33,221,32 ; vinsertps $0x20,%xmm5,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,44,152 ; vmovss (%rax,%rbx,4),%xmm5
@@ -15160,77 +15187,77 @@ _sk_clut_3D_avx LABEL PROC
DB 197,185,254,132,36,192,0,0,0 ; vpaddd 0xc0(%rsp),%xmm8,%xmm0
DB 197,249,254,76,36,96 ; vpaddd 0x60(%rsp),%xmm0,%xmm1
DB 196,66,113,64,235 ; vpmulld %xmm11,%xmm1,%xmm13
- DB 196,65,249,126,234 ; vmovq %xmm13,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,65,249,126,233 ; vmovq %xmm13,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,99,249,22,235,1 ; vpextrq $0x1,%xmm13,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,12,136 ; vmovss (%rax,%r9,4),%xmm1
- DB 196,163,113,33,12,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm1,%xmm1
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,12,128 ; vmovss (%rax,%r8,4),%xmm1
+ DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
DB 197,250,16,20,152 ; vmovss (%rax,%rbx,4),%xmm2
DB 196,227,113,33,202,48 ; vinsertps $0x30,%xmm2,%xmm1,%xmm1
DB 197,201,254,84,36,80 ; vpaddd 0x50(%rsp),%xmm6,%xmm2
DB 196,194,105,64,211 ; vpmulld %xmm11,%xmm2,%xmm2
DB 197,249,126,211 ; vmovd %xmm2,%ebx
- DB 196,195,121,22,209,1 ; vpextrd $0x1,%xmm2,%r9d
- DB 196,195,121,22,210,2 ; vpextrd $0x2,%xmm2,%r10d
- DB 196,195,121,22,211,3 ; vpextrd $0x3,%xmm2,%r11d
+ DB 196,195,121,22,208,1 ; vpextrd $0x1,%xmm2,%r8d
+ DB 196,195,121,22,209,2 ; vpextrd $0x2,%xmm2,%r9d
+ DB 196,195,121,22,210,3 ; vpextrd $0x3,%xmm2,%r10d
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
- DB 196,163,97,33,28,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
- DB 196,163,97,33,28,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
- DB 196,163,97,33,28,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm3,%xmm3
DB 196,227,117,24,203,1 ; vinsertf128 $0x1,%xmm3,%ymm1,%ymm1
DB 196,193,105,254,217 ; vpaddd %xmm9,%xmm2,%xmm3
- DB 196,195,249,22,217,1 ; vpextrq $0x1,%xmm3,%r9
- DB 196,193,249,126,218 ; vmovq %xmm3,%r10
+ DB 196,195,249,22,216,1 ; vpextrq $0x1,%xmm3,%r8
+ DB 196,193,249,126,217 ; vmovq %xmm3,%r9
DB 196,193,17,254,217 ; vpaddd %xmm9,%xmm13,%xmm3
- DB 196,193,249,126,219 ; vmovq %xmm3,%r11
+ DB 196,193,249,126,218 ; vmovq %xmm3,%r10
DB 196,227,249,22,219,1 ; vpextrq $0x1,%xmm3,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
- DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
- DB 196,161,122,16,44,184 ; vmovss (%rax,%r15,4),%xmm5
- DB 196,227,97,33,221,32 ; vinsertps $0x20,%xmm5,%xmm3,%xmm3
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,44,136 ; vmovss (%rax,%r9,4),%xmm5
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,28,152 ; vmovss (%rax,%r11,4),%xmm3
+ DB 196,163,97,33,28,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
+ DB 196,161,122,16,44,176 ; vmovss (%rax,%r14,4),%xmm5
+ DB 196,227,97,33,221,32 ; vinsertps $0x20,%xmm5,%xmm3,%xmm3
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,44,128 ; vmovss (%rax,%r8,4),%xmm5
DB 196,227,97,33,221,48 ; vinsertps $0x30,%xmm5,%xmm3,%xmm3
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,44,136 ; vmovss (%rax,%r9,4),%xmm5
- DB 196,163,81,33,44,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm5,%xmm5
- DB 196,161,122,16,60,144 ; vmovss (%rax,%r10,4),%xmm7
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,44,128 ; vmovss (%rax,%r8,4),%xmm5
+ DB 196,163,81,33,44,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm5,%xmm5
+ DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
DB 196,227,81,33,239,32 ; vinsertps $0x20,%xmm7,%xmm5,%xmm5
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,81,33,239,48 ; vinsertps $0x30,%xmm7,%xmm5,%xmm5
DB 196,227,85,24,235,1 ; vinsertf128 $0x1,%xmm3,%ymm5,%ymm5
DB 196,193,105,254,212 ; vpaddd %xmm12,%xmm2,%xmm2
- DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 196,195,249,22,208,1 ; vpextrq $0x1,%xmm2,%r8
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 196,193,17,254,212 ; vpaddd %xmm12,%xmm13,%xmm2
- DB 196,193,249,126,211 ; vmovq %xmm2,%r11
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,20,152 ; vmovss (%rax,%r11,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,60,144 ; vmovss (%rax,%r10,4),%xmm7
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
DB 196,227,97,33,223,32 ; vinsertps $0x20,%xmm7,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
@@ -15240,78 +15267,78 @@ _sk_clut_3D_avx LABEL PROC
DB 197,129,254,214 ; vpaddd %xmm6,%xmm15,%xmm2
DB 196,194,105,64,243 ; vpmulld %xmm11,%xmm2,%xmm6
DB 196,194,121,64,195 ; vpmulld %xmm11,%xmm0,%xmm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,163,105,33,20,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm2,%xmm2
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
DB 197,249,126,243 ; vmovd %xmm6,%ebx
- DB 196,195,121,22,241,1 ; vpextrd $0x1,%xmm6,%r9d
- DB 196,195,121,22,242,2 ; vpextrd $0x2,%xmm6,%r10d
- DB 196,195,121,22,243,3 ; vpextrd $0x3,%xmm6,%r11d
+ DB 196,195,121,22,240,1 ; vpextrd $0x1,%xmm6,%r8d
+ DB 196,195,121,22,241,2 ; vpextrd $0x2,%xmm6,%r9d
+ DB 196,195,121,22,242,3 ; vpextrd $0x3,%xmm6,%r10d
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
- DB 196,163,97,33,28,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
- DB 196,163,97,33,28,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
- DB 196,163,97,33,28,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm3,%xmm3
DB 196,227,109,24,219,1 ; vinsertf128 $0x1,%xmm3,%ymm2,%ymm3
DB 196,193,73,254,209 ; vpaddd %xmm9,%xmm6,%xmm2
- DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 196,195,249,22,208,1 ; vpextrq $0x1,%xmm2,%r8
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 196,193,121,254,209 ; vpaddd %xmm9,%xmm0,%xmm2
- DB 196,193,249,126,211 ; vmovq %xmm2,%r11
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,161,122,16,36,184 ; vmovss (%rax,%r15,4),%xmm4
- DB 196,227,105,33,212,32 ; vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,20,152 ; vmovss (%rax,%r11,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
+ DB 196,227,105,33,212,32 ; vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
DB 196,227,105,33,212,48 ; vinsertps $0x30,%xmm4,%xmm2,%xmm2
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
- DB 196,163,89,33,36,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- DB 196,161,122,16,60,144 ; vmovss (%rax,%r10,4),%xmm7
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
+ DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
DB 196,227,89,33,231,32 ; vinsertps $0x20,%xmm7,%xmm4,%xmm4
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,89,33,231,48 ; vinsertps $0x30,%xmm7,%xmm4,%xmm4
DB 196,227,93,24,210,1 ; vinsertf128 $0x1,%xmm2,%ymm4,%ymm2
DB 196,193,73,254,228 ; vpaddd %xmm12,%xmm6,%xmm4
- DB 196,195,249,22,225,1 ; vpextrq $0x1,%xmm4,%r9
- DB 196,193,249,126,226 ; vmovq %xmm4,%r10
+ DB 196,195,249,22,224,1 ; vpextrq $0x1,%xmm4,%r8
+ DB 196,193,249,126,225 ; vmovq %xmm4,%r9
DB 196,193,121,254,196 ; vpaddd %xmm12,%xmm0,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
- DB 196,195,249,22,199,1 ; vpextrq $0x1,%xmm0,%r15
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 68,137,203 ; mov %r9d,%ebx
- DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
- DB 196,227,121,33,196,32 ; vinsertps $0x20,%xmm4,%xmm0,%xmm0
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
+ DB 196,227,121,33,196,32 ; vinsertps $0x20,%xmm4,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
DB 196,227,121,33,196,48 ; vinsertps $0x30,%xmm4,%xmm0,%xmm0
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
- DB 196,163,89,33,36,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- DB 68,137,251 ; mov %r15d,%ebx
- DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
+ DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
- DB 73,193,239,32 ; shr $0x20,%r15
- DB 196,161,122,16,52,184 ; vmovss (%rax,%r15,4),%xmm6
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
DB 196,227,89,33,230,48 ; vinsertps $0x30,%xmm6,%xmm4,%xmm4
DB 196,227,93,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm4,%ymm0
DB 197,228,92,217 ; vsubps %ymm1,%ymm3,%ymm3
@@ -15356,42 +15383,40 @@ _sk_clut_3D_avx LABEL PROC
DB 197,252,16,172,36,32,2,0,0 ; vmovups 0x220(%rsp),%ymm5
DB 197,252,16,180,36,64,2,0,0 ; vmovups 0x240(%rsp),%ymm6
DB 197,252,16,188,36,96,2,0,0 ; vmovups 0x260(%rsp),%ymm7
- DB 72,129,196,128,2,0,0 ; add $0x280,%rsp
+ DB 72,129,196,136,2,0,0 ; add $0x288,%rsp
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_clut_4D_avx
_sk_clut_4D_avx LABEL PROC
- DB 65,87 ; push %r15
DB 65,86 ; push %r14
DB 83 ; push %rbx
- DB 72,129,236,32,3,0,0 ; sub $0x320,%rsp
+ DB 72,129,236,40,3,0,0 ; sub $0x328,%rsp
DB 197,252,17,188,36,0,3,0,0 ; vmovups %ymm7,0x300(%rsp)
DB 197,252,17,180,36,224,2,0,0 ; vmovups %ymm6,0x2e0(%rsp)
DB 197,252,17,172,36,192,2,0,0 ; vmovups %ymm5,0x2c0(%rsp)
DB 197,252,17,164,36,160,2,0,0 ; vmovups %ymm4,0x2a0(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,20 ; mov 0x14(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 196,193,121,110,226 ; vmovd %r10d,%xmm4
+ DB 68,139,64,20 ; mov 0x14(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 196,193,121,110,225 ; vmovd %r9d,%xmm4
DB 197,249,112,228,0 ; vpshufd $0x0,%xmm4,%xmm4
DB 196,227,93,24,228,1 ; vinsertf128 $0x1,%xmm4,%ymm4,%ymm4
DB 197,252,91,228 ; vcvtdq2ps %ymm4,%ymm4
DB 197,220,89,219 ; vmulps %ymm3,%ymm4,%ymm3
DB 197,252,17,156,36,128,2,0,0 ; vmovups %ymm3,0x280(%rsp)
DB 197,254,91,227 ; vcvttps2dq %ymm3,%ymm4
- DB 68,139,80,16 ; mov 0x10(%rax),%r10d
- DB 69,141,90,255 ; lea -0x1(%r10),%r11d
- DB 196,193,121,110,219 ; vmovd %r11d,%xmm3
+ DB 68,139,72,16 ; mov 0x10(%rax),%r9d
+ DB 69,141,81,255 ; lea -0x1(%r9),%r10d
+ DB 196,193,121,110,218 ; vmovd %r10d,%xmm3
DB 197,249,112,219,0 ; vpshufd $0x0,%xmm3,%xmm3
DB 196,227,101,24,219,1 ; vinsertf128 $0x1,%xmm3,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 197,228,89,210 ; vmulps %ymm2,%ymm3,%ymm2
DB 197,252,17,148,36,160,1,0,0 ; vmovups %ymm2,0x1a0(%rsp)
DB 197,254,91,234 ; vcvttps2dq %ymm2,%ymm5
- DB 196,193,121,110,209 ; vmovd %r9d,%xmm2
+ DB 196,193,121,110,208 ; vmovd %r8d,%xmm2
DB 197,249,112,242,0 ; vpshufd $0x0,%xmm2,%xmm6
DB 196,226,81,64,222 ; vpmulld %xmm6,%xmm5,%xmm3
DB 197,249,111,254 ; vmovdqa %xmm6,%xmm7
@@ -15401,22 +15426,22 @@ _sk_clut_4D_avx LABEL PROC
DB 197,225,254,244 ; vpaddd %xmm4,%xmm3,%xmm6
DB 197,249,127,180,36,224,0,0,0 ; vmovdqa %xmm6,0xe0(%rsp)
DB 197,254,127,164,36,96,2,0,0 ; vmovdqu %ymm4,0x260(%rsp)
- DB 196,193,121,110,218 ; vmovd %r10d,%xmm3
+ DB 196,193,121,110,217 ; vmovd %r9d,%xmm3
DB 196,226,97,64,210 ; vpmulld %xmm2,%xmm3,%xmm2
DB 197,121,112,194,0 ; vpshufd $0x0,%xmm2,%xmm8
- DB 68,139,72,12 ; mov 0xc(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 196,193,121,110,218 ; vmovd %r10d,%xmm3
+ DB 68,139,64,12 ; mov 0xc(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 196,193,121,110,217 ; vmovd %r9d,%xmm3
DB 197,249,112,219,0 ; vpshufd $0x0,%xmm3,%xmm3
DB 196,227,101,24,219,1 ; vinsertf128 $0x1,%xmm3,%ymm3,%ymm3
DB 197,252,91,219 ; vcvtdq2ps %ymm3,%ymm3
DB 197,228,89,217 ; vmulps %ymm1,%ymm3,%ymm3
DB 197,252,17,156,36,0,1,0,0 ; vmovups %ymm3,0x100(%rsp)
- DB 196,193,121,110,201 ; vmovd %r9d,%xmm1
+ DB 196,193,121,110,200 ; vmovd %r8d,%xmm1
DB 196,226,113,64,202 ; vpmulld %xmm2,%xmm1,%xmm1
- DB 68,139,72,8 ; mov 0x8(%rax),%r9d
- DB 65,255,201 ; dec %r9d
- DB 196,193,121,110,209 ; vmovd %r9d,%xmm2
+ DB 68,139,64,8 ; mov 0x8(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 196,193,121,110,208 ; vmovd %r8d,%xmm2
DB 197,249,112,210,0 ; vpshufd $0x0,%xmm2,%xmm2
DB 196,227,109,24,210,1 ; vinsertf128 $0x1,%xmm2,%ymm2,%ymm2
DB 197,252,91,210 ; vcvtdq2ps %ymm2,%ymm2
@@ -15433,18 +15458,18 @@ _sk_clut_4D_avx LABEL PROC
DB 196,226,25,64,200 ; vpmulld %xmm0,%xmm12,%xmm1
DB 197,249,127,12,36 ; vmovdqa %xmm1,(%rsp)
DB 197,241,254,202 ; vpaddd %xmm2,%xmm1,%xmm1
- DB 196,98,121,24,61,234,184,1,0 ; vbroadcastss 0x1b8ea(%rip),%xmm15 # 2c234 <_sk_overlay_sse2_8bit+0x5e7>
+ DB 196,98,121,24,61,31,185,1,0 ; vbroadcastss 0x1b91f(%rip),%xmm15 # 2c25c <_sk_overlay_sse2_8bit+0x5e7>
DB 196,194,113,64,247 ; vpmulld %xmm15,%xmm1,%xmm6
- DB 196,193,249,126,241 ; vmovq %xmm6,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 196,195,249,22,243,1 ; vpextrq $0x1,%xmm6,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,12,144 ; vmovss (%rax,%r10,4),%xmm1
- DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- DB 196,227,113,33,12,152,32 ; vinsertps $0x20,(%rax,%rbx,4),%xmm1,%xmm1
- DB 196,161,122,16,28,152 ; vmovss (%rax,%r11,4),%xmm3
+ DB 196,193,249,126,240 ; vmovq %xmm6,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 196,195,249,22,242,1 ; vpextrq $0x1,%xmm6,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,12,136 ; vmovss (%rax,%r9,4),%xmm1
+ DB 196,163,113,33,12,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm1,%xmm1
+ DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
DB 196,99,113,33,203,48 ; vinsertps $0x30,%xmm3,%xmm1,%xmm9
DB 196,227,125,25,233,1 ; vextractf128 $0x1,%ymm5,%xmm1
DB 196,226,113,64,239 ; vpmulld %xmm7,%xmm1,%xmm5
@@ -15462,72 +15487,72 @@ _sk_clut_4D_avx LABEL PROC
DB 197,225,254,201 ; vpaddd %xmm1,%xmm3,%xmm1
DB 197,193,254,217 ; vpaddd %xmm1,%xmm7,%xmm3
DB 196,194,97,64,223 ; vpmulld %xmm15,%xmm3,%xmm3
- DB 197,249,126,219 ; vmovd %xmm3,%ebx
+ DB 196,193,121,126,216 ; vmovd %xmm3,%r8d
DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
- DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,163,65,33,60,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
DB 196,163,65,33,60,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm7,%xmm7
DB 196,163,65,33,60,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm7,%xmm7
DB 196,99,53,24,247,1 ; vinsertf128 $0x1,%xmm7,%ymm9,%ymm14
- DB 196,98,121,24,21,154,182,1,0 ; vbroadcastss 0x1b69a(%rip),%xmm10 # 2c0c0 <_sk_overlay_sse2_8bit+0x473>
+ DB 196,98,121,24,21,205,182,1,0 ; vbroadcastss 0x1b6cd(%rip),%xmm10 # 2c0e8 <_sk_overlay_sse2_8bit+0x473>
DB 196,65,97,254,202 ; vpaddd %xmm10,%xmm3,%xmm9
- DB 196,67,249,22,201,1 ; vpextrq $0x1,%xmm9,%r9
- DB 196,65,249,126,202 ; vmovq %xmm9,%r10
+ DB 196,67,249,22,200,1 ; vpextrq $0x1,%xmm9,%r8
+ DB 196,65,249,126,201 ; vmovq %xmm9,%r9
DB 196,65,73,254,202 ; vpaddd %xmm10,%xmm6,%xmm9
- DB 196,97,249,126,203 ; vmovq %xmm9,%rbx
+ DB 196,65,249,126,202 ; vmovq %xmm9,%r10
DB 196,67,249,22,203,1 ; vpextrq $0x1,%xmm9,%r11
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,60,176 ; vmovss (%rax,%r14,4),%xmm7
- DB 196,163,65,33,60,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
- DB 196,161,122,16,36,184 ; vmovss (%rax,%r15,4),%xmm4
- DB 196,227,65,33,228,32 ; vinsertps $0x20,%xmm4,%xmm7,%xmm4
+ DB 68,137,203 ; mov %r9d,%ebx
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
+ DB 196,163,65,33,60,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
+ DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
+ DB 196,227,65,33,228,32 ; vinsertps $0x20,%xmm4,%xmm7,%xmm4
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,227,89,33,231,48 ; vinsertps $0x30,%xmm7,%xmm4,%xmm4
- DB 65,137,217 ; mov %ebx,%r9d
- DB 69,137,218 ; mov %r11d,%r10d
- DB 72,193,235,32 ; shr $0x20,%rbx
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
- DB 196,227,65,33,60,152,16 ; vinsertps $0x10,(%rax,%rbx,4),%xmm7,%xmm7
- DB 196,161,122,16,44,144 ; vmovss (%rax,%r10,4),%xmm5
+ DB 68,137,211 ; mov %r10d,%ebx
+ DB 69,137,216 ; mov %r11d,%r8d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
+ DB 196,163,65,33,60,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ DB 196,161,122,16,44,128 ; vmovss (%rax,%r8,4),%xmm5
DB 196,227,65,33,237,32 ; vinsertps $0x20,%xmm5,%xmm7,%xmm5
DB 73,193,235,32 ; shr $0x20,%r11
DB 196,161,122,16,60,152 ; vmovss (%rax,%r11,4),%xmm7
DB 196,227,81,33,239,48 ; vinsertps $0x30,%xmm7,%xmm5,%xmm5
DB 196,99,85,24,220,1 ; vinsertf128 $0x1,%xmm4,%ymm5,%ymm11
- DB 196,98,121,24,13,13,182,1,0 ; vbroadcastss 0x1b60d(%rip),%xmm9 # 2c0c8 <_sk_overlay_sse2_8bit+0x47b>
+ DB 196,98,121,24,13,66,182,1,0 ; vbroadcastss 0x1b642(%rip),%xmm9 # 2c0f0 <_sk_overlay_sse2_8bit+0x47b>
DB 196,193,97,254,217 ; vpaddd %xmm9,%xmm3,%xmm3
- DB 196,195,249,22,217,1 ; vpextrq $0x1,%xmm3,%r9
- DB 196,193,249,126,218 ; vmovq %xmm3,%r10
+ DB 196,195,249,22,216,1 ; vpextrq $0x1,%xmm3,%r8
+ DB 196,193,249,126,217 ; vmovq %xmm3,%r9
DB 196,193,73,254,217 ; vpaddd %xmm9,%xmm6,%xmm3
- DB 196,193,249,126,219 ; vmovq %xmm3,%r11
+ DB 196,193,249,126,218 ; vmovq %xmm3,%r10
DB 196,227,249,22,219,1 ; vpextrq $0x1,%xmm3,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
- DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
- DB 196,161,122,16,36,184 ; vmovss (%rax,%r15,4),%xmm4
- DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,28,152 ; vmovss (%rax,%r11,4),%xmm3
+ DB 196,163,97,33,28,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
+ DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
+ DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
DB 196,227,97,33,220,48 ; vinsertps $0x30,%xmm4,%xmm3,%xmm3
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
- DB 196,163,89,33,36,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- DB 196,161,122,16,44,144 ; vmovss (%rax,%r10,4),%xmm5
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
+ DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ DB 196,161,122,16,44,136 ; vmovss (%rax,%r9,4),%xmm5
DB 196,227,89,33,229,32 ; vinsertps $0x20,%xmm5,%xmm4,%xmm4
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,44,152 ; vmovss (%rax,%rbx,4),%xmm5
DB 196,227,89,33,229,48 ; vinsertps $0x30,%xmm5,%xmm4,%xmm4
DB 196,227,93,24,243,1 ; vinsertf128 $0x1,%xmm3,%ymm4,%ymm6
- DB 196,226,125,24,37,225,182,1,0 ; vbroadcastss 0x1b6e1(%rip),%ymm4 # 2c230 <_sk_overlay_sse2_8bit+0x5e3>
+ DB 196,226,125,24,37,22,183,1,0 ; vbroadcastss 0x1b716(%rip),%ymm4 # 2c258 <_sk_overlay_sse2_8bit+0x5e3>
DB 197,148,88,220 ; vaddps %ymm4,%ymm13,%ymm3
DB 197,252,40,252 ; vmovaps %ymm4,%ymm7
DB 197,252,17,188,36,160,0,0,0 ; vmovups %ymm7,0xa0(%rsp)
@@ -15539,77 +15564,77 @@ _sk_clut_4D_avx LABEL PROC
DB 197,249,127,68,36,16 ; vmovdqa %xmm0,0x10(%rsp)
DB 197,249,254,194 ; vpaddd %xmm2,%xmm0,%xmm0
DB 196,194,121,64,215 ; vpmulld %xmm15,%xmm0,%xmm2
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,121,33,219,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm3
DB 197,217,254,193 ; vpaddd %xmm1,%xmm4,%xmm0
DB 196,194,121,64,199 ; vpmulld %xmm15,%xmm0,%xmm0
DB 197,249,126,195 ; vmovd %xmm0,%ebx
- DB 196,195,121,22,193,1 ; vpextrd $0x1,%xmm0,%r9d
- DB 196,195,121,22,194,2 ; vpextrd $0x2,%xmm0,%r10d
- DB 196,195,121,22,195,3 ; vpextrd $0x3,%xmm0,%r11d
+ DB 196,195,121,22,192,1 ; vpextrd $0x1,%xmm0,%r8d
+ DB 196,195,121,22,193,2 ; vpextrd $0x2,%xmm0,%r9d
+ DB 196,195,121,22,194,3 ; vpextrd $0x3,%xmm0,%r10d
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
- DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
DB 196,227,101,24,217,1 ; vinsertf128 $0x1,%xmm1,%ymm3,%ymm3
DB 196,193,121,254,202 ; vpaddd %xmm10,%xmm0,%xmm1
- DB 196,195,249,22,201,1 ; vpextrq $0x1,%xmm1,%r9
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
+ DB 196,195,249,22,200,1 ; vpextrq $0x1,%xmm1,%r8
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
DB 196,193,105,254,202 ; vpaddd %xmm10,%xmm2,%xmm1
- DB 196,193,249,126,203 ; vmovq %xmm1,%r11
+ DB 196,193,249,126,202 ; vmovq %xmm1,%r10
DB 196,227,249,22,203,1 ; vpextrq $0x1,%xmm1,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,12,176 ; vmovss (%rax,%r14,4),%xmm1
- DB 196,163,113,33,12,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,161,122,16,36,184 ; vmovss (%rax,%r15,4),%xmm4
- DB 196,227,113,33,204,32 ; vinsertps $0x20,%xmm4,%xmm1,%xmm1
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,12,152 ; vmovss (%rax,%r11,4),%xmm1
+ DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
+ DB 196,227,113,33,204,32 ; vinsertps $0x20,%xmm4,%xmm1,%xmm1
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
DB 196,227,113,33,204,48 ; vinsertps $0x30,%xmm4,%xmm1,%xmm1
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
- DB 196,163,89,33,36,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- DB 196,161,122,16,44,144 ; vmovss (%rax,%r10,4),%xmm5
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
+ DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ DB 196,161,122,16,44,136 ; vmovss (%rax,%r9,4),%xmm5
DB 196,227,89,33,229,32 ; vinsertps $0x20,%xmm5,%xmm4,%xmm4
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,44,152 ; vmovss (%rax,%rbx,4),%xmm5
DB 196,227,89,33,229,48 ; vinsertps $0x30,%xmm5,%xmm4,%xmm4
DB 196,227,93,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm4,%ymm1
DB 196,193,121,254,193 ; vpaddd %xmm9,%xmm0,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,105,254,193 ; vpaddd %xmm9,%xmm2,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
- DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
+ DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
DB 196,227,121,33,194,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,36,144 ; vmovss (%rax,%r10,4),%xmm4
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
DB 196,227,105,33,212,32 ; vinsertps $0x20,%xmm4,%xmm2,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
@@ -15639,78 +15664,78 @@ _sk_clut_4D_avx LABEL PROC
DB 197,241,254,188,36,224,0,0,0 ; vpaddd 0xe0(%rsp),%xmm1,%xmm7
DB 197,193,254,4,36 ; vpaddd (%rsp),%xmm7,%xmm0
DB 196,194,121,64,199 ; vpmulld %xmm15,%xmm0,%xmm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,12,136 ; vmovss (%rax,%r9,4),%xmm1
- DB 196,163,113,33,12,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm1,%xmm1
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,12,128 ; vmovss (%rax,%r8,4),%xmm1
+ DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
DB 197,250,16,20,152 ; vmovss (%rax,%rbx,4),%xmm2
DB 196,227,113,33,202,48 ; vinsertps $0x30,%xmm2,%xmm1,%xmm1
DB 197,225,254,148,36,192,1,0,0 ; vpaddd 0x1c0(%rsp),%xmm3,%xmm2
DB 197,233,254,92,36,48 ; vpaddd 0x30(%rsp),%xmm2,%xmm3
DB 196,194,97,64,223 ; vpmulld %xmm15,%xmm3,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
- DB 196,163,89,33,36,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
- DB 196,163,89,33,36,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm4,%xmm4
- DB 196,163,89,33,36,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm4,%xmm4
DB 196,99,117,24,228,1 ; vinsertf128 $0x1,%xmm4,%ymm1,%ymm12
DB 196,193,97,254,202 ; vpaddd %xmm10,%xmm3,%xmm1
- DB 196,195,249,22,201,1 ; vpextrq $0x1,%xmm1,%r9
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
+ DB 196,195,249,22,200,1 ; vpextrq $0x1,%xmm1,%r8
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
DB 196,193,121,254,202 ; vpaddd %xmm10,%xmm0,%xmm1
- DB 196,193,249,126,203 ; vmovq %xmm1,%r11
+ DB 196,193,249,126,202 ; vmovq %xmm1,%r10
DB 196,227,249,22,203,1 ; vpextrq $0x1,%xmm1,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,12,176 ; vmovss (%rax,%r14,4),%xmm1
- DB 196,163,113,33,12,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,161,122,16,36,184 ; vmovss (%rax,%r15,4),%xmm4
- DB 196,227,113,33,204,32 ; vinsertps $0x20,%xmm4,%xmm1,%xmm1
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,12,152 ; vmovss (%rax,%r11,4),%xmm1
+ DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
+ DB 196,227,113,33,204,32 ; vinsertps $0x20,%xmm4,%xmm1,%xmm1
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
DB 196,227,113,33,204,48 ; vinsertps $0x30,%xmm4,%xmm1,%xmm1
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
- DB 196,163,89,33,36,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- DB 196,161,122,16,52,144 ; vmovss (%rax,%r10,4),%xmm6
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
+ DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
DB 196,227,89,33,230,48 ; vinsertps $0x30,%xmm6,%xmm4,%xmm4
DB 196,227,93,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm4,%ymm1
DB 196,193,97,254,217 ; vpaddd %xmm9,%xmm3,%xmm3
- DB 196,195,249,22,217,1 ; vpextrq $0x1,%xmm3,%r9
- DB 196,193,249,126,218 ; vmovq %xmm3,%r10
+ DB 196,195,249,22,216,1 ; vpextrq $0x1,%xmm3,%r8
+ DB 196,193,249,126,217 ; vmovq %xmm3,%r9
DB 196,193,121,254,193 ; vpaddd %xmm9,%xmm0,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,36,144 ; vmovss (%rax,%r10,4),%xmm4
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
@@ -15719,77 +15744,77 @@ _sk_clut_4D_avx LABEL PROC
DB 197,121,111,116,36,16 ; vmovdqa 0x10(%rsp),%xmm14
DB 197,137,254,199 ; vpaddd %xmm7,%xmm14,%xmm0
DB 196,194,121,64,199 ; vpmulld %xmm15,%xmm0,%xmm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
- DB 196,163,97,33,28,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm3,%xmm3
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
DB 196,227,97,33,228,48 ; vinsertps $0x30,%xmm4,%xmm3,%xmm4
DB 197,233,254,84,36,32 ; vpaddd 0x20(%rsp),%xmm2,%xmm2
DB 196,194,105,64,223 ; vpmulld %xmm15,%xmm2,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,20,152 ; vmovss (%rax,%rbx,4),%xmm2
- DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
- DB 196,163,105,33,20,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,163,105,33,20,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm2,%xmm2
DB 196,227,93,24,210,1 ; vinsertf128 $0x1,%xmm2,%ymm4,%ymm2
DB 196,193,97,254,226 ; vpaddd %xmm10,%xmm3,%xmm4
- DB 196,195,249,22,225,1 ; vpextrq $0x1,%xmm4,%r9
- DB 196,193,249,126,226 ; vmovq %xmm4,%r10
+ DB 196,195,249,22,224,1 ; vpextrq $0x1,%xmm4,%r8
+ DB 196,193,249,126,225 ; vmovq %xmm4,%r9
DB 196,193,121,254,226 ; vpaddd %xmm10,%xmm0,%xmm4
- DB 196,193,249,126,227 ; vmovq %xmm4,%r11
+ DB 196,193,249,126,226 ; vmovq %xmm4,%r10
DB 196,227,249,22,227,1 ; vpextrq $0x1,%xmm4,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
- DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- DB 196,161,122,16,52,184 ; vmovss (%rax,%r15,4),%xmm6
- DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,36,152 ; vmovss (%rax,%r11,4),%xmm4
+ DB 196,163,89,33,36,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ DB 196,161,122,16,52,176 ; vmovss (%rax,%r14,4),%xmm6
+ DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,52,128 ; vmovss (%rax,%r8,4),%xmm6
DB 196,227,89,33,230,48 ; vinsertps $0x30,%xmm6,%xmm4,%xmm4
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
- DB 196,163,73,33,52,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm6,%xmm6
- DB 196,161,122,16,60,144 ; vmovss (%rax,%r10,4),%xmm7
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,52,128 ; vmovss (%rax,%r8,4),%xmm6
+ DB 196,163,73,33,52,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm6,%xmm6
+ DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
DB 196,227,73,33,247,32 ; vinsertps $0x20,%xmm7,%xmm6,%xmm6
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,73,33,247,48 ; vinsertps $0x30,%xmm7,%xmm6,%xmm6
DB 196,227,77,24,252,1 ; vinsertf128 $0x1,%xmm4,%ymm6,%ymm7
DB 196,193,97,254,217 ; vpaddd %xmm9,%xmm3,%xmm3
- DB 196,195,249,22,217,1 ; vpextrq $0x1,%xmm3,%r9
- DB 196,193,249,126,218 ; vmovq %xmm3,%r10
+ DB 196,195,249,22,216,1 ; vpextrq $0x1,%xmm3,%r8
+ DB 196,193,249,126,217 ; vmovq %xmm3,%r9
DB 196,193,121,254,193 ; vpaddd %xmm9,%xmm0,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,36,144 ; vmovss (%rax,%r10,4),%xmm4
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
@@ -15835,15 +15860,15 @@ _sk_clut_4D_avx LABEL PROC
DB 197,249,254,148,36,128,1,0,0 ; vpaddd 0x180(%rsp),%xmm0,%xmm2
DB 197,233,254,4,36 ; vpaddd (%rsp),%xmm2,%xmm0
DB 196,194,121,64,247 ; vpmulld %xmm15,%xmm0,%xmm6
- DB 196,193,249,126,242 ; vmovq %xmm6,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,241 ; vmovq %xmm6,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,243,1 ; vpextrq $0x1,%xmm6,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
DB 196,227,121,33,225,48 ; vinsertps $0x30,%xmm1,%xmm0,%xmm4
DB 197,225,254,68,36,64 ; vpaddd 0x40(%rsp),%xmm3,%xmm0
@@ -15853,64 +15878,64 @@ _sk_clut_4D_avx LABEL PROC
DB 196,193,113,254,221 ; vpaddd %xmm13,%xmm1,%xmm3
DB 196,194,97,64,223 ; vpmulld %xmm15,%xmm3,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
- DB 196,163,65,33,60,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
- DB 196,163,65,33,60,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm7,%xmm7
- DB 196,163,65,33,60,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm7,%xmm7
+ DB 196,163,65,33,60,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm7,%xmm7
+ DB 196,163,65,33,60,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm7,%xmm7
+ DB 196,163,65,33,60,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm7,%xmm7
DB 196,227,93,24,199,1 ; vinsertf128 $0x1,%xmm7,%ymm4,%ymm0
DB 197,252,17,68,36,64 ; vmovups %ymm0,0x40(%rsp)
DB 196,193,97,254,250 ; vpaddd %xmm10,%xmm3,%xmm7
- DB 196,195,249,22,249,1 ; vpextrq $0x1,%xmm7,%r9
- DB 196,193,249,126,250 ; vmovq %xmm7,%r10
+ DB 196,195,249,22,248,1 ; vpextrq $0x1,%xmm7,%r8
+ DB 196,193,249,126,249 ; vmovq %xmm7,%r9
DB 196,193,73,254,250 ; vpaddd %xmm10,%xmm6,%xmm7
- DB 196,193,249,126,251 ; vmovq %xmm7,%r11
+ DB 196,193,249,126,250 ; vmovq %xmm7,%r10
DB 196,227,249,22,251,1 ; vpextrq $0x1,%xmm7,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,60,176 ; vmovss (%rax,%r14,4),%xmm7
- DB 196,163,65,33,60,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
- DB 196,161,122,16,4,184 ; vmovss (%rax,%r15,4),%xmm0
- DB 196,227,65,33,192,32 ; vinsertps $0x20,%xmm0,%xmm7,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,60,152 ; vmovss (%rax,%r11,4),%xmm7
+ DB 196,163,65,33,60,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm7,%xmm7
+ DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
+ DB 196,227,65,33,192,32 ; vinsertps $0x20,%xmm0,%xmm7,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,227,121,33,199,48 ; vinsertps $0x30,%xmm7,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
- DB 196,163,65,33,60,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm7,%xmm7
- DB 196,161,122,16,36,144 ; vmovss (%rax,%r10,4),%xmm4
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
+ DB 196,163,65,33,60,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
DB 196,227,65,33,228,32 ; vinsertps $0x20,%xmm4,%xmm7,%xmm4
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,89,33,231,48 ; vinsertps $0x30,%xmm7,%xmm4,%xmm4
DB 196,99,93,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm4,%ymm8
DB 196,193,97,254,193 ; vpaddd %xmm9,%xmm3,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,73,254,193 ; vpaddd %xmm9,%xmm6,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,36,144 ; vmovss (%rax,%r10,4),%xmm4
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
@@ -15918,78 +15943,78 @@ _sk_clut_4D_avx LABEL PROC
DB 196,99,101,24,224,1 ; vinsertf128 $0x1,%xmm0,%ymm3,%ymm12
DB 197,137,254,194 ; vpaddd %xmm2,%xmm14,%xmm0
DB 196,194,121,64,215 ; vpmulld %xmm15,%xmm0,%xmm2
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
DB 197,121,111,92,36,32 ; vmovdqa 0x20(%rsp),%xmm11
DB 197,161,254,201 ; vpaddd %xmm1,%xmm11,%xmm1
DB 196,194,113,64,223 ; vpmulld %xmm15,%xmm1,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
- DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
DB 196,227,125,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm1
DB 196,193,97,254,194 ; vpaddd %xmm10,%xmm3,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,105,254,194 ; vpaddd %xmm10,%xmm2,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,36,184 ; vmovss (%rax,%r15,4),%xmm4
- DB 196,227,121,33,196,32 ; vinsertps $0x20,%xmm4,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
+ DB 196,227,121,33,196,32 ; vinsertps $0x20,%xmm4,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
DB 196,227,121,33,196,48 ; vinsertps $0x30,%xmm4,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
- DB 196,163,89,33,36,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- DB 196,161,122,16,52,144 ; vmovss (%rax,%r10,4),%xmm6
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
+ DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
DB 196,227,89,33,230,48 ; vinsertps $0x30,%xmm6,%xmm4,%xmm4
DB 196,227,93,24,240,1 ; vinsertf128 $0x1,%xmm0,%ymm4,%ymm6
DB 196,193,97,254,193 ; vpaddd %xmm9,%xmm3,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,105,254,193 ; vpaddd %xmm9,%xmm2,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
- DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
+ DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
DB 196,227,121,33,194,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
@@ -16011,15 +16036,15 @@ _sk_clut_4D_avx LABEL PROC
DB 197,249,254,180,36,128,0,0,0 ; vpaddd 0x80(%rsp),%xmm0,%xmm6
DB 197,201,254,4,36 ; vpaddd (%rsp),%xmm6,%xmm0
DB 196,194,121,64,215 ; vpmulld %xmm15,%xmm0,%xmm2
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
DB 196,227,121,33,217,48 ; vinsertps $0x30,%xmm1,%xmm0,%xmm3
DB 197,249,111,132,36,64,2,0,0 ; vmovdqa 0x240(%rsp),%xmm0
@@ -16027,63 +16052,63 @@ _sk_clut_4D_avx LABEL PROC
DB 196,193,113,254,197 ; vpaddd %xmm13,%xmm1,%xmm0
DB 196,194,121,64,199 ; vpmulld %xmm15,%xmm0,%xmm0
DB 197,249,126,195 ; vmovd %xmm0,%ebx
- DB 196,195,121,22,193,1 ; vpextrd $0x1,%xmm0,%r9d
- DB 196,195,121,22,194,2 ; vpextrd $0x2,%xmm0,%r10d
- DB 196,195,121,22,195,3 ; vpextrd $0x3,%xmm0,%r11d
+ DB 196,195,121,22,192,1 ; vpextrd $0x1,%xmm0,%r8d
+ DB 196,195,121,22,193,2 ; vpextrd $0x2,%xmm0,%r9d
+ DB 196,195,121,22,194,3 ; vpextrd $0x3,%xmm0,%r10d
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
- DB 196,163,89,33,36,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
- DB 196,163,89,33,36,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm4,%xmm4
- DB 196,163,89,33,36,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm4,%xmm4
DB 196,99,101,24,236,1 ; vinsertf128 $0x1,%xmm4,%ymm3,%ymm13
DB 196,193,121,254,226 ; vpaddd %xmm10,%xmm0,%xmm4
- DB 196,195,249,22,225,1 ; vpextrq $0x1,%xmm4,%r9
- DB 196,193,249,126,226 ; vmovq %xmm4,%r10
+ DB 196,195,249,22,224,1 ; vpextrq $0x1,%xmm4,%r8
+ DB 196,193,249,126,225 ; vmovq %xmm4,%r9
DB 196,193,105,254,226 ; vpaddd %xmm10,%xmm2,%xmm4
- DB 196,193,249,126,227 ; vmovq %xmm4,%r11
+ DB 196,193,249,126,226 ; vmovq %xmm4,%r10
DB 196,227,249,22,227,1 ; vpextrq $0x1,%xmm4,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
- DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- DB 196,161,122,16,60,184 ; vmovss (%rax,%r15,4),%xmm7
- DB 196,227,89,33,231,32 ; vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,36,152 ; vmovss (%rax,%r11,4),%xmm4
+ DB 196,163,89,33,36,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ DB 196,161,122,16,60,176 ; vmovss (%rax,%r14,4),%xmm7
+ DB 196,227,89,33,231,32 ; vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,227,89,33,231,48 ; vinsertps $0x30,%xmm7,%xmm4,%xmm4
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
- DB 196,163,65,33,60,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm7,%xmm7
- DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
+ DB 196,163,65,33,60,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
DB 196,227,65,33,219,32 ; vinsertps $0x20,%xmm3,%xmm7,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,97,33,223,48 ; vinsertps $0x30,%xmm7,%xmm3,%xmm3
DB 196,99,101,24,244,1 ; vinsertf128 $0x1,%xmm4,%ymm3,%ymm14
DB 196,193,121,254,193 ; vpaddd %xmm9,%xmm0,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,105,254,193 ; vpaddd %xmm9,%xmm2,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
- DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
+ DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
DB 196,227,121,33,194,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
@@ -16091,77 +16116,77 @@ _sk_clut_4D_avx LABEL PROC
DB 196,99,109,24,224,1 ; vinsertf128 $0x1,%xmm0,%ymm2,%ymm12
DB 197,201,254,68,36,16 ; vpaddd 0x10(%rsp),%xmm6,%xmm0
DB 196,194,121,64,215 ; vpmulld %xmm15,%xmm0,%xmm2
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,121,33,219,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm3
DB 197,161,254,193 ; vpaddd %xmm1,%xmm11,%xmm0
DB 196,194,121,64,199 ; vpmulld %xmm15,%xmm0,%xmm0
DB 197,249,126,195 ; vmovd %xmm0,%ebx
- DB 196,195,121,22,193,1 ; vpextrd $0x1,%xmm0,%r9d
- DB 196,195,121,22,194,2 ; vpextrd $0x2,%xmm0,%r10d
- DB 196,195,121,22,195,3 ; vpextrd $0x3,%xmm0,%r11d
+ DB 196,195,121,22,192,1 ; vpextrd $0x1,%xmm0,%r8d
+ DB 196,195,121,22,193,2 ; vpextrd $0x2,%xmm0,%r9d
+ DB 196,195,121,22,194,3 ; vpextrd $0x3,%xmm0,%r10d
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
- DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
DB 196,227,101,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm3,%ymm1
DB 196,193,121,254,218 ; vpaddd %xmm10,%xmm0,%xmm3
- DB 196,195,249,22,217,1 ; vpextrq $0x1,%xmm3,%r9
- DB 196,193,249,126,218 ; vmovq %xmm3,%r10
+ DB 196,195,249,22,216,1 ; vpextrq $0x1,%xmm3,%r8
+ DB 196,193,249,126,217 ; vmovq %xmm3,%r9
DB 196,193,105,254,218 ; vpaddd %xmm10,%xmm2,%xmm3
- DB 196,193,249,126,219 ; vmovq %xmm3,%r11
+ DB 196,193,249,126,218 ; vmovq %xmm3,%r10
DB 196,227,249,22,219,1 ; vpextrq $0x1,%xmm3,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
- DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
- DB 196,161,122,16,36,184 ; vmovss (%rax,%r15,4),%xmm4
- DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,28,152 ; vmovss (%rax,%r11,4),%xmm3
+ DB 196,163,97,33,28,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
+ DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
+ DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
DB 196,227,97,33,220,48 ; vinsertps $0x30,%xmm4,%xmm3,%xmm3
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
- DB 196,163,89,33,36,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- DB 196,161,122,16,52,144 ; vmovss (%rax,%r10,4),%xmm6
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
+ DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
DB 196,227,89,33,230,48 ; vinsertps $0x30,%xmm6,%xmm4,%xmm4
DB 196,227,93,24,243,1 ; vinsertf128 $0x1,%xmm3,%ymm4,%ymm6
DB 196,193,121,254,193 ; vpaddd %xmm9,%xmm0,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,105,254,193 ; vpaddd %xmm9,%xmm2,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
- DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
+ DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
DB 196,227,121,33,194,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
@@ -16219,15 +16244,15 @@ _sk_clut_4D_avx LABEL PROC
DB 197,249,111,44,36 ; vmovdqa (%rsp),%xmm5
DB 197,209,254,194 ; vpaddd %xmm2,%xmm5,%xmm0
DB 196,194,121,64,199 ; vpmulld %xmm15,%xmm0,%xmm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,12,136 ; vmovss (%rax,%r9,4),%xmm1
- DB 196,163,113,33,12,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm1,%xmm1
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,12,128 ; vmovss (%rax,%r8,4),%xmm1
+ DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,113,33,251,48 ; vinsertps $0x30,%xmm3,%xmm1,%xmm7
DB 196,227,125,25,225,1 ; vextractf128 $0x1,%ymm4,%xmm1
@@ -16237,63 +16262,63 @@ _sk_clut_4D_avx LABEL PROC
DB 197,241,254,92,36,48 ; vpaddd 0x30(%rsp),%xmm1,%xmm3
DB 196,194,97,64,223 ; vpmulld %xmm15,%xmm3,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
- DB 196,163,89,33,36,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
- DB 196,163,89,33,36,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm4,%xmm4
- DB 196,163,89,33,36,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm4,%xmm4
DB 196,99,69,24,228,1 ; vinsertf128 $0x1,%xmm4,%ymm7,%ymm12
DB 196,193,97,254,226 ; vpaddd %xmm10,%xmm3,%xmm4
- DB 196,195,249,22,225,1 ; vpextrq $0x1,%xmm4,%r9
- DB 196,193,249,126,226 ; vmovq %xmm4,%r10
+ DB 196,195,249,22,224,1 ; vpextrq $0x1,%xmm4,%r8
+ DB 196,193,249,126,225 ; vmovq %xmm4,%r9
DB 196,193,121,254,226 ; vpaddd %xmm10,%xmm0,%xmm4
DB 196,225,249,126,227 ; vmovq %xmm4,%rbx
- DB 196,195,249,22,227,1 ; vpextrq $0x1,%xmm4,%r11
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
- DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- DB 196,161,122,16,52,184 ; vmovss (%rax,%r15,4),%xmm6
- DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ DB 196,195,249,22,226,1 ; vpextrq $0x1,%xmm4,%r10
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,36,152 ; vmovss (%rax,%r11,4),%xmm4
+ DB 196,163,89,33,36,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ DB 196,161,122,16,52,176 ; vmovss (%rax,%r14,4),%xmm6
+ DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,52,128 ; vmovss (%rax,%r8,4),%xmm6
DB 196,227,89,33,230,48 ; vinsertps $0x30,%xmm6,%xmm4,%xmm4
- DB 65,137,217 ; mov %ebx,%r9d
- DB 69,137,218 ; mov %r11d,%r10d
+ DB 65,137,216 ; mov %ebx,%r8d
+ DB 69,137,209 ; mov %r10d,%r9d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
+ DB 196,161,122,16,52,128 ; vmovss (%rax,%r8,4),%xmm6
DB 196,227,73,33,52,152,16 ; vinsertps $0x10,(%rax,%rbx,4),%xmm6,%xmm6
- DB 196,161,122,16,60,144 ; vmovss (%rax,%r10,4),%xmm7
+ DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
DB 196,227,73,33,247,32 ; vinsertps $0x20,%xmm7,%xmm6,%xmm6
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,60,152 ; vmovss (%rax,%r11,4),%xmm7
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,60,144 ; vmovss (%rax,%r10,4),%xmm7
DB 196,227,73,33,247,48 ; vinsertps $0x30,%xmm7,%xmm6,%xmm6
DB 196,99,77,24,196,1 ; vinsertf128 $0x1,%xmm4,%ymm6,%ymm8
DB 196,193,97,254,217 ; vpaddd %xmm9,%xmm3,%xmm3
- DB 196,195,249,22,217,1 ; vpextrq $0x1,%xmm3,%r9
- DB 196,193,249,126,218 ; vmovq %xmm3,%r10
+ DB 196,195,249,22,216,1 ; vpextrq $0x1,%xmm3,%r8
+ DB 196,193,249,126,217 ; vmovq %xmm3,%r9
DB 196,193,121,254,193 ; vpaddd %xmm9,%xmm0,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,36,144 ; vmovss (%rax,%r10,4),%xmm4
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
@@ -16302,77 +16327,77 @@ _sk_clut_4D_avx LABEL PROC
DB 197,121,111,92,36,16 ; vmovdqa 0x10(%rsp),%xmm11
DB 197,161,254,194 ; vpaddd %xmm2,%xmm11,%xmm0
DB 196,194,121,64,199 ; vpmulld %xmm15,%xmm0,%xmm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,163,105,33,20,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm2,%xmm2
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
DB 197,241,254,76,36,32 ; vpaddd 0x20(%rsp),%xmm1,%xmm1
DB 196,194,113,64,223 ; vpmulld %xmm15,%xmm1,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
- DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
DB 196,227,109,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm2,%ymm1
DB 196,193,97,254,210 ; vpaddd %xmm10,%xmm3,%xmm2
- DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 196,195,249,22,208,1 ; vpextrq $0x1,%xmm2,%r8
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 196,193,121,254,210 ; vpaddd %xmm10,%xmm0,%xmm2
- DB 196,193,249,126,211 ; vmovq %xmm2,%r11
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,161,122,16,36,184 ; vmovss (%rax,%r15,4),%xmm4
- DB 196,227,105,33,212,32 ; vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,20,152 ; vmovss (%rax,%r11,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
+ DB 196,227,105,33,212,32 ; vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
DB 196,227,105,33,212,48 ; vinsertps $0x30,%xmm4,%xmm2,%xmm2
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
- DB 196,163,89,33,36,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- DB 196,161,122,16,52,144 ; vmovss (%rax,%r10,4),%xmm6
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
+ DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
DB 196,227,89,33,230,48 ; vinsertps $0x30,%xmm6,%xmm4,%xmm4
DB 196,227,93,24,210,1 ; vinsertf128 $0x1,%xmm2,%ymm4,%ymm2
DB 196,193,97,254,217 ; vpaddd %xmm9,%xmm3,%xmm3
- DB 196,195,249,22,217,1 ; vpextrq $0x1,%xmm3,%r9
- DB 196,193,249,126,218 ; vmovq %xmm3,%r10
+ DB 196,195,249,22,216,1 ; vpextrq $0x1,%xmm3,%r8
+ DB 196,193,249,126,217 ; vmovq %xmm3,%r9
DB 196,193,121,254,193 ; vpaddd %xmm9,%xmm0,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,36,144 ; vmovss (%rax,%r10,4),%xmm4
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
@@ -16394,15 +16419,15 @@ _sk_clut_4D_avx LABEL PROC
DB 197,249,254,148,36,128,0,0,0 ; vpaddd 0x80(%rsp),%xmm0,%xmm2
DB 197,233,254,197 ; vpaddd %xmm5,%xmm2,%xmm0
DB 196,194,121,64,199 ; vpmulld %xmm15,%xmm0,%xmm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,12,136 ; vmovss (%rax,%r9,4),%xmm1
- DB 196,163,113,33,12,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm1,%xmm1
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,12,128 ; vmovss (%rax,%r8,4),%xmm1
+ DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,113,33,227,48 ; vinsertps $0x30,%xmm3,%xmm1,%xmm4
DB 197,137,254,76,36,112 ; vpaddd 0x70(%rsp),%xmm14,%xmm1
@@ -16410,63 +16435,63 @@ _sk_clut_4D_avx LABEL PROC
DB 196,193,113,254,216 ; vpaddd %xmm8,%xmm1,%xmm3
DB 196,194,97,64,223 ; vpmulld %xmm15,%xmm3,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
- DB 196,163,73,33,52,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm6,%xmm6
- DB 196,163,73,33,52,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm6,%xmm6
- DB 196,163,73,33,52,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm6,%xmm6
+ DB 196,163,73,33,52,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm6,%xmm6
+ DB 196,163,73,33,52,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm6,%xmm6
+ DB 196,163,73,33,52,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm6,%xmm6
DB 196,99,93,24,246,1 ; vinsertf128 $0x1,%xmm6,%ymm4,%ymm14
DB 196,193,97,254,226 ; vpaddd %xmm10,%xmm3,%xmm4
- DB 196,195,249,22,225,1 ; vpextrq $0x1,%xmm4,%r9
- DB 196,193,249,126,226 ; vmovq %xmm4,%r10
+ DB 196,195,249,22,224,1 ; vpextrq $0x1,%xmm4,%r8
+ DB 196,193,249,126,225 ; vmovq %xmm4,%r9
DB 196,193,121,254,226 ; vpaddd %xmm10,%xmm0,%xmm4
- DB 196,193,249,126,227 ; vmovq %xmm4,%r11
+ DB 196,193,249,126,226 ; vmovq %xmm4,%r10
DB 196,227,249,22,227,1 ; vpextrq $0x1,%xmm4,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
- DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- DB 196,161,122,16,52,184 ; vmovss (%rax,%r15,4),%xmm6
- DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,36,152 ; vmovss (%rax,%r11,4),%xmm4
+ DB 196,163,89,33,36,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ DB 196,161,122,16,52,176 ; vmovss (%rax,%r14,4),%xmm6
+ DB 196,227,89,33,230,32 ; vinsertps $0x20,%xmm6,%xmm4,%xmm4
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,52,128 ; vmovss (%rax,%r8,4),%xmm6
DB 196,227,89,33,230,48 ; vinsertps $0x30,%xmm6,%xmm4,%xmm4
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
- DB 196,163,73,33,52,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm6,%xmm6
- DB 196,161,122,16,60,144 ; vmovss (%rax,%r10,4),%xmm7
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,52,128 ; vmovss (%rax,%r8,4),%xmm6
+ DB 196,163,73,33,52,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm6,%xmm6
+ DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
DB 196,227,73,33,247,32 ; vinsertps $0x20,%xmm7,%xmm6,%xmm6
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,73,33,247,48 ; vinsertps $0x30,%xmm7,%xmm6,%xmm6
DB 196,227,77,24,244,1 ; vinsertf128 $0x1,%xmm4,%ymm6,%ymm6
DB 196,193,97,254,217 ; vpaddd %xmm9,%xmm3,%xmm3
- DB 196,195,249,22,217,1 ; vpextrq $0x1,%xmm3,%r9
- DB 196,193,249,126,218 ; vmovq %xmm3,%r10
+ DB 196,195,249,22,216,1 ; vpextrq $0x1,%xmm3,%r8
+ DB 196,193,249,126,217 ; vmovq %xmm3,%r9
DB 196,193,121,254,193 ; vpaddd %xmm9,%xmm0,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,36,144 ; vmovss (%rax,%r10,4),%xmm4
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
@@ -16474,78 +16499,78 @@ _sk_clut_4D_avx LABEL PROC
DB 196,99,101,24,232,1 ; vinsertf128 $0x1,%xmm0,%ymm3,%ymm13
DB 197,161,254,194 ; vpaddd %xmm2,%xmm11,%xmm0
DB 196,194,121,64,199 ; vpmulld %xmm15,%xmm0,%xmm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,163,105,33,20,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm2,%xmm2
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
DB 197,249,111,108,36,32 ; vmovdqa 0x20(%rsp),%xmm5
DB 197,209,254,201 ; vpaddd %xmm1,%xmm5,%xmm1
DB 196,194,113,64,223 ; vpmulld %xmm15,%xmm1,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
- DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
DB 196,227,109,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm2,%ymm1
DB 196,193,97,254,210 ; vpaddd %xmm10,%xmm3,%xmm2
- DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 196,195,249,22,208,1 ; vpextrq $0x1,%xmm2,%r8
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 196,193,121,254,210 ; vpaddd %xmm10,%xmm0,%xmm2
- DB 196,193,249,126,211 ; vmovq %xmm2,%r11
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,161,122,16,36,184 ; vmovss (%rax,%r15,4),%xmm4
- DB 196,227,105,33,212,32 ; vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,20,152 ; vmovss (%rax,%r11,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
+ DB 196,227,105,33,212,32 ; vinsertps $0x20,%xmm4,%xmm2,%xmm2
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
DB 196,227,105,33,212,48 ; vinsertps $0x30,%xmm4,%xmm2,%xmm2
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
- DB 196,163,89,33,36,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm4,%xmm4
- DB 196,161,122,16,60,144 ; vmovss (%rax,%r10,4),%xmm7
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,36,128 ; vmovss (%rax,%r8,4),%xmm4
+ DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
+ DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
DB 196,227,89,33,231,32 ; vinsertps $0x20,%xmm7,%xmm4,%xmm4
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,89,33,231,48 ; vinsertps $0x30,%xmm7,%xmm4,%xmm4
DB 196,227,93,24,210,1 ; vinsertf128 $0x1,%xmm2,%ymm4,%ymm2
DB 196,193,97,254,217 ; vpaddd %xmm9,%xmm3,%xmm3
- DB 196,195,249,22,217,1 ; vpextrq $0x1,%xmm3,%r9
- DB 196,193,249,126,218 ; vmovq %xmm3,%r10
+ DB 196,195,249,22,216,1 ; vpextrq $0x1,%xmm3,%r8
+ DB 196,193,249,126,217 ; vmovq %xmm3,%r9
DB 196,193,121,254,193 ; vpaddd %xmm9,%xmm0,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,36,144 ; vmovss (%rax,%r10,4),%xmm4
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
@@ -16583,78 +16608,78 @@ _sk_clut_4D_avx LABEL PROC
DB 197,137,254,148,36,128,1,0,0 ; vpaddd 0x180(%rsp),%xmm14,%xmm2
DB 197,233,254,4,36 ; vpaddd (%rsp),%xmm2,%xmm0
DB 196,194,121,64,247 ; vpmulld %xmm15,%xmm0,%xmm6
- DB 196,193,249,126,242 ; vmovq %xmm6,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,241 ; vmovq %xmm6,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,243,1 ; vpextrq $0x1,%xmm6,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
DB 196,227,121,33,193,48 ; vinsertps $0x30,%xmm1,%xmm0,%xmm0
DB 197,145,254,140,36,144,0,0,0 ; vpaddd 0x90(%rsp),%xmm13,%xmm1
DB 196,193,113,254,216 ; vpaddd %xmm8,%xmm1,%xmm3
DB 196,194,97,64,223 ; vpmulld %xmm15,%xmm3,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
- DB 196,163,89,33,36,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
- DB 196,163,89,33,36,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm4,%xmm4
- DB 196,163,89,33,36,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm4,%xmm4
+ DB 196,163,89,33,36,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm4,%xmm4
DB 196,99,125,24,228,1 ; vinsertf128 $0x1,%xmm4,%ymm0,%ymm12
DB 196,193,97,254,226 ; vpaddd %xmm10,%xmm3,%xmm4
- DB 196,195,249,22,225,1 ; vpextrq $0x1,%xmm4,%r9
- DB 196,193,249,126,226 ; vmovq %xmm4,%r10
+ DB 196,195,249,22,224,1 ; vpextrq $0x1,%xmm4,%r8
+ DB 196,193,249,126,225 ; vmovq %xmm4,%r9
DB 196,193,73,254,226 ; vpaddd %xmm10,%xmm6,%xmm4
- DB 196,193,249,126,227 ; vmovq %xmm4,%r11
+ DB 196,193,249,126,226 ; vmovq %xmm4,%r10
DB 196,227,249,22,227,1 ; vpextrq $0x1,%xmm4,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
- DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- DB 196,161,122,16,60,184 ; vmovss (%rax,%r15,4),%xmm7
- DB 196,227,89,33,231,32 ; vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,36,152 ; vmovss (%rax,%r11,4),%xmm4
+ DB 196,163,89,33,36,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ DB 196,161,122,16,60,176 ; vmovss (%rax,%r14,4),%xmm7
+ DB 196,227,89,33,231,32 ; vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,227,89,33,231,48 ; vinsertps $0x30,%xmm7,%xmm4,%xmm4
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
- DB 196,163,65,33,60,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm7,%xmm7
- DB 196,161,122,16,4,144 ; vmovss (%rax,%r10,4),%xmm0
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
+ DB 196,163,65,33,60,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
DB 196,227,65,33,192,32 ; vinsertps $0x20,%xmm0,%xmm7,%xmm0
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,121,33,199,48 ; vinsertps $0x30,%xmm7,%xmm0,%xmm0
DB 196,227,125,24,228,1 ; vinsertf128 $0x1,%xmm4,%ymm0,%ymm4
DB 196,193,97,254,193 ; vpaddd %xmm9,%xmm3,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,73,254,193 ; vpaddd %xmm9,%xmm6,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,121,33,195,32 ; vinsertps $0x20,%xmm3,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,52,144 ; vmovss (%rax,%r10,4),%xmm6
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
DB 196,227,97,33,222,32 ; vinsertps $0x20,%xmm6,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
@@ -16662,77 +16687,77 @@ _sk_clut_4D_avx LABEL PROC
DB 196,99,101,24,216,1 ; vinsertf128 $0x1,%xmm0,%ymm3,%ymm11
DB 197,233,254,68,36,16 ; vpaddd 0x10(%rsp),%xmm2,%xmm0
DB 196,194,121,64,215 ; vpmulld %xmm15,%xmm0,%xmm2
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,136 ; vmovss (%rax,%r9,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,163,121,33,4,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm0,%xmm0
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,4,128 ; vmovss (%rax,%r8,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,163,121,33,4,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm0,%xmm0
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,121,33,195,48 ; vinsertps $0x30,%xmm3,%xmm0,%xmm0
DB 197,209,254,201 ; vpaddd %xmm1,%xmm5,%xmm1
DB 196,194,113,64,223 ; vpmulld %xmm15,%xmm1,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
- DB 196,163,113,33,12,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm1,%xmm1
- DB 196,163,113,33,12,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm1,%xmm1
- DB 196,163,113,33,12,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm1,%xmm1
+ DB 196,163,113,33,12,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm1,%xmm1
DB 196,227,125,24,201,1 ; vinsertf128 $0x1,%xmm1,%ymm0,%ymm1
DB 196,193,97,254,194 ; vpaddd %xmm10,%xmm3,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,105,254,194 ; vpaddd %xmm10,%xmm2,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,52,184 ; vmovss (%rax,%r15,4),%xmm6
- DB 196,227,121,33,198,32 ; vinsertps $0x20,%xmm6,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,52,176 ; vmovss (%rax,%r14,4),%xmm6
+ DB 196,227,121,33,198,32 ; vinsertps $0x20,%xmm6,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,52,128 ; vmovss (%rax,%r8,4),%xmm6
DB 196,227,121,33,198,48 ; vinsertps $0x30,%xmm6,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
- DB 196,163,73,33,52,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm6,%xmm6
- DB 196,161,122,16,60,144 ; vmovss (%rax,%r10,4),%xmm7
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,52,128 ; vmovss (%rax,%r8,4),%xmm6
+ DB 196,163,73,33,52,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm6,%xmm6
+ DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
DB 196,227,73,33,247,32 ; vinsertps $0x20,%xmm7,%xmm6,%xmm6
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,73,33,247,48 ; vinsertps $0x30,%xmm7,%xmm6,%xmm6
DB 196,227,77,24,240,1 ; vinsertf128 $0x1,%xmm0,%ymm6,%ymm6
DB 196,193,97,254,193 ; vpaddd %xmm9,%xmm3,%xmm0
- DB 196,195,249,22,193,1 ; vpextrq $0x1,%xmm0,%r9
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,195,249,22,192,1 ; vpextrq $0x1,%xmm0,%r8
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
DB 196,193,105,254,193 ; vpaddd %xmm9,%xmm2,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
- DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
+ DB 196,227,121,33,194,32 ; vinsertps $0x20,%xmm2,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
DB 196,227,121,33,194,48 ; vinsertps $0x30,%xmm2,%xmm0,%xmm0
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm2,%xmm2
- DB 196,161,122,16,28,144 ; vmovss (%rax,%r10,4),%xmm3
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
@@ -16754,77 +16779,77 @@ _sk_clut_4D_avx LABEL PROC
DB 197,137,254,132,36,128,0,0,0 ; vpaddd 0x80(%rsp),%xmm14,%xmm0
DB 197,249,254,28,36 ; vpaddd (%rsp),%xmm0,%xmm3
DB 196,66,97,64,247 ; vpmulld %xmm15,%xmm3,%xmm14
- DB 196,65,249,126,242 ; vmovq %xmm14,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,65,249,126,241 ; vmovq %xmm14,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,99,249,22,243,1 ; vpextrq $0x1,%xmm14,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
- DB 196,163,97,33,28,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm3,%xmm3
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
DB 196,227,97,33,228,48 ; vinsertps $0x30,%xmm4,%xmm3,%xmm4
DB 196,193,113,254,216 ; vpaddd %xmm8,%xmm1,%xmm3
DB 196,194,97,64,223 ; vpmulld %xmm15,%xmm3,%xmm3
DB 197,249,126,219 ; vmovd %xmm3,%ebx
- DB 196,195,121,22,217,1 ; vpextrd $0x1,%xmm3,%r9d
- DB 196,195,121,22,218,2 ; vpextrd $0x2,%xmm3,%r10d
- DB 196,195,121,22,219,3 ; vpextrd $0x3,%xmm3,%r11d
+ DB 196,195,121,22,216,1 ; vpextrd $0x1,%xmm3,%r8d
+ DB 196,195,121,22,217,2 ; vpextrd $0x2,%xmm3,%r9d
+ DB 196,195,121,22,218,3 ; vpextrd $0x3,%xmm3,%r10d
DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
- DB 196,163,73,33,52,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm6,%xmm6
- DB 196,163,73,33,52,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm6,%xmm6
- DB 196,163,73,33,52,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm6,%xmm6
+ DB 196,163,73,33,52,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm6,%xmm6
+ DB 196,163,73,33,52,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm6,%xmm6
+ DB 196,163,73,33,52,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm6,%xmm6
DB 196,99,93,24,198,1 ; vinsertf128 $0x1,%xmm6,%ymm4,%ymm8
DB 196,193,97,254,226 ; vpaddd %xmm10,%xmm3,%xmm4
- DB 196,195,249,22,225,1 ; vpextrq $0x1,%xmm4,%r9
- DB 196,193,249,126,226 ; vmovq %xmm4,%r10
+ DB 196,195,249,22,224,1 ; vpextrq $0x1,%xmm4,%r8
+ DB 196,193,249,126,225 ; vmovq %xmm4,%r9
DB 196,193,9,254,226 ; vpaddd %xmm10,%xmm14,%xmm4
- DB 196,193,249,126,227 ; vmovq %xmm4,%r11
+ DB 196,193,249,126,226 ; vmovq %xmm4,%r10
DB 196,227,249,22,227,1 ; vpextrq $0x1,%xmm4,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,36,176 ; vmovss (%rax,%r14,4),%xmm4
- DB 196,163,89,33,36,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm4,%xmm4
- DB 196,161,122,16,60,184 ; vmovss (%rax,%r15,4),%xmm7
- DB 196,227,89,33,231,32 ; vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,36,152 ; vmovss (%rax,%r11,4),%xmm4
+ DB 196,163,89,33,36,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm4,%xmm4
+ DB 196,161,122,16,60,176 ; vmovss (%rax,%r14,4),%xmm7
+ DB 196,227,89,33,231,32 ; vinsertps $0x20,%xmm7,%xmm4,%xmm4
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
DB 196,227,89,33,231,48 ; vinsertps $0x30,%xmm7,%xmm4,%xmm4
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,60,136 ; vmovss (%rax,%r9,4),%xmm7
- DB 196,163,65,33,60,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm7,%xmm7
- DB 196,161,122,16,20,144 ; vmovss (%rax,%r10,4),%xmm2
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,60,128 ; vmovss (%rax,%r8,4),%xmm7
+ DB 196,163,65,33,60,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm7,%xmm7
+ DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
DB 196,227,65,33,210,32 ; vinsertps $0x20,%xmm2,%xmm7,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,60,152 ; vmovss (%rax,%rbx,4),%xmm7
DB 196,227,105,33,215,48 ; vinsertps $0x30,%xmm7,%xmm2,%xmm2
DB 196,227,109,24,252,1 ; vinsertf128 $0x1,%xmm4,%ymm2,%ymm7
DB 196,193,97,254,209 ; vpaddd %xmm9,%xmm3,%xmm2
- DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 196,195,249,22,208,1 ; vpextrq $0x1,%xmm2,%r8
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 196,193,9,254,209 ; vpaddd %xmm9,%xmm14,%xmm2
- DB 196,193,249,126,211 ; vmovq %xmm2,%r11
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,20,152 ; vmovss (%rax,%r11,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,36,144 ; vmovss (%rax,%r10,4),%xmm4
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,36,136 ; vmovss (%rax,%r9,4),%xmm4
DB 196,227,97,33,220,32 ; vinsertps $0x20,%xmm4,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,36,152 ; vmovss (%rax,%rbx,4),%xmm4
@@ -16834,78 +16859,78 @@ _sk_clut_4D_avx LABEL PROC
DB 197,241,254,76,36,32 ; vpaddd 0x20(%rsp),%xmm1,%xmm1
DB 196,194,113,64,207 ; vpmulld %xmm15,%xmm1,%xmm1
DB 196,194,121,64,199 ; vpmulld %xmm15,%xmm0,%xmm0
- DB 196,193,249,126,194 ; vmovq %xmm0,%r10
- DB 69,137,209 ; mov %r10d,%r9d
+ DB 196,193,249,126,193 ; vmovq %xmm0,%r9
+ DB 69,137,200 ; mov %r9d,%r8d
DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,163,105,33,20,152,32 ; vinsertps $0x20,(%rax,%r11,4),%xmm2,%xmm2
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 196,161,122,16,20,128 ; vmovss (%rax,%r8,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,163,105,33,20,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm2,%xmm2
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
DB 197,249,126,203 ; vmovd %xmm1,%ebx
- DB 196,195,121,22,201,1 ; vpextrd $0x1,%xmm1,%r9d
- DB 196,195,121,22,202,2 ; vpextrd $0x2,%xmm1,%r10d
- DB 196,195,121,22,203,3 ; vpextrd $0x3,%xmm1,%r11d
+ DB 196,195,121,22,200,1 ; vpextrd $0x1,%xmm1,%r8d
+ DB 196,195,121,22,201,2 ; vpextrd $0x2,%xmm1,%r9d
+ DB 196,195,121,22,202,3 ; vpextrd $0x3,%xmm1,%r10d
DB 197,250,16,28,152 ; vmovss (%rax,%rbx,4),%xmm3
- DB 196,163,97,33,28,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm3,%xmm3
- DB 196,163,97,33,28,144,32 ; vinsertps $0x20,(%rax,%r10,4),%xmm3,%xmm3
- DB 196,163,97,33,28,152,48 ; vinsertps $0x30,(%rax,%r11,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,128,16 ; vinsertps $0x10,(%rax,%r8,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,136,32 ; vinsertps $0x20,(%rax,%r9,4),%xmm3,%xmm3
+ DB 196,163,97,33,28,144,48 ; vinsertps $0x30,(%rax,%r10,4),%xmm3,%xmm3
DB 196,227,109,24,227,1 ; vinsertf128 $0x1,%xmm3,%ymm2,%ymm4
DB 196,193,113,254,210 ; vpaddd %xmm10,%xmm1,%xmm2
- DB 196,195,249,22,209,1 ; vpextrq $0x1,%xmm2,%r9
- DB 196,193,249,126,210 ; vmovq %xmm2,%r10
+ DB 196,195,249,22,208,1 ; vpextrq $0x1,%xmm2,%r8
+ DB 196,193,249,126,209 ; vmovq %xmm2,%r9
DB 196,193,121,254,210 ; vpaddd %xmm10,%xmm0,%xmm2
- DB 196,193,249,126,211 ; vmovq %xmm2,%r11
+ DB 196,193,249,126,210 ; vmovq %xmm2,%r10
DB 196,227,249,22,211,1 ; vpextrq $0x1,%xmm2,%rbx
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 69,137,207 ; mov %r9d,%r15d
- DB 196,161,122,16,20,176 ; vmovss (%rax,%r14,4),%xmm2
- DB 196,163,105,33,20,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm2,%xmm2
- DB 196,161,122,16,28,184 ; vmovss (%rax,%r15,4),%xmm3
- DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,20,152 ; vmovss (%rax,%r11,4),%xmm2
+ DB 196,163,105,33,20,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm2,%xmm2
+ DB 196,161,122,16,28,176 ; vmovss (%rax,%r14,4),%xmm3
+ DB 196,227,105,33,211,32 ; vinsertps $0x20,%xmm3,%xmm2,%xmm2
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
DB 196,227,105,33,211,48 ; vinsertps $0x30,%xmm3,%xmm2,%xmm2
- DB 69,137,217 ; mov %r11d,%r9d
- DB 65,137,218 ; mov %ebx,%r10d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 196,161,122,16,28,136 ; vmovss (%rax,%r9,4),%xmm3
- DB 196,163,97,33,28,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm3,%xmm3
- DB 196,161,122,16,52,144 ; vmovss (%rax,%r10,4),%xmm6
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,28,128 ; vmovss (%rax,%r8,4),%xmm3
+ DB 196,163,97,33,28,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm3,%xmm3
+ DB 196,161,122,16,52,136 ; vmovss (%rax,%r9,4),%xmm6
DB 196,227,97,33,222,32 ; vinsertps $0x20,%xmm6,%xmm3,%xmm3
DB 72,193,235,32 ; shr $0x20,%rbx
DB 197,250,16,52,152 ; vmovss (%rax,%rbx,4),%xmm6
DB 196,227,97,33,222,48 ; vinsertps $0x30,%xmm6,%xmm3,%xmm3
DB 196,227,101,24,218,1 ; vinsertf128 $0x1,%xmm2,%ymm3,%ymm3
DB 196,193,113,254,201 ; vpaddd %xmm9,%xmm1,%xmm1
- DB 196,195,249,22,201,1 ; vpextrq $0x1,%xmm1,%r9
- DB 196,193,249,126,202 ; vmovq %xmm1,%r10
+ DB 196,195,249,22,200,1 ; vpextrq $0x1,%xmm1,%r8
+ DB 196,193,249,126,201 ; vmovq %xmm1,%r9
DB 196,193,121,254,193 ; vpaddd %xmm9,%xmm0,%xmm0
- DB 196,193,249,126,195 ; vmovq %xmm0,%r11
- DB 196,195,249,22,199,1 ; vpextrq $0x1,%xmm0,%r15
- DB 69,137,214 ; mov %r10d,%r14d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 196,161,122,16,4,176 ; vmovss (%rax,%r14,4),%xmm0
- DB 196,163,121,33,4,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm0,%xmm0
- DB 68,137,203 ; mov %r9d,%ebx
- DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
- DB 196,227,121,33,193,32 ; vinsertps $0x20,%xmm1,%xmm0,%xmm0
+ DB 196,193,249,126,194 ; vmovq %xmm0,%r10
+ DB 196,227,249,22,195,1 ; vpextrq $0x1,%xmm0,%rbx
+ DB 69,137,203 ; mov %r9d,%r11d
DB 73,193,233,32 ; shr $0x20,%r9
- DB 196,161,122,16,12,136 ; vmovss (%rax,%r9,4),%xmm1
+ DB 69,137,198 ; mov %r8d,%r14d
+ DB 196,161,122,16,4,152 ; vmovss (%rax,%r11,4),%xmm0
+ DB 196,163,121,33,4,136,16 ; vinsertps $0x10,(%rax,%r9,4),%xmm0,%xmm0
+ DB 196,161,122,16,12,176 ; vmovss (%rax,%r14,4),%xmm1
+ DB 196,227,121,33,193,32 ; vinsertps $0x20,%xmm1,%xmm0,%xmm0
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 196,161,122,16,12,128 ; vmovss (%rax,%r8,4),%xmm1
DB 196,227,121,33,193,48 ; vinsertps $0x30,%xmm1,%xmm0,%xmm0
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 197,250,16,12,152 ; vmovss (%rax,%rbx,4),%xmm1
- DB 196,163,113,33,12,152,16 ; vinsertps $0x10,(%rax,%r11,4),%xmm1,%xmm1
- DB 68,137,251 ; mov %r15d,%ebx
- DB 197,250,16,20,152 ; vmovss (%rax,%rbx,4),%xmm2
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 65,137,217 ; mov %ebx,%r9d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 196,161,122,16,12,128 ; vmovss (%rax,%r8,4),%xmm1
+ DB 196,163,113,33,12,144,16 ; vinsertps $0x10,(%rax,%r10,4),%xmm1,%xmm1
+ DB 196,161,122,16,20,136 ; vmovss (%rax,%r9,4),%xmm2
DB 196,227,113,33,202,32 ; vinsertps $0x20,%xmm2,%xmm1,%xmm1
- DB 73,193,239,32 ; shr $0x20,%r15
- DB 196,161,122,16,20,184 ; vmovss (%rax,%r15,4),%xmm2
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 197,250,16,20,152 ; vmovss (%rax,%rbx,4),%xmm2
DB 196,227,113,33,202,48 ; vinsertps $0x30,%xmm2,%xmm1,%xmm1
DB 196,227,117,24,192,1 ; vinsertf128 $0x1,%xmm0,%ymm1,%ymm0
DB 196,193,92,92,200 ; vsubps %ymm8,%ymm4,%ymm1
@@ -16957,15 +16982,14 @@ _sk_clut_4D_avx LABEL PROC
DB 197,220,89,210 ; vmulps %ymm2,%ymm4,%ymm2
DB 197,212,88,210 ; vaddps %ymm2,%ymm5,%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,29,168,151,1,0 ; vbroadcastss 0x197a8(%rip),%ymm3 # 2c0bc <_sk_overlay_sse2_8bit+0x46f>
+ DB 196,226,125,24,29,219,151,1,0 ; vbroadcastss 0x197db(%rip),%ymm3 # 2c0e4 <_sk_overlay_sse2_8bit+0x46f>
DB 197,252,16,164,36,160,2,0,0 ; vmovups 0x2a0(%rsp),%ymm4
DB 197,252,16,172,36,192,2,0,0 ; vmovups 0x2c0(%rsp),%ymm5
DB 197,252,16,180,36,224,2,0,0 ; vmovups 0x2e0(%rsp),%ymm6
DB 197,252,16,188,36,0,3,0,0 ; vmovups 0x300(%rsp),%ymm7
- DB 72,129,196,32,3,0,0 ; add $0x320,%rsp
+ DB 72,129,196,40,3,0,0 ; add $0x328,%rsp
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_start_pipeline_sse41
@@ -16999,16 +17023,15 @@ _sk_start_pipeline_sse41 LABEL PROC
DB 73,137,246 ; mov %rsi,%r14
DB 76,137,141,8,255,255,255 ; mov %r9,-0xf8(%rbp)
DB 76,57,203 ; cmp %r9,%rbx
- DB 115,110 ; jae 12a31 <_sk_start_pipeline_sse41+0xeb>
+ DB 115,101 ; jae 12a1b <_sk_start_pipeline_sse41+0xe2>
DB 72,139,133,24,255,255,255 ; mov -0xe8(%rbp),%rax
DB 72,141,64,4 ; lea 0x4(%rax),%rax
DB 72,137,133,16,255,255,255 ; mov %rax,-0xf0(%rbp)
DB 76,57,189,16,255,255,255 ; cmp %r15,-0xf0(%rbp)
DB 72,139,149,24,255,255,255 ; mov -0xe8(%rbp),%rdx
- DB 119,43 ; ja 12a10 <_sk_start_pipeline_sse41+0xca>
+ DB 119,38 ; ja 129fe <_sk_start_pipeline_sse41+0xc5>
DB 76,139,165,24,255,255,255 ; mov -0xe8(%rbp),%r12
- DB 69,49,192 ; xor %r8d,%r8d
- DB 72,139,125,56 ; mov 0x38(%rbp),%rdi
+ DB 49,255 ; xor %edi,%edi
DB 76,137,246 ; mov %r14,%rsi
DB 76,137,226 ; mov %r12,%rdx
DB 72,137,217 ; mov %rbx,%rcx
@@ -17017,17 +17040,16 @@ _sk_start_pipeline_sse41 LABEL PROC
DB 73,131,196,8 ; add $0x8,%r12
DB 77,57,252 ; cmp %r15,%r12
DB 73,137,212 ; mov %rdx,%r12
- DB 118,220 ; jbe 129ec <_sk_start_pipeline_sse41+0xa6>
- DB 77,137,248 ; mov %r15,%r8
- DB 73,41,208 ; sub %rdx,%r8
- DB 116,13 ; je 12a25 <_sk_start_pipeline_sse41+0xdf>
- DB 72,139,125,56 ; mov 0x38(%rbp),%rdi
+ DB 118,225 ; jbe 129df <_sk_start_pipeline_sse41+0xa6>
+ DB 76,137,255 ; mov %r15,%rdi
+ DB 72,41,215 ; sub %rdx,%rdi
+ DB 116,9 ; je 12a0f <_sk_start_pipeline_sse41+0xd6>
DB 76,137,246 ; mov %r14,%rsi
DB 72,137,217 ; mov %rbx,%rcx
DB 65,255,213 ; callq *%r13
DB 72,255,195 ; inc %rbx
DB 72,59,157,8,255,255,255 ; cmp -0xf8(%rbp),%rbx
- DB 117,164 ; jne 129d5 <_sk_start_pipeline_sse41+0x8f>
+ DB 117,173 ; jne 129c8 <_sk_start_pipeline_sse41+0x8f>
DB 15,40,181,32,255,255,255 ; movaps -0xe0(%rbp),%xmm6
DB 15,40,189,48,255,255,255 ; movaps -0xd0(%rbp),%xmm7
DB 68,15,40,133,64,255,255,255 ; movaps -0xc0(%rbp),%xmm8
@@ -17057,17 +17079,16 @@ PUBLIC _sk_seed_shader_sse41
_sk_seed_shader_sse41 LABEL PROC
DB 102,15,110,194 ; movd %edx,%xmm0
DB 102,15,112,192,0 ; pshufd $0x0,%xmm0,%xmm0
- DB 15,91,200 ; cvtdq2ps %xmm0,%xmm1
- DB 15,40,21,229,159,1,0 ; movaps 0x19fe5(%rip),%xmm2 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
- DB 15,88,202 ; addps %xmm2,%xmm1
- DB 15,16,7 ; movups (%rdi),%xmm0
- DB 15,88,193 ; addps %xmm1,%xmm0
+ DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
+ DB 15,40,21,155,160,1,0 ; movaps 0x1a09b(%rip),%xmm2 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
+ DB 15,88,194 ; addps %xmm2,%xmm0
+ DB 15,88,5,161,160,1,0 ; addps 0x1a0a1(%rip),%xmm0 # 2cb30 <_sk_overlay_sse2_8bit+0xebb>
DB 102,15,110,201 ; movd %ecx,%xmm1
DB 102,15,112,201,0 ; pshufd $0x0,%xmm1,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
DB 15,88,202 ; addps %xmm2,%xmm1
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,21,212,159,1,0 ; movaps 0x19fd4(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,21,153,160,1,0 ; movaps 0x1a099(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,87,219 ; xorps %xmm3,%xmm3
DB 15,87,228 ; xorps %xmm4,%xmm4
DB 15,87,237 ; xorps %xmm5,%xmm5
@@ -17079,20 +17100,19 @@ PUBLIC _sk_dither_sse41
_sk_dither_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 102,68,15,110,194 ; movd %edx,%xmm8
- DB 102,69,15,112,192,0 ; pshufd $0x0,%xmm8,%xmm8
- DB 243,68,15,111,79,32 ; movdqu 0x20(%rdi),%xmm9
- DB 102,69,15,254,200 ; paddd %xmm8,%xmm9
+ DB 102,69,15,112,200,0 ; pshufd $0x0,%xmm8,%xmm9
+ DB 102,68,15,254,13,50,160,1,0 ; paddd 0x1a032(%rip),%xmm9 # 2cb00 <_sk_overlay_sse2_8bit+0xe8b>
DB 102,68,15,110,193 ; movd %ecx,%xmm8
DB 102,69,15,112,192,0 ; pshufd $0x0,%xmm8,%xmm8
DB 102,69,15,239,193 ; pxor %xmm9,%xmm8
- DB 102,68,15,111,21,162,159,1,0 ; movdqa 0x19fa2(%rip),%xmm10 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,68,15,111,21,105,160,1,0 ; movdqa 0x1a069(%rip),%xmm10 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,69,15,111,216 ; movdqa %xmm8,%xmm11
DB 102,69,15,219,218 ; pand %xmm10,%xmm11
DB 102,65,15,114,243,5 ; pslld $0x5,%xmm11
DB 102,69,15,219,209 ; pand %xmm9,%xmm10
DB 102,65,15,114,242,4 ; pslld $0x4,%xmm10
- DB 102,68,15,111,37,142,159,1,0 ; movdqa 0x19f8e(%rip),%xmm12 # 2cab0 <_sk_overlay_sse2_8bit+0xe63>
- DB 102,68,15,111,45,149,159,1,0 ; movdqa 0x19f95(%rip),%xmm13 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,68,15,111,37,85,160,1,0 ; movdqa 0x1a055(%rip),%xmm12 # 2cb60 <_sk_overlay_sse2_8bit+0xeeb>
+ DB 102,68,15,111,45,92,160,1,0 ; movdqa 0x1a05c(%rip),%xmm13 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,69,15,111,240 ; movdqa %xmm8,%xmm14
DB 102,69,15,219,245 ; pand %xmm13,%xmm14
DB 102,65,15,114,246,2 ; pslld $0x2,%xmm14
@@ -17108,8 +17128,8 @@ _sk_dither_sse41 LABEL PROC
DB 102,69,15,235,245 ; por %xmm13,%xmm14
DB 102,69,15,235,240 ; por %xmm8,%xmm14
DB 69,15,91,198 ; cvtdq2ps %xmm14,%xmm8
- DB 68,15,89,5,80,159,1,0 ; mulps 0x19f50(%rip),%xmm8 # 2cad0 <_sk_overlay_sse2_8bit+0xe83>
- DB 68,15,88,5,88,159,1,0 ; addps 0x19f58(%rip),%xmm8 # 2cae0 <_sk_overlay_sse2_8bit+0xe93>
+ DB 68,15,89,5,23,160,1,0 ; mulps 0x1a017(%rip),%xmm8 # 2cb80 <_sk_overlay_sse2_8bit+0xf0b>
+ DB 68,15,88,5,31,160,1,0 ; addps 0x1a01f(%rip),%xmm8 # 2cb90 <_sk_overlay_sse2_8bit+0xf1b>
DB 243,68,15,16,16 ; movss (%rax),%xmm10
DB 69,15,198,210,0 ; shufps $0x0,%xmm10,%xmm10
DB 69,15,89,208 ; mulps %xmm8,%xmm10
@@ -17147,7 +17167,7 @@ _sk_uniform_color_sse41 LABEL PROC
PUBLIC _sk_black_color_sse41
_sk_black_color_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,142,158,1,0 ; movaps 0x19e8e(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,85,159,1,0 ; movaps 0x19f55(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 15,87,201 ; xorps %xmm1,%xmm1
DB 15,87,210 ; xorps %xmm2,%xmm2
@@ -17156,7 +17176,7 @@ _sk_black_color_sse41 LABEL PROC
PUBLIC _sk_white_color_sse41
_sk_white_color_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,5,122,158,1,0 ; movaps 0x19e7a(%rip),%xmm0 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,5,65,159,1,0 ; movaps 0x19f41(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 15,40,216 ; movaps %xmm0,%xmm3
@@ -17194,7 +17214,7 @@ _sk_clear_sse41 LABEL PROC
PUBLIC _sk_srcatop_sse41
_sk_srcatop_sse41 LABEL PROC
DB 15,89,199 ; mulps %xmm7,%xmm0
- DB 68,15,40,5,42,158,1,0 ; movaps 0x19e2a(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,241,158,1,0 ; movaps 0x19ef1(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,195 ; subps %xmm3,%xmm8
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 68,15,89,204 ; mulps %xmm4,%xmm9
@@ -17217,7 +17237,7 @@ PUBLIC _sk_dstatop_sse41
_sk_dstatop_sse41 LABEL PROC
DB 68,15,40,195 ; movaps %xmm3,%xmm8
DB 68,15,89,196 ; mulps %xmm4,%xmm8
- DB 68,15,40,13,221,157,1,0 ; movaps 0x19ddd(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,164,158,1,0 ; movaps 0x19ea4(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,207 ; subps %xmm7,%xmm9
DB 65,15,89,193 ; mulps %xmm9,%xmm0
DB 65,15,88,192 ; addps %xmm8,%xmm0
@@ -17258,7 +17278,7 @@ _sk_dstin_sse41 LABEL PROC
PUBLIC _sk_srcout_sse41
_sk_srcout_sse41 LABEL PROC
- DB 68,15,40,5,113,157,1,0 ; movaps 0x19d71(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,56,158,1,0 ; movaps 0x19e38(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,199 ; subps %xmm7,%xmm8
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 65,15,89,200 ; mulps %xmm8,%xmm1
@@ -17269,7 +17289,7 @@ _sk_srcout_sse41 LABEL PROC
PUBLIC _sk_dstout_sse41
_sk_dstout_sse41 LABEL PROC
- DB 68,15,40,5,81,157,1,0 ; movaps 0x19d51(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,24,158,1,0 ; movaps 0x19e18(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,195 ; subps %xmm3,%xmm8
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 15,89,196 ; mulps %xmm4,%xmm0
@@ -17284,7 +17304,7 @@ _sk_dstout_sse41 LABEL PROC
PUBLIC _sk_srcover_sse41
_sk_srcover_sse41 LABEL PROC
- DB 68,15,40,5,36,157,1,0 ; movaps 0x19d24(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,235,157,1,0 ; movaps 0x19deb(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,195 ; subps %xmm3,%xmm8
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 68,15,89,204 ; mulps %xmm4,%xmm9
@@ -17302,7 +17322,7 @@ _sk_srcover_sse41 LABEL PROC
PUBLIC _sk_dstover_sse41
_sk_dstover_sse41 LABEL PROC
- DB 68,15,40,5,232,156,1,0 ; movaps 0x19ce8(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,175,157,1,0 ; movaps 0x19daf(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,199 ; subps %xmm7,%xmm8
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 15,88,196 ; addps %xmm4,%xmm0
@@ -17326,7 +17346,7 @@ _sk_modulate_sse41 LABEL PROC
PUBLIC _sk_multiply_sse41
_sk_multiply_sse41 LABEL PROC
- DB 68,15,40,5,172,156,1,0 ; movaps 0x19cac(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,115,157,1,0 ; movaps 0x19d73(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 68,15,92,207 ; subps %xmm7,%xmm9
DB 69,15,40,209 ; movaps %xmm9,%xmm10
@@ -17362,7 +17382,7 @@ _sk_multiply_sse41 LABEL PROC
PUBLIC _sk_plus__sse41
_sk_plus__sse41 LABEL PROC
DB 15,88,196 ; addps %xmm4,%xmm0
- DB 68,15,40,5,45,156,1,0 ; movaps 0x19c2d(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,244,156,1,0 ; movaps 0x19cf4(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 65,15,93,192 ; minps %xmm8,%xmm0
DB 15,88,205 ; addps %xmm5,%xmm1
DB 65,15,93,200 ; minps %xmm8,%xmm1
@@ -17400,7 +17420,7 @@ _sk_screen_sse41 LABEL PROC
PUBLIC _sk_xor__sse41
_sk_xor__sse41 LABEL PROC
DB 68,15,40,195 ; movaps %xmm3,%xmm8
- DB 15,40,29,185,155,1,0 ; movaps 0x19bb9(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,128,156,1,0 ; movaps 0x19c80(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,40,203 ; movaps %xmm3,%xmm9
DB 68,15,92,207 ; subps %xmm7,%xmm9
DB 65,15,89,193 ; mulps %xmm9,%xmm0
@@ -17446,7 +17466,7 @@ _sk_darken_sse41 LABEL PROC
DB 68,15,89,206 ; mulps %xmm6,%xmm9
DB 65,15,95,209 ; maxps %xmm9,%xmm2
DB 68,15,92,194 ; subps %xmm2,%xmm8
- DB 15,40,21,20,155,1,0 ; movaps 0x19b14(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,21,219,155,1,0 ; movaps 0x19bdb(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,211 ; subps %xmm3,%xmm2
DB 15,89,215 ; mulps %xmm7,%xmm2
DB 15,88,218 ; addps %xmm2,%xmm3
@@ -17478,7 +17498,7 @@ _sk_lighten_sse41 LABEL PROC
DB 68,15,89,206 ; mulps %xmm6,%xmm9
DB 65,15,93,209 ; minps %xmm9,%xmm2
DB 68,15,92,194 ; subps %xmm2,%xmm8
- DB 15,40,21,169,154,1,0 ; movaps 0x19aa9(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,21,112,155,1,0 ; movaps 0x19b70(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,211 ; subps %xmm3,%xmm2
DB 15,89,215 ; mulps %xmm7,%xmm2
DB 15,88,218 ; addps %xmm2,%xmm3
@@ -17513,7 +17533,7 @@ _sk_difference_sse41 LABEL PROC
DB 65,15,93,209 ; minps %xmm9,%xmm2
DB 15,88,210 ; addps %xmm2,%xmm2
DB 68,15,92,194 ; subps %xmm2,%xmm8
- DB 15,40,21,51,154,1,0 ; movaps 0x19a33(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,21,250,154,1,0 ; movaps 0x19afa(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,211 ; subps %xmm3,%xmm2
DB 15,89,215 ; mulps %xmm7,%xmm2
DB 15,88,218 ; addps %xmm2,%xmm3
@@ -17539,7 +17559,7 @@ _sk_exclusion_sse41 LABEL PROC
DB 15,89,214 ; mulps %xmm6,%xmm2
DB 15,88,210 ; addps %xmm2,%xmm2
DB 68,15,92,194 ; subps %xmm2,%xmm8
- DB 15,40,21,227,153,1,0 ; movaps 0x199e3(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,21,170,154,1,0 ; movaps 0x19aaa(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,211 ; subps %xmm3,%xmm2
DB 15,89,215 ; mulps %xmm7,%xmm2
DB 15,88,218 ; addps %xmm2,%xmm3
@@ -17549,7 +17569,7 @@ _sk_exclusion_sse41 LABEL PROC
PUBLIC _sk_colorburn_sse41
_sk_colorburn_sse41 LABEL PROC
- DB 68,15,40,29,202,153,1,0 ; movaps 0x199ca(%rip),%xmm11 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,29,145,154,1,0 ; movaps 0x19a91(%rip),%xmm11 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,227 ; movaps %xmm11,%xmm12
DB 68,15,92,231 ; subps %xmm7,%xmm12
DB 69,15,40,204 ; movaps %xmm12,%xmm9
@@ -17631,7 +17651,7 @@ _sk_colorburn_sse41 LABEL PROC
PUBLIC _sk_colordodge_sse41
_sk_colordodge_sse41 LABEL PROC
DB 68,15,40,192 ; movaps %xmm0,%xmm8
- DB 68,15,40,21,148,152,1,0 ; movaps 0x19894(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,21,91,153,1,0 ; movaps 0x1995b(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,218 ; movaps %xmm10,%xmm11
DB 68,15,92,223 ; subps %xmm7,%xmm11
DB 69,15,40,227 ; movaps %xmm11,%xmm12
@@ -17712,7 +17732,7 @@ _sk_hardlight_sse41 LABEL PROC
DB 15,40,244 ; movaps %xmm4,%xmm6
DB 15,40,227 ; movaps %xmm3,%xmm4
DB 68,15,40,200 ; movaps %xmm0,%xmm9
- DB 68,15,40,21,92,151,1,0 ; movaps 0x1975c(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,21,35,152,1,0 ; movaps 0x19823(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 65,15,40,234 ; movaps %xmm10,%xmm5
DB 15,92,239 ; subps %xmm7,%xmm5
DB 15,40,197 ; movaps %xmm5,%xmm0
@@ -17794,7 +17814,7 @@ PUBLIC _sk_overlay_sse41
_sk_overlay_sse41 LABEL PROC
DB 68,15,40,201 ; movaps %xmm1,%xmm9
DB 68,15,40,240 ; movaps %xmm0,%xmm14
- DB 68,15,40,21,46,150,1,0 ; movaps 0x1962e(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,21,245,150,1,0 ; movaps 0x196f5(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,218 ; movaps %xmm10,%xmm11
DB 68,15,92,223 ; subps %xmm7,%xmm11
DB 65,15,40,195 ; movaps %xmm11,%xmm0
@@ -17878,7 +17898,7 @@ _sk_softlight_sse41 LABEL PROC
DB 15,40,198 ; movaps %xmm6,%xmm0
DB 15,94,199 ; divps %xmm7,%xmm0
DB 65,15,84,193 ; andps %xmm9,%xmm0
- DB 15,40,13,241,148,1,0 ; movaps 0x194f1(%rip),%xmm1 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,13,184,149,1,0 ; movaps 0x195b8(%rip),%xmm1 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,40,209 ; movaps %xmm1,%xmm10
DB 68,15,92,208 ; subps %xmm0,%xmm10
DB 68,15,40,240 ; movaps %xmm0,%xmm14
@@ -17891,10 +17911,10 @@ _sk_softlight_sse41 LABEL PROC
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 15,89,210 ; mulps %xmm2,%xmm2
DB 15,88,208 ; addps %xmm0,%xmm2
- DB 68,15,40,45,31,149,1,0 ; movaps 0x1951f(%rip),%xmm13 # 2caf0 <_sk_overlay_sse2_8bit+0xea3>
+ DB 68,15,40,45,230,149,1,0 ; movaps 0x195e6(%rip),%xmm13 # 2cba0 <_sk_overlay_sse2_8bit+0xf2b>
DB 69,15,88,245 ; addps %xmm13,%xmm14
DB 68,15,89,242 ; mulps %xmm2,%xmm14
- DB 68,15,40,37,31,149,1,0 ; movaps 0x1951f(%rip),%xmm12 # 2cb00 <_sk_overlay_sse2_8bit+0xeb3>
+ DB 68,15,40,37,230,149,1,0 ; movaps 0x195e6(%rip),%xmm12 # 2cbb0 <_sk_overlay_sse2_8bit+0xf3b>
DB 69,15,89,252 ; mulps %xmm12,%xmm15
DB 69,15,88,254 ; addps %xmm14,%xmm15
DB 15,40,198 ; movaps %xmm6,%xmm0
@@ -18080,12 +18100,12 @@ _sk_hue_sse41 LABEL PROC
DB 68,15,84,208 ; andps %xmm0,%xmm10
DB 15,84,200 ; andps %xmm0,%xmm1
DB 68,15,84,232 ; andps %xmm0,%xmm13
- DB 15,40,5,133,146,1,0 ; movaps 0x19285(%rip),%xmm0 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 15,40,5,76,147,1,0 ; movaps 0x1934c(%rip),%xmm0 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 68,15,89,224 ; mulps %xmm0,%xmm12
- DB 15,40,21,138,146,1,0 ; movaps 0x1928a(%rip),%xmm2 # 2cb20 <_sk_overlay_sse2_8bit+0xed3>
+ DB 15,40,21,81,147,1,0 ; movaps 0x19351(%rip),%xmm2 # 2cbd0 <_sk_overlay_sse2_8bit+0xf5b>
DB 15,89,250 ; mulps %xmm2,%xmm7
DB 65,15,88,252 ; addps %xmm12,%xmm7
- DB 68,15,40,53,139,146,1,0 ; movaps 0x1928b(%rip),%xmm14 # 2cb30 <_sk_overlay_sse2_8bit+0xee3>
+ DB 68,15,40,53,82,147,1,0 ; movaps 0x19352(%rip),%xmm14 # 2cbe0 <_sk_overlay_sse2_8bit+0xf6b>
DB 68,15,40,252 ; movaps %xmm4,%xmm15
DB 69,15,89,254 ; mulps %xmm14,%xmm15
DB 68,15,88,255 ; addps %xmm7,%xmm15
@@ -18168,7 +18188,7 @@ _sk_hue_sse41 LABEL PROC
DB 65,15,88,214 ; addps %xmm14,%xmm2
DB 15,40,196 ; movaps %xmm4,%xmm0
DB 102,15,56,20,202 ; blendvps %xmm0,%xmm2,%xmm1
- DB 68,15,40,13,160,144,1,0 ; movaps 0x190a0(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,103,145,1,0 ; movaps 0x19167(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 65,15,40,225 ; movaps %xmm9,%xmm4
DB 15,92,229 ; subps %xmm5,%xmm4
DB 15,40,68,36,48 ; movaps 0x30(%rsp),%xmm0
@@ -18262,14 +18282,14 @@ _sk_saturation_sse41 LABEL PROC
DB 68,15,84,215 ; andps %xmm7,%xmm10
DB 68,15,84,223 ; andps %xmm7,%xmm11
DB 68,15,84,199 ; andps %xmm7,%xmm8
- DB 15,40,21,195,143,1,0 ; movaps 0x18fc3(%rip),%xmm2 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 15,40,21,138,144,1,0 ; movaps 0x1908a(%rip),%xmm2 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 15,40,221 ; movaps %xmm5,%xmm3
DB 15,89,218 ; mulps %xmm2,%xmm3
- DB 15,40,13,198,143,1,0 ; movaps 0x18fc6(%rip),%xmm1 # 2cb20 <_sk_overlay_sse2_8bit+0xed3>
+ DB 15,40,13,141,144,1,0 ; movaps 0x1908d(%rip),%xmm1 # 2cbd0 <_sk_overlay_sse2_8bit+0xf5b>
DB 15,40,254 ; movaps %xmm6,%xmm7
DB 15,89,249 ; mulps %xmm1,%xmm7
DB 15,88,251 ; addps %xmm3,%xmm7
- DB 68,15,40,45,197,143,1,0 ; movaps 0x18fc5(%rip),%xmm13 # 2cb30 <_sk_overlay_sse2_8bit+0xee3>
+ DB 68,15,40,45,140,144,1,0 ; movaps 0x1908c(%rip),%xmm13 # 2cbe0 <_sk_overlay_sse2_8bit+0xf6b>
DB 69,15,89,245 ; mulps %xmm13,%xmm14
DB 68,15,88,247 ; addps %xmm7,%xmm14
DB 65,15,40,218 ; movaps %xmm10,%xmm3
@@ -18350,7 +18370,7 @@ _sk_saturation_sse41 LABEL PROC
DB 65,15,88,253 ; addps %xmm13,%xmm7
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 102,68,15,56,20,223 ; blendvps %xmm0,%xmm7,%xmm11
- DB 68,15,40,13,219,141,1,0 ; movaps 0x18ddb(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,162,142,1,0 ; movaps 0x18ea2(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,193 ; movaps %xmm9,%xmm8
DB 68,15,92,204 ; subps %xmm4,%xmm9
DB 15,40,60,36 ; movaps (%rsp),%xmm7
@@ -18405,14 +18425,14 @@ _sk_color_sse41 LABEL PROC
DB 15,40,231 ; movaps %xmm7,%xmm4
DB 68,15,89,244 ; mulps %xmm4,%xmm14
DB 15,89,204 ; mulps %xmm4,%xmm1
- DB 68,15,40,13,144,141,1,0 ; movaps 0x18d90(%rip),%xmm9 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 68,15,40,13,87,142,1,0 ; movaps 0x18e57(%rip),%xmm9 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 65,15,40,250 ; movaps %xmm10,%xmm7
DB 65,15,89,249 ; mulps %xmm9,%xmm7
- DB 68,15,40,21,144,141,1,0 ; movaps 0x18d90(%rip),%xmm10 # 2cb20 <_sk_overlay_sse2_8bit+0xed3>
+ DB 68,15,40,21,87,142,1,0 ; movaps 0x18e57(%rip),%xmm10 # 2cbd0 <_sk_overlay_sse2_8bit+0xf5b>
DB 65,15,40,219 ; movaps %xmm11,%xmm3
DB 65,15,89,218 ; mulps %xmm10,%xmm3
DB 15,88,223 ; addps %xmm7,%xmm3
- DB 68,15,40,29,141,141,1,0 ; movaps 0x18d8d(%rip),%xmm11 # 2cb30 <_sk_overlay_sse2_8bit+0xee3>
+ DB 68,15,40,29,84,142,1,0 ; movaps 0x18e54(%rip),%xmm11 # 2cbe0 <_sk_overlay_sse2_8bit+0xf6b>
DB 69,15,40,236 ; movaps %xmm12,%xmm13
DB 69,15,89,235 ; mulps %xmm11,%xmm13
DB 68,15,88,235 ; addps %xmm3,%xmm13
@@ -18497,7 +18517,7 @@ _sk_color_sse41 LABEL PROC
DB 65,15,88,251 ; addps %xmm11,%xmm7
DB 65,15,40,194 ; movaps %xmm10,%xmm0
DB 102,15,56,20,207 ; blendvps %xmm0,%xmm7,%xmm1
- DB 68,15,40,13,153,139,1,0 ; movaps 0x18b99(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,96,140,1,0 ; movaps 0x18c60(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 15,92,196 ; subps %xmm4,%xmm0
DB 68,15,89,192 ; mulps %xmm0,%xmm8
@@ -18549,13 +18569,13 @@ _sk_luminosity_sse41 LABEL PROC
DB 69,15,89,216 ; mulps %xmm8,%xmm11
DB 68,15,40,203 ; movaps %xmm3,%xmm9
DB 68,15,89,205 ; mulps %xmm5,%xmm9
- DB 68,15,40,5,91,139,1,0 ; movaps 0x18b5b(%rip),%xmm8 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 68,15,40,5,34,140,1,0 ; movaps 0x18c22(%rip),%xmm8 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
- DB 68,15,40,21,95,139,1,0 ; movaps 0x18b5f(%rip),%xmm10 # 2cb20 <_sk_overlay_sse2_8bit+0xed3>
+ DB 68,15,40,21,38,140,1,0 ; movaps 0x18c26(%rip),%xmm10 # 2cbd0 <_sk_overlay_sse2_8bit+0xf5b>
DB 15,40,233 ; movaps %xmm1,%xmm5
DB 65,15,89,234 ; mulps %xmm10,%xmm5
DB 15,88,232 ; addps %xmm0,%xmm5
- DB 68,15,40,37,93,139,1,0 ; movaps 0x18b5d(%rip),%xmm12 # 2cb30 <_sk_overlay_sse2_8bit+0xee3>
+ DB 68,15,40,37,36,140,1,0 ; movaps 0x18c24(%rip),%xmm12 # 2cbe0 <_sk_overlay_sse2_8bit+0xf6b>
DB 68,15,40,242 ; movaps %xmm2,%xmm14
DB 69,15,89,244 ; mulps %xmm12,%xmm14
DB 68,15,88,245 ; addps %xmm5,%xmm14
@@ -18640,7 +18660,7 @@ _sk_luminosity_sse41 LABEL PROC
DB 65,15,88,244 ; addps %xmm12,%xmm6
DB 65,15,40,195 ; movaps %xmm11,%xmm0
DB 102,68,15,56,20,206 ; blendvps %xmm0,%xmm6,%xmm9
- DB 15,40,5,99,137,1,0 ; movaps 0x18963(%rip),%xmm0 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,5,42,138,1,0 ; movaps 0x18a2a(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 15,92,215 ; subps %xmm7,%xmm2
DB 15,89,226 ; mulps %xmm2,%xmm4
@@ -18677,30 +18697,30 @@ _sk_luminosity_sse41 LABEL PROC
PUBLIC _sk_srcover_rgba_8888_sse41
_sk_srcover_rgba_8888_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,219,0,0,0 ; jne 14298 <_sk_srcover_rgba_8888_sse41+0xfb>
- DB 243,65,15,111,60,129 ; movdqu (%r9,%rax,4),%xmm7
- DB 77,133,192 ; test %r8,%r8
- DB 102,15,111,37,114,137,1,0 ; movdqa 0x18972(%rip),%xmm4 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,219,0,0,0 ; jne 14281 <_sk_srcover_rgba_8888_sse41+0xfb>
+ DB 243,65,15,111,60,128 ; movdqu (%r8,%rax,4),%xmm7
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 102,15,111,37,57,138,1,0 ; movdqa 0x18a39(%rip),%xmm4 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,15,219,231 ; pand %xmm7,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
DB 102,15,111,239 ; movdqa %xmm7,%xmm5
- DB 102,15,56,0,45,110,137,1,0 ; pshufb 0x1896e(%rip),%xmm5 # 2cb50 <_sk_overlay_sse2_8bit+0xf03>
+ DB 102,15,56,0,45,53,138,1,0 ; pshufb 0x18a35(%rip),%xmm5 # 2cc00 <_sk_overlay_sse2_8bit+0xf8b>
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
DB 102,15,111,247 ; movdqa %xmm7,%xmm6
- DB 102,15,56,0,53,110,137,1,0 ; pshufb 0x1896e(%rip),%xmm6 # 2cb60 <_sk_overlay_sse2_8bit+0xf13>
+ DB 102,15,56,0,53,53,138,1,0 ; pshufb 0x18a35(%rip),%xmm6 # 2cc10 <_sk_overlay_sse2_8bit+0xf9b>
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
DB 102,15,114,215,24 ; psrld $0x18,%xmm7
DB 15,91,255 ; cvtdq2ps %xmm7,%xmm7
- DB 68,15,40,5,139,136,1,0 ; movaps 0x1888b(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,82,137,1,0 ; movaps 0x18952(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,195 ; subps %xmm3,%xmm8
- DB 68,15,40,37,95,137,1,0 ; movaps 0x1895f(%rip),%xmm12 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 68,15,40,37,38,138,1,0 ; movaps 0x18a26(%rip),%xmm12 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 65,15,89,196 ; mulps %xmm12,%xmm0
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 68,15,89,204 ; mulps %xmm4,%xmm9
@@ -18726,43 +18746,43 @@ _sk_srcover_rgba_8888_sse41 LABEL PROC
DB 102,15,114,240,24 ; pslld $0x18,%xmm0
DB 102,15,235,194 ; por %xmm2,%xmm0
DB 102,15,235,193 ; por %xmm1,%xmm0
- DB 117,88 ; jne 142d6 <_sk_srcover_rgba_8888_sse41+0x139>
- DB 243,65,15,127,4,129 ; movdqu %xmm0,(%r9,%rax,4)
+ DB 117,88 ; jne 142bf <_sk_srcover_rgba_8888_sse41+0x139>
+ DB 243,65,15,127,4,128 ; movdqu %xmm0,(%r8,%rax,4)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 65,15,40,202 ; movaps %xmm10,%xmm1
DB 65,15,40,211 ; movaps %xmm11,%xmm2
DB 65,15,40,216 ; movaps %xmm8,%xmm3
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,91 ; je 14300 <_sk_srcover_rgba_8888_sse41+0x163>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,91 ; je 142e9 <_sk_srcover_rgba_8888_sse41+0x163>
DB 102,15,239,255 ; pxor %xmm7,%xmm7
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,22 ; je 142c5 <_sk_srcover_rgba_8888_sse41+0x128>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 15,133,10,255,255,255 ; jne 141c3 <_sk_srcover_rgba_8888_sse41+0x26>
- DB 102,65,15,110,100,129,8 ; movd 0x8(%r9,%rax,4),%xmm4
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,22 ; je 142ae <_sk_srcover_rgba_8888_sse41+0x128>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 15,133,10,255,255,255 ; jne 141ac <_sk_srcover_rgba_8888_sse41+0x26>
+ DB 102,65,15,110,100,128,8 ; movd 0x8(%r8,%rax,4),%xmm4
DB 102,15,112,252,69 ; pshufd $0x45,%xmm4,%xmm7
- DB 243,65,15,126,36,129 ; movq (%r9,%rax,4),%xmm4
+ DB 243,65,15,126,36,128 ; movq (%r8,%rax,4),%xmm4
DB 102,15,58,14,252,15 ; pblendw $0xf,%xmm4,%xmm7
- DB 233,237,254,255,255 ; jmpq 141c3 <_sk_srcover_rgba_8888_sse41+0x26>
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,40 ; je 1430b <_sk_srcover_rgba_8888_sse41+0x16e>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,15 ; je 142f8 <_sk_srcover_rgba_8888_sse41+0x15b>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,149 ; jne 14284 <_sk_srcover_rgba_8888_sse41+0xe7>
- DB 102,65,15,58,22,68,129,8,2 ; pextrd $0x2,%xmm0,0x8(%r9,%rax,4)
- DB 102,65,15,214,4,129 ; movq %xmm0,(%r9,%rax,4)
- DB 235,132 ; jmp 14284 <_sk_srcover_rgba_8888_sse41+0xe7>
- DB 102,65,15,110,60,129 ; movd (%r9,%rax,4),%xmm7
- DB 233,184,254,255,255 ; jmpq 141c3 <_sk_srcover_rgba_8888_sse41+0x26>
- DB 102,65,15,126,4,129 ; movd %xmm0,(%r9,%rax,4)
- DB 233,110,255,255,255 ; jmpq 14284 <_sk_srcover_rgba_8888_sse41+0xe7>
+ DB 233,237,254,255,255 ; jmpq 141ac <_sk_srcover_rgba_8888_sse41+0x26>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,40 ; je 142f4 <_sk_srcover_rgba_8888_sse41+0x16e>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,15 ; je 142e1 <_sk_srcover_rgba_8888_sse41+0x15b>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,149 ; jne 1426d <_sk_srcover_rgba_8888_sse41+0xe7>
+ DB 102,65,15,58,22,68,128,8,2 ; pextrd $0x2,%xmm0,0x8(%r8,%rax,4)
+ DB 102,65,15,214,4,128 ; movq %xmm0,(%r8,%rax,4)
+ DB 235,132 ; jmp 1426d <_sk_srcover_rgba_8888_sse41+0xe7>
+ DB 102,65,15,110,60,128 ; movd (%r8,%rax,4),%xmm7
+ DB 233,184,254,255,255 ; jmpq 141ac <_sk_srcover_rgba_8888_sse41+0x26>
+ DB 102,65,15,126,4,128 ; movd %xmm0,(%r8,%rax,4)
+ DB 233,110,255,255,255 ; jmpq 1426d <_sk_srcover_rgba_8888_sse41+0xe7>
PUBLIC _sk_clamp_0_sse41
_sk_clamp_0_sse41 LABEL PROC
@@ -18776,7 +18796,7 @@ _sk_clamp_0_sse41 LABEL PROC
PUBLIC _sk_clamp_1_sse41
_sk_clamp_1_sse41 LABEL PROC
- DB 68,15,40,5,90,135,1,0 ; movaps 0x1875a(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,33,136,1,0 ; movaps 0x18821(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 65,15,93,192 ; minps %xmm8,%xmm0
DB 65,15,93,200 ; minps %xmm8,%xmm1
DB 65,15,93,208 ; minps %xmm8,%xmm2
@@ -18786,7 +18806,7 @@ _sk_clamp_1_sse41 LABEL PROC
PUBLIC _sk_clamp_a_sse41
_sk_clamp_a_sse41 LABEL PROC
- DB 15,93,29,63,135,1,0 ; minps 0x1873f(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,93,29,6,136,1,0 ; minps 0x18806(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,93,195 ; minps %xmm3,%xmm0
DB 15,93,203 ; minps %xmm3,%xmm1
DB 15,93,211 ; minps %xmm3,%xmm2
@@ -18795,7 +18815,7 @@ _sk_clamp_a_sse41 LABEL PROC
PUBLIC _sk_clamp_a_dst_sse41
_sk_clamp_a_dst_sse41 LABEL PROC
- DB 15,93,61,43,135,1,0 ; minps 0x1872b(%rip),%xmm7 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,93,61,242,135,1,0 ; minps 0x187f2(%rip),%xmm7 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,93,231 ; minps %xmm7,%xmm4
DB 15,93,239 ; minps %xmm7,%xmm5
DB 15,93,247 ; minps %xmm7,%xmm6
@@ -18824,7 +18844,7 @@ _sk_swap_rb_sse41 LABEL PROC
PUBLIC _sk_invert_sse41
_sk_invert_sse41 LABEL PROC
- DB 68,15,40,5,231,134,1,0 ; movaps 0x186e7(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,174,135,1,0 ; movaps 0x187ae(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 68,15,92,200 ; subps %xmm0,%xmm9
DB 69,15,40,208 ; movaps %xmm8,%xmm10
@@ -18876,7 +18896,7 @@ _sk_premul_dst_sse41 LABEL PROC
PUBLIC _sk_unpremul_sse41
_sk_unpremul_sse41 LABEL PROC
DB 69,15,87,192 ; xorps %xmm8,%xmm8
- DB 68,15,40,13,113,134,1,0 ; movaps 0x18671(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,56,135,1,0 ; movaps 0x18738(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,94,203 ; divps %xmm3,%xmm9
DB 68,15,194,195,4 ; cmpneqps %xmm3,%xmm8
DB 69,15,84,193 ; andps %xmm9,%xmm8
@@ -18888,20 +18908,20 @@ _sk_unpremul_sse41 LABEL PROC
PUBLIC _sk_from_srgb_sse41
_sk_from_srgb_sse41 LABEL PROC
- DB 68,15,40,29,60,135,1,0 ; movaps 0x1873c(%rip),%xmm11 # 2cb80 <_sk_overlay_sse2_8bit+0xf33>
+ DB 68,15,40,29,3,136,1,0 ; movaps 0x18803(%rip),%xmm11 # 2cc30 <_sk_overlay_sse2_8bit+0xfbb>
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,89,203 ; mulps %xmm11,%xmm9
DB 68,15,40,208 ; movaps %xmm0,%xmm10
DB 69,15,89,210 ; mulps %xmm10,%xmm10
- DB 68,15,40,37,180,134,1,0 ; movaps 0x186b4(%rip),%xmm12 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 68,15,40,37,123,135,1,0 ; movaps 0x1877b(%rip),%xmm12 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 68,15,40,192 ; movaps %xmm0,%xmm8
DB 69,15,89,196 ; mulps %xmm12,%xmm8
- DB 68,15,40,45,36,135,1,0 ; movaps 0x18724(%rip),%xmm13 # 2cb90 <_sk_overlay_sse2_8bit+0xf43>
+ DB 68,15,40,45,235,135,1,0 ; movaps 0x187eb(%rip),%xmm13 # 2cc40 <_sk_overlay_sse2_8bit+0xfcb>
DB 69,15,88,197 ; addps %xmm13,%xmm8
DB 69,15,89,194 ; mulps %xmm10,%xmm8
- DB 68,15,40,53,36,135,1,0 ; movaps 0x18724(%rip),%xmm14 # 2cba0 <_sk_overlay_sse2_8bit+0xf53>
+ DB 68,15,40,53,235,135,1,0 ; movaps 0x187eb(%rip),%xmm14 # 2cc50 <_sk_overlay_sse2_8bit+0xfdb>
DB 69,15,88,198 ; addps %xmm14,%xmm8
- DB 68,15,40,61,40,135,1,0 ; movaps 0x18728(%rip),%xmm15 # 2cbb0 <_sk_overlay_sse2_8bit+0xf63>
+ DB 68,15,40,61,239,135,1,0 ; movaps 0x187ef(%rip),%xmm15 # 2cc60 <_sk_overlay_sse2_8bit+0xfeb>
DB 65,15,194,199,1 ; cmpltps %xmm15,%xmm0
DB 102,69,15,56,20,193 ; blendvps %xmm0,%xmm9,%xmm8
DB 68,15,40,209 ; movaps %xmm1,%xmm10
@@ -18936,19 +18956,19 @@ PUBLIC _sk_from_srgb_dst_sse41
_sk_from_srgb_dst_sse41 LABEL PROC
DB 68,15,40,204 ; movaps %xmm4,%xmm9
DB 68,15,40,192 ; movaps %xmm0,%xmm8
- DB 68,15,40,29,115,134,1,0 ; movaps 0x18673(%rip),%xmm11 # 2cb80 <_sk_overlay_sse2_8bit+0xf33>
+ DB 68,15,40,29,58,135,1,0 ; movaps 0x1873a(%rip),%xmm11 # 2cc30 <_sk_overlay_sse2_8bit+0xfbb>
DB 69,15,40,209 ; movaps %xmm9,%xmm10
DB 69,15,89,211 ; mulps %xmm11,%xmm10
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 15,89,192 ; mulps %xmm0,%xmm0
- DB 68,15,40,37,236,133,1,0 ; movaps 0x185ec(%rip),%xmm12 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 68,15,40,37,179,134,1,0 ; movaps 0x186b3(%rip),%xmm12 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 65,15,89,228 ; mulps %xmm12,%xmm4
- DB 68,15,40,45,96,134,1,0 ; movaps 0x18660(%rip),%xmm13 # 2cb90 <_sk_overlay_sse2_8bit+0xf43>
+ DB 68,15,40,45,39,135,1,0 ; movaps 0x18727(%rip),%xmm13 # 2cc40 <_sk_overlay_sse2_8bit+0xfcb>
DB 65,15,88,229 ; addps %xmm13,%xmm4
DB 15,89,224 ; mulps %xmm0,%xmm4
- DB 68,15,40,53,97,134,1,0 ; movaps 0x18661(%rip),%xmm14 # 2cba0 <_sk_overlay_sse2_8bit+0xf53>
+ DB 68,15,40,53,40,135,1,0 ; movaps 0x18728(%rip),%xmm14 # 2cc50 <_sk_overlay_sse2_8bit+0xfdb>
DB 65,15,88,230 ; addps %xmm14,%xmm4
- DB 68,15,40,61,101,134,1,0 ; movaps 0x18665(%rip),%xmm15 # 2cbb0 <_sk_overlay_sse2_8bit+0xf63>
+ DB 68,15,40,61,44,135,1,0 ; movaps 0x1872c(%rip),%xmm15 # 2cc60 <_sk_overlay_sse2_8bit+0xfeb>
DB 69,15,194,207,1 ; cmpltps %xmm15,%xmm9
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 102,65,15,56,20,226 ; blendvps %xmm0,%xmm10,%xmm4
@@ -18991,22 +19011,22 @@ _sk_to_srgb_sse41 LABEL PROC
DB 15,40,218 ; movaps %xmm2,%xmm3
DB 15,40,209 ; movaps %xmm1,%xmm2
DB 68,15,82,192 ; rsqrtps %xmm0,%xmm8
- DB 68,15,40,29,214,133,1,0 ; movaps 0x185d6(%rip),%xmm11 # 2cbc0 <_sk_overlay_sse2_8bit+0xf73>
+ DB 68,15,40,29,157,134,1,0 ; movaps 0x1869d(%rip),%xmm11 # 2cc70 <_sk_overlay_sse2_8bit+0xffb>
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,89,203 ; mulps %xmm11,%xmm9
- DB 68,15,40,37,214,133,1,0 ; movaps 0x185d6(%rip),%xmm12 # 2cbd0 <_sk_overlay_sse2_8bit+0xf83>
+ DB 68,15,40,37,157,134,1,0 ; movaps 0x1869d(%rip),%xmm12 # 2cc80 <_sk_overlay_sse2_8bit+0x100b>
DB 69,15,40,248 ; movaps %xmm8,%xmm15
DB 69,15,89,252 ; mulps %xmm12,%xmm15
- DB 68,15,40,21,214,133,1,0 ; movaps 0x185d6(%rip),%xmm10 # 2cbe0 <_sk_overlay_sse2_8bit+0xf93>
+ DB 68,15,40,21,157,134,1,0 ; movaps 0x1869d(%rip),%xmm10 # 2cc90 <_sk_overlay_sse2_8bit+0x101b>
DB 69,15,88,250 ; addps %xmm10,%xmm15
DB 69,15,89,248 ; mulps %xmm8,%xmm15
- DB 68,15,40,45,214,133,1,0 ; movaps 0x185d6(%rip),%xmm13 # 2cbf0 <_sk_overlay_sse2_8bit+0xfa3>
+ DB 68,15,40,45,157,134,1,0 ; movaps 0x1869d(%rip),%xmm13 # 2cca0 <_sk_overlay_sse2_8bit+0x102b>
DB 69,15,88,253 ; addps %xmm13,%xmm15
- DB 68,15,40,53,218,133,1,0 ; movaps 0x185da(%rip),%xmm14 # 2cc00 <_sk_overlay_sse2_8bit+0xfb3>
+ DB 68,15,40,53,161,134,1,0 ; movaps 0x186a1(%rip),%xmm14 # 2ccb0 <_sk_overlay_sse2_8bit+0x103b>
DB 69,15,88,198 ; addps %xmm14,%xmm8
DB 69,15,83,192 ; rcpps %xmm8,%xmm8
DB 69,15,89,199 ; mulps %xmm15,%xmm8
- DB 68,15,40,61,214,133,1,0 ; movaps 0x185d6(%rip),%xmm15 # 2cc10 <_sk_overlay_sse2_8bit+0xfc3>
+ DB 68,15,40,61,157,134,1,0 ; movaps 0x1869d(%rip),%xmm15 # 2ccc0 <_sk_overlay_sse2_8bit+0x104b>
DB 65,15,194,199,1 ; cmpltps %xmm15,%xmm0
DB 102,69,15,56,20,193 ; blendvps %xmm0,%xmm9,%xmm8
DB 68,15,82,202 ; rsqrtps %xmm2,%xmm9
@@ -19060,7 +19080,7 @@ _sk_rgb_to_hsl_sse41 LABEL PROC
DB 68,15,93,224 ; minps %xmm0,%xmm12
DB 65,15,40,203 ; movaps %xmm11,%xmm1
DB 65,15,92,204 ; subps %xmm12,%xmm1
- DB 68,15,40,53,138,131,1,0 ; movaps 0x1838a(%rip),%xmm14 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,53,81,132,1,0 ; movaps 0x18451(%rip),%xmm14 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,94,241 ; divps %xmm1,%xmm14
DB 69,15,40,211 ; movaps %xmm11,%xmm10
DB 69,15,194,208,0 ; cmpeqps %xmm8,%xmm10
@@ -19069,27 +19089,27 @@ _sk_rgb_to_hsl_sse41 LABEL PROC
DB 65,15,89,198 ; mulps %xmm14,%xmm0
DB 69,15,40,249 ; movaps %xmm9,%xmm15
DB 68,15,194,250,1 ; cmpltps %xmm2,%xmm15
- DB 68,15,84,61,241,132,1,0 ; andps 0x184f1(%rip),%xmm15 # 2cc20 <_sk_overlay_sse2_8bit+0xfd3>
+ DB 68,15,84,61,184,133,1,0 ; andps 0x185b8(%rip),%xmm15 # 2ccd0 <_sk_overlay_sse2_8bit+0x105b>
DB 68,15,88,248 ; addps %xmm0,%xmm15
DB 65,15,40,195 ; movaps %xmm11,%xmm0
DB 65,15,194,193,0 ; cmpeqps %xmm9,%xmm0
DB 65,15,92,208 ; subps %xmm8,%xmm2
DB 65,15,89,214 ; mulps %xmm14,%xmm2
- DB 68,15,40,45,228,132,1,0 ; movaps 0x184e4(%rip),%xmm13 # 2cc30 <_sk_overlay_sse2_8bit+0xfe3>
+ DB 68,15,40,45,171,133,1,0 ; movaps 0x185ab(%rip),%xmm13 # 2cce0 <_sk_overlay_sse2_8bit+0x106b>
DB 65,15,88,213 ; addps %xmm13,%xmm2
DB 69,15,92,193 ; subps %xmm9,%xmm8
DB 69,15,89,198 ; mulps %xmm14,%xmm8
- DB 68,15,88,5,224,132,1,0 ; addps 0x184e0(%rip),%xmm8 # 2cc40 <_sk_overlay_sse2_8bit+0xff3>
+ DB 68,15,88,5,167,133,1,0 ; addps 0x185a7(%rip),%xmm8 # 2ccf0 <_sk_overlay_sse2_8bit+0x107b>
DB 102,68,15,56,20,194 ; blendvps %xmm0,%xmm2,%xmm8
DB 65,15,40,194 ; movaps %xmm10,%xmm0
DB 102,69,15,56,20,199 ; blendvps %xmm0,%xmm15,%xmm8
- DB 68,15,89,5,216,132,1,0 ; mulps 0x184d8(%rip),%xmm8 # 2cc50 <_sk_overlay_sse2_8bit+0x1003>
+ DB 68,15,89,5,159,133,1,0 ; mulps 0x1859f(%rip),%xmm8 # 2cd00 <_sk_overlay_sse2_8bit+0x108b>
DB 69,15,40,203 ; movaps %xmm11,%xmm9
DB 69,15,194,204,4 ; cmpneqps %xmm12,%xmm9
DB 69,15,84,193 ; andps %xmm9,%xmm8
DB 69,15,92,235 ; subps %xmm11,%xmm13
DB 69,15,88,220 ; addps %xmm12,%xmm11
- DB 15,40,5,236,130,1,0 ; movaps 0x182ec(%rip),%xmm0 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 15,40,5,163,131,1,0 ; movaps 0x183a3(%rip),%xmm0 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 65,15,40,211 ; movaps %xmm11,%xmm2
DB 15,89,208 ; mulps %xmm0,%xmm2
DB 15,194,194,1 ; cmpltps %xmm2,%xmm0
@@ -19110,7 +19130,7 @@ _sk_hsl_to_rgb_sse41 LABEL PROC
DB 15,41,100,36,32 ; movaps %xmm4,0x20(%rsp)
DB 15,41,92,36,16 ; movaps %xmm3,0x10(%rsp)
DB 68,15,40,208 ; movaps %xmm0,%xmm10
- DB 68,15,40,13,158,130,1,0 ; movaps 0x1829e(%rip),%xmm9 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,13,85,131,1,0 ; movaps 0x18355(%rip),%xmm9 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 15,194,194,2 ; cmpleps %xmm2,%xmm0
DB 15,40,217 ; movaps %xmm1,%xmm3
@@ -19123,19 +19143,19 @@ _sk_hsl_to_rgb_sse41 LABEL PROC
DB 15,41,20,36 ; movaps %xmm2,(%rsp)
DB 69,15,88,192 ; addps %xmm8,%xmm8
DB 68,15,92,197 ; subps %xmm5,%xmm8
- DB 68,15,40,53,74,132,1,0 ; movaps 0x1844a(%rip),%xmm14 # 2cc60 <_sk_overlay_sse2_8bit+0x1013>
+ DB 68,15,40,53,17,133,1,0 ; movaps 0x18511(%rip),%xmm14 # 2cd10 <_sk_overlay_sse2_8bit+0x109b>
DB 69,15,88,242 ; addps %xmm10,%xmm14
DB 102,65,15,58,8,198,1 ; roundps $0x1,%xmm14,%xmm0
DB 68,15,92,240 ; subps %xmm0,%xmm14
- DB 68,15,40,29,67,132,1,0 ; movaps 0x18443(%rip),%xmm11 # 2cc70 <_sk_overlay_sse2_8bit+0x1023>
+ DB 68,15,40,29,10,133,1,0 ; movaps 0x1850a(%rip),%xmm11 # 2cd20 <_sk_overlay_sse2_8bit+0x10ab>
DB 65,15,40,195 ; movaps %xmm11,%xmm0
DB 65,15,194,198,2 ; cmpleps %xmm14,%xmm0
DB 15,40,245 ; movaps %xmm5,%xmm6
DB 65,15,92,240 ; subps %xmm8,%xmm6
- DB 15,40,61,220,131,1,0 ; movaps 0x183dc(%rip),%xmm7 # 2cc20 <_sk_overlay_sse2_8bit+0xfd3>
+ DB 15,40,61,163,132,1,0 ; movaps 0x184a3(%rip),%xmm7 # 2ccd0 <_sk_overlay_sse2_8bit+0x105b>
DB 69,15,40,238 ; movaps %xmm14,%xmm13
DB 68,15,89,239 ; mulps %xmm7,%xmm13
- DB 15,40,29,237,131,1,0 ; movaps 0x183ed(%rip),%xmm3 # 2cc40 <_sk_overlay_sse2_8bit+0xff3>
+ DB 15,40,29,180,132,1,0 ; movaps 0x184b4(%rip),%xmm3 # 2ccf0 <_sk_overlay_sse2_8bit+0x107b>
DB 68,15,40,227 ; movaps %xmm3,%xmm12
DB 69,15,92,229 ; subps %xmm13,%xmm12
DB 68,15,89,230 ; mulps %xmm6,%xmm12
@@ -19145,7 +19165,7 @@ _sk_hsl_to_rgb_sse41 LABEL PROC
DB 65,15,194,198,2 ; cmpleps %xmm14,%xmm0
DB 68,15,40,253 ; movaps %xmm5,%xmm15
DB 102,69,15,56,20,252 ; blendvps %xmm0,%xmm12,%xmm15
- DB 68,15,40,37,204,131,1,0 ; movaps 0x183cc(%rip),%xmm12 # 2cc50 <_sk_overlay_sse2_8bit+0x1003>
+ DB 68,15,40,37,147,132,1,0 ; movaps 0x18493(%rip),%xmm12 # 2cd00 <_sk_overlay_sse2_8bit+0x108b>
DB 65,15,40,196 ; movaps %xmm12,%xmm0
DB 65,15,194,198,2 ; cmpleps %xmm14,%xmm0
DB 68,15,89,238 ; mulps %xmm6,%xmm13
@@ -19179,7 +19199,7 @@ _sk_hsl_to_rgb_sse41 LABEL PROC
DB 65,15,40,198 ; movaps %xmm14,%xmm0
DB 15,40,20,36 ; movaps (%rsp),%xmm2
DB 102,15,56,20,202 ; blendvps %xmm0,%xmm2,%xmm1
- DB 68,15,88,21,101,131,1,0 ; addps 0x18365(%rip),%xmm10 # 2cc80 <_sk_overlay_sse2_8bit+0x1033>
+ DB 68,15,88,21,44,132,1,0 ; addps 0x1842c(%rip),%xmm10 # 2cd30 <_sk_overlay_sse2_8bit+0x10bb>
DB 102,65,15,58,8,194,1 ; roundps $0x1,%xmm10,%xmm0
DB 68,15,92,208 ; subps %xmm0,%xmm10
DB 69,15,194,218,2 ; cmpleps %xmm10,%xmm11
@@ -19225,17 +19245,17 @@ _sk_scale_1_float_sse41 LABEL PROC
PUBLIC _sk_scale_u8_sse41
_sk_scale_u8_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,52 ; jne 14a06 <_sk_scale_u8_sse41+0x4c>
- DB 102,71,15,56,49,4,25 ; pmovzxbd (%r9,%r11,1),%xmm8
- DB 102,68,15,219,5,94,129,1,0 ; pand 0x1815e(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,52 ; jne 149ef <_sk_scale_u8_sse41+0x4c>
+ DB 102,71,15,56,49,4,16 ; pmovzxbd (%r8,%r10,1),%xmm8
+ DB 102,68,15,219,5,37,130,1,0 ; pand 0x18225(%rip),%xmm8 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 69,15,91,192 ; cvtdq2ps %xmm8,%xmm8
- DB 68,15,89,5,162,130,1,0 ; mulps 0x182a2(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,89,5,105,131,1,0 ; mulps 0x18369(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 65,15,89,200 ; mulps %xmm8,%xmm1
DB 65,15,89,208 ; mulps %xmm8,%xmm2
@@ -19243,51 +19263,51 @@ _sk_scale_u8_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,216 ; movaps %xmm8,%xmm3
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,59 ; je 14a4e <_sk_scale_u8_sse41+0x94>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,59 ; je 14a37 <_sk_scale_u8_sse41+0x94>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,23 ; je 14a35 <_sk_scale_u8_sse41+0x7b>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,181 ; jne 149d9 <_sk_scale_u8_sse41+0x1f>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,23 ; je 14a1e <_sk_scale_u8_sse41+0x7b>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,181 ; jne 149c2 <_sk_scale_u8_sse41+0x1f>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
DB 102,69,15,112,192,69 ; pshufd $0x45,%xmm8,%xmm8
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,68,15,110,200 ; movd %eax,%xmm9
DB 102,69,15,56,49,201 ; pmovzxbd %xmm9,%xmm9
DB 102,69,15,58,14,193,15 ; pblendw $0xf,%xmm9,%xmm8
- DB 235,139 ; jmp 149d9 <_sk_scale_u8_sse41+0x1f>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 235,139 ; jmp 149c2 <_sk_scale_u8_sse41+0x1f>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
- DB 233,124,255,255,255 ; jmpq 149d9 <_sk_scale_u8_sse41+0x1f>
+ DB 233,124,255,255,255 ; jmpq 149c2 <_sk_scale_u8_sse41+0x1f>
PUBLIC _sk_scale_565_sse41
_sk_scale_565_sse41 LABEL PROC
DB 102,68,15,111,192 ; movdqa %xmm0,%xmm8
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,159,0,0,0 ; jne 14b20 <_sk_scale_565_sse41+0xc3>
- DB 102,71,15,56,51,28,89 ; pmovzxwd (%r9,%r11,2),%xmm11
- DB 102,15,111,5,16,130,1,0 ; movdqa 0x18210(%rip),%xmm0 # 2cca0 <_sk_overlay_sse2_8bit+0x1053>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,159,0,0,0 ; jne 14b09 <_sk_scale_565_sse41+0xc3>
+ DB 102,71,15,56,51,28,80 ; pmovzxwd (%r8,%r10,2),%xmm11
+ DB 102,15,111,5,215,130,1,0 ; movdqa 0x182d7(%rip),%xmm0 # 2cd50 <_sk_overlay_sse2_8bit+0x10db>
DB 102,65,15,219,195 ; pand %xmm11,%xmm0
DB 68,15,91,200 ; cvtdq2ps %xmm0,%xmm9
- DB 68,15,89,13,15,130,1,0 ; mulps 0x1820f(%rip),%xmm9 # 2ccb0 <_sk_overlay_sse2_8bit+0x1063>
- DB 102,15,111,5,23,130,1,0 ; movdqa 0x18217(%rip),%xmm0 # 2ccc0 <_sk_overlay_sse2_8bit+0x1073>
+ DB 68,15,89,13,214,130,1,0 ; mulps 0x182d6(%rip),%xmm9 # 2cd60 <_sk_overlay_sse2_8bit+0x10eb>
+ DB 102,15,111,5,222,130,1,0 ; movdqa 0x182de(%rip),%xmm0 # 2cd70 <_sk_overlay_sse2_8bit+0x10fb>
DB 102,65,15,219,195 ; pand %xmm11,%xmm0
DB 68,15,91,208 ; cvtdq2ps %xmm0,%xmm10
- DB 68,15,89,21,22,130,1,0 ; mulps 0x18216(%rip),%xmm10 # 2ccd0 <_sk_overlay_sse2_8bit+0x1083>
- DB 102,68,15,219,29,29,130,1,0 ; pand 0x1821d(%rip),%xmm11 # 2cce0 <_sk_overlay_sse2_8bit+0x1093>
+ DB 68,15,89,21,221,130,1,0 ; mulps 0x182dd(%rip),%xmm10 # 2cd80 <_sk_overlay_sse2_8bit+0x110b>
+ DB 102,68,15,219,29,228,130,1,0 ; pand 0x182e4(%rip),%xmm11 # 2cd90 <_sk_overlay_sse2_8bit+0x111b>
DB 69,15,91,219 ; cvtdq2ps %xmm11,%xmm11
- DB 68,15,89,29,33,130,1,0 ; mulps 0x18221(%rip),%xmm11 # 2ccf0 <_sk_overlay_sse2_8bit+0x10a3>
+ DB 68,15,89,29,232,130,1,0 ; mulps 0x182e8(%rip),%xmm11 # 2cda0 <_sk_overlay_sse2_8bit+0x112b>
DB 15,40,195 ; movaps %xmm3,%xmm0
DB 15,194,199,1 ; cmpltps %xmm7,%xmm0
DB 69,15,40,226 ; movaps %xmm10,%xmm12
@@ -19309,25 +19329,25 @@ _sk_scale_565_sse41 LABEL PROC
DB 65,15,40,211 ; movaps %xmm11,%xmm2
DB 65,15,40,220 ; movaps %xmm12,%xmm3
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,60 ; je 14b69 <_sk_scale_565_sse41+0x10c>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,60 ; je 14b52 <_sk_scale_565_sse41+0x10c>
DB 102,69,15,239,219 ; pxor %xmm11,%xmm11
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,26 ; je 14b52 <_sk_scale_565_sse41+0xf5>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 15,133,70,255,255,255 ; jne 14a88 <_sk_scale_565_sse41+0x2b>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,26 ; je 14b3b <_sk_scale_565_sse41+0xf5>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 15,133,70,255,255,255 ; jne 14a71 <_sk_scale_565_sse41+0x2b>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,68,15,112,216,69 ; pshufd $0x45,%xmm0,%xmm11
- DB 102,67,15,110,4,89 ; movd (%r9,%r11,2),%xmm0
+ DB 102,67,15,110,4,80 ; movd (%r8,%r10,2),%xmm0
DB 102,15,56,51,192 ; pmovzxwd %xmm0,%xmm0
DB 102,68,15,58,14,216,15 ; pblendw $0xf,%xmm0,%xmm11
- DB 233,31,255,255,255 ; jmpq 14a88 <_sk_scale_565_sse41+0x2b>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,31,255,255,255 ; jmpq 14a71 <_sk_scale_565_sse41+0x2b>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,68,15,110,216 ; movd %eax,%xmm11
- DB 233,16,255,255,255 ; jmpq 14a88 <_sk_scale_565_sse41+0x2b>
+ DB 233,16,255,255,255 ; jmpq 14a71 <_sk_scale_565_sse41+0x2b>
PUBLIC _sk_lerp_1_float_sse41
_sk_lerp_1_float_sse41 LABEL PROC
@@ -19352,17 +19372,17 @@ _sk_lerp_1_float_sse41 LABEL PROC
PUBLIC _sk_lerp_u8_sse41
_sk_lerp_u8_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,72 ; jne 14c10 <_sk_lerp_u8_sse41+0x60>
- DB 102,71,15,56,49,4,25 ; pmovzxbd (%r9,%r11,1),%xmm8
- DB 102,68,15,219,5,104,127,1,0 ; pand 0x17f68(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,72 ; jne 14bf9 <_sk_lerp_u8_sse41+0x60>
+ DB 102,71,15,56,49,4,16 ; pmovzxbd (%r8,%r10,1),%xmm8
+ DB 102,68,15,219,5,47,128,1,0 ; pand 0x1802f(%rip),%xmm8 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 69,15,91,192 ; cvtdq2ps %xmm8,%xmm8
- DB 68,15,89,5,172,128,1,0 ; mulps 0x180ac(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,89,5,115,129,1,0 ; mulps 0x18173(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 15,92,196 ; subps %xmm4,%xmm0
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 15,88,196 ; addps %xmm4,%xmm0
@@ -19377,51 +19397,51 @@ _sk_lerp_u8_sse41 LABEL PROC
DB 15,88,223 ; addps %xmm7,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,62 ; je 14c5b <_sk_lerp_u8_sse41+0xab>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,62 ; je 14c44 <_sk_lerp_u8_sse41+0xab>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,23 ; je 14c3f <_sk_lerp_u8_sse41+0x8f>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,161 ; jne 14bcf <_sk_lerp_u8_sse41+0x1f>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,23 ; je 14c28 <_sk_lerp_u8_sse41+0x8f>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,161 ; jne 14bb8 <_sk_lerp_u8_sse41+0x1f>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
DB 102,69,15,112,192,69 ; pshufd $0x45,%xmm8,%xmm8
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,68,15,110,200 ; movd %eax,%xmm9
DB 102,69,15,56,49,201 ; pmovzxbd %xmm9,%xmm9
DB 102,69,15,58,14,193,15 ; pblendw $0xf,%xmm9,%xmm8
- DB 233,116,255,255,255 ; jmpq 14bcf <_sk_lerp_u8_sse41+0x1f>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 233,116,255,255,255 ; jmpq 14bb8 <_sk_lerp_u8_sse41+0x1f>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
- DB 233,101,255,255,255 ; jmpq 14bcf <_sk_lerp_u8_sse41+0x1f>
+ DB 233,101,255,255,255 ; jmpq 14bb8 <_sk_lerp_u8_sse41+0x1f>
PUBLIC _sk_lerp_565_sse41
_sk_lerp_565_sse41 LABEL PROC
DB 102,68,15,111,192 ; movdqa %xmm0,%xmm8
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,165,0,0,0 ; jne 14d33 <_sk_lerp_565_sse41+0xc9>
- DB 102,71,15,56,51,20,89 ; pmovzxwd (%r9,%r11,2),%xmm10
- DB 102,15,111,5,3,128,1,0 ; movdqa 0x18003(%rip),%xmm0 # 2cca0 <_sk_overlay_sse2_8bit+0x1053>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,165,0,0,0 ; jne 14d1c <_sk_lerp_565_sse41+0xc9>
+ DB 102,71,15,56,51,20,80 ; pmovzxwd (%r8,%r10,2),%xmm10
+ DB 102,15,111,5,202,128,1,0 ; movdqa 0x180ca(%rip),%xmm0 # 2cd50 <_sk_overlay_sse2_8bit+0x10db>
DB 102,65,15,219,194 ; pand %xmm10,%xmm0
DB 68,15,91,200 ; cvtdq2ps %xmm0,%xmm9
- DB 68,15,89,13,2,128,1,0 ; mulps 0x18002(%rip),%xmm9 # 2ccb0 <_sk_overlay_sse2_8bit+0x1063>
- DB 102,15,111,5,10,128,1,0 ; movdqa 0x1800a(%rip),%xmm0 # 2ccc0 <_sk_overlay_sse2_8bit+0x1073>
+ DB 68,15,89,13,201,128,1,0 ; mulps 0x180c9(%rip),%xmm9 # 2cd60 <_sk_overlay_sse2_8bit+0x10eb>
+ DB 102,15,111,5,209,128,1,0 ; movdqa 0x180d1(%rip),%xmm0 # 2cd70 <_sk_overlay_sse2_8bit+0x10fb>
DB 102,65,15,219,194 ; pand %xmm10,%xmm0
DB 68,15,91,216 ; cvtdq2ps %xmm0,%xmm11
- DB 68,15,89,29,9,128,1,0 ; mulps 0x18009(%rip),%xmm11 # 2ccd0 <_sk_overlay_sse2_8bit+0x1083>
- DB 102,68,15,219,21,16,128,1,0 ; pand 0x18010(%rip),%xmm10 # 2cce0 <_sk_overlay_sse2_8bit+0x1093>
+ DB 68,15,89,29,208,128,1,0 ; mulps 0x180d0(%rip),%xmm11 # 2cd80 <_sk_overlay_sse2_8bit+0x110b>
+ DB 102,68,15,219,21,215,128,1,0 ; pand 0x180d7(%rip),%xmm10 # 2cd90 <_sk_overlay_sse2_8bit+0x111b>
DB 69,15,91,210 ; cvtdq2ps %xmm10,%xmm10
- DB 68,15,89,21,20,128,1,0 ; mulps 0x18014(%rip),%xmm10 # 2ccf0 <_sk_overlay_sse2_8bit+0x10a3>
+ DB 68,15,89,21,219,128,1,0 ; mulps 0x180db(%rip),%xmm10 # 2cda0 <_sk_overlay_sse2_8bit+0x112b>
DB 15,40,195 ; movaps %xmm3,%xmm0
DB 15,194,199,1 ; cmpltps %xmm7,%xmm0
DB 69,15,40,227 ; movaps %xmm11,%xmm12
@@ -19446,114 +19466,111 @@ _sk_lerp_565_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,60 ; je 14d7c <_sk_lerp_565_sse41+0x112>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,60 ; je 14d65 <_sk_lerp_565_sse41+0x112>
DB 102,69,15,239,210 ; pxor %xmm10,%xmm10
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,26 ; je 14d65 <_sk_lerp_565_sse41+0xfb>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 15,133,64,255,255,255 ; jne 14c95 <_sk_lerp_565_sse41+0x2b>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,26 ; je 14d4e <_sk_lerp_565_sse41+0xfb>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 15,133,64,255,255,255 ; jne 14c7e <_sk_lerp_565_sse41+0x2b>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,68,15,112,208,69 ; pshufd $0x45,%xmm0,%xmm10
- DB 102,67,15,110,4,89 ; movd (%r9,%r11,2),%xmm0
+ DB 102,67,15,110,4,80 ; movd (%r8,%r10,2),%xmm0
DB 102,15,56,51,192 ; pmovzxwd %xmm0,%xmm0
DB 102,68,15,58,14,208,15 ; pblendw $0xf,%xmm0,%xmm10
- DB 233,25,255,255,255 ; jmpq 14c95 <_sk_lerp_565_sse41+0x2b>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,25,255,255,255 ; jmpq 14c7e <_sk_lerp_565_sse41+0x2b>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,68,15,110,208 ; movd %eax,%xmm10
- DB 233,10,255,255,255 ; jmpq 14c95 <_sk_lerp_565_sse41+0x2b>
+ DB 233,10,255,255,255 ; jmpq 14c7e <_sk_lerp_565_sse41+0x2b>
PUBLIC _sk_load_tables_sse41
_sk_load_tables_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,24,1,0,0 ; jne 14eb1 <_sk_load_tables_sse41+0x126>
- DB 243,69,15,111,4,145 ; movdqu (%r9,%rdx,4),%xmm8
- DB 65,87 ; push %r15
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,20,1,0,0 ; jne 14e96 <_sk_load_tables_sse41+0x122>
+ DB 243,69,15,111,4,144 ; movdqu (%r8,%rdx,4),%xmm8
DB 65,86 ; push %r14
DB 83 ; push %rbx
- DB 102,15,111,5,148,125,1,0 ; movdqa 0x17d94(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,15,111,5,93,126,1,0 ; movdqa 0x17e5d(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,65,15,219,192 ; pand %xmm8,%xmm0
- DB 102,73,15,58,22,193,1 ; pextrq $0x1,%xmm0,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 69,15,182,218 ; movzbl %r10b,%r11d
- DB 73,193,234,30 ; shr $0x1e,%r10
- DB 69,15,182,241 ; movzbl %r9b,%r14d
+ DB 102,73,15,58,22,192,1 ; pextrq $0x1,%xmm0,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 69,15,182,209 ; movzbl %r9b,%r10d
DB 73,193,233,30 ; shr $0x1e,%r9
+ DB 69,15,182,216 ; movzbl %r8b,%r11d
+ DB 73,193,232,30 ; shr $0x1e,%r8
DB 72,139,88,8 ; mov 0x8(%rax),%rbx
- DB 76,139,120,16 ; mov 0x10(%rax),%r15
- DB 243,66,15,16,4,155 ; movss (%rbx,%r11,4),%xmm0
- DB 102,66,15,58,33,4,19,16 ; insertps $0x10,(%rbx,%r10,1),%xmm0
- DB 102,66,15,58,33,4,179,32 ; insertps $0x20,(%rbx,%r14,4),%xmm0
- DB 102,66,15,58,33,4,11,48 ; insertps $0x30,(%rbx,%r9,1),%xmm0
+ DB 76,139,112,16 ; mov 0x10(%rax),%r14
+ DB 243,66,15,16,4,147 ; movss (%rbx,%r10,4),%xmm0
+ DB 102,66,15,58,33,4,11,16 ; insertps $0x10,(%rbx,%r9,1),%xmm0
+ DB 102,66,15,58,33,4,155,32 ; insertps $0x20,(%rbx,%r11,4),%xmm0
+ DB 102,66,15,58,33,4,3,48 ; insertps $0x30,(%rbx,%r8,1),%xmm0
DB 102,65,15,111,200 ; movdqa %xmm8,%xmm1
- DB 102,15,56,0,13,79,125,1,0 ; pshufb 0x17d4f(%rip),%xmm1 # 2cb50 <_sk_overlay_sse2_8bit+0xf03>
- DB 102,73,15,58,22,201,1 ; pextrq $0x1,%xmm1,%r9
+ DB 102,15,56,0,13,24,126,1,0 ; pshufb 0x17e18(%rip),%xmm1 # 2cc00 <_sk_overlay_sse2_8bit+0xf8b>
+ DB 102,73,15,58,22,200,1 ; pextrq $0x1,%xmm1,%r8
DB 102,72,15,126,203 ; movq %xmm1,%rbx
- DB 68,15,182,211 ; movzbl %bl,%r10d
+ DB 68,15,182,203 ; movzbl %bl,%r9d
DB 72,193,235,30 ; shr $0x1e,%rbx
- DB 69,15,182,217 ; movzbl %r9b,%r11d
- DB 73,193,233,30 ; shr $0x1e,%r9
- DB 243,67,15,16,12,151 ; movss (%r15,%r10,4),%xmm1
- DB 102,65,15,58,33,12,31,16 ; insertps $0x10,(%r15,%rbx,1),%xmm1
- DB 243,67,15,16,20,159 ; movss (%r15,%r11,4),%xmm2
+ DB 69,15,182,208 ; movzbl %r8b,%r10d
+ DB 73,193,232,30 ; shr $0x1e,%r8
+ DB 243,67,15,16,12,142 ; movss (%r14,%r9,4),%xmm1
+ DB 102,65,15,58,33,12,30,16 ; insertps $0x10,(%r14,%rbx,1),%xmm1
+ DB 243,67,15,16,20,150 ; movss (%r14,%r10,4),%xmm2
DB 102,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm1
- DB 243,67,15,16,20,15 ; movss (%r15,%r9,1),%xmm2
+ DB 243,67,15,16,20,6 ; movss (%r14,%r8,1),%xmm2
DB 102,15,58,33,202,48 ; insertps $0x30,%xmm2,%xmm1
- DB 76,139,72,24 ; mov 0x18(%rax),%r9
+ DB 76,139,64,24 ; mov 0x18(%rax),%r8
DB 102,65,15,111,208 ; movdqa %xmm8,%xmm2
- DB 102,15,56,0,21,11,125,1,0 ; pshufb 0x17d0b(%rip),%xmm2 # 2cb60 <_sk_overlay_sse2_8bit+0xf13>
+ DB 102,15,56,0,21,212,125,1,0 ; pshufb 0x17dd4(%rip),%xmm2 # 2cc10 <_sk_overlay_sse2_8bit+0xf9b>
DB 102,72,15,58,22,211,1 ; pextrq $0x1,%xmm2,%rbx
DB 102,72,15,126,208 ; movq %xmm2,%rax
- DB 68,15,182,208 ; movzbl %al,%r10d
+ DB 68,15,182,200 ; movzbl %al,%r9d
DB 72,193,232,30 ; shr $0x1e,%rax
- DB 68,15,182,219 ; movzbl %bl,%r11d
+ DB 68,15,182,211 ; movzbl %bl,%r10d
DB 72,193,235,30 ; shr $0x1e,%rbx
- DB 243,67,15,16,20,145 ; movss (%r9,%r10,4),%xmm2
- DB 102,65,15,58,33,20,1,16 ; insertps $0x10,(%r9,%rax,1),%xmm2
- DB 243,67,15,16,28,153 ; movss (%r9,%r11,4),%xmm3
+ DB 243,67,15,16,20,136 ; movss (%r8,%r9,4),%xmm2
+ DB 102,65,15,58,33,20,0,16 ; insertps $0x10,(%r8,%rax,1),%xmm2
+ DB 243,67,15,16,28,144 ; movss (%r8,%r10,4),%xmm3
DB 102,15,58,33,211,32 ; insertps $0x20,%xmm3,%xmm2
- DB 243,65,15,16,28,25 ; movss (%r9,%rbx,1),%xmm3
+ DB 243,65,15,16,28,24 ; movss (%r8,%rbx,1),%xmm3
DB 102,15,58,33,211,48 ; insertps $0x30,%xmm3,%xmm2
DB 102,65,15,114,208,24 ; psrld $0x18,%xmm8
DB 65,15,91,216 ; cvtdq2ps %xmm8,%xmm3
- DB 15,89,29,232,125,1,0 ; mulps 0x17de8(%rip),%xmm3 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,29,177,126,1,0 ; mulps 0x17eb1(%rip),%xmm3 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,52 ; je 14ef2 <_sk_load_tables_sse41+0x167>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,52 ; je 14ed7 <_sk_load_tables_sse41+0x163>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,23 ; je 14ee0 <_sk_load_tables_sse41+0x155>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 15,133,204,254,255,255 ; jne 14d9f <_sk_load_tables_sse41+0x14>
- DB 102,65,15,110,68,145,8 ; movd 0x8(%r9,%rdx,4),%xmm0
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,23 ; je 14ec5 <_sk_load_tables_sse41+0x151>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 15,133,208,254,255,255 ; jne 14d88 <_sk_load_tables_sse41+0x14>
+ DB 102,65,15,110,68,144,8 ; movd 0x8(%r8,%rdx,4),%xmm0
DB 102,68,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm8
- DB 243,65,15,126,4,145 ; movq (%r9,%rdx,4),%xmm0
+ DB 243,65,15,126,4,144 ; movq (%r8,%rdx,4),%xmm0
DB 102,68,15,58,14,192,15 ; pblendw $0xf,%xmm0,%xmm8
- DB 233,173,254,255,255 ; jmpq 14d9f <_sk_load_tables_sse41+0x14>
- DB 102,69,15,110,4,145 ; movd (%r9,%rdx,4),%xmm8
- DB 233,162,254,255,255 ; jmpq 14d9f <_sk_load_tables_sse41+0x14>
+ DB 233,177,254,255,255 ; jmpq 14d88 <_sk_load_tables_sse41+0x14>
+ DB 102,69,15,110,4,144 ; movd (%r8,%rdx,4),%xmm8
+ DB 233,166,254,255,255 ; jmpq 14d88 <_sk_load_tables_sse41+0x14>
PUBLIC _sk_load_tables_u16_be_sse41
_sk_load_tables_u16_be_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 76,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,99,1,0,0 ; jne 15076 <_sk_load_tables_u16_be_sse41+0x179>
- DB 102,67,15,16,4,81 ; movupd (%r9,%r10,2),%xmm0
- DB 243,67,15,111,76,81,16 ; movdqu 0x10(%r9,%r10,2),%xmm1
- DB 65,87 ; push %r15
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 76,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,95,1,0,0 ; jne 15057 <_sk_load_tables_u16_be_sse41+0x175>
+ DB 102,67,15,16,4,72 ; movupd (%r8,%r9,2),%xmm0
+ DB 243,67,15,111,76,72,16 ; movdqu 0x10(%r8,%r9,2),%xmm1
DB 65,86 ; push %r14
DB 83 ; push %rbx
DB 102,68,15,40,200 ; movapd %xmm0,%xmm9
@@ -19562,52 +19579,52 @@ _sk_load_tables_u16_be_sse41 LABEL PROC
DB 102,65,15,111,201 ; movdqa %xmm9,%xmm1
DB 102,15,97,200 ; punpcklwd %xmm0,%xmm1
DB 102,68,15,105,200 ; punpckhwd %xmm0,%xmm9
- DB 102,68,15,111,5,182,125,1,0 ; movdqa 0x17db6(%rip),%xmm8 # 2cd00 <_sk_overlay_sse2_8bit+0x10b3>
+ DB 102,68,15,111,5,131,126,1,0 ; movdqa 0x17e83(%rip),%xmm8 # 2cdb0 <_sk_overlay_sse2_8bit+0x113b>
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
DB 102,65,15,219,192 ; pand %xmm8,%xmm0
DB 102,15,56,51,192 ; pmovzxwd %xmm0,%xmm0
- DB 102,73,15,58,22,193,1 ; pextrq $0x1,%xmm0,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 69,15,182,218 ; movzbl %r10b,%r11d
- DB 73,193,234,30 ; shr $0x1e,%r10
- DB 69,15,182,241 ; movzbl %r9b,%r14d
+ DB 102,73,15,58,22,192,1 ; pextrq $0x1,%xmm0,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 69,15,182,209 ; movzbl %r9b,%r10d
DB 73,193,233,30 ; shr $0x1e,%r9
+ DB 69,15,182,216 ; movzbl %r8b,%r11d
+ DB 73,193,232,30 ; shr $0x1e,%r8
DB 72,139,88,8 ; mov 0x8(%rax),%rbx
- DB 76,139,120,16 ; mov 0x10(%rax),%r15
- DB 243,66,15,16,4,155 ; movss (%rbx,%r11,4),%xmm0
- DB 102,66,15,58,33,4,19,16 ; insertps $0x10,(%rbx,%r10,1),%xmm0
- DB 243,66,15,16,20,179 ; movss (%rbx,%r14,4),%xmm2
+ DB 76,139,112,16 ; mov 0x10(%rax),%r14
+ DB 243,66,15,16,4,147 ; movss (%rbx,%r10,4),%xmm0
+ DB 102,66,15,58,33,4,11,16 ; insertps $0x10,(%rbx,%r9,1),%xmm0
+ DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
DB 102,15,58,33,194,32 ; insertps $0x20,%xmm2,%xmm0
- DB 243,66,15,16,20,11 ; movss (%rbx,%r9,1),%xmm2
+ DB 243,66,15,16,20,3 ; movss (%rbx,%r8,1),%xmm2
DB 102,15,58,33,194,48 ; insertps $0x30,%xmm2,%xmm0
- DB 102,15,56,0,13,101,125,1,0 ; pshufb 0x17d65(%rip),%xmm1 # 2cd10 <_sk_overlay_sse2_8bit+0x10c3>
+ DB 102,15,56,0,13,50,126,1,0 ; pshufb 0x17e32(%rip),%xmm1 # 2cdc0 <_sk_overlay_sse2_8bit+0x114b>
DB 102,15,56,51,201 ; pmovzxwd %xmm1,%xmm1
- DB 102,73,15,58,22,201,1 ; pextrq $0x1,%xmm1,%r9
+ DB 102,73,15,58,22,200,1 ; pextrq $0x1,%xmm1,%r8
DB 102,72,15,126,203 ; movq %xmm1,%rbx
- DB 68,15,182,211 ; movzbl %bl,%r10d
+ DB 68,15,182,203 ; movzbl %bl,%r9d
DB 72,193,235,30 ; shr $0x1e,%rbx
- DB 69,15,182,217 ; movzbl %r9b,%r11d
- DB 73,193,233,30 ; shr $0x1e,%r9
- DB 243,67,15,16,12,151 ; movss (%r15,%r10,4),%xmm1
- DB 102,65,15,58,33,12,31,16 ; insertps $0x10,(%r15,%rbx,1),%xmm1
- DB 243,67,15,16,20,159 ; movss (%r15,%r11,4),%xmm2
+ DB 69,15,182,208 ; movzbl %r8b,%r10d
+ DB 73,193,232,30 ; shr $0x1e,%r8
+ DB 243,67,15,16,12,142 ; movss (%r14,%r9,4),%xmm1
+ DB 102,65,15,58,33,12,30,16 ; insertps $0x10,(%r14,%rbx,1),%xmm1
+ DB 243,67,15,16,20,150 ; movss (%r14,%r10,4),%xmm2
DB 102,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm1
- DB 243,67,15,16,20,15 ; movss (%r15,%r9,1),%xmm2
+ DB 243,67,15,16,20,6 ; movss (%r14,%r8,1),%xmm2
DB 102,15,58,33,202,48 ; insertps $0x30,%xmm2,%xmm1
- DB 76,139,72,24 ; mov 0x18(%rax),%r9
+ DB 76,139,64,24 ; mov 0x18(%rax),%r8
DB 102,69,15,219,193 ; pand %xmm9,%xmm8
DB 102,65,15,56,51,208 ; pmovzxwd %xmm8,%xmm2
DB 102,72,15,58,22,211,1 ; pextrq $0x1,%xmm2,%rbx
DB 102,72,15,126,208 ; movq %xmm2,%rax
- DB 68,15,182,208 ; movzbl %al,%r10d
+ DB 68,15,182,200 ; movzbl %al,%r9d
DB 72,193,232,30 ; shr $0x1e,%rax
- DB 68,15,182,219 ; movzbl %bl,%r11d
+ DB 68,15,182,211 ; movzbl %bl,%r10d
DB 72,193,235,30 ; shr $0x1e,%rbx
- DB 243,67,15,16,20,145 ; movss (%r9,%r10,4),%xmm2
- DB 102,65,15,58,33,20,1,16 ; insertps $0x10,(%r9,%rax,1),%xmm2
- DB 243,67,15,16,28,153 ; movss (%r9,%r11,4),%xmm3
+ DB 243,67,15,16,20,136 ; movss (%r8,%r9,4),%xmm2
+ DB 102,65,15,58,33,20,0,16 ; insertps $0x10,(%r8,%rax,1),%xmm2
+ DB 243,67,15,16,28,144 ; movss (%r8,%r10,4),%xmm3
DB 102,15,58,33,211,32 ; insertps $0x20,%xmm3,%xmm2
- DB 243,65,15,16,28,25 ; movss (%r9,%rbx,1),%xmm3
+ DB 243,65,15,16,28,24 ; movss (%r8,%rbx,1),%xmm3
DB 102,15,58,33,211,48 ; insertps $0x30,%xmm3,%xmm2
DB 102,65,15,112,217,78 ; pshufd $0x4e,%xmm9,%xmm3
DB 102,68,15,111,195 ; movdqa %xmm3,%xmm8
@@ -19616,204 +19633,199 @@ _sk_load_tables_u16_be_sse41 LABEL PROC
DB 102,65,15,235,216 ; por %xmm8,%xmm3
DB 102,15,56,51,219 ; pmovzxwd %xmm3,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
- DB 15,89,29,179,124,1,0 ; mulps 0x17cb3(%rip),%xmm3 # 2cd20 <_sk_overlay_sse2_8bit+0x10d3>
+ DB 15,89,29,128,125,1,0 ; mulps 0x17d80(%rip),%xmm3 # 2cdd0 <_sk_overlay_sse2_8bit+0x115b>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
- DB 242,67,15,16,4,81 ; movsd (%r9,%r10,2),%xmm0
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,13 ; jne 1508f <_sk_load_tables_u16_be_sse41+0x192>
+ DB 242,67,15,16,4,72 ; movsd (%r8,%r9,2),%xmm0
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,13 ; jne 15070 <_sk_load_tables_u16_be_sse41+0x18e>
DB 243,15,126,192 ; movq %xmm0,%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 233,145,254,255,255 ; jmpq 14f20 <_sk_load_tables_u16_be_sse41+0x23>
- DB 102,67,15,22,68,81,8 ; movhpd 0x8(%r9,%r10,2),%xmm0
+ DB 233,149,254,255,255 ; jmpq 14f05 <_sk_load_tables_u16_be_sse41+0x23>
+ DB 102,67,15,22,68,72,8 ; movhpd 0x8(%r8,%r9,2),%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 15,130,124,254,255,255 ; jb 14f20 <_sk_load_tables_u16_be_sse41+0x23>
- DB 243,67,15,126,76,81,16 ; movq 0x10(%r9,%r10,2),%xmm1
- DB 233,112,254,255,255 ; jmpq 14f20 <_sk_load_tables_u16_be_sse41+0x23>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 15,130,128,254,255,255 ; jb 14f05 <_sk_load_tables_u16_be_sse41+0x23>
+ DB 243,67,15,126,76,72,16 ; movq 0x10(%r8,%r9,2),%xmm1
+ DB 233,116,254,255,255 ; jmpq 14f05 <_sk_load_tables_u16_be_sse41+0x23>
PUBLIC _sk_load_tables_rgb_u16_be_sse41
_sk_load_tables_rgb_u16_be_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 76,141,20,82 ; lea (%rdx,%rdx,2),%r10
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,83,1,0,0 ; jne 15215 <_sk_load_tables_rgb_u16_be_sse41+0x165>
- DB 243,67,15,111,20,81 ; movdqu (%r9,%r10,2),%xmm2
- DB 243,67,15,111,76,81,8 ; movdqu 0x8(%r9,%r10,2),%xmm1
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 76,141,12,82 ; lea (%rdx,%rdx,2),%r9
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,79,1,0,0 ; jne 151f2 <_sk_load_tables_rgb_u16_be_sse41+0x161>
+ DB 243,67,15,111,20,72 ; movdqu (%r8,%r9,2),%xmm2
+ DB 243,67,15,111,76,72,8 ; movdqu 0x8(%r8,%r9,2),%xmm1
DB 102,15,115,217,4 ; psrldq $0x4,%xmm1
DB 102,68,15,111,202 ; movdqa %xmm2,%xmm9
DB 102,65,15,115,217,6 ; psrldq $0x6,%xmm9
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
DB 102,15,115,216,6 ; psrldq $0x6,%xmm0
- DB 65,87 ; push %r15
DB 65,86 ; push %r14
DB 83 ; push %rbx
DB 102,15,97,209 ; punpcklwd %xmm1,%xmm2
DB 102,68,15,97,200 ; punpcklwd %xmm0,%xmm9
DB 102,15,111,202 ; movdqa %xmm2,%xmm1
DB 102,65,15,97,201 ; punpcklwd %xmm9,%xmm1
- DB 102,68,15,111,5,248,123,1,0 ; movdqa 0x17bf8(%rip),%xmm8 # 2cd00 <_sk_overlay_sse2_8bit+0x10b3>
+ DB 102,68,15,111,5,201,124,1,0 ; movdqa 0x17cc9(%rip),%xmm8 # 2cdb0 <_sk_overlay_sse2_8bit+0x113b>
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
DB 102,65,15,219,192 ; pand %xmm8,%xmm0
DB 102,15,56,51,192 ; pmovzxwd %xmm0,%xmm0
- DB 102,73,15,58,22,193,1 ; pextrq $0x1,%xmm0,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 69,15,182,218 ; movzbl %r10b,%r11d
- DB 73,193,234,30 ; shr $0x1e,%r10
- DB 69,15,182,241 ; movzbl %r9b,%r14d
+ DB 102,73,15,58,22,192,1 ; pextrq $0x1,%xmm0,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 69,15,182,209 ; movzbl %r9b,%r10d
DB 73,193,233,30 ; shr $0x1e,%r9
+ DB 69,15,182,216 ; movzbl %r8b,%r11d
+ DB 73,193,232,30 ; shr $0x1e,%r8
DB 72,139,88,8 ; mov 0x8(%rax),%rbx
- DB 76,139,120,16 ; mov 0x10(%rax),%r15
- DB 243,66,15,16,4,155 ; movss (%rbx,%r11,4),%xmm0
- DB 102,66,15,58,33,4,19,16 ; insertps $0x10,(%rbx,%r10,1),%xmm0
- DB 243,66,15,16,28,179 ; movss (%rbx,%r14,4),%xmm3
+ DB 76,139,112,16 ; mov 0x10(%rax),%r14
+ DB 243,66,15,16,4,147 ; movss (%rbx,%r10,4),%xmm0
+ DB 102,66,15,58,33,4,11,16 ; insertps $0x10,(%rbx,%r9,1),%xmm0
+ DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
DB 102,15,58,33,195,32 ; insertps $0x20,%xmm3,%xmm0
- DB 243,66,15,16,28,11 ; movss (%rbx,%r9,1),%xmm3
+ DB 243,66,15,16,28,3 ; movss (%rbx,%r8,1),%xmm3
DB 102,15,58,33,195,48 ; insertps $0x30,%xmm3,%xmm0
- DB 102,15,56,0,13,199,123,1,0 ; pshufb 0x17bc7(%rip),%xmm1 # 2cd30 <_sk_overlay_sse2_8bit+0x10e3>
+ DB 102,15,56,0,13,152,124,1,0 ; pshufb 0x17c98(%rip),%xmm1 # 2cde0 <_sk_overlay_sse2_8bit+0x116b>
DB 102,15,56,51,201 ; pmovzxwd %xmm1,%xmm1
- DB 102,73,15,58,22,201,1 ; pextrq $0x1,%xmm1,%r9
+ DB 102,73,15,58,22,200,1 ; pextrq $0x1,%xmm1,%r8
DB 102,72,15,126,203 ; movq %xmm1,%rbx
- DB 68,15,182,211 ; movzbl %bl,%r10d
+ DB 68,15,182,203 ; movzbl %bl,%r9d
DB 72,193,235,30 ; shr $0x1e,%rbx
- DB 69,15,182,217 ; movzbl %r9b,%r11d
- DB 73,193,233,30 ; shr $0x1e,%r9
- DB 243,67,15,16,12,151 ; movss (%r15,%r10,4),%xmm1
- DB 102,65,15,58,33,12,31,16 ; insertps $0x10,(%r15,%rbx,1),%xmm1
- DB 243,67,15,16,28,159 ; movss (%r15,%r11,4),%xmm3
+ DB 69,15,182,208 ; movzbl %r8b,%r10d
+ DB 73,193,232,30 ; shr $0x1e,%r8
+ DB 243,67,15,16,12,142 ; movss (%r14,%r9,4),%xmm1
+ DB 102,65,15,58,33,12,30,16 ; insertps $0x10,(%r14,%rbx,1),%xmm1
+ DB 243,67,15,16,28,150 ; movss (%r14,%r10,4),%xmm3
DB 102,15,58,33,203,32 ; insertps $0x20,%xmm3,%xmm1
- DB 243,67,15,16,28,15 ; movss (%r15,%r9,1),%xmm3
+ DB 243,67,15,16,28,6 ; movss (%r14,%r8,1),%xmm3
DB 102,15,58,33,203,48 ; insertps $0x30,%xmm3,%xmm1
- DB 76,139,72,24 ; mov 0x18(%rax),%r9
+ DB 76,139,64,24 ; mov 0x18(%rax),%r8
DB 102,65,15,105,209 ; punpckhwd %xmm9,%xmm2
DB 102,65,15,219,208 ; pand %xmm8,%xmm2
DB 102,15,56,51,210 ; pmovzxwd %xmm2,%xmm2
DB 102,72,15,58,22,211,1 ; pextrq $0x1,%xmm2,%rbx
DB 102,72,15,126,208 ; movq %xmm2,%rax
- DB 68,15,182,208 ; movzbl %al,%r10d
+ DB 68,15,182,200 ; movzbl %al,%r9d
DB 72,193,232,30 ; shr $0x1e,%rax
- DB 68,15,182,219 ; movzbl %bl,%r11d
+ DB 68,15,182,211 ; movzbl %bl,%r10d
DB 72,193,235,30 ; shr $0x1e,%rbx
- DB 243,67,15,16,20,145 ; movss (%r9,%r10,4),%xmm2
- DB 102,65,15,58,33,20,1,16 ; insertps $0x10,(%r9,%rax,1),%xmm2
- DB 243,67,15,16,28,153 ; movss (%r9,%r11,4),%xmm3
+ DB 243,67,15,16,20,136 ; movss (%r8,%r9,4),%xmm2
+ DB 102,65,15,58,33,20,0,16 ; insertps $0x10,(%r8,%rax,1),%xmm2
+ DB 243,67,15,16,28,144 ; movss (%r8,%r10,4),%xmm3
DB 102,15,58,33,211,32 ; insertps $0x20,%xmm3,%xmm2
- DB 243,65,15,16,28,25 ; movss (%r9,%rbx,1),%xmm3
+ DB 243,65,15,16,28,24 ; movss (%r8,%rbx,1),%xmm3
DB 102,15,58,33,211,48 ; insertps $0x30,%xmm3,%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,130,120,1,0 ; movaps 0x17882(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,83,121,1,0 ; movaps 0x17953(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
- DB 102,67,15,110,20,81 ; movd (%r9,%r10,2),%xmm2
- DB 102,67,15,196,84,81,4,2 ; pinsrw $0x2,0x4(%r9,%r10,2),%xmm2
+ DB 102,67,15,110,20,72 ; movd (%r8,%r9,2),%xmm2
+ DB 102,67,15,196,84,72,4,2 ; pinsrw $0x2,0x4(%r8,%r9,2),%xmm2
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,14 ; jne 1523b <_sk_load_tables_rgb_u16_be_sse41+0x18b>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,14 ; jne 15218 <_sk_load_tables_rgb_u16_be_sse41+0x187>
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
- DB 233,173,254,255,255 ; jmpq 150e8 <_sk_load_tables_rgb_u16_be_sse41+0x38>
- DB 102,71,15,110,76,81,6 ; movd 0x6(%r9,%r10,2),%xmm9
- DB 102,71,15,196,76,81,10,2 ; pinsrw $0x2,0xa(%r9,%r10,2),%xmm9
+ DB 233,177,254,255,255 ; jmpq 150c9 <_sk_load_tables_rgb_u16_be_sse41+0x38>
+ DB 102,71,15,110,76,72,6 ; movd 0x6(%r8,%r9,2),%xmm9
+ DB 102,71,15,196,76,72,10,2 ; pinsrw $0x2,0xa(%r8,%r9,2),%xmm9
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,24 ; jb 1526c <_sk_load_tables_rgb_u16_be_sse41+0x1bc>
- DB 102,67,15,110,76,81,12 ; movd 0xc(%r9,%r10,2),%xmm1
- DB 102,67,15,196,76,81,16,2 ; pinsrw $0x2,0x10(%r9,%r10,2),%xmm1
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,24 ; jb 15249 <_sk_load_tables_rgb_u16_be_sse41+0x1b8>
+ DB 102,67,15,110,76,72,12 ; movd 0xc(%r8,%r9,2),%xmm1
+ DB 102,67,15,196,76,72,16,2 ; pinsrw $0x2,0x10(%r8,%r9,2),%xmm1
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 233,124,254,255,255 ; jmpq 150e8 <_sk_load_tables_rgb_u16_be_sse41+0x38>
+ DB 233,128,254,255,255 ; jmpq 150c9 <_sk_load_tables_rgb_u16_be_sse41+0x38>
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 233,115,254,255,255 ; jmpq 150e8 <_sk_load_tables_rgb_u16_be_sse41+0x38>
+ DB 233,119,254,255,255 ; jmpq 150c9 <_sk_load_tables_rgb_u16_be_sse41+0x38>
PUBLIC _sk_byte_tables_sse41
_sk_byte_tables_sse41 LABEL PROC
DB 65,87 ; push %r15
DB 65,86 ; push %r14
- DB 65,84 ; push %r12
DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,15,40,5,234,120,1,0 ; movaps 0x178ea(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 68,15,40,5,191,121,1,0 ; movaps 0x179bf(%rip),%xmm8 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,91,192 ; cvtps2dq %xmm0,%xmm0
- DB 102,73,15,58,22,193,1 ; pextrq $0x1,%xmm0,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 69,137,222 ; mov %r11d,%r14d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,139,32 ; mov (%rax),%r12
- DB 76,139,120,8 ; mov 0x8(%rax),%r15
- DB 102,67,15,58,32,4,52,0 ; pinsrb $0x0,(%r12,%r14,1),%xmm0
- DB 102,67,15,58,32,4,28,1 ; pinsrb $0x1,(%r12,%r11,1),%xmm0
- DB 67,15,182,28,20 ; movzbl (%r12,%r10,1),%ebx
+ DB 102,73,15,58,22,192,1 ; pextrq $0x1,%xmm0,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,139,56 ; mov (%rax),%r15
+ DB 76,139,112,8 ; mov 0x8(%rax),%r14
+ DB 102,67,15,58,32,4,31,0 ; pinsrb $0x0,(%r15,%r11,1),%xmm0
+ DB 102,67,15,58,32,4,23,1 ; pinsrb $0x1,(%r15,%r10,1),%xmm0
+ DB 67,15,182,28,15 ; movzbl (%r15,%r9,1),%ebx
DB 102,15,58,32,195,2 ; pinsrb $0x2,%ebx,%xmm0
- DB 67,15,182,28,12 ; movzbl (%r12,%r9,1),%ebx
+ DB 67,15,182,28,7 ; movzbl (%r15,%r8,1),%ebx
DB 102,15,58,32,195,3 ; pinsrb $0x3,%ebx,%xmm0
DB 102,15,56,49,192 ; pmovzxbd %xmm0,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 68,15,40,13,171,121,1,0 ; movaps 0x179ab(%rip),%xmm9 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,13,128,122,1,0 ; movaps 0x17a80(%rip),%xmm9 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,193 ; mulps %xmm9,%xmm0
DB 65,15,89,200 ; mulps %xmm8,%xmm1
DB 102,15,91,201 ; cvtps2dq %xmm1,%xmm1
DB 102,72,15,58,22,203,1 ; pextrq $0x1,%xmm1,%rbx
- DB 65,137,217 ; mov %ebx,%r9d
+ DB 65,137,216 ; mov %ebx,%r8d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 69,137,211 ; mov %r10d,%r11d
- DB 73,193,234,32 ; shr $0x20,%r10
- DB 102,67,15,58,32,12,31,0 ; pinsrb $0x0,(%r15,%r11,1),%xmm1
- DB 102,67,15,58,32,12,23,1 ; pinsrb $0x1,(%r15,%r10,1),%xmm1
- DB 71,15,182,12,15 ; movzbl (%r15,%r9,1),%r9d
- DB 102,65,15,58,32,201,2 ; pinsrb $0x2,%r9d,%xmm1
- DB 65,15,182,28,31 ; movzbl (%r15,%rbx,1),%ebx
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 102,67,15,58,32,12,22,0 ; pinsrb $0x0,(%r14,%r10,1),%xmm1
+ DB 102,67,15,58,32,12,14,1 ; pinsrb $0x1,(%r14,%r9,1),%xmm1
+ DB 71,15,182,4,6 ; movzbl (%r14,%r8,1),%r8d
+ DB 102,65,15,58,32,200,2 ; pinsrb $0x2,%r8d,%xmm1
+ DB 65,15,182,28,30 ; movzbl (%r14,%rbx,1),%ebx
DB 102,15,58,32,203,3 ; pinsrb $0x3,%ebx,%xmm1
DB 102,15,56,49,201 ; pmovzxbd %xmm1,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
DB 65,15,89,201 ; mulps %xmm9,%xmm1
- DB 76,139,88,16 ; mov 0x10(%rax),%r11
+ DB 76,139,80,16 ; mov 0x10(%rax),%r10
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 102,15,91,210 ; cvtps2dq %xmm2,%xmm2
- DB 102,73,15,58,22,209,1 ; pextrq $0x1,%xmm2,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 73,193,233,32 ; shr $0x20,%r9
+ DB 102,73,15,58,22,208,1 ; pextrq $0x1,%xmm2,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
DB 102,72,15,126,211 ; movq %xmm2,%rbx
- DB 65,137,222 ; mov %ebx,%r14d
+ DB 65,137,219 ; mov %ebx,%r11d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 102,67,15,58,32,20,51,0 ; pinsrb $0x0,(%r11,%r14,1),%xmm2
- DB 102,65,15,58,32,20,27,1 ; pinsrb $0x1,(%r11,%rbx,1),%xmm2
- DB 67,15,182,28,19 ; movzbl (%r11,%r10,1),%ebx
+ DB 102,67,15,58,32,20,26,0 ; pinsrb $0x0,(%r10,%r11,1),%xmm2
+ DB 102,65,15,58,32,20,26,1 ; pinsrb $0x1,(%r10,%rbx,1),%xmm2
+ DB 67,15,182,28,10 ; movzbl (%r10,%r9,1),%ebx
DB 102,15,58,32,211,2 ; pinsrb $0x2,%ebx,%xmm2
- DB 67,15,182,28,11 ; movzbl (%r11,%r9,1),%ebx
+ DB 67,15,182,28,2 ; movzbl (%r10,%r8,1),%ebx
DB 102,15,58,32,211,3 ; pinsrb $0x3,%ebx,%xmm2
DB 102,15,56,49,210 ; pmovzxbd %xmm2,%xmm2
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
DB 65,15,89,209 ; mulps %xmm9,%xmm2
- DB 76,139,80,24 ; mov 0x18(%rax),%r10
+ DB 76,139,72,24 ; mov 0x18(%rax),%r9
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 102,15,91,219 ; cvtps2dq %xmm3,%xmm3
DB 102,72,15,58,22,219,1 ; pextrq $0x1,%xmm3,%rbx
- DB 65,137,217 ; mov %ebx,%r9d
+ DB 65,137,216 ; mov %ebx,%r8d
DB 72,193,235,32 ; shr $0x20,%rbx
DB 102,72,15,126,216 ; movq %xmm3,%rax
- DB 65,137,195 ; mov %eax,%r11d
+ DB 65,137,194 ; mov %eax,%r10d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,67,15,58,32,28,26,0 ; pinsrb $0x0,(%r10,%r11,1),%xmm3
- DB 102,65,15,58,32,28,2,1 ; pinsrb $0x1,(%r10,%rax,1),%xmm3
- DB 67,15,182,4,10 ; movzbl (%r10,%r9,1),%eax
+ DB 102,67,15,58,32,28,17,0 ; pinsrb $0x0,(%r9,%r10,1),%xmm3
+ DB 102,65,15,58,32,28,1,1 ; pinsrb $0x1,(%r9,%rax,1),%xmm3
+ DB 67,15,182,4,1 ; movzbl (%r9,%r8,1),%eax
DB 102,15,58,32,216,2 ; pinsrb $0x2,%eax,%xmm3
- DB 65,15,182,4,26 ; movzbl (%r10,%rbx,1),%eax
+ DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
DB 102,15,58,32,216,3 ; pinsrb $0x3,%eax,%xmm3
DB 102,15,56,49,219 ; pmovzxbd %xmm3,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
DB 65,15,89,217 ; mulps %xmm9,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 91 ; pop %rbx
- DB 65,92 ; pop %r12
DB 65,94 ; pop %r14
DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
@@ -19822,83 +19834,80 @@ PUBLIC _sk_byte_tables_rgb_sse41
_sk_byte_tables_rgb_sse41 LABEL PROC
DB 65,87 ; push %r15
DB 65,86 ; push %r14
- DB 65,84 ; push %r12
DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,24 ; mov 0x18(%rax),%r9d
- DB 65,255,201 ; dec %r9d
- DB 102,69,15,110,193 ; movd %r9d,%xmm8
+ DB 68,139,64,24 ; mov 0x18(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 102,69,15,110,192 ; movd %r8d,%xmm8
DB 102,69,15,112,192,0 ; pshufd $0x0,%xmm8,%xmm8
DB 69,15,91,192 ; cvtdq2ps %xmm8,%xmm8
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,91,192 ; cvtps2dq %xmm0,%xmm0
- DB 102,73,15,58,22,193,1 ; pextrq $0x1,%xmm0,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,73,15,126,193 ; movq %xmm0,%r9
- DB 69,137,206 ; mov %r9d,%r14d
- DB 77,137,207 ; mov %r9,%r15
- DB 73,193,239,32 ; shr $0x20,%r15
- DB 76,139,32 ; mov (%rax),%r12
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
- DB 102,67,15,58,32,4,52,0 ; pinsrb $0x0,(%r12,%r14,1),%xmm0
- DB 102,67,15,58,32,4,60,1 ; pinsrb $0x1,(%r12,%r15,1),%xmm0
- DB 67,15,182,28,20 ; movzbl (%r12,%r10,1),%ebx
+ DB 102,73,15,58,22,192,1 ; pextrq $0x1,%xmm0,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,73,15,126,192 ; movq %xmm0,%r8
+ DB 69,137,195 ; mov %r8d,%r11d
+ DB 77,137,198 ; mov %r8,%r14
+ DB 73,193,238,32 ; shr $0x20,%r14
+ DB 76,139,56 ; mov (%rax),%r15
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 102,67,15,58,32,4,31,0 ; pinsrb $0x0,(%r15,%r11,1),%xmm0
+ DB 102,67,15,58,32,4,55,1 ; pinsrb $0x1,(%r15,%r14,1),%xmm0
+ DB 67,15,182,28,15 ; movzbl (%r15,%r9,1),%ebx
DB 102,15,58,32,195,2 ; pinsrb $0x2,%ebx,%xmm0
- DB 67,15,182,28,28 ; movzbl (%r12,%r11,1),%ebx
+ DB 67,15,182,28,23 ; movzbl (%r15,%r10,1),%ebx
DB 102,15,58,32,195,3 ; pinsrb $0x3,%ebx,%xmm0
DB 102,15,56,49,192 ; pmovzxbd %xmm0,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 68,15,40,13,19,120,1,0 ; movaps 0x17813(%rip),%xmm9 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,13,236,120,1,0 ; movaps 0x178ec(%rip),%xmm9 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,193 ; mulps %xmm9,%xmm0
DB 65,15,89,200 ; mulps %xmm8,%xmm1
DB 102,15,91,201 ; cvtps2dq %xmm1,%xmm1
DB 102,72,15,58,22,203,1 ; pextrq $0x1,%xmm1,%rbx
- DB 65,137,218 ; mov %ebx,%r10d
+ DB 65,137,217 ; mov %ebx,%r9d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 102,73,15,126,203 ; movq %xmm1,%r11
- DB 69,137,222 ; mov %r11d,%r14d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,67,15,58,32,12,49,0 ; pinsrb $0x0,(%r9,%r14,1),%xmm1
- DB 102,67,15,58,32,12,25,1 ; pinsrb $0x1,(%r9,%r11,1),%xmm1
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 102,65,15,58,32,202,2 ; pinsrb $0x2,%r10d,%xmm1
- DB 65,15,182,28,25 ; movzbl (%r9,%rbx,1),%ebx
+ DB 102,73,15,126,202 ; movq %xmm1,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,58,32,12,24,0 ; pinsrb $0x0,(%r8,%r11,1),%xmm1
+ DB 102,67,15,58,32,12,16,1 ; pinsrb $0x1,(%r8,%r10,1),%xmm1
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 102,65,15,58,32,201,2 ; pinsrb $0x2,%r9d,%xmm1
+ DB 65,15,182,28,24 ; movzbl (%r8,%rbx,1),%ebx
DB 102,15,58,32,203,3 ; pinsrb $0x3,%ebx,%xmm1
DB 102,15,56,49,201 ; pmovzxbd %xmm1,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
DB 65,15,89,201 ; mulps %xmm9,%xmm1
- DB 76,139,80,16 ; mov 0x10(%rax),%r10
+ DB 76,139,72,16 ; mov 0x10(%rax),%r9
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 102,15,91,210 ; cvtps2dq %xmm2,%xmm2
DB 102,72,15,58,22,211,1 ; pextrq $0x1,%xmm2,%rbx
- DB 65,137,217 ; mov %ebx,%r9d
+ DB 65,137,216 ; mov %ebx,%r8d
DB 72,193,235,32 ; shr $0x20,%rbx
DB 102,72,15,126,208 ; movq %xmm2,%rax
- DB 65,137,195 ; mov %eax,%r11d
+ DB 65,137,194 ; mov %eax,%r10d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,67,15,58,32,20,26,0 ; pinsrb $0x0,(%r10,%r11,1),%xmm2
- DB 102,65,15,58,32,20,2,1 ; pinsrb $0x1,(%r10,%rax,1),%xmm2
- DB 67,15,182,4,10 ; movzbl (%r10,%r9,1),%eax
+ DB 102,67,15,58,32,20,17,0 ; pinsrb $0x0,(%r9,%r10,1),%xmm2
+ DB 102,65,15,58,32,20,1,1 ; pinsrb $0x1,(%r9,%rax,1),%xmm2
+ DB 67,15,182,4,1 ; movzbl (%r9,%r8,1),%eax
DB 102,15,58,32,208,2 ; pinsrb $0x2,%eax,%xmm2
- DB 65,15,182,4,26 ; movzbl (%r10,%rbx,1),%eax
+ DB 65,15,182,4,25 ; movzbl (%r9,%rbx,1),%eax
DB 102,15,58,32,208,3 ; pinsrb $0x3,%eax,%xmm2
DB 102,15,56,49,210 ; pmovzxbd %xmm2,%xmm2
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
DB 65,15,89,209 ; mulps %xmm9,%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
DB 91 ; pop %rbx
- DB 65,92 ; pop %r12
DB 65,94 ; pop %r14
DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_r_sse41
_sk_table_r_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
@@ -19907,26 +19916,24 @@ _sk_table_r_sse41 LABEL PROC
DB 68,15,89,192 ; mulps %xmm0,%xmm8
DB 102,65,15,91,192 ; cvtps2dq %xmm8,%xmm0
DB 102,72,15,58,22,192,1 ; pextrq $0x1,%xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,65,15,16,4,153 ; movss (%r9,%rbx,4),%xmm0
- DB 102,67,15,58,33,4,153,16 ; insertps $0x10,(%r9,%r11,4),%xmm0
- DB 243,71,15,16,4,145 ; movss (%r9,%r10,4),%xmm8
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,67,15,16,4,152 ; movss (%r8,%r11,4),%xmm0
+ DB 102,67,15,58,33,4,144,16 ; insertps $0x10,(%r8,%r10,4),%xmm0
+ DB 243,71,15,16,4,136 ; movss (%r8,%r9,4),%xmm8
DB 102,65,15,58,33,192,32 ; insertps $0x20,%xmm8,%xmm0
- DB 243,69,15,16,4,129 ; movss (%r9,%rax,4),%xmm8
+ DB 243,69,15,16,4,128 ; movss (%r8,%rax,4),%xmm8
DB 102,65,15,58,33,192,48 ; insertps $0x30,%xmm8,%xmm0
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_g_sse41
_sk_table_g_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
@@ -19935,26 +19942,24 @@ _sk_table_g_sse41 LABEL PROC
DB 68,15,89,193 ; mulps %xmm1,%xmm8
DB 102,65,15,91,200 ; cvtps2dq %xmm8,%xmm1
DB 102,72,15,58,22,200,1 ; pextrq $0x1,%xmm1,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,203 ; movq %xmm1,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,65,15,16,12,153 ; movss (%r9,%rbx,4),%xmm1
- DB 102,67,15,58,33,12,153,16 ; insertps $0x10,(%r9,%r11,4),%xmm1
- DB 243,71,15,16,4,145 ; movss (%r9,%r10,4),%xmm8
+ DB 102,73,15,126,202 ; movq %xmm1,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,67,15,16,12,152 ; movss (%r8,%r11,4),%xmm1
+ DB 102,67,15,58,33,12,144,16 ; insertps $0x10,(%r8,%r10,4),%xmm1
+ DB 243,71,15,16,4,136 ; movss (%r8,%r9,4),%xmm8
DB 102,65,15,58,33,200,32 ; insertps $0x20,%xmm8,%xmm1
- DB 243,69,15,16,4,129 ; movss (%r9,%rax,4),%xmm8
+ DB 243,69,15,16,4,128 ; movss (%r8,%rax,4),%xmm8
DB 102,65,15,58,33,200,48 ; insertps $0x30,%xmm8,%xmm1
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_b_sse41
_sk_table_b_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
@@ -19963,26 +19968,24 @@ _sk_table_b_sse41 LABEL PROC
DB 68,15,89,194 ; mulps %xmm2,%xmm8
DB 102,65,15,91,208 ; cvtps2dq %xmm8,%xmm2
DB 102,72,15,58,22,208,1 ; pextrq $0x1,%xmm2,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,211 ; movq %xmm2,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,65,15,16,20,153 ; movss (%r9,%rbx,4),%xmm2
- DB 102,67,15,58,33,20,153,16 ; insertps $0x10,(%r9,%r11,4),%xmm2
- DB 243,71,15,16,4,145 ; movss (%r9,%r10,4),%xmm8
+ DB 102,73,15,126,210 ; movq %xmm2,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,67,15,16,20,152 ; movss (%r8,%r11,4),%xmm2
+ DB 102,67,15,58,33,20,144,16 ; insertps $0x10,(%r8,%r10,4),%xmm2
+ DB 243,71,15,16,4,136 ; movss (%r8,%r9,4),%xmm8
DB 102,65,15,58,33,208,32 ; insertps $0x20,%xmm8,%xmm2
- DB 243,69,15,16,4,129 ; movss (%r9,%rax,4),%xmm8
+ DB 243,69,15,16,4,128 ; movss (%r8,%rax,4),%xmm8
DB 102,65,15,58,33,208,48 ; insertps $0x30,%xmm8,%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_a_sse41
_sk_table_a_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
@@ -19991,19 +19994,18 @@ _sk_table_a_sse41 LABEL PROC
DB 68,15,89,195 ; mulps %xmm3,%xmm8
DB 102,65,15,91,216 ; cvtps2dq %xmm8,%xmm3
DB 102,72,15,58,22,216,1 ; pextrq $0x1,%xmm3,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,219 ; movq %xmm3,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,65,15,16,28,153 ; movss (%r9,%rbx,4),%xmm3
- DB 102,67,15,58,33,28,153,16 ; insertps $0x10,(%r9,%r11,4),%xmm3
- DB 243,71,15,16,4,145 ; movss (%r9,%r10,4),%xmm8
+ DB 102,73,15,126,218 ; movq %xmm3,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,67,15,16,28,152 ; movss (%r8,%r11,4),%xmm3
+ DB 102,67,15,58,33,28,144,16 ; insertps $0x10,(%r8,%r10,4),%xmm3
+ DB 243,71,15,16,4,136 ; movss (%r8,%r9,4),%xmm8
DB 102,65,15,58,33,216,32 ; insertps $0x20,%xmm8,%xmm3
- DB 243,69,15,16,4,129 ; movss (%r9,%rax,4),%xmm8
+ DB 243,69,15,16,4,128 ; movss (%r8,%rax,4),%xmm8
DB 102,65,15,58,33,216,48 ; insertps $0x30,%xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_parametric_r_sse41
@@ -20027,31 +20029,31 @@ _sk_parametric_r_sse41 LABEL PROC
DB 69,15,88,208 ; addps %xmm8,%xmm10
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 69,15,91,194 ; cvtdq2ps %xmm10,%xmm8
- DB 68,15,89,5,251,117,1,0 ; mulps 0x175fb(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 68,15,84,21,3,118,1,0 ; andps 0x17603(%rip),%xmm10 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
- DB 68,15,86,21,43,115,1,0 ; orps 0x1732b(%rip),%xmm10 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
- DB 68,15,88,5,3,118,1,0 ; addps 0x17603(%rip),%xmm8 # 2cd60 <_sk_overlay_sse2_8bit+0x1113>
- DB 68,15,40,37,11,118,1,0 ; movaps 0x1760b(%rip),%xmm12 # 2cd70 <_sk_overlay_sse2_8bit+0x1123>
+ DB 68,15,89,5,222,118,1,0 ; mulps 0x176de(%rip),%xmm8 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 68,15,84,21,230,118,1,0 ; andps 0x176e6(%rip),%xmm10 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
+ DB 68,15,86,21,254,115,1,0 ; orps 0x173fe(%rip),%xmm10 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
+ DB 68,15,88,5,230,118,1,0 ; addps 0x176e6(%rip),%xmm8 # 2ce10 <_sk_overlay_sse2_8bit+0x119b>
+ DB 68,15,40,37,238,118,1,0 ; movaps 0x176ee(%rip),%xmm12 # 2ce20 <_sk_overlay_sse2_8bit+0x11ab>
DB 69,15,89,226 ; mulps %xmm10,%xmm12
DB 69,15,92,196 ; subps %xmm12,%xmm8
- DB 68,15,88,21,11,118,1,0 ; addps 0x1760b(%rip),%xmm10 # 2cd80 <_sk_overlay_sse2_8bit+0x1133>
- DB 68,15,40,37,19,118,1,0 ; movaps 0x17613(%rip),%xmm12 # 2cd90 <_sk_overlay_sse2_8bit+0x1143>
+ DB 68,15,88,21,238,118,1,0 ; addps 0x176ee(%rip),%xmm10 # 2ce30 <_sk_overlay_sse2_8bit+0x11bb>
+ DB 68,15,40,37,246,118,1,0 ; movaps 0x176f6(%rip),%xmm12 # 2ce40 <_sk_overlay_sse2_8bit+0x11cb>
DB 69,15,94,226 ; divps %xmm10,%xmm12
DB 69,15,92,196 ; subps %xmm12,%xmm8
DB 69,15,89,195 ; mulps %xmm11,%xmm8
DB 102,69,15,58,8,208,1 ; roundps $0x1,%xmm8,%xmm10
DB 69,15,40,216 ; movaps %xmm8,%xmm11
DB 69,15,92,218 ; subps %xmm10,%xmm11
- DB 68,15,88,5,0,118,1,0 ; addps 0x17600(%rip),%xmm8 # 2cda0 <_sk_overlay_sse2_8bit+0x1153>
- DB 68,15,40,21,8,118,1,0 ; movaps 0x17608(%rip),%xmm10 # 2cdb0 <_sk_overlay_sse2_8bit+0x1163>
+ DB 68,15,88,5,227,118,1,0 ; addps 0x176e3(%rip),%xmm8 # 2ce50 <_sk_overlay_sse2_8bit+0x11db>
+ DB 68,15,40,21,235,118,1,0 ; movaps 0x176eb(%rip),%xmm10 # 2ce60 <_sk_overlay_sse2_8bit+0x11eb>
DB 69,15,89,211 ; mulps %xmm11,%xmm10
DB 69,15,92,194 ; subps %xmm10,%xmm8
- DB 68,15,40,21,8,118,1,0 ; movaps 0x17608(%rip),%xmm10 # 2cdc0 <_sk_overlay_sse2_8bit+0x1173>
+ DB 68,15,40,21,235,118,1,0 ; movaps 0x176eb(%rip),%xmm10 # 2ce70 <_sk_overlay_sse2_8bit+0x11fb>
DB 69,15,92,211 ; subps %xmm11,%xmm10
- DB 68,15,40,29,12,118,1,0 ; movaps 0x1760c(%rip),%xmm11 # 2cdd0 <_sk_overlay_sse2_8bit+0x1183>
+ DB 68,15,40,29,239,118,1,0 ; movaps 0x176ef(%rip),%xmm11 # 2ce80 <_sk_overlay_sse2_8bit+0x120b>
DB 69,15,94,218 ; divps %xmm10,%xmm11
DB 69,15,88,216 ; addps %xmm8,%xmm11
- DB 68,15,89,29,12,118,1,0 ; mulps 0x1760c(%rip),%xmm11 # 2cde0 <_sk_overlay_sse2_8bit+0x1193>
+ DB 68,15,89,29,239,118,1,0 ; mulps 0x176ef(%rip),%xmm11 # 2ce90 <_sk_overlay_sse2_8bit+0x121b>
DB 102,69,15,91,211 ; cvtps2dq %xmm11,%xmm10
DB 243,68,15,16,64,20 ; movss 0x14(%rax),%xmm8
DB 69,15,198,192,0 ; shufps $0x0,%xmm8,%xmm8
@@ -20059,7 +20061,7 @@ _sk_parametric_r_sse41 LABEL PROC
DB 102,69,15,56,20,193 ; blendvps %xmm0,%xmm9,%xmm8
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 68,15,95,192 ; maxps %xmm0,%xmm8
- DB 68,15,93,5,147,114,1,0 ; minps 0x17293(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,93,5,118,115,1,0 ; minps 0x17376(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 255,224 ; jmpq *%rax
@@ -20087,31 +20089,31 @@ _sk_parametric_g_sse41 LABEL PROC
DB 68,15,88,217 ; addps %xmm1,%xmm11
DB 69,15,198,210,0 ; shufps $0x0,%xmm10,%xmm10
DB 69,15,91,227 ; cvtdq2ps %xmm11,%xmm12
- DB 68,15,89,37,212,116,1,0 ; mulps 0x174d4(%rip),%xmm12 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 68,15,84,29,220,116,1,0 ; andps 0x174dc(%rip),%xmm11 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
- DB 68,15,86,29,4,114,1,0 ; orps 0x17204(%rip),%xmm11 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
- DB 68,15,88,37,220,116,1,0 ; addps 0x174dc(%rip),%xmm12 # 2cd60 <_sk_overlay_sse2_8bit+0x1113>
- DB 15,40,13,229,116,1,0 ; movaps 0x174e5(%rip),%xmm1 # 2cd70 <_sk_overlay_sse2_8bit+0x1123>
+ DB 68,15,89,37,183,117,1,0 ; mulps 0x175b7(%rip),%xmm12 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 68,15,84,29,191,117,1,0 ; andps 0x175bf(%rip),%xmm11 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
+ DB 68,15,86,29,215,114,1,0 ; orps 0x172d7(%rip),%xmm11 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
+ DB 68,15,88,37,191,117,1,0 ; addps 0x175bf(%rip),%xmm12 # 2ce10 <_sk_overlay_sse2_8bit+0x119b>
+ DB 15,40,13,200,117,1,0 ; movaps 0x175c8(%rip),%xmm1 # 2ce20 <_sk_overlay_sse2_8bit+0x11ab>
DB 65,15,89,203 ; mulps %xmm11,%xmm1
DB 68,15,92,225 ; subps %xmm1,%xmm12
- DB 68,15,88,29,229,116,1,0 ; addps 0x174e5(%rip),%xmm11 # 2cd80 <_sk_overlay_sse2_8bit+0x1133>
- DB 15,40,13,238,116,1,0 ; movaps 0x174ee(%rip),%xmm1 # 2cd90 <_sk_overlay_sse2_8bit+0x1143>
+ DB 68,15,88,29,200,117,1,0 ; addps 0x175c8(%rip),%xmm11 # 2ce30 <_sk_overlay_sse2_8bit+0x11bb>
+ DB 15,40,13,209,117,1,0 ; movaps 0x175d1(%rip),%xmm1 # 2ce40 <_sk_overlay_sse2_8bit+0x11cb>
DB 65,15,94,203 ; divps %xmm11,%xmm1
DB 68,15,92,225 ; subps %xmm1,%xmm12
DB 69,15,89,226 ; mulps %xmm10,%xmm12
DB 102,69,15,58,8,212,1 ; roundps $0x1,%xmm12,%xmm10
DB 69,15,40,220 ; movaps %xmm12,%xmm11
DB 69,15,92,218 ; subps %xmm10,%xmm11
- DB 68,15,88,37,219,116,1,0 ; addps 0x174db(%rip),%xmm12 # 2cda0 <_sk_overlay_sse2_8bit+0x1153>
- DB 15,40,13,228,116,1,0 ; movaps 0x174e4(%rip),%xmm1 # 2cdb0 <_sk_overlay_sse2_8bit+0x1163>
+ DB 68,15,88,37,190,117,1,0 ; addps 0x175be(%rip),%xmm12 # 2ce50 <_sk_overlay_sse2_8bit+0x11db>
+ DB 15,40,13,199,117,1,0 ; movaps 0x175c7(%rip),%xmm1 # 2ce60 <_sk_overlay_sse2_8bit+0x11eb>
DB 65,15,89,203 ; mulps %xmm11,%xmm1
DB 68,15,92,225 ; subps %xmm1,%xmm12
- DB 68,15,40,21,228,116,1,0 ; movaps 0x174e4(%rip),%xmm10 # 2cdc0 <_sk_overlay_sse2_8bit+0x1173>
+ DB 68,15,40,21,199,117,1,0 ; movaps 0x175c7(%rip),%xmm10 # 2ce70 <_sk_overlay_sse2_8bit+0x11fb>
DB 69,15,92,211 ; subps %xmm11,%xmm10
- DB 15,40,13,233,116,1,0 ; movaps 0x174e9(%rip),%xmm1 # 2cdd0 <_sk_overlay_sse2_8bit+0x1183>
+ DB 15,40,13,204,117,1,0 ; movaps 0x175cc(%rip),%xmm1 # 2ce80 <_sk_overlay_sse2_8bit+0x120b>
DB 65,15,94,202 ; divps %xmm10,%xmm1
DB 65,15,88,204 ; addps %xmm12,%xmm1
- DB 15,89,13,234,116,1,0 ; mulps 0x174ea(%rip),%xmm1 # 2cde0 <_sk_overlay_sse2_8bit+0x1193>
+ DB 15,89,13,205,117,1,0 ; mulps 0x175cd(%rip),%xmm1 # 2ce90 <_sk_overlay_sse2_8bit+0x121b>
DB 102,68,15,91,209 ; cvtps2dq %xmm1,%xmm10
DB 243,15,16,72,20 ; movss 0x14(%rax),%xmm1
DB 15,198,201,0 ; shufps $0x0,%xmm1,%xmm1
@@ -20119,7 +20121,7 @@ _sk_parametric_g_sse41 LABEL PROC
DB 102,65,15,56,20,201 ; blendvps %xmm0,%xmm9,%xmm1
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 15,95,200 ; maxps %xmm0,%xmm1
- DB 15,93,13,117,113,1,0 ; minps 0x17175(%rip),%xmm1 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,93,13,88,114,1,0 ; minps 0x17258(%rip),%xmm1 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 255,224 ; jmpq *%rax
@@ -20147,31 +20149,31 @@ _sk_parametric_b_sse41 LABEL PROC
DB 68,15,88,218 ; addps %xmm2,%xmm11
DB 69,15,198,210,0 ; shufps $0x0,%xmm10,%xmm10
DB 69,15,91,227 ; cvtdq2ps %xmm11,%xmm12
- DB 68,15,89,37,182,115,1,0 ; mulps 0x173b6(%rip),%xmm12 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 68,15,84,29,190,115,1,0 ; andps 0x173be(%rip),%xmm11 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
- DB 68,15,86,29,230,112,1,0 ; orps 0x170e6(%rip),%xmm11 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
- DB 68,15,88,37,190,115,1,0 ; addps 0x173be(%rip),%xmm12 # 2cd60 <_sk_overlay_sse2_8bit+0x1113>
- DB 15,40,21,199,115,1,0 ; movaps 0x173c7(%rip),%xmm2 # 2cd70 <_sk_overlay_sse2_8bit+0x1123>
+ DB 68,15,89,37,153,116,1,0 ; mulps 0x17499(%rip),%xmm12 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 68,15,84,29,161,116,1,0 ; andps 0x174a1(%rip),%xmm11 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
+ DB 68,15,86,29,185,113,1,0 ; orps 0x171b9(%rip),%xmm11 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
+ DB 68,15,88,37,161,116,1,0 ; addps 0x174a1(%rip),%xmm12 # 2ce10 <_sk_overlay_sse2_8bit+0x119b>
+ DB 15,40,21,170,116,1,0 ; movaps 0x174aa(%rip),%xmm2 # 2ce20 <_sk_overlay_sse2_8bit+0x11ab>
DB 65,15,89,211 ; mulps %xmm11,%xmm2
DB 68,15,92,226 ; subps %xmm2,%xmm12
- DB 68,15,88,29,199,115,1,0 ; addps 0x173c7(%rip),%xmm11 # 2cd80 <_sk_overlay_sse2_8bit+0x1133>
- DB 15,40,21,208,115,1,0 ; movaps 0x173d0(%rip),%xmm2 # 2cd90 <_sk_overlay_sse2_8bit+0x1143>
+ DB 68,15,88,29,170,116,1,0 ; addps 0x174aa(%rip),%xmm11 # 2ce30 <_sk_overlay_sse2_8bit+0x11bb>
+ DB 15,40,21,179,116,1,0 ; movaps 0x174b3(%rip),%xmm2 # 2ce40 <_sk_overlay_sse2_8bit+0x11cb>
DB 65,15,94,211 ; divps %xmm11,%xmm2
DB 68,15,92,226 ; subps %xmm2,%xmm12
DB 69,15,89,226 ; mulps %xmm10,%xmm12
DB 102,69,15,58,8,212,1 ; roundps $0x1,%xmm12,%xmm10
DB 69,15,40,220 ; movaps %xmm12,%xmm11
DB 69,15,92,218 ; subps %xmm10,%xmm11
- DB 68,15,88,37,189,115,1,0 ; addps 0x173bd(%rip),%xmm12 # 2cda0 <_sk_overlay_sse2_8bit+0x1153>
- DB 15,40,21,198,115,1,0 ; movaps 0x173c6(%rip),%xmm2 # 2cdb0 <_sk_overlay_sse2_8bit+0x1163>
+ DB 68,15,88,37,160,116,1,0 ; addps 0x174a0(%rip),%xmm12 # 2ce50 <_sk_overlay_sse2_8bit+0x11db>
+ DB 15,40,21,169,116,1,0 ; movaps 0x174a9(%rip),%xmm2 # 2ce60 <_sk_overlay_sse2_8bit+0x11eb>
DB 65,15,89,211 ; mulps %xmm11,%xmm2
DB 68,15,92,226 ; subps %xmm2,%xmm12
- DB 68,15,40,21,198,115,1,0 ; movaps 0x173c6(%rip),%xmm10 # 2cdc0 <_sk_overlay_sse2_8bit+0x1173>
+ DB 68,15,40,21,169,116,1,0 ; movaps 0x174a9(%rip),%xmm10 # 2ce70 <_sk_overlay_sse2_8bit+0x11fb>
DB 69,15,92,211 ; subps %xmm11,%xmm10
- DB 15,40,21,203,115,1,0 ; movaps 0x173cb(%rip),%xmm2 # 2cdd0 <_sk_overlay_sse2_8bit+0x1183>
+ DB 15,40,21,174,116,1,0 ; movaps 0x174ae(%rip),%xmm2 # 2ce80 <_sk_overlay_sse2_8bit+0x120b>
DB 65,15,94,210 ; divps %xmm10,%xmm2
DB 65,15,88,212 ; addps %xmm12,%xmm2
- DB 15,89,21,204,115,1,0 ; mulps 0x173cc(%rip),%xmm2 # 2cde0 <_sk_overlay_sse2_8bit+0x1193>
+ DB 15,89,21,175,116,1,0 ; mulps 0x174af(%rip),%xmm2 # 2ce90 <_sk_overlay_sse2_8bit+0x121b>
DB 102,68,15,91,210 ; cvtps2dq %xmm2,%xmm10
DB 243,15,16,80,20 ; movss 0x14(%rax),%xmm2
DB 15,198,210,0 ; shufps $0x0,%xmm2,%xmm2
@@ -20179,7 +20181,7 @@ _sk_parametric_b_sse41 LABEL PROC
DB 102,65,15,56,20,209 ; blendvps %xmm0,%xmm9,%xmm2
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 15,95,208 ; maxps %xmm0,%xmm2
- DB 15,93,21,87,112,1,0 ; minps 0x17057(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,93,21,58,113,1,0 ; minps 0x1713a(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 255,224 ; jmpq *%rax
@@ -20207,31 +20209,31 @@ _sk_parametric_a_sse41 LABEL PROC
DB 68,15,88,219 ; addps %xmm3,%xmm11
DB 69,15,198,210,0 ; shufps $0x0,%xmm10,%xmm10
DB 69,15,91,227 ; cvtdq2ps %xmm11,%xmm12
- DB 68,15,89,37,152,114,1,0 ; mulps 0x17298(%rip),%xmm12 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 68,15,84,29,160,114,1,0 ; andps 0x172a0(%rip),%xmm11 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
- DB 68,15,86,29,200,111,1,0 ; orps 0x16fc8(%rip),%xmm11 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
- DB 68,15,88,37,160,114,1,0 ; addps 0x172a0(%rip),%xmm12 # 2cd60 <_sk_overlay_sse2_8bit+0x1113>
- DB 15,40,29,169,114,1,0 ; movaps 0x172a9(%rip),%xmm3 # 2cd70 <_sk_overlay_sse2_8bit+0x1123>
+ DB 68,15,89,37,123,115,1,0 ; mulps 0x1737b(%rip),%xmm12 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 68,15,84,29,131,115,1,0 ; andps 0x17383(%rip),%xmm11 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
+ DB 68,15,86,29,155,112,1,0 ; orps 0x1709b(%rip),%xmm11 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
+ DB 68,15,88,37,131,115,1,0 ; addps 0x17383(%rip),%xmm12 # 2ce10 <_sk_overlay_sse2_8bit+0x119b>
+ DB 15,40,29,140,115,1,0 ; movaps 0x1738c(%rip),%xmm3 # 2ce20 <_sk_overlay_sse2_8bit+0x11ab>
DB 65,15,89,219 ; mulps %xmm11,%xmm3
DB 68,15,92,227 ; subps %xmm3,%xmm12
- DB 68,15,88,29,169,114,1,0 ; addps 0x172a9(%rip),%xmm11 # 2cd80 <_sk_overlay_sse2_8bit+0x1133>
- DB 15,40,29,178,114,1,0 ; movaps 0x172b2(%rip),%xmm3 # 2cd90 <_sk_overlay_sse2_8bit+0x1143>
+ DB 68,15,88,29,140,115,1,0 ; addps 0x1738c(%rip),%xmm11 # 2ce30 <_sk_overlay_sse2_8bit+0x11bb>
+ DB 15,40,29,149,115,1,0 ; movaps 0x17395(%rip),%xmm3 # 2ce40 <_sk_overlay_sse2_8bit+0x11cb>
DB 65,15,94,219 ; divps %xmm11,%xmm3
DB 68,15,92,227 ; subps %xmm3,%xmm12
DB 69,15,89,226 ; mulps %xmm10,%xmm12
DB 102,69,15,58,8,212,1 ; roundps $0x1,%xmm12,%xmm10
DB 69,15,40,220 ; movaps %xmm12,%xmm11
DB 69,15,92,218 ; subps %xmm10,%xmm11
- DB 68,15,88,37,159,114,1,0 ; addps 0x1729f(%rip),%xmm12 # 2cda0 <_sk_overlay_sse2_8bit+0x1153>
- DB 15,40,29,168,114,1,0 ; movaps 0x172a8(%rip),%xmm3 # 2cdb0 <_sk_overlay_sse2_8bit+0x1163>
+ DB 68,15,88,37,130,115,1,0 ; addps 0x17382(%rip),%xmm12 # 2ce50 <_sk_overlay_sse2_8bit+0x11db>
+ DB 15,40,29,139,115,1,0 ; movaps 0x1738b(%rip),%xmm3 # 2ce60 <_sk_overlay_sse2_8bit+0x11eb>
DB 65,15,89,219 ; mulps %xmm11,%xmm3
DB 68,15,92,227 ; subps %xmm3,%xmm12
- DB 68,15,40,21,168,114,1,0 ; movaps 0x172a8(%rip),%xmm10 # 2cdc0 <_sk_overlay_sse2_8bit+0x1173>
+ DB 68,15,40,21,139,115,1,0 ; movaps 0x1738b(%rip),%xmm10 # 2ce70 <_sk_overlay_sse2_8bit+0x11fb>
DB 69,15,92,211 ; subps %xmm11,%xmm10
- DB 15,40,29,173,114,1,0 ; movaps 0x172ad(%rip),%xmm3 # 2cdd0 <_sk_overlay_sse2_8bit+0x1183>
+ DB 15,40,29,144,115,1,0 ; movaps 0x17390(%rip),%xmm3 # 2ce80 <_sk_overlay_sse2_8bit+0x120b>
DB 65,15,94,218 ; divps %xmm10,%xmm3
DB 65,15,88,220 ; addps %xmm12,%xmm3
- DB 15,89,29,174,114,1,0 ; mulps 0x172ae(%rip),%xmm3 # 2cde0 <_sk_overlay_sse2_8bit+0x1193>
+ DB 15,89,29,145,115,1,0 ; mulps 0x17391(%rip),%xmm3 # 2ce90 <_sk_overlay_sse2_8bit+0x121b>
DB 102,68,15,91,211 ; cvtps2dq %xmm3,%xmm10
DB 243,15,16,88,20 ; movss 0x14(%rax),%xmm3
DB 15,198,219,0 ; shufps $0x0,%xmm3,%xmm3
@@ -20239,7 +20241,7 @@ _sk_parametric_a_sse41 LABEL PROC
DB 102,65,15,56,20,217 ; blendvps %xmm0,%xmm9,%xmm3
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 15,95,216 ; maxps %xmm0,%xmm3
- DB 15,93,29,57,111,1,0 ; minps 0x16f39(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,93,29,28,112,1,0 ; minps 0x1701c(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 255,224 ; jmpq *%rax
@@ -20255,20 +20257,20 @@ _sk_gamma_sse41 LABEL PROC
DB 15,40,218 ; movaps %xmm2,%xmm3
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 15,91,194 ; cvtdq2ps %xmm2,%xmm0
- DB 15,89,5,181,113,1,0 ; mulps 0x171b5(%rip),%xmm0 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 68,15,40,53,189,113,1,0 ; movaps 0x171bd(%rip),%xmm14 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
+ DB 15,89,5,152,114,1,0 ; mulps 0x17298(%rip),%xmm0 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 68,15,40,53,160,114,1,0 ; movaps 0x172a0(%rip),%xmm14 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
DB 65,15,84,214 ; andps %xmm14,%xmm2
- DB 68,15,40,37,225,110,1,0 ; movaps 0x16ee1(%rip),%xmm12 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,37,180,111,1,0 ; movaps 0x16fb4(%rip),%xmm12 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 65,15,86,212 ; orps %xmm12,%xmm2
- DB 68,15,40,21,181,113,1,0 ; movaps 0x171b5(%rip),%xmm10 # 2cd60 <_sk_overlay_sse2_8bit+0x1113>
+ DB 68,15,40,21,152,114,1,0 ; movaps 0x17298(%rip),%xmm10 # 2ce10 <_sk_overlay_sse2_8bit+0x119b>
DB 65,15,88,194 ; addps %xmm10,%xmm0
- DB 68,15,40,29,185,113,1,0 ; movaps 0x171b9(%rip),%xmm11 # 2cd70 <_sk_overlay_sse2_8bit+0x1123>
+ DB 68,15,40,29,156,114,1,0 ; movaps 0x1729c(%rip),%xmm11 # 2ce20 <_sk_overlay_sse2_8bit+0x11ab>
DB 15,40,226 ; movaps %xmm2,%xmm4
DB 65,15,89,227 ; mulps %xmm11,%xmm4
DB 15,92,196 ; subps %xmm4,%xmm0
- DB 68,15,40,13,183,113,1,0 ; movaps 0x171b7(%rip),%xmm9 # 2cd80 <_sk_overlay_sse2_8bit+0x1133>
+ DB 68,15,40,13,154,114,1,0 ; movaps 0x1729a(%rip),%xmm9 # 2ce30 <_sk_overlay_sse2_8bit+0x11bb>
DB 65,15,88,209 ; addps %xmm9,%xmm2
- DB 68,15,40,45,187,113,1,0 ; movaps 0x171bb(%rip),%xmm13 # 2cd90 <_sk_overlay_sse2_8bit+0x1143>
+ DB 68,15,40,45,158,114,1,0 ; movaps 0x1729e(%rip),%xmm13 # 2ce40 <_sk_overlay_sse2_8bit+0x11cb>
DB 65,15,40,229 ; movaps %xmm13,%xmm4
DB 15,94,226 ; divps %xmm2,%xmm4
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -20279,21 +20281,21 @@ _sk_gamma_sse41 LABEL PROC
DB 102,15,58,8,208,1 ; roundps $0x1,%xmm0,%xmm2
DB 15,40,224 ; movaps %xmm0,%xmm4
DB 15,92,226 ; subps %xmm2,%xmm4
- DB 15,40,53,158,113,1,0 ; movaps 0x1719e(%rip),%xmm6 # 2cda0 <_sk_overlay_sse2_8bit+0x1153>
+ DB 15,40,53,129,114,1,0 ; movaps 0x17281(%rip),%xmm6 # 2ce50 <_sk_overlay_sse2_8bit+0x11db>
DB 15,88,198 ; addps %xmm6,%xmm0
- DB 15,40,61,180,113,1,0 ; movaps 0x171b4(%rip),%xmm7 # 2cdc0 <_sk_overlay_sse2_8bit+0x1173>
+ DB 15,40,61,151,114,1,0 ; movaps 0x17297(%rip),%xmm7 # 2ce70 <_sk_overlay_sse2_8bit+0x11fb>
DB 15,40,239 ; movaps %xmm7,%xmm5
DB 15,92,236 ; subps %xmm4,%xmm5
DB 15,40,212 ; movaps %xmm4,%xmm2
- DB 15,40,37,148,113,1,0 ; movaps 0x17194(%rip),%xmm4 # 2cdb0 <_sk_overlay_sse2_8bit+0x1163>
+ DB 15,40,37,119,114,1,0 ; movaps 0x17277(%rip),%xmm4 # 2ce60 <_sk_overlay_sse2_8bit+0x11eb>
DB 15,89,212 ; mulps %xmm4,%xmm2
DB 15,92,194 ; subps %xmm2,%xmm0
- DB 68,15,40,61,166,113,1,0 ; movaps 0x171a6(%rip),%xmm15 # 2cdd0 <_sk_overlay_sse2_8bit+0x1183>
+ DB 68,15,40,61,137,114,1,0 ; movaps 0x17289(%rip),%xmm15 # 2ce80 <_sk_overlay_sse2_8bit+0x120b>
DB 65,15,40,215 ; movaps %xmm15,%xmm2
DB 15,94,213 ; divps %xmm5,%xmm2
DB 15,88,208 ; addps %xmm0,%xmm2
DB 15,91,193 ; cvtdq2ps %xmm1,%xmm0
- DB 15,89,5,2,113,1,0 ; mulps 0x17102(%rip),%xmm0 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
+ DB 15,89,5,229,113,1,0 ; mulps 0x171e5(%rip),%xmm0 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
DB 65,15,84,206 ; andps %xmm14,%xmm1
DB 65,15,86,204 ; orps %xmm12,%xmm1
DB 65,15,88,194 ; addps %xmm10,%xmm0
@@ -20319,8 +20321,8 @@ _sk_gamma_sse41 LABEL PROC
DB 15,94,206 ; divps %xmm6,%xmm1
DB 15,88,200 ; addps %xmm0,%xmm1
DB 15,91,195 ; cvtdq2ps %xmm3,%xmm0
- DB 15,89,5,163,112,1,0 ; mulps 0x170a3(%rip),%xmm0 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 15,84,29,172,112,1,0 ; andps 0x170ac(%rip),%xmm3 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
+ DB 15,89,5,134,113,1,0 ; mulps 0x17186(%rip),%xmm0 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 15,84,29,143,113,1,0 ; andps 0x1718f(%rip),%xmm3 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
DB 65,15,86,220 ; orps %xmm12,%xmm3
DB 65,15,88,194 ; addps %xmm10,%xmm0
DB 68,15,89,219 ; mulps %xmm3,%xmm11
@@ -20338,7 +20340,7 @@ _sk_gamma_sse41 LABEL PROC
DB 15,92,253 ; subps %xmm5,%xmm7
DB 68,15,94,255 ; divps %xmm7,%xmm15
DB 68,15,88,248 ; addps %xmm0,%xmm15
- DB 15,40,5,244,112,1,0 ; movaps 0x170f4(%rip),%xmm0 # 2cde0 <_sk_overlay_sse2_8bit+0x1193>
+ DB 15,40,5,215,113,1,0 ; movaps 0x171d7(%rip),%xmm0 # 2ce90 <_sk_overlay_sse2_8bit+0x121b>
DB 15,89,208 ; mulps %xmm0,%xmm2
DB 15,89,200 ; mulps %xmm0,%xmm1
DB 68,15,89,248 ; mulps %xmm0,%xmm15
@@ -20357,29 +20359,29 @@ _sk_gamma_sse41 LABEL PROC
PUBLIC _sk_lab_to_xyz_sse41
_sk_lab_to_xyz_sse41 LABEL PROC
DB 68,15,40,192 ; movaps %xmm0,%xmm8
- DB 68,15,89,5,193,112,1,0 ; mulps 0x170c1(%rip),%xmm8 # 2cdf0 <_sk_overlay_sse2_8bit+0x11a3>
- DB 68,15,40,13,57,110,1,0 ; movaps 0x16e39(%rip),%xmm9 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 68,15,89,5,164,113,1,0 ; mulps 0x171a4(%rip),%xmm8 # 2cea0 <_sk_overlay_sse2_8bit+0x122b>
+ DB 68,15,40,13,28,111,1,0 ; movaps 0x16f1c(%rip),%xmm9 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 65,15,89,201 ; mulps %xmm9,%xmm1
- DB 15,40,5,190,112,1,0 ; movaps 0x170be(%rip),%xmm0 # 2ce00 <_sk_overlay_sse2_8bit+0x11b3>
+ DB 15,40,5,161,113,1,0 ; movaps 0x171a1(%rip),%xmm0 # 2ceb0 <_sk_overlay_sse2_8bit+0x123b>
DB 15,88,200 ; addps %xmm0,%xmm1
DB 65,15,89,209 ; mulps %xmm9,%xmm2
DB 15,88,208 ; addps %xmm0,%xmm2
- DB 68,15,88,5,188,112,1,0 ; addps 0x170bc(%rip),%xmm8 # 2ce10 <_sk_overlay_sse2_8bit+0x11c3>
- DB 68,15,89,5,196,112,1,0 ; mulps 0x170c4(%rip),%xmm8 # 2ce20 <_sk_overlay_sse2_8bit+0x11d3>
- DB 15,89,13,205,112,1,0 ; mulps 0x170cd(%rip),%xmm1 # 2ce30 <_sk_overlay_sse2_8bit+0x11e3>
+ DB 68,15,88,5,159,113,1,0 ; addps 0x1719f(%rip),%xmm8 # 2cec0 <_sk_overlay_sse2_8bit+0x124b>
+ DB 68,15,89,5,167,113,1,0 ; mulps 0x171a7(%rip),%xmm8 # 2ced0 <_sk_overlay_sse2_8bit+0x125b>
+ DB 15,89,13,176,113,1,0 ; mulps 0x171b0(%rip),%xmm1 # 2cee0 <_sk_overlay_sse2_8bit+0x126b>
DB 65,15,88,200 ; addps %xmm8,%xmm1
- DB 15,89,21,210,112,1,0 ; mulps 0x170d2(%rip),%xmm2 # 2ce40 <_sk_overlay_sse2_8bit+0x11f3>
+ DB 15,89,21,181,113,1,0 ; mulps 0x171b5(%rip),%xmm2 # 2cef0 <_sk_overlay_sse2_8bit+0x127b>
DB 69,15,40,208 ; movaps %xmm8,%xmm10
DB 68,15,92,210 ; subps %xmm2,%xmm10
DB 68,15,40,217 ; movaps %xmm1,%xmm11
DB 69,15,89,219 ; mulps %xmm11,%xmm11
DB 68,15,89,217 ; mulps %xmm1,%xmm11
- DB 68,15,40,13,198,112,1,0 ; movaps 0x170c6(%rip),%xmm9 # 2ce50 <_sk_overlay_sse2_8bit+0x1203>
+ DB 68,15,40,13,169,113,1,0 ; movaps 0x171a9(%rip),%xmm9 # 2cf00 <_sk_overlay_sse2_8bit+0x128b>
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 65,15,194,195,1 ; cmpltps %xmm11,%xmm0
- DB 15,40,21,198,112,1,0 ; movaps 0x170c6(%rip),%xmm2 # 2ce60 <_sk_overlay_sse2_8bit+0x1213>
+ DB 15,40,21,169,113,1,0 ; movaps 0x171a9(%rip),%xmm2 # 2cf10 <_sk_overlay_sse2_8bit+0x129b>
DB 15,88,202 ; addps %xmm2,%xmm1
- DB 68,15,40,37,203,112,1,0 ; movaps 0x170cb(%rip),%xmm12 # 2ce70 <_sk_overlay_sse2_8bit+0x1223>
+ DB 68,15,40,37,174,113,1,0 ; movaps 0x171ae(%rip),%xmm12 # 2cf20 <_sk_overlay_sse2_8bit+0x12ab>
DB 65,15,89,204 ; mulps %xmm12,%xmm1
DB 102,65,15,56,20,203 ; blendvps %xmm0,%xmm11,%xmm1
DB 69,15,40,216 ; movaps %xmm8,%xmm11
@@ -20398,8 +20400,8 @@ _sk_lab_to_xyz_sse41 LABEL PROC
DB 65,15,89,212 ; mulps %xmm12,%xmm2
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 102,65,15,56,20,211 ; blendvps %xmm0,%xmm11,%xmm2
- DB 15,89,13,132,112,1,0 ; mulps 0x17084(%rip),%xmm1 # 2ce80 <_sk_overlay_sse2_8bit+0x1233>
- DB 15,89,21,141,112,1,0 ; mulps 0x1708d(%rip),%xmm2 # 2ce90 <_sk_overlay_sse2_8bit+0x1243>
+ DB 15,89,13,103,113,1,0 ; mulps 0x17167(%rip),%xmm1 # 2cf30 <_sk_overlay_sse2_8bit+0x12bb>
+ DB 15,89,21,112,113,1,0 ; mulps 0x17170(%rip),%xmm2 # 2cf40 <_sk_overlay_sse2_8bit+0x12cb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,40,193 ; movaps %xmm1,%xmm0
DB 65,15,40,200 ; movaps %xmm8,%xmm1
@@ -20408,88 +20410,87 @@ _sk_lab_to_xyz_sse41 LABEL PROC
PUBLIC _sk_load_a8_sse41
_sk_load_a8_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,39 ; jne 15e4d <_sk_load_a8_sse41+0x3f>
- DB 102,67,15,56,49,4,25 ; pmovzxbd (%r9,%r11,1),%xmm0
- DB 102,15,219,5,11,109,1,0 ; pand 0x16d0b(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,39 ; jne 15e1a <_sk_load_a8_sse41+0x3f>
+ DB 102,67,15,56,49,4,16 ; pmovzxbd (%r8,%r10,1),%xmm0
+ DB 102,15,219,5,238,109,1,0 ; pand 0x16dee(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 15,91,216 ; cvtdq2ps %xmm0,%xmm3
- DB 15,89,29,81,110,1,0 ; mulps 0x16e51(%rip),%xmm3 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,29,52,111,1,0 ; mulps 0x16f34(%rip),%xmm3 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 15,87,210 ; xorps %xmm2,%xmm2
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,53 ; je 15e8f <_sk_load_a8_sse41+0x81>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,53 ; je 15e5c <_sk_load_a8_sse41+0x81>
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 15e79 <_sk_load_a8_sse41+0x6b>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,195 ; jne 15e2d <_sk_load_a8_sse41+0x1f>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 15e46 <_sk_load_a8_sse41+0x6b>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,195 ; jne 15dfa <_sk_load_a8_sse41+0x1f>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm0
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,15,110,200 ; movd %eax,%xmm1
DB 102,15,56,49,201 ; pmovzxbd %xmm1,%xmm1
DB 102,15,58,14,193,15 ; pblendw $0xf,%xmm1,%xmm0
- DB 235,158 ; jmp 15e2d <_sk_load_a8_sse41+0x1f>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 235,158 ; jmp 15dfa <_sk_load_a8_sse41+0x1f>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
- DB 235,147 ; jmp 15e2d <_sk_load_a8_sse41+0x1f>
+ DB 235,147 ; jmp 15dfa <_sk_load_a8_sse41+0x1f>
PUBLIC _sk_load_a8_dst_sse41
_sk_load_a8_dst_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,39 ; jne 15ed9 <_sk_load_a8_dst_sse41+0x3f>
- DB 102,67,15,56,49,36,25 ; pmovzxbd (%r9,%r11,1),%xmm4
- DB 102,15,219,37,127,108,1,0 ; pand 0x16c7f(%rip),%xmm4 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,39 ; jne 15ea6 <_sk_load_a8_dst_sse41+0x3f>
+ DB 102,67,15,56,49,36,16 ; pmovzxbd (%r8,%r10,1),%xmm4
+ DB 102,15,219,37,98,109,1,0 ; pand 0x16d62(%rip),%xmm4 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 15,91,252 ; cvtdq2ps %xmm4,%xmm7
- DB 15,89,61,197,109,1,0 ; mulps 0x16dc5(%rip),%xmm7 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,61,168,110,1,0 ; mulps 0x16ea8(%rip),%xmm7 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,87,228 ; xorps %xmm4,%xmm4
DB 102,15,239,237 ; pxor %xmm5,%xmm5
DB 15,87,246 ; xorps %xmm6,%xmm6
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,53 ; je 15f1b <_sk_load_a8_dst_sse41+0x81>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,53 ; je 15ee8 <_sk_load_a8_dst_sse41+0x81>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 15f05 <_sk_load_a8_dst_sse41+0x6b>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,195 ; jne 15eb9 <_sk_load_a8_dst_sse41+0x1f>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 15ed2 <_sk_load_a8_dst_sse41+0x6b>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,195 ; jne 15e86 <_sk_load_a8_dst_sse41+0x1f>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,15,110,232 ; movd %eax,%xmm5
DB 102,15,56,49,237 ; pmovzxbd %xmm5,%xmm5
DB 102,15,58,14,229,15 ; pblendw $0xf,%xmm5,%xmm4
- DB 235,158 ; jmp 15eb9 <_sk_load_a8_dst_sse41+0x1f>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 235,158 ; jmp 15e86 <_sk_load_a8_dst_sse41+0x1f>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
- DB 235,147 ; jmp 15eb9 <_sk_load_a8_dst_sse41+0x1f>
+ DB 235,147 ; jmp 15e86 <_sk_load_a8_dst_sse41+0x1f>
PUBLIC _sk_gather_a8_sse41
_sk_gather_a8_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -20497,149 +20498,147 @@ _sk_gather_a8_sse41 LABEL PROC
DB 243,15,91,192 ; cvttps2dq %xmm0,%xmm0
DB 102,15,254,194 ; paddd %xmm2,%xmm0
DB 102,72,15,58,22,192,1 ; pextrq $0x1,%xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,65,15,58,32,4,25,0 ; pinsrb $0x0,(%r9,%rbx,1),%xmm0
- DB 102,67,15,58,32,4,25,1 ; pinsrb $0x1,(%r9,%r11,1),%xmm0
- DB 67,15,182,28,17 ; movzbl (%r9,%r10,1),%ebx
- DB 102,15,58,32,195,2 ; pinsrb $0x2,%ebx,%xmm0
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,58,32,4,24,0 ; pinsrb $0x0,(%r8,%r11,1),%xmm0
+ DB 102,67,15,58,32,4,16,1 ; pinsrb $0x1,(%r8,%r10,1),%xmm0
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 102,65,15,58,32,193,2 ; pinsrb $0x2,%r9d,%xmm0
+ DB 65,15,182,4,0 ; movzbl (%r8,%rax,1),%eax
DB 102,15,58,32,192,3 ; pinsrb $0x3,%eax,%xmm0
DB 102,15,56,49,192 ; pmovzxbd %xmm0,%xmm0
DB 15,91,216 ; cvtdq2ps %xmm0,%xmm3
- DB 15,89,29,250,108,1,0 ; mulps 0x16cfa(%rip),%xmm3 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,29,221,109,1,0 ; mulps 0x16ddd(%rip),%xmm3 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,239,210 ; pxor %xmm2,%xmm2
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_a8_sse41
_sk_store_a8_sse41 LABEL PROC
DB 72,131,236,4 ; sub $0x4,%rsp
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 68,15,40,5,171,107,1,0 ; movaps 0x16bab(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 68,15,40,5,143,108,1,0 ; movaps 0x16c8f(%rip),%xmm8 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 68,15,89,195 ; mulps %xmm3,%xmm8
DB 102,69,15,91,192 ; cvtps2dq %xmm8,%xmm8
DB 102,69,15,56,43,192 ; packusdw %xmm8,%xmm8
DB 102,69,15,103,192 ; packuswb %xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,17 ; jne 15fef <_sk_store_a8_sse41+0x49>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,17 ; jne 15fbb <_sk_store_a8_sse41+0x49>
DB 102,68,15,126,192 ; movd %xmm8,%eax
- DB 67,137,4,25 ; mov %eax,(%r9,%r11,1)
+ DB 67,137,4,16 ; mov %eax,(%r8,%r10,1)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 72,131,196,4 ; add $0x4,%rsp
DB 255,224 ; jmpq *%rax
DB 102,69,15,56,49,192 ; pmovzxbd %xmm8,%xmm8
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,41 ; je 1602b <_sk_store_a8_sse41+0x85>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,15 ; je 16017 <_sk_store_a8_sse41+0x71>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,217 ; jne 15fe7 <_sk_store_a8_sse41+0x41>
- DB 102,71,15,58,20,68,25,2,8 ; pextrb $0x8,%xmm8,0x2(%r9,%r11,1)
- DB 102,68,15,56,0,5,127,110,1,0 ; pshufb 0x16e7f(%rip),%xmm8 # 2cea0 <_sk_overlay_sse2_8bit+0x1253>
- DB 102,71,15,58,21,4,25,0 ; pextrw $0x0,%xmm8,(%r9,%r11,1)
- DB 235,188 ; jmp 15fe7 <_sk_store_a8_sse41+0x41>
- DB 102,71,15,58,20,4,25,0 ; pextrb $0x0,%xmm8,(%r9,%r11,1)
- DB 235,178 ; jmp 15fe7 <_sk_store_a8_sse41+0x41>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,41 ; je 15ff7 <_sk_store_a8_sse41+0x85>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,15 ; je 15fe3 <_sk_store_a8_sse41+0x71>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,217 ; jne 15fb3 <_sk_store_a8_sse41+0x41>
+ DB 102,71,15,58,20,68,16,2,8 ; pextrb $0x8,%xmm8,0x2(%r8,%r10,1)
+ DB 102,68,15,56,0,5,99,111,1,0 ; pshufb 0x16f63(%rip),%xmm8 # 2cf50 <_sk_overlay_sse2_8bit+0x12db>
+ DB 102,71,15,58,21,4,16,0 ; pextrw $0x0,%xmm8,(%r8,%r10,1)
+ DB 235,188 ; jmp 15fb3 <_sk_store_a8_sse41+0x41>
+ DB 102,71,15,58,20,4,16,0 ; pextrb $0x0,%xmm8,(%r8,%r10,1)
+ DB 235,178 ; jmp 15fb3 <_sk_store_a8_sse41+0x41>
PUBLIC _sk_load_g8_sse41
_sk_load_g8_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,42 ; jne 16077 <_sk_load_g8_sse41+0x42>
- DB 102,67,15,56,49,4,25 ; pmovzxbd (%r9,%r11,1),%xmm0
- DB 102,15,219,5,228,106,1,0 ; pand 0x16ae4(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,42 ; jne 16043 <_sk_load_g8_sse41+0x42>
+ DB 102,67,15,56,49,4,16 ; pmovzxbd (%r8,%r10,1),%xmm0
+ DB 102,15,219,5,200,107,1,0 ; pand 0x16bc8(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,42,108,1,0 ; mulps 0x16c2a(%rip),%xmm0 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,5,14,109,1,0 ; mulps 0x16d0e(%rip),%xmm0 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,33,106,1,0 ; movaps 0x16a21(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,5,107,1,0 ; movaps 0x16b05(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,53 ; je 160b9 <_sk_load_g8_sse41+0x84>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,53 ; je 16085 <_sk_load_g8_sse41+0x84>
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 160a3 <_sk_load_g8_sse41+0x6e>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,192 ; jne 16054 <_sk_load_g8_sse41+0x1f>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 1606f <_sk_load_g8_sse41+0x6e>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,192 ; jne 16020 <_sk_load_g8_sse41+0x1f>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm0
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,15,110,200 ; movd %eax,%xmm1
DB 102,15,56,49,201 ; pmovzxbd %xmm1,%xmm1
DB 102,15,58,14,193,15 ; pblendw $0xf,%xmm1,%xmm0
- DB 235,155 ; jmp 16054 <_sk_load_g8_sse41+0x1f>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 235,155 ; jmp 16020 <_sk_load_g8_sse41+0x1f>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
- DB 235,144 ; jmp 16054 <_sk_load_g8_sse41+0x1f>
+ DB 235,144 ; jmp 16020 <_sk_load_g8_sse41+0x1f>
PUBLIC _sk_load_g8_dst_sse41
_sk_load_g8_dst_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,42 ; jne 16106 <_sk_load_g8_dst_sse41+0x42>
- DB 102,67,15,56,49,36,25 ; pmovzxbd (%r9,%r11,1),%xmm4
- DB 102,15,219,37,85,106,1,0 ; pand 0x16a55(%rip),%xmm4 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,42 ; jne 160d2 <_sk_load_g8_dst_sse41+0x42>
+ DB 102,67,15,56,49,36,16 ; pmovzxbd (%r8,%r10,1),%xmm4
+ DB 102,15,219,37,57,107,1,0 ; pand 0x16b39(%rip),%xmm4 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,37,155,107,1,0 ; mulps 0x16b9b(%rip),%xmm4 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,37,127,108,1,0 ; mulps 0x16c7f(%rip),%xmm4 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,61,146,105,1,0 ; movaps 0x16992(%rip),%xmm7 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,61,118,106,1,0 ; movaps 0x16a76(%rip),%xmm7 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,40,236 ; movaps %xmm4,%xmm5
DB 15,40,244 ; movaps %xmm4,%xmm6
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,53 ; je 16148 <_sk_load_g8_dst_sse41+0x84>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,53 ; je 16114 <_sk_load_g8_dst_sse41+0x84>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 16132 <_sk_load_g8_dst_sse41+0x6e>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,192 ; jne 160e3 <_sk_load_g8_dst_sse41+0x1f>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 160fe <_sk_load_g8_dst_sse41+0x6e>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,192 ; jne 160af <_sk_load_g8_dst_sse41+0x1f>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,15,110,232 ; movd %eax,%xmm5
DB 102,15,56,49,237 ; pmovzxbd %xmm5,%xmm5
DB 102,15,58,14,229,15 ; pblendw $0xf,%xmm5,%xmm4
- DB 235,155 ; jmp 160e3 <_sk_load_g8_dst_sse41+0x1f>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 235,155 ; jmp 160af <_sk_load_g8_dst_sse41+0x1f>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
- DB 235,144 ; jmp 160e3 <_sk_load_g8_dst_sse41+0x1f>
+ DB 235,144 ; jmp 160af <_sk_load_g8_dst_sse41+0x1f>
PUBLIC _sk_gather_g8_sse41
_sk_gather_g8_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -20647,124 +20646,122 @@ _sk_gather_g8_sse41 LABEL PROC
DB 243,15,91,192 ; cvttps2dq %xmm0,%xmm0
DB 102,15,254,194 ; paddd %xmm2,%xmm0
DB 102,72,15,58,22,192,1 ; pextrq $0x1,%xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,65,15,58,32,4,25,0 ; pinsrb $0x0,(%r9,%rbx,1),%xmm0
- DB 102,67,15,58,32,4,25,1 ; pinsrb $0x1,(%r9,%r11,1),%xmm0
- DB 67,15,182,28,17 ; movzbl (%r9,%r10,1),%ebx
- DB 102,15,58,32,195,2 ; pinsrb $0x2,%ebx,%xmm0
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,58,32,4,24,0 ; pinsrb $0x0,(%r8,%r11,1),%xmm0
+ DB 102,67,15,58,32,4,16,1 ; pinsrb $0x1,(%r8,%r10,1),%xmm0
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 102,65,15,58,32,193,2 ; pinsrb $0x2,%r9d,%xmm0
+ DB 65,15,182,4,0 ; movzbl (%r8,%rax,1),%eax
DB 102,15,58,32,192,3 ; pinsrb $0x3,%eax,%xmm0
DB 102,15,56,49,192 ; pmovzxbd %xmm0,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,205,106,1,0 ; mulps 0x16acd(%rip),%xmm0 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,5,177,107,1,0 ; mulps 0x16bb1(%rip),%xmm0 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,196,104,1,0 ; movaps 0x168c4(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,168,105,1,0 ; movaps 0x169a8(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_load_565_sse41
_sk_load_565_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,80 ; jne 16240 <_sk_load_565_sse41+0x6b>
- DB 102,67,15,56,51,20,89 ; pmovzxwd (%r9,%r11,2),%xmm2
- DB 102,15,111,5,161,106,1,0 ; movdqa 0x16aa1(%rip),%xmm0 # 2cca0 <_sk_overlay_sse2_8bit+0x1053>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,80 ; jne 1620b <_sk_load_565_sse41+0x6b>
+ DB 102,67,15,56,51,20,80 ; pmovzxwd (%r8,%r10,2),%xmm2
+ DB 102,15,111,5,134,107,1,0 ; movdqa 0x16b86(%rip),%xmm0 # 2cd50 <_sk_overlay_sse2_8bit+0x10db>
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,163,106,1,0 ; mulps 0x16aa3(%rip),%xmm0 # 2ccb0 <_sk_overlay_sse2_8bit+0x1063>
- DB 102,15,111,13,171,106,1,0 ; movdqa 0x16aab(%rip),%xmm1 # 2ccc0 <_sk_overlay_sse2_8bit+0x1073>
+ DB 15,89,5,136,107,1,0 ; mulps 0x16b88(%rip),%xmm0 # 2cd60 <_sk_overlay_sse2_8bit+0x10eb>
+ DB 102,15,111,13,144,107,1,0 ; movdqa 0x16b90(%rip),%xmm1 # 2cd70 <_sk_overlay_sse2_8bit+0x10fb>
DB 102,15,219,202 ; pand %xmm2,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,13,173,106,1,0 ; mulps 0x16aad(%rip),%xmm1 # 2ccd0 <_sk_overlay_sse2_8bit+0x1083>
- DB 102,15,219,21,181,106,1,0 ; pand 0x16ab5(%rip),%xmm2 # 2cce0 <_sk_overlay_sse2_8bit+0x1093>
+ DB 15,89,13,146,107,1,0 ; mulps 0x16b92(%rip),%xmm1 # 2cd80 <_sk_overlay_sse2_8bit+0x110b>
+ DB 102,15,219,21,154,107,1,0 ; pand 0x16b9a(%rip),%xmm2 # 2cd90 <_sk_overlay_sse2_8bit+0x111b>
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,21,187,106,1,0 ; mulps 0x16abb(%rip),%xmm2 # 2ccf0 <_sk_overlay_sse2_8bit+0x10a3>
+ DB 15,89,21,160,107,1,0 ; mulps 0x16ba0(%rip),%xmm2 # 2cda0 <_sk_overlay_sse2_8bit+0x112b>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,82,104,1,0 ; movaps 0x16852(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,55,105,1,0 ; movaps 0x16937(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,53 ; je 16282 <_sk_load_565_sse41+0xad>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,53 ; je 1624d <_sk_load_565_sse41+0xad>
DB 102,15,239,210 ; pxor %xmm2,%xmm2
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 1626c <_sk_load_565_sse41+0x97>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,154 ; jne 161f7 <_sk_load_565_sse41+0x22>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 16237 <_sk_load_565_sse41+0x97>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,154 ; jne 161c2 <_sk_load_565_sse41+0x22>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,15,112,208,69 ; pshufd $0x45,%xmm0,%xmm2
- DB 102,67,15,110,4,89 ; movd (%r9,%r11,2),%xmm0
+ DB 102,67,15,110,4,80 ; movd (%r8,%r10,2),%xmm0
DB 102,15,56,51,192 ; pmovzxwd %xmm0,%xmm0
DB 102,15,58,14,208,15 ; pblendw $0xf,%xmm0,%xmm2
- DB 233,117,255,255,255 ; jmpq 161f7 <_sk_load_565_sse41+0x22>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,117,255,255,255 ; jmpq 161c2 <_sk_load_565_sse41+0x22>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,15,110,208 ; movd %eax,%xmm2
- DB 233,103,255,255,255 ; jmpq 161f7 <_sk_load_565_sse41+0x22>
+ DB 233,103,255,255,255 ; jmpq 161c2 <_sk_load_565_sse41+0x22>
PUBLIC _sk_load_565_dst_sse41
_sk_load_565_dst_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,80 ; jne 162fb <_sk_load_565_dst_sse41+0x6b>
- DB 102,67,15,56,51,52,89 ; pmovzxwd (%r9,%r11,2),%xmm6
- DB 102,15,111,37,230,105,1,0 ; movdqa 0x169e6(%rip),%xmm4 # 2cca0 <_sk_overlay_sse2_8bit+0x1053>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,80 ; jne 162c6 <_sk_load_565_dst_sse41+0x6b>
+ DB 102,67,15,56,51,52,80 ; pmovzxwd (%r8,%r10,2),%xmm6
+ DB 102,15,111,37,203,106,1,0 ; movdqa 0x16acb(%rip),%xmm4 # 2cd50 <_sk_overlay_sse2_8bit+0x10db>
DB 102,15,219,230 ; pand %xmm6,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,37,232,105,1,0 ; mulps 0x169e8(%rip),%xmm4 # 2ccb0 <_sk_overlay_sse2_8bit+0x1063>
- DB 102,15,111,45,240,105,1,0 ; movdqa 0x169f0(%rip),%xmm5 # 2ccc0 <_sk_overlay_sse2_8bit+0x1073>
+ DB 15,89,37,205,106,1,0 ; mulps 0x16acd(%rip),%xmm4 # 2cd60 <_sk_overlay_sse2_8bit+0x10eb>
+ DB 102,15,111,45,213,106,1,0 ; movdqa 0x16ad5(%rip),%xmm5 # 2cd70 <_sk_overlay_sse2_8bit+0x10fb>
DB 102,15,219,238 ; pand %xmm6,%xmm5
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
- DB 15,89,45,242,105,1,0 ; mulps 0x169f2(%rip),%xmm5 # 2ccd0 <_sk_overlay_sse2_8bit+0x1083>
- DB 102,15,219,53,250,105,1,0 ; pand 0x169fa(%rip),%xmm6 # 2cce0 <_sk_overlay_sse2_8bit+0x1093>
+ DB 15,89,45,215,106,1,0 ; mulps 0x16ad7(%rip),%xmm5 # 2cd80 <_sk_overlay_sse2_8bit+0x110b>
+ DB 102,15,219,53,223,106,1,0 ; pand 0x16adf(%rip),%xmm6 # 2cd90 <_sk_overlay_sse2_8bit+0x111b>
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
- DB 15,89,53,0,106,1,0 ; mulps 0x16a00(%rip),%xmm6 # 2ccf0 <_sk_overlay_sse2_8bit+0x10a3>
+ DB 15,89,53,229,106,1,0 ; mulps 0x16ae5(%rip),%xmm6 # 2cda0 <_sk_overlay_sse2_8bit+0x112b>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,61,151,103,1,0 ; movaps 0x16797(%rip),%xmm7 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,61,124,104,1,0 ; movaps 0x1687c(%rip),%xmm7 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,53 ; je 1633d <_sk_load_565_dst_sse41+0xad>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,53 ; je 16308 <_sk_load_565_dst_sse41+0xad>
DB 102,15,239,246 ; pxor %xmm6,%xmm6
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 16327 <_sk_load_565_dst_sse41+0x97>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,154 ; jne 162b2 <_sk_load_565_dst_sse41+0x22>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 162f2 <_sk_load_565_dst_sse41+0x97>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,154 ; jne 1627d <_sk_load_565_dst_sse41+0x22>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,112,244,69 ; pshufd $0x45,%xmm4,%xmm6
- DB 102,67,15,110,36,89 ; movd (%r9,%r11,2),%xmm4
+ DB 102,67,15,110,36,80 ; movd (%r8,%r10,2),%xmm4
DB 102,15,56,51,228 ; pmovzxwd %xmm4,%xmm4
DB 102,15,58,14,244,15 ; pblendw $0xf,%xmm4,%xmm6
- DB 233,117,255,255,255 ; jmpq 162b2 <_sk_load_565_dst_sse41+0x22>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,117,255,255,255 ; jmpq 1627d <_sk_load_565_dst_sse41+0x22>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,15,110,240 ; movd %eax,%xmm6
- DB 233,103,255,255,255 ; jmpq 162b2 <_sk_load_565_dst_sse41+0x22>
+ DB 233,103,255,255,255 ; jmpq 1627d <_sk_load_565_dst_sse41+0x22>
PUBLIC _sk_gather_565_sse41
_sk_gather_565_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -20772,49 +20769,48 @@ _sk_gather_565_sse41 LABEL PROC
DB 243,15,91,192 ; cvttps2dq %xmm0,%xmm0
DB 102,15,254,194 ; paddd %xmm2,%xmm0
DB 102,72,15,58,22,192,1 ; pextrq $0x1,%xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,65,15,196,4,89,0 ; pinsrw $0x0,(%r9,%rbx,2),%xmm0
- DB 102,67,15,196,4,89,1 ; pinsrw $0x1,(%r9,%r11,2),%xmm0
- DB 67,15,183,28,81 ; movzwl (%r9,%r10,2),%ebx
- DB 102,15,196,195,2 ; pinsrw $0x2,%ebx,%xmm0
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,196,4,88,0 ; pinsrw $0x0,(%r8,%r11,2),%xmm0
+ DB 102,67,15,196,4,80,1 ; pinsrw $0x1,(%r8,%r10,2),%xmm0
+ DB 71,15,183,12,72 ; movzwl (%r8,%r9,2),%r9d
+ DB 102,65,15,196,193,2 ; pinsrw $0x2,%r9d,%xmm0
+ DB 65,15,183,4,64 ; movzwl (%r8,%rax,2),%eax
DB 102,15,196,192,3 ; pinsrw $0x3,%eax,%xmm0
DB 102,15,56,51,208 ; pmovzxwd %xmm0,%xmm2
- DB 102,15,111,5,235,104,1,0 ; movdqa 0x168eb(%rip),%xmm0 # 2cca0 <_sk_overlay_sse2_8bit+0x1053>
+ DB 102,15,111,5,208,105,1,0 ; movdqa 0x169d0(%rip),%xmm0 # 2cd50 <_sk_overlay_sse2_8bit+0x10db>
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,237,104,1,0 ; mulps 0x168ed(%rip),%xmm0 # 2ccb0 <_sk_overlay_sse2_8bit+0x1063>
- DB 102,15,111,13,245,104,1,0 ; movdqa 0x168f5(%rip),%xmm1 # 2ccc0 <_sk_overlay_sse2_8bit+0x1073>
+ DB 15,89,5,210,105,1,0 ; mulps 0x169d2(%rip),%xmm0 # 2cd60 <_sk_overlay_sse2_8bit+0x10eb>
+ DB 102,15,111,13,218,105,1,0 ; movdqa 0x169da(%rip),%xmm1 # 2cd70 <_sk_overlay_sse2_8bit+0x10fb>
DB 102,15,219,202 ; pand %xmm2,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,13,247,104,1,0 ; mulps 0x168f7(%rip),%xmm1 # 2ccd0 <_sk_overlay_sse2_8bit+0x1083>
- DB 102,15,219,21,255,104,1,0 ; pand 0x168ff(%rip),%xmm2 # 2cce0 <_sk_overlay_sse2_8bit+0x1093>
+ DB 15,89,13,220,105,1,0 ; mulps 0x169dc(%rip),%xmm1 # 2cd80 <_sk_overlay_sse2_8bit+0x110b>
+ DB 102,15,219,21,228,105,1,0 ; pand 0x169e4(%rip),%xmm2 # 2cd90 <_sk_overlay_sse2_8bit+0x111b>
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,21,5,105,1,0 ; mulps 0x16905(%rip),%xmm2 # 2ccf0 <_sk_overlay_sse2_8bit+0x10a3>
+ DB 15,89,21,234,105,1,0 ; mulps 0x169ea(%rip),%xmm2 # 2cda0 <_sk_overlay_sse2_8bit+0x112b>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,156,102,1,0 ; movaps 0x1669c(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
- DB 91 ; pop %rbx
+ DB 15,40,29,129,103,1,0 ; movaps 0x16781(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_565_sse41
_sk_store_565_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 68,15,40,5,155,106,1,0 ; movaps 0x16a9b(%rip),%xmm8 # 2ceb0 <_sk_overlay_sse2_8bit+0x1263>
+ DB 68,15,40,5,129,107,1,0 ; movaps 0x16b81(%rip),%xmm8 # 2cf60 <_sk_overlay_sse2_8bit+0x12eb>
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 102,69,15,91,201 ; cvtps2dq %xmm9,%xmm9
DB 102,65,15,114,241,11 ; pslld $0xb,%xmm9
- DB 68,15,40,21,144,106,1,0 ; movaps 0x16a90(%rip),%xmm10 # 2cec0 <_sk_overlay_sse2_8bit+0x1273>
+ DB 68,15,40,21,118,107,1,0 ; movaps 0x16b76(%rip),%xmm10 # 2cf70 <_sk_overlay_sse2_8bit+0x12fb>
DB 68,15,89,209 ; mulps %xmm1,%xmm10
DB 102,69,15,91,210 ; cvtps2dq %xmm10,%xmm10
DB 102,65,15,114,242,5 ; pslld $0x5,%xmm10
@@ -20823,130 +20819,129 @@ _sk_store_565_sse41 LABEL PROC
DB 102,69,15,91,192 ; cvtps2dq %xmm8,%xmm8
DB 102,69,15,86,194 ; orpd %xmm10,%xmm8
DB 102,69,15,56,43,192 ; packusdw %xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,10 ; jne 16467 <_sk_store_565_sse41+0x70>
- DB 242,69,15,17,4,65 ; movsd %xmm8,(%r9,%rax,2)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 16431 <_sk_store_565_sse41+0x70>
+ DB 242,69,15,17,4,64 ; movsd %xmm8,(%r8,%rax,2)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
DB 102,69,15,56,51,192 ; pmovzxwd %xmm8,%xmm8
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,35 ; je 1649d <_sk_store_565_sse41+0xa6>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,15 ; je 1648f <_sk_store_565_sse41+0x98>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,221 ; jne 16463 <_sk_store_565_sse41+0x6c>
- DB 102,69,15,58,21,68,65,4,4 ; pextrw $0x4,%xmm8,0x4(%r9,%rax,2)
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,35 ; je 16467 <_sk_store_565_sse41+0xa6>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,15 ; je 16459 <_sk_store_565_sse41+0x98>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,221 ; jne 1642d <_sk_store_565_sse41+0x6c>
+ DB 102,69,15,58,21,68,64,4,4 ; pextrw $0x4,%xmm8,0x4(%r8,%rax,2)
DB 242,69,15,112,192,232 ; pshuflw $0xe8,%xmm8,%xmm8
- DB 102,69,15,126,4,65 ; movd %xmm8,(%r9,%rax,2)
- DB 235,198 ; jmp 16463 <_sk_store_565_sse41+0x6c>
- DB 102,69,15,58,21,4,65,0 ; pextrw $0x0,%xmm8,(%r9,%rax,2)
- DB 235,188 ; jmp 16463 <_sk_store_565_sse41+0x6c>
+ DB 102,69,15,126,4,64 ; movd %xmm8,(%r8,%rax,2)
+ DB 235,198 ; jmp 1642d <_sk_store_565_sse41+0x6c>
+ DB 102,69,15,58,21,4,64,0 ; pextrw $0x0,%xmm8,(%r8,%rax,2)
+ DB 235,188 ; jmp 1642d <_sk_store_565_sse41+0x6c>
PUBLIC _sk_load_4444_sse41
_sk_load_4444_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,95 ; jne 16521 <_sk_load_4444_sse41+0x7a>
- DB 102,67,15,56,51,28,89 ; pmovzxwd (%r9,%r11,2),%xmm3
- DB 102,15,111,5,255,105,1,0 ; movdqa 0x169ff(%rip),%xmm0 # 2ced0 <_sk_overlay_sse2_8bit+0x1283>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,95 ; jne 164eb <_sk_load_4444_sse41+0x7a>
+ DB 102,67,15,56,51,28,80 ; pmovzxwd (%r8,%r10,2),%xmm3
+ DB 102,15,111,5,229,106,1,0 ; movdqa 0x16ae5(%rip),%xmm0 # 2cf80 <_sk_overlay_sse2_8bit+0x130b>
DB 102,15,219,195 ; pand %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,1,106,1,0 ; mulps 0x16a01(%rip),%xmm0 # 2cee0 <_sk_overlay_sse2_8bit+0x1293>
- DB 102,15,111,13,9,106,1,0 ; movdqa 0x16a09(%rip),%xmm1 # 2cef0 <_sk_overlay_sse2_8bit+0x12a3>
+ DB 15,89,5,231,106,1,0 ; mulps 0x16ae7(%rip),%xmm0 # 2cf90 <_sk_overlay_sse2_8bit+0x131b>
+ DB 102,15,111,13,239,106,1,0 ; movdqa 0x16aef(%rip),%xmm1 # 2cfa0 <_sk_overlay_sse2_8bit+0x132b>
DB 102,15,219,203 ; pand %xmm3,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,13,11,106,1,0 ; mulps 0x16a0b(%rip),%xmm1 # 2cf00 <_sk_overlay_sse2_8bit+0x12b3>
- DB 102,15,111,21,19,106,1,0 ; movdqa 0x16a13(%rip),%xmm2 # 2cf10 <_sk_overlay_sse2_8bit+0x12c3>
+ DB 15,89,13,241,106,1,0 ; mulps 0x16af1(%rip),%xmm1 # 2cfb0 <_sk_overlay_sse2_8bit+0x133b>
+ DB 102,15,111,21,249,106,1,0 ; movdqa 0x16af9(%rip),%xmm2 # 2cfc0 <_sk_overlay_sse2_8bit+0x134b>
DB 102,15,219,211 ; pand %xmm3,%xmm2
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,21,21,106,1,0 ; mulps 0x16a15(%rip),%xmm2 # 2cf20 <_sk_overlay_sse2_8bit+0x12d3>
- DB 102,15,219,29,29,106,1,0 ; pand 0x16a1d(%rip),%xmm3 # 2cf30 <_sk_overlay_sse2_8bit+0x12e3>
+ DB 15,89,21,251,106,1,0 ; mulps 0x16afb(%rip),%xmm2 # 2cfd0 <_sk_overlay_sse2_8bit+0x135b>
+ DB 102,15,219,29,3,107,1,0 ; pand 0x16b03(%rip),%xmm3 # 2cfe0 <_sk_overlay_sse2_8bit+0x136b>
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
- DB 15,89,29,35,106,1,0 ; mulps 0x16a23(%rip),%xmm3 # 2cf40 <_sk_overlay_sse2_8bit+0x12f3>
+ DB 15,89,29,9,107,1,0 ; mulps 0x16b09(%rip),%xmm3 # 2cff0 <_sk_overlay_sse2_8bit+0x137b>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,53 ; je 16563 <_sk_load_4444_sse41+0xbc>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,53 ; je 1652d <_sk_load_4444_sse41+0xbc>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 1654d <_sk_load_4444_sse41+0xa6>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,139 ; jne 164c9 <_sk_load_4444_sse41+0x22>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 16517 <_sk_load_4444_sse41+0xa6>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,139 ; jne 16493 <_sk_load_4444_sse41+0x22>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,15,112,216,69 ; pshufd $0x45,%xmm0,%xmm3
- DB 102,67,15,110,4,89 ; movd (%r9,%r11,2),%xmm0
+ DB 102,67,15,110,4,80 ; movd (%r8,%r10,2),%xmm0
DB 102,15,56,51,192 ; pmovzxwd %xmm0,%xmm0
DB 102,15,58,14,216,15 ; pblendw $0xf,%xmm0,%xmm3
- DB 233,102,255,255,255 ; jmpq 164c9 <_sk_load_4444_sse41+0x22>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,102,255,255,255 ; jmpq 16493 <_sk_load_4444_sse41+0x22>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,15,110,216 ; movd %eax,%xmm3
- DB 233,88,255,255,255 ; jmpq 164c9 <_sk_load_4444_sse41+0x22>
+ DB 233,88,255,255,255 ; jmpq 16493 <_sk_load_4444_sse41+0x22>
PUBLIC _sk_load_4444_dst_sse41
_sk_load_4444_dst_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,95 ; jne 165eb <_sk_load_4444_dst_sse41+0x7a>
- DB 102,67,15,56,51,60,89 ; pmovzxwd (%r9,%r11,2),%xmm7
- DB 102,15,111,37,53,105,1,0 ; movdqa 0x16935(%rip),%xmm4 # 2ced0 <_sk_overlay_sse2_8bit+0x1283>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,95 ; jne 165b5 <_sk_load_4444_dst_sse41+0x7a>
+ DB 102,67,15,56,51,60,80 ; pmovzxwd (%r8,%r10,2),%xmm7
+ DB 102,15,111,37,27,106,1,0 ; movdqa 0x16a1b(%rip),%xmm4 # 2cf80 <_sk_overlay_sse2_8bit+0x130b>
DB 102,15,219,231 ; pand %xmm7,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,37,55,105,1,0 ; mulps 0x16937(%rip),%xmm4 # 2cee0 <_sk_overlay_sse2_8bit+0x1293>
- DB 102,15,111,45,63,105,1,0 ; movdqa 0x1693f(%rip),%xmm5 # 2cef0 <_sk_overlay_sse2_8bit+0x12a3>
+ DB 15,89,37,29,106,1,0 ; mulps 0x16a1d(%rip),%xmm4 # 2cf90 <_sk_overlay_sse2_8bit+0x131b>
+ DB 102,15,111,45,37,106,1,0 ; movdqa 0x16a25(%rip),%xmm5 # 2cfa0 <_sk_overlay_sse2_8bit+0x132b>
DB 102,15,219,239 ; pand %xmm7,%xmm5
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
- DB 15,89,45,65,105,1,0 ; mulps 0x16941(%rip),%xmm5 # 2cf00 <_sk_overlay_sse2_8bit+0x12b3>
- DB 102,15,111,53,73,105,1,0 ; movdqa 0x16949(%rip),%xmm6 # 2cf10 <_sk_overlay_sse2_8bit+0x12c3>
+ DB 15,89,45,39,106,1,0 ; mulps 0x16a27(%rip),%xmm5 # 2cfb0 <_sk_overlay_sse2_8bit+0x133b>
+ DB 102,15,111,53,47,106,1,0 ; movdqa 0x16a2f(%rip),%xmm6 # 2cfc0 <_sk_overlay_sse2_8bit+0x134b>
DB 102,15,219,247 ; pand %xmm7,%xmm6
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
- DB 15,89,53,75,105,1,0 ; mulps 0x1694b(%rip),%xmm6 # 2cf20 <_sk_overlay_sse2_8bit+0x12d3>
- DB 102,15,219,61,83,105,1,0 ; pand 0x16953(%rip),%xmm7 # 2cf30 <_sk_overlay_sse2_8bit+0x12e3>
+ DB 15,89,53,49,106,1,0 ; mulps 0x16a31(%rip),%xmm6 # 2cfd0 <_sk_overlay_sse2_8bit+0x135b>
+ DB 102,15,219,61,57,106,1,0 ; pand 0x16a39(%rip),%xmm7 # 2cfe0 <_sk_overlay_sse2_8bit+0x136b>
DB 15,91,255 ; cvtdq2ps %xmm7,%xmm7
- DB 15,89,61,89,105,1,0 ; mulps 0x16959(%rip),%xmm7 # 2cf40 <_sk_overlay_sse2_8bit+0x12f3>
+ DB 15,89,61,63,106,1,0 ; mulps 0x16a3f(%rip),%xmm7 # 2cff0 <_sk_overlay_sse2_8bit+0x137b>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,53 ; je 1662d <_sk_load_4444_dst_sse41+0xbc>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,53 ; je 165f7 <_sk_load_4444_dst_sse41+0xbc>
DB 102,15,239,255 ; pxor %xmm7,%xmm7
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 16617 <_sk_load_4444_dst_sse41+0xa6>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,139 ; jne 16593 <_sk_load_4444_dst_sse41+0x22>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 165e1 <_sk_load_4444_dst_sse41+0xa6>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,139 ; jne 1655d <_sk_load_4444_dst_sse41+0x22>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,112,252,69 ; pshufd $0x45,%xmm4,%xmm7
- DB 102,67,15,110,36,89 ; movd (%r9,%r11,2),%xmm4
+ DB 102,67,15,110,36,80 ; movd (%r8,%r10,2),%xmm4
DB 102,15,56,51,228 ; pmovzxwd %xmm4,%xmm4
DB 102,15,58,14,252,15 ; pblendw $0xf,%xmm4,%xmm7
- DB 233,102,255,255,255 ; jmpq 16593 <_sk_load_4444_dst_sse41+0x22>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,102,255,255,255 ; jmpq 1655d <_sk_load_4444_dst_sse41+0x22>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,15,110,248 ; movd %eax,%xmm7
- DB 233,88,255,255,255 ; jmpq 16593 <_sk_load_4444_dst_sse41+0x22>
+ DB 233,88,255,255,255 ; jmpq 1655d <_sk_load_4444_dst_sse41+0x22>
PUBLIC _sk_gather_4444_sse41
_sk_gather_4444_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -20954,47 +20949,46 @@ _sk_gather_4444_sse41 LABEL PROC
DB 243,15,91,192 ; cvttps2dq %xmm0,%xmm0
DB 102,15,254,194 ; paddd %xmm2,%xmm0
DB 102,72,15,58,22,192,1 ; pextrq $0x1,%xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,65,15,196,4,89,0 ; pinsrw $0x0,(%r9,%rbx,2),%xmm0
- DB 102,67,15,196,4,89,1 ; pinsrw $0x1,(%r9,%r11,2),%xmm0
- DB 67,15,183,28,81 ; movzwl (%r9,%r10,2),%ebx
- DB 102,15,196,195,2 ; pinsrw $0x2,%ebx,%xmm0
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,196,4,88,0 ; pinsrw $0x0,(%r8,%r11,2),%xmm0
+ DB 102,67,15,196,4,80,1 ; pinsrw $0x1,(%r8,%r10,2),%xmm0
+ DB 71,15,183,12,72 ; movzwl (%r8,%r9,2),%r9d
+ DB 102,65,15,196,193,2 ; pinsrw $0x2,%r9d,%xmm0
+ DB 65,15,183,4,64 ; movzwl (%r8,%rax,2),%eax
DB 102,15,196,192,3 ; pinsrw $0x3,%eax,%xmm0
DB 102,15,56,51,216 ; pmovzxwd %xmm0,%xmm3
- DB 102,15,111,5,43,104,1,0 ; movdqa 0x1682b(%rip),%xmm0 # 2ced0 <_sk_overlay_sse2_8bit+0x1283>
+ DB 102,15,111,5,17,105,1,0 ; movdqa 0x16911(%rip),%xmm0 # 2cf80 <_sk_overlay_sse2_8bit+0x130b>
DB 102,15,219,195 ; pand %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,45,104,1,0 ; mulps 0x1682d(%rip),%xmm0 # 2cee0 <_sk_overlay_sse2_8bit+0x1293>
- DB 102,15,111,13,53,104,1,0 ; movdqa 0x16835(%rip),%xmm1 # 2cef0 <_sk_overlay_sse2_8bit+0x12a3>
+ DB 15,89,5,19,105,1,0 ; mulps 0x16913(%rip),%xmm0 # 2cf90 <_sk_overlay_sse2_8bit+0x131b>
+ DB 102,15,111,13,27,105,1,0 ; movdqa 0x1691b(%rip),%xmm1 # 2cfa0 <_sk_overlay_sse2_8bit+0x132b>
DB 102,15,219,203 ; pand %xmm3,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,13,55,104,1,0 ; mulps 0x16837(%rip),%xmm1 # 2cf00 <_sk_overlay_sse2_8bit+0x12b3>
- DB 102,15,111,21,63,104,1,0 ; movdqa 0x1683f(%rip),%xmm2 # 2cf10 <_sk_overlay_sse2_8bit+0x12c3>
+ DB 15,89,13,29,105,1,0 ; mulps 0x1691d(%rip),%xmm1 # 2cfb0 <_sk_overlay_sse2_8bit+0x133b>
+ DB 102,15,111,21,37,105,1,0 ; movdqa 0x16925(%rip),%xmm2 # 2cfc0 <_sk_overlay_sse2_8bit+0x134b>
DB 102,15,219,211 ; pand %xmm3,%xmm2
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,21,65,104,1,0 ; mulps 0x16841(%rip),%xmm2 # 2cf20 <_sk_overlay_sse2_8bit+0x12d3>
- DB 102,15,219,29,73,104,1,0 ; pand 0x16849(%rip),%xmm3 # 2cf30 <_sk_overlay_sse2_8bit+0x12e3>
+ DB 15,89,21,39,105,1,0 ; mulps 0x16927(%rip),%xmm2 # 2cfd0 <_sk_overlay_sse2_8bit+0x135b>
+ DB 102,15,219,29,47,105,1,0 ; pand 0x1692f(%rip),%xmm3 # 2cfe0 <_sk_overlay_sse2_8bit+0x136b>
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
- DB 15,89,29,79,104,1,0 ; mulps 0x1684f(%rip),%xmm3 # 2cf40 <_sk_overlay_sse2_8bit+0x12f3>
+ DB 15,89,29,53,105,1,0 ; mulps 0x16935(%rip),%xmm3 # 2cff0 <_sk_overlay_sse2_8bit+0x137b>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_4444_sse41
_sk_store_4444_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 68,15,40,5,60,104,1,0 ; movaps 0x1683c(%rip),%xmm8 # 2cf50 <_sk_overlay_sse2_8bit+0x1303>
+ DB 68,15,40,5,35,105,1,0 ; movaps 0x16923(%rip),%xmm8 # 2d000 <_sk_overlay_sse2_8bit+0x138b>
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 102,69,15,91,201 ; cvtps2dq %xmm9,%xmm9
@@ -21013,50 +21007,50 @@ _sk_store_4444_sse41 LABEL PROC
DB 102,69,15,86,193 ; orpd %xmm9,%xmm8
DB 102,69,15,86,194 ; orpd %xmm10,%xmm8
DB 102,69,15,56,43,192 ; packusdw %xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,10 ; jne 1677a <_sk_store_4444_sse41+0x84>
- DB 242,69,15,17,4,65 ; movsd %xmm8,(%r9,%rax,2)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 16743 <_sk_store_4444_sse41+0x84>
+ DB 242,69,15,17,4,64 ; movsd %xmm8,(%r8,%rax,2)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
DB 102,69,15,56,51,192 ; pmovzxwd %xmm8,%xmm8
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,35 ; je 167b0 <_sk_store_4444_sse41+0xba>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,15 ; je 167a2 <_sk_store_4444_sse41+0xac>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,221 ; jne 16776 <_sk_store_4444_sse41+0x80>
- DB 102,69,15,58,21,68,65,4,4 ; pextrw $0x4,%xmm8,0x4(%r9,%rax,2)
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,35 ; je 16779 <_sk_store_4444_sse41+0xba>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,15 ; je 1676b <_sk_store_4444_sse41+0xac>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,221 ; jne 1673f <_sk_store_4444_sse41+0x80>
+ DB 102,69,15,58,21,68,64,4,4 ; pextrw $0x4,%xmm8,0x4(%r8,%rax,2)
DB 242,69,15,112,192,232 ; pshuflw $0xe8,%xmm8,%xmm8
- DB 102,69,15,126,4,65 ; movd %xmm8,(%r9,%rax,2)
- DB 235,198 ; jmp 16776 <_sk_store_4444_sse41+0x80>
- DB 102,69,15,58,21,4,65,0 ; pextrw $0x0,%xmm8,(%r9,%rax,2)
- DB 235,188 ; jmp 16776 <_sk_store_4444_sse41+0x80>
+ DB 102,69,15,126,4,64 ; movd %xmm8,(%r8,%rax,2)
+ DB 235,198 ; jmp 1673f <_sk_store_4444_sse41+0x80>
+ DB 102,69,15,58,21,4,64,0 ; pextrw $0x0,%xmm8,(%r8,%rax,2)
+ DB 235,188 ; jmp 1673f <_sk_store_4444_sse41+0x80>
PUBLIC _sk_load_8888_sse41
_sk_load_8888_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,89 ; jne 1682f <_sk_load_8888_sse41+0x75>
- DB 243,65,15,111,28,129 ; movdqu (%r9,%rax,4),%xmm3
- DB 102,15,111,5,92,99,1,0 ; movdqa 0x1635c(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,89 ; jne 167f8 <_sk_load_8888_sse41+0x75>
+ DB 243,65,15,111,28,128 ; movdqu (%r8,%rax,4),%xmm3
+ DB 102,15,111,5,67,100,1,0 ; movdqa 0x16443(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,15,219,195 ; pand %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 68,15,40,5,157,100,1,0 ; movaps 0x1649d(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,132,101,1,0 ; movaps 0x16584(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
- DB 102,15,56,0,13,76,99,1,0 ; pshufb 0x1634c(%rip),%xmm1 # 2cb50 <_sk_overlay_sse2_8bit+0xf03>
+ DB 102,15,56,0,13,51,100,1,0 ; pshufb 0x16433(%rip),%xmm1 # 2cc00 <_sk_overlay_sse2_8bit+0xf8b>
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
DB 65,15,89,200 ; mulps %xmm8,%xmm1
DB 102,15,111,211 ; movdqa %xmm3,%xmm2
- DB 102,15,56,0,21,72,99,1,0 ; pshufb 0x16348(%rip),%xmm2 # 2cb60 <_sk_overlay_sse2_8bit+0xf13>
+ DB 102,15,56,0,21,47,100,1,0 ; pshufb 0x1642f(%rip),%xmm2 # 2cc10 <_sk_overlay_sse2_8bit+0xf9b>
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 102,15,114,211,24 ; psrld $0x18,%xmm3
@@ -21064,46 +21058,46 @@ _sk_load_8888_sse41 LABEL PROC
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,45 ; je 16869 <_sk_load_8888_sse41+0xaf>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,45 ; je 16832 <_sk_load_8888_sse41+0xaf>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,18 ; je 16858 <_sk_load_8888_sse41+0x9e>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,144 ; jne 167dc <_sk_load_8888_sse41+0x22>
- DB 102,65,15,110,68,129,8 ; movd 0x8(%r9,%rax,4),%xmm0
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,18 ; je 16821 <_sk_load_8888_sse41+0x9e>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,144 ; jne 167a5 <_sk_load_8888_sse41+0x22>
+ DB 102,65,15,110,68,128,8 ; movd 0x8(%r8,%rax,4),%xmm0
DB 102,15,112,216,69 ; pshufd $0x45,%xmm0,%xmm3
- DB 243,65,15,126,4,129 ; movq (%r9,%rax,4),%xmm0
+ DB 243,65,15,126,4,128 ; movq (%r8,%rax,4),%xmm0
DB 102,15,58,14,216,15 ; pblendw $0xf,%xmm0,%xmm3
- DB 233,115,255,255,255 ; jmpq 167dc <_sk_load_8888_sse41+0x22>
- DB 102,65,15,110,28,129 ; movd (%r9,%rax,4),%xmm3
- DB 233,104,255,255,255 ; jmpq 167dc <_sk_load_8888_sse41+0x22>
+ DB 233,115,255,255,255 ; jmpq 167a5 <_sk_load_8888_sse41+0x22>
+ DB 102,65,15,110,28,128 ; movd (%r8,%rax,4),%xmm3
+ DB 233,104,255,255,255 ; jmpq 167a5 <_sk_load_8888_sse41+0x22>
PUBLIC _sk_load_8888_dst_sse41
_sk_load_8888_dst_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,89 ; jne 168e9 <_sk_load_8888_dst_sse41+0x75>
- DB 243,65,15,111,60,129 ; movdqu (%r9,%rax,4),%xmm7
- DB 102,15,111,37,162,98,1,0 ; movdqa 0x162a2(%rip),%xmm4 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,89 ; jne 168b2 <_sk_load_8888_dst_sse41+0x75>
+ DB 243,65,15,111,60,128 ; movdqu (%r8,%rax,4),%xmm7
+ DB 102,15,111,37,137,99,1,0 ; movdqa 0x16389(%rip),%xmm4 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,15,219,231 ; pand %xmm7,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 68,15,40,5,227,99,1,0 ; movaps 0x163e3(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,202,100,1,0 ; movaps 0x164ca(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,224 ; mulps %xmm8,%xmm4
DB 102,15,111,239 ; movdqa %xmm7,%xmm5
- DB 102,15,56,0,45,146,98,1,0 ; pshufb 0x16292(%rip),%xmm5 # 2cb50 <_sk_overlay_sse2_8bit+0xf03>
+ DB 102,15,56,0,45,121,99,1,0 ; pshufb 0x16379(%rip),%xmm5 # 2cc00 <_sk_overlay_sse2_8bit+0xf8b>
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
DB 65,15,89,232 ; mulps %xmm8,%xmm5
DB 102,15,111,247 ; movdqa %xmm7,%xmm6
- DB 102,15,56,0,53,142,98,1,0 ; pshufb 0x1628e(%rip),%xmm6 # 2cb60 <_sk_overlay_sse2_8bit+0xf13>
+ DB 102,15,56,0,53,117,99,1,0 ; pshufb 0x16375(%rip),%xmm6 # 2cc10 <_sk_overlay_sse2_8bit+0xf9b>
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
DB 65,15,89,240 ; mulps %xmm8,%xmm6
DB 102,15,114,215,24 ; psrld $0x18,%xmm7
@@ -21111,28 +21105,27 @@ _sk_load_8888_dst_sse41 LABEL PROC
DB 65,15,89,248 ; mulps %xmm8,%xmm7
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,45 ; je 16923 <_sk_load_8888_dst_sse41+0xaf>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,45 ; je 168ec <_sk_load_8888_dst_sse41+0xaf>
DB 102,15,239,255 ; pxor %xmm7,%xmm7
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,18 ; je 16912 <_sk_load_8888_dst_sse41+0x9e>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,144 ; jne 16896 <_sk_load_8888_dst_sse41+0x22>
- DB 102,65,15,110,100,129,8 ; movd 0x8(%r9,%rax,4),%xmm4
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,18 ; je 168db <_sk_load_8888_dst_sse41+0x9e>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,144 ; jne 1685f <_sk_load_8888_dst_sse41+0x22>
+ DB 102,65,15,110,100,128,8 ; movd 0x8(%r8,%rax,4),%xmm4
DB 102,15,112,252,69 ; pshufd $0x45,%xmm4,%xmm7
- DB 243,65,15,126,36,129 ; movq (%r9,%rax,4),%xmm4
+ DB 243,65,15,126,36,128 ; movq (%r8,%rax,4),%xmm4
DB 102,15,58,14,252,15 ; pblendw $0xf,%xmm4,%xmm7
- DB 233,115,255,255,255 ; jmpq 16896 <_sk_load_8888_dst_sse41+0x22>
- DB 102,65,15,110,60,129 ; movd (%r9,%rax,4),%xmm7
- DB 233,104,255,255,255 ; jmpq 16896 <_sk_load_8888_dst_sse41+0x22>
+ DB 233,115,255,255,255 ; jmpq 1685f <_sk_load_8888_dst_sse41+0x22>
+ DB 102,65,15,110,60,128 ; movd (%r8,%rax,4),%xmm7
+ DB 233,104,255,255,255 ; jmpq 1685f <_sk_load_8888_dst_sse41+0x22>
PUBLIC _sk_gather_8888_sse41
_sk_gather_8888_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -21140,45 +21133,44 @@ _sk_gather_8888_sse41 LABEL PROC
DB 243,15,91,192 ; cvttps2dq %xmm0,%xmm0
DB 102,15,254,194 ; paddd %xmm2,%xmm0
DB 102,72,15,126,192 ; movq %xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,58,22,195,1 ; pextrq $0x1,%xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,67,15,110,28,145 ; movd (%r9,%r10,4),%xmm3
- DB 102,65,15,58,34,28,129,1 ; pinsrd $0x1,(%r9,%rax,4),%xmm3
- DB 102,65,15,58,34,28,153,2 ; pinsrd $0x2,(%r9,%rbx,4),%xmm3
- DB 102,67,15,58,34,28,153,3 ; pinsrd $0x3,(%r9,%r11,4),%xmm3
- DB 102,15,111,5,177,97,1,0 ; movdqa 0x161b1(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,73,15,58,22,194,1 ; pextrq $0x1,%xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,110,28,136 ; movd (%r8,%r9,4),%xmm3
+ DB 102,65,15,58,34,28,128,1 ; pinsrd $0x1,(%r8,%rax,4),%xmm3
+ DB 102,67,15,58,34,28,152,2 ; pinsrd $0x2,(%r8,%r11,4),%xmm3
+ DB 102,67,15,58,34,28,144,3 ; pinsrd $0x3,(%r8,%r10,4),%xmm3
+ DB 102,15,111,5,153,98,1,0 ; movdqa 0x16299(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,15,219,195 ; pand %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 68,15,40,5,242,98,1,0 ; movaps 0x162f2(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,218,99,1,0 ; movaps 0x163da(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
- DB 102,15,56,0,13,161,97,1,0 ; pshufb 0x161a1(%rip),%xmm1 # 2cb50 <_sk_overlay_sse2_8bit+0xf03>
+ DB 102,15,56,0,13,137,98,1,0 ; pshufb 0x16289(%rip),%xmm1 # 2cc00 <_sk_overlay_sse2_8bit+0xf8b>
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
DB 65,15,89,200 ; mulps %xmm8,%xmm1
DB 102,15,111,211 ; movdqa %xmm3,%xmm2
- DB 102,15,56,0,21,157,97,1,0 ; pshufb 0x1619d(%rip),%xmm2 # 2cb60 <_sk_overlay_sse2_8bit+0xf13>
+ DB 102,15,56,0,21,133,98,1,0 ; pshufb 0x16285(%rip),%xmm2 # 2cc10 <_sk_overlay_sse2_8bit+0xf9b>
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 102,15,114,211,24 ; psrld $0x18,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_8888_sse41
_sk_store_8888_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 68,15,40,5,118,97,1,0 ; movaps 0x16176(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 68,15,40,5,95,98,1,0 ; movaps 0x1625f(%rip),%xmm8 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 102,69,15,91,201 ; cvtps2dq %xmm9,%xmm9
@@ -21196,48 +21188,48 @@ _sk_store_8888_sse41 LABEL PROC
DB 102,65,15,114,240,24 ; pslld $0x18,%xmm8
DB 102,69,15,235,193 ; por %xmm9,%xmm8
DB 102,69,15,235,194 ; por %xmm10,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,10 ; jne 16a5a <_sk_store_8888_sse41+0x7f>
- DB 243,69,15,127,4,129 ; movdqu %xmm8,(%r9,%rax,4)
- DB 72,173 ; lods %ds:(%rsi),%rax
- DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,29 ; je 16a84 <_sk_store_8888_sse41+0xa9>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,15 ; je 16a7c <_sk_store_8888_sse41+0xa1>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,227 ; jne 16a56 <_sk_store_8888_sse41+0x7b>
- DB 102,69,15,58,22,68,129,8,2 ; pextrd $0x2,%xmm8,0x8(%r9,%rax,4)
- DB 102,69,15,214,4,129 ; movq %xmm8,(%r9,%rax,4)
- DB 235,210 ; jmp 16a56 <_sk_store_8888_sse41+0x7b>
- DB 102,69,15,126,4,129 ; movd %xmm8,(%r9,%rax,4)
- DB 235,202 ; jmp 16a56 <_sk_store_8888_sse41+0x7b>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 16a21 <_sk_store_8888_sse41+0x7f>
+ DB 243,69,15,127,4,128 ; movdqu %xmm8,(%r8,%rax,4)
+ DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 255,224 ; jmpq *%rax
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,29 ; je 16a4b <_sk_store_8888_sse41+0xa9>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,15 ; je 16a43 <_sk_store_8888_sse41+0xa1>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,227 ; jne 16a1d <_sk_store_8888_sse41+0x7b>
+ DB 102,69,15,58,22,68,128,8,2 ; pextrd $0x2,%xmm8,0x8(%r8,%rax,4)
+ DB 102,69,15,214,4,128 ; movq %xmm8,(%r8,%rax,4)
+ DB 235,210 ; jmp 16a1d <_sk_store_8888_sse41+0x7b>
+ DB 102,69,15,126,4,128 ; movd %xmm8,(%r8,%rax,4)
+ DB 235,202 ; jmp 16a1d <_sk_store_8888_sse41+0x7b>
PUBLIC _sk_load_bgra_sse41
_sk_load_bgra_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,89 ; jne 16b01 <_sk_load_bgra_sse41+0x75>
- DB 243,65,15,111,28,129 ; movdqu (%r9,%rax,4),%xmm3
- DB 102,15,111,5,138,96,1,0 ; movdqa 0x1608a(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,89 ; jne 16ac8 <_sk_load_bgra_sse41+0x75>
+ DB 243,65,15,111,28,128 ; movdqu (%r8,%rax,4),%xmm3
+ DB 102,15,111,5,115,97,1,0 ; movdqa 0x16173(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,15,219,195 ; pand %xmm3,%xmm0
DB 15,91,208 ; cvtdq2ps %xmm0,%xmm2
- DB 68,15,40,5,203,97,1,0 ; movaps 0x161cb(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,180,98,1,0 ; movaps 0x162b4(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 102,15,111,195 ; movdqa %xmm3,%xmm0
- DB 102,15,56,0,5,122,96,1,0 ; pshufb 0x1607a(%rip),%xmm0 # 2cb50 <_sk_overlay_sse2_8bit+0xf03>
+ DB 102,15,56,0,5,99,97,1,0 ; pshufb 0x16163(%rip),%xmm0 # 2cc00 <_sk_overlay_sse2_8bit+0xf8b>
DB 15,91,200 ; cvtdq2ps %xmm0,%xmm1
DB 65,15,89,200 ; mulps %xmm8,%xmm1
DB 102,15,111,195 ; movdqa %xmm3,%xmm0
- DB 102,15,56,0,5,118,96,1,0 ; pshufb 0x16076(%rip),%xmm0 # 2cb60 <_sk_overlay_sse2_8bit+0xf13>
+ DB 102,15,56,0,5,95,97,1,0 ; pshufb 0x1615f(%rip),%xmm0 # 2cc10 <_sk_overlay_sse2_8bit+0xf9b>
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,114,211,24 ; psrld $0x18,%xmm3
@@ -21245,46 +21237,46 @@ _sk_load_bgra_sse41 LABEL PROC
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,45 ; je 16b3b <_sk_load_bgra_sse41+0xaf>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,45 ; je 16b02 <_sk_load_bgra_sse41+0xaf>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,18 ; je 16b2a <_sk_load_bgra_sse41+0x9e>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,144 ; jne 16aae <_sk_load_bgra_sse41+0x22>
- DB 102,65,15,110,68,129,8 ; movd 0x8(%r9,%rax,4),%xmm0
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,18 ; je 16af1 <_sk_load_bgra_sse41+0x9e>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,144 ; jne 16a75 <_sk_load_bgra_sse41+0x22>
+ DB 102,65,15,110,68,128,8 ; movd 0x8(%r8,%rax,4),%xmm0
DB 102,15,112,216,69 ; pshufd $0x45,%xmm0,%xmm3
- DB 243,65,15,126,4,129 ; movq (%r9,%rax,4),%xmm0
+ DB 243,65,15,126,4,128 ; movq (%r8,%rax,4),%xmm0
DB 102,15,58,14,216,15 ; pblendw $0xf,%xmm0,%xmm3
- DB 233,115,255,255,255 ; jmpq 16aae <_sk_load_bgra_sse41+0x22>
- DB 102,65,15,110,28,129 ; movd (%r9,%rax,4),%xmm3
- DB 233,104,255,255,255 ; jmpq 16aae <_sk_load_bgra_sse41+0x22>
+ DB 233,115,255,255,255 ; jmpq 16a75 <_sk_load_bgra_sse41+0x22>
+ DB 102,65,15,110,28,128 ; movd (%r8,%rax,4),%xmm3
+ DB 233,104,255,255,255 ; jmpq 16a75 <_sk_load_bgra_sse41+0x22>
PUBLIC _sk_load_bgra_dst_sse41
_sk_load_bgra_dst_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,89 ; jne 16bbb <_sk_load_bgra_dst_sse41+0x75>
- DB 243,65,15,111,60,129 ; movdqu (%r9,%rax,4),%xmm7
- DB 102,15,111,37,208,95,1,0 ; movdqa 0x15fd0(%rip),%xmm4 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,89 ; jne 16b82 <_sk_load_bgra_dst_sse41+0x75>
+ DB 243,65,15,111,60,128 ; movdqu (%r8,%rax,4),%xmm7
+ DB 102,15,111,37,185,96,1,0 ; movdqa 0x160b9(%rip),%xmm4 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,15,219,231 ; pand %xmm7,%xmm4
DB 15,91,244 ; cvtdq2ps %xmm4,%xmm6
- DB 68,15,40,5,17,97,1,0 ; movaps 0x16111(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,250,97,1,0 ; movaps 0x161fa(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,240 ; mulps %xmm8,%xmm6
DB 102,15,111,231 ; movdqa %xmm7,%xmm4
- DB 102,15,56,0,37,192,95,1,0 ; pshufb 0x15fc0(%rip),%xmm4 # 2cb50 <_sk_overlay_sse2_8bit+0xf03>
+ DB 102,15,56,0,37,169,96,1,0 ; pshufb 0x160a9(%rip),%xmm4 # 2cc00 <_sk_overlay_sse2_8bit+0xf8b>
DB 15,91,236 ; cvtdq2ps %xmm4,%xmm5
DB 65,15,89,232 ; mulps %xmm8,%xmm5
DB 102,15,111,231 ; movdqa %xmm7,%xmm4
- DB 102,15,56,0,37,188,95,1,0 ; pshufb 0x15fbc(%rip),%xmm4 # 2cb60 <_sk_overlay_sse2_8bit+0xf13>
+ DB 102,15,56,0,37,165,96,1,0 ; pshufb 0x160a5(%rip),%xmm4 # 2cc10 <_sk_overlay_sse2_8bit+0xf9b>
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
DB 65,15,89,224 ; mulps %xmm8,%xmm4
DB 102,15,114,215,24 ; psrld $0x18,%xmm7
@@ -21292,28 +21284,27 @@ _sk_load_bgra_dst_sse41 LABEL PROC
DB 65,15,89,248 ; mulps %xmm8,%xmm7
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,45 ; je 16bf5 <_sk_load_bgra_dst_sse41+0xaf>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,45 ; je 16bbc <_sk_load_bgra_dst_sse41+0xaf>
DB 102,15,239,255 ; pxor %xmm7,%xmm7
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,18 ; je 16be4 <_sk_load_bgra_dst_sse41+0x9e>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,144 ; jne 16b68 <_sk_load_bgra_dst_sse41+0x22>
- DB 102,65,15,110,100,129,8 ; movd 0x8(%r9,%rax,4),%xmm4
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,18 ; je 16bab <_sk_load_bgra_dst_sse41+0x9e>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,144 ; jne 16b2f <_sk_load_bgra_dst_sse41+0x22>
+ DB 102,65,15,110,100,128,8 ; movd 0x8(%r8,%rax,4),%xmm4
DB 102,15,112,252,69 ; pshufd $0x45,%xmm4,%xmm7
- DB 243,65,15,126,36,129 ; movq (%r9,%rax,4),%xmm4
+ DB 243,65,15,126,36,128 ; movq (%r8,%rax,4),%xmm4
DB 102,15,58,14,252,15 ; pblendw $0xf,%xmm4,%xmm7
- DB 233,115,255,255,255 ; jmpq 16b68 <_sk_load_bgra_dst_sse41+0x22>
- DB 102,65,15,110,60,129 ; movd (%r9,%rax,4),%xmm7
- DB 233,104,255,255,255 ; jmpq 16b68 <_sk_load_bgra_dst_sse41+0x22>
+ DB 233,115,255,255,255 ; jmpq 16b2f <_sk_load_bgra_dst_sse41+0x22>
+ DB 102,65,15,110,60,128 ; movd (%r8,%rax,4),%xmm7
+ DB 233,104,255,255,255 ; jmpq 16b2f <_sk_load_bgra_dst_sse41+0x22>
PUBLIC _sk_gather_bgra_sse41
_sk_gather_bgra_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -21321,45 +21312,44 @@ _sk_gather_bgra_sse41 LABEL PROC
DB 243,15,91,192 ; cvttps2dq %xmm0,%xmm0
DB 102,15,254,194 ; paddd %xmm2,%xmm0
DB 102,72,15,126,192 ; movq %xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,58,22,195,1 ; pextrq $0x1,%xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,67,15,110,28,145 ; movd (%r9,%r10,4),%xmm3
- DB 102,65,15,58,34,28,129,1 ; pinsrd $0x1,(%r9,%rax,4),%xmm3
- DB 102,65,15,58,34,28,153,2 ; pinsrd $0x2,(%r9,%rbx,4),%xmm3
- DB 102,67,15,58,34,28,153,3 ; pinsrd $0x3,(%r9,%r11,4),%xmm3
- DB 102,15,111,5,223,94,1,0 ; movdqa 0x15edf(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,73,15,58,22,194,1 ; pextrq $0x1,%xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,110,28,136 ; movd (%r8,%r9,4),%xmm3
+ DB 102,65,15,58,34,28,128,1 ; pinsrd $0x1,(%r8,%rax,4),%xmm3
+ DB 102,67,15,58,34,28,152,2 ; pinsrd $0x2,(%r8,%r11,4),%xmm3
+ DB 102,67,15,58,34,28,144,3 ; pinsrd $0x3,(%r8,%r10,4),%xmm3
+ DB 102,15,111,5,201,95,1,0 ; movdqa 0x15fc9(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,15,219,195 ; pand %xmm3,%xmm0
DB 15,91,208 ; cvtdq2ps %xmm0,%xmm2
- DB 68,15,40,5,32,96,1,0 ; movaps 0x16020(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,10,97,1,0 ; movaps 0x1610a(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 102,15,111,195 ; movdqa %xmm3,%xmm0
- DB 102,15,56,0,5,207,94,1,0 ; pshufb 0x15ecf(%rip),%xmm0 # 2cb50 <_sk_overlay_sse2_8bit+0xf03>
+ DB 102,15,56,0,5,185,95,1,0 ; pshufb 0x15fb9(%rip),%xmm0 # 2cc00 <_sk_overlay_sse2_8bit+0xf8b>
DB 15,91,200 ; cvtdq2ps %xmm0,%xmm1
DB 65,15,89,200 ; mulps %xmm8,%xmm1
DB 102,15,111,195 ; movdqa %xmm3,%xmm0
- DB 102,15,56,0,5,203,94,1,0 ; pshufb 0x15ecb(%rip),%xmm0 # 2cb60 <_sk_overlay_sse2_8bit+0xf13>
+ DB 102,15,56,0,5,181,95,1,0 ; pshufb 0x15fb5(%rip),%xmm0 # 2cc10 <_sk_overlay_sse2_8bit+0xf9b>
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,114,211,24 ; psrld $0x18,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_bgra_sse41
_sk_store_bgra_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 68,15,40,5,164,94,1,0 ; movaps 0x15ea4(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 68,15,40,5,143,95,1,0 ; movaps 0x15f8f(%rip),%xmm8 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 68,15,40,202 ; movaps %xmm2,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 102,69,15,91,201 ; cvtps2dq %xmm9,%xmm9
@@ -21377,38 +21367,38 @@ _sk_store_bgra_sse41 LABEL PROC
DB 102,65,15,114,240,24 ; pslld $0x18,%xmm8
DB 102,69,15,235,193 ; por %xmm9,%xmm8
DB 102,69,15,235,194 ; por %xmm10,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,10 ; jne 16d2c <_sk_store_bgra_sse41+0x7f>
- DB 243,69,15,127,4,129 ; movdqu %xmm8,(%r9,%rax,4)
- DB 72,173 ; lods %ds:(%rsi),%rax
- DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,29 ; je 16d56 <_sk_store_bgra_sse41+0xa9>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,15 ; je 16d4e <_sk_store_bgra_sse41+0xa1>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,227 ; jne 16d28 <_sk_store_bgra_sse41+0x7b>
- DB 102,69,15,58,22,68,129,8,2 ; pextrd $0x2,%xmm8,0x8(%r9,%rax,4)
- DB 102,69,15,214,4,129 ; movq %xmm8,(%r9,%rax,4)
- DB 235,210 ; jmp 16d28 <_sk_store_bgra_sse41+0x7b>
- DB 102,69,15,126,4,129 ; movd %xmm8,(%r9,%rax,4)
- DB 235,202 ; jmp 16d28 <_sk_store_bgra_sse41+0x7b>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 16cf1 <_sk_store_bgra_sse41+0x7f>
+ DB 243,69,15,127,4,128 ; movdqu %xmm8,(%r8,%rax,4)
+ DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 255,224 ; jmpq *%rax
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,29 ; je 16d1b <_sk_store_bgra_sse41+0xa9>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,15 ; je 16d13 <_sk_store_bgra_sse41+0xa1>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,227 ; jne 16ced <_sk_store_bgra_sse41+0x7b>
+ DB 102,69,15,58,22,68,128,8,2 ; pextrd $0x2,%xmm8,0x8(%r8,%rax,4)
+ DB 102,69,15,214,4,128 ; movq %xmm8,(%r8,%rax,4)
+ DB 235,210 ; jmp 16ced <_sk_store_bgra_sse41+0x7b>
+ DB 102,69,15,126,4,128 ; movd %xmm8,(%r8,%rax,4)
+ DB 235,202 ; jmp 16ced <_sk_store_bgra_sse41+0x7b>
PUBLIC _sk_load_f16_sse41
_sk_load_f16_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,62,1,0,0 ; jne 16ebc <_sk_load_f16_sse41+0x15e>
- DB 102,65,15,16,4,193 ; movupd (%r9,%rax,8),%xmm0
- DB 243,65,15,111,76,193,16 ; movdqu 0x10(%r9,%rax,8),%xmm1
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,62,1,0,0 ; jne 16e81 <_sk_load_f16_sse41+0x15e>
+ DB 102,65,15,16,4,192 ; movupd (%r8,%rax,8),%xmm0
+ DB 243,65,15,111,76,192,16 ; movdqu 0x10(%r8,%rax,8),%xmm1
DB 102,68,15,40,200 ; movapd %xmm0,%xmm9
DB 102,68,15,97,201 ; punpcklwd %xmm1,%xmm9
DB 102,15,105,193 ; punpckhwd %xmm1,%xmm0
@@ -21416,18 +21406,18 @@ _sk_load_f16_sse41 LABEL PROC
DB 102,68,15,97,216 ; punpcklwd %xmm0,%xmm11
DB 102,68,15,105,200 ; punpckhwd %xmm0,%xmm9
DB 102,65,15,56,51,203 ; pmovzxwd %xmm11,%xmm1
- DB 102,68,15,111,5,169,97,1,0 ; movdqa 0x161a9(%rip),%xmm8 # 2cf60 <_sk_overlay_sse2_8bit+0x1313>
+ DB 102,68,15,111,5,148,98,1,0 ; movdqa 0x16294(%rip),%xmm8 # 2d010 <_sk_overlay_sse2_8bit+0x139b>
DB 102,15,111,209 ; movdqa %xmm1,%xmm2
DB 102,65,15,219,208 ; pand %xmm8,%xmm2
DB 102,15,239,202 ; pxor %xmm2,%xmm1
- DB 102,15,111,29,164,97,1,0 ; movdqa 0x161a4(%rip),%xmm3 # 2cf70 <_sk_overlay_sse2_8bit+0x1323>
+ DB 102,15,111,29,143,98,1,0 ; movdqa 0x1628f(%rip),%xmm3 # 2d020 <_sk_overlay_sse2_8bit+0x13ab>
DB 102,15,114,242,16 ; pslld $0x10,%xmm2
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
DB 102,15,56,63,195 ; pmaxud %xmm3,%xmm0
DB 102,15,118,193 ; pcmpeqd %xmm1,%xmm0
DB 102,15,114,241,13 ; pslld $0xd,%xmm1
DB 102,15,235,202 ; por %xmm2,%xmm1
- DB 102,68,15,111,21,144,97,1,0 ; movdqa 0x16190(%rip),%xmm10 # 2cf80 <_sk_overlay_sse2_8bit+0x1333>
+ DB 102,68,15,111,21,123,98,1,0 ; movdqa 0x1627b(%rip),%xmm10 # 2d030 <_sk_overlay_sse2_8bit+0x13bb>
DB 102,65,15,254,202 ; paddd %xmm10,%xmm1
DB 102,15,219,193 ; pand %xmm1,%xmm0
DB 102,65,15,115,219,8 ; psrldq $0x8,%xmm11
@@ -21468,32 +21458,32 @@ _sk_load_f16_sse41 LABEL PROC
DB 102,65,15,219,217 ; pand %xmm9,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 242,65,15,16,4,193 ; movsd (%r9,%rax,8),%xmm0
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,13 ; jne 16ed5 <_sk_load_f16_sse41+0x177>
+ DB 242,65,15,16,4,192 ; movsd (%r8,%rax,8),%xmm0
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,13 ; jne 16e9a <_sk_load_f16_sse41+0x177>
DB 243,15,126,192 ; movq %xmm0,%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 233,182,254,255,255 ; jmpq 16d8b <_sk_load_f16_sse41+0x2d>
- DB 102,65,15,22,68,193,8 ; movhpd 0x8(%r9,%rax,8),%xmm0
+ DB 233,182,254,255,255 ; jmpq 16d50 <_sk_load_f16_sse41+0x2d>
+ DB 102,65,15,22,68,192,8 ; movhpd 0x8(%r8,%rax,8),%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 15,130,161,254,255,255 ; jb 16d8b <_sk_load_f16_sse41+0x2d>
- DB 243,65,15,126,76,193,16 ; movq 0x10(%r9,%rax,8),%xmm1
- DB 233,149,254,255,255 ; jmpq 16d8b <_sk_load_f16_sse41+0x2d>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 15,130,161,254,255,255 ; jb 16d50 <_sk_load_f16_sse41+0x2d>
+ DB 243,65,15,126,76,192,16 ; movq 0x10(%r8,%rax,8),%xmm1
+ DB 233,149,254,255,255 ; jmpq 16d50 <_sk_load_f16_sse41+0x2d>
PUBLIC _sk_load_f16_dst_sse41
_sk_load_f16_dst_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,62,1,0,0 ; jne 17054 <_sk_load_f16_dst_sse41+0x15e>
- DB 102,65,15,16,36,193 ; movupd (%r9,%rax,8),%xmm4
- DB 243,65,15,111,108,193,16 ; movdqu 0x10(%r9,%rax,8),%xmm5
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,62,1,0,0 ; jne 17019 <_sk_load_f16_dst_sse41+0x15e>
+ DB 102,65,15,16,36,192 ; movupd (%r8,%rax,8),%xmm4
+ DB 243,65,15,111,108,192,16 ; movdqu 0x10(%r8,%rax,8),%xmm5
DB 102,68,15,40,204 ; movapd %xmm4,%xmm9
DB 102,68,15,97,205 ; punpcklwd %xmm5,%xmm9
DB 102,15,105,229 ; punpckhwd %xmm5,%xmm4
@@ -21501,18 +21491,18 @@ _sk_load_f16_dst_sse41 LABEL PROC
DB 102,68,15,97,220 ; punpcklwd %xmm4,%xmm11
DB 102,68,15,105,204 ; punpckhwd %xmm4,%xmm9
DB 102,65,15,56,51,235 ; pmovzxwd %xmm11,%xmm5
- DB 102,68,15,111,5,17,96,1,0 ; movdqa 0x16011(%rip),%xmm8 # 2cf60 <_sk_overlay_sse2_8bit+0x1313>
+ DB 102,68,15,111,5,252,96,1,0 ; movdqa 0x160fc(%rip),%xmm8 # 2d010 <_sk_overlay_sse2_8bit+0x139b>
DB 102,15,111,245 ; movdqa %xmm5,%xmm6
DB 102,65,15,219,240 ; pand %xmm8,%xmm6
DB 102,15,239,238 ; pxor %xmm6,%xmm5
- DB 102,15,111,61,12,96,1,0 ; movdqa 0x1600c(%rip),%xmm7 # 2cf70 <_sk_overlay_sse2_8bit+0x1323>
+ DB 102,15,111,61,247,96,1,0 ; movdqa 0x160f7(%rip),%xmm7 # 2d020 <_sk_overlay_sse2_8bit+0x13ab>
DB 102,15,114,246,16 ; pslld $0x10,%xmm6
DB 102,15,111,229 ; movdqa %xmm5,%xmm4
DB 102,15,56,63,231 ; pmaxud %xmm7,%xmm4
DB 102,15,118,229 ; pcmpeqd %xmm5,%xmm4
DB 102,15,114,245,13 ; pslld $0xd,%xmm5
DB 102,15,235,238 ; por %xmm6,%xmm5
- DB 102,68,15,111,21,248,95,1,0 ; movdqa 0x15ff8(%rip),%xmm10 # 2cf80 <_sk_overlay_sse2_8bit+0x1333>
+ DB 102,68,15,111,21,227,96,1,0 ; movdqa 0x160e3(%rip),%xmm10 # 2d030 <_sk_overlay_sse2_8bit+0x13bb>
DB 102,65,15,254,234 ; paddd %xmm10,%xmm5
DB 102,15,219,229 ; pand %xmm5,%xmm4
DB 102,65,15,115,219,8 ; psrldq $0x8,%xmm11
@@ -21553,24 +21543,23 @@ _sk_load_f16_dst_sse41 LABEL PROC
DB 102,65,15,219,249 ; pand %xmm9,%xmm7
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 242,65,15,16,36,193 ; movsd (%r9,%rax,8),%xmm4
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,13 ; jne 1706d <_sk_load_f16_dst_sse41+0x177>
+ DB 242,65,15,16,36,192 ; movsd (%r8,%rax,8),%xmm4
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,13 ; jne 17032 <_sk_load_f16_dst_sse41+0x177>
DB 243,15,126,228 ; movq %xmm4,%xmm4
DB 102,15,239,237 ; pxor %xmm5,%xmm5
- DB 233,182,254,255,255 ; jmpq 16f23 <_sk_load_f16_dst_sse41+0x2d>
- DB 102,65,15,22,100,193,8 ; movhpd 0x8(%r9,%rax,8),%xmm4
+ DB 233,182,254,255,255 ; jmpq 16ee8 <_sk_load_f16_dst_sse41+0x2d>
+ DB 102,65,15,22,100,192,8 ; movhpd 0x8(%r8,%rax,8),%xmm4
DB 102,15,239,237 ; pxor %xmm5,%xmm5
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 15,130,161,254,255,255 ; jb 16f23 <_sk_load_f16_dst_sse41+0x2d>
- DB 243,65,15,126,108,193,16 ; movq 0x10(%r9,%rax,8),%xmm5
- DB 233,149,254,255,255 ; jmpq 16f23 <_sk_load_f16_dst_sse41+0x2d>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 15,130,161,254,255,255 ; jb 16ee8 <_sk_load_f16_dst_sse41+0x2d>
+ DB 243,65,15,126,108,192,16 ; movq 0x10(%r8,%rax,8),%xmm5
+ DB 233,149,254,255,255 ; jmpq 16ee8 <_sk_load_f16_dst_sse41+0x2d>
PUBLIC _sk_gather_f16_sse41
_sk_gather_f16_sse41 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -21578,16 +21567,16 @@ _sk_gather_f16_sse41 LABEL PROC
DB 243,15,91,192 ; cvttps2dq %xmm0,%xmm0
DB 102,15,254,194 ; paddd %xmm2,%xmm0
DB 102,72,15,126,192 ; movq %xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,58,22,195,1 ; pextrq $0x1,%xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,67,15,126,4,217 ; movq (%r9,%r11,8),%xmm0
- DB 243,65,15,126,12,217 ; movq (%r9,%rbx,8),%xmm1
+ DB 102,73,15,58,22,194,1 ; pextrq $0x1,%xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,67,15,126,4,208 ; movq (%r8,%r10,8),%xmm0
+ DB 243,67,15,126,12,216 ; movq (%r8,%r11,8),%xmm1
DB 102,15,108,200 ; punpcklqdq %xmm0,%xmm1
- DB 243,65,15,126,4,193 ; movq (%r9,%rax,8),%xmm0
- DB 243,67,15,126,20,209 ; movq (%r9,%r10,8),%xmm2
+ DB 243,65,15,126,4,192 ; movq (%r8,%rax,8),%xmm0
+ DB 243,67,15,126,20,200 ; movq (%r8,%r9,8),%xmm2
DB 102,15,108,208 ; punpcklqdq %xmm0,%xmm2
DB 102,68,15,111,202 ; movdqa %xmm2,%xmm9
DB 102,68,15,97,201 ; punpcklwd %xmm1,%xmm9
@@ -21596,18 +21585,18 @@ _sk_gather_f16_sse41 LABEL PROC
DB 102,68,15,97,218 ; punpcklwd %xmm2,%xmm11
DB 102,68,15,105,202 ; punpckhwd %xmm2,%xmm9
DB 102,65,15,56,51,203 ; pmovzxwd %xmm11,%xmm1
- DB 102,68,15,111,5,75,94,1,0 ; movdqa 0x15e4b(%rip),%xmm8 # 2cf60 <_sk_overlay_sse2_8bit+0x1313>
+ DB 102,68,15,111,5,55,95,1,0 ; movdqa 0x15f37(%rip),%xmm8 # 2d010 <_sk_overlay_sse2_8bit+0x139b>
DB 102,15,111,209 ; movdqa %xmm1,%xmm2
DB 102,65,15,219,208 ; pand %xmm8,%xmm2
DB 102,15,239,202 ; pxor %xmm2,%xmm1
- DB 102,15,111,29,70,94,1,0 ; movdqa 0x15e46(%rip),%xmm3 # 2cf70 <_sk_overlay_sse2_8bit+0x1323>
+ DB 102,15,111,29,50,95,1,0 ; movdqa 0x15f32(%rip),%xmm3 # 2d020 <_sk_overlay_sse2_8bit+0x13ab>
DB 102,15,114,242,16 ; pslld $0x10,%xmm2
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
DB 102,15,56,63,195 ; pmaxud %xmm3,%xmm0
DB 102,15,118,193 ; pcmpeqd %xmm1,%xmm0
DB 102,15,114,241,13 ; pslld $0xd,%xmm1
DB 102,15,235,202 ; por %xmm2,%xmm1
- DB 102,68,15,111,21,50,94,1,0 ; movdqa 0x15e32(%rip),%xmm10 # 2cf80 <_sk_overlay_sse2_8bit+0x1333>
+ DB 102,68,15,111,21,30,95,1,0 ; movdqa 0x15f1e(%rip),%xmm10 # 2d030 <_sk_overlay_sse2_8bit+0x13bb>
DB 102,65,15,254,202 ; paddd %xmm10,%xmm1
DB 102,15,219,193 ; pand %xmm1,%xmm0
DB 102,65,15,115,219,8 ; psrldq $0x8,%xmm11
@@ -21647,29 +21636,28 @@ _sk_gather_f16_sse41 LABEL PROC
DB 102,69,15,254,202 ; paddd %xmm10,%xmm9
DB 102,65,15,219,217 ; pand %xmm9,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_f16_sse41
_sk_store_f16_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 102,68,15,111,21,85,93,1,0 ; movdqa 0x15d55(%rip),%xmm10 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
+ DB 102,68,15,111,21,66,94,1,0 ; movdqa 0x15e42(%rip),%xmm10 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
DB 102,68,15,111,216 ; movdqa %xmm0,%xmm11
DB 102,69,15,219,218 ; pand %xmm10,%xmm11
DB 102,68,15,111,232 ; movdqa %xmm0,%xmm13
DB 102,69,15,239,235 ; pxor %xmm11,%xmm13
- DB 102,68,15,111,13,72,93,1,0 ; movdqa 0x15d48(%rip),%xmm9 # 2cfa0 <_sk_overlay_sse2_8bit+0x1353>
+ DB 102,68,15,111,13,53,94,1,0 ; movdqa 0x15e35(%rip),%xmm9 # 2d050 <_sk_overlay_sse2_8bit+0x13db>
DB 102,65,15,114,211,16 ; psrld $0x10,%xmm11
DB 102,69,15,111,193 ; movdqa %xmm9,%xmm8
DB 102,69,15,102,197 ; pcmpgtd %xmm13,%xmm8
DB 102,65,15,114,213,13 ; psrld $0xd,%xmm13
- DB 102,68,15,111,37,57,93,1,0 ; movdqa 0x15d39(%rip),%xmm12 # 2cfb0 <_sk_overlay_sse2_8bit+0x1363>
+ DB 102,68,15,111,37,38,94,1,0 ; movdqa 0x15e26(%rip),%xmm12 # 2d060 <_sk_overlay_sse2_8bit+0x13eb>
DB 102,69,15,235,220 ; por %xmm12,%xmm11
DB 102,69,15,254,221 ; paddd %xmm13,%xmm11
DB 102,69,15,223,195 ; pandn %xmm11,%xmm8
@@ -21712,37 +21700,37 @@ _sk_store_f16_sse41 LABEL PROC
DB 102,69,15,97,217 ; punpcklwd %xmm9,%xmm11
DB 102,69,15,111,200 ; movdqa %xmm8,%xmm9
DB 102,69,15,98,203 ; punpckldq %xmm11,%xmm9
- DB 77,133,192 ; test %r8,%r8
- DB 117,21 ; jne 1736d <_sk_store_f16_sse41+0x152>
- DB 69,15,17,12,193 ; movups %xmm9,(%r9,%rax,8)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,21 ; jne 17330 <_sk_store_f16_sse41+0x152>
+ DB 69,15,17,12,192 ; movups %xmm9,(%r8,%rax,8)
DB 102,69,15,106,195 ; punpckhdq %xmm11,%xmm8
- DB 243,69,15,127,68,193,16 ; movdqu %xmm8,0x10(%r9,%rax,8)
+ DB 243,69,15,127,68,192,16 ; movdqu %xmm8,0x10(%r8,%rax,8)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 102,69,15,214,12,193 ; movq %xmm9,(%r9,%rax,8)
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,240 ; je 17369 <_sk_store_f16_sse41+0x14e>
- DB 102,69,15,23,76,193,8 ; movhpd %xmm9,0x8(%r9,%rax,8)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,227 ; jb 17369 <_sk_store_f16_sse41+0x14e>
+ DB 102,69,15,214,12,192 ; movq %xmm9,(%r8,%rax,8)
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,240 ; je 1732c <_sk_store_f16_sse41+0x14e>
+ DB 102,69,15,23,76,192,8 ; movhpd %xmm9,0x8(%r8,%rax,8)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,227 ; jb 1732c <_sk_store_f16_sse41+0x14e>
DB 102,69,15,106,195 ; punpckhdq %xmm11,%xmm8
- DB 102,69,15,214,68,193,16 ; movq %xmm8,0x10(%r9,%rax,8)
- DB 235,213 ; jmp 17369 <_sk_store_f16_sse41+0x14e>
+ DB 102,69,15,214,68,192,16 ; movq %xmm8,0x10(%r8,%rax,8)
+ DB 235,213 ; jmp 1732c <_sk_store_f16_sse41+0x14e>
PUBLIC _sk_load_u16_be_sse41
_sk_load_u16_be_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,185,0,0,0 ; jne 17474 <_sk_load_u16_be_sse41+0xe0>
- DB 102,65,15,16,4,65 ; movupd (%r9,%rax,2),%xmm0
- DB 243,65,15,111,76,65,16 ; movdqu 0x10(%r9,%rax,2),%xmm1
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,185,0,0,0 ; jne 17437 <_sk_load_u16_be_sse41+0xe0>
+ DB 102,65,15,16,4,64 ; movupd (%r8,%rax,2),%xmm0
+ DB 243,65,15,111,76,64,16 ; movdqu 0x10(%r8,%rax,2),%xmm1
DB 102,15,40,208 ; movapd %xmm0,%xmm2
DB 102,15,97,209 ; punpcklwd %xmm1,%xmm2
DB 102,15,105,193 ; punpckhwd %xmm1,%xmm0
@@ -21756,7 +21744,7 @@ _sk_load_u16_be_sse41 LABEL PROC
DB 102,15,235,200 ; por %xmm0,%xmm1
DB 102,15,56,51,193 ; pmovzxwd %xmm1,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 68,15,40,5,25,89,1,0 ; movaps 0x15919(%rip),%xmm8 # 2cd20 <_sk_overlay_sse2_8bit+0x10d3>
+ DB 68,15,40,5,6,90,1,0 ; movaps 0x15a06(%rip),%xmm8 # 2cdd0 <_sk_overlay_sse2_8bit+0x115b>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,15,113,241,8 ; psllw $0x8,%xmm1
@@ -21782,35 +21770,35 @@ _sk_load_u16_be_sse41 LABEL PROC
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 242,65,15,16,4,65 ; movsd (%r9,%rax,2),%xmm0
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,13 ; jne 1748d <_sk_load_u16_be_sse41+0xf9>
+ DB 242,65,15,16,4,64 ; movsd (%r8,%rax,2),%xmm0
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,13 ; jne 17450 <_sk_load_u16_be_sse41+0xf9>
DB 243,15,126,192 ; movq %xmm0,%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 233,59,255,255,255 ; jmpq 173c8 <_sk_load_u16_be_sse41+0x34>
- DB 102,65,15,22,68,65,8 ; movhpd 0x8(%r9,%rax,2),%xmm0
+ DB 233,59,255,255,255 ; jmpq 1738b <_sk_load_u16_be_sse41+0x34>
+ DB 102,65,15,22,68,64,8 ; movhpd 0x8(%r8,%rax,2),%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 15,130,38,255,255,255 ; jb 173c8 <_sk_load_u16_be_sse41+0x34>
- DB 243,65,15,126,76,65,16 ; movq 0x10(%r9,%rax,2),%xmm1
- DB 233,26,255,255,255 ; jmpq 173c8 <_sk_load_u16_be_sse41+0x34>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 15,130,38,255,255,255 ; jb 1738b <_sk_load_u16_be_sse41+0x34>
+ DB 243,65,15,126,76,64,16 ; movq 0x10(%r8,%rax,2),%xmm1
+ DB 233,26,255,255,255 ; jmpq 1738b <_sk_load_u16_be_sse41+0x34>
PUBLIC _sk_load_rgb_u16_be_sse41
_sk_load_rgb_u16_be_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,137,208 ; mov %rdx,%rax
DB 72,193,224,32 ; shl $0x20,%rax
DB 72,141,4,64 ; lea (%rax,%rax,2),%rax
DB 72,193,248,32 ; sar $0x20,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,170,0,0,0 ; jne 17583 <_sk_load_rgb_u16_be_sse41+0xd5>
- DB 243,65,15,111,20,65 ; movdqu (%r9,%rax,2),%xmm2
- DB 243,65,15,111,92,65,8 ; movdqu 0x8(%r9,%rax,2),%xmm3
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,170,0,0,0 ; jne 17546 <_sk_load_rgb_u16_be_sse41+0xd5>
+ DB 243,65,15,111,20,64 ; movdqu (%r8,%rax,2),%xmm2
+ DB 243,65,15,111,92,64,8 ; movdqu 0x8(%r8,%rax,2),%xmm3
DB 102,15,115,219,4 ; psrldq $0x4,%xmm3
DB 102,15,111,194 ; movdqa %xmm2,%xmm0
DB 102,15,115,216,6 ; psrldq $0x6,%xmm0
@@ -21828,7 +21816,7 @@ _sk_load_rgb_u16_be_sse41 LABEL PROC
DB 102,15,235,200 ; por %xmm0,%xmm1
DB 102,15,56,51,193 ; pmovzxwd %xmm1,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 68,15,40,5,232,87,1,0 ; movaps 0x157e8(%rip),%xmm8 # 2cd20 <_sk_overlay_sse2_8bit+0x10d3>
+ DB 68,15,40,5,213,88,1,0 ; movaps 0x158d5(%rip),%xmm8 # 2cdd0 <_sk_overlay_sse2_8bit+0x115b>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,15,113,241,8 ; psllw $0x8,%xmm1
@@ -21845,39 +21833,39 @@ _sk_load_rgb_u16_be_sse41 LABEL PROC
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,15,85,1,0 ; movaps 0x1550f(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,252,85,1,0 ; movaps 0x155fc(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 255,224 ; jmpq *%rax
- DB 102,65,15,110,20,65 ; movd (%r9,%rax,2),%xmm2
- DB 102,65,15,196,84,65,4,2 ; pinsrw $0x2,0x4(%r9,%rax,2),%xmm2
+ DB 102,65,15,110,20,64 ; movd (%r8,%rax,2),%xmm2
+ DB 102,65,15,196,84,64,4,2 ; pinsrw $0x2,0x4(%r8,%rax,2),%xmm2
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,13 ; jne 175a8 <_sk_load_rgb_u16_be_sse41+0xfa>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,13 ; jne 1756b <_sk_load_rgb_u16_be_sse41+0xfa>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 233,85,255,255,255 ; jmpq 174fd <_sk_load_rgb_u16_be_sse41+0x4f>
- DB 102,65,15,110,68,65,6 ; movd 0x6(%r9,%rax,2),%xmm0
- DB 102,65,15,196,68,65,10,2 ; pinsrw $0x2,0xa(%r9,%rax,2),%xmm0
+ DB 233,85,255,255,255 ; jmpq 174c0 <_sk_load_rgb_u16_be_sse41+0x4f>
+ DB 102,65,15,110,68,64,6 ; movd 0x6(%r8,%rax,2),%xmm0
+ DB 102,65,15,196,68,64,10,2 ; pinsrw $0x2,0xa(%r8,%rax,2),%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,24 ; jb 175d9 <_sk_load_rgb_u16_be_sse41+0x12b>
- DB 102,65,15,110,92,65,12 ; movd 0xc(%r9,%rax,2),%xmm3
- DB 102,65,15,196,92,65,16,2 ; pinsrw $0x2,0x10(%r9,%rax,2),%xmm3
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,24 ; jb 1759c <_sk_load_rgb_u16_be_sse41+0x12b>
+ DB 102,65,15,110,92,64,12 ; movd 0xc(%r8,%rax,2),%xmm3
+ DB 102,65,15,196,92,64,16,2 ; pinsrw $0x2,0x10(%r8,%rax,2),%xmm3
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 233,36,255,255,255 ; jmpq 174fd <_sk_load_rgb_u16_be_sse41+0x4f>
+ DB 233,36,255,255,255 ; jmpq 174c0 <_sk_load_rgb_u16_be_sse41+0x4f>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
- DB 233,27,255,255,255 ; jmpq 174fd <_sk_load_rgb_u16_be_sse41+0x4f>
+ DB 233,27,255,255,255 ; jmpq 174c0 <_sk_load_rgb_u16_be_sse41+0x4f>
PUBLIC _sk_store_u16_be_sse41
_sk_store_u16_be_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 68,15,40,21,184,89,1,0 ; movaps 0x159b8(%rip),%xmm10 # 2cfc0 <_sk_overlay_sse2_8bit+0x1373>
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 68,15,40,21,165,90,1,0 ; movaps 0x15aa5(%rip),%xmm10 # 2d070 <_sk_overlay_sse2_8bit+0x13fb>
DB 68,15,40,192 ; movaps %xmm0,%xmm8
DB 69,15,89,194 ; mulps %xmm10,%xmm8
DB 102,69,15,91,192 ; cvtps2dq %xmm8,%xmm8
@@ -21913,39 +21901,39 @@ _sk_store_u16_be_sse41 LABEL PROC
DB 102,69,15,97,202 ; punpcklwd %xmm10,%xmm9
DB 102,69,15,111,208 ; movdqa %xmm8,%xmm10
DB 102,69,15,98,209 ; punpckldq %xmm9,%xmm10
- DB 77,133,192 ; test %r8,%r8
- DB 117,21 ; jne 176d6 <_sk_store_u16_be_sse41+0xf4>
- DB 69,15,17,20,65 ; movups %xmm10,(%r9,%rax,2)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,21 ; jne 17699 <_sk_store_u16_be_sse41+0xf4>
+ DB 69,15,17,20,64 ; movups %xmm10,(%r8,%rax,2)
DB 102,69,15,106,193 ; punpckhdq %xmm9,%xmm8
- DB 243,69,15,127,68,65,16 ; movdqu %xmm8,0x10(%r9,%rax,2)
+ DB 243,69,15,127,68,64,16 ; movdqu %xmm8,0x10(%r8,%rax,2)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 102,69,15,214,20,65 ; movq %xmm10,(%r9,%rax,2)
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,240 ; je 176d2 <_sk_store_u16_be_sse41+0xf0>
- DB 102,69,15,23,84,65,8 ; movhpd %xmm10,0x8(%r9,%rax,2)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,227 ; jb 176d2 <_sk_store_u16_be_sse41+0xf0>
+ DB 102,69,15,214,20,64 ; movq %xmm10,(%r8,%rax,2)
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,240 ; je 17695 <_sk_store_u16_be_sse41+0xf0>
+ DB 102,69,15,23,84,64,8 ; movhpd %xmm10,0x8(%r8,%rax,2)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,227 ; jb 17695 <_sk_store_u16_be_sse41+0xf0>
DB 102,69,15,106,193 ; punpckhdq %xmm9,%xmm8
- DB 102,69,15,214,68,65,16 ; movq %xmm8,0x10(%r9,%rax,2)
- DB 235,213 ; jmp 176d2 <_sk_store_u16_be_sse41+0xf0>
+ DB 102,69,15,214,68,64,16 ; movq %xmm8,0x10(%r8,%rax,2)
+ DB 235,213 ; jmp 17695 <_sk_store_u16_be_sse41+0xf0>
PUBLIC _sk_load_f32_sse41
_sk_load_f32_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 69,15,16,4,129 ; movups (%r9,%rax,4),%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,66 ; jne 17768 <_sk_load_f32_sse41+0x6b>
- DB 65,15,16,68,129,16 ; movups 0x10(%r9,%rax,4),%xmm0
- DB 65,15,16,92,129,32 ; movups 0x20(%r9,%rax,4),%xmm3
- DB 69,15,16,76,129,48 ; movups 0x30(%r9,%rax,4),%xmm9
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 69,15,16,4,128 ; movups (%r8,%rax,4),%xmm8
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,66 ; jne 1772b <_sk_load_f32_sse41+0x6b>
+ DB 65,15,16,68,128,16 ; movups 0x10(%r8,%rax,4),%xmm0
+ DB 65,15,16,92,128,32 ; movups 0x20(%r8,%rax,4),%xmm3
+ DB 69,15,16,76,128,48 ; movups 0x30(%r8,%rax,4),%xmm9
DB 65,15,40,208 ; movaps %xmm8,%xmm2
DB 15,20,208 ; unpcklps %xmm0,%xmm2
DB 15,40,203 ; movaps %xmm3,%xmm1
@@ -21961,35 +21949,35 @@ _sk_load_f32_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
DB 69,15,87,201 ; xorps %xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,8 ; jne 1777a <_sk_load_f32_sse41+0x7d>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,8 ; jne 1773d <_sk_load_f32_sse41+0x7d>
DB 15,87,219 ; xorps %xmm3,%xmm3
DB 15,87,192 ; xorps %xmm0,%xmm0
- DB 235,190 ; jmp 17738 <_sk_load_f32_sse41+0x3b>
- DB 65,15,16,68,129,16 ; movups 0x10(%r9,%rax,4),%xmm0
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,8 ; jb 1778e <_sk_load_f32_sse41+0x91>
- DB 65,15,16,92,129,32 ; movups 0x20(%r9,%rax,4),%xmm3
- DB 235,170 ; jmp 17738 <_sk_load_f32_sse41+0x3b>
+ DB 235,190 ; jmp 176fb <_sk_load_f32_sse41+0x3b>
+ DB 65,15,16,68,128,16 ; movups 0x10(%r8,%rax,4),%xmm0
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,8 ; jb 17751 <_sk_load_f32_sse41+0x91>
+ DB 65,15,16,92,128,32 ; movups 0x20(%r8,%rax,4),%xmm3
+ DB 235,170 ; jmp 176fb <_sk_load_f32_sse41+0x3b>
DB 15,87,219 ; xorps %xmm3,%xmm3
- DB 235,165 ; jmp 17738 <_sk_load_f32_sse41+0x3b>
+ DB 235,165 ; jmp 176fb <_sk_load_f32_sse41+0x3b>
PUBLIC _sk_load_f32_dst_sse41
_sk_load_f32_dst_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 69,15,16,4,129 ; movups (%r9,%rax,4),%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,66 ; jne 177fe <_sk_load_f32_dst_sse41+0x6b>
- DB 65,15,16,100,129,16 ; movups 0x10(%r9,%rax,4),%xmm4
- DB 65,15,16,124,129,32 ; movups 0x20(%r9,%rax,4),%xmm7
- DB 69,15,16,76,129,48 ; movups 0x30(%r9,%rax,4),%xmm9
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 69,15,16,4,128 ; movups (%r8,%rax,4),%xmm8
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,66 ; jne 177c1 <_sk_load_f32_dst_sse41+0x6b>
+ DB 65,15,16,100,128,16 ; movups 0x10(%r8,%rax,4),%xmm4
+ DB 65,15,16,124,128,32 ; movups 0x20(%r8,%rax,4),%xmm7
+ DB 69,15,16,76,128,48 ; movups 0x30(%r8,%rax,4),%xmm9
DB 65,15,40,240 ; movaps %xmm8,%xmm6
DB 15,20,244 ; unpcklps %xmm4,%xmm6
DB 15,40,239 ; movaps %xmm7,%xmm5
@@ -22005,29 +21993,29 @@ _sk_load_f32_dst_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
DB 69,15,87,201 ; xorps %xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,8 ; jne 17810 <_sk_load_f32_dst_sse41+0x7d>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,8 ; jne 177d3 <_sk_load_f32_dst_sse41+0x7d>
DB 15,87,255 ; xorps %xmm7,%xmm7
DB 15,87,228 ; xorps %xmm4,%xmm4
- DB 235,190 ; jmp 177ce <_sk_load_f32_dst_sse41+0x3b>
- DB 65,15,16,100,129,16 ; movups 0x10(%r9,%rax,4),%xmm4
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,8 ; jb 17824 <_sk_load_f32_dst_sse41+0x91>
- DB 65,15,16,124,129,32 ; movups 0x20(%r9,%rax,4),%xmm7
- DB 235,170 ; jmp 177ce <_sk_load_f32_dst_sse41+0x3b>
+ DB 235,190 ; jmp 17791 <_sk_load_f32_dst_sse41+0x3b>
+ DB 65,15,16,100,128,16 ; movups 0x10(%r8,%rax,4),%xmm4
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,8 ; jb 177e7 <_sk_load_f32_dst_sse41+0x91>
+ DB 65,15,16,124,128,32 ; movups 0x20(%r8,%rax,4),%xmm7
+ DB 235,170 ; jmp 17791 <_sk_load_f32_dst_sse41+0x3b>
DB 15,87,255 ; xorps %xmm7,%xmm7
- DB 235,165 ; jmp 177ce <_sk_load_f32_dst_sse41+0x3b>
+ DB 235,165 ; jmp 17791 <_sk_load_f32_dst_sse41+0x3b>
PUBLIC _sk_store_f32_sse41
_sk_store_f32_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 68,15,20,201 ; unpcklps %xmm1,%xmm9
DB 68,15,40,194 ; movaps %xmm2,%xmm8
@@ -22041,22 +22029,22 @@ _sk_store_f32_sse41 LABEL PROC
DB 69,15,18,193 ; movhlps %xmm9,%xmm8
DB 69,15,40,202 ; movaps %xmm10,%xmm9
DB 102,69,15,20,203 ; unpcklpd %xmm11,%xmm9
- DB 102,69,15,17,36,129 ; movupd %xmm12,(%r9,%rax,4)
- DB 77,133,192 ; test %r8,%r8
- DB 117,29 ; jne 178a6 <_sk_store_f32_sse41+0x7d>
+ DB 102,69,15,17,36,128 ; movupd %xmm12,(%r8,%rax,4)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,29 ; jne 17869 <_sk_store_f32_sse41+0x7d>
DB 102,69,15,21,211 ; unpckhpd %xmm11,%xmm10
- DB 69,15,17,68,129,16 ; movups %xmm8,0x10(%r9,%rax,4)
- DB 102,69,15,17,76,129,32 ; movupd %xmm9,0x20(%r9,%rax,4)
- DB 102,69,15,17,84,129,48 ; movupd %xmm10,0x30(%r9,%rax,4)
+ DB 69,15,17,68,128,16 ; movups %xmm8,0x10(%r8,%rax,4)
+ DB 102,69,15,17,76,128,32 ; movupd %xmm9,0x20(%r8,%rax,4)
+ DB 102,69,15,17,84,128,48 ; movupd %xmm10,0x30(%r8,%rax,4)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,246 ; je 178a2 <_sk_store_f32_sse41+0x79>
- DB 69,15,17,68,129,16 ; movups %xmm8,0x10(%r9,%rax,4)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,234 ; jb 178a2 <_sk_store_f32_sse41+0x79>
- DB 102,69,15,17,76,129,32 ; movupd %xmm9,0x20(%r9,%rax,4)
- DB 235,225 ; jmp 178a2 <_sk_store_f32_sse41+0x79>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,246 ; je 17865 <_sk_store_f32_sse41+0x79>
+ DB 69,15,17,68,128,16 ; movups %xmm8,0x10(%r8,%rax,4)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,234 ; jb 17865 <_sk_store_f32_sse41+0x79>
+ DB 102,69,15,17,76,128,32 ; movupd %xmm9,0x20(%r8,%rax,4)
+ DB 235,225 ; jmp 17865 <_sk_store_f32_sse41+0x79>
PUBLIC _sk_clamp_x_sse41
_sk_clamp_x_sse41 LABEL PROC
@@ -22136,7 +22124,7 @@ _sk_mirror_x_sse41 LABEL PROC
DB 65,15,92,194 ; subps %xmm10,%xmm0
DB 243,69,15,88,192 ; addss %xmm8,%xmm8
DB 69,15,198,192,0 ; shufps $0x0,%xmm8,%xmm8
- DB 243,68,15,89,13,234,70,1,0 ; mulss 0x146ea(%rip),%xmm9 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 243,68,15,89,13,79,71,1,0 ; mulss 0x1474f(%rip),%xmm9 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 69,15,198,201,0 ; shufps $0x0,%xmm9,%xmm9
DB 68,15,89,200 ; mulps %xmm0,%xmm9
DB 102,69,15,58,8,201,1 ; roundps $0x1,%xmm9,%xmm9
@@ -22165,7 +22153,7 @@ _sk_mirror_y_sse41 LABEL PROC
DB 65,15,92,202 ; subps %xmm10,%xmm1
DB 243,69,15,88,192 ; addss %xmm8,%xmm8
DB 69,15,198,192,0 ; shufps $0x0,%xmm8,%xmm8
- DB 243,68,15,89,13,120,70,1,0 ; mulss 0x14678(%rip),%xmm9 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 243,68,15,89,13,221,70,1,0 ; mulss 0x146dd(%rip),%xmm9 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 69,15,198,201,0 ; shufps $0x0,%xmm9,%xmm9
DB 68,15,89,201 ; mulps %xmm1,%xmm9
DB 102,69,15,58,8,201,1 ; roundps $0x1,%xmm9,%xmm9
@@ -22188,7 +22176,7 @@ PUBLIC _sk_clamp_x_1_sse41
_sk_clamp_x_1_sse41 LABEL PROC
DB 69,15,87,192 ; xorps %xmm8,%xmm8
DB 68,15,95,192 ; maxps %xmm0,%xmm8
- DB 68,15,93,5,251,79,1,0 ; minps 0x14ffb(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,93,5,232,80,1,0 ; minps 0x150e8(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 255,224 ; jmpq *%rax
@@ -22202,9 +22190,9 @@ _sk_repeat_x_1_sse41 LABEL PROC
PUBLIC _sk_mirror_x_1_sse41
_sk_mirror_x_1_sse41 LABEL PROC
- DB 68,15,40,5,60,80,1,0 ; movaps 0x1503c(%rip),%xmm8 # 2caf0 <_sk_overlay_sse2_8bit+0xea3>
+ DB 68,15,40,5,41,81,1,0 ; movaps 0x15129(%rip),%xmm8 # 2cba0 <_sk_overlay_sse2_8bit+0xf2b>
DB 65,15,88,192 ; addps %xmm8,%xmm0
- DB 68,15,40,13,192,79,1,0 ; movaps 0x14fc0(%rip),%xmm9 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,13,157,80,1,0 ; movaps 0x1509d(%rip),%xmm9 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 68,15,89,200 ; mulps %xmm0,%xmm9
DB 102,69,15,58,8,201,1 ; roundps $0x1,%xmm9,%xmm9
DB 69,15,88,201 ; addps %xmm9,%xmm9
@@ -22219,10 +22207,10 @@ _sk_mirror_x_1_sse41 LABEL PROC
PUBLIC _sk_luminance_to_alpha_sse41
_sk_luminance_to_alpha_sse41 LABEL PROC
DB 15,40,218 ; movaps %xmm2,%xmm3
- DB 15,89,5,223,84,1,0 ; mulps 0x154df(%rip),%xmm0 # 2cfd0 <_sk_overlay_sse2_8bit+0x1383>
- DB 15,89,13,232,84,1,0 ; mulps 0x154e8(%rip),%xmm1 # 2cfe0 <_sk_overlay_sse2_8bit+0x1393>
+ DB 15,89,5,204,85,1,0 ; mulps 0x155cc(%rip),%xmm0 # 2d080 <_sk_overlay_sse2_8bit+0x140b>
+ DB 15,89,13,213,85,1,0 ; mulps 0x155d5(%rip),%xmm1 # 2d090 <_sk_overlay_sse2_8bit+0x141b>
DB 15,88,200 ; addps %xmm0,%xmm1
- DB 15,89,29,238,84,1,0 ; mulps 0x154ee(%rip),%xmm3 # 2cff0 <_sk_overlay_sse2_8bit+0x13a3>
+ DB 15,89,29,219,85,1,0 ; mulps 0x155db(%rip),%xmm3 # 2d0a0 <_sk_overlay_sse2_8bit+0x142b>
DB 15,88,217 ; addps %xmm1,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,87,192 ; xorps %xmm0,%xmm0
@@ -22512,85 +22500,84 @@ _sk_matrix_perspective_sse41 LABEL PROC
PUBLIC _sk_evenly_spaced_gradient_sse41
_sk_evenly_spaced_gradient_sse41 LABEL PROC
- DB 65,87 ; push %r15
DB 65,86 ; push %r14
DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
DB 72,139,24 ; mov (%rax),%rbx
DB 76,139,112,8 ; mov 0x8(%rax),%r14
DB 72,255,203 ; dec %rbx
- DB 120,7 ; js 17fa4 <_sk_evenly_spaced_gradient_sse41+0x1a>
+ DB 120,7 ; js 17f65 <_sk_evenly_spaced_gradient_sse41+0x18>
DB 243,72,15,42,203 ; cvtsi2ss %rbx,%xmm1
- DB 235,21 ; jmp 17fb9 <_sk_evenly_spaced_gradient_sse41+0x2f>
- DB 73,137,217 ; mov %rbx,%r9
- DB 73,209,233 ; shr %r9
+ DB 235,21 ; jmp 17f7a <_sk_evenly_spaced_gradient_sse41+0x2d>
+ DB 73,137,216 ; mov %rbx,%r8
+ DB 73,209,232 ; shr %r8
DB 131,227,1 ; and $0x1,%ebx
- DB 76,9,203 ; or %r9,%rbx
+ DB 76,9,195 ; or %r8,%rbx
DB 243,72,15,42,203 ; cvtsi2ss %rbx,%xmm1
DB 243,15,88,201 ; addss %xmm1,%xmm1
DB 15,198,201,0 ; shufps $0x0,%xmm1,%xmm1
DB 15,89,200 ; mulps %xmm0,%xmm1
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
- DB 102,73,15,58,22,201,1 ; pextrq $0x1,%xmm1,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 102,73,15,126,203 ; movq %xmm1,%r11
- DB 69,137,223 ; mov %r11d,%r15d
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,71,15,16,4,190 ; movss (%r14,%r15,4),%xmm8
- DB 102,71,15,58,33,4,158,16 ; insertps $0x10,(%r14,%r11,4),%xmm8
- DB 243,67,15,16,12,150 ; movss (%r14,%r10,4),%xmm1
- DB 102,68,15,58,33,193,32 ; insertps $0x20,%xmm1,%xmm8
+ DB 102,73,15,58,22,200,1 ; pextrq $0x1,%xmm1,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 102,73,15,126,202 ; movq %xmm1,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,71,15,16,4,158 ; movss (%r14,%r11,4),%xmm8
+ DB 102,71,15,58,33,4,150,16 ; insertps $0x10,(%r14,%r10,4),%xmm8
DB 243,67,15,16,12,142 ; movss (%r14,%r9,4),%xmm1
+ DB 102,68,15,58,33,193,32 ; insertps $0x20,%xmm1,%xmm8
+ DB 243,67,15,16,12,134 ; movss (%r14,%r8,4),%xmm1
DB 102,68,15,58,33,193,48 ; insertps $0x30,%xmm1,%xmm8
DB 72,139,88,40 ; mov 0x28(%rax),%rbx
- DB 243,70,15,16,12,187 ; movss (%rbx,%r15,4),%xmm9
- DB 102,70,15,58,33,12,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm9
- DB 243,66,15,16,12,147 ; movss (%rbx,%r10,4),%xmm1
- DB 102,68,15,58,33,201,32 ; insertps $0x20,%xmm1,%xmm9
+ DB 243,70,15,16,12,155 ; movss (%rbx,%r11,4),%xmm9
+ DB 102,70,15,58,33,12,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm9
DB 243,66,15,16,12,139 ; movss (%rbx,%r9,4),%xmm1
+ DB 102,68,15,58,33,201,32 ; insertps $0x20,%xmm1,%xmm9
+ DB 243,66,15,16,12,131 ; movss (%rbx,%r8,4),%xmm1
DB 102,68,15,58,33,201,48 ; insertps $0x30,%xmm1,%xmm9
DB 72,139,88,16 ; mov 0x10(%rax),%rbx
- DB 243,66,15,16,12,187 ; movss (%rbx,%r15,4),%xmm1
- DB 102,66,15,58,33,12,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm1
- DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
- DB 102,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm1
+ DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 102,66,15,58,33,12,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm1
DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
+ DB 102,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm1
+ DB 243,66,15,16,20,131 ; movss (%rbx,%r8,4),%xmm2
DB 102,15,58,33,202,48 ; insertps $0x30,%xmm2,%xmm1
DB 72,139,88,48 ; mov 0x30(%rax),%rbx
- DB 243,70,15,16,20,187 ; movss (%rbx,%r15,4),%xmm10
- DB 102,70,15,58,33,20,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm10
- DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
- DB 102,68,15,58,33,210,32 ; insertps $0x20,%xmm2,%xmm10
+ DB 243,70,15,16,20,155 ; movss (%rbx,%r11,4),%xmm10
+ DB 102,70,15,58,33,20,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm10
DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
+ DB 102,68,15,58,33,210,32 ; insertps $0x20,%xmm2,%xmm10
+ DB 243,66,15,16,20,131 ; movss (%rbx,%r8,4),%xmm2
DB 102,68,15,58,33,210,48 ; insertps $0x30,%xmm2,%xmm10
DB 72,139,88,24 ; mov 0x18(%rax),%rbx
- DB 243,66,15,16,20,187 ; movss (%rbx,%r15,4),%xmm2
- DB 102,66,15,58,33,20,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm2
- DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
- DB 102,15,58,33,211,32 ; insertps $0x20,%xmm3,%xmm2
+ DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 102,66,15,58,33,20,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm2
DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 102,15,58,33,211,32 ; insertps $0x20,%xmm3,%xmm2
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 102,15,58,33,211,48 ; insertps $0x30,%xmm3,%xmm2
DB 72,139,88,56 ; mov 0x38(%rax),%rbx
- DB 243,70,15,16,28,187 ; movss (%rbx,%r15,4),%xmm11
- DB 102,70,15,58,33,28,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm11
- DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
- DB 102,68,15,58,33,219,32 ; insertps $0x20,%xmm3,%xmm11
+ DB 243,70,15,16,28,155 ; movss (%rbx,%r11,4),%xmm11
+ DB 102,70,15,58,33,28,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm11
DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 102,68,15,58,33,219,32 ; insertps $0x20,%xmm3,%xmm11
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 102,68,15,58,33,219,48 ; insertps $0x30,%xmm3,%xmm11
DB 72,139,88,32 ; mov 0x20(%rax),%rbx
- DB 243,66,15,16,28,187 ; movss (%rbx,%r15,4),%xmm3
- DB 102,66,15,58,33,28,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm3
- DB 243,70,15,16,36,147 ; movss (%rbx,%r10,4),%xmm12
- DB 102,65,15,58,33,220,32 ; insertps $0x20,%xmm12,%xmm3
+ DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
+ DB 102,66,15,58,33,28,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm3
DB 243,70,15,16,36,139 ; movss (%rbx,%r9,4),%xmm12
+ DB 102,65,15,58,33,220,32 ; insertps $0x20,%xmm12,%xmm3
+ DB 243,70,15,16,36,131 ; movss (%rbx,%r8,4),%xmm12
DB 102,65,15,58,33,220,48 ; insertps $0x30,%xmm12,%xmm3
DB 72,139,64,64 ; mov 0x40(%rax),%rax
- DB 243,70,15,16,36,184 ; movss (%rax,%r15,4),%xmm12
- DB 102,70,15,58,33,36,152,16 ; insertps $0x10,(%rax,%r11,4),%xmm12
- DB 243,70,15,16,44,144 ; movss (%rax,%r10,4),%xmm13
- DB 102,69,15,58,33,229,32 ; insertps $0x20,%xmm13,%xmm12
+ DB 243,70,15,16,36,152 ; movss (%rax,%r11,4),%xmm12
+ DB 102,70,15,58,33,36,144,16 ; insertps $0x10,(%rax,%r10,4),%xmm12
DB 243,70,15,16,44,136 ; movss (%rax,%r9,4),%xmm13
+ DB 102,69,15,58,33,229,32 ; insertps $0x20,%xmm13,%xmm12
+ DB 243,70,15,16,44,128 ; movss (%rax,%r8,4),%xmm13
DB 102,69,15,58,33,229,48 ; insertps $0x30,%xmm13,%xmm12
DB 68,15,89,192 ; mulps %xmm0,%xmm8
DB 69,15,88,193 ; addps %xmm9,%xmm8
@@ -22604,20 +22591,19 @@ _sk_evenly_spaced_gradient_sse41 LABEL PROC
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_gauss_a_to_rgba_sse41
_sk_gauss_a_to_rgba_sse41 LABEL PROC
- DB 15,40,5,153,78,1,0 ; movaps 0x14e99(%rip),%xmm0 # 2d000 <_sk_overlay_sse2_8bit+0x13b3>
+ DB 15,40,5,138,79,1,0 ; movaps 0x14f8a(%rip),%xmm0 # 2d0b0 <_sk_overlay_sse2_8bit+0x143b>
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,5,159,78,1,0 ; addps 0x14e9f(%rip),%xmm0 # 2d010 <_sk_overlay_sse2_8bit+0x13c3>
+ DB 15,88,5,144,79,1,0 ; addps 0x14f90(%rip),%xmm0 # 2d0c0 <_sk_overlay_sse2_8bit+0x144b>
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,5,165,78,1,0 ; addps 0x14ea5(%rip),%xmm0 # 2d020 <_sk_overlay_sse2_8bit+0x13d3>
+ DB 15,88,5,150,79,1,0 ; addps 0x14f96(%rip),%xmm0 # 2d0d0 <_sk_overlay_sse2_8bit+0x145b>
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,5,171,78,1,0 ; addps 0x14eab(%rip),%xmm0 # 2d030 <_sk_overlay_sse2_8bit+0x13e3>
+ DB 15,88,5,156,79,1,0 ; addps 0x14f9c(%rip),%xmm0 # 2d0e0 <_sk_overlay_sse2_8bit+0x146b>
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,5,177,78,1,0 ; addps 0x14eb1(%rip),%xmm0 # 2d040 <_sk_overlay_sse2_8bit+0x13f3>
+ DB 15,88,5,162,79,1,0 ; addps 0x14fa2(%rip),%xmm0 # 2d0f0 <_sk_overlay_sse2_8bit+0x147b>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
@@ -22626,88 +22612,87 @@ _sk_gauss_a_to_rgba_sse41 LABEL PROC
PUBLIC _sk_gradient_sse41
_sk_gradient_sse41 LABEL PROC
- DB 65,87 ; push %r15
- DB 65,86 ; push %r14
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 73,131,249,2 ; cmp $0x2,%r9
- DB 114,50 ; jb 181e2 <_sk_gradient_sse41+0x46>
- DB 72,139,88,72 ; mov 0x48(%rax),%rbx
- DB 73,255,201 ; dec %r9
- DB 72,131,195,4 ; add $0x4,%rbx
+ DB 73,131,248,2 ; cmp $0x2,%r8
+ DB 114,51 ; jb 1819d <_sk_gradient_sse41+0x42>
+ DB 76,139,72,72 ; mov 0x48(%rax),%r9
+ DB 73,255,200 ; dec %r8
+ DB 73,131,193,4 ; add $0x4,%r9
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 15,40,21,218,72,1,0 ; movaps 0x148da(%rip),%xmm2 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
- DB 243,15,16,27 ; movss (%rbx),%xmm3
+ DB 15,40,21,208,73,1,0 ; movaps 0x149d0(%rip),%xmm2 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
+ DB 243,65,15,16,25 ; movss (%r9),%xmm3
DB 15,198,219,0 ; shufps $0x0,%xmm3,%xmm3
DB 15,194,216,2 ; cmpleps %xmm0,%xmm3
DB 15,84,218 ; andps %xmm2,%xmm3
DB 102,15,254,203 ; paddd %xmm3,%xmm1
- DB 72,131,195,4 ; add $0x4,%rbx
- DB 73,255,201 ; dec %r9
- DB 117,228 ; jne 181c6 <_sk_gradient_sse41+0x2a>
- DB 102,73,15,58,22,201,1 ; pextrq $0x1,%xmm1,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 102,73,15,126,203 ; movq %xmm1,%r11
- DB 69,137,222 ; mov %r11d,%r14d
- DB 73,193,235,32 ; shr $0x20,%r11
+ DB 73,131,193,4 ; add $0x4,%r9
+ DB 73,255,200 ; dec %r8
+ DB 117,227 ; jne 18180 <_sk_gradient_sse41+0x25>
+ DB 65,86 ; push %r14
+ DB 83 ; push %rbx
+ DB 102,73,15,58,22,200,1 ; pextrq $0x1,%xmm1,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 102,73,15,126,202 ; movq %xmm1,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
DB 72,139,88,8 ; mov 0x8(%rax),%rbx
- DB 76,139,120,16 ; mov 0x10(%rax),%r15
- DB 243,70,15,16,4,179 ; movss (%rbx,%r14,4),%xmm8
- DB 102,70,15,58,33,4,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm8
- DB 243,66,15,16,12,147 ; movss (%rbx,%r10,4),%xmm1
- DB 102,68,15,58,33,193,32 ; insertps $0x20,%xmm1,%xmm8
+ DB 76,139,112,16 ; mov 0x10(%rax),%r14
+ DB 243,70,15,16,4,155 ; movss (%rbx,%r11,4),%xmm8
+ DB 102,70,15,58,33,4,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm8
DB 243,66,15,16,12,139 ; movss (%rbx,%r9,4),%xmm1
+ DB 102,68,15,58,33,193,32 ; insertps $0x20,%xmm1,%xmm8
+ DB 243,66,15,16,12,131 ; movss (%rbx,%r8,4),%xmm1
DB 102,68,15,58,33,193,48 ; insertps $0x30,%xmm1,%xmm8
DB 72,139,88,40 ; mov 0x28(%rax),%rbx
- DB 243,70,15,16,12,179 ; movss (%rbx,%r14,4),%xmm9
- DB 102,70,15,58,33,12,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm9
- DB 243,66,15,16,12,147 ; movss (%rbx,%r10,4),%xmm1
- DB 102,68,15,58,33,201,32 ; insertps $0x20,%xmm1,%xmm9
+ DB 243,70,15,16,12,155 ; movss (%rbx,%r11,4),%xmm9
+ DB 102,70,15,58,33,12,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm9
DB 243,66,15,16,12,139 ; movss (%rbx,%r9,4),%xmm1
+ DB 102,68,15,58,33,201,32 ; insertps $0x20,%xmm1,%xmm9
+ DB 243,66,15,16,12,131 ; movss (%rbx,%r8,4),%xmm1
DB 102,68,15,58,33,201,48 ; insertps $0x30,%xmm1,%xmm9
- DB 243,67,15,16,12,183 ; movss (%r15,%r14,4),%xmm1
- DB 102,67,15,58,33,12,159,16 ; insertps $0x10,(%r15,%r11,4),%xmm1
- DB 243,67,15,16,20,151 ; movss (%r15,%r10,4),%xmm2
+ DB 243,67,15,16,12,158 ; movss (%r14,%r11,4),%xmm1
+ DB 102,67,15,58,33,12,150,16 ; insertps $0x10,(%r14,%r10,4),%xmm1
+ DB 243,67,15,16,20,142 ; movss (%r14,%r9,4),%xmm2
DB 102,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm1
- DB 243,67,15,16,20,143 ; movss (%r15,%r9,4),%xmm2
+ DB 243,67,15,16,20,134 ; movss (%r14,%r8,4),%xmm2
DB 102,15,58,33,202,48 ; insertps $0x30,%xmm2,%xmm1
DB 72,139,88,48 ; mov 0x30(%rax),%rbx
- DB 243,70,15,16,20,179 ; movss (%rbx,%r14,4),%xmm10
- DB 102,70,15,58,33,20,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm10
- DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
- DB 102,68,15,58,33,210,32 ; insertps $0x20,%xmm2,%xmm10
+ DB 243,70,15,16,20,155 ; movss (%rbx,%r11,4),%xmm10
+ DB 102,70,15,58,33,20,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm10
DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
+ DB 102,68,15,58,33,210,32 ; insertps $0x20,%xmm2,%xmm10
+ DB 243,66,15,16,20,131 ; movss (%rbx,%r8,4),%xmm2
DB 102,68,15,58,33,210,48 ; insertps $0x30,%xmm2,%xmm10
DB 72,139,88,24 ; mov 0x18(%rax),%rbx
- DB 243,66,15,16,20,179 ; movss (%rbx,%r14,4),%xmm2
- DB 102,66,15,58,33,20,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm2
- DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
- DB 102,15,58,33,211,32 ; insertps $0x20,%xmm3,%xmm2
+ DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 102,66,15,58,33,20,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm2
DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 102,15,58,33,211,32 ; insertps $0x20,%xmm3,%xmm2
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 102,15,58,33,211,48 ; insertps $0x30,%xmm3,%xmm2
DB 72,139,88,56 ; mov 0x38(%rax),%rbx
- DB 243,70,15,16,28,179 ; movss (%rbx,%r14,4),%xmm11
- DB 102,70,15,58,33,28,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm11
- DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
- DB 102,68,15,58,33,219,32 ; insertps $0x20,%xmm3,%xmm11
+ DB 243,70,15,16,28,155 ; movss (%rbx,%r11,4),%xmm11
+ DB 102,70,15,58,33,28,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm11
DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 102,68,15,58,33,219,32 ; insertps $0x20,%xmm3,%xmm11
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 102,68,15,58,33,219,48 ; insertps $0x30,%xmm3,%xmm11
DB 72,139,88,32 ; mov 0x20(%rax),%rbx
- DB 243,66,15,16,28,179 ; movss (%rbx,%r14,4),%xmm3
- DB 102,66,15,58,33,28,155,16 ; insertps $0x10,(%rbx,%r11,4),%xmm3
- DB 243,70,15,16,36,147 ; movss (%rbx,%r10,4),%xmm12
- DB 102,65,15,58,33,220,32 ; insertps $0x20,%xmm12,%xmm3
+ DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
+ DB 102,66,15,58,33,28,147,16 ; insertps $0x10,(%rbx,%r10,4),%xmm3
DB 243,70,15,16,36,139 ; movss (%rbx,%r9,4),%xmm12
+ DB 102,65,15,58,33,220,32 ; insertps $0x20,%xmm12,%xmm3
+ DB 243,70,15,16,36,131 ; movss (%rbx,%r8,4),%xmm12
DB 102,65,15,58,33,220,48 ; insertps $0x30,%xmm12,%xmm3
DB 72,139,64,64 ; mov 0x40(%rax),%rax
- DB 243,70,15,16,36,176 ; movss (%rax,%r14,4),%xmm12
- DB 102,70,15,58,33,36,152,16 ; insertps $0x10,(%rax,%r11,4),%xmm12
- DB 243,70,15,16,44,144 ; movss (%rax,%r10,4),%xmm13
- DB 102,69,15,58,33,229,32 ; insertps $0x20,%xmm13,%xmm12
+ DB 243,70,15,16,36,152 ; movss (%rax,%r11,4),%xmm12
+ DB 102,70,15,58,33,36,144,16 ; insertps $0x10,(%rax,%r10,4),%xmm12
DB 243,70,15,16,44,136 ; movss (%rax,%r9,4),%xmm13
+ DB 102,69,15,58,33,229,32 ; insertps $0x20,%xmm13,%xmm12
+ DB 243,70,15,16,44,128 ; movss (%rax,%r8,4),%xmm13
DB 102,69,15,58,33,229,48 ; insertps $0x30,%xmm13,%xmm12
DB 68,15,89,192 ; mulps %xmm0,%xmm8
DB 69,15,88,193 ; addps %xmm9,%xmm8
@@ -22721,7 +22706,6 @@ _sk_gradient_sse41 LABEL PROC
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_evenly_spaced_2_stop_gradient_sse41
@@ -22772,26 +22756,26 @@ _sk_xy_to_unit_angle_sse41 LABEL PROC
DB 69,15,94,226 ; divps %xmm10,%xmm12
DB 69,15,40,236 ; movaps %xmm12,%xmm13
DB 69,15,89,237 ; mulps %xmm13,%xmm13
- DB 68,15,40,21,27,76,1,0 ; movaps 0x14c1b(%rip),%xmm10 # 2d050 <_sk_overlay_sse2_8bit+0x1403>
+ DB 68,15,40,21,15,77,1,0 ; movaps 0x14d0f(%rip),%xmm10 # 2d100 <_sk_overlay_sse2_8bit+0x148b>
DB 69,15,89,213 ; mulps %xmm13,%xmm10
- DB 68,15,88,21,31,76,1,0 ; addps 0x14c1f(%rip),%xmm10 # 2d060 <_sk_overlay_sse2_8bit+0x1413>
+ DB 68,15,88,21,19,77,1,0 ; addps 0x14d13(%rip),%xmm10 # 2d110 <_sk_overlay_sse2_8bit+0x149b>
DB 69,15,89,213 ; mulps %xmm13,%xmm10
- DB 68,15,88,21,35,76,1,0 ; addps 0x14c23(%rip),%xmm10 # 2d070 <_sk_overlay_sse2_8bit+0x1423>
+ DB 68,15,88,21,23,77,1,0 ; addps 0x14d17(%rip),%xmm10 # 2d120 <_sk_overlay_sse2_8bit+0x14ab>
DB 69,15,89,213 ; mulps %xmm13,%xmm10
- DB 68,15,88,21,39,76,1,0 ; addps 0x14c27(%rip),%xmm10 # 2d080 <_sk_overlay_sse2_8bit+0x1433>
+ DB 68,15,88,21,27,77,1,0 ; addps 0x14d1b(%rip),%xmm10 # 2d130 <_sk_overlay_sse2_8bit+0x14bb>
DB 69,15,89,212 ; mulps %xmm12,%xmm10
DB 65,15,194,195,1 ; cmpltps %xmm11,%xmm0
- DB 68,15,40,29,38,76,1,0 ; movaps 0x14c26(%rip),%xmm11 # 2d090 <_sk_overlay_sse2_8bit+0x1443>
+ DB 68,15,40,29,26,77,1,0 ; movaps 0x14d1a(%rip),%xmm11 # 2d140 <_sk_overlay_sse2_8bit+0x14cb>
DB 69,15,92,218 ; subps %xmm10,%xmm11
DB 102,69,15,56,20,211 ; blendvps %xmm0,%xmm11,%xmm10
DB 69,15,194,200,1 ; cmpltps %xmm8,%xmm9
- DB 68,15,40,29,255,69,1,0 ; movaps 0x145ff(%rip),%xmm11 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,29,227,70,1,0 ; movaps 0x146e3(%rip),%xmm11 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 69,15,92,218 ; subps %xmm10,%xmm11
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 102,69,15,56,20,211 ; blendvps %xmm0,%xmm11,%xmm10
DB 15,40,193 ; movaps %xmm1,%xmm0
DB 65,15,194,192,1 ; cmpltps %xmm8,%xmm0
- DB 68,15,40,13,241,69,1,0 ; movaps 0x145f1(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,229,70,1,0 ; movaps 0x146e5(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,202 ; subps %xmm10,%xmm9
DB 102,69,15,56,20,209 ; blendvps %xmm0,%xmm9,%xmm10
DB 69,15,194,194,7 ; cmpordps %xmm10,%xmm8
@@ -22821,7 +22805,7 @@ _sk_xy_to_2pt_conical_quadratic_max_sse41 LABEL PROC
DB 243,69,15,89,203 ; mulss %xmm11,%xmm9
DB 69,15,198,201,0 ; shufps $0x0,%xmm9,%xmm9
DB 68,15,88,200 ; addps %xmm0,%xmm9
- DB 68,15,89,13,154,75,1,0 ; mulps 0x14b9a(%rip),%xmm9 # 2d0a0 <_sk_overlay_sse2_8bit+0x1453>
+ DB 68,15,89,13,142,76,1,0 ; mulps 0x14c8e(%rip),%xmm9 # 2d150 <_sk_overlay_sse2_8bit+0x14db>
DB 15,89,192 ; mulps %xmm0,%xmm0
DB 68,15,40,225 ; movaps %xmm1,%xmm12
DB 69,15,89,228 ; mulps %xmm12,%xmm12
@@ -22829,7 +22813,7 @@ _sk_xy_to_2pt_conical_quadratic_max_sse41 LABEL PROC
DB 243,69,15,89,219 ; mulss %xmm11,%xmm11
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 69,15,92,227 ; subps %xmm11,%xmm12
- DB 68,15,89,21,133,75,1,0 ; mulps 0x14b85(%rip),%xmm10 # 2d0b0 <_sk_overlay_sse2_8bit+0x1463>
+ DB 68,15,89,21,121,76,1,0 ; mulps 0x14c79(%rip),%xmm10 # 2d160 <_sk_overlay_sse2_8bit+0x14eb>
DB 69,15,89,212 ; mulps %xmm12,%xmm10
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 15,89,192 ; mulps %xmm0,%xmm0
@@ -22838,8 +22822,8 @@ _sk_xy_to_2pt_conical_quadratic_max_sse41 LABEL PROC
DB 69,15,198,192,0 ; shufps $0x0,%xmm8,%xmm8
DB 65,15,40,194 ; movaps %xmm10,%xmm0
DB 65,15,92,193 ; subps %xmm9,%xmm0
- DB 68,15,87,13,61,74,1,0 ; xorps 0x14a3d(%rip),%xmm9 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
- DB 68,15,89,5,37,69,1,0 ; mulps 0x14525(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,87,13,49,75,1,0 ; xorps 0x14b31(%rip),%xmm9 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
+ DB 68,15,89,5,9,70,1,0 ; mulps 0x14609(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 69,15,92,202 ; subps %xmm10,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
@@ -22858,7 +22842,7 @@ _sk_xy_to_2pt_conical_quadratic_min_sse41 LABEL PROC
DB 243,69,15,89,203 ; mulss %xmm11,%xmm9
DB 69,15,198,201,0 ; shufps $0x0,%xmm9,%xmm9
DB 68,15,88,200 ; addps %xmm0,%xmm9
- DB 68,15,89,13,252,74,1,0 ; mulps 0x14afc(%rip),%xmm9 # 2d0a0 <_sk_overlay_sse2_8bit+0x1453>
+ DB 68,15,89,13,240,75,1,0 ; mulps 0x14bf0(%rip),%xmm9 # 2d150 <_sk_overlay_sse2_8bit+0x14db>
DB 15,89,192 ; mulps %xmm0,%xmm0
DB 68,15,40,225 ; movaps %xmm1,%xmm12
DB 69,15,89,228 ; mulps %xmm12,%xmm12
@@ -22866,7 +22850,7 @@ _sk_xy_to_2pt_conical_quadratic_min_sse41 LABEL PROC
DB 243,69,15,89,219 ; mulss %xmm11,%xmm11
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 69,15,92,227 ; subps %xmm11,%xmm12
- DB 68,15,89,21,231,74,1,0 ; mulps 0x14ae7(%rip),%xmm10 # 2d0b0 <_sk_overlay_sse2_8bit+0x1463>
+ DB 68,15,89,21,219,75,1,0 ; mulps 0x14bdb(%rip),%xmm10 # 2d160 <_sk_overlay_sse2_8bit+0x14eb>
DB 69,15,89,212 ; mulps %xmm12,%xmm10
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 15,89,192 ; mulps %xmm0,%xmm0
@@ -22875,8 +22859,8 @@ _sk_xy_to_2pt_conical_quadratic_min_sse41 LABEL PROC
DB 69,15,198,192,0 ; shufps $0x0,%xmm8,%xmm8
DB 65,15,40,194 ; movaps %xmm10,%xmm0
DB 65,15,92,193 ; subps %xmm9,%xmm0
- DB 68,15,87,13,159,73,1,0 ; xorps 0x1499f(%rip),%xmm9 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
- DB 68,15,89,5,135,68,1,0 ; mulps 0x14487(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,87,13,147,74,1,0 ; xorps 0x14a93(%rip),%xmm9 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
+ DB 68,15,89,5,107,69,1,0 ; mulps 0x1456b(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 69,15,92,202 ; subps %xmm10,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
@@ -22892,7 +22876,7 @@ _sk_xy_to_2pt_conical_linear_sse41 LABEL PROC
DB 243,69,15,89,200 ; mulss %xmm8,%xmm9
DB 69,15,198,201,0 ; shufps $0x0,%xmm9,%xmm9
DB 68,15,88,200 ; addps %xmm0,%xmm9
- DB 68,15,89,13,111,74,1,0 ; mulps 0x14a6f(%rip),%xmm9 # 2d0a0 <_sk_overlay_sse2_8bit+0x1453>
+ DB 68,15,89,13,99,75,1,0 ; mulps 0x14b63(%rip),%xmm9 # 2d150 <_sk_overlay_sse2_8bit+0x14db>
DB 15,89,192 ; mulps %xmm0,%xmm0
DB 68,15,40,209 ; movaps %xmm1,%xmm10
DB 69,15,89,210 ; mulps %xmm10,%xmm10
@@ -22900,7 +22884,7 @@ _sk_xy_to_2pt_conical_linear_sse41 LABEL PROC
DB 243,69,15,89,192 ; mulss %xmm8,%xmm8
DB 69,15,198,192,0 ; shufps $0x0,%xmm8,%xmm8
DB 65,15,92,192 ; subps %xmm8,%xmm0
- DB 15,87,5,59,73,1,0 ; xorps 0x1493b(%rip),%xmm0 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
+ DB 15,87,5,47,74,1,0 ; xorps 0x14a2f(%rip),%xmm0 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
DB 65,15,94,193 ; divps %xmm9,%xmm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -22937,7 +22921,7 @@ _sk_apply_vector_mask_sse41 LABEL PROC
PUBLIC _sk_save_xy_sse41
_sk_save_xy_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,15,40,5,193,67,1,0 ; movaps 0x143c1(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,5,165,68,1,0 ; movaps 0x144a5(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 15,17,0 ; movups %xmm0,(%rax)
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,88,200 ; addps %xmm8,%xmm9
@@ -22977,8 +22961,8 @@ _sk_bilinear_nx_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,64,64 ; movups 0x40(%rax),%xmm8
- DB 15,88,5,115,73,1,0 ; addps 0x14973(%rip),%xmm0 # 2d0c0 <_sk_overlay_sse2_8bit+0x1473>
- DB 68,15,40,13,59,67,1,0 ; movaps 0x1433b(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,5,103,74,1,0 ; addps 0x14a67(%rip),%xmm0 # 2d170 <_sk_overlay_sse2_8bit+0x14fb>
+ DB 68,15,40,13,47,68,1,0 ; movaps 0x1442f(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
DB 68,15,17,136,128,0,0,0 ; movups %xmm9,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -22989,7 +22973,7 @@ _sk_bilinear_px_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,64,64 ; movups 0x40(%rax),%xmm8
- DB 15,88,5,10,67,1,0 ; addps 0x1430a(%rip),%xmm0 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 15,88,5,238,67,1,0 ; addps 0x143ee(%rip),%xmm0 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 68,15,17,128,128,0,0,0 ; movups %xmm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -22999,8 +22983,8 @@ _sk_bilinear_ny_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,64,96 ; movups 0x60(%rax),%xmm8
- DB 15,88,13,44,73,1,0 ; addps 0x1492c(%rip),%xmm1 # 2d0c0 <_sk_overlay_sse2_8bit+0x1473>
- DB 68,15,40,13,244,66,1,0 ; movaps 0x142f4(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,13,32,74,1,0 ; addps 0x14a20(%rip),%xmm1 # 2d170 <_sk_overlay_sse2_8bit+0x14fb>
+ DB 68,15,40,13,232,67,1,0 ; movaps 0x143e8(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
DB 68,15,17,136,160,0,0,0 ; movups %xmm9,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -23011,7 +22995,7 @@ _sk_bilinear_py_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,64,96 ; movups 0x60(%rax),%xmm8
- DB 15,88,13,194,66,1,0 ; addps 0x142c2(%rip),%xmm1 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 15,88,13,166,67,1,0 ; addps 0x143a6(%rip),%xmm1 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 68,15,17,128,160,0,0,0 ; movups %xmm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -23021,13 +23005,13 @@ _sk_bicubic_n3x_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,64,64 ; movups 0x40(%rax),%xmm8
- DB 15,88,5,245,72,1,0 ; addps 0x148f5(%rip),%xmm0 # 2d0d0 <_sk_overlay_sse2_8bit+0x1483>
- DB 68,15,40,13,173,66,1,0 ; movaps 0x142ad(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,5,233,73,1,0 ; addps 0x149e9(%rip),%xmm0 # 2d180 <_sk_overlay_sse2_8bit+0x150b>
+ DB 68,15,40,13,161,67,1,0 ; movaps 0x143a1(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
DB 69,15,40,193 ; movaps %xmm9,%xmm8
DB 69,15,89,192 ; mulps %xmm8,%xmm8
- DB 68,15,89,13,233,72,1,0 ; mulps 0x148e9(%rip),%xmm9 # 2d0e0 <_sk_overlay_sse2_8bit+0x1493>
- DB 68,15,88,13,129,68,1,0 ; addps 0x14481(%rip),%xmm9 # 2cc80 <_sk_overlay_sse2_8bit+0x1033>
+ DB 68,15,89,13,221,73,1,0 ; mulps 0x149dd(%rip),%xmm9 # 2d190 <_sk_overlay_sse2_8bit+0x151b>
+ DB 68,15,88,13,117,69,1,0 ; addps 0x14575(%rip),%xmm9 # 2cd30 <_sk_overlay_sse2_8bit+0x10bb>
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 68,15,17,136,128,0,0,0 ; movups %xmm9,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -23038,16 +23022,16 @@ _sk_bicubic_n1x_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,64,64 ; movups 0x40(%rax),%xmm8
- DB 15,88,5,160,72,1,0 ; addps 0x148a0(%rip),%xmm0 # 2d0c0 <_sk_overlay_sse2_8bit+0x1473>
- DB 68,15,40,13,104,66,1,0 ; movaps 0x14268(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,5,148,73,1,0 ; addps 0x14994(%rip),%xmm0 # 2d170 <_sk_overlay_sse2_8bit+0x14fb>
+ DB 68,15,40,13,92,67,1,0 ; movaps 0x1435c(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
- DB 68,15,40,5,188,72,1,0 ; movaps 0x148bc(%rip),%xmm8 # 2d0f0 <_sk_overlay_sse2_8bit+0x14a3>
+ DB 68,15,40,5,176,73,1,0 ; movaps 0x149b0(%rip),%xmm8 # 2d1a0 <_sk_overlay_sse2_8bit+0x152b>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,192,72,1,0 ; addps 0x148c0(%rip),%xmm8 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 68,15,88,5,180,73,1,0 ; addps 0x149b4(%rip),%xmm8 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,52,66,1,0 ; addps 0x14234(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,88,5,24,67,1,0 ; addps 0x14318(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,184,72,1,0 ; addps 0x148b8(%rip),%xmm8 # 2d110 <_sk_overlay_sse2_8bit+0x14c3>
+ DB 68,15,88,5,172,73,1,0 ; addps 0x149ac(%rip),%xmm8 # 2d1c0 <_sk_overlay_sse2_8bit+0x154b>
DB 68,15,17,128,128,0,0,0 ; movups %xmm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -23055,17 +23039,17 @@ _sk_bicubic_n1x_sse41 LABEL PROC
PUBLIC _sk_bicubic_p1x_sse41
_sk_bicubic_p1x_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,15,40,5,18,66,1,0 ; movaps 0x14212(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,5,246,66,1,0 ; movaps 0x142f6(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,72,64 ; movups 0x40(%rax),%xmm9
DB 65,15,88,192 ; addps %xmm8,%xmm0
- DB 68,15,40,21,110,72,1,0 ; movaps 0x1486e(%rip),%xmm10 # 2d0f0 <_sk_overlay_sse2_8bit+0x14a3>
+ DB 68,15,40,21,98,73,1,0 ; movaps 0x14962(%rip),%xmm10 # 2d1a0 <_sk_overlay_sse2_8bit+0x152b>
DB 69,15,89,209 ; mulps %xmm9,%xmm10
- DB 68,15,88,21,114,72,1,0 ; addps 0x14872(%rip),%xmm10 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 68,15,88,21,102,73,1,0 ; addps 0x14966(%rip),%xmm10 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,89,209 ; mulps %xmm9,%xmm10
DB 69,15,88,208 ; addps %xmm8,%xmm10
DB 69,15,89,209 ; mulps %xmm9,%xmm10
- DB 68,15,88,21,110,72,1,0 ; addps 0x1486e(%rip),%xmm10 # 2d110 <_sk_overlay_sse2_8bit+0x14c3>
+ DB 68,15,88,21,98,73,1,0 ; addps 0x14962(%rip),%xmm10 # 2d1c0 <_sk_overlay_sse2_8bit+0x154b>
DB 68,15,17,144,128,0,0,0 ; movups %xmm10,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -23075,11 +23059,11 @@ _sk_bicubic_p3x_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,64,64 ; movups 0x40(%rax),%xmm8
- DB 15,88,5,65,72,1,0 ; addps 0x14841(%rip),%xmm0 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 15,88,5,53,73,1,0 ; addps 0x14935(%rip),%xmm0 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 69,15,89,201 ; mulps %xmm9,%xmm9
- DB 68,15,89,5,17,72,1,0 ; mulps 0x14811(%rip),%xmm8 # 2d0e0 <_sk_overlay_sse2_8bit+0x1493>
- DB 68,15,88,5,169,67,1,0 ; addps 0x143a9(%rip),%xmm8 # 2cc80 <_sk_overlay_sse2_8bit+0x1033>
+ DB 68,15,89,5,5,73,1,0 ; mulps 0x14905(%rip),%xmm8 # 2d190 <_sk_overlay_sse2_8bit+0x151b>
+ DB 68,15,88,5,157,68,1,0 ; addps 0x1449d(%rip),%xmm8 # 2cd30 <_sk_overlay_sse2_8bit+0x10bb>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
DB 68,15,17,128,128,0,0,0 ; movups %xmm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -23090,13 +23074,13 @@ _sk_bicubic_n3y_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,64,96 ; movups 0x60(%rax),%xmm8
- DB 15,88,13,215,71,1,0 ; addps 0x147d7(%rip),%xmm1 # 2d0d0 <_sk_overlay_sse2_8bit+0x1483>
- DB 68,15,40,13,143,65,1,0 ; movaps 0x1418f(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,13,203,72,1,0 ; addps 0x148cb(%rip),%xmm1 # 2d180 <_sk_overlay_sse2_8bit+0x150b>
+ DB 68,15,40,13,131,66,1,0 ; movaps 0x14283(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
DB 69,15,40,193 ; movaps %xmm9,%xmm8
DB 69,15,89,192 ; mulps %xmm8,%xmm8
- DB 68,15,89,13,203,71,1,0 ; mulps 0x147cb(%rip),%xmm9 # 2d0e0 <_sk_overlay_sse2_8bit+0x1493>
- DB 68,15,88,13,99,67,1,0 ; addps 0x14363(%rip),%xmm9 # 2cc80 <_sk_overlay_sse2_8bit+0x1033>
+ DB 68,15,89,13,191,72,1,0 ; mulps 0x148bf(%rip),%xmm9 # 2d190 <_sk_overlay_sse2_8bit+0x151b>
+ DB 68,15,88,13,87,68,1,0 ; addps 0x14457(%rip),%xmm9 # 2cd30 <_sk_overlay_sse2_8bit+0x10bb>
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 68,15,17,136,160,0,0,0 ; movups %xmm9,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -23107,16 +23091,16 @@ _sk_bicubic_n1y_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,64,96 ; movups 0x60(%rax),%xmm8
- DB 15,88,13,129,71,1,0 ; addps 0x14781(%rip),%xmm1 # 2d0c0 <_sk_overlay_sse2_8bit+0x1473>
- DB 68,15,40,13,73,65,1,0 ; movaps 0x14149(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,13,117,72,1,0 ; addps 0x14875(%rip),%xmm1 # 2d170 <_sk_overlay_sse2_8bit+0x14fb>
+ DB 68,15,40,13,61,66,1,0 ; movaps 0x1423d(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
- DB 68,15,40,5,157,71,1,0 ; movaps 0x1479d(%rip),%xmm8 # 2d0f0 <_sk_overlay_sse2_8bit+0x14a3>
+ DB 68,15,40,5,145,72,1,0 ; movaps 0x14891(%rip),%xmm8 # 2d1a0 <_sk_overlay_sse2_8bit+0x152b>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,161,71,1,0 ; addps 0x147a1(%rip),%xmm8 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 68,15,88,5,149,72,1,0 ; addps 0x14895(%rip),%xmm8 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,21,65,1,0 ; addps 0x14115(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,88,5,249,65,1,0 ; addps 0x141f9(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,153,71,1,0 ; addps 0x14799(%rip),%xmm8 # 2d110 <_sk_overlay_sse2_8bit+0x14c3>
+ DB 68,15,88,5,141,72,1,0 ; addps 0x1488d(%rip),%xmm8 # 2d1c0 <_sk_overlay_sse2_8bit+0x154b>
DB 68,15,17,128,160,0,0,0 ; movups %xmm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -23124,17 +23108,17 @@ _sk_bicubic_n1y_sse41 LABEL PROC
PUBLIC _sk_bicubic_p1y_sse41
_sk_bicubic_p1y_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,15,40,5,243,64,1,0 ; movaps 0x140f3(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,5,215,65,1,0 ; movaps 0x141d7(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,72,96 ; movups 0x60(%rax),%xmm9
DB 65,15,88,200 ; addps %xmm8,%xmm1
- DB 68,15,40,21,78,71,1,0 ; movaps 0x1474e(%rip),%xmm10 # 2d0f0 <_sk_overlay_sse2_8bit+0x14a3>
+ DB 68,15,40,21,66,72,1,0 ; movaps 0x14842(%rip),%xmm10 # 2d1a0 <_sk_overlay_sse2_8bit+0x152b>
DB 69,15,89,209 ; mulps %xmm9,%xmm10
- DB 68,15,88,21,82,71,1,0 ; addps 0x14752(%rip),%xmm10 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 68,15,88,21,70,72,1,0 ; addps 0x14846(%rip),%xmm10 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,89,209 ; mulps %xmm9,%xmm10
DB 69,15,88,208 ; addps %xmm8,%xmm10
DB 69,15,89,209 ; mulps %xmm9,%xmm10
- DB 68,15,88,21,78,71,1,0 ; addps 0x1474e(%rip),%xmm10 # 2d110 <_sk_overlay_sse2_8bit+0x14c3>
+ DB 68,15,88,21,66,72,1,0 ; addps 0x14842(%rip),%xmm10 # 2d1c0 <_sk_overlay_sse2_8bit+0x154b>
DB 68,15,17,144,160,0,0,0 ; movups %xmm10,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -23144,11 +23128,11 @@ _sk_bicubic_p3y_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,64,96 ; movups 0x60(%rax),%xmm8
- DB 15,88,13,32,71,1,0 ; addps 0x14720(%rip),%xmm1 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 15,88,13,20,72,1,0 ; addps 0x14814(%rip),%xmm1 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 69,15,89,201 ; mulps %xmm9,%xmm9
- DB 68,15,89,5,240,70,1,0 ; mulps 0x146f0(%rip),%xmm8 # 2d0e0 <_sk_overlay_sse2_8bit+0x1493>
- DB 68,15,88,5,136,66,1,0 ; addps 0x14288(%rip),%xmm8 # 2cc80 <_sk_overlay_sse2_8bit+0x1033>
+ DB 68,15,89,5,228,71,1,0 ; mulps 0x147e4(%rip),%xmm8 # 2d190 <_sk_overlay_sse2_8bit+0x151b>
+ DB 68,15,88,5,124,67,1,0 ; addps 0x1437c(%rip),%xmm8 # 2cd30 <_sk_overlay_sse2_8bit+0x10bb>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
DB 68,15,17,128,160,0,0,0 ; movups %xmm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -23160,12 +23144,10 @@ _sk_callback_sse41 LABEL PROC
DB 72,137,229 ; mov %rsp,%rbp
DB 65,87 ; push %r15
DB 65,86 ; push %r14
- DB 65,84 ; push %r12
DB 83 ; push %rbx
- DB 72,131,236,32 ; sub $0x20,%rsp
+ DB 72,131,236,40 ; sub $0x28,%rsp
DB 68,15,40,197 ; movaps %xmm5,%xmm8
DB 68,15,40,204 ; movaps %xmm4,%xmm9
- DB 77,137,196 ; mov %r8,%r12
DB 73,137,206 ; mov %rcx,%r14
DB 73,137,215 ; mov %rdx,%r15
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -23186,9 +23168,9 @@ _sk_callback_sse41 LABEL PROC
DB 15,17,107,24 ; movups %xmm5,0x18(%rbx)
DB 102,15,17,91,40 ; movupd %xmm3,0x28(%rbx)
DB 15,17,83,56 ; movups %xmm2,0x38(%rbx)
- DB 77,133,228 ; test %r12,%r12
+ DB 72,133,255 ; test %rdi,%rdi
DB 186,4,0,0,0 ; mov $0x4,%edx
- DB 65,15,69,212 ; cmovne %r12d,%edx
+ DB 15,69,215 ; cmovne %edi,%edx
DB 72,137,217 ; mov %rbx,%rcx
DB 255,19 ; callq *(%rbx)
DB 72,139,131,136,0,0,0 ; mov 0x88(%rbx),%rax
@@ -23211,12 +23193,10 @@ _sk_callback_sse41 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 76,137,250 ; mov %r15,%rdx
DB 76,137,241 ; mov %r14,%rcx
- DB 77,137,224 ; mov %r12,%r8
DB 65,15,40,225 ; movaps %xmm9,%xmm4
DB 65,15,40,232 ; movaps %xmm8,%xmm5
- DB 72,131,196,32 ; add $0x20,%rsp
+ DB 72,131,196,40 ; add $0x28,%rsp
DB 91 ; pop %rbx
- DB 65,92 ; pop %r12
DB 65,94 ; pop %r14
DB 65,95 ; pop %r15
DB 93 ; pop %rbp
@@ -23236,25 +23216,23 @@ _sk_clut_3D_sse41 LABEL PROC
DB 15,41,172,36,144,0,0,0 ; movaps %xmm5,0x90(%rsp)
DB 15,41,164,36,128,0,0,0 ; movaps %xmm4,0x80(%rsp)
DB 15,41,92,36,112 ; movaps %xmm3,0x70(%rsp)
- DB 76,137,68,36,24 ; mov %r8,0x18(%rsp)
- DB 72,137,76,36,16 ; mov %rcx,0x10(%rsp)
- DB 73,137,208 ; mov %rdx,%r8
+ DB 72,137,76,36,24 ; mov %rcx,0x18(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,16 ; mov 0x10(%rax),%r9d
- DB 65,141,89,255 ; lea -0x1(%r9),%ebx
- DB 102,15,110,219 ; movd %ebx,%xmm3
+ DB 68,139,64,16 ; mov 0x10(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 102,65,15,110,217 ; movd %r9d,%xmm3
DB 102,15,112,219,0 ; pshufd $0x0,%xmm3,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
DB 15,89,218 ; mulps %xmm2,%xmm3
DB 243,15,91,227 ; cvttps2dq %xmm3,%xmm4
DB 68,15,40,195 ; movaps %xmm3,%xmm8
DB 68,15,41,68,36,96 ; movaps %xmm8,0x60(%rsp)
- DB 102,65,15,110,209 ; movd %r9d,%xmm2
+ DB 102,65,15,110,208 ; movd %r8d,%xmm2
DB 102,15,112,234,0 ; pshufd $0x0,%xmm2,%xmm5
DB 102,15,127,108,36,32 ; movdqa %xmm5,0x20(%rsp)
- DB 68,139,72,12 ; mov 0xc(%rax),%r9d
- DB 65,141,89,255 ; lea -0x1(%r9),%ebx
- DB 102,15,110,219 ; movd %ebx,%xmm3
+ DB 68,139,64,12 ; mov 0xc(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 102,65,15,110,217 ; movd %r9d,%xmm3
DB 102,15,112,219,0 ; pshufd $0x0,%xmm3,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
DB 15,89,217 ; mulps %xmm1,%xmm3
@@ -23267,12 +23245,12 @@ _sk_clut_3D_sse41 LABEL PROC
DB 102,15,254,204 ; paddd %xmm4,%xmm1
DB 102,68,15,111,212 ; movdqa %xmm4,%xmm10
DB 102,68,15,127,84,36,80 ; movdqa %xmm10,0x50(%rsp)
- DB 102,65,15,110,217 ; movd %r9d,%xmm3
+ DB 102,65,15,110,216 ; movd %r8d,%xmm3
DB 102,15,56,64,218 ; pmulld %xmm2,%xmm3
DB 102,15,112,219,0 ; pshufd $0x0,%xmm3,%xmm3
- DB 139,88,8 ; mov 0x8(%rax),%ebx
- DB 255,203 ; dec %ebx
- DB 102,15,110,211 ; movd %ebx,%xmm2
+ DB 68,139,64,8 ; mov 0x8(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 102,65,15,110,208 ; movd %r8d,%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
DB 68,15,91,242 ; cvtdq2ps %xmm2,%xmm14
DB 68,15,89,240 ; mulps %xmm0,%xmm14
@@ -23281,44 +23259,44 @@ _sk_clut_3D_sse41 LABEL PROC
DB 102,68,15,56,64,227 ; pmulld %xmm3,%xmm12
DB 102,65,15,111,212 ; movdqa %xmm12,%xmm2
DB 102,15,254,209 ; paddd %xmm1,%xmm2
- DB 102,15,111,37,88,69,1,0 ; movdqa 0x14558(%rip),%xmm4 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,37,90,70,1,0 ; movdqa 0x1465a(%rip),%xmm4 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,56,64,212 ; pmulld %xmm4,%xmm2
DB 102,68,15,111,220 ; movdqa %xmm4,%xmm11
- DB 102,68,15,111,61,181,62,1,0 ; movdqa 0x13eb5(%rip),%xmm15 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,68,15,111,61,183,63,1,0 ; movdqa 0x13fb7(%rip),%xmm15 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,111,226 ; movdqa %xmm2,%xmm4
DB 102,65,15,254,231 ; paddd %xmm15,%xmm4
- DB 102,73,15,58,22,225,1 ; pextrq $0x1,%xmm4,%r9
- DB 102,72,15,126,227 ; movq %xmm4,%rbx
+ DB 102,73,15,58,22,224,1 ; pextrq $0x1,%xmm4,%r8
+ DB 102,73,15,126,225 ; movq %xmm4,%r9
DB 72,139,0 ; mov (%rax),%rax
- DB 65,137,218 ; mov %ebx,%r10d
- DB 72,193,235,32 ; shr $0x20,%rbx
- DB 69,137,203 ; mov %r9d,%r11d
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 69,137,195 ; mov %r8d,%r11d
DB 243,66,15,16,36,144 ; movss (%rax,%r10,4),%xmm4
- DB 102,15,58,33,36,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm4
+ DB 102,66,15,58,33,36,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm4
DB 243,66,15,16,44,152 ; movss (%rax,%r11,4),%xmm5
DB 102,15,58,33,229,32 ; insertps $0x20,%xmm5,%xmm4
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 243,66,15,16,44,136 ; movss (%rax,%r9,4),%xmm5
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 243,66,15,16,44,128 ; movss (%rax,%r8,4),%xmm5
DB 102,15,58,33,229,48 ; insertps $0x30,%xmm5,%xmm4
- DB 102,65,15,126,209 ; movd %xmm2,%r9d
- DB 102,65,15,58,22,210,1 ; pextrd $0x1,%xmm2,%r10d
- DB 102,65,15,58,22,211,2 ; pextrd $0x2,%xmm2,%r11d
- DB 102,65,15,58,22,214,3 ; pextrd $0x3,%xmm2,%r14d
- DB 102,68,15,111,13,103,62,1,0 ; movdqa 0x13e67(%rip),%xmm9 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,65,15,126,208 ; movd %xmm2,%r8d
+ DB 102,65,15,58,22,209,1 ; pextrd $0x1,%xmm2,%r9d
+ DB 102,65,15,58,22,210,2 ; pextrd $0x2,%xmm2,%r10d
+ DB 102,65,15,58,22,211,3 ; pextrd $0x3,%xmm2,%r11d
+ DB 102,68,15,111,13,104,63,1,0 ; movdqa 0x13f68(%rip),%xmm9 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,65,15,254,209 ; paddd %xmm9,%xmm2
- DB 102,73,15,58,22,215,1 ; pextrq $0x1,%xmm2,%r15
+ DB 102,73,15,58,22,214,1 ; pextrq $0x1,%xmm2,%r14
DB 102,72,15,126,211 ; movq %xmm2,%rbx
- DB 65,137,220 ; mov %ebx,%r12d
+ DB 65,137,223 ; mov %ebx,%r15d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 69,137,253 ; mov %r15d,%r13d
- DB 243,66,15,16,52,160 ; movss (%rax,%r12,4),%xmm6
+ DB 69,137,244 ; mov %r14d,%r12d
+ DB 243,66,15,16,52,184 ; movss (%rax,%r15,4),%xmm6
DB 102,15,58,33,52,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm6
- DB 243,66,15,16,20,168 ; movss (%rax,%r13,4),%xmm2
+ DB 243,66,15,16,20,160 ; movss (%rax,%r12,4),%xmm2
DB 102,15,58,33,242,32 ; insertps $0x20,%xmm2,%xmm6
- DB 73,193,239,32 ; shr $0x20,%r15
- DB 243,66,15,16,20,184 ; movss (%rax,%r15,4),%xmm2
+ DB 73,193,238,32 ; shr $0x20,%r14
+ DB 243,66,15,16,20,176 ; movss (%rax,%r14,4),%xmm2
DB 102,15,58,33,242,48 ; insertps $0x30,%xmm2,%xmm6
- DB 15,40,45,124,68,1,0 ; movaps 0x1447c(%rip),%xmm5 # 2d120 <_sk_overlay_sse2_8bit+0x14d3>
+ DB 15,40,45,125,69,1,0 ; movaps 0x1457d(%rip),%xmm5 # 2d1d0 <_sk_overlay_sse2_8bit+0x155b>
DB 68,15,88,197 ; addps %xmm5,%xmm8
DB 68,15,41,68,36,48 ; movaps %xmm8,0x30(%rsp)
DB 15,40,215 ; movaps %xmm7,%xmm2
@@ -23331,45 +23309,45 @@ _sk_clut_3D_sse41 LABEL PROC
DB 102,15,56,64,207 ; pmulld %xmm7,%xmm1
DB 102,15,111,217 ; movdqa %xmm1,%xmm3
DB 102,65,15,254,223 ; paddd %xmm15,%xmm3
- DB 102,73,15,58,22,223,1 ; pextrq $0x1,%xmm3,%r15
+ DB 102,73,15,58,22,222,1 ; pextrq $0x1,%xmm3,%r14
DB 102,72,15,126,219 ; movq %xmm3,%rbx
- DB 65,137,220 ; mov %ebx,%r12d
+ DB 65,137,223 ; mov %ebx,%r15d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 69,137,253 ; mov %r15d,%r13d
- DB 243,66,15,16,44,160 ; movss (%rax,%r12,4),%xmm5
+ DB 69,137,244 ; mov %r14d,%r12d
+ DB 243,66,15,16,44,184 ; movss (%rax,%r15,4),%xmm5
DB 102,15,58,33,44,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm5
- DB 243,66,15,16,28,168 ; movss (%rax,%r13,4),%xmm3
+ DB 243,66,15,16,28,160 ; movss (%rax,%r12,4),%xmm3
DB 102,15,58,33,235,32 ; insertps $0x20,%xmm3,%xmm5
- DB 73,193,239,32 ; shr $0x20,%r15
- DB 243,66,15,16,28,184 ; movss (%rax,%r15,4),%xmm3
+ DB 73,193,238,32 ; shr $0x20,%r14
+ DB 243,66,15,16,28,176 ; movss (%rax,%r14,4),%xmm3
DB 102,15,58,33,235,48 ; insertps $0x30,%xmm3,%xmm5
- DB 102,15,126,203 ; movd %xmm1,%ebx
- DB 102,65,15,58,22,207,1 ; pextrd $0x1,%xmm1,%r15d
- DB 102,65,15,58,22,204,2 ; pextrd $0x2,%xmm1,%r12d
- DB 102,65,15,58,22,205,3 ; pextrd $0x3,%xmm1,%r13d
+ DB 102,65,15,126,205 ; movd %xmm1,%r13d
+ DB 102,65,15,58,22,206,1 ; pextrd $0x1,%xmm1,%r14d
+ DB 102,65,15,58,22,207,2 ; pextrd $0x2,%xmm1,%r15d
+ DB 102,65,15,58,22,204,3 ; pextrd $0x3,%xmm1,%r12d
DB 102,65,15,254,201 ; paddd %xmm9,%xmm1
- DB 102,72,15,58,22,205,1 ; pextrq $0x1,%xmm1,%rbp
- DB 102,72,15,126,201 ; movq %xmm1,%rcx
- DB 137,202 ; mov %ecx,%edx
- DB 72,193,233,32 ; shr $0x20,%rcx
- DB 243,15,16,28,144 ; movss (%rax,%rdx,4),%xmm3
- DB 102,15,58,33,28,136,16 ; insertps $0x10,(%rax,%rcx,4),%xmm3
+ DB 102,72,15,58,22,203,1 ; pextrq $0x1,%xmm1,%rbx
+ DB 102,72,15,126,205 ; movq %xmm1,%rbp
DB 137,233 ; mov %ebp,%ecx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 243,15,16,28,136 ; movss (%rax,%rcx,4),%xmm3
+ DB 102,15,58,33,28,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm3
+ DB 137,217 ; mov %ebx,%ecx
DB 243,15,16,12,136 ; movss (%rax,%rcx,4),%xmm1
DB 102,15,58,33,217,32 ; insertps $0x20,%xmm1,%xmm3
- DB 72,193,237,32 ; shr $0x20,%rbp
- DB 243,15,16,12,168 ; movss (%rax,%rbp,4),%xmm1
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
DB 102,15,58,33,217,48 ; insertps $0x30,%xmm1,%xmm3
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
DB 68,15,92,240 ; subps %xmm0,%xmm14
- DB 243,66,15,16,4,136 ; movss (%rax,%r9,4),%xmm0
- DB 102,66,15,58,33,4,144,16 ; insertps $0x10,(%rax,%r10,4),%xmm0
- DB 102,66,15,58,33,4,152,32 ; insertps $0x20,(%rax,%r11,4),%xmm0
- DB 102,66,15,58,33,4,176,48 ; insertps $0x30,(%rax,%r14,4),%xmm0
- DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
- DB 102,66,15,58,33,12,184,16 ; insertps $0x10,(%rax,%r15,4),%xmm1
- DB 102,66,15,58,33,12,160,32 ; insertps $0x20,(%rax,%r12,4),%xmm1
- DB 102,66,15,58,33,12,168,48 ; insertps $0x30,(%rax,%r13,4),%xmm1
+ DB 243,66,15,16,4,128 ; movss (%rax,%r8,4),%xmm0
+ DB 102,66,15,58,33,4,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm0
+ DB 102,66,15,58,33,4,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm0
+ DB 102,66,15,58,33,4,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm0
+ DB 243,66,15,16,12,168 ; movss (%rax,%r13,4),%xmm1
+ DB 102,66,15,58,33,12,176,16 ; insertps $0x10,(%rax,%r14,4),%xmm1
+ DB 102,66,15,58,33,12,184,32 ; insertps $0x20,(%rax,%r15,4),%xmm1
+ DB 102,66,15,58,33,12,160,48 ; insertps $0x30,(%rax,%r12,4),%xmm1
DB 15,92,200 ; subps %xmm0,%xmm1
DB 65,15,89,206 ; mulps %xmm14,%xmm1
DB 15,88,200 ; addps %xmm0,%xmm1
@@ -23388,37 +23366,37 @@ _sk_clut_3D_sse41 LABEL PROC
DB 102,15,56,64,199 ; pmulld %xmm7,%xmm0
DB 102,68,15,111,215 ; movdqa %xmm7,%xmm10
DB 102,15,126,193 ; movd %xmm0,%ecx
- DB 102,15,58,22,194,1 ; pextrd $0x1,%xmm0,%edx
- DB 102,15,58,22,197,2 ; pextrd $0x2,%xmm0,%ebp
+ DB 102,15,58,22,197,1 ; pextrd $0x1,%xmm0,%ebp
+ DB 102,65,15,58,22,192,2 ; pextrd $0x2,%xmm0,%r8d
DB 102,15,58,22,195,3 ; pextrd $0x3,%xmm0,%ebx
DB 243,15,16,52,136 ; movss (%rax,%rcx,4),%xmm6
- DB 102,15,58,33,52,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm6
- DB 102,15,58,33,52,168,32 ; insertps $0x20,(%rax,%rbp,4),%xmm6
+ DB 102,15,58,33,52,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm6
+ DB 102,66,15,58,33,52,128,32 ; insertps $0x20,(%rax,%r8,4),%xmm6
DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
DB 102,15,58,33,242,48 ; insertps $0x30,%xmm2,%xmm6
DB 102,15,111,208 ; movdqa %xmm0,%xmm2
DB 102,65,15,254,215 ; paddd %xmm15,%xmm2
DB 102,72,15,58,22,209,1 ; pextrq $0x1,%xmm2,%rcx
- DB 102,72,15,126,210 ; movq %xmm2,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,20,168 ; movss (%rax,%rbp,4),%xmm2
- DB 102,15,58,33,20,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm2
- DB 243,15,16,60,152 ; movss (%rax,%rbx,4),%xmm7
+ DB 102,72,15,126,213 ; movq %xmm2,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
+ DB 102,15,58,33,20,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm2
+ DB 243,66,15,16,60,128 ; movss (%rax,%r8,4),%xmm7
DB 102,15,58,33,215,32 ; insertps $0x20,%xmm7,%xmm2
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,60,136 ; movss (%rax,%rcx,4),%xmm7
DB 102,15,58,33,215,48 ; insertps $0x30,%xmm7,%xmm2
DB 102,65,15,254,193 ; paddd %xmm9,%xmm0
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,4,168 ; movss (%rax,%rbp,4),%xmm0
- DB 102,15,58,33,4,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm0
- DB 243,15,16,60,152 ; movss (%rax,%rbx,4),%xmm7
+ DB 102,72,15,126,197 ; movq %xmm0,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,4,152 ; movss (%rax,%rbx,4),%xmm0
+ DB 102,15,58,33,4,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm0
+ DB 243,66,15,16,60,128 ; movss (%rax,%r8,4),%xmm7
DB 102,15,58,33,199,32 ; insertps $0x20,%xmm7,%xmm0
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,60,136 ; movss (%rax,%rcx,4),%xmm7
@@ -23428,39 +23406,39 @@ _sk_clut_3D_sse41 LABEL PROC
DB 102,15,111,252 ; movdqa %xmm4,%xmm7
DB 102,65,15,254,255 ; paddd %xmm15,%xmm7
DB 102,72,15,58,22,249,1 ; pextrq $0x1,%xmm7,%rcx
- DB 102,72,15,126,250 ; movq %xmm7,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,68,15,16,20,168 ; movss (%rax,%rbp,4),%xmm10
- DB 102,68,15,58,33,20,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm10
- DB 243,15,16,60,152 ; movss (%rax,%rbx,4),%xmm7
+ DB 102,72,15,126,253 ; movq %xmm7,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,68,15,16,20,152 ; movss (%rax,%rbx,4),%xmm10
+ DB 102,68,15,58,33,20,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm10
+ DB 243,66,15,16,60,128 ; movss (%rax,%r8,4),%xmm7
DB 102,68,15,58,33,215,32 ; insertps $0x20,%xmm7,%xmm10
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,60,136 ; movss (%rax,%rcx,4),%xmm7
DB 102,68,15,58,33,215,48 ; insertps $0x30,%xmm7,%xmm10
DB 102,65,15,126,225 ; movd %xmm4,%r9d
- DB 102,65,15,58,22,226,1 ; pextrd $0x1,%xmm4,%r10d
- DB 102,65,15,58,22,230,2 ; pextrd $0x2,%xmm4,%r14d
- DB 102,65,15,58,22,227,3 ; pextrd $0x3,%xmm4,%r11d
+ DB 102,65,15,58,22,227,1 ; pextrd $0x1,%xmm4,%r11d
+ DB 102,65,15,58,22,226,2 ; pextrd $0x2,%xmm4,%r10d
+ DB 102,65,15,58,22,224,3 ; pextrd $0x3,%xmm4,%r8d
DB 102,65,15,111,249 ; movdqa %xmm9,%xmm7
DB 102,15,254,231 ; paddd %xmm7,%xmm4
DB 102,72,15,58,22,225,1 ; pextrq $0x1,%xmm4,%rcx
- DB 102,72,15,126,226 ; movq %xmm4,%rdx
- DB 137,211 ; mov %edx,%ebx
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,205 ; mov %ecx,%ebp
- DB 243,68,15,16,12,152 ; movss (%rax,%rbx,4),%xmm9
- DB 102,68,15,58,33,12,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm9
- DB 243,15,16,36,168 ; movss (%rax,%rbp,4),%xmm4
+ DB 102,72,15,126,227 ; movq %xmm4,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
+ DB 243,68,15,16,12,168 ; movss (%rax,%rbp,4),%xmm9
+ DB 102,68,15,58,33,12,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm9
+ DB 243,66,15,16,36,176 ; movss (%rax,%r14,4),%xmm4
DB 102,68,15,58,33,204,32 ; insertps $0x20,%xmm4,%xmm9
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,36,136 ; movss (%rax,%rcx,4),%xmm4
DB 102,68,15,58,33,204,48 ; insertps $0x30,%xmm4,%xmm9
DB 243,66,15,16,36,136 ; movss (%rax,%r9,4),%xmm4
- DB 102,66,15,58,33,36,144,16 ; insertps $0x10,(%rax,%r10,4),%xmm4
- DB 102,66,15,58,33,36,176,32 ; insertps $0x20,(%rax,%r14,4),%xmm4
- DB 102,66,15,58,33,36,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm4
+ DB 102,66,15,58,33,36,152,16 ; insertps $0x10,(%rax,%r11,4),%xmm4
+ DB 102,66,15,58,33,36,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm4
+ DB 102,66,15,58,33,36,128,48 ; insertps $0x30,(%rax,%r8,4),%xmm4
DB 15,92,230 ; subps %xmm6,%xmm4
DB 65,15,89,230 ; mulps %xmm14,%xmm4
DB 15,88,230 ; addps %xmm6,%xmm4
@@ -23487,35 +23465,35 @@ _sk_clut_3D_sse41 LABEL PROC
DB 102,68,15,254,232 ; paddd %xmm0,%xmm13
DB 102,65,15,111,212 ; movdqa %xmm12,%xmm2
DB 102,65,15,254,213 ; paddd %xmm13,%xmm2
- DB 102,15,111,45,61,65,1,0 ; movdqa 0x1413d(%rip),%xmm5 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,45,50,66,1,0 ; movdqa 0x14232(%rip),%xmm5 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,56,64,213 ; pmulld %xmm5,%xmm2
DB 102,15,111,202 ; movdqa %xmm2,%xmm1
DB 102,65,15,254,207 ; paddd %xmm15,%xmm1
DB 102,72,15,58,22,201,1 ; pextrq $0x1,%xmm1,%rcx
- DB 102,72,15,126,202 ; movq %xmm1,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,12,168 ; movss (%rax,%rbp,4),%xmm1
- DB 102,15,58,33,12,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm1
- DB 243,15,16,28,152 ; movss (%rax,%rbx,4),%xmm3
+ DB 102,72,15,126,205 ; movq %xmm1,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
+ DB 102,15,58,33,12,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm1
+ DB 243,66,15,16,28,128 ; movss (%rax,%r8,4),%xmm3
DB 102,15,58,33,203,32 ; insertps $0x20,%xmm3,%xmm1
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,28,136 ; movss (%rax,%rcx,4),%xmm3
DB 102,15,58,33,203,48 ; insertps $0x30,%xmm3,%xmm1
- DB 102,65,15,126,214 ; movd %xmm2,%r14d
+ DB 102,65,15,126,208 ; movd %xmm2,%r8d
DB 102,65,15,58,22,209,1 ; pextrd $0x1,%xmm2,%r9d
DB 102,65,15,58,22,210,2 ; pextrd $0x2,%xmm2,%r10d
DB 102,65,15,58,22,211,3 ; pextrd $0x3,%xmm2,%r11d
DB 102,15,254,215 ; paddd %xmm7,%xmm2
DB 102,72,15,58,22,209,1 ; pextrq $0x1,%xmm2,%rcx
- DB 102,72,15,126,210 ; movq %xmm2,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
+ DB 102,72,15,126,211 ; movq %xmm2,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
DB 243,15,16,20,168 ; movss (%rax,%rbp,4),%xmm2
- DB 102,15,58,33,20,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm2
- DB 243,15,16,28,152 ; movss (%rax,%rbx,4),%xmm3
+ DB 102,15,58,33,20,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm2
+ DB 243,66,15,16,28,176 ; movss (%rax,%r14,4),%xmm3
DB 102,15,58,33,211,32 ; insertps $0x20,%xmm3,%xmm2
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,28,136 ; movss (%rax,%rcx,4),%xmm3
@@ -23526,42 +23504,42 @@ _sk_clut_3D_sse41 LABEL PROC
DB 102,65,15,111,221 ; movdqa %xmm13,%xmm3
DB 102,65,15,254,223 ; paddd %xmm15,%xmm3
DB 102,72,15,58,22,217,1 ; pextrq $0x1,%xmm3,%rcx
- DB 102,72,15,126,218 ; movq %xmm3,%rdx
- DB 137,211 ; mov %edx,%ebx
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,205 ; mov %ecx,%ebp
- DB 243,68,15,16,4,152 ; movss (%rax,%rbx,4),%xmm8
- DB 102,68,15,58,33,4,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm8
- DB 243,15,16,28,168 ; movss (%rax,%rbp,4),%xmm3
+ DB 102,72,15,126,219 ; movq %xmm3,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
+ DB 243,68,15,16,4,168 ; movss (%rax,%rbp,4),%xmm8
+ DB 102,68,15,58,33,4,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm8
+ DB 243,66,15,16,28,176 ; movss (%rax,%r14,4),%xmm3
DB 102,68,15,58,33,195,32 ; insertps $0x20,%xmm3,%xmm8
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,28,136 ; movss (%rax,%rcx,4),%xmm3
DB 102,68,15,58,33,195,48 ; insertps $0x30,%xmm3,%xmm8
- DB 102,68,15,126,233 ; movd %xmm13,%ecx
+ DB 102,69,15,126,237 ; movd %xmm13,%r13d
DB 102,69,15,58,22,239,1 ; pextrd $0x1,%xmm13,%r15d
DB 102,69,15,58,22,236,2 ; pextrd $0x2,%xmm13,%r12d
- DB 102,69,15,58,22,237,3 ; pextrd $0x3,%xmm13,%r13d
+ DB 102,69,15,58,22,238,3 ; pextrd $0x3,%xmm13,%r14d
DB 102,68,15,254,239 ; paddd %xmm7,%xmm13
- DB 102,76,15,58,22,234,1 ; pextrq $0x1,%xmm13,%rdx
- DB 102,76,15,126,235 ; movq %xmm13,%rbx
- DB 137,221 ; mov %ebx,%ebp
+ DB 102,76,15,58,22,235,1 ; pextrq $0x1,%xmm13,%rbx
+ DB 102,76,15,126,237 ; movq %xmm13,%rbp
+ DB 137,233 ; mov %ebp,%ecx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 243,68,15,16,44,136 ; movss (%rax,%rcx,4),%xmm13
+ DB 102,68,15,58,33,44,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm13
+ DB 137,217 ; mov %ebx,%ecx
+ DB 243,15,16,28,136 ; movss (%rax,%rcx,4),%xmm3
+ DB 102,68,15,58,33,235,32 ; insertps $0x20,%xmm3,%xmm13
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 243,68,15,16,44,168 ; movss (%rax,%rbp,4),%xmm13
- DB 102,68,15,58,33,44,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm13
- DB 137,211 ; mov %edx,%ebx
DB 243,15,16,28,152 ; movss (%rax,%rbx,4),%xmm3
- DB 102,68,15,58,33,235,32 ; insertps $0x20,%xmm3,%xmm13
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 243,15,16,28,144 ; movss (%rax,%rdx,4),%xmm3
DB 102,68,15,58,33,235,48 ; insertps $0x30,%xmm3,%xmm13
- DB 243,66,15,16,28,176 ; movss (%rax,%r14,4),%xmm3
+ DB 243,66,15,16,28,128 ; movss (%rax,%r8,4),%xmm3
DB 102,66,15,58,33,28,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm3
DB 102,66,15,58,33,28,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm3
DB 102,66,15,58,33,28,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm3
- DB 243,15,16,60,136 ; movss (%rax,%rcx,4),%xmm7
+ DB 243,66,15,16,60,168 ; movss (%rax,%r13,4),%xmm7
DB 102,66,15,58,33,60,184,16 ; insertps $0x10,(%rax,%r15,4),%xmm7
DB 102,66,15,58,33,60,160,32 ; insertps $0x20,(%rax,%r12,4),%xmm7
- DB 102,66,15,58,33,60,168,48 ; insertps $0x30,(%rax,%r13,4),%xmm7
+ DB 102,66,15,58,33,60,176,48 ; insertps $0x30,(%rax,%r14,4),%xmm7
DB 15,92,251 ; subps %xmm3,%xmm7
DB 65,15,89,254 ; mulps %xmm14,%xmm7
DB 15,88,251 ; addps %xmm3,%xmm7
@@ -23578,31 +23556,31 @@ _sk_clut_3D_sse41 LABEL PROC
DB 102,65,15,111,196 ; movdqa %xmm12,%xmm0
DB 102,65,15,254,199 ; paddd %xmm15,%xmm0
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,28,168 ; movss (%rax,%rbp,4),%xmm3
- DB 102,15,58,33,28,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm3
- DB 243,15,16,4,152 ; movss (%rax,%rbx,4),%xmm0
+ DB 102,72,15,126,197 ; movq %xmm0,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,28,152 ; movss (%rax,%rbx,4),%xmm3
+ DB 102,15,58,33,28,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm3
+ DB 243,66,15,16,4,128 ; movss (%rax,%r8,4),%xmm0
DB 102,15,58,33,216,32 ; insertps $0x20,%xmm0,%xmm3
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
DB 102,15,58,33,216,48 ; insertps $0x30,%xmm0,%xmm3
- DB 102,69,15,126,230 ; movd %xmm12,%r14d
+ DB 102,69,15,126,224 ; movd %xmm12,%r8d
DB 102,69,15,58,22,225,1 ; pextrd $0x1,%xmm12,%r9d
DB 102,69,15,58,22,226,2 ; pextrd $0x2,%xmm12,%r10d
DB 102,69,15,58,22,227,3 ; pextrd $0x3,%xmm12,%r11d
- DB 102,15,111,21,161,56,1,0 ; movdqa 0x138a1(%rip),%xmm2 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,111,21,141,57,1,0 ; movdqa 0x1398d(%rip),%xmm2 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,68,15,254,226 ; paddd %xmm2,%xmm12
DB 102,76,15,58,22,225,1 ; pextrq $0x1,%xmm12,%rcx
- DB 102,76,15,126,226 ; movq %xmm12,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
+ DB 102,76,15,126,227 ; movq %xmm12,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
DB 243,15,16,44,168 ; movss (%rax,%rbp,4),%xmm5
- DB 102,15,58,33,44,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm5
- DB 243,15,16,4,152 ; movss (%rax,%rbx,4),%xmm0
+ DB 102,15,58,33,44,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm5
+ DB 243,66,15,16,4,176 ; movss (%rax,%r14,4),%xmm0
DB 102,15,58,33,232,32 ; insertps $0x20,%xmm0,%xmm5
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
@@ -23611,42 +23589,42 @@ _sk_clut_3D_sse41 LABEL PROC
DB 102,68,15,56,64,217 ; pmulld %xmm1,%xmm11
DB 102,69,15,254,251 ; paddd %xmm11,%xmm15
DB 102,76,15,58,22,249,1 ; pextrq $0x1,%xmm15,%rcx
- DB 102,76,15,126,250 ; movq %xmm15,%rdx
- DB 137,211 ; mov %edx,%ebx
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,205 ; mov %ecx,%ebp
- DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
- DB 102,15,58,33,12,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm1
- DB 243,15,16,4,168 ; movss (%rax,%rbp,4),%xmm0
+ DB 102,76,15,126,251 ; movq %xmm15,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
+ DB 243,15,16,12,168 ; movss (%rax,%rbp,4),%xmm1
+ DB 102,15,58,33,12,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm1
+ DB 243,66,15,16,4,176 ; movss (%rax,%r14,4),%xmm0
DB 102,15,58,33,200,32 ; insertps $0x20,%xmm0,%xmm1
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
DB 102,15,58,33,200,48 ; insertps $0x30,%xmm0,%xmm1
- DB 102,68,15,126,217 ; movd %xmm11,%ecx
+ DB 102,69,15,126,221 ; movd %xmm11,%r13d
DB 102,69,15,58,22,223,1 ; pextrd $0x1,%xmm11,%r15d
DB 102,69,15,58,22,220,2 ; pextrd $0x2,%xmm11,%r12d
- DB 102,69,15,58,22,221,3 ; pextrd $0x3,%xmm11,%r13d
+ DB 102,69,15,58,22,222,3 ; pextrd $0x3,%xmm11,%r14d
DB 102,68,15,254,218 ; paddd %xmm2,%xmm11
- DB 102,76,15,58,22,218,1 ; pextrq $0x1,%xmm11,%rdx
- DB 102,76,15,126,219 ; movq %xmm11,%rbx
- DB 137,221 ; mov %ebx,%ebp
+ DB 102,76,15,58,22,219,1 ; pextrq $0x1,%xmm11,%rbx
+ DB 102,76,15,126,221 ; movq %xmm11,%rbp
+ DB 137,233 ; mov %ebp,%ecx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
+ DB 102,15,58,33,20,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm2
+ DB 137,217 ; mov %ebx,%ecx
+ DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
+ DB 102,15,58,33,208,32 ; insertps $0x20,%xmm0,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 243,15,16,20,168 ; movss (%rax,%rbp,4),%xmm2
- DB 102,15,58,33,20,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm2
- DB 137,211 ; mov %edx,%ebx
DB 243,15,16,4,152 ; movss (%rax,%rbx,4),%xmm0
- DB 102,15,58,33,208,32 ; insertps $0x20,%xmm0,%xmm2
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 243,15,16,4,144 ; movss (%rax,%rdx,4),%xmm0
DB 102,15,58,33,208,48 ; insertps $0x30,%xmm0,%xmm2
- DB 243,66,15,16,52,176 ; movss (%rax,%r14,4),%xmm6
+ DB 243,66,15,16,52,128 ; movss (%rax,%r8,4),%xmm6
DB 102,66,15,58,33,52,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm6
DB 102,66,15,58,33,52,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm6
DB 102,66,15,58,33,52,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm6
- DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
+ DB 243,66,15,16,4,168 ; movss (%rax,%r13,4),%xmm0
DB 102,66,15,58,33,4,184,16 ; insertps $0x10,(%rax,%r15,4),%xmm0
DB 102,66,15,58,33,4,160,32 ; insertps $0x20,(%rax,%r12,4),%xmm0
- DB 102,66,15,58,33,4,168,48 ; insertps $0x30,(%rax,%r13,4),%xmm0
+ DB 102,66,15,58,33,4,176,48 ; insertps $0x30,(%rax,%r14,4),%xmm0
DB 15,92,198 ; subps %xmm6,%xmm0
DB 65,15,89,198 ; mulps %xmm14,%xmm0
DB 15,88,198 ; addps %xmm6,%xmm0
@@ -23679,9 +23657,7 @@ _sk_clut_3D_sse41 LABEL PROC
DB 15,89,213 ; mulps %xmm5,%xmm2
DB 65,15,88,209 ; addps %xmm9,%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,137,194 ; mov %r8,%rdx
- DB 72,139,76,36,16 ; mov 0x10(%rsp),%rcx
- DB 76,139,68,36,24 ; mov 0x18(%rsp),%r8
+ DB 72,139,76,36,24 ; mov 0x18(%rsp),%rcx
DB 15,40,92,36,112 ; movaps 0x70(%rsp),%xmm3
DB 15,40,164,36,128,0,0,0 ; movaps 0x80(%rsp),%xmm4
DB 15,40,172,36,144,0,0,0 ; movaps 0x90(%rsp),%xmm5
@@ -23709,13 +23685,11 @@ _sk_clut_4D_sse41 LABEL PROC
DB 15,41,180,36,240,0,0,0 ; movaps %xmm6,0xf0(%rsp)
DB 15,41,172,36,224,0,0,0 ; movaps %xmm5,0xe0(%rsp)
DB 15,41,164,36,208,0,0,0 ; movaps %xmm4,0xd0(%rsp)
- DB 76,137,68,36,120 ; mov %r8,0x78(%rsp)
- DB 72,137,76,36,112 ; mov %rcx,0x70(%rsp)
- DB 73,137,208 ; mov %rdx,%r8
+ DB 72,137,76,36,120 ; mov %rcx,0x78(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,20 ; mov 0x14(%rax),%r9d
- DB 65,141,89,255 ; lea -0x1(%r9),%ebx
- DB 102,15,110,227 ; movd %ebx,%xmm4
+ DB 68,139,64,20 ; mov 0x14(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 102,65,15,110,225 ; movd %r9d,%xmm4
DB 102,15,112,228,0 ; pshufd $0x0,%xmm4,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
DB 15,89,227 ; mulps %xmm3,%xmm4
@@ -23723,12 +23697,12 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,127,172,36,128,0,0,0 ; movdqa %xmm5,0x80(%rsp)
DB 68,15,40,212 ; movaps %xmm4,%xmm10
DB 68,15,41,148,36,192,0,0,0 ; movaps %xmm10,0xc0(%rsp)
- DB 102,65,15,110,225 ; movd %r9d,%xmm4
+ DB 102,65,15,110,224 ; movd %r8d,%xmm4
DB 102,15,112,244,0 ; pshufd $0x0,%xmm4,%xmm6
DB 102,15,127,180,36,160,0,0,0 ; movdqa %xmm6,0xa0(%rsp)
- DB 68,139,72,16 ; mov 0x10(%rax),%r9d
- DB 65,141,89,255 ; lea -0x1(%r9),%ebx
- DB 102,15,110,219 ; movd %ebx,%xmm3
+ DB 68,139,64,16 ; mov 0x10(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 102,65,15,110,217 ; movd %r9d,%xmm3
DB 102,15,112,219,0 ; pshufd $0x0,%xmm3,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
DB 15,89,218 ; mulps %xmm2,%xmm3
@@ -23739,21 +23713,21 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,68,15,56,64,230 ; pmulld %xmm6,%xmm12
DB 102,65,15,111,220 ; movdqa %xmm12,%xmm3
DB 102,15,254,221 ; paddd %xmm5,%xmm3
- DB 102,65,15,110,209 ; movd %r9d,%xmm2
+ DB 102,65,15,110,208 ; movd %r8d,%xmm2
DB 102,15,56,64,212 ; pmulld %xmm4,%xmm2
DB 102,15,112,234,0 ; pshufd $0x0,%xmm2,%xmm5
DB 102,15,127,108,36,16 ; movdqa %xmm5,0x10(%rsp)
- DB 68,139,72,12 ; mov 0xc(%rax),%r9d
- DB 65,141,89,255 ; lea -0x1(%r9),%ebx
- DB 102,15,110,227 ; movd %ebx,%xmm4
+ DB 68,139,64,12 ; mov 0xc(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 102,65,15,110,225 ; movd %r9d,%xmm4
DB 102,15,112,228,0 ; pshufd $0x0,%xmm4,%xmm4
DB 68,15,91,244 ; cvtdq2ps %xmm4,%xmm14
DB 68,15,89,241 ; mulps %xmm1,%xmm14
- DB 102,65,15,110,225 ; movd %r9d,%xmm4
+ DB 102,65,15,110,224 ; movd %r8d,%xmm4
DB 102,15,56,64,226 ; pmulld %xmm2,%xmm4
- DB 139,88,8 ; mov 0x8(%rax),%ebx
- DB 255,203 ; dec %ebx
- DB 102,15,110,203 ; movd %ebx,%xmm1
+ DB 68,139,64,8 ; mov 0x8(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 102,65,15,110,200 ; movd %r8d,%xmm1
DB 102,15,112,201,0 ; pshufd $0x0,%xmm1,%xmm1
DB 68,15,91,249 ; cvtdq2ps %xmm1,%xmm15
DB 68,15,89,248 ; mulps %xmm0,%xmm15
@@ -23770,42 +23744,42 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,65,15,111,197 ; movdqa %xmm13,%xmm0
DB 102,68,15,127,108,36,48 ; movdqa %xmm13,0x30(%rsp)
DB 102,15,254,193 ; paddd %xmm1,%xmm0
- DB 102,15,56,64,5,233,59,1,0 ; pmulld 0x13be9(%rip),%xmm0 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
- DB 102,68,15,111,29,80,53,1,0 ; movdqa 0x13550(%rip),%xmm11 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,56,64,5,218,60,1,0 ; pmulld 0x13cda(%rip),%xmm0 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
+ DB 102,68,15,111,29,65,54,1,0 ; movdqa 0x13641(%rip),%xmm11 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,111,208 ; movdqa %xmm0,%xmm2
DB 102,65,15,254,211 ; paddd %xmm11,%xmm2
- DB 102,73,15,58,22,209,1 ; pextrq $0x1,%xmm2,%r9
- DB 102,72,15,126,211 ; movq %xmm2,%rbx
+ DB 102,73,15,58,22,208,1 ; pextrq $0x1,%xmm2,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
DB 72,139,0 ; mov (%rax),%rax
- DB 65,137,218 ; mov %ebx,%r10d
- DB 72,193,235,32 ; shr $0x20,%rbx
- DB 69,137,203 ; mov %r9d,%r11d
+ DB 69,137,202 ; mov %r9d,%r10d
+ DB 73,193,233,32 ; shr $0x20,%r9
+ DB 69,137,195 ; mov %r8d,%r11d
DB 243,66,15,16,20,144 ; movss (%rax,%r10,4),%xmm2
- DB 102,15,58,33,20,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm2
+ DB 102,66,15,58,33,20,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm2
DB 243,66,15,16,44,152 ; movss (%rax,%r11,4),%xmm5
DB 102,15,58,33,213,32 ; insertps $0x20,%xmm5,%xmm2
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 243,66,15,16,44,136 ; movss (%rax,%r9,4),%xmm5
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 243,66,15,16,44,128 ; movss (%rax,%r8,4),%xmm5
DB 102,15,58,33,213,48 ; insertps $0x30,%xmm5,%xmm2
- DB 102,65,15,126,193 ; movd %xmm0,%r9d
- DB 102,65,15,58,22,194,1 ; pextrd $0x1,%xmm0,%r10d
- DB 102,65,15,58,22,195,2 ; pextrd $0x2,%xmm0,%r11d
- DB 102,65,15,58,22,198,3 ; pextrd $0x3,%xmm0,%r14d
- DB 102,68,15,111,5,2,53,1,0 ; movdqa 0x13502(%rip),%xmm8 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,65,15,126,192 ; movd %xmm0,%r8d
+ DB 102,65,15,58,22,193,1 ; pextrd $0x1,%xmm0,%r9d
+ DB 102,65,15,58,22,194,2 ; pextrd $0x2,%xmm0,%r10d
+ DB 102,65,15,58,22,195,3 ; pextrd $0x3,%xmm0,%r11d
+ DB 102,68,15,111,5,242,53,1,0 ; movdqa 0x135f2(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,65,15,254,192 ; paddd %xmm8,%xmm0
- DB 102,73,15,58,22,199,1 ; pextrq $0x1,%xmm0,%r15
+ DB 102,73,15,58,22,198,1 ; pextrq $0x1,%xmm0,%r14
DB 102,72,15,126,195 ; movq %xmm0,%rbx
- DB 65,137,220 ; mov %ebx,%r12d
+ DB 65,137,223 ; mov %ebx,%r15d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 69,137,253 ; mov %r15d,%r13d
- DB 243,66,15,16,44,160 ; movss (%rax,%r12,4),%xmm5
+ DB 69,137,244 ; mov %r14d,%r12d
+ DB 243,66,15,16,44,184 ; movss (%rax,%r15,4),%xmm5
DB 102,15,58,33,44,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm5
- DB 243,66,15,16,4,168 ; movss (%rax,%r13,4),%xmm0
+ DB 243,66,15,16,4,160 ; movss (%rax,%r12,4),%xmm0
DB 102,15,58,33,232,32 ; insertps $0x20,%xmm0,%xmm5
- DB 73,193,239,32 ; shr $0x20,%r15
- DB 243,66,15,16,4,184 ; movss (%rax,%r15,4),%xmm0
+ DB 73,193,238,32 ; shr $0x20,%r14
+ DB 243,66,15,16,4,176 ; movss (%rax,%r14,4),%xmm0
DB 102,15,58,33,232,48 ; insertps $0x30,%xmm0,%xmm5
- DB 15,40,53,23,59,1,0 ; movaps 0x13b17(%rip),%xmm6 # 2d120 <_sk_overlay_sse2_8bit+0x14d3>
+ DB 15,40,53,7,60,1,0 ; movaps 0x13c07(%rip),%xmm6 # 2d1d0 <_sk_overlay_sse2_8bit+0x155b>
DB 68,15,88,214 ; addps %xmm6,%xmm10
DB 68,15,41,148,36,176,0,0,0 ; movaps %xmm10,0xb0(%rsp)
DB 15,88,254 ; addps %xmm6,%xmm7
@@ -23818,49 +23792,49 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,254,206 ; paddd %xmm6,%xmm1
DB 102,68,15,111,214 ; movdqa %xmm6,%xmm10
DB 102,68,15,127,84,36,32 ; movdqa %xmm10,0x20(%rsp)
- DB 102,15,56,64,13,226,58,1,0 ; pmulld 0x13ae2(%rip),%xmm1 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,56,64,13,210,59,1,0 ; pmulld 0x13bd2(%rip),%xmm1 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,111,225 ; movdqa %xmm1,%xmm4
DB 102,65,15,254,227 ; paddd %xmm11,%xmm4
- DB 102,73,15,58,22,231,1 ; pextrq $0x1,%xmm4,%r15
+ DB 102,73,15,58,22,230,1 ; pextrq $0x1,%xmm4,%r14
DB 102,72,15,126,227 ; movq %xmm4,%rbx
- DB 65,137,220 ; mov %ebx,%r12d
+ DB 65,137,223 ; mov %ebx,%r15d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 69,137,253 ; mov %r15d,%r13d
- DB 243,66,15,16,52,160 ; movss (%rax,%r12,4),%xmm6
+ DB 69,137,244 ; mov %r14d,%r12d
+ DB 243,66,15,16,52,184 ; movss (%rax,%r15,4),%xmm6
DB 102,15,58,33,52,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm6
- DB 243,66,15,16,36,168 ; movss (%rax,%r13,4),%xmm4
+ DB 243,66,15,16,36,160 ; movss (%rax,%r12,4),%xmm4
DB 102,15,58,33,244,32 ; insertps $0x20,%xmm4,%xmm6
- DB 73,193,239,32 ; shr $0x20,%r15
- DB 243,66,15,16,36,184 ; movss (%rax,%r15,4),%xmm4
+ DB 73,193,238,32 ; shr $0x20,%r14
+ DB 243,66,15,16,36,176 ; movss (%rax,%r14,4),%xmm4
DB 102,15,58,33,244,48 ; insertps $0x30,%xmm4,%xmm6
- DB 102,15,126,203 ; movd %xmm1,%ebx
- DB 102,65,15,58,22,207,1 ; pextrd $0x1,%xmm1,%r15d
- DB 102,65,15,58,22,204,2 ; pextrd $0x2,%xmm1,%r12d
- DB 102,65,15,58,22,205,3 ; pextrd $0x3,%xmm1,%r13d
+ DB 102,65,15,126,205 ; movd %xmm1,%r13d
+ DB 102,65,15,58,22,206,1 ; pextrd $0x1,%xmm1,%r14d
+ DB 102,65,15,58,22,207,2 ; pextrd $0x2,%xmm1,%r15d
+ DB 102,65,15,58,22,204,3 ; pextrd $0x3,%xmm1,%r12d
DB 102,65,15,254,200 ; paddd %xmm8,%xmm1
DB 102,69,15,111,216 ; movdqa %xmm8,%xmm11
- DB 102,72,15,58,22,205,1 ; pextrq $0x1,%xmm1,%rbp
- DB 102,72,15,126,201 ; movq %xmm1,%rcx
- DB 137,202 ; mov %ecx,%edx
- DB 72,193,233,32 ; shr $0x20,%rcx
- DB 243,15,16,36,144 ; movss (%rax,%rdx,4),%xmm4
- DB 102,15,58,33,36,136,16 ; insertps $0x10,(%rax,%rcx,4),%xmm4
+ DB 102,72,15,58,22,203,1 ; pextrq $0x1,%xmm1,%rbx
+ DB 102,72,15,126,205 ; movq %xmm1,%rbp
DB 137,233 ; mov %ebp,%ecx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 243,15,16,36,136 ; movss (%rax,%rcx,4),%xmm4
+ DB 102,15,58,33,36,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm4
+ DB 137,217 ; mov %ebx,%ecx
DB 243,15,16,12,136 ; movss (%rax,%rcx,4),%xmm1
DB 102,15,58,33,225,32 ; insertps $0x20,%xmm1,%xmm4
- DB 72,193,237,32 ; shr $0x20,%rbp
- DB 243,15,16,12,168 ; movss (%rax,%rbp,4),%xmm1
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
DB 102,15,58,33,225,48 ; insertps $0x30,%xmm1,%xmm4
DB 65,15,91,201 ; cvtdq2ps %xmm9,%xmm1
DB 68,15,92,249 ; subps %xmm1,%xmm15
- DB 243,66,15,16,12,136 ; movss (%rax,%r9,4),%xmm1
- DB 102,66,15,58,33,12,144,16 ; insertps $0x10,(%rax,%r10,4),%xmm1
- DB 102,66,15,58,33,12,152,32 ; insertps $0x20,(%rax,%r11,4),%xmm1
- DB 102,66,15,58,33,12,176,48 ; insertps $0x30,(%rax,%r14,4),%xmm1
- DB 243,15,16,60,152 ; movss (%rax,%rbx,4),%xmm7
- DB 102,66,15,58,33,60,184,16 ; insertps $0x10,(%rax,%r15,4),%xmm7
- DB 102,66,15,58,33,60,160,32 ; insertps $0x20,(%rax,%r12,4),%xmm7
- DB 102,66,15,58,33,60,168,48 ; insertps $0x30,(%rax,%r13,4),%xmm7
+ DB 243,66,15,16,12,128 ; movss (%rax,%r8,4),%xmm1
+ DB 102,66,15,58,33,12,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm1
+ DB 102,66,15,58,33,12,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm1
+ DB 102,66,15,58,33,12,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm1
+ DB 243,66,15,16,60,168 ; movss (%rax,%r13,4),%xmm7
+ DB 102,66,15,58,33,60,176,16 ; insertps $0x10,(%rax,%r14,4),%xmm7
+ DB 102,66,15,58,33,60,184,32 ; insertps $0x20,(%rax,%r15,4),%xmm7
+ DB 102,66,15,58,33,60,160,48 ; insertps $0x30,(%rax,%r12,4),%xmm7
DB 15,92,249 ; subps %xmm1,%xmm7
DB 65,15,89,255 ; mulps %xmm15,%xmm7
DB 15,88,249 ; addps %xmm1,%xmm7
@@ -23876,37 +23850,37 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,254,216 ; paddd %xmm0,%xmm3
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,65,15,254,205 ; paddd %xmm13,%xmm1
- DB 102,15,111,5,182,57,1,0 ; movdqa 0x139b6(%rip),%xmm0 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,5,164,58,1,0 ; movdqa 0x13aa4(%rip),%xmm0 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,56,64,200 ; pmulld %xmm0,%xmm1
DB 102,68,15,111,200 ; movdqa %xmm0,%xmm9
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
- DB 102,68,15,111,5,15,51,1,0 ; movdqa 0x1330f(%rip),%xmm8 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,68,15,111,5,253,51,1,0 ; movdqa 0x133fd(%rip),%xmm8 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,65,15,254,192 ; paddd %xmm8,%xmm0
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,4,168 ; movss (%rax,%rbp,4),%xmm0
- DB 102,15,58,33,4,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm0
- DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
+ DB 102,72,15,126,197 ; movq %xmm0,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,4,152 ; movss (%rax,%rbx,4),%xmm0
+ DB 102,15,58,33,4,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm0
+ DB 243,66,15,16,20,128 ; movss (%rax,%r8,4),%xmm2
DB 102,15,58,33,194,32 ; insertps $0x20,%xmm2,%xmm0
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
DB 102,15,58,33,194,48 ; insertps $0x30,%xmm2,%xmm0
- DB 102,65,15,126,206 ; movd %xmm1,%r14d
+ DB 102,65,15,126,200 ; movd %xmm1,%r8d
DB 102,65,15,58,22,201,1 ; pextrd $0x1,%xmm1,%r9d
DB 102,65,15,58,22,202,2 ; pextrd $0x2,%xmm1,%r10d
DB 102,65,15,58,22,203,3 ; pextrd $0x3,%xmm1,%r11d
DB 102,65,15,254,203 ; paddd %xmm11,%xmm1
DB 102,72,15,58,22,201,1 ; pextrq $0x1,%xmm1,%rcx
- DB 102,72,15,126,202 ; movq %xmm1,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
+ DB 102,72,15,126,203 ; movq %xmm1,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
DB 243,15,16,12,168 ; movss (%rax,%rbp,4),%xmm1
- DB 102,15,58,33,12,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm1
- DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
+ DB 102,15,58,33,12,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm1
+ DB 243,66,15,16,20,176 ; movss (%rax,%r14,4),%xmm2
DB 102,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm1
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
@@ -23916,42 +23890,42 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,111,211 ; movdqa %xmm3,%xmm2
DB 102,65,15,254,208 ; paddd %xmm8,%xmm2
DB 102,72,15,58,22,209,1 ; pextrq $0x1,%xmm2,%rcx
- DB 102,72,15,126,210 ; movq %xmm2,%rdx
- DB 137,211 ; mov %edx,%ebx
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,205 ; mov %ecx,%ebp
- DB 243,68,15,16,20,152 ; movss (%rax,%rbx,4),%xmm10
- DB 102,68,15,58,33,20,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm10
- DB 243,15,16,20,168 ; movss (%rax,%rbp,4),%xmm2
+ DB 102,72,15,126,211 ; movq %xmm2,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
+ DB 243,68,15,16,20,168 ; movss (%rax,%rbp,4),%xmm10
+ DB 102,68,15,58,33,20,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm10
+ DB 243,66,15,16,20,176 ; movss (%rax,%r14,4),%xmm2
DB 102,68,15,58,33,210,32 ; insertps $0x20,%xmm2,%xmm10
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
DB 102,68,15,58,33,210,48 ; insertps $0x30,%xmm2,%xmm10
- DB 102,15,126,217 ; movd %xmm3,%ecx
+ DB 102,65,15,126,221 ; movd %xmm3,%r13d
DB 102,65,15,58,22,223,1 ; pextrd $0x1,%xmm3,%r15d
DB 102,65,15,58,22,220,2 ; pextrd $0x2,%xmm3,%r12d
- DB 102,65,15,58,22,221,3 ; pextrd $0x3,%xmm3,%r13d
+ DB 102,65,15,58,22,222,3 ; pextrd $0x3,%xmm3,%r14d
DB 102,65,15,254,219 ; paddd %xmm11,%xmm3
- DB 102,72,15,58,22,218,1 ; pextrq $0x1,%xmm3,%rdx
- DB 102,72,15,126,219 ; movq %xmm3,%rbx
- DB 137,221 ; mov %ebx,%ebp
+ DB 102,72,15,58,22,219,1 ; pextrq $0x1,%xmm3,%rbx
+ DB 102,72,15,126,221 ; movq %xmm3,%rbp
+ DB 137,233 ; mov %ebp,%ecx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 243,68,15,16,12,136 ; movss (%rax,%rcx,4),%xmm9
+ DB 102,68,15,58,33,12,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm9
+ DB 137,217 ; mov %ebx,%ecx
+ DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
+ DB 102,68,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm9
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 243,68,15,16,12,168 ; movss (%rax,%rbp,4),%xmm9
- DB 102,68,15,58,33,12,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm9
- DB 137,211 ; mov %edx,%ebx
DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
- DB 102,68,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm9
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 243,15,16,20,144 ; movss (%rax,%rdx,4),%xmm2
DB 102,68,15,58,33,202,48 ; insertps $0x30,%xmm2,%xmm9
- DB 243,66,15,16,20,176 ; movss (%rax,%r14,4),%xmm2
+ DB 243,66,15,16,20,128 ; movss (%rax,%r8,4),%xmm2
DB 102,66,15,58,33,20,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm2
DB 102,66,15,58,33,20,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm2
DB 102,66,15,58,33,20,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm2
- DB 243,68,15,16,4,136 ; movss (%rax,%rcx,4),%xmm8
+ DB 243,70,15,16,4,168 ; movss (%rax,%r13,4),%xmm8
DB 102,70,15,58,33,4,184,16 ; insertps $0x10,(%rax,%r15,4),%xmm8
DB 102,70,15,58,33,4,160,32 ; insertps $0x20,(%rax,%r12,4),%xmm8
- DB 102,70,15,58,33,4,168,48 ; insertps $0x30,(%rax,%r13,4),%xmm8
+ DB 102,70,15,58,33,4,176,48 ; insertps $0x30,(%rax,%r14,4),%xmm8
DB 68,15,92,194 ; subps %xmm2,%xmm8
DB 69,15,89,199 ; mulps %xmm15,%xmm8
DB 68,15,88,194 ; addps %xmm2,%xmm8
@@ -23982,41 +23956,41 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
DB 102,68,15,111,108,36,48 ; movdqa 0x30(%rsp),%xmm13
DB 102,65,15,254,205 ; paddd %xmm13,%xmm1
- DB 102,15,111,45,131,55,1,0 ; movdqa 0x13783(%rip),%xmm5 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,45,106,56,1,0 ; movdqa 0x1386a(%rip),%xmm5 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,56,64,205 ; pmulld %xmm5,%xmm1
DB 102,15,126,201 ; movd %xmm1,%ecx
- DB 102,15,58,22,202,1 ; pextrd $0x1,%xmm1,%edx
- DB 102,15,58,22,205,2 ; pextrd $0x2,%xmm1,%ebp
+ DB 102,15,58,22,205,1 ; pextrd $0x1,%xmm1,%ebp
+ DB 102,65,15,58,22,200,2 ; pextrd $0x2,%xmm1,%r8d
DB 102,15,58,22,203,3 ; pextrd $0x3,%xmm1,%ebx
DB 243,15,16,52,136 ; movss (%rax,%rcx,4),%xmm6
- DB 102,15,58,33,52,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm6
- DB 102,15,58,33,52,168,32 ; insertps $0x20,(%rax,%rbp,4),%xmm6
+ DB 102,15,58,33,52,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm6
+ DB 102,66,15,58,33,52,128,32 ; insertps $0x20,(%rax,%r8,4),%xmm6
DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
DB 102,15,58,33,242,48 ; insertps $0x30,%xmm2,%xmm6
DB 102,15,111,209 ; movdqa %xmm1,%xmm2
- DB 102,15,111,29,174,48,1,0 ; movdqa 0x130ae(%rip),%xmm3 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,111,29,147,49,1,0 ; movdqa 0x13193(%rip),%xmm3 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,254,211 ; paddd %xmm3,%xmm2
DB 102,72,15,58,22,209,1 ; pextrq $0x1,%xmm2,%rcx
- DB 102,72,15,126,210 ; movq %xmm2,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,60,168 ; movss (%rax,%rbp,4),%xmm7
- DB 102,15,58,33,60,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm7
- DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
+ DB 102,72,15,126,213 ; movq %xmm2,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,60,152 ; movss (%rax,%rbx,4),%xmm7
+ DB 102,15,58,33,60,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm7
+ DB 243,66,15,16,20,128 ; movss (%rax,%r8,4),%xmm2
DB 102,15,58,33,250,32 ; insertps $0x20,%xmm2,%xmm7
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
DB 102,15,58,33,250,48 ; insertps $0x30,%xmm2,%xmm7
DB 102,65,15,254,203 ; paddd %xmm11,%xmm1
DB 102,72,15,58,22,201,1 ; pextrq $0x1,%xmm1,%rcx
- DB 102,72,15,126,202 ; movq %xmm1,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,12,168 ; movss (%rax,%rbp,4),%xmm1
- DB 102,15,58,33,12,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm1
- DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
+ DB 102,72,15,126,205 ; movq %xmm1,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
+ DB 102,15,58,33,12,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm1
+ DB 243,66,15,16,20,128 ; movss (%rax,%r8,4),%xmm2
DB 102,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm1
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
@@ -24027,38 +24001,38 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,111,208 ; movdqa %xmm0,%xmm2
DB 102,15,254,211 ; paddd %xmm3,%xmm2
DB 102,72,15,58,22,209,1 ; pextrq $0x1,%xmm2,%rcx
- DB 102,72,15,126,210 ; movq %xmm2,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,28,168 ; movss (%rax,%rbp,4),%xmm3
- DB 102,15,58,33,28,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm3
- DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
+ DB 102,72,15,126,213 ; movq %xmm2,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,28,152 ; movss (%rax,%rbx,4),%xmm3
+ DB 102,15,58,33,28,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm3
+ DB 243,66,15,16,20,128 ; movss (%rax,%r8,4),%xmm2
DB 102,15,58,33,218,32 ; insertps $0x20,%xmm2,%xmm3
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
DB 102,15,58,33,218,48 ; insertps $0x30,%xmm2,%xmm3
DB 102,65,15,126,193 ; movd %xmm0,%r9d
- DB 102,65,15,58,22,194,1 ; pextrd $0x1,%xmm0,%r10d
- DB 102,65,15,58,22,198,2 ; pextrd $0x2,%xmm0,%r14d
- DB 102,65,15,58,22,195,3 ; pextrd $0x3,%xmm0,%r11d
- DB 102,15,254,5,220,47,1,0 ; paddd 0x12fdc(%rip),%xmm0 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,65,15,58,22,195,1 ; pextrd $0x1,%xmm0,%r11d
+ DB 102,65,15,58,22,194,2 ; pextrd $0x2,%xmm0,%r10d
+ DB 102,65,15,58,22,192,3 ; pextrd $0x3,%xmm0,%r8d
+ DB 102,15,254,5,187,48,1,0 ; paddd 0x130bb(%rip),%xmm0 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,211 ; mov %edx,%ebx
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,205 ; mov %ecx,%ebp
- DB 243,15,16,44,152 ; movss (%rax,%rbx,4),%xmm5
- DB 102,15,58,33,44,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm5
- DB 243,15,16,4,168 ; movss (%rax,%rbp,4),%xmm0
+ DB 102,72,15,126,195 ; movq %xmm0,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
+ DB 243,15,16,44,168 ; movss (%rax,%rbp,4),%xmm5
+ DB 102,15,58,33,44,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm5
+ DB 243,66,15,16,4,176 ; movss (%rax,%r14,4),%xmm0
DB 102,15,58,33,232,32 ; insertps $0x20,%xmm0,%xmm5
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
DB 102,15,58,33,232,48 ; insertps $0x30,%xmm0,%xmm5
DB 243,66,15,16,20,136 ; movss (%rax,%r9,4),%xmm2
- DB 102,66,15,58,33,20,144,16 ; insertps $0x10,(%rax,%r10,4),%xmm2
- DB 102,66,15,58,33,20,176,32 ; insertps $0x20,(%rax,%r14,4),%xmm2
- DB 102,66,15,58,33,20,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm2
+ DB 102,66,15,58,33,20,152,16 ; insertps $0x10,(%rax,%r11,4),%xmm2
+ DB 102,66,15,58,33,20,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm2
+ DB 102,66,15,58,33,20,128,48 ; insertps $0x30,(%rax,%r8,4),%xmm2
DB 15,92,214 ; subps %xmm6,%xmm2
DB 65,15,89,215 ; mulps %xmm15,%xmm2
DB 15,88,214 ; addps %xmm6,%xmm2
@@ -24071,37 +24045,37 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,254,100,36,16 ; paddd 0x10(%rsp),%xmm4
DB 102,15,111,196 ; movdqa %xmm4,%xmm0
DB 102,65,15,254,197 ; paddd %xmm13,%xmm0
- DB 102,68,15,111,45,190,53,1,0 ; movdqa 0x135be(%rip),%xmm13 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,68,15,111,45,155,54,1,0 ; movdqa 0x1369b(%rip),%xmm13 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,65,15,56,64,197 ; pmulld %xmm13,%xmm0
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
- DB 102,15,111,53,28,47,1,0 ; movdqa 0x12f1c(%rip),%xmm6 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,111,53,249,47,1,0 ; movdqa 0x12ff9(%rip),%xmm6 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,254,206 ; paddd %xmm6,%xmm1
DB 102,72,15,58,22,201,1 ; pextrq $0x1,%xmm1,%rcx
- DB 102,72,15,126,202 ; movq %xmm1,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,12,168 ; movss (%rax,%rbp,4),%xmm1
- DB 102,15,58,33,12,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm1
- DB 243,15,16,52,152 ; movss (%rax,%rbx,4),%xmm6
+ DB 102,72,15,126,205 ; movq %xmm1,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
+ DB 102,15,58,33,12,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm1
+ DB 243,66,15,16,52,128 ; movss (%rax,%r8,4),%xmm6
DB 102,15,58,33,206,32 ; insertps $0x20,%xmm6,%xmm1
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,52,136 ; movss (%rax,%rcx,4),%xmm6
DB 102,15,58,33,206,48 ; insertps $0x30,%xmm6,%xmm1
- DB 102,65,15,126,198 ; movd %xmm0,%r14d
+ DB 102,65,15,126,192 ; movd %xmm0,%r8d
DB 102,65,15,58,22,193,1 ; pextrd $0x1,%xmm0,%r9d
DB 102,65,15,58,22,194,2 ; pextrd $0x2,%xmm0,%r10d
DB 102,65,15,58,22,195,3 ; pextrd $0x3,%xmm0,%r11d
- DB 102,15,111,61,220,46,1,0 ; movdqa 0x12edc(%rip),%xmm7 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,111,61,183,47,1,0 ; movdqa 0x12fb7(%rip),%xmm7 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,254,199 ; paddd %xmm7,%xmm0
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
+ DB 102,72,15,126,195 ; movq %xmm0,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
DB 243,15,16,4,168 ; movss (%rax,%rbp,4),%xmm0
- DB 102,15,58,33,4,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm0
- DB 243,15,16,52,152 ; movss (%rax,%rbx,4),%xmm6
+ DB 102,15,58,33,4,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm0
+ DB 243,66,15,16,52,176 ; movss (%rax,%r14,4),%xmm6
DB 102,15,58,33,198,32 ; insertps $0x20,%xmm6,%xmm0
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,52,136 ; movss (%rax,%rcx,4),%xmm6
@@ -24109,45 +24083,45 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,65,15,254,227 ; paddd %xmm11,%xmm4
DB 102,65,15,56,64,229 ; pmulld %xmm13,%xmm4
DB 102,15,111,244 ; movdqa %xmm4,%xmm6
- DB 102,68,15,111,45,102,46,1,0 ; movdqa 0x12e66(%rip),%xmm13 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,68,15,111,45,63,47,1,0 ; movdqa 0x12f3f(%rip),%xmm13 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,65,15,254,245 ; paddd %xmm13,%xmm6
DB 102,72,15,58,22,241,1 ; pextrq $0x1,%xmm6,%rcx
- DB 102,72,15,126,242 ; movq %xmm6,%rdx
- DB 137,211 ; mov %edx,%ebx
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,205 ; mov %ecx,%ebp
- DB 243,68,15,16,28,152 ; movss (%rax,%rbx,4),%xmm11
- DB 102,68,15,58,33,28,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm11
- DB 243,15,16,52,168 ; movss (%rax,%rbp,4),%xmm6
+ DB 102,72,15,126,243 ; movq %xmm6,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
+ DB 243,68,15,16,28,168 ; movss (%rax,%rbp,4),%xmm11
+ DB 102,68,15,58,33,28,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm11
+ DB 243,66,15,16,52,176 ; movss (%rax,%r14,4),%xmm6
DB 102,68,15,58,33,222,32 ; insertps $0x20,%xmm6,%xmm11
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,52,136 ; movss (%rax,%rcx,4),%xmm6
DB 102,68,15,58,33,222,48 ; insertps $0x30,%xmm6,%xmm11
- DB 102,15,126,225 ; movd %xmm4,%ecx
+ DB 102,65,15,126,229 ; movd %xmm4,%r13d
DB 102,65,15,58,22,231,1 ; pextrd $0x1,%xmm4,%r15d
DB 102,65,15,58,22,228,2 ; pextrd $0x2,%xmm4,%r12d
- DB 102,65,15,58,22,229,3 ; pextrd $0x3,%xmm4,%r13d
+ DB 102,65,15,58,22,230,3 ; pextrd $0x3,%xmm4,%r14d
DB 102,15,254,231 ; paddd %xmm7,%xmm4
- DB 102,72,15,58,22,226,1 ; pextrq $0x1,%xmm4,%rdx
- DB 102,72,15,126,227 ; movq %xmm4,%rbx
- DB 137,221 ; mov %ebx,%ebp
+ DB 102,72,15,58,22,227,1 ; pextrq $0x1,%xmm4,%rbx
+ DB 102,72,15,126,229 ; movq %xmm4,%rbp
+ DB 137,233 ; mov %ebp,%ecx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 243,15,16,60,136 ; movss (%rax,%rcx,4),%xmm7
+ DB 102,15,58,33,60,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm7
+ DB 137,217 ; mov %ebx,%ecx
+ DB 243,15,16,36,136 ; movss (%rax,%rcx,4),%xmm4
+ DB 102,15,58,33,252,32 ; insertps $0x20,%xmm4,%xmm7
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 243,15,16,60,168 ; movss (%rax,%rbp,4),%xmm7
- DB 102,15,58,33,60,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm7
- DB 137,211 ; mov %edx,%ebx
DB 243,15,16,36,152 ; movss (%rax,%rbx,4),%xmm4
- DB 102,15,58,33,252,32 ; insertps $0x20,%xmm4,%xmm7
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 243,15,16,36,144 ; movss (%rax,%rdx,4),%xmm4
DB 102,15,58,33,252,48 ; insertps $0x30,%xmm4,%xmm7
- DB 243,66,15,16,36,176 ; movss (%rax,%r14,4),%xmm4
+ DB 243,66,15,16,36,128 ; movss (%rax,%r8,4),%xmm4
DB 102,66,15,58,33,36,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm4
DB 102,66,15,58,33,36,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm4
DB 102,66,15,58,33,36,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm4
- DB 243,15,16,52,136 ; movss (%rax,%rcx,4),%xmm6
+ DB 243,66,15,16,52,168 ; movss (%rax,%r13,4),%xmm6
DB 102,66,15,58,33,52,184,16 ; insertps $0x10,(%rax,%r15,4),%xmm6
DB 102,66,15,58,33,52,160,32 ; insertps $0x20,(%rax,%r12,4),%xmm6
- DB 102,66,15,58,33,52,168,48 ; insertps $0x30,(%rax,%r13,4),%xmm6
+ DB 102,66,15,58,33,52,176,48 ; insertps $0x30,(%rax,%r14,4),%xmm6
DB 15,92,244 ; subps %xmm4,%xmm6
DB 65,15,89,247 ; mulps %xmm15,%xmm6
DB 15,88,244 ; addps %xmm4,%xmm6
@@ -24188,37 +24162,37 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,68,15,111,76,36,48 ; movdqa 0x30(%rsp),%xmm9
DB 102,65,15,111,193 ; movdqa %xmm9,%xmm0
DB 102,15,254,194 ; paddd %xmm2,%xmm0
- DB 102,15,111,29,116,51,1,0 ; movdqa 0x13374(%rip),%xmm3 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,29,73,52,1,0 ; movdqa 0x13449(%rip),%xmm3 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,56,64,195 ; pmulld %xmm3,%xmm0
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
DB 102,69,15,111,213 ; movdqa %xmm13,%xmm10
DB 102,65,15,254,202 ; paddd %xmm10,%xmm1
DB 102,72,15,58,22,201,1 ; pextrq $0x1,%xmm1,%rcx
- DB 102,72,15,126,202 ; movq %xmm1,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,36,168 ; movss (%rax,%rbp,4),%xmm4
- DB 102,15,58,33,36,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm4
- DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
+ DB 102,72,15,126,205 ; movq %xmm1,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,36,152 ; movss (%rax,%rbx,4),%xmm4
+ DB 102,15,58,33,36,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm4
+ DB 243,66,15,16,12,128 ; movss (%rax,%r8,4),%xmm1
DB 102,15,58,33,225,32 ; insertps $0x20,%xmm1,%xmm4
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,12,136 ; movss (%rax,%rcx,4),%xmm1
DB 102,15,58,33,225,48 ; insertps $0x30,%xmm1,%xmm4
- DB 102,65,15,126,198 ; movd %xmm0,%r14d
+ DB 102,65,15,126,192 ; movd %xmm0,%r8d
DB 102,65,15,58,22,193,1 ; pextrd $0x1,%xmm0,%r9d
DB 102,65,15,58,22,194,2 ; pextrd $0x2,%xmm0,%r10d
DB 102,65,15,58,22,195,3 ; pextrd $0x3,%xmm0,%r11d
- DB 102,15,111,45,149,44,1,0 ; movdqa 0x12c95(%rip),%xmm5 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,111,45,104,45,1,0 ; movdqa 0x12d68(%rip),%xmm5 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,254,197 ; paddd %xmm5,%xmm0
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
+ DB 102,72,15,126,195 ; movq %xmm0,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
DB 243,15,16,4,168 ; movss (%rax,%rbp,4),%xmm0
- DB 102,15,58,33,4,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm0
- DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
+ DB 102,15,58,33,4,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm0
+ DB 243,66,15,16,12,176 ; movss (%rax,%r14,4),%xmm1
DB 102,15,58,33,193,32 ; insertps $0x20,%xmm1,%xmm0
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,12,136 ; movss (%rax,%rcx,4),%xmm1
@@ -24230,42 +24204,42 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,111,202 ; movdqa %xmm2,%xmm1
DB 102,65,15,254,202 ; paddd %xmm10,%xmm1
DB 102,72,15,58,22,201,1 ; pextrq $0x1,%xmm1,%rcx
- DB 102,72,15,126,202 ; movq %xmm1,%rdx
- DB 137,211 ; mov %edx,%ebx
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,205 ; mov %ecx,%ebp
- DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
- DB 102,15,58,33,12,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm1
- DB 243,15,16,28,168 ; movss (%rax,%rbp,4),%xmm3
+ DB 102,72,15,126,203 ; movq %xmm1,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
+ DB 243,15,16,12,168 ; movss (%rax,%rbp,4),%xmm1
+ DB 102,15,58,33,12,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm1
+ DB 243,66,15,16,28,176 ; movss (%rax,%r14,4),%xmm3
DB 102,15,58,33,203,32 ; insertps $0x20,%xmm3,%xmm1
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,28,136 ; movss (%rax,%rcx,4),%xmm3
DB 102,15,58,33,203,48 ; insertps $0x30,%xmm3,%xmm1
- DB 102,15,126,209 ; movd %xmm2,%ecx
+ DB 102,65,15,126,213 ; movd %xmm2,%r13d
DB 102,65,15,58,22,215,1 ; pextrd $0x1,%xmm2,%r15d
DB 102,65,15,58,22,212,2 ; pextrd $0x2,%xmm2,%r12d
- DB 102,65,15,58,22,213,3 ; pextrd $0x3,%xmm2,%r13d
+ DB 102,65,15,58,22,214,3 ; pextrd $0x3,%xmm2,%r14d
DB 102,15,254,213 ; paddd %xmm5,%xmm2
- DB 102,72,15,58,22,210,1 ; pextrq $0x1,%xmm2,%rdx
- DB 102,72,15,126,211 ; movq %xmm2,%rbx
- DB 137,221 ; mov %ebx,%ebp
+ DB 102,72,15,58,22,211,1 ; pextrq $0x1,%xmm2,%rbx
+ DB 102,72,15,126,213 ; movq %xmm2,%rbp
+ DB 137,233 ; mov %ebp,%ecx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
+ DB 102,15,58,33,20,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm2
+ DB 137,217 ; mov %ebx,%ecx
+ DB 243,15,16,28,136 ; movss (%rax,%rcx,4),%xmm3
+ DB 102,15,58,33,211,32 ; insertps $0x20,%xmm3,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 243,15,16,20,168 ; movss (%rax,%rbp,4),%xmm2
- DB 102,15,58,33,20,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm2
- DB 137,211 ; mov %edx,%ebx
DB 243,15,16,28,152 ; movss (%rax,%rbx,4),%xmm3
- DB 102,15,58,33,211,32 ; insertps $0x20,%xmm3,%xmm2
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 243,15,16,28,144 ; movss (%rax,%rdx,4),%xmm3
DB 102,15,58,33,211,48 ; insertps $0x30,%xmm3,%xmm2
- DB 243,66,15,16,44,176 ; movss (%rax,%r14,4),%xmm5
+ DB 243,66,15,16,44,128 ; movss (%rax,%r8,4),%xmm5
DB 102,66,15,58,33,44,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm5
DB 102,66,15,58,33,44,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm5
DB 102,66,15,58,33,44,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm5
- DB 243,15,16,28,136 ; movss (%rax,%rcx,4),%xmm3
+ DB 243,66,15,16,28,168 ; movss (%rax,%r13,4),%xmm3
DB 102,66,15,58,33,28,184,16 ; insertps $0x10,(%rax,%r15,4),%xmm3
DB 102,66,15,58,33,28,160,32 ; insertps $0x20,(%rax,%r12,4),%xmm3
- DB 102,66,15,58,33,28,168,48 ; insertps $0x30,(%rax,%r13,4),%xmm3
+ DB 102,66,15,58,33,28,176,48 ; insertps $0x30,(%rax,%r14,4),%xmm3
DB 15,92,221 ; subps %xmm5,%xmm3
DB 65,15,89,223 ; mulps %xmm15,%xmm3
DB 15,88,221 ; addps %xmm5,%xmm3
@@ -24282,31 +24256,31 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,111,196 ; movdqa %xmm4,%xmm0
DB 102,65,15,254,194 ; paddd %xmm10,%xmm0
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,4,168 ; movss (%rax,%rbp,4),%xmm0
- DB 102,15,58,33,4,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm0
- DB 243,15,16,44,152 ; movss (%rax,%rbx,4),%xmm5
+ DB 102,72,15,126,197 ; movq %xmm0,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,4,152 ; movss (%rax,%rbx,4),%xmm0
+ DB 102,15,58,33,4,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm0
+ DB 243,66,15,16,44,128 ; movss (%rax,%r8,4),%xmm5
DB 102,15,58,33,197,32 ; insertps $0x20,%xmm5,%xmm0
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,44,136 ; movss (%rax,%rcx,4),%xmm5
DB 102,15,58,33,197,48 ; insertps $0x30,%xmm5,%xmm0
- DB 102,65,15,126,230 ; movd %xmm4,%r14d
+ DB 102,65,15,126,224 ; movd %xmm4,%r8d
DB 102,65,15,58,22,225,1 ; pextrd $0x1,%xmm4,%r9d
DB 102,65,15,58,22,226,2 ; pextrd $0x2,%xmm4,%r10d
DB 102,65,15,58,22,227,3 ; pextrd $0x3,%xmm4,%r11d
- DB 102,68,15,111,13,209,42,1,0 ; movdqa 0x12ad1(%rip),%xmm9 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,68,15,111,13,156,43,1,0 ; movdqa 0x12b9c(%rip),%xmm9 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,65,15,254,225 ; paddd %xmm9,%xmm4
DB 102,72,15,58,22,225,1 ; pextrq $0x1,%xmm4,%rcx
- DB 102,72,15,126,226 ; movq %xmm4,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
+ DB 102,72,15,126,227 ; movq %xmm4,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
DB 243,15,16,44,168 ; movss (%rax,%rbp,4),%xmm5
- DB 102,15,58,33,44,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm5
- DB 243,15,16,36,152 ; movss (%rax,%rbx,4),%xmm4
+ DB 102,15,58,33,44,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm5
+ DB 243,66,15,16,36,176 ; movss (%rax,%r14,4),%xmm4
DB 102,15,58,33,236,32 ; insertps $0x20,%xmm4,%xmm5
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,36,136 ; movss (%rax,%rcx,4),%xmm4
@@ -24316,42 +24290,42 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,65,15,111,228 ; movdqa %xmm12,%xmm4
DB 102,65,15,254,226 ; paddd %xmm10,%xmm4
DB 102,72,15,58,22,225,1 ; pextrq $0x1,%xmm4,%rcx
- DB 102,72,15,126,226 ; movq %xmm4,%rdx
- DB 137,211 ; mov %edx,%ebx
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,205 ; mov %ecx,%ebp
- DB 243,68,15,16,20,152 ; movss (%rax,%rbx,4),%xmm10
- DB 102,68,15,58,33,20,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm10
- DB 243,15,16,36,168 ; movss (%rax,%rbp,4),%xmm4
+ DB 102,72,15,126,227 ; movq %xmm4,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
+ DB 243,68,15,16,20,168 ; movss (%rax,%rbp,4),%xmm10
+ DB 102,68,15,58,33,20,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm10
+ DB 243,66,15,16,36,176 ; movss (%rax,%r14,4),%xmm4
DB 102,68,15,58,33,212,32 ; insertps $0x20,%xmm4,%xmm10
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,36,136 ; movss (%rax,%rcx,4),%xmm4
DB 102,68,15,58,33,212,48 ; insertps $0x30,%xmm4,%xmm10
- DB 102,68,15,126,225 ; movd %xmm12,%ecx
+ DB 102,69,15,126,229 ; movd %xmm12,%r13d
DB 102,69,15,58,22,231,1 ; pextrd $0x1,%xmm12,%r15d
DB 102,69,15,58,22,228,2 ; pextrd $0x2,%xmm12,%r12d
- DB 102,69,15,58,22,229,3 ; pextrd $0x3,%xmm12,%r13d
+ DB 102,69,15,58,22,230,3 ; pextrd $0x3,%xmm12,%r14d
DB 102,69,15,254,225 ; paddd %xmm9,%xmm12
- DB 102,76,15,58,22,226,1 ; pextrq $0x1,%xmm12,%rdx
- DB 102,76,15,126,227 ; movq %xmm12,%rbx
- DB 137,221 ; mov %ebx,%ebp
+ DB 102,76,15,58,22,227,1 ; pextrq $0x1,%xmm12,%rbx
+ DB 102,76,15,126,229 ; movq %xmm12,%rbp
+ DB 137,233 ; mov %ebp,%ecx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 243,68,15,16,4,136 ; movss (%rax,%rcx,4),%xmm8
+ DB 102,68,15,58,33,4,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm8
+ DB 137,217 ; mov %ebx,%ecx
+ DB 243,15,16,36,136 ; movss (%rax,%rcx,4),%xmm4
+ DB 102,68,15,58,33,196,32 ; insertps $0x20,%xmm4,%xmm8
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 243,68,15,16,4,168 ; movss (%rax,%rbp,4),%xmm8
- DB 102,68,15,58,33,4,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm8
- DB 137,211 ; mov %edx,%ebx
DB 243,15,16,36,152 ; movss (%rax,%rbx,4),%xmm4
- DB 102,68,15,58,33,196,32 ; insertps $0x20,%xmm4,%xmm8
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 243,15,16,36,144 ; movss (%rax,%rdx,4),%xmm4
DB 102,68,15,58,33,196,48 ; insertps $0x30,%xmm4,%xmm8
- DB 243,70,15,16,36,176 ; movss (%rax,%r14,4),%xmm12
+ DB 243,70,15,16,36,128 ; movss (%rax,%r8,4),%xmm12
DB 102,70,15,58,33,36,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm12
DB 102,70,15,58,33,36,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm12
DB 102,70,15,58,33,36,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm12
- DB 243,15,16,36,136 ; movss (%rax,%rcx,4),%xmm4
+ DB 243,66,15,16,36,168 ; movss (%rax,%r13,4),%xmm4
DB 102,66,15,58,33,36,184,16 ; insertps $0x10,(%rax,%r15,4),%xmm4
DB 102,66,15,58,33,36,160,32 ; insertps $0x20,(%rax,%r12,4),%xmm4
- DB 102,66,15,58,33,36,168,48 ; insertps $0x30,(%rax,%r13,4),%xmm4
+ DB 102,66,15,58,33,36,176,48 ; insertps $0x30,(%rax,%r14,4),%xmm4
DB 65,15,92,228 ; subps %xmm12,%xmm4
DB 65,15,89,231 ; mulps %xmm15,%xmm4
DB 65,15,88,228 ; addps %xmm12,%xmm4
@@ -24379,34 +24353,34 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,254,76,36,48 ; paddd 0x30(%rsp),%xmm1
DB 102,65,15,56,64,205 ; pmulld %xmm13,%xmm1
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
- DB 102,68,15,111,37,11,41,1,0 ; movdqa 0x1290b(%rip),%xmm12 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,68,15,111,37,209,41,1,0 ; movdqa 0x129d1(%rip),%xmm12 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,65,15,254,196 ; paddd %xmm12,%xmm0
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,4,168 ; movss (%rax,%rbp,4),%xmm0
- DB 102,15,58,33,4,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm0
- DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
+ DB 102,72,15,126,197 ; movq %xmm0,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,4,152 ; movss (%rax,%rbx,4),%xmm0
+ DB 102,15,58,33,4,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm0
+ DB 243,66,15,16,20,128 ; movss (%rax,%r8,4),%xmm2
DB 102,15,58,33,194,32 ; insertps $0x20,%xmm2,%xmm0
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
DB 102,15,58,33,194,48 ; insertps $0x30,%xmm2,%xmm0
- DB 102,65,15,126,206 ; movd %xmm1,%r14d
+ DB 102,65,15,126,200 ; movd %xmm1,%r8d
DB 102,65,15,58,22,201,1 ; pextrd $0x1,%xmm1,%r9d
DB 102,65,15,58,22,202,2 ; pextrd $0x2,%xmm1,%r10d
DB 102,65,15,58,22,203,3 ; pextrd $0x3,%xmm1,%r11d
- DB 102,15,111,29,202,40,1,0 ; movdqa 0x128ca(%rip),%xmm3 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,111,29,142,41,1,0 ; movdqa 0x1298e(%rip),%xmm3 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,254,203 ; paddd %xmm3,%xmm1
DB 102,72,15,58,22,201,1 ; pextrq $0x1,%xmm1,%rcx
- DB 102,72,15,126,202 ; movq %xmm1,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
+ DB 102,72,15,126,203 ; movq %xmm1,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
DB 243,15,16,12,168 ; movss (%rax,%rbp,4),%xmm1
- DB 102,15,58,33,12,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm1
- DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
+ DB 102,15,58,33,12,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm1
+ DB 243,66,15,16,20,176 ; movss (%rax,%r14,4),%xmm2
DB 102,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm1
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
@@ -24416,44 +24390,44 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,15,111,213 ; movdqa %xmm5,%xmm2
DB 102,65,15,254,212 ; paddd %xmm12,%xmm2
DB 102,72,15,58,22,209,1 ; pextrq $0x1,%xmm2,%rcx
- DB 102,72,15,126,210 ; movq %xmm2,%rdx
- DB 137,211 ; mov %edx,%ebx
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,205 ; mov %ecx,%ebp
- DB 243,68,15,16,12,152 ; movss (%rax,%rbx,4),%xmm9
- DB 102,68,15,58,33,12,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm9
- DB 243,15,16,20,168 ; movss (%rax,%rbp,4),%xmm2
+ DB 102,72,15,126,211 ; movq %xmm2,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
+ DB 243,68,15,16,12,168 ; movss (%rax,%rbp,4),%xmm9
+ DB 102,68,15,58,33,12,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm9
+ DB 243,66,15,16,20,176 ; movss (%rax,%r14,4),%xmm2
DB 102,68,15,58,33,202,32 ; insertps $0x20,%xmm2,%xmm9
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
DB 102,68,15,58,33,202,48 ; insertps $0x30,%xmm2,%xmm9
DB 102,15,111,213 ; movdqa %xmm5,%xmm2
- DB 102,15,126,209 ; movd %xmm2,%ecx
+ DB 102,65,15,126,213 ; movd %xmm2,%r13d
DB 102,65,15,58,22,215,1 ; pextrd $0x1,%xmm2,%r15d
DB 102,65,15,58,22,212,2 ; pextrd $0x2,%xmm2,%r12d
- DB 102,65,15,58,22,213,3 ; pextrd $0x3,%xmm2,%r13d
+ DB 102,65,15,58,22,214,3 ; pextrd $0x3,%xmm2,%r14d
DB 102,15,254,211 ; paddd %xmm3,%xmm2
DB 102,15,111,235 ; movdqa %xmm3,%xmm5
- DB 102,72,15,58,22,210,1 ; pextrq $0x1,%xmm2,%rdx
- DB 102,72,15,126,211 ; movq %xmm2,%rbx
- DB 137,221 ; mov %ebx,%ebp
+ DB 102,72,15,58,22,211,1 ; pextrq $0x1,%xmm2,%rbx
+ DB 102,72,15,126,213 ; movq %xmm2,%rbp
+ DB 137,233 ; mov %ebp,%ecx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 243,68,15,16,36,136 ; movss (%rax,%rcx,4),%xmm12
+ DB 102,68,15,58,33,36,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm12
+ DB 137,217 ; mov %ebx,%ecx
+ DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
+ DB 102,68,15,58,33,226,32 ; insertps $0x20,%xmm2,%xmm12
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 243,68,15,16,36,168 ; movss (%rax,%rbp,4),%xmm12
- DB 102,68,15,58,33,36,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm12
- DB 137,211 ; mov %edx,%ebx
DB 243,15,16,20,152 ; movss (%rax,%rbx,4),%xmm2
- DB 102,68,15,58,33,226,32 ; insertps $0x20,%xmm2,%xmm12
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 243,15,16,20,144 ; movss (%rax,%rdx,4),%xmm2
DB 102,68,15,58,33,226,48 ; insertps $0x30,%xmm2,%xmm12
- DB 243,66,15,16,20,176 ; movss (%rax,%r14,4),%xmm2
+ DB 243,66,15,16,20,128 ; movss (%rax,%r8,4),%xmm2
DB 102,66,15,58,33,20,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm2
DB 102,66,15,58,33,20,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm2
DB 102,66,15,58,33,20,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm2
- DB 243,68,15,16,44,136 ; movss (%rax,%rcx,4),%xmm13
+ DB 243,70,15,16,44,168 ; movss (%rax,%r13,4),%xmm13
DB 102,70,15,58,33,44,184,16 ; insertps $0x10,(%rax,%r15,4),%xmm13
DB 102,70,15,58,33,44,160,32 ; insertps $0x20,(%rax,%r12,4),%xmm13
- DB 102,70,15,58,33,44,168,48 ; insertps $0x30,(%rax,%r13,4),%xmm13
+ DB 102,70,15,58,33,44,176,48 ; insertps $0x30,(%rax,%r14,4),%xmm13
DB 68,15,92,234 ; subps %xmm2,%xmm13
DB 69,15,89,239 ; mulps %xmm15,%xmm13
DB 68,15,88,234 ; addps %xmm2,%xmm13
@@ -24466,81 +24440,81 @@ _sk_clut_4D_sse41 LABEL PROC
DB 102,68,15,254,116,36,16 ; paddd 0x10(%rsp),%xmm14
DB 102,15,111,68,36,48 ; movdqa 0x30(%rsp),%xmm0
DB 102,65,15,254,198 ; paddd %xmm14,%xmm0
- DB 102,15,56,64,5,203,45,1,0 ; pmulld 0x12dcb(%rip),%xmm0 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,56,64,5,138,46,1,0 ; pmulld 0x12e8a(%rip),%xmm0 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
- DB 102,15,254,5,47,39,1,0 ; paddd 0x1272f(%rip),%xmm0 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,254,5,238,39,1,0 ; paddd 0x127ee(%rip),%xmm0 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
- DB 243,15,16,28,168 ; movss (%rax,%rbp,4),%xmm3
- DB 102,15,58,33,28,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm3
- DB 243,15,16,4,152 ; movss (%rax,%rbx,4),%xmm0
+ DB 102,72,15,126,197 ; movq %xmm0,%rbp
+ DB 137,235 ; mov %ebp,%ebx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 65,137,200 ; mov %ecx,%r8d
+ DB 243,15,16,28,152 ; movss (%rax,%rbx,4),%xmm3
+ DB 102,15,58,33,28,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm3
+ DB 243,66,15,16,4,128 ; movss (%rax,%r8,4),%xmm0
DB 102,15,58,33,216,32 ; insertps $0x20,%xmm0,%xmm3
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
DB 102,15,58,33,216,48 ; insertps $0x30,%xmm0,%xmm3
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
- DB 102,65,15,126,198 ; movd %xmm0,%r14d
+ DB 102,65,15,126,192 ; movd %xmm0,%r8d
DB 102,65,15,58,22,193,1 ; pextrd $0x1,%xmm0,%r9d
DB 102,65,15,58,22,194,2 ; pextrd $0x2,%xmm0,%r10d
DB 102,65,15,58,22,195,3 ; pextrd $0x3,%xmm0,%r11d
DB 102,15,111,213 ; movdqa %xmm5,%xmm2
DB 102,15,254,194 ; paddd %xmm2,%xmm0
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,213 ; mov %edx,%ebp
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,203 ; mov %ecx,%ebx
+ DB 102,72,15,126,195 ; movq %xmm0,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
DB 243,15,16,44,168 ; movss (%rax,%rbp,4),%xmm5
- DB 102,15,58,33,44,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm5
- DB 243,15,16,4,152 ; movss (%rax,%rbx,4),%xmm0
+ DB 102,15,58,33,44,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm5
+ DB 243,66,15,16,4,176 ; movss (%rax,%r14,4),%xmm0
DB 102,15,58,33,232,32 ; insertps $0x20,%xmm0,%xmm5
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
DB 102,15,58,33,232,48 ; insertps $0x30,%xmm0,%xmm5
DB 102,68,15,254,116,36,32 ; paddd 0x20(%rsp),%xmm14
- DB 102,68,15,56,64,53,20,45,1,0 ; pmulld 0x12d14(%rip),%xmm14 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
- DB 102,15,111,5,124,38,1,0 ; movdqa 0x1267c(%rip),%xmm0 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,68,15,56,64,53,207,45,1,0 ; pmulld 0x12dcf(%rip),%xmm14 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
+ DB 102,15,111,5,55,39,1,0 ; movdqa 0x12737(%rip),%xmm0 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,65,15,254,198 ; paddd %xmm14,%xmm0
DB 102,72,15,58,22,193,1 ; pextrq $0x1,%xmm0,%rcx
- DB 102,72,15,126,194 ; movq %xmm0,%rdx
- DB 137,211 ; mov %edx,%ebx
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 137,205 ; mov %ecx,%ebp
- DB 243,15,16,12,152 ; movss (%rax,%rbx,4),%xmm1
- DB 102,15,58,33,12,144,16 ; insertps $0x10,(%rax,%rdx,4),%xmm1
- DB 243,15,16,4,168 ; movss (%rax,%rbp,4),%xmm0
+ DB 102,72,15,126,195 ; movq %xmm0,%rbx
+ DB 137,221 ; mov %ebx,%ebp
+ DB 72,193,235,32 ; shr $0x20,%rbx
+ DB 65,137,206 ; mov %ecx,%r14d
+ DB 243,15,16,12,168 ; movss (%rax,%rbp,4),%xmm1
+ DB 102,15,58,33,12,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm1
+ DB 243,66,15,16,4,176 ; movss (%rax,%r14,4),%xmm0
DB 102,15,58,33,200,32 ; insertps $0x20,%xmm0,%xmm1
DB 72,193,233,32 ; shr $0x20,%rcx
DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
DB 102,15,58,33,200,48 ; insertps $0x30,%xmm0,%xmm1
- DB 102,68,15,126,241 ; movd %xmm14,%ecx
+ DB 102,69,15,126,245 ; movd %xmm14,%r13d
DB 102,69,15,58,22,247,1 ; pextrd $0x1,%xmm14,%r15d
DB 102,69,15,58,22,244,2 ; pextrd $0x2,%xmm14,%r12d
- DB 102,69,15,58,22,245,3 ; pextrd $0x3,%xmm14,%r13d
+ DB 102,69,15,58,22,246,3 ; pextrd $0x3,%xmm14,%r14d
DB 102,68,15,254,242 ; paddd %xmm2,%xmm14
- DB 102,76,15,58,22,242,1 ; pextrq $0x1,%xmm14,%rdx
- DB 102,76,15,126,243 ; movq %xmm14,%rbx
- DB 137,221 ; mov %ebx,%ebp
+ DB 102,76,15,58,22,243,1 ; pextrq $0x1,%xmm14,%rbx
+ DB 102,76,15,126,245 ; movq %xmm14,%rbp
+ DB 137,233 ; mov %ebp,%ecx
+ DB 72,193,237,32 ; shr $0x20,%rbp
+ DB 243,15,16,20,136 ; movss (%rax,%rcx,4),%xmm2
+ DB 102,15,58,33,20,168,16 ; insertps $0x10,(%rax,%rbp,4),%xmm2
+ DB 137,217 ; mov %ebx,%ecx
+ DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
+ DB 102,15,58,33,208,32 ; insertps $0x20,%xmm0,%xmm2
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 243,15,16,20,168 ; movss (%rax,%rbp,4),%xmm2
- DB 102,15,58,33,20,152,16 ; insertps $0x10,(%rax,%rbx,4),%xmm2
- DB 137,211 ; mov %edx,%ebx
DB 243,15,16,4,152 ; movss (%rax,%rbx,4),%xmm0
- DB 102,15,58,33,208,32 ; insertps $0x20,%xmm0,%xmm2
- DB 72,193,234,32 ; shr $0x20,%rdx
- DB 243,15,16,4,144 ; movss (%rax,%rdx,4),%xmm0
DB 102,15,58,33,208,48 ; insertps $0x30,%xmm0,%xmm2
- DB 243,70,15,16,52,176 ; movss (%rax,%r14,4),%xmm14
+ DB 243,70,15,16,52,128 ; movss (%rax,%r8,4),%xmm14
DB 102,70,15,58,33,52,136,16 ; insertps $0x10,(%rax,%r9,4),%xmm14
DB 102,70,15,58,33,52,144,32 ; insertps $0x20,(%rax,%r10,4),%xmm14
DB 102,70,15,58,33,52,152,48 ; insertps $0x30,(%rax,%r11,4),%xmm14
- DB 243,15,16,4,136 ; movss (%rax,%rcx,4),%xmm0
+ DB 243,66,15,16,4,168 ; movss (%rax,%r13,4),%xmm0
DB 102,66,15,58,33,4,184,16 ; insertps $0x10,(%rax,%r15,4),%xmm0
DB 102,66,15,58,33,4,160,32 ; insertps $0x20,(%rax,%r12,4),%xmm0
- DB 102,66,15,58,33,4,168,48 ; insertps $0x30,(%rax,%r13,4),%xmm0
+ DB 102,66,15,58,33,4,176,48 ; insertps $0x30,(%rax,%r14,4),%xmm0
DB 65,15,92,198 ; subps %xmm14,%xmm0
DB 65,15,89,199 ; mulps %xmm15,%xmm0
DB 65,15,88,198 ; addps %xmm14,%xmm0
@@ -24583,10 +24557,8 @@ _sk_clut_4D_sse41 LABEL PROC
DB 15,89,212 ; mulps %xmm4,%xmm2
DB 15,88,215 ; addps %xmm7,%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,247,36,1,0 ; movaps 0x124f7(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
- DB 76,137,194 ; mov %r8,%rdx
- DB 72,139,76,36,112 ; mov 0x70(%rsp),%rcx
- DB 76,139,68,36,120 ; mov 0x78(%rsp),%r8
+ DB 15,40,29,175,37,1,0 ; movaps 0x125af(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
+ DB 72,139,76,36,120 ; mov 0x78(%rsp),%rcx
DB 15,40,164,36,208,0,0,0 ; movaps 0xd0(%rsp),%xmm4
DB 15,40,172,36,224,0,0,0 ; movaps 0xe0(%rsp),%xmm5
DB 15,40,180,36,240,0,0,0 ; movaps 0xf0(%rsp),%xmm6
@@ -24631,16 +24603,15 @@ _sk_start_pipeline_sse2 LABEL PROC
DB 73,137,246 ; mov %rsi,%r14
DB 76,137,141,8,255,255,255 ; mov %r9,-0xf8(%rbp)
DB 76,57,203 ; cmp %r9,%rbx
- DB 115,110 ; jae 1a6c4 <_sk_start_pipeline_sse2+0xeb>
+ DB 115,101 ; jae 1a6ab <_sk_start_pipeline_sse2+0xe2>
DB 72,139,133,24,255,255,255 ; mov -0xe8(%rbp),%rax
DB 72,141,64,4 ; lea 0x4(%rax),%rax
DB 72,137,133,16,255,255,255 ; mov %rax,-0xf0(%rbp)
DB 76,57,189,16,255,255,255 ; cmp %r15,-0xf0(%rbp)
DB 72,139,149,24,255,255,255 ; mov -0xe8(%rbp),%rdx
- DB 119,43 ; ja 1a6a3 <_sk_start_pipeline_sse2+0xca>
+ DB 119,38 ; ja 1a68e <_sk_start_pipeline_sse2+0xc5>
DB 76,139,165,24,255,255,255 ; mov -0xe8(%rbp),%r12
- DB 69,49,192 ; xor %r8d,%r8d
- DB 72,139,125,56 ; mov 0x38(%rbp),%rdi
+ DB 49,255 ; xor %edi,%edi
DB 76,137,246 ; mov %r14,%rsi
DB 76,137,226 ; mov %r12,%rdx
DB 72,137,217 ; mov %rbx,%rcx
@@ -24649,17 +24620,16 @@ _sk_start_pipeline_sse2 LABEL PROC
DB 73,131,196,8 ; add $0x8,%r12
DB 77,57,252 ; cmp %r15,%r12
DB 73,137,212 ; mov %rdx,%r12
- DB 118,220 ; jbe 1a67f <_sk_start_pipeline_sse2+0xa6>
- DB 77,137,248 ; mov %r15,%r8
- DB 73,41,208 ; sub %rdx,%r8
- DB 116,13 ; je 1a6b8 <_sk_start_pipeline_sse2+0xdf>
- DB 72,139,125,56 ; mov 0x38(%rbp),%rdi
+ DB 118,225 ; jbe 1a66f <_sk_start_pipeline_sse2+0xa6>
+ DB 76,137,255 ; mov %r15,%rdi
+ DB 72,41,215 ; sub %rdx,%rdi
+ DB 116,9 ; je 1a69f <_sk_start_pipeline_sse2+0xd6>
DB 76,137,246 ; mov %r14,%rsi
DB 72,137,217 ; mov %rbx,%rcx
DB 65,255,213 ; callq *%r13
DB 72,255,195 ; inc %rbx
DB 72,59,157,8,255,255,255 ; cmp -0xf8(%rbp),%rbx
- DB 117,164 ; jne 1a668 <_sk_start_pipeline_sse2+0x8f>
+ DB 117,173 ; jne 1a658 <_sk_start_pipeline_sse2+0x8f>
DB 15,40,181,32,255,255,255 ; movaps -0xe0(%rbp),%xmm6
DB 15,40,189,48,255,255,255 ; movaps -0xd0(%rbp),%xmm7
DB 68,15,40,133,64,255,255,255 ; movaps -0xc0(%rbp),%xmm8
@@ -24689,17 +24659,16 @@ PUBLIC _sk_seed_shader_sse2
_sk_seed_shader_sse2 LABEL PROC
DB 102,15,110,194 ; movd %edx,%xmm0
DB 102,15,112,192,0 ; pshufd $0x0,%xmm0,%xmm0
- DB 15,91,200 ; cvtdq2ps %xmm0,%xmm1
- DB 15,40,21,82,35,1,0 ; movaps 0x12352(%rip),%xmm2 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
- DB 15,88,202 ; addps %xmm2,%xmm1
- DB 15,16,7 ; movups (%rdi),%xmm0
- DB 15,88,193 ; addps %xmm1,%xmm0
+ DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
+ DB 15,40,21,11,36,1,0 ; movaps 0x1240b(%rip),%xmm2 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
+ DB 15,88,194 ; addps %xmm2,%xmm0
+ DB 15,88,5,17,36,1,0 ; addps 0x12411(%rip),%xmm0 # 2cb30 <_sk_overlay_sse2_8bit+0xebb>
DB 102,15,110,201 ; movd %ecx,%xmm1
DB 102,15,112,201,0 ; pshufd $0x0,%xmm1,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
DB 15,88,202 ; addps %xmm2,%xmm1
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,21,65,35,1,0 ; movaps 0x12341(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,21,9,36,1,0 ; movaps 0x12409(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,87,219 ; xorps %xmm3,%xmm3
DB 15,87,228 ; xorps %xmm4,%xmm4
DB 15,87,237 ; xorps %xmm5,%xmm5
@@ -24711,20 +24680,19 @@ PUBLIC _sk_dither_sse2
_sk_dither_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 102,68,15,110,194 ; movd %edx,%xmm8
- DB 102,69,15,112,192,0 ; pshufd $0x0,%xmm8,%xmm8
- DB 243,68,15,111,79,32 ; movdqu 0x20(%rdi),%xmm9
- DB 102,69,15,254,200 ; paddd %xmm8,%xmm9
+ DB 102,69,15,112,200,0 ; pshufd $0x0,%xmm8,%xmm9
+ DB 102,68,15,254,13,162,35,1,0 ; paddd 0x123a2(%rip),%xmm9 # 2cb00 <_sk_overlay_sse2_8bit+0xe8b>
DB 102,68,15,110,193 ; movd %ecx,%xmm8
DB 102,69,15,112,192,0 ; pshufd $0x0,%xmm8,%xmm8
DB 102,69,15,239,193 ; pxor %xmm9,%xmm8
- DB 102,68,15,111,21,15,35,1,0 ; movdqa 0x1230f(%rip),%xmm10 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,68,15,111,21,217,35,1,0 ; movdqa 0x123d9(%rip),%xmm10 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,69,15,111,216 ; movdqa %xmm8,%xmm11
DB 102,69,15,219,218 ; pand %xmm10,%xmm11
DB 102,65,15,114,243,5 ; pslld $0x5,%xmm11
DB 102,69,15,219,209 ; pand %xmm9,%xmm10
DB 102,65,15,114,242,4 ; pslld $0x4,%xmm10
- DB 102,68,15,111,37,251,34,1,0 ; movdqa 0x122fb(%rip),%xmm12 # 2cab0 <_sk_overlay_sse2_8bit+0xe63>
- DB 102,68,15,111,45,2,35,1,0 ; movdqa 0x12302(%rip),%xmm13 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,68,15,111,37,197,35,1,0 ; movdqa 0x123c5(%rip),%xmm12 # 2cb60 <_sk_overlay_sse2_8bit+0xeeb>
+ DB 102,68,15,111,45,204,35,1,0 ; movdqa 0x123cc(%rip),%xmm13 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,69,15,111,240 ; movdqa %xmm8,%xmm14
DB 102,69,15,219,245 ; pand %xmm13,%xmm14
DB 102,65,15,114,246,2 ; pslld $0x2,%xmm14
@@ -24740,8 +24708,8 @@ _sk_dither_sse2 LABEL PROC
DB 102,69,15,235,245 ; por %xmm13,%xmm14
DB 102,69,15,235,240 ; por %xmm8,%xmm14
DB 69,15,91,198 ; cvtdq2ps %xmm14,%xmm8
- DB 68,15,89,5,189,34,1,0 ; mulps 0x122bd(%rip),%xmm8 # 2cad0 <_sk_overlay_sse2_8bit+0xe83>
- DB 68,15,88,5,197,34,1,0 ; addps 0x122c5(%rip),%xmm8 # 2cae0 <_sk_overlay_sse2_8bit+0xe93>
+ DB 68,15,89,5,135,35,1,0 ; mulps 0x12387(%rip),%xmm8 # 2cb80 <_sk_overlay_sse2_8bit+0xf0b>
+ DB 68,15,88,5,143,35,1,0 ; addps 0x1238f(%rip),%xmm8 # 2cb90 <_sk_overlay_sse2_8bit+0xf1b>
DB 243,68,15,16,16 ; movss (%rax),%xmm10
DB 69,15,198,210,0 ; shufps $0x0,%xmm10,%xmm10
DB 69,15,89,208 ; mulps %xmm8,%xmm10
@@ -24779,7 +24747,7 @@ _sk_uniform_color_sse2 LABEL PROC
PUBLIC _sk_black_color_sse2
_sk_black_color_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,251,33,1,0 ; movaps 0x121fb(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,197,34,1,0 ; movaps 0x122c5(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 15,87,201 ; xorps %xmm1,%xmm1
DB 15,87,210 ; xorps %xmm2,%xmm2
@@ -24788,7 +24756,7 @@ _sk_black_color_sse2 LABEL PROC
PUBLIC _sk_white_color_sse2
_sk_white_color_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,5,231,33,1,0 ; movaps 0x121e7(%rip),%xmm0 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,5,177,34,1,0 ; movaps 0x122b1(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 15,40,216 ; movaps %xmm0,%xmm3
@@ -24826,7 +24794,7 @@ _sk_clear_sse2 LABEL PROC
PUBLIC _sk_srcatop_sse2
_sk_srcatop_sse2 LABEL PROC
DB 15,89,199 ; mulps %xmm7,%xmm0
- DB 68,15,40,5,151,33,1,0 ; movaps 0x12197(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,97,34,1,0 ; movaps 0x12261(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,195 ; subps %xmm3,%xmm8
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 68,15,89,204 ; mulps %xmm4,%xmm9
@@ -24849,7 +24817,7 @@ PUBLIC _sk_dstatop_sse2
_sk_dstatop_sse2 LABEL PROC
DB 68,15,40,195 ; movaps %xmm3,%xmm8
DB 68,15,89,196 ; mulps %xmm4,%xmm8
- DB 68,15,40,13,74,33,1,0 ; movaps 0x1214a(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,20,34,1,0 ; movaps 0x12214(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,207 ; subps %xmm7,%xmm9
DB 65,15,89,193 ; mulps %xmm9,%xmm0
DB 65,15,88,192 ; addps %xmm8,%xmm0
@@ -24890,7 +24858,7 @@ _sk_dstin_sse2 LABEL PROC
PUBLIC _sk_srcout_sse2
_sk_srcout_sse2 LABEL PROC
- DB 68,15,40,5,222,32,1,0 ; movaps 0x120de(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,168,33,1,0 ; movaps 0x121a8(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,199 ; subps %xmm7,%xmm8
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 65,15,89,200 ; mulps %xmm8,%xmm1
@@ -24901,7 +24869,7 @@ _sk_srcout_sse2 LABEL PROC
PUBLIC _sk_dstout_sse2
_sk_dstout_sse2 LABEL PROC
- DB 68,15,40,5,190,32,1,0 ; movaps 0x120be(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,136,33,1,0 ; movaps 0x12188(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,195 ; subps %xmm3,%xmm8
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 15,89,196 ; mulps %xmm4,%xmm0
@@ -24916,7 +24884,7 @@ _sk_dstout_sse2 LABEL PROC
PUBLIC _sk_srcover_sse2
_sk_srcover_sse2 LABEL PROC
- DB 68,15,40,5,145,32,1,0 ; movaps 0x12091(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,91,33,1,0 ; movaps 0x1215b(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,195 ; subps %xmm3,%xmm8
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 68,15,89,204 ; mulps %xmm4,%xmm9
@@ -24934,7 +24902,7 @@ _sk_srcover_sse2 LABEL PROC
PUBLIC _sk_dstover_sse2
_sk_dstover_sse2 LABEL PROC
- DB 68,15,40,5,85,32,1,0 ; movaps 0x12055(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,31,33,1,0 ; movaps 0x1211f(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,199 ; subps %xmm7,%xmm8
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 15,88,196 ; addps %xmm4,%xmm0
@@ -24958,7 +24926,7 @@ _sk_modulate_sse2 LABEL PROC
PUBLIC _sk_multiply_sse2
_sk_multiply_sse2 LABEL PROC
- DB 68,15,40,5,25,32,1,0 ; movaps 0x12019(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,227,32,1,0 ; movaps 0x120e3(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 68,15,92,207 ; subps %xmm7,%xmm9
DB 69,15,40,209 ; movaps %xmm9,%xmm10
@@ -24994,7 +24962,7 @@ _sk_multiply_sse2 LABEL PROC
PUBLIC _sk_plus__sse2
_sk_plus__sse2 LABEL PROC
DB 15,88,196 ; addps %xmm4,%xmm0
- DB 68,15,40,5,154,31,1,0 ; movaps 0x11f9a(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,100,32,1,0 ; movaps 0x12064(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 65,15,93,192 ; minps %xmm8,%xmm0
DB 15,88,205 ; addps %xmm5,%xmm1
DB 65,15,93,200 ; minps %xmm8,%xmm1
@@ -25032,7 +25000,7 @@ _sk_screen_sse2 LABEL PROC
PUBLIC _sk_xor__sse2
_sk_xor__sse2 LABEL PROC
DB 68,15,40,195 ; movaps %xmm3,%xmm8
- DB 15,40,29,38,31,1,0 ; movaps 0x11f26(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,240,31,1,0 ; movaps 0x11ff0(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,40,203 ; movaps %xmm3,%xmm9
DB 68,15,92,207 ; subps %xmm7,%xmm9
DB 65,15,89,193 ; mulps %xmm9,%xmm0
@@ -25078,7 +25046,7 @@ _sk_darken_sse2 LABEL PROC
DB 68,15,89,206 ; mulps %xmm6,%xmm9
DB 65,15,95,209 ; maxps %xmm9,%xmm2
DB 68,15,92,194 ; subps %xmm2,%xmm8
- DB 15,40,21,129,30,1,0 ; movaps 0x11e81(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,21,75,31,1,0 ; movaps 0x11f4b(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,211 ; subps %xmm3,%xmm2
DB 15,89,215 ; mulps %xmm7,%xmm2
DB 15,88,218 ; addps %xmm2,%xmm3
@@ -25110,7 +25078,7 @@ _sk_lighten_sse2 LABEL PROC
DB 68,15,89,206 ; mulps %xmm6,%xmm9
DB 65,15,93,209 ; minps %xmm9,%xmm2
DB 68,15,92,194 ; subps %xmm2,%xmm8
- DB 15,40,21,22,30,1,0 ; movaps 0x11e16(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,21,224,30,1,0 ; movaps 0x11ee0(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,211 ; subps %xmm3,%xmm2
DB 15,89,215 ; mulps %xmm7,%xmm2
DB 15,88,218 ; addps %xmm2,%xmm3
@@ -25145,7 +25113,7 @@ _sk_difference_sse2 LABEL PROC
DB 65,15,93,209 ; minps %xmm9,%xmm2
DB 15,88,210 ; addps %xmm2,%xmm2
DB 68,15,92,194 ; subps %xmm2,%xmm8
- DB 15,40,21,160,29,1,0 ; movaps 0x11da0(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,21,106,30,1,0 ; movaps 0x11e6a(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,211 ; subps %xmm3,%xmm2
DB 15,89,215 ; mulps %xmm7,%xmm2
DB 15,88,218 ; addps %xmm2,%xmm3
@@ -25171,7 +25139,7 @@ _sk_exclusion_sse2 LABEL PROC
DB 15,89,214 ; mulps %xmm6,%xmm2
DB 15,88,210 ; addps %xmm2,%xmm2
DB 68,15,92,194 ; subps %xmm2,%xmm8
- DB 15,40,21,80,29,1,0 ; movaps 0x11d50(%rip),%xmm2 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,21,26,30,1,0 ; movaps 0x11e1a(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,211 ; subps %xmm3,%xmm2
DB 15,89,215 ; mulps %xmm7,%xmm2
DB 15,88,218 ; addps %xmm2,%xmm3
@@ -25182,7 +25150,7 @@ _sk_exclusion_sse2 LABEL PROC
PUBLIC _sk_colorburn_sse2
_sk_colorburn_sse2 LABEL PROC
DB 68,15,40,192 ; movaps %xmm0,%xmm8
- DB 68,15,40,13,51,29,1,0 ; movaps 0x11d33(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,253,29,1,0 ; movaps 0x11dfd(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,209 ; movaps %xmm9,%xmm10
DB 68,15,92,215 ; subps %xmm7,%xmm10
DB 69,15,40,218 ; movaps %xmm10,%xmm11
@@ -25275,7 +25243,7 @@ _sk_colorburn_sse2 LABEL PROC
PUBLIC _sk_colordodge_sse2
_sk_colordodge_sse2 LABEL PROC
DB 68,15,40,200 ; movaps %xmm0,%xmm9
- DB 68,15,40,21,219,27,1,0 ; movaps 0x11bdb(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,21,165,28,1,0 ; movaps 0x11ca5(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,218 ; movaps %xmm10,%xmm11
DB 68,15,92,223 ; subps %xmm7,%xmm11
DB 65,15,40,195 ; movaps %xmm11,%xmm0
@@ -25366,7 +25334,7 @@ _sk_hardlight_sse2 LABEL PROC
DB 15,41,52,36 ; movaps %xmm6,(%rsp)
DB 15,40,245 ; movaps %xmm5,%xmm6
DB 15,40,236 ; movaps %xmm4,%xmm5
- DB 68,15,40,29,129,26,1,0 ; movaps 0x11a81(%rip),%xmm11 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,29,75,27,1,0 ; movaps 0x11b4b(%rip),%xmm11 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,211 ; movaps %xmm11,%xmm10
DB 68,15,92,215 ; subps %xmm7,%xmm10
DB 69,15,40,194 ; movaps %xmm10,%xmm8
@@ -25453,7 +25421,7 @@ PUBLIC _sk_overlay_sse2
_sk_overlay_sse2 LABEL PROC
DB 68,15,40,193 ; movaps %xmm1,%xmm8
DB 68,15,40,232 ; movaps %xmm0,%xmm13
- DB 68,15,40,13,60,25,1,0 ; movaps 0x1193c(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,6,26,1,0 ; movaps 0x11a06(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,209 ; movaps %xmm9,%xmm10
DB 68,15,92,215 ; subps %xmm7,%xmm10
DB 69,15,40,218 ; movaps %xmm10,%xmm11
@@ -25543,7 +25511,7 @@ _sk_softlight_sse2 LABEL PROC
DB 68,15,40,213 ; movaps %xmm5,%xmm10
DB 68,15,94,215 ; divps %xmm7,%xmm10
DB 69,15,84,212 ; andps %xmm12,%xmm10
- DB 68,15,40,13,230,23,1,0 ; movaps 0x117e6(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,176,24,1,0 ; movaps 0x118b0(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,249 ; movaps %xmm9,%xmm15
DB 69,15,92,250 ; subps %xmm10,%xmm15
DB 69,15,40,218 ; movaps %xmm10,%xmm11
@@ -25556,10 +25524,10 @@ _sk_softlight_sse2 LABEL PROC
DB 65,15,40,194 ; movaps %xmm10,%xmm0
DB 15,89,192 ; mulps %xmm0,%xmm0
DB 65,15,88,194 ; addps %xmm10,%xmm0
- DB 68,15,40,53,16,24,1,0 ; movaps 0x11810(%rip),%xmm14 # 2caf0 <_sk_overlay_sse2_8bit+0xea3>
+ DB 68,15,40,53,218,24,1,0 ; movaps 0x118da(%rip),%xmm14 # 2cba0 <_sk_overlay_sse2_8bit+0xf2b>
DB 69,15,88,222 ; addps %xmm14,%xmm11
DB 68,15,89,216 ; mulps %xmm0,%xmm11
- DB 68,15,40,21,16,24,1,0 ; movaps 0x11810(%rip),%xmm10 # 2cb00 <_sk_overlay_sse2_8bit+0xeb3>
+ DB 68,15,40,21,218,24,1,0 ; movaps 0x118da(%rip),%xmm10 # 2cbb0 <_sk_overlay_sse2_8bit+0xf3b>
DB 69,15,89,234 ; mulps %xmm10,%xmm13
DB 69,15,88,235 ; addps %xmm11,%xmm13
DB 15,88,228 ; addps %xmm4,%xmm4
@@ -25704,7 +25672,7 @@ _sk_hue_sse2 LABEL PROC
DB 68,15,40,209 ; movaps %xmm1,%xmm10
DB 68,15,40,225 ; movaps %xmm1,%xmm12
DB 68,15,89,211 ; mulps %xmm3,%xmm10
- DB 68,15,40,5,156,21,1,0 ; movaps 0x1159c(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,102,22,1,0 ; movaps 0x11666(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,216 ; movaps %xmm8,%xmm11
DB 15,40,207 ; movaps %xmm7,%xmm1
DB 68,15,92,217 ; subps %xmm1,%xmm11
@@ -25752,12 +25720,12 @@ _sk_hue_sse2 LABEL PROC
DB 69,15,84,206 ; andps %xmm14,%xmm9
DB 69,15,84,214 ; andps %xmm14,%xmm10
DB 65,15,84,214 ; andps %xmm14,%xmm2
- DB 68,15,40,61,89,21,1,0 ; movaps 0x11559(%rip),%xmm15 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 68,15,40,61,35,22,1,0 ; movaps 0x11623(%rip),%xmm15 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 65,15,89,231 ; mulps %xmm15,%xmm4
- DB 15,40,5,94,21,1,0 ; movaps 0x1155e(%rip),%xmm0 # 2cb20 <_sk_overlay_sse2_8bit+0xed3>
+ DB 15,40,5,40,22,1,0 ; movaps 0x11628(%rip),%xmm0 # 2cbd0 <_sk_overlay_sse2_8bit+0xf5b>
DB 15,89,240 ; mulps %xmm0,%xmm6
DB 15,88,244 ; addps %xmm4,%xmm6
- DB 68,15,40,53,96,21,1,0 ; movaps 0x11560(%rip),%xmm14 # 2cb30 <_sk_overlay_sse2_8bit+0xee3>
+ DB 68,15,40,53,42,22,1,0 ; movaps 0x1162a(%rip),%xmm14 # 2cbe0 <_sk_overlay_sse2_8bit+0xf6b>
DB 68,15,40,239 ; movaps %xmm7,%xmm13
DB 69,15,89,238 ; mulps %xmm14,%xmm13
DB 68,15,88,238 ; addps %xmm6,%xmm13
@@ -25935,14 +25903,14 @@ _sk_saturation_sse2 LABEL PROC
DB 68,15,84,211 ; andps %xmm3,%xmm10
DB 68,15,84,203 ; andps %xmm3,%xmm9
DB 15,84,195 ; andps %xmm3,%xmm0
- DB 68,15,40,5,173,18,1,0 ; movaps 0x112ad(%rip),%xmm8 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 68,15,40,5,119,19,1,0 ; movaps 0x11377(%rip),%xmm8 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 15,40,214 ; movaps %xmm6,%xmm2
DB 65,15,89,208 ; mulps %xmm8,%xmm2
- DB 15,40,13,175,18,1,0 ; movaps 0x112af(%rip),%xmm1 # 2cb20 <_sk_overlay_sse2_8bit+0xed3>
+ DB 15,40,13,121,19,1,0 ; movaps 0x11379(%rip),%xmm1 # 2cbd0 <_sk_overlay_sse2_8bit+0xf5b>
DB 15,40,221 ; movaps %xmm5,%xmm3
DB 15,89,217 ; mulps %xmm1,%xmm3
DB 15,88,218 ; addps %xmm2,%xmm3
- DB 68,15,40,37,174,18,1,0 ; movaps 0x112ae(%rip),%xmm12 # 2cb30 <_sk_overlay_sse2_8bit+0xee3>
+ DB 68,15,40,37,120,19,1,0 ; movaps 0x11378(%rip),%xmm12 # 2cbe0 <_sk_overlay_sse2_8bit+0xf6b>
DB 69,15,89,236 ; mulps %xmm12,%xmm13
DB 68,15,88,235 ; addps %xmm3,%xmm13
DB 65,15,40,210 ; movaps %xmm10,%xmm2
@@ -25987,7 +25955,7 @@ _sk_saturation_sse2 LABEL PROC
DB 15,40,223 ; movaps %xmm7,%xmm3
DB 15,40,236 ; movaps %xmm4,%xmm5
DB 15,89,221 ; mulps %xmm5,%xmm3
- DB 68,15,40,5,99,17,1,0 ; movaps 0x11163(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,45,18,1,0 ; movaps 0x1122d(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 65,15,40,224 ; movaps %xmm8,%xmm4
DB 68,15,92,199 ; subps %xmm7,%xmm8
DB 15,88,253 ; addps %xmm5,%xmm7
@@ -26088,14 +26056,14 @@ _sk_color_sse2 LABEL PROC
DB 68,15,40,213 ; movaps %xmm5,%xmm10
DB 69,15,89,208 ; mulps %xmm8,%xmm10
DB 65,15,40,208 ; movaps %xmm8,%xmm2
- DB 68,15,40,45,107,16,1,0 ; movaps 0x1106b(%rip),%xmm13 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 68,15,40,45,53,17,1,0 ; movaps 0x11135(%rip),%xmm13 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 68,15,40,198 ; movaps %xmm6,%xmm8
DB 69,15,89,197 ; mulps %xmm13,%xmm8
- DB 68,15,40,53,107,16,1,0 ; movaps 0x1106b(%rip),%xmm14 # 2cb20 <_sk_overlay_sse2_8bit+0xed3>
+ DB 68,15,40,53,53,17,1,0 ; movaps 0x11135(%rip),%xmm14 # 2cbd0 <_sk_overlay_sse2_8bit+0xf5b>
DB 65,15,40,195 ; movaps %xmm11,%xmm0
DB 65,15,89,198 ; mulps %xmm14,%xmm0
DB 65,15,88,192 ; addps %xmm8,%xmm0
- DB 68,15,40,29,103,16,1,0 ; movaps 0x11067(%rip),%xmm11 # 2cb30 <_sk_overlay_sse2_8bit+0xee3>
+ DB 68,15,40,29,49,17,1,0 ; movaps 0x11131(%rip),%xmm11 # 2cbe0 <_sk_overlay_sse2_8bit+0xf6b>
DB 69,15,89,227 ; mulps %xmm11,%xmm12
DB 68,15,88,224 ; addps %xmm0,%xmm12
DB 65,15,40,193 ; movaps %xmm9,%xmm0
@@ -26103,7 +26071,7 @@ _sk_color_sse2 LABEL PROC
DB 69,15,40,250 ; movaps %xmm10,%xmm15
DB 69,15,89,254 ; mulps %xmm14,%xmm15
DB 68,15,88,248 ; addps %xmm0,%xmm15
- DB 68,15,40,5,163,15,1,0 ; movaps 0x10fa3(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,109,16,1,0 ; movaps 0x1106d(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 65,15,40,224 ; movaps %xmm8,%xmm4
DB 15,92,226 ; subps %xmm2,%xmm4
DB 15,89,252 ; mulps %xmm4,%xmm7
@@ -26239,15 +26207,15 @@ _sk_luminosity_sse2 LABEL PROC
DB 68,15,40,205 ; movaps %xmm5,%xmm9
DB 68,15,89,204 ; mulps %xmm4,%xmm9
DB 15,89,222 ; mulps %xmm6,%xmm3
- DB 68,15,40,37,37,14,1,0 ; movaps 0x10e25(%rip),%xmm12 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 68,15,40,37,239,14,1,0 ; movaps 0x10eef(%rip),%xmm12 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 68,15,40,199 ; movaps %xmm7,%xmm8
DB 69,15,89,196 ; mulps %xmm12,%xmm8
- DB 68,15,40,45,37,14,1,0 ; movaps 0x10e25(%rip),%xmm13 # 2cb20 <_sk_overlay_sse2_8bit+0xed3>
+ DB 68,15,40,45,239,14,1,0 ; movaps 0x10eef(%rip),%xmm13 # 2cbd0 <_sk_overlay_sse2_8bit+0xf5b>
DB 68,15,40,241 ; movaps %xmm1,%xmm14
DB 69,15,89,245 ; mulps %xmm13,%xmm14
DB 69,15,88,240 ; addps %xmm8,%xmm14
- DB 68,15,40,29,33,14,1,0 ; movaps 0x10e21(%rip),%xmm11 # 2cb30 <_sk_overlay_sse2_8bit+0xee3>
- DB 68,15,40,5,121,13,1,0 ; movaps 0x10d79(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,29,235,14,1,0 ; movaps 0x10eeb(%rip),%xmm11 # 2cbe0 <_sk_overlay_sse2_8bit+0xf6b>
+ DB 68,15,40,5,67,14,1,0 ; movaps 0x10e43(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,248 ; movaps %xmm8,%xmm15
DB 65,15,40,194 ; movaps %xmm10,%xmm0
DB 68,15,92,248 ; subps %xmm0,%xmm15
@@ -26380,17 +26348,17 @@ _sk_luminosity_sse2 LABEL PROC
PUBLIC _sk_srcover_rgba_8888_sse2
_sk_srcover_rgba_8888_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,228,0,0,0 ; jne 1c004 <_sk_srcover_rgba_8888_sse2+0x104>
- DB 243,69,15,111,4,129 ; movdqu (%r9,%rax,4),%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 102,15,111,53,15,12,1,0 ; movdqa 0x10c0f(%rip),%xmm6 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,228,0,0,0 ; jne 1bfea <_sk_srcover_rgba_8888_sse2+0x104>
+ DB 243,69,15,111,4,128 ; movdqu (%r8,%rax,4),%xmm8
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 102,15,111,53,217,12,1,0 ; movdqa 0x10cd9(%rip),%xmm6 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,65,15,111,224 ; movdqa %xmm8,%xmm4
DB 102,15,219,230 ; pand %xmm6,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
@@ -26404,9 +26372,9 @@ _sk_srcover_rgba_8888_sse2 LABEL PROC
DB 15,91,247 ; cvtdq2ps %xmm7,%xmm6
DB 102,65,15,114,208,24 ; psrld $0x18,%xmm8
DB 65,15,91,248 ; cvtdq2ps %xmm8,%xmm7
- DB 68,15,40,5,31,11,1,0 ; movaps 0x10b1f(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,233,11,1,0 ; movaps 0x10be9(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,92,195 ; subps %xmm3,%xmm8
- DB 68,15,40,37,243,11,1,0 ; movaps 0x10bf3(%rip),%xmm12 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 68,15,40,37,189,12,1,0 ; movaps 0x10cbd(%rip),%xmm12 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 65,15,89,196 ; mulps %xmm12,%xmm0
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 68,15,89,204 ; mulps %xmm4,%xmm9
@@ -26432,43 +26400,43 @@ _sk_srcover_rgba_8888_sse2 LABEL PROC
DB 102,15,114,240,24 ; pslld $0x18,%xmm0
DB 102,15,235,194 ; por %xmm2,%xmm0
DB 102,15,235,193 ; por %xmm1,%xmm0
- DB 117,84 ; jne 1c03e <_sk_srcover_rgba_8888_sse2+0x13e>
- DB 243,65,15,127,4,129 ; movdqu %xmm0,(%r9,%rax,4)
+ DB 117,84 ; jne 1c024 <_sk_srcover_rgba_8888_sse2+0x13e>
+ DB 243,65,15,127,4,128 ; movdqu %xmm0,(%r8,%rax,4)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 65,15,40,202 ; movaps %xmm10,%xmm1
DB 65,15,40,211 ; movaps %xmm11,%xmm2
DB 65,15,40,216 ; movaps %xmm8,%xmm3
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,90 ; je 1c06b <_sk_srcover_rgba_8888_sse2+0x16b>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,90 ; je 1c051 <_sk_srcover_rgba_8888_sse2+0x16b>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,23 ; je 1c033 <_sk_srcover_rgba_8888_sse2+0x133>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 15,133,0,255,255,255 ; jne 1bf26 <_sk_srcover_rgba_8888_sse2+0x26>
- DB 102,65,15,110,100,129,8 ; movd 0x8(%r9,%rax,4),%xmm4
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,23 ; je 1c019 <_sk_srcover_rgba_8888_sse2+0x133>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 15,133,0,255,255,255 ; jne 1bf0c <_sk_srcover_rgba_8888_sse2+0x26>
+ DB 102,65,15,110,100,128,8 ; movd 0x8(%r8,%rax,4),%xmm4
DB 102,68,15,112,196,69 ; pshufd $0x45,%xmm4,%xmm8
- DB 102,69,15,18,4,129 ; movlpd (%r9,%rax,4),%xmm8
- DB 233,232,254,255,255 ; jmpq 1bf26 <_sk_srcover_rgba_8888_sse2+0x26>
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,43 ; je 1c076 <_sk_srcover_rgba_8888_sse2+0x176>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,18 ; je 1c063 <_sk_srcover_rgba_8888_sse2+0x163>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,153 ; jne 1bff0 <_sk_srcover_rgba_8888_sse2+0xf0>
+ DB 102,69,15,18,4,128 ; movlpd (%r8,%rax,4),%xmm8
+ DB 233,232,254,255,255 ; jmpq 1bf0c <_sk_srcover_rgba_8888_sse2+0x26>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,43 ; je 1c05c <_sk_srcover_rgba_8888_sse2+0x176>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,18 ; je 1c049 <_sk_srcover_rgba_8888_sse2+0x163>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,153 ; jne 1bfd6 <_sk_srcover_rgba_8888_sse2+0xf0>
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
- DB 102,65,15,126,76,129,8 ; movd %xmm1,0x8(%r9,%rax,4)
- DB 102,65,15,214,4,129 ; movq %xmm0,(%r9,%rax,4)
- DB 235,133 ; jmp 1bff0 <_sk_srcover_rgba_8888_sse2+0xf0>
- DB 102,69,15,110,4,129 ; movd (%r9,%rax,4),%xmm8
- DB 233,176,254,255,255 ; jmpq 1bf26 <_sk_srcover_rgba_8888_sse2+0x26>
- DB 102,65,15,126,4,129 ; movd %xmm0,(%r9,%rax,4)
- DB 233,111,255,255,255 ; jmpq 1bff0 <_sk_srcover_rgba_8888_sse2+0xf0>
+ DB 102,65,15,126,76,128,8 ; movd %xmm1,0x8(%r8,%rax,4)
+ DB 102,65,15,214,4,128 ; movq %xmm0,(%r8,%rax,4)
+ DB 235,133 ; jmp 1bfd6 <_sk_srcover_rgba_8888_sse2+0xf0>
+ DB 102,69,15,110,4,128 ; movd (%r8,%rax,4),%xmm8
+ DB 233,176,254,255,255 ; jmpq 1bf0c <_sk_srcover_rgba_8888_sse2+0x26>
+ DB 102,65,15,126,4,128 ; movd %xmm0,(%r8,%rax,4)
+ DB 233,111,255,255,255 ; jmpq 1bfd6 <_sk_srcover_rgba_8888_sse2+0xf0>
PUBLIC _sk_clamp_0_sse2
_sk_clamp_0_sse2 LABEL PROC
@@ -26482,7 +26450,7 @@ _sk_clamp_0_sse2 LABEL PROC
PUBLIC _sk_clamp_1_sse2
_sk_clamp_1_sse2 LABEL PROC
- DB 68,15,40,5,239,9,1,0 ; movaps 0x109ef(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,185,10,1,0 ; movaps 0x10ab9(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 65,15,93,192 ; minps %xmm8,%xmm0
DB 65,15,93,200 ; minps %xmm8,%xmm1
DB 65,15,93,208 ; minps %xmm8,%xmm2
@@ -26492,7 +26460,7 @@ _sk_clamp_1_sse2 LABEL PROC
PUBLIC _sk_clamp_a_sse2
_sk_clamp_a_sse2 LABEL PROC
- DB 15,93,29,212,9,1,0 ; minps 0x109d4(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,93,29,158,10,1,0 ; minps 0x10a9e(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,93,195 ; minps %xmm3,%xmm0
DB 15,93,203 ; minps %xmm3,%xmm1
DB 15,93,211 ; minps %xmm3,%xmm2
@@ -26501,7 +26469,7 @@ _sk_clamp_a_sse2 LABEL PROC
PUBLIC _sk_clamp_a_dst_sse2
_sk_clamp_a_dst_sse2 LABEL PROC
- DB 15,93,61,192,9,1,0 ; minps 0x109c0(%rip),%xmm7 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,93,61,138,10,1,0 ; minps 0x10a8a(%rip),%xmm7 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,93,231 ; minps %xmm7,%xmm4
DB 15,93,239 ; minps %xmm7,%xmm5
DB 15,93,247 ; minps %xmm7,%xmm6
@@ -26530,7 +26498,7 @@ _sk_swap_rb_sse2 LABEL PROC
PUBLIC _sk_invert_sse2
_sk_invert_sse2 LABEL PROC
- DB 68,15,40,5,124,9,1,0 ; movaps 0x1097c(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,5,70,10,1,0 ; movaps 0x10a46(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 68,15,92,200 ; subps %xmm0,%xmm9
DB 69,15,40,208 ; movaps %xmm8,%xmm10
@@ -26582,7 +26550,7 @@ _sk_premul_dst_sse2 LABEL PROC
PUBLIC _sk_unpremul_sse2
_sk_unpremul_sse2 LABEL PROC
DB 69,15,87,192 ; xorps %xmm8,%xmm8
- DB 68,15,40,13,6,9,1,0 ; movaps 0x10906(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,208,9,1,0 ; movaps 0x109d0(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,94,203 ; divps %xmm3,%xmm9
DB 68,15,194,195,4 ; cmpneqps %xmm3,%xmm8
DB 69,15,84,193 ; andps %xmm9,%xmm8
@@ -26594,20 +26562,20 @@ _sk_unpremul_sse2 LABEL PROC
PUBLIC _sk_from_srgb_sse2
_sk_from_srgb_sse2 LABEL PROC
- DB 68,15,40,5,209,9,1,0 ; movaps 0x109d1(%rip),%xmm8 # 2cb80 <_sk_overlay_sse2_8bit+0xf33>
+ DB 68,15,40,5,155,10,1,0 ; movaps 0x10a9b(%rip),%xmm8 # 2cc30 <_sk_overlay_sse2_8bit+0xfbb>
DB 68,15,40,232 ; movaps %xmm0,%xmm13
DB 69,15,89,232 ; mulps %xmm8,%xmm13
DB 68,15,40,216 ; movaps %xmm0,%xmm11
DB 69,15,89,219 ; mulps %xmm11,%xmm11
- DB 68,15,40,13,73,9,1,0 ; movaps 0x10949(%rip),%xmm9 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 68,15,40,13,19,10,1,0 ; movaps 0x10a13(%rip),%xmm9 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 68,15,40,240 ; movaps %xmm0,%xmm14
DB 69,15,89,241 ; mulps %xmm9,%xmm14
- DB 68,15,40,21,185,9,1,0 ; movaps 0x109b9(%rip),%xmm10 # 2cb90 <_sk_overlay_sse2_8bit+0xf43>
+ DB 68,15,40,21,131,10,1,0 ; movaps 0x10a83(%rip),%xmm10 # 2cc40 <_sk_overlay_sse2_8bit+0xfcb>
DB 69,15,88,242 ; addps %xmm10,%xmm14
DB 69,15,89,243 ; mulps %xmm11,%xmm14
- DB 68,15,40,29,185,9,1,0 ; movaps 0x109b9(%rip),%xmm11 # 2cba0 <_sk_overlay_sse2_8bit+0xf53>
+ DB 68,15,40,29,131,10,1,0 ; movaps 0x10a83(%rip),%xmm11 # 2cc50 <_sk_overlay_sse2_8bit+0xfdb>
DB 69,15,88,243 ; addps %xmm11,%xmm14
- DB 68,15,40,37,189,9,1,0 ; movaps 0x109bd(%rip),%xmm12 # 2cbb0 <_sk_overlay_sse2_8bit+0xf63>
+ DB 68,15,40,37,135,10,1,0 ; movaps 0x10a87(%rip),%xmm12 # 2cc60 <_sk_overlay_sse2_8bit+0xfeb>
DB 65,15,194,196,1 ; cmpltps %xmm12,%xmm0
DB 68,15,84,232 ; andps %xmm0,%xmm13
DB 65,15,85,198 ; andnps %xmm14,%xmm0
@@ -26641,20 +26609,20 @@ _sk_from_srgb_sse2 LABEL PROC
PUBLIC _sk_from_srgb_dst_sse2
_sk_from_srgb_dst_sse2 LABEL PROC
- DB 68,15,40,5,14,9,1,0 ; movaps 0x1090e(%rip),%xmm8 # 2cb80 <_sk_overlay_sse2_8bit+0xf33>
+ DB 68,15,40,5,216,9,1,0 ; movaps 0x109d8(%rip),%xmm8 # 2cc30 <_sk_overlay_sse2_8bit+0xfbb>
DB 68,15,40,236 ; movaps %xmm4,%xmm13
DB 69,15,89,232 ; mulps %xmm8,%xmm13
DB 68,15,40,220 ; movaps %xmm4,%xmm11
DB 69,15,89,219 ; mulps %xmm11,%xmm11
- DB 68,15,40,13,134,8,1,0 ; movaps 0x10886(%rip),%xmm9 # 2cb10 <_sk_overlay_sse2_8bit+0xec3>
+ DB 68,15,40,13,80,9,1,0 ; movaps 0x10950(%rip),%xmm9 # 2cbc0 <_sk_overlay_sse2_8bit+0xf4b>
DB 68,15,40,244 ; movaps %xmm4,%xmm14
DB 69,15,89,241 ; mulps %xmm9,%xmm14
- DB 68,15,40,21,246,8,1,0 ; movaps 0x108f6(%rip),%xmm10 # 2cb90 <_sk_overlay_sse2_8bit+0xf43>
+ DB 68,15,40,21,192,9,1,0 ; movaps 0x109c0(%rip),%xmm10 # 2cc40 <_sk_overlay_sse2_8bit+0xfcb>
DB 69,15,88,242 ; addps %xmm10,%xmm14
DB 69,15,89,243 ; mulps %xmm11,%xmm14
- DB 68,15,40,29,246,8,1,0 ; movaps 0x108f6(%rip),%xmm11 # 2cba0 <_sk_overlay_sse2_8bit+0xf53>
+ DB 68,15,40,29,192,9,1,0 ; movaps 0x109c0(%rip),%xmm11 # 2cc50 <_sk_overlay_sse2_8bit+0xfdb>
DB 69,15,88,243 ; addps %xmm11,%xmm14
- DB 68,15,40,37,250,8,1,0 ; movaps 0x108fa(%rip),%xmm12 # 2cbb0 <_sk_overlay_sse2_8bit+0xf63>
+ DB 68,15,40,37,196,9,1,0 ; movaps 0x109c4(%rip),%xmm12 # 2cc60 <_sk_overlay_sse2_8bit+0xfeb>
DB 65,15,194,228,1 ; cmpltps %xmm12,%xmm4
DB 68,15,84,236 ; andps %xmm4,%xmm13
DB 65,15,85,230 ; andnps %xmm14,%xmm4
@@ -26689,22 +26657,22 @@ _sk_from_srgb_dst_sse2 LABEL PROC
PUBLIC _sk_to_srgb_sse2
_sk_to_srgb_sse2 LABEL PROC
DB 68,15,82,232 ; rsqrtps %xmm0,%xmm13
- DB 68,15,40,5,135,8,1,0 ; movaps 0x10887(%rip),%xmm8 # 2cbc0 <_sk_overlay_sse2_8bit+0xf73>
+ DB 68,15,40,5,81,9,1,0 ; movaps 0x10951(%rip),%xmm8 # 2cc70 <_sk_overlay_sse2_8bit+0xffb>
DB 68,15,40,240 ; movaps %xmm0,%xmm14
DB 69,15,89,240 ; mulps %xmm8,%xmm14
- DB 68,15,40,13,135,8,1,0 ; movaps 0x10887(%rip),%xmm9 # 2cbd0 <_sk_overlay_sse2_8bit+0xf83>
+ DB 68,15,40,13,81,9,1,0 ; movaps 0x10951(%rip),%xmm9 # 2cc80 <_sk_overlay_sse2_8bit+0x100b>
DB 69,15,40,253 ; movaps %xmm13,%xmm15
DB 69,15,89,249 ; mulps %xmm9,%xmm15
- DB 68,15,40,21,135,8,1,0 ; movaps 0x10887(%rip),%xmm10 # 2cbe0 <_sk_overlay_sse2_8bit+0xf93>
+ DB 68,15,40,21,81,9,1,0 ; movaps 0x10951(%rip),%xmm10 # 2cc90 <_sk_overlay_sse2_8bit+0x101b>
DB 69,15,88,250 ; addps %xmm10,%xmm15
DB 69,15,89,253 ; mulps %xmm13,%xmm15
- DB 68,15,40,29,135,8,1,0 ; movaps 0x10887(%rip),%xmm11 # 2cbf0 <_sk_overlay_sse2_8bit+0xfa3>
+ DB 68,15,40,29,81,9,1,0 ; movaps 0x10951(%rip),%xmm11 # 2cca0 <_sk_overlay_sse2_8bit+0x102b>
DB 69,15,88,251 ; addps %xmm11,%xmm15
- DB 68,15,40,37,139,8,1,0 ; movaps 0x1088b(%rip),%xmm12 # 2cc00 <_sk_overlay_sse2_8bit+0xfb3>
+ DB 68,15,40,37,85,9,1,0 ; movaps 0x10955(%rip),%xmm12 # 2ccb0 <_sk_overlay_sse2_8bit+0x103b>
DB 69,15,88,236 ; addps %xmm12,%xmm13
DB 69,15,83,237 ; rcpps %xmm13,%xmm13
DB 69,15,89,239 ; mulps %xmm15,%xmm13
- DB 68,15,40,61,135,8,1,0 ; movaps 0x10887(%rip),%xmm15 # 2cc10 <_sk_overlay_sse2_8bit+0xfc3>
+ DB 68,15,40,61,81,9,1,0 ; movaps 0x10951(%rip),%xmm15 # 2ccc0 <_sk_overlay_sse2_8bit+0x104b>
DB 65,15,194,199,1 ; cmpltps %xmm15,%xmm0
DB 68,15,84,240 ; andps %xmm0,%xmm14
DB 65,15,85,197 ; andnps %xmm13,%xmm0
@@ -26754,7 +26722,7 @@ _sk_rgb_to_hsl_sse2 LABEL PROC
DB 68,15,93,216 ; minps %xmm0,%xmm11
DB 65,15,40,202 ; movaps %xmm10,%xmm1
DB 65,15,92,203 ; subps %xmm11,%xmm1
- DB 68,15,40,45,74,6,1,0 ; movaps 0x1064a(%rip),%xmm13 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,45,20,7,1,0 ; movaps 0x10714(%rip),%xmm13 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 68,15,94,233 ; divps %xmm1,%xmm13
DB 65,15,40,194 ; movaps %xmm10,%xmm0
DB 65,15,194,192,0 ; cmpeqps %xmm8,%xmm0
@@ -26763,30 +26731,30 @@ _sk_rgb_to_hsl_sse2 LABEL PROC
DB 69,15,89,229 ; mulps %xmm13,%xmm12
DB 69,15,40,241 ; movaps %xmm9,%xmm14
DB 68,15,194,242,1 ; cmpltps %xmm2,%xmm14
- DB 68,15,84,53,176,7,1,0 ; andps 0x107b0(%rip),%xmm14 # 2cc20 <_sk_overlay_sse2_8bit+0xfd3>
+ DB 68,15,84,53,122,8,1,0 ; andps 0x1087a(%rip),%xmm14 # 2ccd0 <_sk_overlay_sse2_8bit+0x105b>
DB 69,15,88,244 ; addps %xmm12,%xmm14
DB 69,15,40,250 ; movaps %xmm10,%xmm15
DB 69,15,194,249,0 ; cmpeqps %xmm9,%xmm15
DB 65,15,92,208 ; subps %xmm8,%xmm2
DB 65,15,89,213 ; mulps %xmm13,%xmm2
- DB 68,15,40,37,163,7,1,0 ; movaps 0x107a3(%rip),%xmm12 # 2cc30 <_sk_overlay_sse2_8bit+0xfe3>
+ DB 68,15,40,37,109,8,1,0 ; movaps 0x1086d(%rip),%xmm12 # 2cce0 <_sk_overlay_sse2_8bit+0x106b>
DB 65,15,88,212 ; addps %xmm12,%xmm2
DB 69,15,92,193 ; subps %xmm9,%xmm8
DB 69,15,89,197 ; mulps %xmm13,%xmm8
- DB 68,15,88,5,159,7,1,0 ; addps 0x1079f(%rip),%xmm8 # 2cc40 <_sk_overlay_sse2_8bit+0xff3>
+ DB 68,15,88,5,105,8,1,0 ; addps 0x10869(%rip),%xmm8 # 2ccf0 <_sk_overlay_sse2_8bit+0x107b>
DB 65,15,84,215 ; andps %xmm15,%xmm2
DB 69,15,85,248 ; andnps %xmm8,%xmm15
DB 68,15,86,250 ; orps %xmm2,%xmm15
DB 68,15,84,240 ; andps %xmm0,%xmm14
DB 65,15,85,199 ; andnps %xmm15,%xmm0
DB 65,15,86,198 ; orps %xmm14,%xmm0
- DB 15,89,5,144,7,1,0 ; mulps 0x10790(%rip),%xmm0 # 2cc50 <_sk_overlay_sse2_8bit+0x1003>
+ DB 15,89,5,90,8,1,0 ; mulps 0x1085a(%rip),%xmm0 # 2cd00 <_sk_overlay_sse2_8bit+0x108b>
DB 69,15,40,194 ; movaps %xmm10,%xmm8
DB 69,15,194,195,4 ; cmpneqps %xmm11,%xmm8
DB 65,15,84,192 ; andps %xmm8,%xmm0
DB 69,15,92,226 ; subps %xmm10,%xmm12
DB 69,15,88,211 ; addps %xmm11,%xmm10
- DB 68,15,40,13,163,5,1,0 ; movaps 0x105a3(%rip),%xmm9 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,13,93,6,1,0 ; movaps 0x1065d(%rip),%xmm9 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 65,15,40,210 ; movaps %xmm10,%xmm2
DB 65,15,89,209 ; mulps %xmm9,%xmm2
DB 68,15,194,202,1 ; cmpltps %xmm2,%xmm9
@@ -26809,7 +26777,7 @@ _sk_hsl_to_rgb_sse2 LABEL PROC
DB 15,41,92,36,32 ; movaps %xmm3,0x20(%rsp)
DB 68,15,40,218 ; movaps %xmm2,%xmm11
DB 15,40,240 ; movaps %xmm0,%xmm6
- DB 68,15,40,13,78,5,1,0 ; movaps 0x1054e(%rip),%xmm9 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,13,8,6,1,0 ; movaps 0x10608(%rip),%xmm9 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 69,15,40,209 ; movaps %xmm9,%xmm10
DB 69,15,194,211,2 ; cmpleps %xmm11,%xmm10
DB 15,40,193 ; movaps %xmm1,%xmm0
@@ -26826,28 +26794,28 @@ _sk_hsl_to_rgb_sse2 LABEL PROC
DB 69,15,88,211 ; addps %xmm11,%xmm10
DB 69,15,88,219 ; addps %xmm11,%xmm11
DB 69,15,92,218 ; subps %xmm10,%xmm11
- DB 15,40,5,232,6,1,0 ; movaps 0x106e8(%rip),%xmm0 # 2cc60 <_sk_overlay_sse2_8bit+0x1013>
+ DB 15,40,5,178,7,1,0 ; movaps 0x107b2(%rip),%xmm0 # 2cd10 <_sk_overlay_sse2_8bit+0x109b>
DB 15,88,198 ; addps %xmm6,%xmm0
DB 243,15,91,200 ; cvttps2dq %xmm0,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
DB 15,40,216 ; movaps %xmm0,%xmm3
DB 15,194,217,1 ; cmpltps %xmm1,%xmm3
- DB 15,84,29,0,5,1,0 ; andps 0x10500(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,84,29,202,5,1,0 ; andps 0x105ca(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,203 ; subps %xmm3,%xmm1
DB 15,92,193 ; subps %xmm1,%xmm0
- DB 68,15,40,45,210,6,1,0 ; movaps 0x106d2(%rip),%xmm13 # 2cc70 <_sk_overlay_sse2_8bit+0x1023>
+ DB 68,15,40,45,156,7,1,0 ; movaps 0x1079c(%rip),%xmm13 # 2cd20 <_sk_overlay_sse2_8bit+0x10ab>
DB 69,15,40,197 ; movaps %xmm13,%xmm8
DB 68,15,194,192,2 ; cmpleps %xmm0,%xmm8
DB 69,15,40,242 ; movaps %xmm10,%xmm14
DB 69,15,92,243 ; subps %xmm11,%xmm14
DB 65,15,40,217 ; movaps %xmm9,%xmm3
DB 15,194,216,2 ; cmpleps %xmm0,%xmm3
- DB 15,40,21,146,6,1,0 ; movaps 0x10692(%rip),%xmm2 # 2cc50 <_sk_overlay_sse2_8bit+0x1003>
+ DB 15,40,21,92,7,1,0 ; movaps 0x1075c(%rip),%xmm2 # 2cd00 <_sk_overlay_sse2_8bit+0x108b>
DB 68,15,40,250 ; movaps %xmm2,%xmm15
DB 68,15,194,248,2 ; cmpleps %xmm0,%xmm15
- DB 15,40,13,82,6,1,0 ; movaps 0x10652(%rip),%xmm1 # 2cc20 <_sk_overlay_sse2_8bit+0xfd3>
+ DB 15,40,13,28,7,1,0 ; movaps 0x1071c(%rip),%xmm1 # 2ccd0 <_sk_overlay_sse2_8bit+0x105b>
DB 15,89,193 ; mulps %xmm1,%xmm0
- DB 15,40,45,104,6,1,0 ; movaps 0x10668(%rip),%xmm5 # 2cc40 <_sk_overlay_sse2_8bit+0xff3>
+ DB 15,40,45,50,7,1,0 ; movaps 0x10732(%rip),%xmm5 # 2ccf0 <_sk_overlay_sse2_8bit+0x107b>
DB 15,40,229 ; movaps %xmm5,%xmm4
DB 15,92,224 ; subps %xmm0,%xmm4
DB 65,15,89,230 ; mulps %xmm14,%xmm4
@@ -26870,7 +26838,7 @@ _sk_hsl_to_rgb_sse2 LABEL PROC
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
DB 15,40,222 ; movaps %xmm6,%xmm3
DB 15,194,216,1 ; cmpltps %xmm0,%xmm3
- DB 15,84,29,93,4,1,0 ; andps 0x1045d(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,84,29,39,5,1,0 ; andps 0x10527(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,195 ; subps %xmm3,%xmm0
DB 68,15,40,230 ; movaps %xmm6,%xmm12
DB 68,15,92,224 ; subps %xmm0,%xmm12
@@ -26900,12 +26868,12 @@ _sk_hsl_to_rgb_sse2 LABEL PROC
DB 15,40,60,36 ; movaps (%rsp),%xmm7
DB 15,40,231 ; movaps %xmm7,%xmm4
DB 15,85,227 ; andnps %xmm3,%xmm4
- DB 15,88,53,214,5,1,0 ; addps 0x105d6(%rip),%xmm6 # 2cc80 <_sk_overlay_sse2_8bit+0x1033>
+ DB 15,88,53,160,6,1,0 ; addps 0x106a0(%rip),%xmm6 # 2cd30 <_sk_overlay_sse2_8bit+0x10bb>
DB 243,15,91,198 ; cvttps2dq %xmm6,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
DB 15,40,222 ; movaps %xmm6,%xmm3
DB 15,194,216,1 ; cmpltps %xmm0,%xmm3
- DB 15,84,29,209,3,1,0 ; andps 0x103d1(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,84,29,155,4,1,0 ; andps 0x1049b(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,92,195 ; subps %xmm3,%xmm0
DB 15,92,240 ; subps %xmm0,%xmm6
DB 15,89,206 ; mulps %xmm6,%xmm1
@@ -26960,19 +26928,19 @@ _sk_scale_1_float_sse2 LABEL PROC
PUBLIC _sk_scale_u8_sse2
_sk_scale_u8_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,61 ; jne 1c7c4 <_sk_scale_u8_sse2+0x55>
- DB 102,71,15,110,4,25 ; movd (%r9,%r11,1),%xmm8
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,61 ; jne 1c7aa <_sk_scale_u8_sse2+0x55>
+ DB 102,71,15,110,4,16 ; movd (%r8,%r10,1),%xmm8
DB 102,68,15,96,192 ; punpcklbw %xmm0,%xmm8
DB 102,68,15,97,192 ; punpcklwd %xmm0,%xmm8
- DB 102,68,15,219,5,160,3,1,0 ; pand 0x103a0(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,68,15,219,5,106,4,1,0 ; pand 0x1046a(%rip),%xmm8 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 69,15,91,192 ; cvtdq2ps %xmm8,%xmm8
- DB 68,15,89,5,228,4,1,0 ; mulps 0x104e4(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,89,5,174,5,1,0 ; mulps 0x105ae(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 65,15,89,200 ; mulps %xmm8,%xmm1
DB 65,15,89,208 ; mulps %xmm8,%xmm2
@@ -26980,52 +26948,52 @@ _sk_scale_u8_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,216 ; movaps %xmm8,%xmm3
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,61 ; je 1c80e <_sk_scale_u8_sse2+0x9f>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,61 ; je 1c7f4 <_sk_scale_u8_sse2+0x9f>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,23 ; je 1c7f3 <_sk_scale_u8_sse2+0x84>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,181 ; jne 1c797 <_sk_scale_u8_sse2+0x28>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,23 ; je 1c7d9 <_sk_scale_u8_sse2+0x84>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,181 ; jne 1c77d <_sk_scale_u8_sse2+0x28>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
DB 102,69,15,112,192,69 ; pshufd $0x45,%xmm8,%xmm8
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,68,15,110,200 ; movd %eax,%xmm9
DB 102,68,15,96,200 ; punpcklbw %xmm0,%xmm9
DB 102,68,15,97,200 ; punpcklwd %xmm0,%xmm9
DB 242,69,15,16,193 ; movsd %xmm9,%xmm8
- DB 235,137 ; jmp 1c797 <_sk_scale_u8_sse2+0x28>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 235,137 ; jmp 1c77d <_sk_scale_u8_sse2+0x28>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
- DB 233,122,255,255,255 ; jmpq 1c797 <_sk_scale_u8_sse2+0x28>
+ DB 233,122,255,255,255 ; jmpq 1c77d <_sk_scale_u8_sse2+0x28>
PUBLIC _sk_scale_565_sse2
_sk_scale_565_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,173,0,0,0 ; jne 1c8e9 <_sk_scale_565_sse2+0xcc>
- DB 243,71,15,126,20,89 ; movq (%r9,%r11,2),%xmm10
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,173,0,0,0 ; jne 1c8cf <_sk_scale_565_sse2+0xcc>
+ DB 243,71,15,126,20,80 ; movq (%r8,%r10,2),%xmm10
DB 102,68,15,97,208 ; punpcklwd %xmm0,%xmm10
- DB 102,68,15,111,5,80,4,1,0 ; movdqa 0x10450(%rip),%xmm8 # 2cca0 <_sk_overlay_sse2_8bit+0x1053>
+ DB 102,68,15,111,5,26,5,1,0 ; movdqa 0x1051a(%rip),%xmm8 # 2cd50 <_sk_overlay_sse2_8bit+0x10db>
DB 102,69,15,219,194 ; pand %xmm10,%xmm8
DB 69,15,91,192 ; cvtdq2ps %xmm8,%xmm8
- DB 68,15,89,5,79,4,1,0 ; mulps 0x1044f(%rip),%xmm8 # 2ccb0 <_sk_overlay_sse2_8bit+0x1063>
- DB 102,68,15,111,13,86,4,1,0 ; movdqa 0x10456(%rip),%xmm9 # 2ccc0 <_sk_overlay_sse2_8bit+0x1073>
+ DB 68,15,89,5,25,5,1,0 ; mulps 0x10519(%rip),%xmm8 # 2cd60 <_sk_overlay_sse2_8bit+0x10eb>
+ DB 102,68,15,111,13,32,5,1,0 ; movdqa 0x10520(%rip),%xmm9 # 2cd70 <_sk_overlay_sse2_8bit+0x10fb>
DB 102,69,15,219,202 ; pand %xmm10,%xmm9
DB 69,15,91,201 ; cvtdq2ps %xmm9,%xmm9
- DB 68,15,89,13,85,4,1,0 ; mulps 0x10455(%rip),%xmm9 # 2ccd0 <_sk_overlay_sse2_8bit+0x1083>
- DB 102,68,15,219,21,92,4,1,0 ; pand 0x1045c(%rip),%xmm10 # 2cce0 <_sk_overlay_sse2_8bit+0x1093>
+ DB 68,15,89,13,31,5,1,0 ; mulps 0x1051f(%rip),%xmm9 # 2cd80 <_sk_overlay_sse2_8bit+0x110b>
+ DB 102,68,15,219,21,38,5,1,0 ; pand 0x10526(%rip),%xmm10 # 2cd90 <_sk_overlay_sse2_8bit+0x111b>
DB 69,15,91,210 ; cvtdq2ps %xmm10,%xmm10
- DB 68,15,89,21,96,4,1,0 ; mulps 0x10460(%rip),%xmm10 # 2ccf0 <_sk_overlay_sse2_8bit+0x10a3>
+ DB 68,15,89,21,42,5,1,0 ; mulps 0x1052a(%rip),%xmm10 # 2cda0 <_sk_overlay_sse2_8bit+0x112b>
DB 68,15,40,219 ; movaps %xmm3,%xmm11
DB 68,15,194,223,1 ; cmpltps %xmm7,%xmm11
DB 69,15,40,225 ; movaps %xmm9,%xmm12
@@ -27049,25 +27017,25 @@ _sk_scale_565_sse2 LABEL PROC
DB 65,15,40,210 ; movaps %xmm10,%xmm2
DB 65,15,40,219 ; movaps %xmm11,%xmm3
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,59 ; je 1c931 <_sk_scale_565_sse2+0x114>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,59 ; je 1c917 <_sk_scale_565_sse2+0x114>
DB 102,69,15,239,210 ; pxor %xmm10,%xmm10
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,27 ; je 1c91c <_sk_scale_565_sse2+0xff>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 15,133,60,255,255,255 ; jne 1c847 <_sk_scale_565_sse2+0x2a>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,27 ; je 1c902 <_sk_scale_565_sse2+0xff>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 15,133,60,255,255,255 ; jne 1c82d <_sk_scale_565_sse2+0x2a>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
DB 102,69,15,112,208,69 ; pshufd $0x45,%xmm8,%xmm10
- DB 102,71,15,110,4,89 ; movd (%r9,%r11,2),%xmm8
+ DB 102,71,15,110,4,80 ; movd (%r8,%r10,2),%xmm8
DB 102,68,15,97,192 ; punpcklwd %xmm0,%xmm8
DB 242,69,15,16,208 ; movsd %xmm8,%xmm10
- DB 233,22,255,255,255 ; jmpq 1c847 <_sk_scale_565_sse2+0x2a>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,22,255,255,255 ; jmpq 1c82d <_sk_scale_565_sse2+0x2a>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,68,15,110,208 ; movd %eax,%xmm10
- DB 233,7,255,255,255 ; jmpq 1c847 <_sk_scale_565_sse2+0x2a>
+ DB 233,7,255,255,255 ; jmpq 1c82d <_sk_scale_565_sse2+0x2a>
PUBLIC _sk_lerp_1_float_sse2
_sk_lerp_1_float_sse2 LABEL PROC
@@ -27092,19 +27060,19 @@ _sk_lerp_1_float_sse2 LABEL PROC
PUBLIC _sk_lerp_u8_sse2
_sk_lerp_u8_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,81 ; jne 1c9e1 <_sk_lerp_u8_sse2+0x69>
- DB 102,71,15,110,4,25 ; movd (%r9,%r11,1),%xmm8
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,81 ; jne 1c9c7 <_sk_lerp_u8_sse2+0x69>
+ DB 102,71,15,110,4,16 ; movd (%r8,%r10,1),%xmm8
DB 102,68,15,96,192 ; punpcklbw %xmm0,%xmm8
DB 102,68,15,97,192 ; punpcklwd %xmm0,%xmm8
- DB 102,68,15,219,5,151,1,1,0 ; pand 0x10197(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,68,15,219,5,97,2,1,0 ; pand 0x10261(%rip),%xmm8 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 69,15,91,192 ; cvtdq2ps %xmm8,%xmm8
- DB 68,15,89,5,219,2,1,0 ; mulps 0x102db(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,89,5,165,3,1,0 ; mulps 0x103a5(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 15,92,196 ; subps %xmm4,%xmm0
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 15,88,196 ; addps %xmm4,%xmm0
@@ -27119,52 +27087,52 @@ _sk_lerp_u8_sse2 LABEL PROC
DB 15,88,223 ; addps %xmm7,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,64 ; je 1ca2e <_sk_lerp_u8_sse2+0xb6>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,64 ; je 1ca14 <_sk_lerp_u8_sse2+0xb6>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,23 ; je 1ca10 <_sk_lerp_u8_sse2+0x98>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,161 ; jne 1c9a0 <_sk_lerp_u8_sse2+0x28>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,23 ; je 1c9f6 <_sk_lerp_u8_sse2+0x98>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,161 ; jne 1c986 <_sk_lerp_u8_sse2+0x28>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
DB 102,69,15,112,192,69 ; pshufd $0x45,%xmm8,%xmm8
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,68,15,110,200 ; movd %eax,%xmm9
DB 102,68,15,96,200 ; punpcklbw %xmm0,%xmm9
DB 102,68,15,97,200 ; punpcklwd %xmm0,%xmm9
DB 242,69,15,16,193 ; movsd %xmm9,%xmm8
- DB 233,114,255,255,255 ; jmpq 1c9a0 <_sk_lerp_u8_sse2+0x28>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 233,114,255,255,255 ; jmpq 1c986 <_sk_lerp_u8_sse2+0x28>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
- DB 233,99,255,255,255 ; jmpq 1c9a0 <_sk_lerp_u8_sse2+0x28>
+ DB 233,99,255,255,255 ; jmpq 1c986 <_sk_lerp_u8_sse2+0x28>
PUBLIC _sk_lerp_565_sse2
_sk_lerp_565_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,173,0,0,0 ; jne 1cb09 <_sk_lerp_565_sse2+0xcc>
- DB 243,71,15,126,4,89 ; movq (%r9,%r11,2),%xmm8
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,173,0,0,0 ; jne 1caef <_sk_lerp_565_sse2+0xcc>
+ DB 243,71,15,126,4,80 ; movq (%r8,%r10,2),%xmm8
DB 102,68,15,97,192 ; punpcklwd %xmm0,%xmm8
- DB 102,68,15,111,13,48,2,1,0 ; movdqa 0x10230(%rip),%xmm9 # 2cca0 <_sk_overlay_sse2_8bit+0x1053>
+ DB 102,68,15,111,13,250,2,1,0 ; movdqa 0x102fa(%rip),%xmm9 # 2cd50 <_sk_overlay_sse2_8bit+0x10db>
DB 102,69,15,219,200 ; pand %xmm8,%xmm9
DB 69,15,91,201 ; cvtdq2ps %xmm9,%xmm9
- DB 68,15,89,13,47,2,1,0 ; mulps 0x1022f(%rip),%xmm9 # 2ccb0 <_sk_overlay_sse2_8bit+0x1063>
- DB 102,68,15,111,21,54,2,1,0 ; movdqa 0x10236(%rip),%xmm10 # 2ccc0 <_sk_overlay_sse2_8bit+0x1073>
+ DB 68,15,89,13,249,2,1,0 ; mulps 0x102f9(%rip),%xmm9 # 2cd60 <_sk_overlay_sse2_8bit+0x10eb>
+ DB 102,68,15,111,21,0,3,1,0 ; movdqa 0x10300(%rip),%xmm10 # 2cd70 <_sk_overlay_sse2_8bit+0x10fb>
DB 102,69,15,219,208 ; pand %xmm8,%xmm10
DB 69,15,91,218 ; cvtdq2ps %xmm10,%xmm11
- DB 68,15,89,29,53,2,1,0 ; mulps 0x10235(%rip),%xmm11 # 2ccd0 <_sk_overlay_sse2_8bit+0x1083>
- DB 102,68,15,219,5,60,2,1,0 ; pand 0x1023c(%rip),%xmm8 # 2cce0 <_sk_overlay_sse2_8bit+0x1093>
+ DB 68,15,89,29,255,2,1,0 ; mulps 0x102ff(%rip),%xmm11 # 2cd80 <_sk_overlay_sse2_8bit+0x110b>
+ DB 102,68,15,219,5,6,3,1,0 ; pand 0x10306(%rip),%xmm8 # 2cd90 <_sk_overlay_sse2_8bit+0x111b>
DB 69,15,91,192 ; cvtdq2ps %xmm8,%xmm8
- DB 68,15,89,5,64,2,1,0 ; mulps 0x10240(%rip),%xmm8 # 2ccf0 <_sk_overlay_sse2_8bit+0x10a3>
+ DB 68,15,89,5,10,3,1,0 ; mulps 0x1030a(%rip),%xmm8 # 2cda0 <_sk_overlay_sse2_8bit+0x112b>
DB 68,15,40,211 ; movaps %xmm3,%xmm10
DB 68,15,194,215,1 ; cmpltps %xmm7,%xmm10
DB 69,15,40,227 ; movaps %xmm11,%xmm12
@@ -27190,124 +27158,121 @@ _sk_lerp_565_sse2 LABEL PROC
DB 15,88,223 ; addps %xmm7,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,59 ; je 1cb51 <_sk_lerp_565_sse2+0x114>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,59 ; je 1cb37 <_sk_lerp_565_sse2+0x114>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,27 ; je 1cb3c <_sk_lerp_565_sse2+0xff>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 15,133,60,255,255,255 ; jne 1ca67 <_sk_lerp_565_sse2+0x2a>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,27 ; je 1cb22 <_sk_lerp_565_sse2+0xff>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 15,133,60,255,255,255 ; jne 1ca4d <_sk_lerp_565_sse2+0x2a>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
DB 102,69,15,112,192,69 ; pshufd $0x45,%xmm8,%xmm8
- DB 102,71,15,110,12,89 ; movd (%r9,%r11,2),%xmm9
+ DB 102,71,15,110,12,80 ; movd (%r8,%r10,2),%xmm9
DB 102,68,15,97,200 ; punpcklwd %xmm0,%xmm9
DB 242,69,15,16,193 ; movsd %xmm9,%xmm8
- DB 233,22,255,255,255 ; jmpq 1ca67 <_sk_lerp_565_sse2+0x2a>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,22,255,255,255 ; jmpq 1ca4d <_sk_lerp_565_sse2+0x2a>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
- DB 233,7,255,255,255 ; jmpq 1ca67 <_sk_lerp_565_sse2+0x2a>
+ DB 233,7,255,255,255 ; jmpq 1ca4d <_sk_lerp_565_sse2+0x2a>
PUBLIC _sk_load_tables_sse2
_sk_load_tables_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,36,1,0,0 ; jne 1cc92 <_sk_load_tables_sse2+0x132>
- DB 243,69,15,111,12,145 ; movdqu (%r9,%rdx,4),%xmm9
- DB 65,87 ; push %r15
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,32,1,0,0 ; jne 1cc74 <_sk_load_tables_sse2+0x12e>
+ DB 243,69,15,111,12,144 ; movdqu (%r8,%rdx,4),%xmm9
DB 65,86 ; push %r14
DB 83 ; push %rbx
- DB 102,68,15,111,5,190,255,0,0 ; movdqa 0xffbe(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,68,15,111,5,138,0,1,0 ; movdqa 0x1008a(%rip),%xmm8 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,65,15,111,193 ; movdqa %xmm9,%xmm0
DB 102,65,15,219,192 ; pand %xmm8,%xmm0
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
- DB 102,73,15,126,201 ; movq %xmm1,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 69,15,182,218 ; movzbl %r10b,%r11d
- DB 73,193,234,30 ; shr $0x1e,%r10
- DB 69,15,182,241 ; movzbl %r9b,%r14d
+ DB 102,73,15,126,200 ; movq %xmm1,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 69,15,182,209 ; movzbl %r9b,%r10d
DB 73,193,233,30 ; shr $0x1e,%r9
+ DB 69,15,182,216 ; movzbl %r8b,%r11d
+ DB 73,193,232,30 ; shr $0x1e,%r8
DB 72,139,88,8 ; mov 0x8(%rax),%rbx
- DB 76,139,120,16 ; mov 0x10(%rax),%r15
- DB 243,66,15,16,12,19 ; movss (%rbx,%r10,1),%xmm1
- DB 243,66,15,16,4,11 ; movss (%rbx,%r9,1),%xmm0
+ DB 76,139,112,16 ; mov 0x10(%rax),%r14
+ DB 243,66,15,16,12,11 ; movss (%rbx,%r9,1),%xmm1
+ DB 243,66,15,16,4,3 ; movss (%rbx,%r8,1),%xmm0
DB 15,20,200 ; unpcklps %xmm0,%xmm1
- DB 243,66,15,16,4,155 ; movss (%rbx,%r11,4),%xmm0
- DB 243,66,15,16,20,179 ; movss (%rbx,%r14,4),%xmm2
+ DB 243,66,15,16,4,147 ; movss (%rbx,%r10,4),%xmm0
+ DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
DB 15,20,194 ; unpcklps %xmm2,%xmm0
DB 15,20,193 ; unpcklps %xmm1,%xmm0
DB 102,65,15,111,201 ; movdqa %xmm9,%xmm1
DB 102,15,114,209,8 ; psrld $0x8,%xmm1
DB 102,65,15,219,200 ; pand %xmm8,%xmm1
DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
- DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 102,73,15,126,208 ; movq %xmm2,%r8
DB 102,72,15,126,203 ; movq %xmm1,%rbx
- DB 68,15,182,211 ; movzbl %bl,%r10d
+ DB 68,15,182,203 ; movzbl %bl,%r9d
DB 72,193,235,30 ; shr $0x1e,%rbx
- DB 69,15,182,217 ; movzbl %r9b,%r11d
- DB 73,193,233,30 ; shr $0x1e,%r9
- DB 243,65,15,16,20,31 ; movss (%r15,%rbx,1),%xmm2
- DB 243,67,15,16,12,15 ; movss (%r15,%r9,1),%xmm1
+ DB 69,15,182,208 ; movzbl %r8b,%r10d
+ DB 73,193,232,30 ; shr $0x1e,%r8
+ DB 243,65,15,16,20,30 ; movss (%r14,%rbx,1),%xmm2
+ DB 243,67,15,16,12,6 ; movss (%r14,%r8,1),%xmm1
DB 15,20,209 ; unpcklps %xmm1,%xmm2
- DB 243,67,15,16,12,151 ; movss (%r15,%r10,4),%xmm1
- DB 243,67,15,16,28,159 ; movss (%r15,%r11,4),%xmm3
+ DB 243,67,15,16,12,142 ; movss (%r14,%r9,4),%xmm1
+ DB 243,67,15,16,28,150 ; movss (%r14,%r10,4),%xmm3
DB 15,20,203 ; unpcklps %xmm3,%xmm1
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 76,139,72,24 ; mov 0x18(%rax),%r9
+ DB 76,139,64,24 ; mov 0x18(%rax),%r8
DB 102,65,15,111,209 ; movdqa %xmm9,%xmm2
DB 102,15,114,210,16 ; psrld $0x10,%xmm2
DB 102,65,15,219,208 ; pand %xmm8,%xmm2
DB 102,15,112,218,78 ; pshufd $0x4e,%xmm2,%xmm3
DB 102,72,15,126,219 ; movq %xmm3,%rbx
DB 102,72,15,126,208 ; movq %xmm2,%rax
- DB 68,15,182,208 ; movzbl %al,%r10d
+ DB 68,15,182,200 ; movzbl %al,%r9d
DB 72,193,232,30 ; shr $0x1e,%rax
- DB 68,15,182,219 ; movzbl %bl,%r11d
+ DB 68,15,182,211 ; movzbl %bl,%r10d
DB 72,193,235,30 ; shr $0x1e,%rbx
- DB 243,69,15,16,4,1 ; movss (%r9,%rax,1),%xmm8
- DB 243,65,15,16,20,25 ; movss (%r9,%rbx,1),%xmm2
+ DB 243,69,15,16,4,0 ; movss (%r8,%rax,1),%xmm8
+ DB 243,65,15,16,20,24 ; movss (%r8,%rbx,1),%xmm2
DB 68,15,20,194 ; unpcklps %xmm2,%xmm8
- DB 243,67,15,16,20,145 ; movss (%r9,%r10,4),%xmm2
- DB 243,67,15,16,28,153 ; movss (%r9,%r11,4),%xmm3
+ DB 243,67,15,16,20,136 ; movss (%r8,%r9,4),%xmm2
+ DB 243,67,15,16,28,144 ; movss (%r8,%r10,4),%xmm3
DB 15,20,211 ; unpcklps %xmm3,%xmm2
DB 65,15,20,208 ; unpcklps %xmm8,%xmm2
DB 102,65,15,114,209,24 ; psrld $0x18,%xmm9
DB 65,15,91,217 ; cvtdq2ps %xmm9,%xmm3
- DB 15,89,29,7,0,1,0 ; mulps 0x10007(%rip),%xmm3 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,29,211,0,1,0 ; mulps 0x100d3(%rip),%xmm3 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,45 ; je 1cccc <_sk_load_tables_sse2+0x16c>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,45 ; je 1ccae <_sk_load_tables_sse2+0x168>
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,23 ; je 1ccc1 <_sk_load_tables_sse2+0x161>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 15,133,192,254,255,255 ; jne 1cb74 <_sk_load_tables_sse2+0x14>
- DB 102,65,15,110,68,145,8 ; movd 0x8(%r9,%rdx,4),%xmm0
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,23 ; je 1cca3 <_sk_load_tables_sse2+0x15d>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 15,133,196,254,255,255 ; jne 1cb5a <_sk_load_tables_sse2+0x14>
+ DB 102,65,15,110,68,144,8 ; movd 0x8(%r8,%rdx,4),%xmm0
DB 102,68,15,112,200,69 ; pshufd $0x45,%xmm0,%xmm9
- DB 102,69,15,18,12,145 ; movlpd (%r9,%rdx,4),%xmm9
- DB 233,168,254,255,255 ; jmpq 1cb74 <_sk_load_tables_sse2+0x14>
- DB 102,69,15,110,12,145 ; movd (%r9,%rdx,4),%xmm9
- DB 233,157,254,255,255 ; jmpq 1cb74 <_sk_load_tables_sse2+0x14>
+ DB 102,69,15,18,12,144 ; movlpd (%r8,%rdx,4),%xmm9
+ DB 233,172,254,255,255 ; jmpq 1cb5a <_sk_load_tables_sse2+0x14>
+ DB 102,69,15,110,12,144 ; movd (%r8,%rdx,4),%xmm9
+ DB 233,161,254,255,255 ; jmpq 1cb5a <_sk_load_tables_sse2+0x14>
PUBLIC _sk_load_tables_u16_be_sse2
_sk_load_tables_u16_be_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 76,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,101,1,0,0 ; jne 1ce52 <_sk_load_tables_u16_be_sse2+0x17b>
- DB 102,67,15,16,4,81 ; movupd (%r9,%r10,2),%xmm0
- DB 102,67,15,16,76,81,16 ; movupd 0x10(%r9,%r10,2),%xmm1
- DB 65,87 ; push %r15
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 76,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,97,1,0,0 ; jne 1ce30 <_sk_load_tables_u16_be_sse2+0x177>
+ DB 102,67,15,16,4,72 ; movupd (%r8,%r9,2),%xmm0
+ DB 102,67,15,16,76,72,16 ; movupd 0x10(%r8,%r9,2),%xmm1
DB 65,86 ; push %r14
DB 83 ; push %rbx
DB 102,68,15,40,200 ; movapd %xmm0,%xmm9
@@ -27316,25 +27281,25 @@ _sk_load_tables_u16_be_sse2 LABEL PROC
DB 102,65,15,111,201 ; movdqa %xmm9,%xmm1
DB 102,15,97,200 ; punpcklwd %xmm0,%xmm1
DB 102,68,15,105,200 ; punpckhwd %xmm0,%xmm9
- DB 102,68,15,111,21,220,255,0,0 ; movdqa 0xffdc(%rip),%xmm10 # 2cd00 <_sk_overlay_sse2_8bit+0x10b3>
+ DB 102,68,15,111,21,172,0,1,0 ; movdqa 0x100ac(%rip),%xmm10 # 2cdb0 <_sk_overlay_sse2_8bit+0x113b>
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
DB 102,65,15,219,194 ; pand %xmm10,%xmm0
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
DB 102,65,15,97,192 ; punpcklwd %xmm8,%xmm0
DB 102,15,112,216,78 ; pshufd $0x4e,%xmm0,%xmm3
- DB 102,73,15,126,217 ; movq %xmm3,%r9
- DB 69,15,182,209 ; movzbl %r9b,%r10d
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 69,15,182,243 ; movzbl %r11b,%r14d
- DB 73,193,235,30 ; shr $0x1e,%r11
+ DB 102,73,15,126,216 ; movq %xmm3,%r8
+ DB 69,15,182,200 ; movzbl %r8b,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,15,182,218 ; movzbl %r10b,%r11d
+ DB 73,193,234,30 ; shr $0x1e,%r10
DB 72,139,88,8 ; mov 0x8(%rax),%rbx
- DB 76,139,120,16 ; mov 0x10(%rax),%r15
- DB 243,66,15,16,28,27 ; movss (%rbx,%r11,1),%xmm3
- DB 243,66,15,16,4,139 ; movss (%rbx,%r9,4),%xmm0
+ DB 76,139,112,16 ; mov 0x10(%rax),%r14
+ DB 243,66,15,16,28,19 ; movss (%rbx,%r10,1),%xmm3
+ DB 243,66,15,16,4,131 ; movss (%rbx,%r8,4),%xmm0
DB 15,20,216 ; unpcklps %xmm0,%xmm3
- DB 243,66,15,16,4,179 ; movss (%rbx,%r14,4),%xmm0
- DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
+ DB 243,66,15,16,4,155 ; movss (%rbx,%r11,4),%xmm0
+ DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
DB 15,20,194 ; unpcklps %xmm2,%xmm0
DB 15,20,195 ; unpcklps %xmm3,%xmm0
DB 102,15,115,217,8 ; psrldq $0x8,%xmm1
@@ -27342,33 +27307,33 @@ _sk_load_tables_u16_be_sse2 LABEL PROC
DB 102,65,15,97,200 ; punpcklwd %xmm8,%xmm1
DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
DB 102,72,15,126,211 ; movq %xmm2,%rbx
- DB 68,15,182,203 ; movzbl %bl,%r9d
+ DB 68,15,182,195 ; movzbl %bl,%r8d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 69,15,182,218 ; movzbl %r10b,%r11d
- DB 73,193,234,30 ; shr $0x1e,%r10
- DB 243,67,15,16,20,23 ; movss (%r15,%r10,1),%xmm2
- DB 243,65,15,16,12,159 ; movss (%r15,%rbx,4),%xmm1
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 69,15,182,209 ; movzbl %r9b,%r10d
+ DB 73,193,233,30 ; shr $0x1e,%r9
+ DB 243,67,15,16,20,14 ; movss (%r14,%r9,1),%xmm2
+ DB 243,65,15,16,12,158 ; movss (%r14,%rbx,4),%xmm1
DB 15,20,209 ; unpcklps %xmm1,%xmm2
- DB 243,67,15,16,12,159 ; movss (%r15,%r11,4),%xmm1
- DB 243,67,15,16,28,143 ; movss (%r15,%r9,4),%xmm3
+ DB 243,67,15,16,12,150 ; movss (%r14,%r10,4),%xmm1
+ DB 243,67,15,16,28,134 ; movss (%r14,%r8,4),%xmm3
DB 15,20,203 ; unpcklps %xmm3,%xmm1
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 76,139,80,24 ; mov 0x18(%rax),%r10
+ DB 76,139,72,24 ; mov 0x18(%rax),%r9
DB 102,69,15,219,209 ; pand %xmm9,%xmm10
DB 102,69,15,97,208 ; punpcklwd %xmm8,%xmm10
DB 102,65,15,112,210,78 ; pshufd $0x4e,%xmm10,%xmm2
DB 102,72,15,126,211 ; movq %xmm2,%rbx
- DB 68,15,182,203 ; movzbl %bl,%r9d
+ DB 68,15,182,195 ; movzbl %bl,%r8d
DB 72,193,235,32 ; shr $0x20,%rbx
DB 102,76,15,126,208 ; movq %xmm10,%rax
- DB 68,15,182,216 ; movzbl %al,%r11d
+ DB 68,15,182,208 ; movzbl %al,%r10d
DB 72,193,232,30 ; shr $0x1e,%rax
- DB 243,69,15,16,20,2 ; movss (%r10,%rax,1),%xmm10
- DB 243,65,15,16,20,154 ; movss (%r10,%rbx,4),%xmm2
+ DB 243,69,15,16,20,1 ; movss (%r9,%rax,1),%xmm10
+ DB 243,65,15,16,20,153 ; movss (%r9,%rbx,4),%xmm2
DB 68,15,20,210 ; unpcklps %xmm2,%xmm10
- DB 243,67,15,16,20,154 ; movss (%r10,%r11,4),%xmm2
- DB 243,67,15,16,28,138 ; movss (%r10,%r9,4),%xmm3
+ DB 243,67,15,16,20,145 ; movss (%r9,%r10,4),%xmm2
+ DB 243,67,15,16,28,129 ; movss (%r9,%r8,4),%xmm3
DB 15,20,211 ; unpcklps %xmm3,%xmm2
DB 65,15,20,210 ; unpcklps %xmm10,%xmm2
DB 102,65,15,112,217,78 ; pshufd $0x4e,%xmm9,%xmm3
@@ -27378,206 +27343,202 @@ _sk_load_tables_u16_be_sse2 LABEL PROC
DB 102,65,15,235,217 ; por %xmm9,%xmm3
DB 102,65,15,97,216 ; punpcklwd %xmm8,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
- DB 15,89,29,215,254,0,0 ; mulps 0xfed7(%rip),%xmm3 # 2cd20 <_sk_overlay_sse2_8bit+0x10d3>
+ DB 15,89,29,167,255,0,0 ; mulps 0xffa7(%rip),%xmm3 # 2cdd0 <_sk_overlay_sse2_8bit+0x115b>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
- DB 242,67,15,16,4,81 ; movsd (%r9,%r10,2),%xmm0
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,17 ; jne 1ce6f <_sk_load_tables_u16_be_sse2+0x198>
+ DB 242,67,15,16,4,72 ; movsd (%r8,%r9,2),%xmm0
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,17 ; jne 1ce4d <_sk_load_tables_u16_be_sse2+0x194>
DB 102,15,87,201 ; xorpd %xmm1,%xmm1
DB 102,15,20,193 ; unpcklpd %xmm1,%xmm0
DB 102,15,87,201 ; xorpd %xmm1,%xmm1
- DB 233,139,254,255,255 ; jmpq 1ccfa <_sk_load_tables_u16_be_sse2+0x23>
- DB 102,67,15,22,68,81,8 ; movhpd 0x8(%r9,%r10,2),%xmm0
+ DB 233,143,254,255,255 ; jmpq 1ccdc <_sk_load_tables_u16_be_sse2+0x23>
+ DB 102,67,15,22,68,72,8 ; movhpd 0x8(%r8,%r9,2),%xmm0
DB 102,15,87,201 ; xorpd %xmm1,%xmm1
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 15,130,118,254,255,255 ; jb 1ccfa <_sk_load_tables_u16_be_sse2+0x23>
- DB 242,67,15,16,76,81,16 ; movsd 0x10(%r9,%r10,2),%xmm1
- DB 233,106,254,255,255 ; jmpq 1ccfa <_sk_load_tables_u16_be_sse2+0x23>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 15,130,122,254,255,255 ; jb 1ccdc <_sk_load_tables_u16_be_sse2+0x23>
+ DB 242,67,15,16,76,72,16 ; movsd 0x10(%r8,%r9,2),%xmm1
+ DB 233,110,254,255,255 ; jmpq 1ccdc <_sk_load_tables_u16_be_sse2+0x23>
PUBLIC _sk_load_tables_rgb_u16_be_sse2
_sk_load_tables_rgb_u16_be_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
- DB 76,141,20,82 ; lea (%rdx,%rdx,2),%r10
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,84,1,0,0 ; jne 1cff6 <_sk_load_tables_rgb_u16_be_sse2+0x166>
- DB 243,71,15,111,28,81 ; movdqu (%r9,%r10,2),%xmm11
- DB 243,67,15,111,76,81,8 ; movdqu 0x8(%r9,%r10,2),%xmm1
+ DB 76,139,0 ; mov (%rax),%r8
+ DB 76,141,12,82 ; lea (%rdx,%rdx,2),%r9
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,80,1,0,0 ; jne 1cfd0 <_sk_load_tables_rgb_u16_be_sse2+0x162>
+ DB 243,71,15,111,28,72 ; movdqu (%r8,%r9,2),%xmm11
+ DB 243,67,15,111,76,72,8 ; movdqu 0x8(%r8,%r9,2),%xmm1
DB 102,15,115,217,4 ; psrldq $0x4,%xmm1
DB 102,69,15,111,211 ; movdqa %xmm11,%xmm10
DB 102,65,15,115,218,6 ; psrldq $0x6,%xmm10
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
DB 102,15,115,216,6 ; psrldq $0x6,%xmm0
- DB 65,87 ; push %r15
DB 65,86 ; push %r14
DB 83 ; push %rbx
DB 102,68,15,97,217 ; punpcklwd %xmm1,%xmm11
DB 102,68,15,97,208 ; punpcklwd %xmm0,%xmm10
DB 102,65,15,111,195 ; movdqa %xmm11,%xmm0
DB 102,65,15,97,194 ; punpcklwd %xmm10,%xmm0
- DB 102,68,15,111,5,22,254,0,0 ; movdqa 0xfe16(%rip),%xmm8 # 2cd00 <_sk_overlay_sse2_8bit+0x10b3>
+ DB 102,68,15,111,5,234,254,0,0 ; movdqa 0xfeea(%rip),%xmm8 # 2cdb0 <_sk_overlay_sse2_8bit+0x113b>
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,65,15,219,192 ; pand %xmm8,%xmm0
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
DB 102,65,15,97,193 ; punpcklwd %xmm9,%xmm0
DB 102,15,112,216,78 ; pshufd $0x4e,%xmm0,%xmm3
- DB 102,73,15,126,217 ; movq %xmm3,%r9
- DB 69,15,182,209 ; movzbl %r9b,%r10d
- DB 73,193,233,32 ; shr $0x20,%r9
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 69,15,182,243 ; movzbl %r11b,%r14d
- DB 73,193,235,30 ; shr $0x1e,%r11
+ DB 102,73,15,126,216 ; movq %xmm3,%r8
+ DB 69,15,182,200 ; movzbl %r8b,%r9d
+ DB 73,193,232,32 ; shr $0x20,%r8
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,15,182,218 ; movzbl %r10b,%r11d
+ DB 73,193,234,30 ; shr $0x1e,%r10
DB 72,139,88,8 ; mov 0x8(%rax),%rbx
- DB 76,139,120,16 ; mov 0x10(%rax),%r15
- DB 243,66,15,16,28,27 ; movss (%rbx,%r11,1),%xmm3
- DB 243,66,15,16,4,139 ; movss (%rbx,%r9,4),%xmm0
+ DB 76,139,112,16 ; mov 0x10(%rax),%r14
+ DB 243,66,15,16,28,19 ; movss (%rbx,%r10,1),%xmm3
+ DB 243,66,15,16,4,131 ; movss (%rbx,%r8,4),%xmm0
DB 15,20,216 ; unpcklps %xmm0,%xmm3
- DB 243,66,15,16,4,179 ; movss (%rbx,%r14,4),%xmm0
- DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
+ DB 243,66,15,16,4,155 ; movss (%rbx,%r11,4),%xmm0
+ DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
DB 15,20,194 ; unpcklps %xmm2,%xmm0
DB 15,20,195 ; unpcklps %xmm3,%xmm0
DB 102,65,15,219,200 ; pand %xmm8,%xmm1
DB 102,65,15,97,201 ; punpcklwd %xmm9,%xmm1
DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
DB 102,72,15,126,211 ; movq %xmm2,%rbx
- DB 68,15,182,203 ; movzbl %bl,%r9d
+ DB 68,15,182,195 ; movzbl %bl,%r8d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 69,15,182,218 ; movzbl %r10b,%r11d
- DB 73,193,234,30 ; shr $0x1e,%r10
- DB 243,67,15,16,20,23 ; movss (%r15,%r10,1),%xmm2
- DB 243,65,15,16,12,159 ; movss (%r15,%rbx,4),%xmm1
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 69,15,182,209 ; movzbl %r9b,%r10d
+ DB 73,193,233,30 ; shr $0x1e,%r9
+ DB 243,67,15,16,20,14 ; movss (%r14,%r9,1),%xmm2
+ DB 243,65,15,16,12,158 ; movss (%r14,%rbx,4),%xmm1
DB 15,20,209 ; unpcklps %xmm1,%xmm2
- DB 243,67,15,16,12,159 ; movss (%r15,%r11,4),%xmm1
- DB 243,67,15,16,28,143 ; movss (%r15,%r9,4),%xmm3
+ DB 243,67,15,16,12,150 ; movss (%r14,%r10,4),%xmm1
+ DB 243,67,15,16,28,134 ; movss (%r14,%r8,4),%xmm3
DB 15,20,203 ; unpcklps %xmm3,%xmm1
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 76,139,80,24 ; mov 0x18(%rax),%r10
+ DB 76,139,72,24 ; mov 0x18(%rax),%r9
DB 102,69,15,105,218 ; punpckhwd %xmm10,%xmm11
DB 102,69,15,219,216 ; pand %xmm8,%xmm11
DB 102,69,15,97,217 ; punpcklwd %xmm9,%xmm11
DB 102,65,15,112,211,78 ; pshufd $0x4e,%xmm11,%xmm2
DB 102,72,15,126,211 ; movq %xmm2,%rbx
- DB 68,15,182,203 ; movzbl %bl,%r9d
+ DB 68,15,182,195 ; movzbl %bl,%r8d
DB 72,193,235,32 ; shr $0x20,%rbx
DB 102,76,15,126,216 ; movq %xmm11,%rax
- DB 68,15,182,216 ; movzbl %al,%r11d
+ DB 68,15,182,208 ; movzbl %al,%r10d
DB 72,193,232,30 ; shr $0x1e,%rax
- DB 243,69,15,16,4,2 ; movss (%r10,%rax,1),%xmm8
- DB 243,65,15,16,20,154 ; movss (%r10,%rbx,4),%xmm2
+ DB 243,69,15,16,4,1 ; movss (%r9,%rax,1),%xmm8
+ DB 243,65,15,16,20,153 ; movss (%r9,%rbx,4),%xmm2
DB 68,15,20,194 ; unpcklps %xmm2,%xmm8
- DB 243,67,15,16,20,154 ; movss (%r10,%r11,4),%xmm2
- DB 243,67,15,16,28,138 ; movss (%r10,%r9,4),%xmm3
+ DB 243,67,15,16,20,145 ; movss (%r9,%r10,4),%xmm2
+ DB 243,67,15,16,28,129 ; movss (%r9,%r8,4),%xmm3
DB 15,20,211 ; unpcklps %xmm3,%xmm2
DB 65,15,20,208 ; unpcklps %xmm8,%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,161,250,0,0 ; movaps 0xfaa1(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,117,251,0,0 ; movaps 0xfb75(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
- DB 102,71,15,110,28,81 ; movd (%r9,%r10,2),%xmm11
- DB 102,71,15,196,92,81,4,2 ; pinsrw $0x2,0x4(%r9,%r10,2),%xmm11
+ DB 102,71,15,110,28,72 ; movd (%r8,%r9,2),%xmm11
+ DB 102,71,15,196,92,72,4,2 ; pinsrw $0x2,0x4(%r8,%r9,2),%xmm11
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,14 ; jne 1d01c <_sk_load_tables_rgb_u16_be_sse2+0x18c>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,14 ; jne 1cff6 <_sk_load_tables_rgb_u16_be_sse2+0x188>
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,69,15,239,210 ; pxor %xmm10,%xmm10
- DB 233,172,254,255,255 ; jmpq 1cec8 <_sk_load_tables_rgb_u16_be_sse2+0x38>
- DB 102,71,15,110,84,81,6 ; movd 0x6(%r9,%r10,2),%xmm10
- DB 102,71,15,196,84,81,10,2 ; pinsrw $0x2,0xa(%r9,%r10,2),%xmm10
+ DB 233,176,254,255,255 ; jmpq 1cea6 <_sk_load_tables_rgb_u16_be_sse2+0x38>
+ DB 102,71,15,110,84,72,6 ; movd 0x6(%r8,%r9,2),%xmm10
+ DB 102,71,15,196,84,72,10,2 ; pinsrw $0x2,0xa(%r8,%r9,2),%xmm10
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,24 ; jb 1d04d <_sk_load_tables_rgb_u16_be_sse2+0x1bd>
- DB 102,67,15,110,76,81,12 ; movd 0xc(%r9,%r10,2),%xmm1
- DB 102,67,15,196,76,81,16,2 ; pinsrw $0x2,0x10(%r9,%r10,2),%xmm1
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,24 ; jb 1d027 <_sk_load_tables_rgb_u16_be_sse2+0x1b9>
+ DB 102,67,15,110,76,72,12 ; movd 0xc(%r8,%r9,2),%xmm1
+ DB 102,67,15,196,76,72,16,2 ; pinsrw $0x2,0x10(%r8,%r9,2),%xmm1
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 233,123,254,255,255 ; jmpq 1cec8 <_sk_load_tables_rgb_u16_be_sse2+0x38>
+ DB 233,127,254,255,255 ; jmpq 1cea6 <_sk_load_tables_rgb_u16_be_sse2+0x38>
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 233,114,254,255,255 ; jmpq 1cec8 <_sk_load_tables_rgb_u16_be_sse2+0x38>
+ DB 233,118,254,255,255 ; jmpq 1cea6 <_sk_load_tables_rgb_u16_be_sse2+0x38>
PUBLIC _sk_byte_tables_sse2
_sk_byte_tables_sse2 LABEL PROC
DB 85 ; push %rbp
- DB 65,87 ; push %r15
DB 65,86 ; push %r14
DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,15,40,5,10,251,0,0 ; movaps 0xfb0a(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 68,15,40,5,226,251,0,0 ; movaps 0xfbe2(%rip),%xmm8 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,91,192 ; cvtps2dq %xmm0,%xmm0
- DB 102,73,15,126,193 ; movq %xmm0,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
+ DB 102,73,15,126,192 ; movq %xmm0,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
DB 102,15,112,192,78 ; pshufd $0x4e,%xmm0,%xmm0
- DB 102,73,15,126,193 ; movq %xmm0,%r9
- DB 69,137,206 ; mov %r9d,%r14d
- DB 77,137,207 ; mov %r9,%r15
- DB 73,193,239,32 ; shr $0x20,%r15
+ DB 102,73,15,126,192 ; movq %xmm0,%r8
+ DB 69,137,195 ; mov %r8d,%r11d
+ DB 77,137,198 ; mov %r8,%r14
+ DB 73,193,238,32 ; shr $0x20,%r14
DB 72,139,24 ; mov (%rax),%rbx
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
- DB 70,15,182,52,51 ; movzbl (%rbx,%r14,1),%r14d
- DB 66,15,182,44,59 ; movzbl (%rbx,%r15,1),%ebp
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 70,15,182,28,27 ; movzbl (%rbx,%r11,1),%r11d
+ DB 66,15,182,44,51 ; movzbl (%rbx,%r14,1),%ebp
DB 193,229,8 ; shl $0x8,%ebp
- DB 68,9,245 ; or %r14d,%ebp
- DB 70,15,182,20,19 ; movzbl (%rbx,%r10,1),%r10d
- DB 66,15,182,28,27 ; movzbl (%rbx,%r11,1),%ebx
+ DB 68,9,221 ; or %r11d,%ebp
+ DB 70,15,182,12,11 ; movzbl (%rbx,%r9,1),%r9d
+ DB 66,15,182,28,19 ; movzbl (%rbx,%r10,1),%ebx
DB 193,227,8 ; shl $0x8,%ebx
- DB 68,9,211 ; or %r10d,%ebx
+ DB 68,9,203 ; or %r9d,%ebx
DB 102,15,196,195,0 ; pinsrw $0x0,%ebx,%xmm0
DB 102,15,196,197,1 ; pinsrw $0x1,%ebp,%xmm0
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
DB 102,65,15,96,193 ; punpcklbw %xmm9,%xmm0
DB 102,65,15,97,193 ; punpcklwd %xmm9,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 68,15,40,21,180,251,0,0 ; movaps 0xfbb4(%rip),%xmm10 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,21,140,252,0,0 ; movaps 0xfc8c(%rip),%xmm10 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,194 ; mulps %xmm10,%xmm0
DB 65,15,89,200 ; mulps %xmm8,%xmm1
DB 102,15,91,201 ; cvtps2dq %xmm1,%xmm1
DB 102,72,15,126,205 ; movq %xmm1,%rbp
- DB 65,137,234 ; mov %ebp,%r10d
+ DB 65,137,233 ; mov %ebp,%r9d
DB 72,193,237,32 ; shr $0x20,%rbp
DB 102,15,112,201,78 ; pshufd $0x4e,%xmm1,%xmm1
DB 102,72,15,126,203 ; movq %xmm1,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 65,15,182,28,25 ; movzbl (%r9,%rbx,1),%ebx
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 65,15,182,28,24 ; movzbl (%r8,%rbx,1),%ebx
DB 193,227,8 ; shl $0x8,%ebx
- DB 68,9,219 ; or %r11d,%ebx
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 65,15,182,44,41 ; movzbl (%r9,%rbp,1),%ebp
+ DB 68,9,211 ; or %r10d,%ebx
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 65,15,182,44,40 ; movzbl (%r8,%rbp,1),%ebp
DB 193,229,8 ; shl $0x8,%ebp
- DB 68,9,213 ; or %r10d,%ebp
+ DB 68,9,205 ; or %r9d,%ebp
DB 102,15,196,205,0 ; pinsrw $0x0,%ebp,%xmm1
DB 102,15,196,203,1 ; pinsrw $0x1,%ebx,%xmm1
DB 102,65,15,96,201 ; punpcklbw %xmm9,%xmm1
DB 102,65,15,97,201 ; punpcklwd %xmm9,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
DB 65,15,89,202 ; mulps %xmm10,%xmm1
- DB 76,139,80,16 ; mov 0x10(%rax),%r10
+ DB 76,139,72,16 ; mov 0x10(%rax),%r9
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 102,15,91,210 ; cvtps2dq %xmm2,%xmm2
DB 102,72,15,126,211 ; movq %xmm2,%rbx
- DB 65,137,217 ; mov %ebx,%r9d
+ DB 65,137,216 ; mov %ebx,%r8d
DB 72,193,235,32 ; shr $0x20,%rbx
DB 102,15,112,210,78 ; pshufd $0x4e,%xmm2,%xmm2
DB 102,72,15,126,213 ; movq %xmm2,%rbp
- DB 65,137,235 ; mov %ebp,%r11d
+ DB 65,137,234 ; mov %ebp,%r10d
DB 72,193,237,32 ; shr $0x20,%rbp
- DB 71,15,182,28,26 ; movzbl (%r10,%r11,1),%r11d
- DB 65,15,182,44,42 ; movzbl (%r10,%rbp,1),%ebp
+ DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
+ DB 65,15,182,44,41 ; movzbl (%r9,%rbp,1),%ebp
DB 193,229,8 ; shl $0x8,%ebp
- DB 68,9,221 ; or %r11d,%ebp
- DB 71,15,182,12,10 ; movzbl (%r10,%r9,1),%r9d
- DB 65,15,182,28,26 ; movzbl (%r10,%rbx,1),%ebx
+ DB 68,9,213 ; or %r10d,%ebp
+ DB 71,15,182,4,1 ; movzbl (%r9,%r8,1),%r8d
+ DB 65,15,182,28,25 ; movzbl (%r9,%rbx,1),%ebx
DB 193,227,8 ; shl $0x8,%ebx
- DB 68,9,203 ; or %r9d,%ebx
+ DB 68,9,195 ; or %r8d,%ebx
DB 102,15,196,211,0 ; pinsrw $0x0,%ebx,%xmm2
DB 102,15,196,213,1 ; pinsrw $0x1,%ebp,%xmm2
DB 102,65,15,96,209 ; punpcklbw %xmm9,%xmm2
@@ -27588,20 +27549,20 @@ _sk_byte_tables_sse2 LABEL PROC
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 102,15,91,219 ; cvtps2dq %xmm3,%xmm3
DB 102,72,15,126,221 ; movq %xmm3,%rbp
- DB 65,137,233 ; mov %ebp,%r9d
+ DB 65,137,232 ; mov %ebp,%r8d
DB 72,193,237,32 ; shr $0x20,%rbp
DB 102,15,112,219,78 ; pshufd $0x4e,%xmm3,%xmm3
DB 102,72,15,126,219 ; movq %xmm3,%rbx
- DB 65,137,218 ; mov %ebx,%r10d
+ DB 65,137,217 ; mov %ebx,%r9d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 70,15,182,20,16 ; movzbl (%rax,%r10,1),%r10d
+ DB 70,15,182,12,8 ; movzbl (%rax,%r9,1),%r9d
DB 15,182,28,24 ; movzbl (%rax,%rbx,1),%ebx
DB 193,227,8 ; shl $0x8,%ebx
- DB 68,9,211 ; or %r10d,%ebx
- DB 70,15,182,12,8 ; movzbl (%rax,%r9,1),%r9d
+ DB 68,9,203 ; or %r9d,%ebx
+ DB 70,15,182,4,0 ; movzbl (%rax,%r8,1),%r8d
DB 15,182,4,40 ; movzbl (%rax,%rbp,1),%eax
DB 193,224,8 ; shl $0x8,%eax
- DB 68,9,200 ; or %r9d,%eax
+ DB 68,9,192 ; or %r8d,%eax
DB 102,15,196,216,0 ; pinsrw $0x0,%eax,%xmm3
DB 102,15,196,219,1 ; pinsrw $0x1,%ebx,%xmm3
DB 102,65,15,96,217 ; punpcklbw %xmm9,%xmm3
@@ -27611,68 +27572,66 @@ _sk_byte_tables_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 93 ; pop %rbp
DB 255,224 ; jmpq *%rax
PUBLIC _sk_byte_tables_rgb_sse2
_sk_byte_tables_rgb_sse2 LABEL PROC
DB 85 ; push %rbp
- DB 65,87 ; push %r15
DB 65,86 ; push %r14
DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,24 ; mov 0x18(%rax),%r9d
- DB 65,255,201 ; dec %r9d
- DB 102,69,15,110,193 ; movd %r9d,%xmm8
+ DB 68,139,64,24 ; mov 0x18(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 102,69,15,110,192 ; movd %r8d,%xmm8
DB 102,69,15,112,192,0 ; pshufd $0x0,%xmm8,%xmm8
DB 69,15,91,192 ; cvtdq2ps %xmm8,%xmm8
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,91,192 ; cvtps2dq %xmm0,%xmm0
- DB 102,73,15,126,193 ; movq %xmm0,%r9
- DB 69,137,202 ; mov %r9d,%r10d
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
+ DB 102,73,15,126,192 ; movq %xmm0,%r8
+ DB 69,137,193 ; mov %r8d,%r9d
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
DB 102,15,112,192,78 ; pshufd $0x4e,%xmm0,%xmm0
- DB 102,73,15,126,193 ; movq %xmm0,%r9
- DB 69,137,206 ; mov %r9d,%r14d
- DB 77,137,207 ; mov %r9,%r15
- DB 73,193,239,32 ; shr $0x20,%r15
+ DB 102,73,15,126,192 ; movq %xmm0,%r8
+ DB 69,137,195 ; mov %r8d,%r11d
+ DB 77,137,198 ; mov %r8,%r14
+ DB 73,193,238,32 ; shr $0x20,%r14
DB 72,139,24 ; mov (%rax),%rbx
- DB 76,139,72,8 ; mov 0x8(%rax),%r9
- DB 70,15,182,52,51 ; movzbl (%rbx,%r14,1),%r14d
- DB 66,15,182,44,59 ; movzbl (%rbx,%r15,1),%ebp
+ DB 76,139,64,8 ; mov 0x8(%rax),%r8
+ DB 70,15,182,28,27 ; movzbl (%rbx,%r11,1),%r11d
+ DB 66,15,182,44,51 ; movzbl (%rbx,%r14,1),%ebp
DB 193,229,8 ; shl $0x8,%ebp
- DB 68,9,245 ; or %r14d,%ebp
- DB 70,15,182,20,19 ; movzbl (%rbx,%r10,1),%r10d
- DB 66,15,182,28,27 ; movzbl (%rbx,%r11,1),%ebx
+ DB 68,9,221 ; or %r11d,%ebp
+ DB 70,15,182,12,11 ; movzbl (%rbx,%r9,1),%r9d
+ DB 66,15,182,28,19 ; movzbl (%rbx,%r10,1),%ebx
DB 193,227,8 ; shl $0x8,%ebx
- DB 68,9,211 ; or %r10d,%ebx
+ DB 68,9,203 ; or %r9d,%ebx
DB 102,15,196,195,0 ; pinsrw $0x0,%ebx,%xmm0
DB 102,15,196,197,1 ; pinsrw $0x1,%ebp,%xmm0
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
DB 102,65,15,96,193 ; punpcklbw %xmm9,%xmm0
DB 102,65,15,97,193 ; punpcklwd %xmm9,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 68,15,40,21,236,249,0,0 ; movaps 0xf9ec(%rip),%xmm10 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,21,200,250,0,0 ; movaps 0xfac8(%rip),%xmm10 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,194 ; mulps %xmm10,%xmm0
DB 65,15,89,200 ; mulps %xmm8,%xmm1
DB 102,15,91,201 ; cvtps2dq %xmm1,%xmm1
DB 102,72,15,126,205 ; movq %xmm1,%rbp
- DB 65,137,234 ; mov %ebp,%r10d
+ DB 65,137,233 ; mov %ebp,%r9d
DB 72,193,237,32 ; shr $0x20,%rbp
DB 102,15,112,201,78 ; pshufd $0x4e,%xmm1,%xmm1
DB 102,72,15,126,203 ; movq %xmm1,%rbx
- DB 65,137,219 ; mov %ebx,%r11d
+ DB 65,137,218 ; mov %ebx,%r10d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 71,15,182,28,25 ; movzbl (%r9,%r11,1),%r11d
- DB 65,15,182,28,25 ; movzbl (%r9,%rbx,1),%ebx
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 65,15,182,28,24 ; movzbl (%r8,%rbx,1),%ebx
DB 193,227,8 ; shl $0x8,%ebx
- DB 68,9,219 ; or %r11d,%ebx
- DB 71,15,182,20,17 ; movzbl (%r9,%r10,1),%r10d
- DB 65,15,182,44,41 ; movzbl (%r9,%rbp,1),%ebp
+ DB 68,9,211 ; or %r10d,%ebx
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 65,15,182,44,40 ; movzbl (%r8,%rbp,1),%ebp
DB 193,229,8 ; shl $0x8,%ebp
- DB 68,9,213 ; or %r10d,%ebp
+ DB 68,9,205 ; or %r9d,%ebp
DB 102,15,196,205,0 ; pinsrw $0x0,%ebp,%xmm1
DB 102,15,196,203,1 ; pinsrw $0x1,%ebx,%xmm1
DB 102,65,15,96,201 ; punpcklbw %xmm9,%xmm1
@@ -27683,20 +27642,20 @@ _sk_byte_tables_rgb_sse2 LABEL PROC
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 102,15,91,210 ; cvtps2dq %xmm2,%xmm2
DB 102,72,15,126,213 ; movq %xmm2,%rbp
- DB 65,137,233 ; mov %ebp,%r9d
+ DB 65,137,232 ; mov %ebp,%r8d
DB 72,193,237,32 ; shr $0x20,%rbp
DB 102,15,112,210,78 ; pshufd $0x4e,%xmm2,%xmm2
DB 102,72,15,126,211 ; movq %xmm2,%rbx
- DB 65,137,218 ; mov %ebx,%r10d
+ DB 65,137,217 ; mov %ebx,%r9d
DB 72,193,235,32 ; shr $0x20,%rbx
- DB 70,15,182,20,16 ; movzbl (%rax,%r10,1),%r10d
+ DB 70,15,182,12,8 ; movzbl (%rax,%r9,1),%r9d
DB 15,182,28,24 ; movzbl (%rax,%rbx,1),%ebx
DB 193,227,8 ; shl $0x8,%ebx
- DB 68,9,211 ; or %r10d,%ebx
- DB 70,15,182,12,8 ; movzbl (%rax,%r9,1),%r9d
+ DB 68,9,203 ; or %r9d,%ebx
+ DB 70,15,182,4,0 ; movzbl (%rax,%r8,1),%r8d
DB 15,182,4,40 ; movzbl (%rax,%rbp,1),%eax
DB 193,224,8 ; shl $0x8,%eax
- DB 68,9,200 ; or %r9d,%eax
+ DB 68,9,192 ; or %r8d,%eax
DB 102,15,196,208,0 ; pinsrw $0x0,%eax,%xmm2
DB 102,15,196,211,1 ; pinsrw $0x1,%ebx,%xmm2
DB 102,65,15,96,209 ; punpcklbw %xmm9,%xmm2
@@ -27706,15 +27665,13 @@ _sk_byte_tables_rgb_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 93 ; pop %rbp
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_r_sse2
_sk_table_r_sse2 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
@@ -27724,27 +27681,25 @@ _sk_table_r_sse2 LABEL PROC
DB 102,69,15,91,192 ; cvtps2dq %xmm8,%xmm8
DB 102,65,15,112,192,78 ; pshufd $0x4e,%xmm8,%xmm0
DB 102,72,15,126,192 ; movq %xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,77,15,126,195 ; movq %xmm8,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,71,15,16,4,153 ; movss (%r9,%r11,4),%xmm8
- DB 243,65,15,16,4,129 ; movss (%r9,%rax,4),%xmm0
+ DB 102,77,15,126,194 ; movq %xmm8,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,71,15,16,4,144 ; movss (%r8,%r10,4),%xmm8
+ DB 243,65,15,16,4,128 ; movss (%r8,%rax,4),%xmm0
DB 68,15,20,192 ; unpcklps %xmm0,%xmm8
- DB 243,65,15,16,4,153 ; movss (%r9,%rbx,4),%xmm0
- DB 243,71,15,16,12,145 ; movss (%r9,%r10,4),%xmm9
+ DB 243,67,15,16,4,152 ; movss (%r8,%r11,4),%xmm0
+ DB 243,71,15,16,12,136 ; movss (%r8,%r9,4),%xmm9
DB 65,15,20,193 ; unpcklps %xmm9,%xmm0
DB 65,15,20,192 ; unpcklps %xmm8,%xmm0
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_g_sse2
_sk_table_g_sse2 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
@@ -27754,27 +27709,25 @@ _sk_table_g_sse2 LABEL PROC
DB 102,69,15,91,192 ; cvtps2dq %xmm8,%xmm8
DB 102,65,15,112,200,78 ; pshufd $0x4e,%xmm8,%xmm1
DB 102,72,15,126,200 ; movq %xmm1,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,77,15,126,195 ; movq %xmm8,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,71,15,16,4,153 ; movss (%r9,%r11,4),%xmm8
- DB 243,65,15,16,12,129 ; movss (%r9,%rax,4),%xmm1
+ DB 102,77,15,126,194 ; movq %xmm8,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,71,15,16,4,144 ; movss (%r8,%r10,4),%xmm8
+ DB 243,65,15,16,12,128 ; movss (%r8,%rax,4),%xmm1
DB 68,15,20,193 ; unpcklps %xmm1,%xmm8
- DB 243,65,15,16,12,153 ; movss (%r9,%rbx,4),%xmm1
- DB 243,71,15,16,12,145 ; movss (%r9,%r10,4),%xmm9
+ DB 243,67,15,16,12,152 ; movss (%r8,%r11,4),%xmm1
+ DB 243,71,15,16,12,136 ; movss (%r8,%r9,4),%xmm9
DB 65,15,20,201 ; unpcklps %xmm9,%xmm1
DB 65,15,20,200 ; unpcklps %xmm8,%xmm1
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_b_sse2
_sk_table_b_sse2 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
@@ -27784,27 +27737,25 @@ _sk_table_b_sse2 LABEL PROC
DB 102,69,15,91,192 ; cvtps2dq %xmm8,%xmm8
DB 102,65,15,112,208,78 ; pshufd $0x4e,%xmm8,%xmm2
DB 102,72,15,126,208 ; movq %xmm2,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,77,15,126,195 ; movq %xmm8,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,71,15,16,4,153 ; movss (%r9,%r11,4),%xmm8
- DB 243,65,15,16,20,129 ; movss (%r9,%rax,4),%xmm2
+ DB 102,77,15,126,194 ; movq %xmm8,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,71,15,16,4,144 ; movss (%r8,%r10,4),%xmm8
+ DB 243,65,15,16,20,128 ; movss (%r8,%rax,4),%xmm2
DB 68,15,20,194 ; unpcklps %xmm2,%xmm8
- DB 243,65,15,16,20,153 ; movss (%r9,%rbx,4),%xmm2
- DB 243,71,15,16,12,145 ; movss (%r9,%r10,4),%xmm9
+ DB 243,67,15,16,20,152 ; movss (%r8,%r11,4),%xmm2
+ DB 243,71,15,16,12,136 ; movss (%r8,%r9,4),%xmm9
DB 65,15,20,209 ; unpcklps %xmm9,%xmm2
DB 65,15,20,208 ; unpcklps %xmm8,%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_table_a_sse2
_sk_table_a_sse2 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 139,64,8 ; mov 0x8(%rax),%eax
DB 255,200 ; dec %eax
DB 102,68,15,110,192 ; movd %eax,%xmm8
@@ -27814,20 +27765,19 @@ _sk_table_a_sse2 LABEL PROC
DB 102,69,15,91,192 ; cvtps2dq %xmm8,%xmm8
DB 102,65,15,112,216,78 ; pshufd $0x4e,%xmm8,%xmm3
DB 102,72,15,126,216 ; movq %xmm3,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,77,15,126,195 ; movq %xmm8,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,71,15,16,4,153 ; movss (%r9,%r11,4),%xmm8
- DB 243,65,15,16,28,129 ; movss (%r9,%rax,4),%xmm3
+ DB 102,77,15,126,194 ; movq %xmm8,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,71,15,16,4,144 ; movss (%r8,%r10,4),%xmm8
+ DB 243,65,15,16,28,128 ; movss (%r8,%rax,4),%xmm3
DB 68,15,20,195 ; unpcklps %xmm3,%xmm8
- DB 243,65,15,16,28,153 ; movss (%r9,%rbx,4),%xmm3
- DB 243,71,15,16,12,145 ; movss (%r9,%r10,4),%xmm9
+ DB 243,67,15,16,28,152 ; movss (%r8,%r11,4),%xmm3
+ DB 243,71,15,16,12,136 ; movss (%r8,%r9,4),%xmm9
DB 65,15,20,217 ; unpcklps %xmm9,%xmm3
DB 65,15,20,216 ; unpcklps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_parametric_r_sse2
@@ -27851,15 +27801,15 @@ _sk_parametric_r_sse2 LABEL PROC
DB 69,15,88,209 ; addps %xmm9,%xmm10
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 69,15,91,202 ; cvtdq2ps %xmm10,%xmm9
- DB 68,15,89,13,192,247,0,0 ; mulps 0xf7c0(%rip),%xmm9 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 68,15,84,21,200,247,0,0 ; andps 0xf7c8(%rip),%xmm10 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
- DB 68,15,86,21,240,244,0,0 ; orps 0xf4f0(%rip),%xmm10 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
- DB 68,15,88,13,200,247,0,0 ; addps 0xf7c8(%rip),%xmm9 # 2cd60 <_sk_overlay_sse2_8bit+0x1113>
- DB 68,15,40,37,208,247,0,0 ; movaps 0xf7d0(%rip),%xmm12 # 2cd70 <_sk_overlay_sse2_8bit+0x1123>
+ DB 68,15,89,13,166,248,0,0 ; mulps 0xf8a6(%rip),%xmm9 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 68,15,84,21,174,248,0,0 ; andps 0xf8ae(%rip),%xmm10 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
+ DB 68,15,86,21,198,245,0,0 ; orps 0xf5c6(%rip),%xmm10 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
+ DB 68,15,88,13,174,248,0,0 ; addps 0xf8ae(%rip),%xmm9 # 2ce10 <_sk_overlay_sse2_8bit+0x119b>
+ DB 68,15,40,37,182,248,0,0 ; movaps 0xf8b6(%rip),%xmm12 # 2ce20 <_sk_overlay_sse2_8bit+0x11ab>
DB 69,15,89,226 ; mulps %xmm10,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
- DB 68,15,88,21,208,247,0,0 ; addps 0xf7d0(%rip),%xmm10 # 2cd80 <_sk_overlay_sse2_8bit+0x1133>
- DB 68,15,40,37,216,247,0,0 ; movaps 0xf7d8(%rip),%xmm12 # 2cd90 <_sk_overlay_sse2_8bit+0x1143>
+ DB 68,15,88,21,182,248,0,0 ; addps 0xf8b6(%rip),%xmm10 # 2ce30 <_sk_overlay_sse2_8bit+0x11bb>
+ DB 68,15,40,37,190,248,0,0 ; movaps 0xf8be(%rip),%xmm12 # 2ce40 <_sk_overlay_sse2_8bit+0x11cb>
DB 69,15,94,226 ; divps %xmm10,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
DB 69,15,89,203 ; mulps %xmm11,%xmm9
@@ -27867,22 +27817,22 @@ _sk_parametric_r_sse2 LABEL PROC
DB 69,15,91,226 ; cvtdq2ps %xmm10,%xmm12
DB 69,15,40,233 ; movaps %xmm9,%xmm13
DB 69,15,194,236,1 ; cmpltps %xmm12,%xmm13
- DB 68,15,40,21,178,244,0,0 ; movaps 0xf4b2(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,21,152,245,0,0 ; movaps 0xf598(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,84,234 ; andps %xmm10,%xmm13
DB 69,15,87,219 ; xorps %xmm11,%xmm11
DB 69,15,92,229 ; subps %xmm13,%xmm12
DB 69,15,40,233 ; movaps %xmm9,%xmm13
DB 69,15,92,236 ; subps %xmm12,%xmm13
- DB 68,15,88,13,166,247,0,0 ; addps 0xf7a6(%rip),%xmm9 # 2cda0 <_sk_overlay_sse2_8bit+0x1153>
- DB 68,15,40,37,174,247,0,0 ; movaps 0xf7ae(%rip),%xmm12 # 2cdb0 <_sk_overlay_sse2_8bit+0x1163>
+ DB 68,15,88,13,140,248,0,0 ; addps 0xf88c(%rip),%xmm9 # 2ce50 <_sk_overlay_sse2_8bit+0x11db>
+ DB 68,15,40,37,148,248,0,0 ; movaps 0xf894(%rip),%xmm12 # 2ce60 <_sk_overlay_sse2_8bit+0x11eb>
DB 69,15,89,229 ; mulps %xmm13,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
- DB 68,15,40,37,174,247,0,0 ; movaps 0xf7ae(%rip),%xmm12 # 2cdc0 <_sk_overlay_sse2_8bit+0x1173>
+ DB 68,15,40,37,148,248,0,0 ; movaps 0xf894(%rip),%xmm12 # 2ce70 <_sk_overlay_sse2_8bit+0x11fb>
DB 69,15,92,229 ; subps %xmm13,%xmm12
- DB 68,15,40,45,178,247,0,0 ; movaps 0xf7b2(%rip),%xmm13 # 2cdd0 <_sk_overlay_sse2_8bit+0x1183>
+ DB 68,15,40,45,152,248,0,0 ; movaps 0xf898(%rip),%xmm13 # 2ce80 <_sk_overlay_sse2_8bit+0x120b>
DB 69,15,94,236 ; divps %xmm12,%xmm13
DB 69,15,88,233 ; addps %xmm9,%xmm13
- DB 68,15,89,45,178,247,0,0 ; mulps 0xf7b2(%rip),%xmm13 # 2cde0 <_sk_overlay_sse2_8bit+0x1193>
+ DB 68,15,89,45,152,248,0,0 ; mulps 0xf898(%rip),%xmm13 # 2ce90 <_sk_overlay_sse2_8bit+0x121b>
DB 102,69,15,91,205 ; cvtps2dq %xmm13,%xmm9
DB 243,68,15,16,96,20 ; movss 0x14(%rax),%xmm12
DB 69,15,198,228,0 ; shufps $0x0,%xmm12,%xmm12
@@ -27916,15 +27866,15 @@ _sk_parametric_g_sse2 LABEL PROC
DB 69,15,88,209 ; addps %xmm9,%xmm10
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 69,15,91,202 ; cvtdq2ps %xmm10,%xmm9
- DB 68,15,89,13,130,246,0,0 ; mulps 0xf682(%rip),%xmm9 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 68,15,84,21,138,246,0,0 ; andps 0xf68a(%rip),%xmm10 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
- DB 68,15,86,21,178,243,0,0 ; orps 0xf3b2(%rip),%xmm10 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
- DB 68,15,88,13,138,246,0,0 ; addps 0xf68a(%rip),%xmm9 # 2cd60 <_sk_overlay_sse2_8bit+0x1113>
- DB 68,15,40,37,146,246,0,0 ; movaps 0xf692(%rip),%xmm12 # 2cd70 <_sk_overlay_sse2_8bit+0x1123>
+ DB 68,15,89,13,104,247,0,0 ; mulps 0xf768(%rip),%xmm9 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 68,15,84,21,112,247,0,0 ; andps 0xf770(%rip),%xmm10 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
+ DB 68,15,86,21,136,244,0,0 ; orps 0xf488(%rip),%xmm10 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
+ DB 68,15,88,13,112,247,0,0 ; addps 0xf770(%rip),%xmm9 # 2ce10 <_sk_overlay_sse2_8bit+0x119b>
+ DB 68,15,40,37,120,247,0,0 ; movaps 0xf778(%rip),%xmm12 # 2ce20 <_sk_overlay_sse2_8bit+0x11ab>
DB 69,15,89,226 ; mulps %xmm10,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
- DB 68,15,88,21,146,246,0,0 ; addps 0xf692(%rip),%xmm10 # 2cd80 <_sk_overlay_sse2_8bit+0x1133>
- DB 68,15,40,37,154,246,0,0 ; movaps 0xf69a(%rip),%xmm12 # 2cd90 <_sk_overlay_sse2_8bit+0x1143>
+ DB 68,15,88,21,120,247,0,0 ; addps 0xf778(%rip),%xmm10 # 2ce30 <_sk_overlay_sse2_8bit+0x11bb>
+ DB 68,15,40,37,128,247,0,0 ; movaps 0xf780(%rip),%xmm12 # 2ce40 <_sk_overlay_sse2_8bit+0x11cb>
DB 69,15,94,226 ; divps %xmm10,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
DB 69,15,89,203 ; mulps %xmm11,%xmm9
@@ -27932,22 +27882,22 @@ _sk_parametric_g_sse2 LABEL PROC
DB 69,15,91,226 ; cvtdq2ps %xmm10,%xmm12
DB 69,15,40,233 ; movaps %xmm9,%xmm13
DB 69,15,194,236,1 ; cmpltps %xmm12,%xmm13
- DB 68,15,40,21,116,243,0,0 ; movaps 0xf374(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,21,90,244,0,0 ; movaps 0xf45a(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,84,234 ; andps %xmm10,%xmm13
DB 69,15,87,219 ; xorps %xmm11,%xmm11
DB 69,15,92,229 ; subps %xmm13,%xmm12
DB 69,15,40,233 ; movaps %xmm9,%xmm13
DB 69,15,92,236 ; subps %xmm12,%xmm13
- DB 68,15,88,13,104,246,0,0 ; addps 0xf668(%rip),%xmm9 # 2cda0 <_sk_overlay_sse2_8bit+0x1153>
- DB 68,15,40,37,112,246,0,0 ; movaps 0xf670(%rip),%xmm12 # 2cdb0 <_sk_overlay_sse2_8bit+0x1163>
+ DB 68,15,88,13,78,247,0,0 ; addps 0xf74e(%rip),%xmm9 # 2ce50 <_sk_overlay_sse2_8bit+0x11db>
+ DB 68,15,40,37,86,247,0,0 ; movaps 0xf756(%rip),%xmm12 # 2ce60 <_sk_overlay_sse2_8bit+0x11eb>
DB 69,15,89,229 ; mulps %xmm13,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
- DB 68,15,40,37,112,246,0,0 ; movaps 0xf670(%rip),%xmm12 # 2cdc0 <_sk_overlay_sse2_8bit+0x1173>
+ DB 68,15,40,37,86,247,0,0 ; movaps 0xf756(%rip),%xmm12 # 2ce70 <_sk_overlay_sse2_8bit+0x11fb>
DB 69,15,92,229 ; subps %xmm13,%xmm12
- DB 68,15,40,45,116,246,0,0 ; movaps 0xf674(%rip),%xmm13 # 2cdd0 <_sk_overlay_sse2_8bit+0x1183>
+ DB 68,15,40,45,90,247,0,0 ; movaps 0xf75a(%rip),%xmm13 # 2ce80 <_sk_overlay_sse2_8bit+0x120b>
DB 69,15,94,236 ; divps %xmm12,%xmm13
DB 69,15,88,233 ; addps %xmm9,%xmm13
- DB 68,15,89,45,116,246,0,0 ; mulps 0xf674(%rip),%xmm13 # 2cde0 <_sk_overlay_sse2_8bit+0x1193>
+ DB 68,15,89,45,90,247,0,0 ; mulps 0xf75a(%rip),%xmm13 # 2ce90 <_sk_overlay_sse2_8bit+0x121b>
DB 102,69,15,91,205 ; cvtps2dq %xmm13,%xmm9
DB 243,68,15,16,96,20 ; movss 0x14(%rax),%xmm12
DB 69,15,198,228,0 ; shufps $0x0,%xmm12,%xmm12
@@ -27981,15 +27931,15 @@ _sk_parametric_b_sse2 LABEL PROC
DB 69,15,88,209 ; addps %xmm9,%xmm10
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 69,15,91,202 ; cvtdq2ps %xmm10,%xmm9
- DB 68,15,89,13,68,245,0,0 ; mulps 0xf544(%rip),%xmm9 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 68,15,84,21,76,245,0,0 ; andps 0xf54c(%rip),%xmm10 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
- DB 68,15,86,21,116,242,0,0 ; orps 0xf274(%rip),%xmm10 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
- DB 68,15,88,13,76,245,0,0 ; addps 0xf54c(%rip),%xmm9 # 2cd60 <_sk_overlay_sse2_8bit+0x1113>
- DB 68,15,40,37,84,245,0,0 ; movaps 0xf554(%rip),%xmm12 # 2cd70 <_sk_overlay_sse2_8bit+0x1123>
+ DB 68,15,89,13,42,246,0,0 ; mulps 0xf62a(%rip),%xmm9 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 68,15,84,21,50,246,0,0 ; andps 0xf632(%rip),%xmm10 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
+ DB 68,15,86,21,74,243,0,0 ; orps 0xf34a(%rip),%xmm10 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
+ DB 68,15,88,13,50,246,0,0 ; addps 0xf632(%rip),%xmm9 # 2ce10 <_sk_overlay_sse2_8bit+0x119b>
+ DB 68,15,40,37,58,246,0,0 ; movaps 0xf63a(%rip),%xmm12 # 2ce20 <_sk_overlay_sse2_8bit+0x11ab>
DB 69,15,89,226 ; mulps %xmm10,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
- DB 68,15,88,21,84,245,0,0 ; addps 0xf554(%rip),%xmm10 # 2cd80 <_sk_overlay_sse2_8bit+0x1133>
- DB 68,15,40,37,92,245,0,0 ; movaps 0xf55c(%rip),%xmm12 # 2cd90 <_sk_overlay_sse2_8bit+0x1143>
+ DB 68,15,88,21,58,246,0,0 ; addps 0xf63a(%rip),%xmm10 # 2ce30 <_sk_overlay_sse2_8bit+0x11bb>
+ DB 68,15,40,37,66,246,0,0 ; movaps 0xf642(%rip),%xmm12 # 2ce40 <_sk_overlay_sse2_8bit+0x11cb>
DB 69,15,94,226 ; divps %xmm10,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
DB 69,15,89,203 ; mulps %xmm11,%xmm9
@@ -27997,22 +27947,22 @@ _sk_parametric_b_sse2 LABEL PROC
DB 69,15,91,226 ; cvtdq2ps %xmm10,%xmm12
DB 69,15,40,233 ; movaps %xmm9,%xmm13
DB 69,15,194,236,1 ; cmpltps %xmm12,%xmm13
- DB 68,15,40,21,54,242,0,0 ; movaps 0xf236(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,21,28,243,0,0 ; movaps 0xf31c(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,84,234 ; andps %xmm10,%xmm13
DB 69,15,87,219 ; xorps %xmm11,%xmm11
DB 69,15,92,229 ; subps %xmm13,%xmm12
DB 69,15,40,233 ; movaps %xmm9,%xmm13
DB 69,15,92,236 ; subps %xmm12,%xmm13
- DB 68,15,88,13,42,245,0,0 ; addps 0xf52a(%rip),%xmm9 # 2cda0 <_sk_overlay_sse2_8bit+0x1153>
- DB 68,15,40,37,50,245,0,0 ; movaps 0xf532(%rip),%xmm12 # 2cdb0 <_sk_overlay_sse2_8bit+0x1163>
+ DB 68,15,88,13,16,246,0,0 ; addps 0xf610(%rip),%xmm9 # 2ce50 <_sk_overlay_sse2_8bit+0x11db>
+ DB 68,15,40,37,24,246,0,0 ; movaps 0xf618(%rip),%xmm12 # 2ce60 <_sk_overlay_sse2_8bit+0x11eb>
DB 69,15,89,229 ; mulps %xmm13,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
- DB 68,15,40,37,50,245,0,0 ; movaps 0xf532(%rip),%xmm12 # 2cdc0 <_sk_overlay_sse2_8bit+0x1173>
+ DB 68,15,40,37,24,246,0,0 ; movaps 0xf618(%rip),%xmm12 # 2ce70 <_sk_overlay_sse2_8bit+0x11fb>
DB 69,15,92,229 ; subps %xmm13,%xmm12
- DB 68,15,40,45,54,245,0,0 ; movaps 0xf536(%rip),%xmm13 # 2cdd0 <_sk_overlay_sse2_8bit+0x1183>
+ DB 68,15,40,45,28,246,0,0 ; movaps 0xf61c(%rip),%xmm13 # 2ce80 <_sk_overlay_sse2_8bit+0x120b>
DB 69,15,94,236 ; divps %xmm12,%xmm13
DB 69,15,88,233 ; addps %xmm9,%xmm13
- DB 68,15,89,45,54,245,0,0 ; mulps 0xf536(%rip),%xmm13 # 2cde0 <_sk_overlay_sse2_8bit+0x1193>
+ DB 68,15,89,45,28,246,0,0 ; mulps 0xf61c(%rip),%xmm13 # 2ce90 <_sk_overlay_sse2_8bit+0x121b>
DB 102,69,15,91,205 ; cvtps2dq %xmm13,%xmm9
DB 243,68,15,16,96,20 ; movss 0x14(%rax),%xmm12
DB 69,15,198,228,0 ; shufps $0x0,%xmm12,%xmm12
@@ -28046,15 +27996,15 @@ _sk_parametric_a_sse2 LABEL PROC
DB 69,15,88,209 ; addps %xmm9,%xmm10
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 69,15,91,202 ; cvtdq2ps %xmm10,%xmm9
- DB 68,15,89,13,6,244,0,0 ; mulps 0xf406(%rip),%xmm9 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 68,15,84,21,14,244,0,0 ; andps 0xf40e(%rip),%xmm10 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
- DB 68,15,86,21,54,241,0,0 ; orps 0xf136(%rip),%xmm10 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
- DB 68,15,88,13,14,244,0,0 ; addps 0xf40e(%rip),%xmm9 # 2cd60 <_sk_overlay_sse2_8bit+0x1113>
- DB 68,15,40,37,22,244,0,0 ; movaps 0xf416(%rip),%xmm12 # 2cd70 <_sk_overlay_sse2_8bit+0x1123>
+ DB 68,15,89,13,236,244,0,0 ; mulps 0xf4ec(%rip),%xmm9 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 68,15,84,21,244,244,0,0 ; andps 0xf4f4(%rip),%xmm10 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
+ DB 68,15,86,21,12,242,0,0 ; orps 0xf20c(%rip),%xmm10 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
+ DB 68,15,88,13,244,244,0,0 ; addps 0xf4f4(%rip),%xmm9 # 2ce10 <_sk_overlay_sse2_8bit+0x119b>
+ DB 68,15,40,37,252,244,0,0 ; movaps 0xf4fc(%rip),%xmm12 # 2ce20 <_sk_overlay_sse2_8bit+0x11ab>
DB 69,15,89,226 ; mulps %xmm10,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
- DB 68,15,88,21,22,244,0,0 ; addps 0xf416(%rip),%xmm10 # 2cd80 <_sk_overlay_sse2_8bit+0x1133>
- DB 68,15,40,37,30,244,0,0 ; movaps 0xf41e(%rip),%xmm12 # 2cd90 <_sk_overlay_sse2_8bit+0x1143>
+ DB 68,15,88,21,252,244,0,0 ; addps 0xf4fc(%rip),%xmm10 # 2ce30 <_sk_overlay_sse2_8bit+0x11bb>
+ DB 68,15,40,37,4,245,0,0 ; movaps 0xf504(%rip),%xmm12 # 2ce40 <_sk_overlay_sse2_8bit+0x11cb>
DB 69,15,94,226 ; divps %xmm10,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
DB 69,15,89,203 ; mulps %xmm11,%xmm9
@@ -28062,22 +28012,22 @@ _sk_parametric_a_sse2 LABEL PROC
DB 69,15,91,226 ; cvtdq2ps %xmm10,%xmm12
DB 69,15,40,233 ; movaps %xmm9,%xmm13
DB 69,15,194,236,1 ; cmpltps %xmm12,%xmm13
- DB 68,15,40,21,248,240,0,0 ; movaps 0xf0f8(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,21,222,241,0,0 ; movaps 0xf1de(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,84,234 ; andps %xmm10,%xmm13
DB 69,15,87,219 ; xorps %xmm11,%xmm11
DB 69,15,92,229 ; subps %xmm13,%xmm12
DB 69,15,40,233 ; movaps %xmm9,%xmm13
DB 69,15,92,236 ; subps %xmm12,%xmm13
- DB 68,15,88,13,236,243,0,0 ; addps 0xf3ec(%rip),%xmm9 # 2cda0 <_sk_overlay_sse2_8bit+0x1153>
- DB 68,15,40,37,244,243,0,0 ; movaps 0xf3f4(%rip),%xmm12 # 2cdb0 <_sk_overlay_sse2_8bit+0x1163>
+ DB 68,15,88,13,210,244,0,0 ; addps 0xf4d2(%rip),%xmm9 # 2ce50 <_sk_overlay_sse2_8bit+0x11db>
+ DB 68,15,40,37,218,244,0,0 ; movaps 0xf4da(%rip),%xmm12 # 2ce60 <_sk_overlay_sse2_8bit+0x11eb>
DB 69,15,89,229 ; mulps %xmm13,%xmm12
DB 69,15,92,204 ; subps %xmm12,%xmm9
- DB 68,15,40,37,244,243,0,0 ; movaps 0xf3f4(%rip),%xmm12 # 2cdc0 <_sk_overlay_sse2_8bit+0x1173>
+ DB 68,15,40,37,218,244,0,0 ; movaps 0xf4da(%rip),%xmm12 # 2ce70 <_sk_overlay_sse2_8bit+0x11fb>
DB 69,15,92,229 ; subps %xmm13,%xmm12
- DB 68,15,40,45,248,243,0,0 ; movaps 0xf3f8(%rip),%xmm13 # 2cdd0 <_sk_overlay_sse2_8bit+0x1183>
+ DB 68,15,40,45,222,244,0,0 ; movaps 0xf4de(%rip),%xmm13 # 2ce80 <_sk_overlay_sse2_8bit+0x120b>
DB 69,15,94,236 ; divps %xmm12,%xmm13
DB 69,15,88,233 ; addps %xmm9,%xmm13
- DB 68,15,89,45,248,243,0,0 ; mulps 0xf3f8(%rip),%xmm13 # 2cde0 <_sk_overlay_sse2_8bit+0x1193>
+ DB 68,15,89,45,222,244,0,0 ; mulps 0xf4de(%rip),%xmm13 # 2ce90 <_sk_overlay_sse2_8bit+0x121b>
DB 102,69,15,91,205 ; cvtps2dq %xmm13,%xmm9
DB 243,68,15,16,96,20 ; movss 0x14(%rax),%xmm12
DB 69,15,198,228,0 ; shufps $0x0,%xmm12,%xmm12
@@ -28101,19 +28051,19 @@ _sk_gamma_sse2 LABEL PROC
DB 15,40,218 ; movaps %xmm2,%xmm3
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 15,91,194 ; cvtdq2ps %xmm2,%xmm0
- DB 15,89,5,0,243,0,0 ; mulps 0xf300(%rip),%xmm0 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 15,84,21,9,243,0,0 ; andps 0xf309(%rip),%xmm2 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
- DB 68,15,40,53,49,240,0,0 ; movaps 0xf031(%rip),%xmm14 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 15,89,5,230,243,0,0 ; mulps 0xf3e6(%rip),%xmm0 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 15,84,21,239,243,0,0 ; andps 0xf3ef(%rip),%xmm2 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
+ DB 68,15,40,53,7,241,0,0 ; movaps 0xf107(%rip),%xmm14 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 65,15,86,214 ; orps %xmm14,%xmm2
- DB 68,15,40,37,5,243,0,0 ; movaps 0xf305(%rip),%xmm12 # 2cd60 <_sk_overlay_sse2_8bit+0x1113>
+ DB 68,15,40,37,235,243,0,0 ; movaps 0xf3eb(%rip),%xmm12 # 2ce10 <_sk_overlay_sse2_8bit+0x119b>
DB 65,15,88,196 ; addps %xmm12,%xmm0
- DB 68,15,40,29,9,243,0,0 ; movaps 0xf309(%rip),%xmm11 # 2cd70 <_sk_overlay_sse2_8bit+0x1123>
+ DB 68,15,40,29,239,243,0,0 ; movaps 0xf3ef(%rip),%xmm11 # 2ce20 <_sk_overlay_sse2_8bit+0x11ab>
DB 15,40,226 ; movaps %xmm2,%xmm4
DB 65,15,89,227 ; mulps %xmm11,%xmm4
DB 15,92,196 ; subps %xmm4,%xmm0
- DB 68,15,40,21,7,243,0,0 ; movaps 0xf307(%rip),%xmm10 # 2cd80 <_sk_overlay_sse2_8bit+0x1133>
+ DB 68,15,40,21,237,243,0,0 ; movaps 0xf3ed(%rip),%xmm10 # 2ce30 <_sk_overlay_sse2_8bit+0x11bb>
DB 65,15,88,210 ; addps %xmm10,%xmm2
- DB 68,15,40,45,11,243,0,0 ; movaps 0xf30b(%rip),%xmm13 # 2cd90 <_sk_overlay_sse2_8bit+0x1143>
+ DB 68,15,40,45,241,243,0,0 ; movaps 0xf3f1(%rip),%xmm13 # 2ce40 <_sk_overlay_sse2_8bit+0x11cb>
DB 65,15,40,229 ; movaps %xmm13,%xmm4
DB 15,94,226 ; divps %xmm2,%xmm4
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -28125,27 +28075,27 @@ _sk_gamma_sse2 LABEL PROC
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
DB 15,40,224 ; movaps %xmm0,%xmm4
DB 15,194,226,1 ; cmpltps %xmm2,%xmm4
- DB 68,15,40,13,219,239,0,0 ; movaps 0xefdb(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,13,193,240,0,0 ; movaps 0xf0c1(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 65,15,84,225 ; andps %xmm9,%xmm4
DB 15,92,212 ; subps %xmm4,%xmm2
DB 15,40,224 ; movaps %xmm0,%xmm4
DB 15,92,226 ; subps %xmm2,%xmm4
- DB 15,40,53,215,242,0,0 ; movaps 0xf2d7(%rip),%xmm6 # 2cda0 <_sk_overlay_sse2_8bit+0x1153>
+ DB 15,40,53,189,243,0,0 ; movaps 0xf3bd(%rip),%xmm6 # 2ce50 <_sk_overlay_sse2_8bit+0x11db>
DB 15,88,198 ; addps %xmm6,%xmm0
- DB 15,40,61,237,242,0,0 ; movaps 0xf2ed(%rip),%xmm7 # 2cdc0 <_sk_overlay_sse2_8bit+0x1173>
+ DB 15,40,61,211,243,0,0 ; movaps 0xf3d3(%rip),%xmm7 # 2ce70 <_sk_overlay_sse2_8bit+0x11fb>
DB 15,40,239 ; movaps %xmm7,%xmm5
DB 15,92,236 ; subps %xmm4,%xmm5
DB 15,40,212 ; movaps %xmm4,%xmm2
- DB 15,40,37,205,242,0,0 ; movaps 0xf2cd(%rip),%xmm4 # 2cdb0 <_sk_overlay_sse2_8bit+0x1163>
+ DB 15,40,37,179,243,0,0 ; movaps 0xf3b3(%rip),%xmm4 # 2ce60 <_sk_overlay_sse2_8bit+0x11eb>
DB 15,89,212 ; mulps %xmm4,%xmm2
DB 15,92,194 ; subps %xmm2,%xmm0
- DB 68,15,40,61,223,242,0,0 ; movaps 0xf2df(%rip),%xmm15 # 2cdd0 <_sk_overlay_sse2_8bit+0x1183>
+ DB 68,15,40,61,197,243,0,0 ; movaps 0xf3c5(%rip),%xmm15 # 2ce80 <_sk_overlay_sse2_8bit+0x120b>
DB 65,15,40,215 ; movaps %xmm15,%xmm2
DB 15,94,213 ; divps %xmm5,%xmm2
DB 15,88,208 ; addps %xmm0,%xmm2
DB 15,91,193 ; cvtdq2ps %xmm1,%xmm0
- DB 15,89,5,59,242,0,0 ; mulps 0xf23b(%rip),%xmm0 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 15,84,13,68,242,0,0 ; andps 0xf244(%rip),%xmm1 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
+ DB 15,89,5,33,243,0,0 ; mulps 0xf321(%rip),%xmm0 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 15,84,13,42,243,0,0 ; andps 0xf32a(%rip),%xmm1 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
DB 65,15,86,206 ; orps %xmm14,%xmm1
DB 65,15,88,196 ; addps %xmm12,%xmm0
DB 15,40,233 ; movaps %xmm1,%xmm5
@@ -28175,9 +28125,9 @@ _sk_gamma_sse2 LABEL PROC
DB 15,94,206 ; divps %xmm6,%xmm1
DB 15,88,200 ; addps %xmm0,%xmm1
DB 15,91,195 ; cvtdq2ps %xmm3,%xmm0
- DB 15,89,5,202,241,0,0 ; mulps 0xf1ca(%rip),%xmm0 # 2cd40 <_sk_overlay_sse2_8bit+0x10f3>
- DB 15,84,29,211,241,0,0 ; andps 0xf1d3(%rip),%xmm3 # 2cd50 <_sk_overlay_sse2_8bit+0x1103>
- DB 15,86,29,252,238,0,0 ; orps 0xeefc(%rip),%xmm3 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 15,89,5,176,242,0,0 ; mulps 0xf2b0(%rip),%xmm0 # 2cdf0 <_sk_overlay_sse2_8bit+0x117b>
+ DB 15,84,29,185,242,0,0 ; andps 0xf2b9(%rip),%xmm3 # 2ce00 <_sk_overlay_sse2_8bit+0x118b>
+ DB 15,86,29,210,239,0,0 ; orps 0xefd2(%rip),%xmm3 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 65,15,88,196 ; addps %xmm12,%xmm0
DB 68,15,89,219 ; mulps %xmm3,%xmm11
DB 65,15,92,195 ; subps %xmm11,%xmm0
@@ -28199,7 +28149,7 @@ _sk_gamma_sse2 LABEL PROC
DB 15,92,253 ; subps %xmm5,%xmm7
DB 68,15,94,255 ; divps %xmm7,%xmm15
DB 68,15,88,248 ; addps %xmm0,%xmm15
- DB 15,40,5,9,242,0,0 ; movaps 0xf209(%rip),%xmm0 # 2cde0 <_sk_overlay_sse2_8bit+0x1193>
+ DB 15,40,5,239,242,0,0 ; movaps 0xf2ef(%rip),%xmm0 # 2ce90 <_sk_overlay_sse2_8bit+0x121b>
DB 15,89,208 ; mulps %xmm0,%xmm2
DB 15,89,200 ; mulps %xmm0,%xmm1
DB 68,15,89,248 ; mulps %xmm0,%xmm15
@@ -28217,29 +28167,29 @@ _sk_gamma_sse2 LABEL PROC
PUBLIC _sk_lab_to_xyz_sse2
_sk_lab_to_xyz_sse2 LABEL PROC
- DB 15,89,5,219,241,0,0 ; mulps 0xf1db(%rip),%xmm0 # 2cdf0 <_sk_overlay_sse2_8bit+0x11a3>
- DB 68,15,40,5,83,239,0,0 ; movaps 0xef53(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 15,89,5,193,242,0,0 ; mulps 0xf2c1(%rip),%xmm0 # 2cea0 <_sk_overlay_sse2_8bit+0x122b>
+ DB 68,15,40,5,57,240,0,0 ; movaps 0xf039(%rip),%xmm8 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 65,15,89,200 ; mulps %xmm8,%xmm1
- DB 68,15,40,13,215,241,0,0 ; movaps 0xf1d7(%rip),%xmm9 # 2ce00 <_sk_overlay_sse2_8bit+0x11b3>
+ DB 68,15,40,13,189,242,0,0 ; movaps 0xf2bd(%rip),%xmm9 # 2ceb0 <_sk_overlay_sse2_8bit+0x123b>
DB 65,15,88,201 ; addps %xmm9,%xmm1
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 65,15,88,209 ; addps %xmm9,%xmm2
- DB 15,88,5,212,241,0,0 ; addps 0xf1d4(%rip),%xmm0 # 2ce10 <_sk_overlay_sse2_8bit+0x11c3>
- DB 15,89,5,221,241,0,0 ; mulps 0xf1dd(%rip),%xmm0 # 2ce20 <_sk_overlay_sse2_8bit+0x11d3>
- DB 15,89,13,230,241,0,0 ; mulps 0xf1e6(%rip),%xmm1 # 2ce30 <_sk_overlay_sse2_8bit+0x11e3>
+ DB 15,88,5,186,242,0,0 ; addps 0xf2ba(%rip),%xmm0 # 2cec0 <_sk_overlay_sse2_8bit+0x124b>
+ DB 15,89,5,195,242,0,0 ; mulps 0xf2c3(%rip),%xmm0 # 2ced0 <_sk_overlay_sse2_8bit+0x125b>
+ DB 15,89,13,204,242,0,0 ; mulps 0xf2cc(%rip),%xmm1 # 2cee0 <_sk_overlay_sse2_8bit+0x126b>
DB 15,88,200 ; addps %xmm0,%xmm1
- DB 15,89,21,236,241,0,0 ; mulps 0xf1ec(%rip),%xmm2 # 2ce40 <_sk_overlay_sse2_8bit+0x11f3>
+ DB 15,89,21,210,242,0,0 ; mulps 0xf2d2(%rip),%xmm2 # 2cef0 <_sk_overlay_sse2_8bit+0x127b>
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 68,15,92,202 ; subps %xmm2,%xmm9
DB 68,15,40,225 ; movaps %xmm1,%xmm12
DB 69,15,89,228 ; mulps %xmm12,%xmm12
DB 68,15,89,225 ; mulps %xmm1,%xmm12
- DB 15,40,21,225,241,0,0 ; movaps 0xf1e1(%rip),%xmm2 # 2ce50 <_sk_overlay_sse2_8bit+0x1203>
+ DB 15,40,21,199,242,0,0 ; movaps 0xf2c7(%rip),%xmm2 # 2cf00 <_sk_overlay_sse2_8bit+0x128b>
DB 68,15,40,194 ; movaps %xmm2,%xmm8
DB 69,15,194,196,1 ; cmpltps %xmm12,%xmm8
- DB 68,15,40,21,224,241,0,0 ; movaps 0xf1e0(%rip),%xmm10 # 2ce60 <_sk_overlay_sse2_8bit+0x1213>
+ DB 68,15,40,21,198,242,0,0 ; movaps 0xf2c6(%rip),%xmm10 # 2cf10 <_sk_overlay_sse2_8bit+0x129b>
DB 65,15,88,202 ; addps %xmm10,%xmm1
- DB 68,15,40,29,228,241,0,0 ; movaps 0xf1e4(%rip),%xmm11 # 2ce70 <_sk_overlay_sse2_8bit+0x1223>
+ DB 68,15,40,29,202,242,0,0 ; movaps 0xf2ca(%rip),%xmm11 # 2cf20 <_sk_overlay_sse2_8bit+0x12ab>
DB 65,15,89,203 ; mulps %xmm11,%xmm1
DB 69,15,84,224 ; andps %xmm8,%xmm12
DB 68,15,85,193 ; andnps %xmm1,%xmm8
@@ -28263,8 +28213,8 @@ _sk_lab_to_xyz_sse2 LABEL PROC
DB 15,84,194 ; andps %xmm2,%xmm0
DB 65,15,85,209 ; andnps %xmm9,%xmm2
DB 15,86,208 ; orps %xmm0,%xmm2
- DB 68,15,89,5,148,241,0,0 ; mulps 0xf194(%rip),%xmm8 # 2ce80 <_sk_overlay_sse2_8bit+0x1233>
- DB 15,89,21,157,241,0,0 ; mulps 0xf19d(%rip),%xmm2 # 2ce90 <_sk_overlay_sse2_8bit+0x1243>
+ DB 68,15,89,5,122,242,0,0 ; mulps 0xf27a(%rip),%xmm8 # 2cf30 <_sk_overlay_sse2_8bit+0x12bb>
+ DB 15,89,21,131,242,0,0 ; mulps 0xf283(%rip),%xmm2 # 2cf40 <_sk_overlay_sse2_8bit+0x12cb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 255,224 ; jmpq *%rax
@@ -28272,95 +28222,93 @@ _sk_lab_to_xyz_sse2 LABEL PROC
PUBLIC _sk_load_a8_sse2
_sk_load_a8_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,46 ; jne 1dd41 <_sk_load_a8_sse2+0x46>
- DB 102,67,15,110,4,25 ; movd (%r9,%r11,1),%xmm0
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,46 ; jne 1dd0b <_sk_load_a8_sse2+0x46>
+ DB 102,67,15,110,4,16 ; movd (%r8,%r10,1),%xmm0
DB 102,15,96,192 ; punpcklbw %xmm0,%xmm0
DB 102,15,97,192 ; punpcklwd %xmm0,%xmm0
- DB 102,15,219,5,23,238,0,0 ; pand 0xee17(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,15,219,5,253,238,0,0 ; pand 0xeefd(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 15,91,216 ; cvtdq2ps %xmm0,%xmm3
- DB 15,89,29,93,239,0,0 ; mulps 0xef5d(%rip),%xmm3 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,29,67,240,0,0 ; mulps 0xf043(%rip),%xmm3 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 102,15,87,201 ; xorpd %xmm1,%xmm1
DB 15,87,210 ; xorps %xmm2,%xmm2
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,54 ; je 1dd84 <_sk_load_a8_sse2+0x89>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,54 ; je 1dd4e <_sk_load_a8_sse2+0x89>
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 1dd6d <_sk_load_a8_sse2+0x72>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,195 ; jne 1dd21 <_sk_load_a8_sse2+0x26>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 1dd37 <_sk_load_a8_sse2+0x72>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,195 ; jne 1dceb <_sk_load_a8_sse2+0x26>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm0
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,15,110,200 ; movd %eax,%xmm1
DB 102,15,96,200 ; punpcklbw %xmm0,%xmm1
DB 102,15,97,200 ; punpcklwd %xmm0,%xmm1
DB 242,15,16,193 ; movsd %xmm1,%xmm0
- DB 235,157 ; jmp 1dd21 <_sk_load_a8_sse2+0x26>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 235,157 ; jmp 1dceb <_sk_load_a8_sse2+0x26>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
- DB 235,146 ; jmp 1dd21 <_sk_load_a8_sse2+0x26>
+ DB 235,146 ; jmp 1dceb <_sk_load_a8_sse2+0x26>
PUBLIC _sk_load_a8_dst_sse2
_sk_load_a8_dst_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,46 ; jne 1ddd5 <_sk_load_a8_dst_sse2+0x46>
- DB 102,67,15,110,36,25 ; movd (%r9,%r11,1),%xmm4
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,46 ; jne 1dd9f <_sk_load_a8_dst_sse2+0x46>
+ DB 102,67,15,110,36,16 ; movd (%r8,%r10,1),%xmm4
DB 102,15,96,224 ; punpcklbw %xmm0,%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
- DB 102,15,219,37,131,237,0,0 ; pand 0xed83(%rip),%xmm4 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,15,219,37,105,238,0,0 ; pand 0xee69(%rip),%xmm4 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 15,91,252 ; cvtdq2ps %xmm4,%xmm7
- DB 15,89,61,201,238,0,0 ; mulps 0xeec9(%rip),%xmm7 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,61,175,239,0,0 ; mulps 0xefaf(%rip),%xmm7 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,87,228 ; xorps %xmm4,%xmm4
DB 102,15,87,237 ; xorpd %xmm5,%xmm5
DB 15,87,246 ; xorps %xmm6,%xmm6
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,54 ; je 1de18 <_sk_load_a8_dst_sse2+0x89>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,54 ; je 1dde2 <_sk_load_a8_dst_sse2+0x89>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 1de01 <_sk_load_a8_dst_sse2+0x72>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,195 ; jne 1ddb5 <_sk_load_a8_dst_sse2+0x26>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 1ddcb <_sk_load_a8_dst_sse2+0x72>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,195 ; jne 1dd7f <_sk_load_a8_dst_sse2+0x26>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,15,110,232 ; movd %eax,%xmm5
DB 102,15,96,232 ; punpcklbw %xmm0,%xmm5
DB 102,15,97,232 ; punpcklwd %xmm0,%xmm5
DB 242,15,16,229 ; movsd %xmm5,%xmm4
- DB 235,157 ; jmp 1ddb5 <_sk_load_a8_dst_sse2+0x26>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 235,157 ; jmp 1dd7f <_sk_load_a8_dst_sse2+0x26>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
- DB 235,146 ; jmp 1ddb5 <_sk_load_a8_dst_sse2+0x26>
+ DB 235,146 ; jmp 1dd7f <_sk_load_a8_dst_sse2+0x26>
PUBLIC _sk_gather_a8_sse2
_sk_gather_a8_sse2 LABEL PROC
- DB 85 ; push %rbp
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -28373,174 +28321,170 @@ _sk_gather_a8_sse2 LABEL PROC
DB 243,15,91,192 ; cvttps2dq %xmm0,%xmm0
DB 102,15,254,193 ; paddd %xmm1,%xmm0
DB 102,72,15,126,192 ; movq %xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
DB 102,15,112,192,78 ; pshufd $0x4e,%xmm0,%xmm0
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 65,15,182,44,25 ; movzbl (%r9,%rbx,1),%ebp
- DB 67,15,182,28,25 ; movzbl (%r9,%r11,1),%ebx
- DB 193,227,8 ; shl $0x8,%ebx
- DB 9,235 ; or %ebp,%ebx
- DB 67,15,182,44,17 ; movzbl (%r9,%r10,1),%ebp
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 71,15,182,28,24 ; movzbl (%r8,%r11,1),%r11d
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 65,193,226,8 ; shl $0x8,%r10d
+ DB 69,9,218 ; or %r11d,%r10d
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 65,15,182,4,0 ; movzbl (%r8,%rax,1),%eax
DB 193,224,8 ; shl $0x8,%eax
- DB 9,232 ; or %ebp,%eax
+ DB 68,9,200 ; or %r9d,%eax
DB 102,15,196,192,0 ; pinsrw $0x0,%eax,%xmm0
- DB 102,15,196,195,1 ; pinsrw $0x1,%ebx,%xmm0
+ DB 102,65,15,196,194,1 ; pinsrw $0x1,%r10d,%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,96,193 ; punpcklbw %xmm1,%xmm0
DB 102,15,97,193 ; punpcklwd %xmm1,%xmm0
DB 15,91,216 ; cvtdq2ps %xmm0,%xmm3
- DB 15,89,29,218,237,0,0 ; mulps 0xedda(%rip),%xmm3 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,29,190,238,0,0 ; mulps 0xeebe(%rip),%xmm3 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,239,210 ; pxor %xmm2,%xmm2
- DB 91 ; pop %rbx
- DB 93 ; pop %rbp
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_a8_sse2
_sk_store_a8_sse2 LABEL PROC
DB 72,131,236,40 ; sub $0x28,%rsp
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 68,15,40,5,138,236,0,0 ; movaps 0xec8a(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 68,15,40,5,112,237,0,0 ; movaps 0xed70(%rip),%xmm8 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 68,15,89,195 ; mulps %xmm3,%xmm8
DB 102,69,15,91,192 ; cvtps2dq %xmm8,%xmm8
DB 102,65,15,114,240,16 ; pslld $0x10,%xmm8
DB 102,65,15,114,224,16 ; psrad $0x10,%xmm8
DB 102,69,15,107,192 ; packssdw %xmm8,%xmm8
DB 102,69,15,103,192 ; packuswb %xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,17 ; jne 1df1b <_sk_store_a8_sse2+0x54>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,17 ; jne 1dee5 <_sk_store_a8_sse2+0x54>
DB 102,68,15,126,192 ; movd %xmm8,%eax
- DB 67,137,4,25 ; mov %eax,(%r9,%r11,1)
+ DB 67,137,4,16 ; mov %eax,(%r8,%r10,1)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 72,131,196,40 ; add $0x28,%rsp
DB 255,224 ; jmpq *%rax
DB 102,68,15,96,192 ; punpcklbw %xmm0,%xmm8
DB 102,68,15,97,192 ; punpcklwd %xmm0,%xmm8
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,59 ; je 1df6d <_sk_store_a8_sse2+0xa6>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,22 ; je 1df4e <_sk_store_a8_sse2+0x87>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,213 ; jne 1df13 <_sk_store_a8_sse2+0x4c>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,59 ; je 1df37 <_sk_store_a8_sse2+0xa6>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,22 ; je 1df18 <_sk_store_a8_sse2+0x87>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,213 ; jne 1dedd <_sk_store_a8_sse2+0x4c>
DB 102,68,15,127,68,36,16 ; movdqa %xmm8,0x10(%rsp)
DB 138,68,36,24 ; mov 0x18(%rsp),%al
- DB 67,136,68,25,2 ; mov %al,0x2(%r9,%r11,1)
- DB 102,68,15,219,5,233,235,0,0 ; pand 0xebe9(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 67,136,68,16,2 ; mov %al,0x2(%r8,%r10,1)
+ DB 102,68,15,219,5,207,236,0,0 ; pand 0xeccf(%rip),%xmm8 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,69,15,103,192 ; packuswb %xmm8,%xmm8
DB 102,69,15,103,192 ; packuswb %xmm8,%xmm8
DB 102,68,15,126,192 ; movd %xmm8,%eax
- DB 102,67,137,4,25 ; mov %ax,(%r9,%r11,1)
- DB 235,166 ; jmp 1df13 <_sk_store_a8_sse2+0x4c>
+ DB 102,67,137,4,16 ; mov %ax,(%r8,%r10,1)
+ DB 235,166 ; jmp 1dedd <_sk_store_a8_sse2+0x4c>
DB 102,68,15,127,4,36 ; movdqa %xmm8,(%rsp)
DB 138,4,36 ; mov (%rsp),%al
- DB 67,136,4,25 ; mov %al,(%r9,%r11,1)
- DB 235,151 ; jmp 1df13 <_sk_store_a8_sse2+0x4c>
+ DB 67,136,4,16 ; mov %al,(%r8,%r10,1)
+ DB 235,151 ; jmp 1dedd <_sk_store_a8_sse2+0x4c>
PUBLIC _sk_load_g8_sse2
_sk_load_g8_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,49 ; jne 1dfc5 <_sk_load_g8_sse2+0x49>
- DB 102,67,15,110,4,25 ; movd (%r9,%r11,1),%xmm0
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,49 ; jne 1df8f <_sk_load_g8_sse2+0x49>
+ DB 102,67,15,110,4,16 ; movd (%r8,%r10,1),%xmm0
DB 102,15,96,192 ; punpcklbw %xmm0,%xmm0
DB 102,15,97,192 ; punpcklwd %xmm0,%xmm0
- DB 102,15,219,5,150,235,0,0 ; pand 0xeb96(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,15,219,5,124,236,0,0 ; pand 0xec7c(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,220,236,0,0 ; mulps 0xecdc(%rip),%xmm0 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,5,194,237,0,0 ; mulps 0xedc2(%rip),%xmm0 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,211,234,0,0 ; movaps 0xead3(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,185,235,0,0 ; movaps 0xebb9(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,54 ; je 1e008 <_sk_load_g8_sse2+0x8c>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,54 ; je 1dfd2 <_sk_load_g8_sse2+0x8c>
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 1dff1 <_sk_load_g8_sse2+0x75>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,192 ; jne 1dfa2 <_sk_load_g8_sse2+0x26>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 1dfbb <_sk_load_g8_sse2+0x75>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,192 ; jne 1df6c <_sk_load_g8_sse2+0x26>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm0
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,15,110,200 ; movd %eax,%xmm1
DB 102,15,96,200 ; punpcklbw %xmm0,%xmm1
DB 102,15,97,200 ; punpcklwd %xmm0,%xmm1
DB 242,15,16,193 ; movsd %xmm1,%xmm0
- DB 235,154 ; jmp 1dfa2 <_sk_load_g8_sse2+0x26>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 235,154 ; jmp 1df6c <_sk_load_g8_sse2+0x26>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
- DB 235,143 ; jmp 1dfa2 <_sk_load_g8_sse2+0x26>
+ DB 235,143 ; jmp 1df6c <_sk_load_g8_sse2+0x26>
PUBLIC _sk_load_g8_dst_sse2
_sk_load_g8_dst_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,49 ; jne 1e05c <_sk_load_g8_dst_sse2+0x49>
- DB 102,67,15,110,36,25 ; movd (%r9,%r11,1),%xmm4
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,49 ; jne 1e026 <_sk_load_g8_dst_sse2+0x49>
+ DB 102,67,15,110,36,16 ; movd (%r8,%r10,1),%xmm4
DB 102,15,96,224 ; punpcklbw %xmm0,%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
- DB 102,15,219,37,255,234,0,0 ; pand 0xeaff(%rip),%xmm4 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,15,219,37,229,235,0,0 ; pand 0xebe5(%rip),%xmm4 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,37,69,236,0,0 ; mulps 0xec45(%rip),%xmm4 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,37,43,237,0,0 ; mulps 0xed2b(%rip),%xmm4 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,61,60,234,0,0 ; movaps 0xea3c(%rip),%xmm7 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,61,34,235,0,0 ; movaps 0xeb22(%rip),%xmm7 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,40,236 ; movaps %xmm4,%xmm5
DB 15,40,244 ; movaps %xmm4,%xmm6
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,54 ; je 1e09f <_sk_load_g8_dst_sse2+0x8c>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,54 ; je 1e069 <_sk_load_g8_dst_sse2+0x8c>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 1e088 <_sk_load_g8_dst_sse2+0x75>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,192 ; jne 1e039 <_sk_load_g8_dst_sse2+0x26>
- DB 67,15,182,68,25,2 ; movzbl 0x2(%r9,%r11,1),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 1e052 <_sk_load_g8_dst_sse2+0x75>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,192 ; jne 1e003 <_sk_load_g8_dst_sse2+0x26>
+ DB 67,15,182,68,16,2 ; movzbl 0x2(%r8,%r10,1),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
- DB 67,15,183,4,25 ; movzwl (%r9,%r11,1),%eax
+ DB 67,15,183,4,16 ; movzwl (%r8,%r10,1),%eax
DB 102,15,110,232 ; movd %eax,%xmm5
DB 102,15,96,232 ; punpcklbw %xmm0,%xmm5
DB 102,15,97,232 ; punpcklwd %xmm0,%xmm5
DB 242,15,16,229 ; movsd %xmm5,%xmm4
- DB 235,154 ; jmp 1e039 <_sk_load_g8_dst_sse2+0x26>
- DB 67,15,182,4,25 ; movzbl (%r9,%r11,1),%eax
+ DB 235,154 ; jmp 1e003 <_sk_load_g8_dst_sse2+0x26>
+ DB 67,15,182,4,16 ; movzbl (%r8,%r10,1),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
- DB 235,143 ; jmp 1e039 <_sk_load_g8_dst_sse2+0x26>
+ DB 235,143 ; jmp 1e003 <_sk_load_g8_dst_sse2+0x26>
PUBLIC _sk_gather_g8_sse2
_sk_gather_g8_sse2 LABEL PROC
- DB 85 ; push %rbp
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -28553,134 +28497,131 @@ _sk_gather_g8_sse2 LABEL PROC
DB 243,15,91,192 ; cvttps2dq %xmm0,%xmm0
DB 102,15,254,193 ; paddd %xmm1,%xmm0
DB 102,72,15,126,192 ; movq %xmm0,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
DB 102,15,112,192,78 ; pshufd $0x4e,%xmm0,%xmm0
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 65,15,182,44,25 ; movzbl (%r9,%rbx,1),%ebp
- DB 67,15,182,28,25 ; movzbl (%r9,%r11,1),%ebx
- DB 193,227,8 ; shl $0x8,%ebx
- DB 9,235 ; or %ebp,%ebx
- DB 67,15,182,44,17 ; movzbl (%r9,%r10,1),%ebp
- DB 65,15,182,4,1 ; movzbl (%r9,%rax,1),%eax
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 71,15,182,28,24 ; movzbl (%r8,%r11,1),%r11d
+ DB 71,15,182,20,16 ; movzbl (%r8,%r10,1),%r10d
+ DB 65,193,226,8 ; shl $0x8,%r10d
+ DB 69,9,218 ; or %r11d,%r10d
+ DB 71,15,182,12,8 ; movzbl (%r8,%r9,1),%r9d
+ DB 65,15,182,4,0 ; movzbl (%r8,%rax,1),%eax
DB 193,224,8 ; shl $0x8,%eax
- DB 9,232 ; or %ebp,%eax
+ DB 68,9,200 ; or %r9d,%eax
DB 102,15,196,192,0 ; pinsrw $0x0,%eax,%xmm0
- DB 102,15,196,195,1 ; pinsrw $0x1,%ebx,%xmm0
+ DB 102,65,15,196,194,1 ; pinsrw $0x1,%r10d,%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,96,193 ; punpcklbw %xmm1,%xmm0
DB 102,15,97,193 ; punpcklwd %xmm1,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,83,235,0,0 ; mulps 0xeb53(%rip),%xmm0 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 15,89,5,55,236,0,0 ; mulps 0xec37(%rip),%xmm0 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,74,233,0,0 ; movaps 0xe94a(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,46,234,0,0 ; movaps 0xea2e(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
- DB 91 ; pop %rbx
- DB 93 ; pop %rbp
DB 255,224 ; jmpq *%rax
PUBLIC _sk_load_565_sse2
_sk_load_565_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,83 ; jne 1e1be <_sk_load_565_sse2+0x6e>
- DB 243,67,15,126,20,89 ; movq (%r9,%r11,2),%xmm2
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,83 ; jne 1e188 <_sk_load_565_sse2+0x6e>
+ DB 243,67,15,126,20,80 ; movq (%r8,%r10,2),%xmm2
DB 102,15,97,208 ; punpcklwd %xmm0,%xmm2
- DB 102,15,111,5,35,235,0,0 ; movdqa 0xeb23(%rip),%xmm0 # 2cca0 <_sk_overlay_sse2_8bit+0x1053>
+ DB 102,15,111,5,9,236,0,0 ; movdqa 0xec09(%rip),%xmm0 # 2cd50 <_sk_overlay_sse2_8bit+0x10db>
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,37,235,0,0 ; mulps 0xeb25(%rip),%xmm0 # 2ccb0 <_sk_overlay_sse2_8bit+0x1063>
- DB 102,15,111,13,45,235,0,0 ; movdqa 0xeb2d(%rip),%xmm1 # 2ccc0 <_sk_overlay_sse2_8bit+0x1073>
+ DB 15,89,5,11,236,0,0 ; mulps 0xec0b(%rip),%xmm0 # 2cd60 <_sk_overlay_sse2_8bit+0x10eb>
+ DB 102,15,111,13,19,236,0,0 ; movdqa 0xec13(%rip),%xmm1 # 2cd70 <_sk_overlay_sse2_8bit+0x10fb>
DB 102,15,219,202 ; pand %xmm2,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,13,47,235,0,0 ; mulps 0xeb2f(%rip),%xmm1 # 2ccd0 <_sk_overlay_sse2_8bit+0x1083>
- DB 102,15,219,21,55,235,0,0 ; pand 0xeb37(%rip),%xmm2 # 2cce0 <_sk_overlay_sse2_8bit+0x1093>
+ DB 15,89,13,21,236,0,0 ; mulps 0xec15(%rip),%xmm1 # 2cd80 <_sk_overlay_sse2_8bit+0x110b>
+ DB 102,15,219,21,29,236,0,0 ; pand 0xec1d(%rip),%xmm2 # 2cd90 <_sk_overlay_sse2_8bit+0x111b>
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,21,61,235,0,0 ; mulps 0xeb3d(%rip),%xmm2 # 2ccf0 <_sk_overlay_sse2_8bit+0x10a3>
+ DB 15,89,21,35,236,0,0 ; mulps 0xec23(%rip),%xmm2 # 2cda0 <_sk_overlay_sse2_8bit+0x112b>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,212,232,0,0 ; movaps 0xe8d4(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,186,233,0,0 ; movaps 0xe9ba(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,50 ; je 1e1fd <_sk_load_565_sse2+0xad>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,50 ; je 1e1c7 <_sk_load_565_sse2+0xad>
DB 102,15,239,210 ; pxor %xmm2,%xmm2
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 1e1ea <_sk_load_565_sse2+0x9a>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,154 ; jne 1e175 <_sk_load_565_sse2+0x25>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 1e1b4 <_sk_load_565_sse2+0x9a>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,154 ; jne 1e13f <_sk_load_565_sse2+0x25>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,15,112,208,69 ; pshufd $0x45,%xmm0,%xmm2
- DB 102,67,15,110,4,89 ; movd (%r9,%r11,2),%xmm0
+ DB 102,67,15,110,4,80 ; movd (%r8,%r10,2),%xmm0
DB 102,15,97,192 ; punpcklwd %xmm0,%xmm0
DB 242,15,16,208 ; movsd %xmm0,%xmm2
- DB 233,120,255,255,255 ; jmpq 1e175 <_sk_load_565_sse2+0x25>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,120,255,255,255 ; jmpq 1e13f <_sk_load_565_sse2+0x25>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,15,110,208 ; movd %eax,%xmm2
- DB 233,106,255,255,255 ; jmpq 1e175 <_sk_load_565_sse2+0x25>
+ DB 233,106,255,255,255 ; jmpq 1e13f <_sk_load_565_sse2+0x25>
PUBLIC _sk_load_565_dst_sse2
_sk_load_565_dst_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,83 ; jne 1e279 <_sk_load_565_dst_sse2+0x6e>
- DB 243,67,15,126,52,89 ; movq (%r9,%r11,2),%xmm6
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,83 ; jne 1e243 <_sk_load_565_dst_sse2+0x6e>
+ DB 243,67,15,126,52,80 ; movq (%r8,%r10,2),%xmm6
DB 102,15,97,240 ; punpcklwd %xmm0,%xmm6
- DB 102,15,111,37,104,234,0,0 ; movdqa 0xea68(%rip),%xmm4 # 2cca0 <_sk_overlay_sse2_8bit+0x1053>
+ DB 102,15,111,37,78,235,0,0 ; movdqa 0xeb4e(%rip),%xmm4 # 2cd50 <_sk_overlay_sse2_8bit+0x10db>
DB 102,15,219,230 ; pand %xmm6,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,37,106,234,0,0 ; mulps 0xea6a(%rip),%xmm4 # 2ccb0 <_sk_overlay_sse2_8bit+0x1063>
- DB 102,15,111,45,114,234,0,0 ; movdqa 0xea72(%rip),%xmm5 # 2ccc0 <_sk_overlay_sse2_8bit+0x1073>
+ DB 15,89,37,80,235,0,0 ; mulps 0xeb50(%rip),%xmm4 # 2cd60 <_sk_overlay_sse2_8bit+0x10eb>
+ DB 102,15,111,45,88,235,0,0 ; movdqa 0xeb58(%rip),%xmm5 # 2cd70 <_sk_overlay_sse2_8bit+0x10fb>
DB 102,15,219,238 ; pand %xmm6,%xmm5
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
- DB 15,89,45,116,234,0,0 ; mulps 0xea74(%rip),%xmm5 # 2ccd0 <_sk_overlay_sse2_8bit+0x1083>
- DB 102,15,219,53,124,234,0,0 ; pand 0xea7c(%rip),%xmm6 # 2cce0 <_sk_overlay_sse2_8bit+0x1093>
+ DB 15,89,45,90,235,0,0 ; mulps 0xeb5a(%rip),%xmm5 # 2cd80 <_sk_overlay_sse2_8bit+0x110b>
+ DB 102,15,219,53,98,235,0,0 ; pand 0xeb62(%rip),%xmm6 # 2cd90 <_sk_overlay_sse2_8bit+0x111b>
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
- DB 15,89,53,130,234,0,0 ; mulps 0xea82(%rip),%xmm6 # 2ccf0 <_sk_overlay_sse2_8bit+0x10a3>
+ DB 15,89,53,104,235,0,0 ; mulps 0xeb68(%rip),%xmm6 # 2cda0 <_sk_overlay_sse2_8bit+0x112b>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,61,25,232,0,0 ; movaps 0xe819(%rip),%xmm7 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,61,255,232,0,0 ; movaps 0xe8ff(%rip),%xmm7 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,50 ; je 1e2b8 <_sk_load_565_dst_sse2+0xad>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,50 ; je 1e282 <_sk_load_565_dst_sse2+0xad>
DB 102,15,239,246 ; pxor %xmm6,%xmm6
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 1e2a5 <_sk_load_565_dst_sse2+0x9a>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,154 ; jne 1e230 <_sk_load_565_dst_sse2+0x25>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 1e26f <_sk_load_565_dst_sse2+0x9a>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,154 ; jne 1e1fa <_sk_load_565_dst_sse2+0x25>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,112,244,69 ; pshufd $0x45,%xmm4,%xmm6
- DB 102,67,15,110,36,89 ; movd (%r9,%r11,2),%xmm4
+ DB 102,67,15,110,36,80 ; movd (%r8,%r10,2),%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
DB 242,15,16,244 ; movsd %xmm4,%xmm6
- DB 233,120,255,255,255 ; jmpq 1e230 <_sk_load_565_dst_sse2+0x25>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,120,255,255,255 ; jmpq 1e1fa <_sk_load_565_dst_sse2+0x25>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,15,110,240 ; movd %eax,%xmm6
- DB 233,106,255,255,255 ; jmpq 1e230 <_sk_load_565_dst_sse2+0x25>
+ DB 233,106,255,255,255 ; jmpq 1e1fa <_sk_load_565_dst_sse2+0x25>
PUBLIC _sk_gather_565_sse2
_sk_gather_565_sse2 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -28694,50 +28635,49 @@ _sk_gather_565_sse2 LABEL PROC
DB 102,15,254,193 ; paddd %xmm1,%xmm0
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,72,15,126,200 ; movq %xmm1,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,65,15,196,20,89,0 ; pinsrw $0x0,(%r9,%rbx,2),%xmm2
- DB 102,67,15,196,20,89,1 ; pinsrw $0x1,(%r9,%r11,2),%xmm2
- DB 67,15,183,28,81 ; movzwl (%r9,%r10,2),%ebx
- DB 102,15,196,211,2 ; pinsrw $0x2,%ebx,%xmm2
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,196,20,88,0 ; pinsrw $0x0,(%r8,%r11,2),%xmm2
+ DB 102,67,15,196,20,80,1 ; pinsrw $0x1,(%r8,%r10,2),%xmm2
+ DB 71,15,183,12,72 ; movzwl (%r8,%r9,2),%r9d
+ DB 102,65,15,196,209,2 ; pinsrw $0x2,%r9d,%xmm2
+ DB 65,15,183,4,64 ; movzwl (%r8,%rax,2),%eax
DB 102,15,196,208,3 ; pinsrw $0x3,%eax,%xmm2
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 102,15,97,208 ; punpcklwd %xmm0,%xmm2
- DB 102,15,111,5,84,233,0,0 ; movdqa 0xe954(%rip),%xmm0 # 2cca0 <_sk_overlay_sse2_8bit+0x1053>
+ DB 102,15,111,5,58,234,0,0 ; movdqa 0xea3a(%rip),%xmm0 # 2cd50 <_sk_overlay_sse2_8bit+0x10db>
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,86,233,0,0 ; mulps 0xe956(%rip),%xmm0 # 2ccb0 <_sk_overlay_sse2_8bit+0x1063>
- DB 102,15,111,13,94,233,0,0 ; movdqa 0xe95e(%rip),%xmm1 # 2ccc0 <_sk_overlay_sse2_8bit+0x1073>
+ DB 15,89,5,60,234,0,0 ; mulps 0xea3c(%rip),%xmm0 # 2cd60 <_sk_overlay_sse2_8bit+0x10eb>
+ DB 102,15,111,13,68,234,0,0 ; movdqa 0xea44(%rip),%xmm1 # 2cd70 <_sk_overlay_sse2_8bit+0x10fb>
DB 102,15,219,202 ; pand %xmm2,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,13,96,233,0,0 ; mulps 0xe960(%rip),%xmm1 # 2ccd0 <_sk_overlay_sse2_8bit+0x1083>
- DB 102,15,219,21,104,233,0,0 ; pand 0xe968(%rip),%xmm2 # 2cce0 <_sk_overlay_sse2_8bit+0x1093>
+ DB 15,89,13,70,234,0,0 ; mulps 0xea46(%rip),%xmm1 # 2cd80 <_sk_overlay_sse2_8bit+0x110b>
+ DB 102,15,219,21,78,234,0,0 ; pand 0xea4e(%rip),%xmm2 # 2cd90 <_sk_overlay_sse2_8bit+0x111b>
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,21,110,233,0,0 ; mulps 0xe96e(%rip),%xmm2 # 2ccf0 <_sk_overlay_sse2_8bit+0x10a3>
+ DB 15,89,21,84,234,0,0 ; mulps 0xea54(%rip),%xmm2 # 2cda0 <_sk_overlay_sse2_8bit+0x112b>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,5,231,0,0 ; movaps 0xe705(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
- DB 91 ; pop %rbx
+ DB 15,40,29,235,231,0,0 ; movaps 0xe7eb(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_565_sse2
_sk_store_565_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 68,15,40,5,4,235,0,0 ; movaps 0xeb04(%rip),%xmm8 # 2ceb0 <_sk_overlay_sse2_8bit+0x1263>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 68,15,40,5,235,235,0,0 ; movaps 0xebeb(%rip),%xmm8 # 2cf60 <_sk_overlay_sse2_8bit+0x12eb>
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 102,69,15,91,201 ; cvtps2dq %xmm9,%xmm9
DB 102,65,15,114,241,11 ; pslld $0xb,%xmm9
- DB 68,15,40,21,249,234,0,0 ; movaps 0xeaf9(%rip),%xmm10 # 2cec0 <_sk_overlay_sse2_8bit+0x1273>
+ DB 68,15,40,21,224,235,0,0 ; movaps 0xebe0(%rip),%xmm10 # 2cf70 <_sk_overlay_sse2_8bit+0x12fb>
DB 68,15,89,209 ; mulps %xmm1,%xmm10
DB 102,69,15,91,210 ; cvtps2dq %xmm10,%xmm10
DB 102,65,15,114,242,5 ; pslld $0x5,%xmm10
@@ -28748,134 +28688,133 @@ _sk_store_565_sse2 LABEL PROC
DB 102,65,15,114,240,16 ; pslld $0x10,%xmm8
DB 102,65,15,114,224,16 ; psrad $0x10,%xmm8
DB 102,69,15,107,192 ; packssdw %xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,10 ; jne 1e409 <_sk_store_565_sse2+0x7b>
- DB 242,71,15,17,4,89 ; movsd %xmm8,(%r9,%r11,2)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 1e3d2 <_sk_store_565_sse2+0x7b>
+ DB 242,71,15,17,4,80 ; movsd %xmm8,(%r8,%r10,2)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
DB 102,68,15,97,192 ; punpcklwd %xmm0,%xmm8
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,38 ; je 1e441 <_sk_store_565_sse2+0xb3>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,18 ; je 1e433 <_sk_store_565_sse2+0xa5>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,222 ; jne 1e405 <_sk_store_565_sse2+0x77>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,38 ; je 1e40a <_sk_store_565_sse2+0xb3>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,18 ; je 1e3fc <_sk_store_565_sse2+0xa5>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,222 ; jne 1e3ce <_sk_store_565_sse2+0x77>
DB 102,65,15,197,192,4 ; pextrw $0x4,%xmm8,%eax
- DB 102,67,137,68,89,4 ; mov %ax,0x4(%r9,%r11,2)
+ DB 102,67,137,68,80,4 ; mov %ax,0x4(%r8,%r10,2)
DB 242,69,15,112,192,232 ; pshuflw $0xe8,%xmm8,%xmm8
- DB 102,71,15,126,4,89 ; movd %xmm8,(%r9,%r11,2)
- DB 235,196 ; jmp 1e405 <_sk_store_565_sse2+0x77>
+ DB 102,71,15,126,4,80 ; movd %xmm8,(%r8,%r10,2)
+ DB 235,196 ; jmp 1e3ce <_sk_store_565_sse2+0x77>
DB 102,68,15,126,192 ; movd %xmm8,%eax
- DB 102,67,137,4,89 ; mov %ax,(%r9,%r11,2)
- DB 235,184 ; jmp 1e405 <_sk_store_565_sse2+0x77>
+ DB 102,67,137,4,80 ; mov %ax,(%r8,%r10,2)
+ DB 235,184 ; jmp 1e3ce <_sk_store_565_sse2+0x77>
PUBLIC _sk_load_4444_sse2
_sk_load_4444_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,98 ; jne 1e4ca <_sk_load_4444_sse2+0x7d>
- DB 243,67,15,126,28,89 ; movq (%r9,%r11,2),%xmm3
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,98 ; jne 1e493 <_sk_load_4444_sse2+0x7d>
+ DB 243,67,15,126,28,80 ; movq (%r8,%r10,2),%xmm3
DB 102,15,97,216 ; punpcklwd %xmm0,%xmm3
- DB 102,15,111,5,86,234,0,0 ; movdqa 0xea56(%rip),%xmm0 # 2ced0 <_sk_overlay_sse2_8bit+0x1283>
+ DB 102,15,111,5,61,235,0,0 ; movdqa 0xeb3d(%rip),%xmm0 # 2cf80 <_sk_overlay_sse2_8bit+0x130b>
DB 102,15,219,195 ; pand %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,88,234,0,0 ; mulps 0xea58(%rip),%xmm0 # 2cee0 <_sk_overlay_sse2_8bit+0x1293>
- DB 102,15,111,13,96,234,0,0 ; movdqa 0xea60(%rip),%xmm1 # 2cef0 <_sk_overlay_sse2_8bit+0x12a3>
+ DB 15,89,5,63,235,0,0 ; mulps 0xeb3f(%rip),%xmm0 # 2cf90 <_sk_overlay_sse2_8bit+0x131b>
+ DB 102,15,111,13,71,235,0,0 ; movdqa 0xeb47(%rip),%xmm1 # 2cfa0 <_sk_overlay_sse2_8bit+0x132b>
DB 102,15,219,203 ; pand %xmm3,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,13,98,234,0,0 ; mulps 0xea62(%rip),%xmm1 # 2cf00 <_sk_overlay_sse2_8bit+0x12b3>
- DB 102,15,111,21,106,234,0,0 ; movdqa 0xea6a(%rip),%xmm2 # 2cf10 <_sk_overlay_sse2_8bit+0x12c3>
+ DB 15,89,13,73,235,0,0 ; mulps 0xeb49(%rip),%xmm1 # 2cfb0 <_sk_overlay_sse2_8bit+0x133b>
+ DB 102,15,111,21,81,235,0,0 ; movdqa 0xeb51(%rip),%xmm2 # 2cfc0 <_sk_overlay_sse2_8bit+0x134b>
DB 102,15,219,211 ; pand %xmm3,%xmm2
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,21,108,234,0,0 ; mulps 0xea6c(%rip),%xmm2 # 2cf20 <_sk_overlay_sse2_8bit+0x12d3>
- DB 102,15,219,29,116,234,0,0 ; pand 0xea74(%rip),%xmm3 # 2cf30 <_sk_overlay_sse2_8bit+0x12e3>
+ DB 15,89,21,83,235,0,0 ; mulps 0xeb53(%rip),%xmm2 # 2cfd0 <_sk_overlay_sse2_8bit+0x135b>
+ DB 102,15,219,29,91,235,0,0 ; pand 0xeb5b(%rip),%xmm3 # 2cfe0 <_sk_overlay_sse2_8bit+0x136b>
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
- DB 15,89,29,122,234,0,0 ; mulps 0xea7a(%rip),%xmm3 # 2cf40 <_sk_overlay_sse2_8bit+0x12f3>
+ DB 15,89,29,97,235,0,0 ; mulps 0xeb61(%rip),%xmm3 # 2cff0 <_sk_overlay_sse2_8bit+0x137b>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,50 ; je 1e509 <_sk_load_4444_sse2+0xbc>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,50 ; je 1e4d2 <_sk_load_4444_sse2+0xbc>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 1e4f6 <_sk_load_4444_sse2+0xa9>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,139 ; jne 1e472 <_sk_load_4444_sse2+0x25>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 1e4bf <_sk_load_4444_sse2+0xa9>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,139 ; jne 1e43b <_sk_load_4444_sse2+0x25>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,15,112,216,69 ; pshufd $0x45,%xmm0,%xmm3
- DB 102,67,15,110,4,89 ; movd (%r9,%r11,2),%xmm0
+ DB 102,67,15,110,4,80 ; movd (%r8,%r10,2),%xmm0
DB 102,15,97,192 ; punpcklwd %xmm0,%xmm0
DB 242,15,16,216 ; movsd %xmm0,%xmm3
- DB 233,105,255,255,255 ; jmpq 1e472 <_sk_load_4444_sse2+0x25>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,105,255,255,255 ; jmpq 1e43b <_sk_load_4444_sse2+0x25>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,15,110,216 ; movd %eax,%xmm3
- DB 233,91,255,255,255 ; jmpq 1e472 <_sk_load_4444_sse2+0x25>
+ DB 233,91,255,255,255 ; jmpq 1e43b <_sk_load_4444_sse2+0x25>
PUBLIC _sk_load_4444_dst_sse2
_sk_load_4444_dst_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 77,133,192 ; test %r8,%r8
- DB 117,98 ; jne 1e594 <_sk_load_4444_dst_sse2+0x7d>
- DB 243,67,15,126,60,89 ; movq (%r9,%r11,2),%xmm7
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,98 ; jne 1e55d <_sk_load_4444_dst_sse2+0x7d>
+ DB 243,67,15,126,60,80 ; movq (%r8,%r10,2),%xmm7
DB 102,15,97,248 ; punpcklwd %xmm0,%xmm7
- DB 102,15,111,37,140,233,0,0 ; movdqa 0xe98c(%rip),%xmm4 # 2ced0 <_sk_overlay_sse2_8bit+0x1283>
+ DB 102,15,111,37,115,234,0,0 ; movdqa 0xea73(%rip),%xmm4 # 2cf80 <_sk_overlay_sse2_8bit+0x130b>
DB 102,15,219,231 ; pand %xmm7,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,37,142,233,0,0 ; mulps 0xe98e(%rip),%xmm4 # 2cee0 <_sk_overlay_sse2_8bit+0x1293>
- DB 102,15,111,45,150,233,0,0 ; movdqa 0xe996(%rip),%xmm5 # 2cef0 <_sk_overlay_sse2_8bit+0x12a3>
+ DB 15,89,37,117,234,0,0 ; mulps 0xea75(%rip),%xmm4 # 2cf90 <_sk_overlay_sse2_8bit+0x131b>
+ DB 102,15,111,45,125,234,0,0 ; movdqa 0xea7d(%rip),%xmm5 # 2cfa0 <_sk_overlay_sse2_8bit+0x132b>
DB 102,15,219,239 ; pand %xmm7,%xmm5
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
- DB 15,89,45,152,233,0,0 ; mulps 0xe998(%rip),%xmm5 # 2cf00 <_sk_overlay_sse2_8bit+0x12b3>
- DB 102,15,111,53,160,233,0,0 ; movdqa 0xe9a0(%rip),%xmm6 # 2cf10 <_sk_overlay_sse2_8bit+0x12c3>
+ DB 15,89,45,127,234,0,0 ; mulps 0xea7f(%rip),%xmm5 # 2cfb0 <_sk_overlay_sse2_8bit+0x133b>
+ DB 102,15,111,53,135,234,0,0 ; movdqa 0xea87(%rip),%xmm6 # 2cfc0 <_sk_overlay_sse2_8bit+0x134b>
DB 102,15,219,247 ; pand %xmm7,%xmm6
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
- DB 15,89,53,162,233,0,0 ; mulps 0xe9a2(%rip),%xmm6 # 2cf20 <_sk_overlay_sse2_8bit+0x12d3>
- DB 102,15,219,61,170,233,0,0 ; pand 0xe9aa(%rip),%xmm7 # 2cf30 <_sk_overlay_sse2_8bit+0x12e3>
+ DB 15,89,53,137,234,0,0 ; mulps 0xea89(%rip),%xmm6 # 2cfd0 <_sk_overlay_sse2_8bit+0x135b>
+ DB 102,15,219,61,145,234,0,0 ; pand 0xea91(%rip),%xmm7 # 2cfe0 <_sk_overlay_sse2_8bit+0x136b>
DB 15,91,255 ; cvtdq2ps %xmm7,%xmm7
- DB 15,89,61,176,233,0,0 ; mulps 0xe9b0(%rip),%xmm7 # 2cf40 <_sk_overlay_sse2_8bit+0x12f3>
+ DB 15,89,61,151,234,0,0 ; mulps 0xea97(%rip),%xmm7 # 2cff0 <_sk_overlay_sse2_8bit+0x137b>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,50 ; je 1e5d3 <_sk_load_4444_dst_sse2+0xbc>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,50 ; je 1e59c <_sk_load_4444_dst_sse2+0xbc>
DB 102,15,239,255 ; pxor %xmm7,%xmm7
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,21 ; je 1e5c0 <_sk_load_4444_dst_sse2+0xa9>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,139 ; jne 1e53c <_sk_load_4444_dst_sse2+0x25>
- DB 67,15,183,68,89,4 ; movzwl 0x4(%r9,%r11,2),%eax
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,21 ; je 1e589 <_sk_load_4444_dst_sse2+0xa9>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,139 ; jne 1e505 <_sk_load_4444_dst_sse2+0x25>
+ DB 67,15,183,68,80,4 ; movzwl 0x4(%r8,%r10,2),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,112,252,69 ; pshufd $0x45,%xmm4,%xmm7
- DB 102,67,15,110,36,89 ; movd (%r9,%r11,2),%xmm4
+ DB 102,67,15,110,36,80 ; movd (%r8,%r10,2),%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
DB 242,15,16,252 ; movsd %xmm4,%xmm7
- DB 233,105,255,255,255 ; jmpq 1e53c <_sk_load_4444_dst_sse2+0x25>
- DB 67,15,183,4,89 ; movzwl (%r9,%r11,2),%eax
+ DB 233,105,255,255,255 ; jmpq 1e505 <_sk_load_4444_dst_sse2+0x25>
+ DB 67,15,183,4,80 ; movzwl (%r8,%r10,2),%eax
DB 102,15,110,248 ; movd %eax,%xmm7
- DB 233,91,255,255,255 ; jmpq 1e53c <_sk_load_4444_dst_sse2+0x25>
+ DB 233,91,255,255,255 ; jmpq 1e505 <_sk_load_4444_dst_sse2+0x25>
PUBLIC _sk_gather_4444_sse2
_sk_gather_4444_sse2 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -28889,48 +28828,47 @@ _sk_gather_4444_sse2 LABEL PROC
DB 102,15,254,193 ; paddd %xmm1,%xmm0
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,72,15,126,200 ; movq %xmm1,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,65,15,196,28,89,0 ; pinsrw $0x0,(%r9,%rbx,2),%xmm3
- DB 102,67,15,196,28,89,1 ; pinsrw $0x1,(%r9,%r11,2),%xmm3
- DB 67,15,183,28,81 ; movzwl (%r9,%r10,2),%ebx
- DB 102,15,196,219,2 ; pinsrw $0x2,%ebx,%xmm3
- DB 65,15,183,4,65 ; movzwl (%r9,%rax,2),%eax
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,196,28,88,0 ; pinsrw $0x0,(%r8,%r11,2),%xmm3
+ DB 102,67,15,196,28,80,1 ; pinsrw $0x1,(%r8,%r10,2),%xmm3
+ DB 71,15,183,12,72 ; movzwl (%r8,%r9,2),%r9d
+ DB 102,65,15,196,217,2 ; pinsrw $0x2,%r9d,%xmm3
+ DB 65,15,183,4,64 ; movzwl (%r8,%rax,2),%eax
DB 102,15,196,216,3 ; pinsrw $0x3,%eax,%xmm3
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 102,15,97,216 ; punpcklwd %xmm0,%xmm3
- DB 102,15,111,5,105,232,0,0 ; movdqa 0xe869(%rip),%xmm0 # 2ced0 <_sk_overlay_sse2_8bit+0x1283>
+ DB 102,15,111,5,80,233,0,0 ; movdqa 0xe950(%rip),%xmm0 # 2cf80 <_sk_overlay_sse2_8bit+0x130b>
DB 102,15,219,195 ; pand %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,5,107,232,0,0 ; mulps 0xe86b(%rip),%xmm0 # 2cee0 <_sk_overlay_sse2_8bit+0x1293>
- DB 102,15,111,13,115,232,0,0 ; movdqa 0xe873(%rip),%xmm1 # 2cef0 <_sk_overlay_sse2_8bit+0x12a3>
+ DB 15,89,5,82,233,0,0 ; mulps 0xe952(%rip),%xmm0 # 2cf90 <_sk_overlay_sse2_8bit+0x131b>
+ DB 102,15,111,13,90,233,0,0 ; movdqa 0xe95a(%rip),%xmm1 # 2cfa0 <_sk_overlay_sse2_8bit+0x132b>
DB 102,15,219,203 ; pand %xmm3,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,13,117,232,0,0 ; mulps 0xe875(%rip),%xmm1 # 2cf00 <_sk_overlay_sse2_8bit+0x12b3>
- DB 102,15,111,21,125,232,0,0 ; movdqa 0xe87d(%rip),%xmm2 # 2cf10 <_sk_overlay_sse2_8bit+0x12c3>
+ DB 15,89,13,92,233,0,0 ; mulps 0xe95c(%rip),%xmm1 # 2cfb0 <_sk_overlay_sse2_8bit+0x133b>
+ DB 102,15,111,21,100,233,0,0 ; movdqa 0xe964(%rip),%xmm2 # 2cfc0 <_sk_overlay_sse2_8bit+0x134b>
DB 102,15,219,211 ; pand %xmm3,%xmm2
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,21,127,232,0,0 ; mulps 0xe87f(%rip),%xmm2 # 2cf20 <_sk_overlay_sse2_8bit+0x12d3>
- DB 102,15,219,29,135,232,0,0 ; pand 0xe887(%rip),%xmm3 # 2cf30 <_sk_overlay_sse2_8bit+0x12e3>
+ DB 15,89,21,102,233,0,0 ; mulps 0xe966(%rip),%xmm2 # 2cfd0 <_sk_overlay_sse2_8bit+0x135b>
+ DB 102,15,219,29,110,233,0,0 ; pand 0xe96e(%rip),%xmm3 # 2cfe0 <_sk_overlay_sse2_8bit+0x136b>
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
- DB 15,89,29,141,232,0,0 ; mulps 0xe88d(%rip),%xmm3 # 2cf40 <_sk_overlay_sse2_8bit+0x12f3>
+ DB 15,89,29,116,233,0,0 ; mulps 0xe974(%rip),%xmm3 # 2cff0 <_sk_overlay_sse2_8bit+0x137b>
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_4444_sse2
_sk_store_4444_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 76,99,218 ; movslq %edx,%r11
- DB 68,15,40,5,122,232,0,0 ; movaps 0xe87a(%rip),%xmm8 # 2cf50 <_sk_overlay_sse2_8bit+0x1303>
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 76,99,210 ; movslq %edx,%r10
+ DB 68,15,40,5,98,233,0,0 ; movaps 0xe962(%rip),%xmm8 # 2d000 <_sk_overlay_sse2_8bit+0x138b>
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 102,69,15,91,201 ; cvtps2dq %xmm9,%xmm9
@@ -28951,46 +28889,46 @@ _sk_store_4444_sse2 LABEL PROC
DB 102,65,15,114,240,16 ; pslld $0x10,%xmm8
DB 102,65,15,114,224,16 ; psrad $0x10,%xmm8
DB 102,69,15,107,192 ; packssdw %xmm8,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,10 ; jne 1e747 <_sk_store_4444_sse2+0x8f>
- DB 242,71,15,17,4,89 ; movsd %xmm8,(%r9,%r11,2)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 1e70f <_sk_store_4444_sse2+0x8f>
+ DB 242,71,15,17,4,80 ; movsd %xmm8,(%r8,%r10,2)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
DB 102,68,15,97,192 ; punpcklwd %xmm0,%xmm8
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,38 ; je 1e77f <_sk_store_4444_sse2+0xc7>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,18 ; je 1e771 <_sk_store_4444_sse2+0xb9>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,222 ; jne 1e743 <_sk_store_4444_sse2+0x8b>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,38 ; je 1e747 <_sk_store_4444_sse2+0xc7>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,18 ; je 1e739 <_sk_store_4444_sse2+0xb9>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,222 ; jne 1e70b <_sk_store_4444_sse2+0x8b>
DB 102,65,15,197,192,4 ; pextrw $0x4,%xmm8,%eax
- DB 102,67,137,68,89,4 ; mov %ax,0x4(%r9,%r11,2)
+ DB 102,67,137,68,80,4 ; mov %ax,0x4(%r8,%r10,2)
DB 242,69,15,112,192,232 ; pshuflw $0xe8,%xmm8,%xmm8
- DB 102,71,15,126,4,89 ; movd %xmm8,(%r9,%r11,2)
- DB 235,196 ; jmp 1e743 <_sk_store_4444_sse2+0x8b>
+ DB 102,71,15,126,4,80 ; movd %xmm8,(%r8,%r10,2)
+ DB 235,196 ; jmp 1e70b <_sk_store_4444_sse2+0x8b>
DB 102,68,15,126,192 ; movd %xmm8,%eax
- DB 102,67,137,4,89 ; mov %ax,(%r9,%r11,2)
- DB 235,184 ; jmp 1e743 <_sk_store_4444_sse2+0x8b>
+ DB 102,67,137,4,80 ; mov %ax,(%r8,%r10,2)
+ DB 235,184 ; jmp 1e70b <_sk_store_4444_sse2+0x8b>
PUBLIC _sk_load_8888_sse2
_sk_load_8888_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,98 ; jne 1e809 <_sk_load_8888_sse2+0x7e>
- DB 243,69,15,111,12,129 ; movdqu (%r9,%rax,4),%xmm9
- DB 102,15,111,21,139,227,0,0 ; movdqa 0xe38b(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,98 ; jne 1e7d1 <_sk_load_8888_sse2+0x7e>
+ DB 243,69,15,111,12,128 ; movdqu (%r8,%rax,4),%xmm9
+ DB 102,15,111,21,115,228,0,0 ; movdqa 0xe473(%rip),%xmm2 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,65,15,111,193 ; movdqa %xmm9,%xmm0
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 68,15,40,5,199,228,0,0 ; movaps 0xe4c7(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,175,229,0,0 ; movaps 0xe5af(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,65,15,111,201 ; movdqa %xmm9,%xmm1
DB 102,15,114,209,8 ; psrld $0x8,%xmm1
@@ -29007,39 +28945,39 @@ _sk_load_8888_sse2 LABEL PROC
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,41 ; je 1e83f <_sk_load_8888_sse2+0xb4>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,41 ; je 1e807 <_sk_load_8888_sse2+0xb4>
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,19 ; je 1e834 <_sk_load_8888_sse2+0xa9>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,134 ; jne 1e7ad <_sk_load_8888_sse2+0x22>
- DB 102,65,15,110,68,129,8 ; movd 0x8(%r9,%rax,4),%xmm0
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,19 ; je 1e7fc <_sk_load_8888_sse2+0xa9>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,134 ; jne 1e775 <_sk_load_8888_sse2+0x22>
+ DB 102,65,15,110,68,128,8 ; movd 0x8(%r8,%rax,4),%xmm0
DB 102,68,15,112,200,69 ; pshufd $0x45,%xmm0,%xmm9
- DB 102,69,15,18,12,129 ; movlpd (%r9,%rax,4),%xmm9
- DB 233,110,255,255,255 ; jmpq 1e7ad <_sk_load_8888_sse2+0x22>
- DB 102,69,15,110,12,129 ; movd (%r9,%rax,4),%xmm9
- DB 233,99,255,255,255 ; jmpq 1e7ad <_sk_load_8888_sse2+0x22>
+ DB 102,69,15,18,12,128 ; movlpd (%r8,%rax,4),%xmm9
+ DB 233,110,255,255,255 ; jmpq 1e775 <_sk_load_8888_sse2+0x22>
+ DB 102,69,15,110,12,128 ; movd (%r8,%rax,4),%xmm9
+ DB 233,99,255,255,255 ; jmpq 1e775 <_sk_load_8888_sse2+0x22>
PUBLIC _sk_load_8888_dst_sse2
_sk_load_8888_dst_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,98 ; jne 1e8c8 <_sk_load_8888_dst_sse2+0x7e>
- DB 243,69,15,111,12,129 ; movdqu (%r9,%rax,4),%xmm9
- DB 102,15,111,53,204,226,0,0 ; movdqa 0xe2cc(%rip),%xmm6 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,98 ; jne 1e890 <_sk_load_8888_dst_sse2+0x7e>
+ DB 243,69,15,111,12,128 ; movdqu (%r8,%rax,4),%xmm9
+ DB 102,15,111,53,180,227,0,0 ; movdqa 0xe3b4(%rip),%xmm6 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,65,15,111,225 ; movdqa %xmm9,%xmm4
DB 102,15,219,230 ; pand %xmm6,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 68,15,40,5,8,228,0,0 ; movaps 0xe408(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,240,228,0,0 ; movaps 0xe4f0(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,224 ; mulps %xmm8,%xmm4
DB 102,65,15,111,233 ; movdqa %xmm9,%xmm5
DB 102,15,114,213,8 ; psrld $0x8,%xmm5
@@ -29056,27 +28994,26 @@ _sk_load_8888_dst_sse2 LABEL PROC
DB 65,15,89,248 ; mulps %xmm8,%xmm7
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,41 ; je 1e8fe <_sk_load_8888_dst_sse2+0xb4>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,41 ; je 1e8c6 <_sk_load_8888_dst_sse2+0xb4>
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,19 ; je 1e8f3 <_sk_load_8888_dst_sse2+0xa9>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,134 ; jne 1e86c <_sk_load_8888_dst_sse2+0x22>
- DB 102,65,15,110,100,129,8 ; movd 0x8(%r9,%rax,4),%xmm4
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,19 ; je 1e8bb <_sk_load_8888_dst_sse2+0xa9>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,134 ; jne 1e834 <_sk_load_8888_dst_sse2+0x22>
+ DB 102,65,15,110,100,128,8 ; movd 0x8(%r8,%rax,4),%xmm4
DB 102,68,15,112,204,69 ; pshufd $0x45,%xmm4,%xmm9
- DB 102,69,15,18,12,129 ; movlpd (%r9,%rax,4),%xmm9
- DB 233,110,255,255,255 ; jmpq 1e86c <_sk_load_8888_dst_sse2+0x22>
- DB 102,69,15,110,12,129 ; movd (%r9,%rax,4),%xmm9
- DB 233,99,255,255,255 ; jmpq 1e86c <_sk_load_8888_dst_sse2+0x22>
+ DB 102,69,15,18,12,128 ; movlpd (%r8,%rax,4),%xmm9
+ DB 233,110,255,255,255 ; jmpq 1e834 <_sk_load_8888_dst_sse2+0x22>
+ DB 102,69,15,110,12,128 ; movd (%r8,%rax,4),%xmm9
+ DB 233,99,255,255,255 ; jmpq 1e834 <_sk_load_8888_dst_sse2+0x22>
PUBLIC _sk_gather_8888_sse2
_sk_gather_8888_sse2 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -29090,23 +29027,23 @@ _sk_gather_8888_sse2 LABEL PROC
DB 102,15,254,193 ; paddd %xmm1,%xmm0
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,72,15,126,200 ; movq %xmm1,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,67,15,110,4,153 ; movd (%r9,%r11,4),%xmm0
- DB 102,65,15,110,12,129 ; movd (%r9,%rax,4),%xmm1
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,110,4,144 ; movd (%r8,%r10,4),%xmm0
+ DB 102,65,15,110,12,128 ; movd (%r8,%rax,4),%xmm1
DB 102,15,98,193 ; punpckldq %xmm1,%xmm0
- DB 102,69,15,110,12,153 ; movd (%r9,%rbx,4),%xmm9
- DB 102,67,15,110,12,145 ; movd (%r9,%r10,4),%xmm1
+ DB 102,71,15,110,12,152 ; movd (%r8,%r11,4),%xmm9
+ DB 102,67,15,110,12,136 ; movd (%r8,%r9,4),%xmm1
DB 102,68,15,98,201 ; punpckldq %xmm1,%xmm9
DB 102,68,15,98,200 ; punpckldq %xmm0,%xmm9
- DB 102,15,111,21,181,225,0,0 ; movdqa 0xe1b5(%rip),%xmm2 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,15,111,21,158,226,0,0 ; movdqa 0xe29e(%rip),%xmm2 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,65,15,111,193 ; movdqa %xmm9,%xmm0
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 68,15,40,5,241,226,0,0 ; movaps 0xe2f1(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,218,227,0,0 ; movaps 0xe3da(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,65,15,111,201 ; movdqa %xmm9,%xmm1
DB 102,15,114,209,8 ; psrld $0x8,%xmm1
@@ -29122,19 +29059,18 @@ _sk_gather_8888_sse2 LABEL PROC
DB 65,15,91,217 ; cvtdq2ps %xmm9,%xmm3
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_8888_sse2
_sk_store_8888_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 68,15,40,5,113,225,0,0 ; movaps 0xe171(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 68,15,40,5,91,226,0,0 ; movaps 0xe25b(%rip),%xmm8 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 102,69,15,91,201 ; cvtps2dq %xmm9,%xmm9
@@ -29152,43 +29088,43 @@ _sk_store_8888_sse2 LABEL PROC
DB 102,65,15,114,240,24 ; pslld $0x18,%xmm8
DB 102,69,15,235,193 ; por %xmm9,%xmm8
DB 102,69,15,235,194 ; por %xmm10,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,10 ; jne 1ea5f <_sk_store_8888_sse2+0x7f>
- DB 243,69,15,127,4,129 ; movdqu %xmm8,(%r9,%rax,4)
- DB 72,173 ; lods %ds:(%rsi),%rax
- DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,33 ; je 1ea8d <_sk_store_8888_sse2+0xad>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,19 ; je 1ea85 <_sk_store_8888_sse2+0xa5>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,227 ; jne 1ea5b <_sk_store_8888_sse2+0x7b>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 1ea25 <_sk_store_8888_sse2+0x7f>
+ DB 243,69,15,127,4,128 ; movdqu %xmm8,(%r8,%rax,4)
+ DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 255,224 ; jmpq *%rax
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,33 ; je 1ea53 <_sk_store_8888_sse2+0xad>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,19 ; je 1ea4b <_sk_store_8888_sse2+0xa5>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,227 ; jne 1ea21 <_sk_store_8888_sse2+0x7b>
DB 102,69,15,112,200,78 ; pshufd $0x4e,%xmm8,%xmm9
- DB 102,69,15,126,76,129,8 ; movd %xmm9,0x8(%r9,%rax,4)
- DB 102,69,15,214,4,129 ; movq %xmm8,(%r9,%rax,4)
- DB 235,206 ; jmp 1ea5b <_sk_store_8888_sse2+0x7b>
- DB 102,69,15,126,4,129 ; movd %xmm8,(%r9,%rax,4)
- DB 235,198 ; jmp 1ea5b <_sk_store_8888_sse2+0x7b>
+ DB 102,69,15,126,76,128,8 ; movd %xmm9,0x8(%r8,%rax,4)
+ DB 102,69,15,214,4,128 ; movq %xmm8,(%r8,%rax,4)
+ DB 235,206 ; jmp 1ea21 <_sk_store_8888_sse2+0x7b>
+ DB 102,69,15,126,4,128 ; movd %xmm8,(%r8,%rax,4)
+ DB 235,198 ; jmp 1ea21 <_sk_store_8888_sse2+0x7b>
PUBLIC _sk_load_bgra_sse2
_sk_load_bgra_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,98 ; jne 1eb13 <_sk_load_bgra_sse2+0x7e>
- DB 243,69,15,111,12,129 ; movdqu (%r9,%rax,4),%xmm9
- DB 102,15,111,5,129,224,0,0 ; movdqa 0xe081(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,98 ; jne 1ead9 <_sk_load_bgra_sse2+0x7e>
+ DB 243,69,15,111,12,128 ; movdqu (%r8,%rax,4),%xmm9
+ DB 102,15,111,5,107,225,0,0 ; movdqa 0xe16b(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,65,15,111,201 ; movdqa %xmm9,%xmm1
DB 102,15,219,200 ; pand %xmm0,%xmm1
DB 15,91,209 ; cvtdq2ps %xmm1,%xmm2
- DB 68,15,40,5,189,225,0,0 ; movaps 0xe1bd(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,167,226,0,0 ; movaps 0xe2a7(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 102,65,15,111,201 ; movdqa %xmm9,%xmm1
DB 102,15,114,209,8 ; psrld $0x8,%xmm1
@@ -29205,39 +29141,39 @@ _sk_load_bgra_sse2 LABEL PROC
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,41 ; je 1eb49 <_sk_load_bgra_sse2+0xb4>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,41 ; je 1eb0f <_sk_load_bgra_sse2+0xb4>
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,19 ; je 1eb3e <_sk_load_bgra_sse2+0xa9>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,134 ; jne 1eab7 <_sk_load_bgra_sse2+0x22>
- DB 102,65,15,110,68,129,8 ; movd 0x8(%r9,%rax,4),%xmm0
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,19 ; je 1eb04 <_sk_load_bgra_sse2+0xa9>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,134 ; jne 1ea7d <_sk_load_bgra_sse2+0x22>
+ DB 102,65,15,110,68,128,8 ; movd 0x8(%r8,%rax,4),%xmm0
DB 102,68,15,112,200,69 ; pshufd $0x45,%xmm0,%xmm9
- DB 102,69,15,18,12,129 ; movlpd (%r9,%rax,4),%xmm9
- DB 233,110,255,255,255 ; jmpq 1eab7 <_sk_load_bgra_sse2+0x22>
- DB 102,69,15,110,12,129 ; movd (%r9,%rax,4),%xmm9
- DB 233,99,255,255,255 ; jmpq 1eab7 <_sk_load_bgra_sse2+0x22>
+ DB 102,69,15,18,12,128 ; movlpd (%r8,%rax,4),%xmm9
+ DB 233,110,255,255,255 ; jmpq 1ea7d <_sk_load_bgra_sse2+0x22>
+ DB 102,69,15,110,12,128 ; movd (%r8,%rax,4),%xmm9
+ DB 233,99,255,255,255 ; jmpq 1ea7d <_sk_load_bgra_sse2+0x22>
PUBLIC _sk_load_bgra_dst_sse2
_sk_load_bgra_dst_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 117,98 ; jne 1ebd2 <_sk_load_bgra_dst_sse2+0x7e>
- DB 243,69,15,111,12,129 ; movdqu (%r9,%rax,4),%xmm9
- DB 102,15,111,37,194,223,0,0 ; movdqa 0xdfc2(%rip),%xmm4 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,98 ; jne 1eb98 <_sk_load_bgra_dst_sse2+0x7e>
+ DB 243,69,15,111,12,128 ; movdqu (%r8,%rax,4),%xmm9
+ DB 102,15,111,37,172,224,0,0 ; movdqa 0xe0ac(%rip),%xmm4 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,65,15,111,233 ; movdqa %xmm9,%xmm5
DB 102,15,219,236 ; pand %xmm4,%xmm5
DB 15,91,245 ; cvtdq2ps %xmm5,%xmm6
- DB 68,15,40,5,254,224,0,0 ; movaps 0xe0fe(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,232,225,0,0 ; movaps 0xe1e8(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,240 ; mulps %xmm8,%xmm6
DB 102,65,15,111,233 ; movdqa %xmm9,%xmm5
DB 102,15,114,213,8 ; psrld $0x8,%xmm5
@@ -29254,27 +29190,26 @@ _sk_load_bgra_dst_sse2 LABEL PROC
DB 65,15,89,248 ; mulps %xmm8,%xmm7
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,41 ; je 1ec08 <_sk_load_bgra_dst_sse2+0xb4>
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,41 ; je 1ebce <_sk_load_bgra_dst_sse2+0xb4>
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,19 ; je 1ebfd <_sk_load_bgra_dst_sse2+0xa9>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,134 ; jne 1eb76 <_sk_load_bgra_dst_sse2+0x22>
- DB 102,65,15,110,100,129,8 ; movd 0x8(%r9,%rax,4),%xmm4
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,19 ; je 1ebc3 <_sk_load_bgra_dst_sse2+0xa9>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,134 ; jne 1eb3c <_sk_load_bgra_dst_sse2+0x22>
+ DB 102,65,15,110,100,128,8 ; movd 0x8(%r8,%rax,4),%xmm4
DB 102,68,15,112,204,69 ; pshufd $0x45,%xmm4,%xmm9
- DB 102,69,15,18,12,129 ; movlpd (%r9,%rax,4),%xmm9
- DB 233,110,255,255,255 ; jmpq 1eb76 <_sk_load_bgra_dst_sse2+0x22>
- DB 102,69,15,110,12,129 ; movd (%r9,%rax,4),%xmm9
- DB 233,99,255,255,255 ; jmpq 1eb76 <_sk_load_bgra_dst_sse2+0x22>
+ DB 102,69,15,18,12,128 ; movlpd (%r8,%rax,4),%xmm9
+ DB 233,110,255,255,255 ; jmpq 1eb3c <_sk_load_bgra_dst_sse2+0x22>
+ DB 102,69,15,110,12,128 ; movd (%r8,%rax,4),%xmm9
+ DB 233,99,255,255,255 ; jmpq 1eb3c <_sk_load_bgra_dst_sse2+0x22>
PUBLIC _sk_gather_bgra_sse2
_sk_gather_bgra_sse2 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -29288,23 +29223,23 @@ _sk_gather_bgra_sse2 LABEL PROC
DB 102,15,254,193 ; paddd %xmm1,%xmm0
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,72,15,126,200 ; movq %xmm1,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,67,15,110,4,153 ; movd (%r9,%r11,4),%xmm0
- DB 102,65,15,110,12,129 ; movd (%r9,%rax,4),%xmm1
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,67,15,110,4,144 ; movd (%r8,%r10,4),%xmm0
+ DB 102,65,15,110,12,128 ; movd (%r8,%rax,4),%xmm1
DB 102,15,98,193 ; punpckldq %xmm1,%xmm0
- DB 102,69,15,110,12,153 ; movd (%r9,%rbx,4),%xmm9
- DB 102,67,15,110,12,145 ; movd (%r9,%r10,4),%xmm1
+ DB 102,71,15,110,12,152 ; movd (%r8,%r11,4),%xmm9
+ DB 102,67,15,110,12,136 ; movd (%r8,%r9,4),%xmm1
DB 102,68,15,98,201 ; punpckldq %xmm1,%xmm9
DB 102,68,15,98,200 ; punpckldq %xmm0,%xmm9
- DB 102,15,111,5,171,222,0,0 ; movdqa 0xdeab(%rip),%xmm0 # 2cb40 <_sk_overlay_sse2_8bit+0xef3>
+ DB 102,15,111,5,150,223,0,0 ; movdqa 0xdf96(%rip),%xmm0 # 2cbf0 <_sk_overlay_sse2_8bit+0xf7b>
DB 102,65,15,111,201 ; movdqa %xmm9,%xmm1
DB 102,15,219,200 ; pand %xmm0,%xmm1
DB 15,91,209 ; cvtdq2ps %xmm1,%xmm2
- DB 68,15,40,5,231,223,0,0 ; movaps 0xdfe7(%rip),%xmm8 # 2cc90 <_sk_overlay_sse2_8bit+0x1043>
+ DB 68,15,40,5,210,224,0,0 ; movaps 0xe0d2(%rip),%xmm8 # 2cd40 <_sk_overlay_sse2_8bit+0x10cb>
DB 65,15,89,208 ; mulps %xmm8,%xmm2
DB 102,65,15,111,201 ; movdqa %xmm9,%xmm1
DB 102,15,114,209,8 ; psrld $0x8,%xmm1
@@ -29320,19 +29255,18 @@ _sk_gather_bgra_sse2 LABEL PROC
DB 65,15,91,217 ; cvtdq2ps %xmm9,%xmm3
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_bgra_sse2
_sk_store_bgra_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 68,15,40,5,103,222,0,0 ; movaps 0xde67(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xf23>
+ DB 68,15,40,5,83,223,0,0 ; movaps 0xdf53(%rip),%xmm8 # 2cc20 <_sk_overlay_sse2_8bit+0xfab>
DB 68,15,40,202 ; movaps %xmm2,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 102,69,15,91,201 ; cvtps2dq %xmm9,%xmm9
@@ -29350,39 +29284,39 @@ _sk_store_bgra_sse2 LABEL PROC
DB 102,65,15,114,240,24 ; pslld $0x18,%xmm8
DB 102,69,15,235,193 ; por %xmm9,%xmm8
DB 102,69,15,235,194 ; por %xmm10,%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,10 ; jne 1ed69 <_sk_store_bgra_sse2+0x7f>
- DB 243,69,15,127,4,129 ; movdqu %xmm8,(%r9,%rax,4)
- DB 72,173 ; lods %ds:(%rsi),%rax
- DB 255,224 ; jmpq *%rax
- DB 69,137,194 ; mov %r8d,%r10d
- DB 65,128,226,3 ; and $0x3,%r10b
- DB 65,128,250,1 ; cmp $0x1,%r10b
- DB 116,33 ; je 1ed97 <_sk_store_bgra_sse2+0xad>
- DB 65,128,250,2 ; cmp $0x2,%r10b
- DB 116,19 ; je 1ed8f <_sk_store_bgra_sse2+0xa5>
- DB 65,128,250,3 ; cmp $0x3,%r10b
- DB 117,227 ; jne 1ed65 <_sk_store_bgra_sse2+0x7b>
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,10 ; jne 1ed2d <_sk_store_bgra_sse2+0x7f>
+ DB 243,69,15,127,4,128 ; movdqu %xmm8,(%r8,%rax,4)
+ DB 72,173 ; lods %ds:(%rsi),%rax
+ DB 255,224 ; jmpq *%rax
+ DB 65,137,249 ; mov %edi,%r9d
+ DB 65,128,225,3 ; and $0x3,%r9b
+ DB 65,128,249,1 ; cmp $0x1,%r9b
+ DB 116,33 ; je 1ed5b <_sk_store_bgra_sse2+0xad>
+ DB 65,128,249,2 ; cmp $0x2,%r9b
+ DB 116,19 ; je 1ed53 <_sk_store_bgra_sse2+0xa5>
+ DB 65,128,249,3 ; cmp $0x3,%r9b
+ DB 117,227 ; jne 1ed29 <_sk_store_bgra_sse2+0x7b>
DB 102,69,15,112,200,78 ; pshufd $0x4e,%xmm8,%xmm9
- DB 102,69,15,126,76,129,8 ; movd %xmm9,0x8(%r9,%rax,4)
- DB 102,69,15,214,4,129 ; movq %xmm8,(%r9,%rax,4)
- DB 235,206 ; jmp 1ed65 <_sk_store_bgra_sse2+0x7b>
- DB 102,69,15,126,4,129 ; movd %xmm8,(%r9,%rax,4)
- DB 235,198 ; jmp 1ed65 <_sk_store_bgra_sse2+0x7b>
+ DB 102,69,15,126,76,128,8 ; movd %xmm9,0x8(%r8,%rax,4)
+ DB 102,69,15,214,4,128 ; movq %xmm8,(%r8,%rax,4)
+ DB 235,206 ; jmp 1ed29 <_sk_store_bgra_sse2+0x7b>
+ DB 102,69,15,126,4,128 ; movd %xmm8,(%r8,%rax,4)
+ DB 235,198 ; jmp 1ed29 <_sk_store_bgra_sse2+0x7b>
PUBLIC _sk_load_f16_sse2
_sk_load_f16_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,98,1,0,0 ; jne 1ef21 <_sk_load_f16_sse2+0x182>
- DB 102,65,15,16,4,193 ; movupd (%r9,%rax,8),%xmm0
- DB 102,65,15,16,76,193,16 ; movupd 0x10(%r9,%rax,8),%xmm1
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,98,1,0,0 ; jne 1eee5 <_sk_load_f16_sse2+0x182>
+ DB 102,65,15,16,4,192 ; movupd (%r8,%rax,8),%xmm0
+ DB 102,65,15,16,76,192,16 ; movupd 0x10(%r8,%rax,8),%xmm1
DB 102,68,15,40,192 ; movapd %xmm0,%xmm8
DB 102,68,15,97,193 ; punpcklwd %xmm1,%xmm8
DB 102,15,105,193 ; punpckhwd %xmm1,%xmm0
@@ -29392,7 +29326,7 @@ _sk_load_f16_sse2 LABEL PROC
DB 102,69,15,239,210 ; pxor %xmm10,%xmm10
DB 102,65,15,111,206 ; movdqa %xmm14,%xmm1
DB 102,65,15,97,202 ; punpcklwd %xmm10,%xmm1
- DB 102,68,15,111,13,95,225,0,0 ; movdqa 0xe15f(%rip),%xmm9 # 2cf60 <_sk_overlay_sse2_8bit+0x1313>
+ DB 102,68,15,111,13,75,226,0,0 ; movdqa 0xe24b(%rip),%xmm9 # 2d010 <_sk_overlay_sse2_8bit+0x139b>
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
DB 102,65,15,219,193 ; pand %xmm9,%xmm0
DB 102,15,239,200 ; pxor %xmm0,%xmm1
@@ -29400,11 +29334,11 @@ _sk_load_f16_sse2 LABEL PROC
DB 102,68,15,111,233 ; movdqa %xmm1,%xmm13
DB 102,65,15,114,245,13 ; pslld $0xd,%xmm13
DB 102,68,15,235,232 ; por %xmm0,%xmm13
- DB 102,68,15,111,29,84,225,0,0 ; movdqa 0xe154(%rip),%xmm11 # 2cf80 <_sk_overlay_sse2_8bit+0x1333>
+ DB 102,68,15,111,29,64,226,0,0 ; movdqa 0xe240(%rip),%xmm11 # 2d030 <_sk_overlay_sse2_8bit+0x13bb>
DB 102,69,15,254,235 ; paddd %xmm11,%xmm13
- DB 102,68,15,111,37,86,225,0,0 ; movdqa 0xe156(%rip),%xmm12 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
+ DB 102,68,15,111,37,66,226,0,0 ; movdqa 0xe242(%rip),%xmm12 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
DB 102,65,15,239,204 ; pxor %xmm12,%xmm1
- DB 102,15,111,29,249,226,0,0 ; movdqa 0xe2f9(%rip),%xmm3 # 2d140 <_sk_overlay_sse2_8bit+0x14f3>
+ DB 102,15,111,29,229,227,0,0 ; movdqa 0xe3e5(%rip),%xmm3 # 2d1f0 <_sk_overlay_sse2_8bit+0x157b>
DB 102,15,111,195 ; movdqa %xmm3,%xmm0
DB 102,15,102,193 ; pcmpgtd %xmm1,%xmm0
DB 102,65,15,223,197 ; pandn %xmm13,%xmm0
@@ -29450,33 +29384,33 @@ _sk_load_f16_sse2 LABEL PROC
DB 102,65,15,223,218 ; pandn %xmm10,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 242,65,15,16,4,193 ; movsd (%r9,%rax,8),%xmm0
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,17 ; jne 1ef3e <_sk_load_f16_sse2+0x19f>
+ DB 242,65,15,16,4,192 ; movsd (%r8,%rax,8),%xmm0
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,17 ; jne 1ef02 <_sk_load_f16_sse2+0x19f>
DB 102,15,87,201 ; xorpd %xmm1,%xmm1
DB 102,15,20,193 ; unpcklpd %xmm1,%xmm0
DB 102,15,87,201 ; xorpd %xmm1,%xmm1
- DB 233,142,254,255,255 ; jmpq 1edcc <_sk_load_f16_sse2+0x2d>
- DB 102,65,15,22,68,193,8 ; movhpd 0x8(%r9,%rax,8),%xmm0
+ DB 233,142,254,255,255 ; jmpq 1ed90 <_sk_load_f16_sse2+0x2d>
+ DB 102,65,15,22,68,192,8 ; movhpd 0x8(%r8,%rax,8),%xmm0
DB 102,15,87,201 ; xorpd %xmm1,%xmm1
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 15,130,121,254,255,255 ; jb 1edcc <_sk_load_f16_sse2+0x2d>
- DB 242,65,15,16,76,193,16 ; movsd 0x10(%r9,%rax,8),%xmm1
- DB 233,109,254,255,255 ; jmpq 1edcc <_sk_load_f16_sse2+0x2d>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 15,130,121,254,255,255 ; jb 1ed90 <_sk_load_f16_sse2+0x2d>
+ DB 242,65,15,16,76,192,16 ; movsd 0x10(%r8,%rax,8),%xmm1
+ DB 233,109,254,255,255 ; jmpq 1ed90 <_sk_load_f16_sse2+0x2d>
PUBLIC _sk_load_f16_dst_sse2
_sk_load_f16_dst_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,98,1,0,0 ; jne 1f0e1 <_sk_load_f16_dst_sse2+0x182>
- DB 102,65,15,16,36,193 ; movupd (%r9,%rax,8),%xmm4
- DB 102,65,15,16,108,193,16 ; movupd 0x10(%r9,%rax,8),%xmm5
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,98,1,0,0 ; jne 1f0a5 <_sk_load_f16_dst_sse2+0x182>
+ DB 102,65,15,16,36,192 ; movupd (%r8,%rax,8),%xmm4
+ DB 102,65,15,16,108,192,16 ; movupd 0x10(%r8,%rax,8),%xmm5
DB 102,68,15,40,196 ; movapd %xmm4,%xmm8
DB 102,68,15,97,197 ; punpcklwd %xmm5,%xmm8
DB 102,15,105,229 ; punpckhwd %xmm5,%xmm4
@@ -29486,7 +29420,7 @@ _sk_load_f16_dst_sse2 LABEL PROC
DB 102,69,15,239,210 ; pxor %xmm10,%xmm10
DB 102,65,15,111,238 ; movdqa %xmm14,%xmm5
DB 102,65,15,97,234 ; punpcklwd %xmm10,%xmm5
- DB 102,68,15,111,13,159,223,0,0 ; movdqa 0xdf9f(%rip),%xmm9 # 2cf60 <_sk_overlay_sse2_8bit+0x1313>
+ DB 102,68,15,111,13,139,224,0,0 ; movdqa 0xe08b(%rip),%xmm9 # 2d010 <_sk_overlay_sse2_8bit+0x139b>
DB 102,15,111,229 ; movdqa %xmm5,%xmm4
DB 102,65,15,219,225 ; pand %xmm9,%xmm4
DB 102,15,239,236 ; pxor %xmm4,%xmm5
@@ -29494,11 +29428,11 @@ _sk_load_f16_dst_sse2 LABEL PROC
DB 102,68,15,111,237 ; movdqa %xmm5,%xmm13
DB 102,65,15,114,245,13 ; pslld $0xd,%xmm13
DB 102,68,15,235,236 ; por %xmm4,%xmm13
- DB 102,68,15,111,29,148,223,0,0 ; movdqa 0xdf94(%rip),%xmm11 # 2cf80 <_sk_overlay_sse2_8bit+0x1333>
+ DB 102,68,15,111,29,128,224,0,0 ; movdqa 0xe080(%rip),%xmm11 # 2d030 <_sk_overlay_sse2_8bit+0x13bb>
DB 102,69,15,254,235 ; paddd %xmm11,%xmm13
- DB 102,68,15,111,37,150,223,0,0 ; movdqa 0xdf96(%rip),%xmm12 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
+ DB 102,68,15,111,37,130,224,0,0 ; movdqa 0xe082(%rip),%xmm12 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
DB 102,65,15,239,236 ; pxor %xmm12,%xmm5
- DB 102,15,111,61,57,225,0,0 ; movdqa 0xe139(%rip),%xmm7 # 2d140 <_sk_overlay_sse2_8bit+0x14f3>
+ DB 102,15,111,61,37,226,0,0 ; movdqa 0xe225(%rip),%xmm7 # 2d1f0 <_sk_overlay_sse2_8bit+0x157b>
DB 102,15,111,231 ; movdqa %xmm7,%xmm4
DB 102,15,102,229 ; pcmpgtd %xmm5,%xmm4
DB 102,65,15,223,229 ; pandn %xmm13,%xmm4
@@ -29544,25 +29478,24 @@ _sk_load_f16_dst_sse2 LABEL PROC
DB 102,65,15,223,250 ; pandn %xmm10,%xmm7
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 242,65,15,16,36,193 ; movsd (%r9,%rax,8),%xmm4
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,17 ; jne 1f0fe <_sk_load_f16_dst_sse2+0x19f>
+ DB 242,65,15,16,36,192 ; movsd (%r8,%rax,8),%xmm4
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,17 ; jne 1f0c2 <_sk_load_f16_dst_sse2+0x19f>
DB 102,15,87,237 ; xorpd %xmm5,%xmm5
DB 102,15,20,229 ; unpcklpd %xmm5,%xmm4
DB 102,15,87,237 ; xorpd %xmm5,%xmm5
- DB 233,142,254,255,255 ; jmpq 1ef8c <_sk_load_f16_dst_sse2+0x2d>
- DB 102,65,15,22,100,193,8 ; movhpd 0x8(%r9,%rax,8),%xmm4
+ DB 233,142,254,255,255 ; jmpq 1ef50 <_sk_load_f16_dst_sse2+0x2d>
+ DB 102,65,15,22,100,192,8 ; movhpd 0x8(%r8,%rax,8),%xmm4
DB 102,15,87,237 ; xorpd %xmm5,%xmm5
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 15,130,121,254,255,255 ; jb 1ef8c <_sk_load_f16_dst_sse2+0x2d>
- DB 242,65,15,16,108,193,16 ; movsd 0x10(%r9,%rax,8),%xmm5
- DB 233,109,254,255,255 ; jmpq 1ef8c <_sk_load_f16_dst_sse2+0x2d>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 15,130,121,254,255,255 ; jb 1ef50 <_sk_load_f16_dst_sse2+0x2d>
+ DB 242,65,15,16,108,192,16 ; movsd 0x10(%r8,%rax,8),%xmm5
+ DB 233,109,254,255,255 ; jmpq 1ef50 <_sk_load_f16_dst_sse2+0x2d>
PUBLIC _sk_gather_f16_sse2
_sk_gather_f16_sse2 LABEL PROC
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,110,80,8 ; movd 0x8(%rax),%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
@@ -29576,16 +29509,16 @@ _sk_gather_f16_sse2 LABEL PROC
DB 102,15,254,193 ; paddd %xmm1,%xmm0
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,72,15,126,200 ; movq %xmm1,%rax
- DB 65,137,194 ; mov %eax,%r10d
+ DB 65,137,193 ; mov %eax,%r9d
DB 72,193,232,32 ; shr $0x20,%rax
- DB 102,73,15,126,195 ; movq %xmm0,%r11
- DB 68,137,219 ; mov %r11d,%ebx
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 243,67,15,126,4,217 ; movq (%r9,%r11,8),%xmm0
- DB 243,65,15,126,12,217 ; movq (%r9,%rbx,8),%xmm1
+ DB 102,73,15,126,194 ; movq %xmm0,%r10
+ DB 69,137,211 ; mov %r10d,%r11d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 243,67,15,126,4,208 ; movq (%r8,%r10,8),%xmm0
+ DB 243,67,15,126,12,216 ; movq (%r8,%r11,8),%xmm1
DB 102,15,108,200 ; punpcklqdq %xmm0,%xmm1
- DB 243,65,15,126,4,193 ; movq (%r9,%rax,8),%xmm0
- DB 243,67,15,126,20,209 ; movq (%r9,%r10,8),%xmm2
+ DB 243,65,15,126,4,192 ; movq (%r8,%rax,8),%xmm0
+ DB 243,67,15,126,20,200 ; movq (%r8,%r9,8),%xmm2
DB 102,15,108,208 ; punpcklqdq %xmm0,%xmm2
DB 102,68,15,111,193 ; movdqa %xmm1,%xmm8
DB 102,68,15,97,194 ; punpcklwd %xmm2,%xmm8
@@ -29596,7 +29529,7 @@ _sk_gather_f16_sse2 LABEL PROC
DB 102,69,15,239,210 ; pxor %xmm10,%xmm10
DB 102,65,15,111,206 ; movdqa %xmm14,%xmm1
DB 102,65,15,97,202 ; punpcklwd %xmm10,%xmm1
- DB 102,68,15,111,13,152,221,0,0 ; movdqa 0xdd98(%rip),%xmm9 # 2cf60 <_sk_overlay_sse2_8bit+0x1313>
+ DB 102,68,15,111,13,133,222,0,0 ; movdqa 0xde85(%rip),%xmm9 # 2d010 <_sk_overlay_sse2_8bit+0x139b>
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
DB 102,65,15,219,193 ; pand %xmm9,%xmm0
DB 102,15,239,200 ; pxor %xmm0,%xmm1
@@ -29604,11 +29537,11 @@ _sk_gather_f16_sse2 LABEL PROC
DB 102,68,15,111,233 ; movdqa %xmm1,%xmm13
DB 102,65,15,114,245,13 ; pslld $0xd,%xmm13
DB 102,68,15,235,232 ; por %xmm0,%xmm13
- DB 102,68,15,111,29,141,221,0,0 ; movdqa 0xdd8d(%rip),%xmm11 # 2cf80 <_sk_overlay_sse2_8bit+0x1333>
+ DB 102,68,15,111,29,122,222,0,0 ; movdqa 0xde7a(%rip),%xmm11 # 2d030 <_sk_overlay_sse2_8bit+0x13bb>
DB 102,69,15,254,235 ; paddd %xmm11,%xmm13
- DB 102,68,15,111,37,143,221,0,0 ; movdqa 0xdd8f(%rip),%xmm12 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
+ DB 102,68,15,111,37,124,222,0,0 ; movdqa 0xde7c(%rip),%xmm12 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
DB 102,65,15,239,204 ; pxor %xmm12,%xmm1
- DB 102,15,111,29,50,223,0,0 ; movdqa 0xdf32(%rip),%xmm3 # 2d140 <_sk_overlay_sse2_8bit+0x14f3>
+ DB 102,15,111,29,31,224,0,0 ; movdqa 0xe01f(%rip),%xmm3 # 2d1f0 <_sk_overlay_sse2_8bit+0x157b>
DB 102,15,111,195 ; movdqa %xmm3,%xmm0
DB 102,15,102,193 ; pcmpgtd %xmm1,%xmm0
DB 102,65,15,223,197 ; pandn %xmm13,%xmm0
@@ -29653,29 +29586,28 @@ _sk_gather_f16_sse2 LABEL PROC
DB 102,65,15,102,216 ; pcmpgtd %xmm8,%xmm3
DB 102,65,15,223,218 ; pandn %xmm10,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 91 ; pop %rbx
DB 255,224 ; jmpq *%rax
PUBLIC _sk_store_f16_sse2
_sk_store_f16_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 73,193,225,3 ; shl $0x3,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 73,193,224,3 ; shl $0x3,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,99,194 ; movslq %edx,%rax
- DB 102,68,15,111,21,135,220,0,0 ; movdqa 0xdc87(%rip),%xmm10 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
+ DB 102,68,15,111,21,117,221,0,0 ; movdqa 0xdd75(%rip),%xmm10 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
DB 102,68,15,111,224 ; movdqa %xmm0,%xmm12
DB 102,69,15,219,226 ; pand %xmm10,%xmm12
DB 102,68,15,111,232 ; movdqa %xmm0,%xmm13
DB 102,69,15,239,236 ; pxor %xmm12,%xmm13
- DB 102,68,15,111,13,122,220,0,0 ; movdqa 0xdc7a(%rip),%xmm9 # 2cfa0 <_sk_overlay_sse2_8bit+0x1353>
+ DB 102,68,15,111,13,104,221,0,0 ; movdqa 0xdd68(%rip),%xmm9 # 2d050 <_sk_overlay_sse2_8bit+0x13db>
DB 102,65,15,114,212,16 ; psrld $0x10,%xmm12
DB 102,69,15,111,193 ; movdqa %xmm9,%xmm8
DB 102,69,15,102,197 ; pcmpgtd %xmm13,%xmm8
DB 102,65,15,114,213,13 ; psrld $0xd,%xmm13
- DB 102,68,15,111,29,107,220,0,0 ; movdqa 0xdc6b(%rip),%xmm11 # 2cfb0 <_sk_overlay_sse2_8bit+0x1363>
+ DB 102,68,15,111,29,89,221,0,0 ; movdqa 0xdd59(%rip),%xmm11 # 2d060 <_sk_overlay_sse2_8bit+0x13eb>
DB 102,69,15,235,227 ; por %xmm11,%xmm12
DB 102,69,15,254,229 ; paddd %xmm13,%xmm12
DB 102,65,15,114,244,16 ; pslld $0x10,%xmm12
@@ -29726,37 +29658,37 @@ _sk_store_f16_sse2 LABEL PROC
DB 102,69,15,97,225 ; punpcklwd %xmm9,%xmm12
DB 102,69,15,111,200 ; movdqa %xmm8,%xmm9
DB 102,69,15,98,204 ; punpckldq %xmm12,%xmm9
- DB 77,133,192 ; test %r8,%r8
- DB 117,21 ; jne 1f467 <_sk_store_f16_sse2+0x17e>
- DB 69,15,17,12,193 ; movups %xmm9,(%r9,%rax,8)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,21 ; jne 1f429 <_sk_store_f16_sse2+0x17e>
+ DB 69,15,17,12,192 ; movups %xmm9,(%r8,%rax,8)
DB 102,69,15,106,196 ; punpckhdq %xmm12,%xmm8
- DB 243,69,15,127,68,193,16 ; movdqu %xmm8,0x10(%r9,%rax,8)
+ DB 243,69,15,127,68,192,16 ; movdqu %xmm8,0x10(%r8,%rax,8)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 102,69,15,214,12,193 ; movq %xmm9,(%r9,%rax,8)
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,240 ; je 1f463 <_sk_store_f16_sse2+0x17a>
- DB 102,69,15,23,76,193,8 ; movhpd %xmm9,0x8(%r9,%rax,8)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,227 ; jb 1f463 <_sk_store_f16_sse2+0x17a>
+ DB 102,69,15,214,12,192 ; movq %xmm9,(%r8,%rax,8)
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,240 ; je 1f425 <_sk_store_f16_sse2+0x17a>
+ DB 102,69,15,23,76,192,8 ; movhpd %xmm9,0x8(%r8,%rax,8)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,227 ; jb 1f425 <_sk_store_f16_sse2+0x17a>
DB 102,69,15,106,196 ; punpckhdq %xmm12,%xmm8
- DB 102,69,15,214,68,193,16 ; movq %xmm8,0x10(%r9,%rax,8)
- DB 235,213 ; jmp 1f463 <_sk_store_f16_sse2+0x17a>
+ DB 102,69,15,214,68,192,16 ; movq %xmm8,0x10(%r8,%rax,8)
+ DB 235,213 ; jmp 1f425 <_sk_store_f16_sse2+0x17a>
PUBLIC _sk_load_u16_be_sse2
_sk_load_u16_be_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,190,0,0,0 ; jne 1f573 <_sk_load_u16_be_sse2+0xe5>
- DB 102,65,15,16,4,65 ; movupd (%r9,%rax,2),%xmm0
- DB 102,65,15,16,76,65,16 ; movupd 0x10(%r9,%rax,2),%xmm1
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,190,0,0,0 ; jne 1f535 <_sk_load_u16_be_sse2+0xe5>
+ DB 102,65,15,16,4,64 ; movupd (%r8,%rax,2),%xmm0
+ DB 102,65,15,16,76,64,16 ; movupd 0x10(%r8,%rax,2),%xmm1
DB 102,15,40,208 ; movapd %xmm0,%xmm2
DB 102,15,97,209 ; punpcklwd %xmm1,%xmm2
DB 102,15,105,193 ; punpckhwd %xmm1,%xmm0
@@ -29771,7 +29703,7 @@ _sk_load_u16_be_sse2 LABEL PROC
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
DB 102,65,15,97,201 ; punpcklwd %xmm9,%xmm1
DB 15,91,193 ; cvtdq2ps %xmm1,%xmm0
- DB 68,15,40,5,26,216,0,0 ; movaps 0xd81a(%rip),%xmm8 # 2cd20 <_sk_overlay_sse2_8bit+0x10d3>
+ DB 68,15,40,5,8,217,0,0 ; movaps 0xd908(%rip),%xmm8 # 2cdd0 <_sk_overlay_sse2_8bit+0x115b>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,15,113,241,8 ; psllw $0x8,%xmm1
@@ -29797,36 +29729,36 @@ _sk_load_u16_be_sse2 LABEL PROC
DB 65,15,89,216 ; mulps %xmm8,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 242,65,15,16,4,65 ; movsd (%r9,%rax,2),%xmm0
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,17 ; jne 1f590 <_sk_load_u16_be_sse2+0x102>
+ DB 242,65,15,16,4,64 ; movsd (%r8,%rax,2),%xmm0
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,17 ; jne 1f552 <_sk_load_u16_be_sse2+0x102>
DB 102,15,87,201 ; xorpd %xmm1,%xmm1
DB 102,15,20,193 ; unpcklpd %xmm1,%xmm0
DB 102,15,87,201 ; xorpd %xmm1,%xmm1
- DB 233,50,255,255,255 ; jmpq 1f4c2 <_sk_load_u16_be_sse2+0x34>
- DB 102,65,15,22,68,65,8 ; movhpd 0x8(%r9,%rax,2),%xmm0
+ DB 233,50,255,255,255 ; jmpq 1f484 <_sk_load_u16_be_sse2+0x34>
+ DB 102,65,15,22,68,64,8 ; movhpd 0x8(%r8,%rax,2),%xmm0
DB 102,15,87,201 ; xorpd %xmm1,%xmm1
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 15,130,29,255,255,255 ; jb 1f4c2 <_sk_load_u16_be_sse2+0x34>
- DB 242,65,15,16,76,65,16 ; movsd 0x10(%r9,%rax,2),%xmm1
- DB 233,17,255,255,255 ; jmpq 1f4c2 <_sk_load_u16_be_sse2+0x34>
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 15,130,29,255,255,255 ; jb 1f484 <_sk_load_u16_be_sse2+0x34>
+ DB 242,65,15,16,76,64,16 ; movsd 0x10(%r8,%rax,2),%xmm1
+ DB 233,17,255,255,255 ; jmpq 1f484 <_sk_load_u16_be_sse2+0x34>
PUBLIC _sk_load_rgb_u16_be_sse2
_sk_load_rgb_u16_be_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,99,80,8 ; movslq 0x8(%rax),%r10
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,202 ; imul %r10,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
+ DB 76,99,72,8 ; movslq 0x8(%rax),%r9
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,193 ; imul %r9,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
DB 72,137,208 ; mov %rdx,%rax
DB 72,193,224,32 ; shl $0x20,%rax
DB 72,141,4,64 ; lea (%rax,%rax,2),%rax
DB 72,193,248,32 ; sar $0x20,%rax
- DB 77,133,192 ; test %r8,%r8
- DB 15,133,175,0,0,0 ; jne 1f68b <_sk_load_rgb_u16_be_sse2+0xda>
- DB 243,65,15,111,20,65 ; movdqu (%r9,%rax,2),%xmm2
- DB 243,65,15,111,92,65,8 ; movdqu 0x8(%r9,%rax,2),%xmm3
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 15,133,175,0,0,0 ; jne 1f64d <_sk_load_rgb_u16_be_sse2+0xda>
+ DB 243,65,15,111,20,64 ; movdqu (%r8,%rax,2),%xmm2
+ DB 243,65,15,111,92,64,8 ; movdqu 0x8(%r8,%rax,2),%xmm3
DB 102,15,115,219,4 ; psrldq $0x4,%xmm3
DB 102,15,111,194 ; movdqa %xmm2,%xmm0
DB 102,15,115,216,6 ; psrldq $0x6,%xmm0
@@ -29845,7 +29777,7 @@ _sk_load_rgb_u16_be_sse2 LABEL PROC
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
DB 102,65,15,97,200 ; punpcklwd %xmm8,%xmm1
DB 15,91,193 ; cvtdq2ps %xmm1,%xmm0
- DB 68,15,40,13,224,214,0,0 ; movaps 0xd6e0(%rip),%xmm9 # 2cd20 <_sk_overlay_sse2_8bit+0x10d3>
+ DB 68,15,40,13,206,215,0,0 ; movaps 0xd7ce(%rip),%xmm9 # 2cdd0 <_sk_overlay_sse2_8bit+0x115b>
DB 65,15,89,193 ; mulps %xmm9,%xmm0
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,15,113,241,8 ; psllw $0x8,%xmm1
@@ -29862,39 +29794,39 @@ _sk_load_rgb_u16_be_sse2 LABEL PROC
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
DB 65,15,89,209 ; mulps %xmm9,%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,7,212,0,0 ; movaps 0xd407(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,245,212,0,0 ; movaps 0xd4f5(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 255,224 ; jmpq *%rax
- DB 102,65,15,110,20,65 ; movd (%r9,%rax,2),%xmm2
- DB 102,65,15,196,84,65,4,2 ; pinsrw $0x2,0x4(%r9,%rax,2),%xmm2
+ DB 102,65,15,110,20,64 ; movd (%r8,%rax,2),%xmm2
+ DB 102,65,15,196,84,64,4,2 ; pinsrw $0x2,0x4(%r8,%rax,2),%xmm2
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,13 ; jne 1f6b0 <_sk_load_rgb_u16_be_sse2+0xff>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,13 ; jne 1f672 <_sk_load_rgb_u16_be_sse2+0xff>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 233,80,255,255,255 ; jmpq 1f600 <_sk_load_rgb_u16_be_sse2+0x4f>
- DB 102,65,15,110,68,65,6 ; movd 0x6(%r9,%rax,2),%xmm0
- DB 102,65,15,196,68,65,10,2 ; pinsrw $0x2,0xa(%r9,%rax,2),%xmm0
+ DB 233,80,255,255,255 ; jmpq 1f5c2 <_sk_load_rgb_u16_be_sse2+0x4f>
+ DB 102,65,15,110,68,64,6 ; movd 0x6(%r8,%rax,2),%xmm0
+ DB 102,65,15,196,68,64,10,2 ; pinsrw $0x2,0xa(%r8,%rax,2),%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,24 ; jb 1f6e1 <_sk_load_rgb_u16_be_sse2+0x130>
- DB 102,65,15,110,92,65,12 ; movd 0xc(%r9,%rax,2),%xmm3
- DB 102,65,15,196,92,65,16,2 ; pinsrw $0x2,0x10(%r9,%rax,2),%xmm3
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,24 ; jb 1f6a3 <_sk_load_rgb_u16_be_sse2+0x130>
+ DB 102,65,15,110,92,64,12 ; movd 0xc(%r8,%rax,2),%xmm3
+ DB 102,65,15,196,92,64,16,2 ; pinsrw $0x2,0x10(%r8,%rax,2),%xmm3
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 233,31,255,255,255 ; jmpq 1f600 <_sk_load_rgb_u16_be_sse2+0x4f>
+ DB 233,31,255,255,255 ; jmpq 1f5c2 <_sk_load_rgb_u16_be_sse2+0x4f>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
- DB 233,22,255,255,255 ; jmpq 1f600 <_sk_load_rgb_u16_be_sse2+0x4f>
+ DB 233,22,255,255,255 ; jmpq 1f5c2 <_sk_load_rgb_u16_be_sse2+0x4f>
PUBLIC _sk_store_u16_be_sse2
_sk_store_u16_be_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 77,1,201 ; add %r9,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 68,15,40,21,176,216,0,0 ; movaps 0xd8b0(%rip),%xmm10 # 2cfc0 <_sk_overlay_sse2_8bit+0x1373>
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 77,1,192 ; add %r8,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 68,15,40,21,158,217,0,0 ; movaps 0xd99e(%rip),%xmm10 # 2d070 <_sk_overlay_sse2_8bit+0x13fb>
DB 68,15,40,192 ; movaps %xmm0,%xmm8
DB 69,15,89,194 ; mulps %xmm10,%xmm8
DB 102,69,15,91,192 ; cvtps2dq %xmm8,%xmm8
@@ -29938,39 +29870,39 @@ _sk_store_u16_be_sse2 LABEL PROC
DB 102,69,15,97,202 ; punpcklwd %xmm10,%xmm9
DB 102,69,15,111,208 ; movdqa %xmm8,%xmm10
DB 102,69,15,98,209 ; punpckldq %xmm9,%xmm10
- DB 77,133,192 ; test %r8,%r8
- DB 117,21 ; jne 1f80a <_sk_store_u16_be_sse2+0x120>
- DB 69,15,17,20,65 ; movups %xmm10,(%r9,%rax,2)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,21 ; jne 1f7cc <_sk_store_u16_be_sse2+0x120>
+ DB 69,15,17,20,64 ; movups %xmm10,(%r8,%rax,2)
DB 102,69,15,106,193 ; punpckhdq %xmm9,%xmm8
- DB 243,69,15,127,68,65,16 ; movdqu %xmm8,0x10(%r9,%rax,2)
+ DB 243,69,15,127,68,64,16 ; movdqu %xmm8,0x10(%r8,%rax,2)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 102,69,15,214,20,65 ; movq %xmm10,(%r9,%rax,2)
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,240 ; je 1f806 <_sk_store_u16_be_sse2+0x11c>
- DB 102,69,15,23,84,65,8 ; movhpd %xmm10,0x8(%r9,%rax,2)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,227 ; jb 1f806 <_sk_store_u16_be_sse2+0x11c>
+ DB 102,69,15,214,20,64 ; movq %xmm10,(%r8,%rax,2)
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,240 ; je 1f7c8 <_sk_store_u16_be_sse2+0x11c>
+ DB 102,69,15,23,84,64,8 ; movhpd %xmm10,0x8(%r8,%rax,2)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,227 ; jb 1f7c8 <_sk_store_u16_be_sse2+0x11c>
DB 102,69,15,106,193 ; punpckhdq %xmm9,%xmm8
- DB 102,69,15,214,68,65,16 ; movq %xmm8,0x10(%r9,%rax,2)
- DB 235,213 ; jmp 1f806 <_sk_store_u16_be_sse2+0x11c>
+ DB 102,69,15,214,68,64,16 ; movq %xmm8,0x10(%r8,%rax,2)
+ DB 235,213 ; jmp 1f7c8 <_sk_store_u16_be_sse2+0x11c>
PUBLIC _sk_load_f32_sse2
_sk_load_f32_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 69,15,16,4,129 ; movups (%r9,%rax,4),%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,66 ; jne 1f89c <_sk_load_f32_sse2+0x6b>
- DB 65,15,16,68,129,16 ; movups 0x10(%r9,%rax,4),%xmm0
- DB 65,15,16,92,129,32 ; movups 0x20(%r9,%rax,4),%xmm3
- DB 69,15,16,76,129,48 ; movups 0x30(%r9,%rax,4),%xmm9
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 69,15,16,4,128 ; movups (%r8,%rax,4),%xmm8
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,66 ; jne 1f85e <_sk_load_f32_sse2+0x6b>
+ DB 65,15,16,68,128,16 ; movups 0x10(%r8,%rax,4),%xmm0
+ DB 65,15,16,92,128,32 ; movups 0x20(%r8,%rax,4),%xmm3
+ DB 69,15,16,76,128,48 ; movups 0x30(%r8,%rax,4),%xmm9
DB 65,15,40,208 ; movaps %xmm8,%xmm2
DB 15,20,208 ; unpcklps %xmm0,%xmm2
DB 15,40,203 ; movaps %xmm3,%xmm1
@@ -29986,35 +29918,35 @@ _sk_load_f32_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
DB 69,15,87,201 ; xorps %xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,8 ; jne 1f8ae <_sk_load_f32_sse2+0x7d>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,8 ; jne 1f870 <_sk_load_f32_sse2+0x7d>
DB 15,87,219 ; xorps %xmm3,%xmm3
DB 15,87,192 ; xorps %xmm0,%xmm0
- DB 235,190 ; jmp 1f86c <_sk_load_f32_sse2+0x3b>
- DB 65,15,16,68,129,16 ; movups 0x10(%r9,%rax,4),%xmm0
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,8 ; jb 1f8c2 <_sk_load_f32_sse2+0x91>
- DB 65,15,16,92,129,32 ; movups 0x20(%r9,%rax,4),%xmm3
- DB 235,170 ; jmp 1f86c <_sk_load_f32_sse2+0x3b>
+ DB 235,190 ; jmp 1f82e <_sk_load_f32_sse2+0x3b>
+ DB 65,15,16,68,128,16 ; movups 0x10(%r8,%rax,4),%xmm0
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,8 ; jb 1f884 <_sk_load_f32_sse2+0x91>
+ DB 65,15,16,92,128,32 ; movups 0x20(%r8,%rax,4),%xmm3
+ DB 235,170 ; jmp 1f82e <_sk_load_f32_sse2+0x3b>
DB 15,87,219 ; xorps %xmm3,%xmm3
- DB 235,165 ; jmp 1f86c <_sk_load_f32_sse2+0x3b>
+ DB 235,165 ; jmp 1f82e <_sk_load_f32_sse2+0x3b>
PUBLIC _sk_load_f32_dst_sse2
_sk_load_f32_dst_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
- DB 69,15,16,4,129 ; movups (%r9,%rax,4),%xmm8
- DB 77,133,192 ; test %r8,%r8
- DB 117,66 ; jne 1f932 <_sk_load_f32_dst_sse2+0x6b>
- DB 65,15,16,100,129,16 ; movups 0x10(%r9,%rax,4),%xmm4
- DB 65,15,16,124,129,32 ; movups 0x20(%r9,%rax,4),%xmm7
- DB 69,15,16,76,129,48 ; movups 0x30(%r9,%rax,4),%xmm9
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
+ DB 69,15,16,4,128 ; movups (%r8,%rax,4),%xmm8
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,66 ; jne 1f8f4 <_sk_load_f32_dst_sse2+0x6b>
+ DB 65,15,16,100,128,16 ; movups 0x10(%r8,%rax,4),%xmm4
+ DB 65,15,16,124,128,32 ; movups 0x20(%r8,%rax,4),%xmm7
+ DB 69,15,16,76,128,48 ; movups 0x30(%r8,%rax,4),%xmm9
DB 65,15,40,240 ; movaps %xmm8,%xmm6
DB 15,20,244 ; unpcklps %xmm4,%xmm6
DB 15,40,239 ; movaps %xmm7,%xmm5
@@ -30030,29 +29962,29 @@ _sk_load_f32_dst_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
DB 69,15,87,201 ; xorps %xmm9,%xmm9
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 117,8 ; jne 1f944 <_sk_load_f32_dst_sse2+0x7d>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 117,8 ; jne 1f906 <_sk_load_f32_dst_sse2+0x7d>
DB 15,87,255 ; xorps %xmm7,%xmm7
DB 15,87,228 ; xorps %xmm4,%xmm4
- DB 235,190 ; jmp 1f902 <_sk_load_f32_dst_sse2+0x3b>
- DB 65,15,16,100,129,16 ; movups 0x10(%r9,%rax,4),%xmm4
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,8 ; jb 1f958 <_sk_load_f32_dst_sse2+0x91>
- DB 65,15,16,124,129,32 ; movups 0x20(%r9,%rax,4),%xmm7
- DB 235,170 ; jmp 1f902 <_sk_load_f32_dst_sse2+0x3b>
+ DB 235,190 ; jmp 1f8c4 <_sk_load_f32_dst_sse2+0x3b>
+ DB 65,15,16,100,128,16 ; movups 0x10(%r8,%rax,4),%xmm4
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,8 ; jb 1f91a <_sk_load_f32_dst_sse2+0x91>
+ DB 65,15,16,124,128,32 ; movups 0x20(%r8,%rax,4),%xmm7
+ DB 235,170 ; jmp 1f8c4 <_sk_load_f32_dst_sse2+0x3b>
DB 15,87,255 ; xorps %xmm7,%xmm7
- DB 235,165 ; jmp 1f902 <_sk_load_f32_dst_sse2+0x3b>
+ DB 235,165 ; jmp 1f8c4 <_sk_load_f32_dst_sse2+0x3b>
PUBLIC _sk_store_f32_sse2
_sk_store_f32_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,141,20,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r10d
- DB 76,99,88,8 ; movslq 0x8(%rax),%r11
- DB 76,99,201 ; movslq %ecx,%r9
- DB 77,15,175,203 ; imul %r11,%r9
- DB 73,193,225,2 ; shl $0x2,%r9
- DB 76,3,8 ; add (%rax),%r9
- DB 73,99,194 ; movslq %r10d,%rax
+ DB 68,141,12,149,0,0,0,0 ; lea 0x0(,%rdx,4),%r9d
+ DB 76,99,80,8 ; movslq 0x8(%rax),%r10
+ DB 76,99,193 ; movslq %ecx,%r8
+ DB 77,15,175,194 ; imul %r10,%r8
+ DB 73,193,224,2 ; shl $0x2,%r8
+ DB 76,3,0 ; add (%rax),%r8
+ DB 73,99,193 ; movslq %r9d,%rax
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 68,15,20,201 ; unpcklps %xmm1,%xmm9
DB 68,15,40,194 ; movaps %xmm2,%xmm8
@@ -30066,22 +29998,22 @@ _sk_store_f32_sse2 LABEL PROC
DB 69,15,18,193 ; movhlps %xmm9,%xmm8
DB 69,15,40,202 ; movaps %xmm10,%xmm9
DB 102,69,15,20,203 ; unpcklpd %xmm11,%xmm9
- DB 102,69,15,17,36,129 ; movupd %xmm12,(%r9,%rax,4)
- DB 77,133,192 ; test %r8,%r8
- DB 117,29 ; jne 1f9da <_sk_store_f32_sse2+0x7d>
+ DB 102,69,15,17,36,128 ; movupd %xmm12,(%r8,%rax,4)
+ DB 72,133,255 ; test %rdi,%rdi
+ DB 117,29 ; jne 1f99c <_sk_store_f32_sse2+0x7d>
DB 102,69,15,21,211 ; unpckhpd %xmm11,%xmm10
- DB 69,15,17,68,129,16 ; movups %xmm8,0x10(%r9,%rax,4)
- DB 102,69,15,17,76,129,32 ; movupd %xmm9,0x20(%r9,%rax,4)
- DB 102,69,15,17,84,129,48 ; movupd %xmm10,0x30(%r9,%rax,4)
+ DB 69,15,17,68,128,16 ; movups %xmm8,0x10(%r8,%rax,4)
+ DB 102,69,15,17,76,128,32 ; movupd %xmm9,0x20(%r8,%rax,4)
+ DB 102,69,15,17,84,128,48 ; movupd %xmm10,0x30(%r8,%rax,4)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
- DB 73,131,248,1 ; cmp $0x1,%r8
- DB 116,246 ; je 1f9d6 <_sk_store_f32_sse2+0x79>
- DB 69,15,17,68,129,16 ; movups %xmm8,0x10(%r9,%rax,4)
- DB 73,131,248,3 ; cmp $0x3,%r8
- DB 114,234 ; jb 1f9d6 <_sk_store_f32_sse2+0x79>
- DB 102,69,15,17,76,129,32 ; movupd %xmm9,0x20(%r9,%rax,4)
- DB 235,225 ; jmp 1f9d6 <_sk_store_f32_sse2+0x79>
+ DB 72,131,255,1 ; cmp $0x1,%rdi
+ DB 116,246 ; je 1f998 <_sk_store_f32_sse2+0x79>
+ DB 69,15,17,68,128,16 ; movups %xmm8,0x10(%r8,%rax,4)
+ DB 72,131,255,3 ; cmp $0x3,%rdi
+ DB 114,234 ; jb 1f998 <_sk_store_f32_sse2+0x79>
+ DB 102,69,15,17,76,128,32 ; movupd %xmm9,0x20(%r8,%rax,4)
+ DB 235,225 ; jmp 1f998 <_sk_store_f32_sse2+0x79>
PUBLIC _sk_clamp_x_sse2
_sk_clamp_x_sse2 LABEL PROC
@@ -30121,7 +30053,7 @@ _sk_repeat_x_sse2 LABEL PROC
DB 243,69,15,91,194 ; cvttps2dq %xmm10,%xmm8
DB 69,15,91,216 ; cvtdq2ps %xmm8,%xmm11
DB 69,15,194,211,1 ; cmpltps %xmm11,%xmm10
- DB 68,15,84,21,29,208,0,0 ; andps 0xd01d(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,84,21,11,209,0,0 ; andps 0xd10b(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,87,192 ; xorps %xmm8,%xmm8
DB 69,15,92,218 ; subps %xmm10,%xmm11
DB 69,15,198,201,0 ; shufps $0x0,%xmm9,%xmm9
@@ -30145,7 +30077,7 @@ _sk_repeat_y_sse2 LABEL PROC
DB 243,69,15,91,194 ; cvttps2dq %xmm10,%xmm8
DB 69,15,91,216 ; cvtdq2ps %xmm8,%xmm11
DB 69,15,194,211,1 ; cmpltps %xmm11,%xmm10
- DB 68,15,84,21,195,207,0,0 ; andps 0xcfc3(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,84,21,177,208,0,0 ; andps 0xd0b1(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,87,192 ; xorps %xmm8,%xmm8
DB 69,15,92,218 ; subps %xmm10,%xmm11
DB 69,15,198,201,0 ; shufps $0x0,%xmm9,%xmm9
@@ -30169,13 +30101,13 @@ _sk_mirror_x_sse2 LABEL PROC
DB 65,15,92,193 ; subps %xmm9,%xmm0
DB 243,69,15,88,210 ; addss %xmm10,%xmm10
DB 69,15,198,210,0 ; shufps $0x0,%xmm10,%xmm10
- DB 243,68,15,89,29,144,197,0,0 ; mulss 0xc590(%rip),%xmm11 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 243,68,15,89,29,246,197,0,0 ; mulss 0xc5f6(%rip),%xmm11 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 68,15,89,216 ; mulps %xmm0,%xmm11
DB 243,69,15,91,195 ; cvttps2dq %xmm11,%xmm8
DB 69,15,91,224 ; cvtdq2ps %xmm8,%xmm12
DB 69,15,194,220,1 ; cmpltps %xmm12,%xmm11
- DB 68,15,84,29,73,207,0,0 ; andps 0xcf49(%rip),%xmm11 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,84,29,55,208,0,0 ; andps 0xd037(%rip),%xmm11 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,87,192 ; xorps %xmm8,%xmm8
DB 69,15,92,227 ; subps %xmm11,%xmm12
DB 69,15,89,226 ; mulps %xmm10,%xmm12
@@ -30202,13 +30134,13 @@ _sk_mirror_y_sse2 LABEL PROC
DB 65,15,92,201 ; subps %xmm9,%xmm1
DB 243,69,15,88,210 ; addss %xmm10,%xmm10
DB 69,15,198,210,0 ; shufps $0x0,%xmm10,%xmm10
- DB 243,68,15,89,29,11,197,0,0 ; mulss 0xc50b(%rip),%xmm11 # 2c0b8 <_sk_overlay_sse2_8bit+0x46b>
+ DB 243,68,15,89,29,113,197,0,0 ; mulss 0xc571(%rip),%xmm11 # 2c0e0 <_sk_overlay_sse2_8bit+0x46b>
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 68,15,89,217 ; mulps %xmm1,%xmm11
DB 243,69,15,91,195 ; cvttps2dq %xmm11,%xmm8
DB 69,15,91,224 ; cvtdq2ps %xmm8,%xmm12
DB 69,15,194,220,1 ; cmpltps %xmm12,%xmm11
- DB 68,15,84,29,196,206,0,0 ; andps 0xcec4(%rip),%xmm11 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,84,29,178,207,0,0 ; andps 0xcfb2(%rip),%xmm11 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,87,192 ; xorps %xmm8,%xmm8
DB 69,15,92,227 ; subps %xmm11,%xmm12
DB 69,15,89,226 ; mulps %xmm10,%xmm12
@@ -30229,7 +30161,7 @@ PUBLIC _sk_clamp_x_1_sse2
_sk_clamp_x_1_sse2 LABEL PROC
DB 69,15,87,192 ; xorps %xmm8,%xmm8
DB 68,15,95,192 ; maxps %xmm0,%xmm8
- DB 68,15,93,5,123,206,0,0 ; minps 0xce7b(%rip),%xmm8 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,93,5,105,207,0,0 ; minps 0xcf69(%rip),%xmm8 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 255,224 ; jmpq *%rax
@@ -30240,7 +30172,7 @@ _sk_repeat_x_1_sse2 LABEL PROC
DB 69,15,91,192 ; cvtdq2ps %xmm8,%xmm8
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,194,200,1 ; cmpltps %xmm8,%xmm9
- DB 68,15,84,13,89,206,0,0 ; andps 0xce59(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,84,13,71,207,0,0 ; andps 0xcf47(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,193 ; subps %xmm9,%xmm8
DB 65,15,92,192 ; subps %xmm8,%xmm0
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -30248,14 +30180,14 @@ _sk_repeat_x_1_sse2 LABEL PROC
PUBLIC _sk_mirror_x_1_sse2
_sk_mirror_x_1_sse2 LABEL PROC
- DB 68,15,40,5,165,206,0,0 ; movaps 0xcea5(%rip),%xmm8 # 2caf0 <_sk_overlay_sse2_8bit+0xea3>
+ DB 68,15,40,5,147,207,0,0 ; movaps 0xcf93(%rip),%xmm8 # 2cba0 <_sk_overlay_sse2_8bit+0xf2b>
DB 65,15,88,192 ; addps %xmm8,%xmm0
- DB 68,15,40,13,41,206,0,0 ; movaps 0xce29(%rip),%xmm9 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,13,7,207,0,0 ; movaps 0xcf07(%rip),%xmm9 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 68,15,89,200 ; mulps %xmm0,%xmm9
DB 243,69,15,91,209 ; cvttps2dq %xmm9,%xmm10
DB 69,15,91,210 ; cvtdq2ps %xmm10,%xmm10
DB 69,15,194,202,1 ; cmpltps %xmm10,%xmm9
- DB 68,15,84,13,31,206,0,0 ; andps 0xce1f(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,84,13,13,207,0,0 ; andps 0xcf0d(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,87,219 ; xorps %xmm11,%xmm11
DB 69,15,92,209 ; subps %xmm9,%xmm10
DB 69,15,88,210 ; addps %xmm10,%xmm10
@@ -30269,10 +30201,10 @@ _sk_mirror_x_1_sse2 LABEL PROC
PUBLIC _sk_luminance_to_alpha_sse2
_sk_luminance_to_alpha_sse2 LABEL PROC
DB 15,40,218 ; movaps %xmm2,%xmm3
- DB 15,89,5,53,211,0,0 ; mulps 0xd335(%rip),%xmm0 # 2cfd0 <_sk_overlay_sse2_8bit+0x1383>
- DB 15,89,13,62,211,0,0 ; mulps 0xd33e(%rip),%xmm1 # 2cfe0 <_sk_overlay_sse2_8bit+0x1393>
+ DB 15,89,5,35,212,0,0 ; mulps 0xd423(%rip),%xmm0 # 2d080 <_sk_overlay_sse2_8bit+0x140b>
+ DB 15,89,13,44,212,0,0 ; mulps 0xd42c(%rip),%xmm1 # 2d090 <_sk_overlay_sse2_8bit+0x141b>
DB 15,88,200 ; addps %xmm0,%xmm1
- DB 15,89,29,68,211,0,0 ; mulps 0xd344(%rip),%xmm3 # 2cff0 <_sk_overlay_sse2_8bit+0x13a3>
+ DB 15,89,29,50,212,0,0 ; mulps 0xd432(%rip),%xmm3 # 2d0a0 <_sk_overlay_sse2_8bit+0x142b>
DB 15,88,217 ; addps %xmm1,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,87,192 ; xorps %xmm0,%xmm0
@@ -30568,86 +30500,86 @@ _sk_evenly_spaced_gradient_sse2 LABEL PROC
DB 72,139,24 ; mov (%rax),%rbx
DB 76,139,112,8 ; mov 0x8(%rax),%r14
DB 72,255,203 ; dec %rbx
- DB 120,7 ; js 2014c <_sk_evenly_spaced_gradient_sse2+0x18>
+ DB 120,7 ; js 2010e <_sk_evenly_spaced_gradient_sse2+0x18>
DB 243,72,15,42,203 ; cvtsi2ss %rbx,%xmm1
- DB 235,21 ; jmp 20161 <_sk_evenly_spaced_gradient_sse2+0x2d>
- DB 73,137,217 ; mov %rbx,%r9
- DB 73,209,233 ; shr %r9
+ DB 235,21 ; jmp 20123 <_sk_evenly_spaced_gradient_sse2+0x2d>
+ DB 73,137,216 ; mov %rbx,%r8
+ DB 73,209,232 ; shr %r8
DB 131,227,1 ; and $0x1,%ebx
- DB 76,9,203 ; or %r9,%rbx
+ DB 76,9,195 ; or %r8,%rbx
DB 243,72,15,42,203 ; cvtsi2ss %rbx,%xmm1
DB 243,15,88,201 ; addss %xmm1,%xmm1
DB 15,198,201,0 ; shufps $0x0,%xmm1,%xmm1
DB 15,89,200 ; mulps %xmm0,%xmm1
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
- DB 102,73,15,126,211 ; movq %xmm2,%r11
+ DB 102,73,15,126,210 ; movq %xmm2,%r10
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,73,15,126,203 ; movq %xmm1,%r11
DB 69,137,217 ; mov %r11d,%r9d
DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,72,15,126,203 ; movq %xmm1,%rbx
- DB 65,137,218 ; mov %ebx,%r10d
- DB 72,193,235,32 ; shr $0x20,%rbx
- DB 243,65,15,16,12,158 ; movss (%r14,%rbx,4),%xmm1
- DB 243,67,15,16,20,158 ; movss (%r14,%r11,4),%xmm2
+ DB 243,67,15,16,12,158 ; movss (%r14,%r11,4),%xmm1
+ DB 243,67,15,16,20,150 ; movss (%r14,%r10,4),%xmm2
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 243,71,15,16,4,150 ; movss (%r14,%r10,4),%xmm8
- DB 243,67,15,16,20,142 ; movss (%r14,%r9,4),%xmm2
+ DB 243,71,15,16,4,142 ; movss (%r14,%r9,4),%xmm8
+ DB 243,67,15,16,20,134 ; movss (%r14,%r8,4),%xmm2
DB 68,15,20,194 ; unpcklps %xmm2,%xmm8
DB 68,15,20,193 ; unpcklps %xmm1,%xmm8
- DB 76,139,112,40 ; mov 0x28(%rax),%r14
- DB 243,65,15,16,12,158 ; movss (%r14,%rbx,4),%xmm1
- DB 243,67,15,16,20,158 ; movss (%r14,%r11,4),%xmm2
+ DB 72,139,88,40 ; mov 0x28(%rax),%rbx
+ DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 243,71,15,16,12,150 ; movss (%r14,%r10,4),%xmm9
- DB 243,67,15,16,20,142 ; movss (%r14,%r9,4),%xmm2
+ DB 243,70,15,16,12,139 ; movss (%rbx,%r9,4),%xmm9
+ DB 243,66,15,16,20,131 ; movss (%rbx,%r8,4),%xmm2
DB 68,15,20,202 ; unpcklps %xmm2,%xmm9
DB 68,15,20,201 ; unpcklps %xmm1,%xmm9
- DB 76,139,112,16 ; mov 0x10(%rax),%r14
- DB 243,65,15,16,20,158 ; movss (%r14,%rbx,4),%xmm2
- DB 243,67,15,16,12,158 ; movss (%r14,%r11,4),%xmm1
+ DB 72,139,88,16 ; mov 0x10(%rax),%rbx
+ DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,66,15,16,12,147 ; movss (%rbx,%r10,4),%xmm1
DB 15,20,209 ; unpcklps %xmm1,%xmm2
- DB 243,67,15,16,12,150 ; movss (%r14,%r10,4),%xmm1
- DB 243,67,15,16,28,142 ; movss (%r14,%r9,4),%xmm3
+ DB 243,66,15,16,12,139 ; movss (%rbx,%r9,4),%xmm1
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 15,20,203 ; unpcklps %xmm3,%xmm1
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 76,139,112,48 ; mov 0x30(%rax),%r14
- DB 243,65,15,16,20,158 ; movss (%r14,%rbx,4),%xmm2
- DB 243,67,15,16,28,158 ; movss (%r14,%r11,4),%xmm3
+ DB 72,139,88,48 ; mov 0x30(%rax),%rbx
+ DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
DB 15,20,211 ; unpcklps %xmm3,%xmm2
- DB 243,71,15,16,20,150 ; movss (%r14,%r10,4),%xmm10
- DB 243,67,15,16,28,142 ; movss (%r14,%r9,4),%xmm3
+ DB 243,70,15,16,20,139 ; movss (%rbx,%r9,4),%xmm10
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 68,15,20,211 ; unpcklps %xmm3,%xmm10
DB 68,15,20,210 ; unpcklps %xmm2,%xmm10
- DB 76,139,112,24 ; mov 0x18(%rax),%r14
- DB 243,69,15,16,28,158 ; movss (%r14,%rbx,4),%xmm11
- DB 243,67,15,16,20,158 ; movss (%r14,%r11,4),%xmm2
+ DB 72,139,88,24 ; mov 0x18(%rax),%rbx
+ DB 243,70,15,16,28,155 ; movss (%rbx,%r11,4),%xmm11
+ DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
DB 68,15,20,218 ; unpcklps %xmm2,%xmm11
- DB 243,67,15,16,20,150 ; movss (%r14,%r10,4),%xmm2
- DB 243,67,15,16,28,142 ; movss (%r14,%r9,4),%xmm3
+ DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 15,20,211 ; unpcklps %xmm3,%xmm2
DB 65,15,20,211 ; unpcklps %xmm11,%xmm2
- DB 76,139,112,56 ; mov 0x38(%rax),%r14
- DB 243,69,15,16,36,158 ; movss (%r14,%rbx,4),%xmm12
- DB 243,67,15,16,28,158 ; movss (%r14,%r11,4),%xmm3
+ DB 72,139,88,56 ; mov 0x38(%rax),%rbx
+ DB 243,70,15,16,36,155 ; movss (%rbx,%r11,4),%xmm12
+ DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
DB 68,15,20,227 ; unpcklps %xmm3,%xmm12
- DB 243,71,15,16,28,150 ; movss (%r14,%r10,4),%xmm11
- DB 243,67,15,16,28,142 ; movss (%r14,%r9,4),%xmm3
+ DB 243,70,15,16,28,139 ; movss (%rbx,%r9,4),%xmm11
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 68,15,20,219 ; unpcklps %xmm3,%xmm11
DB 69,15,20,220 ; unpcklps %xmm12,%xmm11
- DB 76,139,112,32 ; mov 0x20(%rax),%r14
- DB 243,69,15,16,36,158 ; movss (%r14,%rbx,4),%xmm12
- DB 243,67,15,16,28,158 ; movss (%r14,%r11,4),%xmm3
+ DB 72,139,88,32 ; mov 0x20(%rax),%rbx
+ DB 243,70,15,16,36,155 ; movss (%rbx,%r11,4),%xmm12
+ DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
DB 68,15,20,227 ; unpcklps %xmm3,%xmm12
- DB 243,67,15,16,28,150 ; movss (%r14,%r10,4),%xmm3
- DB 243,71,15,16,44,142 ; movss (%r14,%r9,4),%xmm13
+ DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 243,70,15,16,44,131 ; movss (%rbx,%r8,4),%xmm13
DB 65,15,20,221 ; unpcklps %xmm13,%xmm3
DB 65,15,20,220 ; unpcklps %xmm12,%xmm3
DB 72,139,64,64 ; mov 0x40(%rax),%rax
- DB 243,68,15,16,36,152 ; movss (%rax,%rbx,4),%xmm12
- DB 243,70,15,16,44,152 ; movss (%rax,%r11,4),%xmm13
- DB 69,15,20,229 ; unpcklps %xmm13,%xmm12
+ DB 243,70,15,16,36,152 ; movss (%rax,%r11,4),%xmm12
DB 243,70,15,16,44,144 ; movss (%rax,%r10,4),%xmm13
- DB 243,70,15,16,52,136 ; movss (%rax,%r9,4),%xmm14
+ DB 69,15,20,229 ; unpcklps %xmm13,%xmm12
+ DB 243,70,15,16,44,136 ; movss (%rax,%r9,4),%xmm13
+ DB 243,70,15,16,52,128 ; movss (%rax,%r8,4),%xmm14
DB 69,15,20,238 ; unpcklps %xmm14,%xmm13
DB 69,15,20,236 ; unpcklps %xmm12,%xmm13
DB 68,15,89,192 ; mulps %xmm0,%xmm8
@@ -30666,15 +30598,15 @@ _sk_evenly_spaced_gradient_sse2 LABEL PROC
PUBLIC _sk_gauss_a_to_rgba_sse2
_sk_gauss_a_to_rgba_sse2 LABEL PROC
- DB 15,40,5,19,205,0,0 ; movaps 0xcd13(%rip),%xmm0 # 2d000 <_sk_overlay_sse2_8bit+0x13b3>
+ DB 15,40,5,1,206,0,0 ; movaps 0xce01(%rip),%xmm0 # 2d0b0 <_sk_overlay_sse2_8bit+0x143b>
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,5,25,205,0,0 ; addps 0xcd19(%rip),%xmm0 # 2d010 <_sk_overlay_sse2_8bit+0x13c3>
+ DB 15,88,5,7,206,0,0 ; addps 0xce07(%rip),%xmm0 # 2d0c0 <_sk_overlay_sse2_8bit+0x144b>
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,5,31,205,0,0 ; addps 0xcd1f(%rip),%xmm0 # 2d020 <_sk_overlay_sse2_8bit+0x13d3>
+ DB 15,88,5,13,206,0,0 ; addps 0xce0d(%rip),%xmm0 # 2d0d0 <_sk_overlay_sse2_8bit+0x145b>
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,5,37,205,0,0 ; addps 0xcd25(%rip),%xmm0 # 2d030 <_sk_overlay_sse2_8bit+0x13e3>
+ DB 15,88,5,19,206,0,0 ; addps 0xce13(%rip),%xmm0 # 2d0e0 <_sk_overlay_sse2_8bit+0x146b>
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,5,43,205,0,0 ; addps 0xcd2b(%rip),%xmm0 # 2d040 <_sk_overlay_sse2_8bit+0x13f3>
+ DB 15,88,5,25,206,0,0 ; addps 0xce19(%rip),%xmm0 # 2d0f0 <_sk_overlay_sse2_8bit+0x147b>
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
@@ -30683,96 +30615,95 @@ _sk_gauss_a_to_rgba_sse2 LABEL PROC
PUBLIC _sk_gradient_sse2
_sk_gradient_sse2 LABEL PROC
- DB 65,87 ; push %r15
- DB 65,86 ; push %r14
- DB 83 ; push %rbx
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 76,139,8 ; mov (%rax),%r9
+ DB 76,139,0 ; mov (%rax),%r8
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 73,131,249,2 ; cmp $0x2,%r9
- DB 114,50 ; jb 20368 <_sk_gradient_sse2+0x46>
- DB 72,139,88,72 ; mov 0x48(%rax),%rbx
- DB 73,255,201 ; dec %r9
- DB 72,131,195,4 ; add $0x4,%rbx
+ DB 73,131,248,2 ; cmp $0x2,%r8
+ DB 114,51 ; jb 20326 <_sk_gradient_sse2+0x42>
+ DB 76,139,72,72 ; mov 0x48(%rax),%r9
+ DB 73,255,200 ; dec %r8
+ DB 73,131,193,4 ; add $0x4,%r9
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 15,40,21,84,199,0,0 ; movaps 0xc754(%rip),%xmm2 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
- DB 243,15,16,27 ; movss (%rbx),%xmm3
+ DB 15,40,21,71,200,0,0 ; movaps 0xc847(%rip),%xmm2 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
+ DB 243,65,15,16,25 ; movss (%r9),%xmm3
DB 15,198,219,0 ; shufps $0x0,%xmm3,%xmm3
DB 15,194,216,2 ; cmpleps %xmm0,%xmm3
DB 15,84,218 ; andps %xmm2,%xmm3
DB 102,15,254,203 ; paddd %xmm3,%xmm1
- DB 72,131,195,4 ; add $0x4,%rbx
- DB 73,255,201 ; dec %r9
- DB 117,228 ; jne 2034c <_sk_gradient_sse2+0x2a>
+ DB 73,131,193,4 ; add $0x4,%r9
+ DB 73,255,200 ; dec %r8
+ DB 117,227 ; jne 20309 <_sk_gradient_sse2+0x25>
+ DB 65,86 ; push %r14
+ DB 83 ; push %rbx
DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
- DB 102,73,15,126,211 ; movq %xmm2,%r11
+ DB 102,73,15,126,210 ; movq %xmm2,%r10
+ DB 69,137,208 ; mov %r10d,%r8d
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 102,73,15,126,203 ; movq %xmm1,%r11
DB 69,137,217 ; mov %r11d,%r9d
DB 73,193,235,32 ; shr $0x20,%r11
- DB 102,72,15,126,203 ; movq %xmm1,%rbx
- DB 65,137,218 ; mov %ebx,%r10d
- DB 72,193,235,32 ; shr $0x20,%rbx
- DB 76,139,112,8 ; mov 0x8(%rax),%r14
- DB 76,139,120,16 ; mov 0x10(%rax),%r15
- DB 243,65,15,16,12,158 ; movss (%r14,%rbx,4),%xmm1
- DB 243,67,15,16,20,158 ; movss (%r14,%r11,4),%xmm2
+ DB 72,139,88,8 ; mov 0x8(%rax),%rbx
+ DB 76,139,112,16 ; mov 0x10(%rax),%r14
+ DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 243,71,15,16,4,150 ; movss (%r14,%r10,4),%xmm8
- DB 243,67,15,16,20,142 ; movss (%r14,%r9,4),%xmm2
+ DB 243,70,15,16,4,139 ; movss (%rbx,%r9,4),%xmm8
+ DB 243,66,15,16,20,131 ; movss (%rbx,%r8,4),%xmm2
DB 68,15,20,194 ; unpcklps %xmm2,%xmm8
DB 68,15,20,193 ; unpcklps %xmm1,%xmm8
- DB 76,139,112,40 ; mov 0x28(%rax),%r14
- DB 243,65,15,16,12,158 ; movss (%r14,%rbx,4),%xmm1
- DB 243,67,15,16,20,158 ; movss (%r14,%r11,4),%xmm2
+ DB 72,139,88,40 ; mov 0x28(%rax),%rbx
+ DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 243,71,15,16,12,150 ; movss (%r14,%r10,4),%xmm9
- DB 243,67,15,16,20,142 ; movss (%r14,%r9,4),%xmm2
+ DB 243,70,15,16,12,139 ; movss (%rbx,%r9,4),%xmm9
+ DB 243,66,15,16,20,131 ; movss (%rbx,%r8,4),%xmm2
DB 68,15,20,202 ; unpcklps %xmm2,%xmm9
DB 68,15,20,201 ; unpcklps %xmm1,%xmm9
- DB 243,65,15,16,20,159 ; movss (%r15,%rbx,4),%xmm2
- DB 243,67,15,16,12,159 ; movss (%r15,%r11,4),%xmm1
+ DB 243,67,15,16,20,158 ; movss (%r14,%r11,4),%xmm2
+ DB 243,67,15,16,12,150 ; movss (%r14,%r10,4),%xmm1
DB 15,20,209 ; unpcklps %xmm1,%xmm2
- DB 243,67,15,16,12,151 ; movss (%r15,%r10,4),%xmm1
- DB 243,67,15,16,28,143 ; movss (%r15,%r9,4),%xmm3
+ DB 243,67,15,16,12,142 ; movss (%r14,%r9,4),%xmm1
+ DB 243,67,15,16,28,134 ; movss (%r14,%r8,4),%xmm3
DB 15,20,203 ; unpcklps %xmm3,%xmm1
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 76,139,112,48 ; mov 0x30(%rax),%r14
- DB 243,65,15,16,20,158 ; movss (%r14,%rbx,4),%xmm2
- DB 243,67,15,16,28,158 ; movss (%r14,%r11,4),%xmm3
+ DB 72,139,88,48 ; mov 0x30(%rax),%rbx
+ DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
DB 15,20,211 ; unpcklps %xmm3,%xmm2
- DB 243,71,15,16,20,150 ; movss (%r14,%r10,4),%xmm10
- DB 243,67,15,16,28,142 ; movss (%r14,%r9,4),%xmm3
+ DB 243,70,15,16,20,139 ; movss (%rbx,%r9,4),%xmm10
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 68,15,20,211 ; unpcklps %xmm3,%xmm10
DB 68,15,20,210 ; unpcklps %xmm2,%xmm10
- DB 76,139,112,24 ; mov 0x18(%rax),%r14
- DB 243,69,15,16,28,158 ; movss (%r14,%rbx,4),%xmm11
- DB 243,67,15,16,20,158 ; movss (%r14,%r11,4),%xmm2
+ DB 72,139,88,24 ; mov 0x18(%rax),%rbx
+ DB 243,70,15,16,28,155 ; movss (%rbx,%r11,4),%xmm11
+ DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
DB 68,15,20,218 ; unpcklps %xmm2,%xmm11
- DB 243,67,15,16,20,150 ; movss (%r14,%r10,4),%xmm2
- DB 243,67,15,16,28,142 ; movss (%r14,%r9,4),%xmm3
+ DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 15,20,211 ; unpcklps %xmm3,%xmm2
DB 65,15,20,211 ; unpcklps %xmm11,%xmm2
- DB 76,139,112,56 ; mov 0x38(%rax),%r14
- DB 243,69,15,16,36,158 ; movss (%r14,%rbx,4),%xmm12
- DB 243,67,15,16,28,158 ; movss (%r14,%r11,4),%xmm3
+ DB 72,139,88,56 ; mov 0x38(%rax),%rbx
+ DB 243,70,15,16,36,155 ; movss (%rbx,%r11,4),%xmm12
+ DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
DB 68,15,20,227 ; unpcklps %xmm3,%xmm12
- DB 243,71,15,16,28,150 ; movss (%r14,%r10,4),%xmm11
- DB 243,67,15,16,28,142 ; movss (%r14,%r9,4),%xmm3
+ DB 243,70,15,16,28,139 ; movss (%rbx,%r9,4),%xmm11
+ DB 243,66,15,16,28,131 ; movss (%rbx,%r8,4),%xmm3
DB 68,15,20,219 ; unpcklps %xmm3,%xmm11
DB 69,15,20,220 ; unpcklps %xmm12,%xmm11
- DB 76,139,112,32 ; mov 0x20(%rax),%r14
- DB 243,69,15,16,36,158 ; movss (%r14,%rbx,4),%xmm12
- DB 243,67,15,16,28,158 ; movss (%r14,%r11,4),%xmm3
+ DB 72,139,88,32 ; mov 0x20(%rax),%rbx
+ DB 243,70,15,16,36,155 ; movss (%rbx,%r11,4),%xmm12
+ DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
DB 68,15,20,227 ; unpcklps %xmm3,%xmm12
- DB 243,67,15,16,28,150 ; movss (%r14,%r10,4),%xmm3
- DB 243,71,15,16,44,142 ; movss (%r14,%r9,4),%xmm13
+ DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 243,70,15,16,44,131 ; movss (%rbx,%r8,4),%xmm13
DB 65,15,20,221 ; unpcklps %xmm13,%xmm3
DB 65,15,20,220 ; unpcklps %xmm12,%xmm3
DB 72,139,64,64 ; mov 0x40(%rax),%rax
- DB 243,68,15,16,36,152 ; movss (%rax,%rbx,4),%xmm12
- DB 243,70,15,16,44,152 ; movss (%rax,%r11,4),%xmm13
- DB 69,15,20,229 ; unpcklps %xmm13,%xmm12
+ DB 243,70,15,16,36,152 ; movss (%rax,%r11,4),%xmm12
DB 243,70,15,16,44,144 ; movss (%rax,%r10,4),%xmm13
- DB 243,70,15,16,52,136 ; movss (%rax,%r9,4),%xmm14
+ DB 69,15,20,229 ; unpcklps %xmm13,%xmm12
+ DB 243,70,15,16,44,136 ; movss (%rax,%r9,4),%xmm13
+ DB 243,70,15,16,52,128 ; movss (%rax,%r8,4),%xmm14
DB 69,15,20,238 ; unpcklps %xmm14,%xmm13
DB 69,15,20,236 ; unpcklps %xmm12,%xmm13
DB 68,15,89,192 ; mulps %xmm0,%xmm8
@@ -30787,7 +30718,6 @@ _sk_gradient_sse2 LABEL PROC
DB 65,15,40,192 ; movaps %xmm8,%xmm0
DB 91 ; pop %rbx
DB 65,94 ; pop %r14
- DB 65,95 ; pop %r15
DB 255,224 ; jmpq *%rax
PUBLIC _sk_evenly_spaced_2_stop_gradient_sse2
@@ -30838,29 +30768,29 @@ _sk_xy_to_unit_angle_sse2 LABEL PROC
DB 69,15,94,220 ; divps %xmm12,%xmm11
DB 69,15,40,227 ; movaps %xmm11,%xmm12
DB 69,15,89,228 ; mulps %xmm12,%xmm12
- DB 68,15,40,45,181,202,0,0 ; movaps 0xcab5(%rip),%xmm13 # 2d050 <_sk_overlay_sse2_8bit+0x1403>
+ DB 68,15,40,45,166,203,0,0 ; movaps 0xcba6(%rip),%xmm13 # 2d100 <_sk_overlay_sse2_8bit+0x148b>
DB 69,15,89,236 ; mulps %xmm12,%xmm13
- DB 68,15,88,45,185,202,0,0 ; addps 0xcab9(%rip),%xmm13 # 2d060 <_sk_overlay_sse2_8bit+0x1413>
+ DB 68,15,88,45,170,203,0,0 ; addps 0xcbaa(%rip),%xmm13 # 2d110 <_sk_overlay_sse2_8bit+0x149b>
DB 69,15,89,236 ; mulps %xmm12,%xmm13
- DB 68,15,88,45,189,202,0,0 ; addps 0xcabd(%rip),%xmm13 # 2d070 <_sk_overlay_sse2_8bit+0x1423>
+ DB 68,15,88,45,174,203,0,0 ; addps 0xcbae(%rip),%xmm13 # 2d120 <_sk_overlay_sse2_8bit+0x14ab>
DB 69,15,89,236 ; mulps %xmm12,%xmm13
- DB 68,15,88,45,193,202,0,0 ; addps 0xcac1(%rip),%xmm13 # 2d080 <_sk_overlay_sse2_8bit+0x1433>
+ DB 68,15,88,45,178,203,0,0 ; addps 0xcbb2(%rip),%xmm13 # 2d130 <_sk_overlay_sse2_8bit+0x14bb>
DB 69,15,89,235 ; mulps %xmm11,%xmm13
DB 69,15,194,202,1 ; cmpltps %xmm10,%xmm9
- DB 68,15,40,21,192,202,0,0 ; movaps 0xcac0(%rip),%xmm10 # 2d090 <_sk_overlay_sse2_8bit+0x1443>
+ DB 68,15,40,21,177,203,0,0 ; movaps 0xcbb1(%rip),%xmm10 # 2d140 <_sk_overlay_sse2_8bit+0x14cb>
DB 69,15,92,213 ; subps %xmm13,%xmm10
DB 69,15,84,209 ; andps %xmm9,%xmm10
DB 69,15,85,205 ; andnps %xmm13,%xmm9
DB 69,15,86,202 ; orps %xmm10,%xmm9
DB 68,15,194,192,1 ; cmpltps %xmm0,%xmm8
- DB 68,15,40,21,147,196,0,0 ; movaps 0xc493(%rip),%xmm10 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,21,116,197,0,0 ; movaps 0xc574(%rip),%xmm10 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 69,15,92,209 ; subps %xmm9,%xmm10
DB 69,15,84,208 ; andps %xmm8,%xmm10
DB 69,15,85,193 ; andnps %xmm9,%xmm8
DB 69,15,86,194 ; orps %xmm10,%xmm8
DB 68,15,40,201 ; movaps %xmm1,%xmm9
DB 68,15,194,200,1 ; cmpltps %xmm0,%xmm9
- DB 68,15,40,21,130,196,0,0 ; movaps 0xc482(%rip),%xmm10 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,21,115,197,0,0 ; movaps 0xc573(%rip),%xmm10 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,208 ; subps %xmm8,%xmm10
DB 69,15,84,209 ; andps %xmm9,%xmm10
DB 69,15,85,200 ; andnps %xmm8,%xmm9
@@ -30891,7 +30821,7 @@ _sk_xy_to_2pt_conical_quadratic_max_sse2 LABEL PROC
DB 243,69,15,89,203 ; mulss %xmm11,%xmm9
DB 69,15,198,201,0 ; shufps $0x0,%xmm9,%xmm9
DB 68,15,88,200 ; addps %xmm0,%xmm9
- DB 68,15,89,13,41,202,0,0 ; mulps 0xca29(%rip),%xmm9 # 2d0a0 <_sk_overlay_sse2_8bit+0x1453>
+ DB 68,15,89,13,26,203,0,0 ; mulps 0xcb1a(%rip),%xmm9 # 2d150 <_sk_overlay_sse2_8bit+0x14db>
DB 15,89,192 ; mulps %xmm0,%xmm0
DB 68,15,40,225 ; movaps %xmm1,%xmm12
DB 69,15,89,228 ; mulps %xmm12,%xmm12
@@ -30899,7 +30829,7 @@ _sk_xy_to_2pt_conical_quadratic_max_sse2 LABEL PROC
DB 243,69,15,89,219 ; mulss %xmm11,%xmm11
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 69,15,92,227 ; subps %xmm11,%xmm12
- DB 68,15,89,21,20,202,0,0 ; mulps 0xca14(%rip),%xmm10 # 2d0b0 <_sk_overlay_sse2_8bit+0x1463>
+ DB 68,15,89,21,5,203,0,0 ; mulps 0xcb05(%rip),%xmm10 # 2d160 <_sk_overlay_sse2_8bit+0x14eb>
DB 69,15,89,212 ; mulps %xmm12,%xmm10
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 15,89,192 ; mulps %xmm0,%xmm0
@@ -30908,8 +30838,8 @@ _sk_xy_to_2pt_conical_quadratic_max_sse2 LABEL PROC
DB 69,15,198,192,0 ; shufps $0x0,%xmm8,%xmm8
DB 65,15,40,194 ; movaps %xmm10,%xmm0
DB 65,15,92,193 ; subps %xmm9,%xmm0
- DB 68,15,87,13,204,200,0,0 ; xorps 0xc8cc(%rip),%xmm9 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
- DB 68,15,89,5,180,195,0,0 ; mulps 0xc3b4(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,87,13,189,201,0,0 ; xorps 0xc9bd(%rip),%xmm9 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
+ DB 68,15,89,5,149,196,0,0 ; mulps 0xc495(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 69,15,92,202 ; subps %xmm10,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
@@ -30928,7 +30858,7 @@ _sk_xy_to_2pt_conical_quadratic_min_sse2 LABEL PROC
DB 243,69,15,89,203 ; mulss %xmm11,%xmm9
DB 69,15,198,201,0 ; shufps $0x0,%xmm9,%xmm9
DB 68,15,88,200 ; addps %xmm0,%xmm9
- DB 68,15,89,13,139,201,0,0 ; mulps 0xc98b(%rip),%xmm9 # 2d0a0 <_sk_overlay_sse2_8bit+0x1453>
+ DB 68,15,89,13,124,202,0,0 ; mulps 0xca7c(%rip),%xmm9 # 2d150 <_sk_overlay_sse2_8bit+0x14db>
DB 15,89,192 ; mulps %xmm0,%xmm0
DB 68,15,40,225 ; movaps %xmm1,%xmm12
DB 69,15,89,228 ; mulps %xmm12,%xmm12
@@ -30936,7 +30866,7 @@ _sk_xy_to_2pt_conical_quadratic_min_sse2 LABEL PROC
DB 243,69,15,89,219 ; mulss %xmm11,%xmm11
DB 69,15,198,219,0 ; shufps $0x0,%xmm11,%xmm11
DB 69,15,92,227 ; subps %xmm11,%xmm12
- DB 68,15,89,21,118,201,0,0 ; mulps 0xc976(%rip),%xmm10 # 2d0b0 <_sk_overlay_sse2_8bit+0x1463>
+ DB 68,15,89,21,103,202,0,0 ; mulps 0xca67(%rip),%xmm10 # 2d160 <_sk_overlay_sse2_8bit+0x14eb>
DB 69,15,89,212 ; mulps %xmm12,%xmm10
DB 65,15,40,193 ; movaps %xmm9,%xmm0
DB 15,89,192 ; mulps %xmm0,%xmm0
@@ -30945,8 +30875,8 @@ _sk_xy_to_2pt_conical_quadratic_min_sse2 LABEL PROC
DB 69,15,198,192,0 ; shufps $0x0,%xmm8,%xmm8
DB 65,15,40,194 ; movaps %xmm10,%xmm0
DB 65,15,92,193 ; subps %xmm9,%xmm0
- DB 68,15,87,13,46,200,0,0 ; xorps 0xc82e(%rip),%xmm9 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
- DB 68,15,89,5,22,195,0,0 ; mulps 0xc316(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,87,13,31,201,0,0 ; xorps 0xc91f(%rip),%xmm9 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
+ DB 68,15,89,5,247,195,0,0 ; mulps 0xc3f7(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 65,15,89,192 ; mulps %xmm8,%xmm0
DB 69,15,92,202 ; subps %xmm10,%xmm9
DB 69,15,89,200 ; mulps %xmm8,%xmm9
@@ -30962,7 +30892,7 @@ _sk_xy_to_2pt_conical_linear_sse2 LABEL PROC
DB 243,69,15,89,200 ; mulss %xmm8,%xmm9
DB 69,15,198,201,0 ; shufps $0x0,%xmm9,%xmm9
DB 68,15,88,200 ; addps %xmm0,%xmm9
- DB 68,15,89,13,254,200,0,0 ; mulps 0xc8fe(%rip),%xmm9 # 2d0a0 <_sk_overlay_sse2_8bit+0x1453>
+ DB 68,15,89,13,239,201,0,0 ; mulps 0xc9ef(%rip),%xmm9 # 2d150 <_sk_overlay_sse2_8bit+0x14db>
DB 15,89,192 ; mulps %xmm0,%xmm0
DB 68,15,40,209 ; movaps %xmm1,%xmm10
DB 69,15,89,210 ; mulps %xmm10,%xmm10
@@ -30970,7 +30900,7 @@ _sk_xy_to_2pt_conical_linear_sse2 LABEL PROC
DB 243,69,15,89,192 ; mulss %xmm8,%xmm8
DB 69,15,198,192,0 ; shufps $0x0,%xmm8,%xmm8
DB 65,15,92,192 ; subps %xmm8,%xmm0
- DB 15,87,5,202,199,0,0 ; xorps 0xc7ca(%rip),%xmm0 # 2cf90 <_sk_overlay_sse2_8bit+0x1343>
+ DB 15,87,5,187,200,0,0 ; xorps 0xc8bb(%rip),%xmm0 # 2d040 <_sk_overlay_sse2_8bit+0x13cb>
DB 65,15,94,193 ; divps %xmm9,%xmm0
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -31007,7 +30937,7 @@ _sk_apply_vector_mask_sse2 LABEL PROC
PUBLIC _sk_save_xy_sse2
_sk_save_xy_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,15,40,5,80,194,0,0 ; movaps 0xc250(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,5,49,195,0,0 ; movaps 0xc331(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 15,17,0 ; movups %xmm0,(%rax)
DB 68,15,40,200 ; movaps %xmm0,%xmm9
DB 69,15,88,200 ; addps %xmm8,%xmm9
@@ -31015,7 +30945,7 @@ _sk_save_xy_sse2 LABEL PROC
DB 69,15,91,210 ; cvtdq2ps %xmm10,%xmm10
DB 69,15,40,217 ; movaps %xmm9,%xmm11
DB 69,15,194,218,1 ; cmpltps %xmm10,%xmm11
- DB 68,15,40,37,59,194,0,0 ; movaps 0xc23b(%rip),%xmm12 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 68,15,40,37,44,195,0,0 ; movaps 0xc32c(%rip),%xmm12 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,84,220 ; andps %xmm12,%xmm11
DB 69,15,92,211 ; subps %xmm11,%xmm10
DB 69,15,92,202 ; subps %xmm10,%xmm9
@@ -31058,8 +30988,8 @@ _sk_bilinear_nx_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,64,64 ; movups 0x40(%rax),%xmm8
- DB 15,88,5,212,199,0,0 ; addps 0xc7d4(%rip),%xmm0 # 2d0c0 <_sk_overlay_sse2_8bit+0x1473>
- DB 68,15,40,13,156,193,0,0 ; movaps 0xc19c(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,5,197,200,0,0 ; addps 0xc8c5(%rip),%xmm0 # 2d170 <_sk_overlay_sse2_8bit+0x14fb>
+ DB 68,15,40,13,141,194,0,0 ; movaps 0xc28d(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
DB 68,15,17,136,128,0,0,0 ; movups %xmm9,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -31070,7 +31000,7 @@ _sk_bilinear_px_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,64,64 ; movups 0x40(%rax),%xmm8
- DB 15,88,5,107,193,0,0 ; addps 0xc16b(%rip),%xmm0 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 15,88,5,76,194,0,0 ; addps 0xc24c(%rip),%xmm0 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 68,15,17,128,128,0,0,0 ; movups %xmm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -31080,8 +31010,8 @@ _sk_bilinear_ny_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,64,96 ; movups 0x60(%rax),%xmm8
- DB 15,88,13,141,199,0,0 ; addps 0xc78d(%rip),%xmm1 # 2d0c0 <_sk_overlay_sse2_8bit+0x1473>
- DB 68,15,40,13,85,193,0,0 ; movaps 0xc155(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,13,126,200,0,0 ; addps 0xc87e(%rip),%xmm1 # 2d170 <_sk_overlay_sse2_8bit+0x14fb>
+ DB 68,15,40,13,70,194,0,0 ; movaps 0xc246(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
DB 68,15,17,136,160,0,0,0 ; movups %xmm9,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -31092,7 +31022,7 @@ _sk_bilinear_py_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,64,96 ; movups 0x60(%rax),%xmm8
- DB 15,88,13,35,193,0,0 ; addps 0xc123(%rip),%xmm1 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 15,88,13,4,194,0,0 ; addps 0xc204(%rip),%xmm1 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 68,15,17,128,160,0,0,0 ; movups %xmm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -31102,13 +31032,13 @@ _sk_bicubic_n3x_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,64,64 ; movups 0x40(%rax),%xmm8
- DB 15,88,5,86,199,0,0 ; addps 0xc756(%rip),%xmm0 # 2d0d0 <_sk_overlay_sse2_8bit+0x1483>
- DB 68,15,40,13,14,193,0,0 ; movaps 0xc10e(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,5,71,200,0,0 ; addps 0xc847(%rip),%xmm0 # 2d180 <_sk_overlay_sse2_8bit+0x150b>
+ DB 68,15,40,13,255,193,0,0 ; movaps 0xc1ff(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
DB 69,15,40,193 ; movaps %xmm9,%xmm8
DB 69,15,89,192 ; mulps %xmm8,%xmm8
- DB 68,15,89,13,74,199,0,0 ; mulps 0xc74a(%rip),%xmm9 # 2d0e0 <_sk_overlay_sse2_8bit+0x1493>
- DB 68,15,88,13,226,194,0,0 ; addps 0xc2e2(%rip),%xmm9 # 2cc80 <_sk_overlay_sse2_8bit+0x1033>
+ DB 68,15,89,13,59,200,0,0 ; mulps 0xc83b(%rip),%xmm9 # 2d190 <_sk_overlay_sse2_8bit+0x151b>
+ DB 68,15,88,13,211,195,0,0 ; addps 0xc3d3(%rip),%xmm9 # 2cd30 <_sk_overlay_sse2_8bit+0x10bb>
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 68,15,17,136,128,0,0,0 ; movups %xmm9,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -31119,16 +31049,16 @@ _sk_bicubic_n1x_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,64,64 ; movups 0x40(%rax),%xmm8
- DB 15,88,5,1,199,0,0 ; addps 0xc701(%rip),%xmm0 # 2d0c0 <_sk_overlay_sse2_8bit+0x1473>
- DB 68,15,40,13,201,192,0,0 ; movaps 0xc0c9(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,5,242,199,0,0 ; addps 0xc7f2(%rip),%xmm0 # 2d170 <_sk_overlay_sse2_8bit+0x14fb>
+ DB 68,15,40,13,186,193,0,0 ; movaps 0xc1ba(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
- DB 68,15,40,5,29,199,0,0 ; movaps 0xc71d(%rip),%xmm8 # 2d0f0 <_sk_overlay_sse2_8bit+0x14a3>
+ DB 68,15,40,5,14,200,0,0 ; movaps 0xc80e(%rip),%xmm8 # 2d1a0 <_sk_overlay_sse2_8bit+0x152b>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,33,199,0,0 ; addps 0xc721(%rip),%xmm8 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 68,15,88,5,18,200,0,0 ; addps 0xc812(%rip),%xmm8 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,149,192,0,0 ; addps 0xc095(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,88,5,118,193,0,0 ; addps 0xc176(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,25,199,0,0 ; addps 0xc719(%rip),%xmm8 # 2d110 <_sk_overlay_sse2_8bit+0x14c3>
+ DB 68,15,88,5,10,200,0,0 ; addps 0xc80a(%rip),%xmm8 # 2d1c0 <_sk_overlay_sse2_8bit+0x154b>
DB 68,15,17,128,128,0,0,0 ; movups %xmm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -31136,17 +31066,17 @@ _sk_bicubic_n1x_sse2 LABEL PROC
PUBLIC _sk_bicubic_p1x_sse2
_sk_bicubic_p1x_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,15,40,5,115,192,0,0 ; movaps 0xc073(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,5,84,193,0,0 ; movaps 0xc154(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,72,64 ; movups 0x40(%rax),%xmm9
DB 65,15,88,192 ; addps %xmm8,%xmm0
- DB 68,15,40,21,207,198,0,0 ; movaps 0xc6cf(%rip),%xmm10 # 2d0f0 <_sk_overlay_sse2_8bit+0x14a3>
+ DB 68,15,40,21,192,199,0,0 ; movaps 0xc7c0(%rip),%xmm10 # 2d1a0 <_sk_overlay_sse2_8bit+0x152b>
DB 69,15,89,209 ; mulps %xmm9,%xmm10
- DB 68,15,88,21,211,198,0,0 ; addps 0xc6d3(%rip),%xmm10 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 68,15,88,21,196,199,0,0 ; addps 0xc7c4(%rip),%xmm10 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,89,209 ; mulps %xmm9,%xmm10
DB 69,15,88,208 ; addps %xmm8,%xmm10
DB 69,15,89,209 ; mulps %xmm9,%xmm10
- DB 68,15,88,21,207,198,0,0 ; addps 0xc6cf(%rip),%xmm10 # 2d110 <_sk_overlay_sse2_8bit+0x14c3>
+ DB 68,15,88,21,192,199,0,0 ; addps 0xc7c0(%rip),%xmm10 # 2d1c0 <_sk_overlay_sse2_8bit+0x154b>
DB 68,15,17,144,128,0,0,0 ; movups %xmm10,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -31156,11 +31086,11 @@ _sk_bicubic_p3x_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,0 ; movups (%rax),%xmm0
DB 68,15,16,64,64 ; movups 0x40(%rax),%xmm8
- DB 15,88,5,162,198,0,0 ; addps 0xc6a2(%rip),%xmm0 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 15,88,5,147,199,0,0 ; addps 0xc793(%rip),%xmm0 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 69,15,89,201 ; mulps %xmm9,%xmm9
- DB 68,15,89,5,114,198,0,0 ; mulps 0xc672(%rip),%xmm8 # 2d0e0 <_sk_overlay_sse2_8bit+0x1493>
- DB 68,15,88,5,10,194,0,0 ; addps 0xc20a(%rip),%xmm8 # 2cc80 <_sk_overlay_sse2_8bit+0x1033>
+ DB 68,15,89,5,99,199,0,0 ; mulps 0xc763(%rip),%xmm8 # 2d190 <_sk_overlay_sse2_8bit+0x151b>
+ DB 68,15,88,5,251,194,0,0 ; addps 0xc2fb(%rip),%xmm8 # 2cd30 <_sk_overlay_sse2_8bit+0x10bb>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
DB 68,15,17,128,128,0,0,0 ; movups %xmm8,0x80(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -31171,13 +31101,13 @@ _sk_bicubic_n3y_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,64,96 ; movups 0x60(%rax),%xmm8
- DB 15,88,13,56,198,0,0 ; addps 0xc638(%rip),%xmm1 # 2d0d0 <_sk_overlay_sse2_8bit+0x1483>
- DB 68,15,40,13,240,191,0,0 ; movaps 0xbff0(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,13,41,199,0,0 ; addps 0xc729(%rip),%xmm1 # 2d180 <_sk_overlay_sse2_8bit+0x150b>
+ DB 68,15,40,13,225,192,0,0 ; movaps 0xc0e1(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
DB 69,15,40,193 ; movaps %xmm9,%xmm8
DB 69,15,89,192 ; mulps %xmm8,%xmm8
- DB 68,15,89,13,44,198,0,0 ; mulps 0xc62c(%rip),%xmm9 # 2d0e0 <_sk_overlay_sse2_8bit+0x1493>
- DB 68,15,88,13,196,193,0,0 ; addps 0xc1c4(%rip),%xmm9 # 2cc80 <_sk_overlay_sse2_8bit+0x1033>
+ DB 68,15,89,13,29,199,0,0 ; mulps 0xc71d(%rip),%xmm9 # 2d190 <_sk_overlay_sse2_8bit+0x151b>
+ DB 68,15,88,13,181,194,0,0 ; addps 0xc2b5(%rip),%xmm9 # 2cd30 <_sk_overlay_sse2_8bit+0x10bb>
DB 69,15,89,200 ; mulps %xmm8,%xmm9
DB 68,15,17,136,160,0,0,0 ; movups %xmm9,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -31188,16 +31118,16 @@ _sk_bicubic_n1y_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,64,96 ; movups 0x60(%rax),%xmm8
- DB 15,88,13,226,197,0,0 ; addps 0xc5e2(%rip),%xmm1 # 2d0c0 <_sk_overlay_sse2_8bit+0x1473>
- DB 68,15,40,13,170,191,0,0 ; movaps 0xbfaa(%rip),%xmm9 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,88,13,211,198,0,0 ; addps 0xc6d3(%rip),%xmm1 # 2d170 <_sk_overlay_sse2_8bit+0x14fb>
+ DB 68,15,40,13,155,192,0,0 ; movaps 0xc09b(%rip),%xmm9 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 69,15,92,200 ; subps %xmm8,%xmm9
- DB 68,15,40,5,254,197,0,0 ; movaps 0xc5fe(%rip),%xmm8 # 2d0f0 <_sk_overlay_sse2_8bit+0x14a3>
+ DB 68,15,40,5,239,198,0,0 ; movaps 0xc6ef(%rip),%xmm8 # 2d1a0 <_sk_overlay_sse2_8bit+0x152b>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,2,198,0,0 ; addps 0xc602(%rip),%xmm8 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 68,15,88,5,243,198,0,0 ; addps 0xc6f3(%rip),%xmm8 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,118,191,0,0 ; addps 0xbf76(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,88,5,87,192,0,0 ; addps 0xc057(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
- DB 68,15,88,5,250,197,0,0 ; addps 0xc5fa(%rip),%xmm8 # 2d110 <_sk_overlay_sse2_8bit+0x14c3>
+ DB 68,15,88,5,235,198,0,0 ; addps 0xc6eb(%rip),%xmm8 # 2d1c0 <_sk_overlay_sse2_8bit+0x154b>
DB 68,15,17,128,160,0,0,0 ; movups %xmm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -31205,17 +31135,17 @@ _sk_bicubic_n1y_sse2 LABEL PROC
PUBLIC _sk_bicubic_p1y_sse2
_sk_bicubic_p1y_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,15,40,5,84,191,0,0 ; movaps 0xbf54(%rip),%xmm8 # 2ca80 <_sk_overlay_sse2_8bit+0xe33>
+ DB 68,15,40,5,53,192,0,0 ; movaps 0xc035(%rip),%xmm8 # 2cb20 <_sk_overlay_sse2_8bit+0xeab>
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,72,96 ; movups 0x60(%rax),%xmm9
DB 65,15,88,200 ; addps %xmm8,%xmm1
- DB 68,15,40,21,175,197,0,0 ; movaps 0xc5af(%rip),%xmm10 # 2d0f0 <_sk_overlay_sse2_8bit+0x14a3>
+ DB 68,15,40,21,160,198,0,0 ; movaps 0xc6a0(%rip),%xmm10 # 2d1a0 <_sk_overlay_sse2_8bit+0x152b>
DB 69,15,89,209 ; mulps %xmm9,%xmm10
- DB 68,15,88,21,179,197,0,0 ; addps 0xc5b3(%rip),%xmm10 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 68,15,88,21,164,198,0,0 ; addps 0xc6a4(%rip),%xmm10 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,89,209 ; mulps %xmm9,%xmm10
DB 69,15,88,208 ; addps %xmm8,%xmm10
DB 69,15,89,209 ; mulps %xmm9,%xmm10
- DB 68,15,88,21,175,197,0,0 ; addps 0xc5af(%rip),%xmm10 # 2d110 <_sk_overlay_sse2_8bit+0x14c3>
+ DB 68,15,88,21,160,198,0,0 ; addps 0xc6a0(%rip),%xmm10 # 2d1c0 <_sk_overlay_sse2_8bit+0x154b>
DB 68,15,17,144,160,0,0,0 ; movups %xmm10,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
@@ -31225,11 +31155,11 @@ _sk_bicubic_p3y_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 15,16,72,32 ; movups 0x20(%rax),%xmm1
DB 68,15,16,64,96 ; movups 0x60(%rax),%xmm8
- DB 15,88,13,129,197,0,0 ; addps 0xc581(%rip),%xmm1 # 2d100 <_sk_overlay_sse2_8bit+0x14b3>
+ DB 15,88,13,114,198,0,0 ; addps 0xc672(%rip),%xmm1 # 2d1b0 <_sk_overlay_sse2_8bit+0x153b>
DB 69,15,40,200 ; movaps %xmm8,%xmm9
DB 69,15,89,201 ; mulps %xmm9,%xmm9
- DB 68,15,89,5,81,197,0,0 ; mulps 0xc551(%rip),%xmm8 # 2d0e0 <_sk_overlay_sse2_8bit+0x1493>
- DB 68,15,88,5,233,192,0,0 ; addps 0xc0e9(%rip),%xmm8 # 2cc80 <_sk_overlay_sse2_8bit+0x1033>
+ DB 68,15,89,5,66,198,0,0 ; mulps 0xc642(%rip),%xmm8 # 2d190 <_sk_overlay_sse2_8bit+0x151b>
+ DB 68,15,88,5,218,193,0,0 ; addps 0xc1da(%rip),%xmm8 # 2cd30 <_sk_overlay_sse2_8bit+0x10bb>
DB 69,15,89,193 ; mulps %xmm9,%xmm8
DB 68,15,17,128,160,0,0,0 ; movups %xmm8,0xa0(%rax)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -31241,12 +31171,10 @@ _sk_callback_sse2 LABEL PROC
DB 72,137,229 ; mov %rsp,%rbp
DB 65,87 ; push %r15
DB 65,86 ; push %r14
- DB 65,84 ; push %r12
DB 83 ; push %rbx
- DB 72,131,236,32 ; sub $0x20,%rsp
+ DB 72,131,236,40 ; sub $0x28,%rsp
DB 68,15,40,197 ; movaps %xmm5,%xmm8
DB 68,15,40,204 ; movaps %xmm4,%xmm9
- DB 77,137,196 ; mov %r8,%r12
DB 73,137,206 ; mov %rcx,%r14
DB 73,137,215 ; mov %rdx,%r15
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -31267,9 +31195,9 @@ _sk_callback_sse2 LABEL PROC
DB 15,17,107,24 ; movups %xmm5,0x18(%rbx)
DB 102,15,17,91,40 ; movupd %xmm3,0x28(%rbx)
DB 15,17,83,56 ; movups %xmm2,0x38(%rbx)
- DB 77,133,228 ; test %r12,%r12
+ DB 72,133,255 ; test %rdi,%rdi
DB 186,4,0,0,0 ; mov $0x4,%edx
- DB 65,15,69,212 ; cmovne %r12d,%edx
+ DB 15,69,215 ; cmovne %edi,%edx
DB 72,137,217 ; mov %rbx,%rcx
DB 255,19 ; callq *(%rbx)
DB 72,139,131,136,0,0,0 ; mov 0x88(%rbx),%rax
@@ -31292,12 +31220,10 @@ _sk_callback_sse2 LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 76,137,250 ; mov %r15,%rdx
DB 76,137,241 ; mov %r14,%rcx
- DB 77,137,224 ; mov %r12,%r8
DB 65,15,40,225 ; movaps %xmm9,%xmm4
DB 65,15,40,232 ; movaps %xmm8,%xmm5
- DB 72,131,196,32 ; add $0x20,%rsp
+ DB 72,131,196,40 ; add $0x28,%rsp
DB 91 ; pop %rbx
- DB 65,92 ; pop %r12
DB 65,94 ; pop %r14
DB 65,95 ; pop %r15
DB 93 ; pop %rbp
@@ -31305,26 +31231,25 @@ _sk_callback_sse2 LABEL PROC
PUBLIC _sk_clut_3D_sse2
_sk_clut_3D_sse2 LABEL PROC
- DB 83 ; push %rbx
- DB 72,129,236,176,0,0,0 ; sub $0xb0,%rsp
+ DB 72,129,236,184,0,0,0 ; sub $0xb8,%rsp
DB 15,41,188,36,160,0,0,0 ; movaps %xmm7,0xa0(%rsp)
DB 15,41,180,36,144,0,0,0 ; movaps %xmm6,0x90(%rsp)
DB 15,41,172,36,128,0,0,0 ; movaps %xmm5,0x80(%rsp)
DB 15,41,100,36,112 ; movaps %xmm4,0x70(%rsp)
DB 15,41,92,36,96 ; movaps %xmm3,0x60(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,16 ; mov 0x10(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 102,65,15,110,218 ; movd %r10d,%xmm3
+ DB 68,139,64,16 ; mov 0x10(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 102,65,15,110,217 ; movd %r9d,%xmm3
DB 102,15,112,219,0 ; pshufd $0x0,%xmm3,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
DB 15,89,218 ; mulps %xmm2,%xmm3
DB 15,40,235 ; movaps %xmm3,%xmm5
- DB 102,65,15,110,209 ; movd %r9d,%xmm2
+ DB 102,65,15,110,208 ; movd %r8d,%xmm2
DB 102,68,15,112,250,0 ; pshufd $0x0,%xmm2,%xmm15
- DB 68,139,72,12 ; mov 0xc(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 102,65,15,110,218 ; movd %r10d,%xmm3
+ DB 68,139,64,12 ; mov 0xc(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 102,65,15,110,217 ; movd %r9d,%xmm3
DB 102,15,112,219,0 ; pshufd $0x0,%xmm3,%xmm3
DB 68,15,91,211 ; cvtdq2ps %xmm3,%xmm10
DB 68,15,89,209 ; mulps %xmm1,%xmm10
@@ -31338,12 +31263,12 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,65,15,244,207 ; pmuludq %xmm15,%xmm1
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,68,15,98,201 ; punpckldq %xmm1,%xmm9
- DB 102,65,15,110,201 ; movd %r9d,%xmm1
+ DB 102,65,15,110,200 ; movd %r8d,%xmm1
DB 102,15,244,202 ; pmuludq %xmm2,%xmm1
DB 102,15,112,209,0 ; pshufd $0x0,%xmm1,%xmm2
- DB 68,139,72,8 ; mov 0x8(%rax),%r9d
- DB 65,255,201 ; dec %r9d
- DB 102,65,15,110,201 ; movd %r9d,%xmm1
+ DB 68,139,64,8 ; mov 0x8(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 102,65,15,110,200 ; movd %r8d,%xmm1
DB 102,15,112,201,0 ; pshufd $0x0,%xmm1,%xmm1
DB 68,15,91,233 ; cvtdq2ps %xmm1,%xmm13
DB 68,15,89,232 ; mulps %xmm0,%xmm13
@@ -31364,7 +31289,7 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,254,216 ; paddd %xmm0,%xmm3
DB 102,65,15,111,198 ; movdqa %xmm14,%xmm0
DB 102,15,254,195 ; paddd %xmm3,%xmm0
- DB 102,15,111,45,157,195,0,0 ; movdqa 0xc39d(%rip),%xmm5 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,45,154,196,0,0 ; movdqa 0xc49a(%rip),%xmm5 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,112,200,245 ; pshufd $0xf5,%xmm0,%xmm1
DB 102,15,244,197 ; pmuludq %xmm5,%xmm0
DB 102,15,112,192,232 ; pshufd $0xe8,%xmm0,%xmm0
@@ -31372,56 +31297,56 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,98,193 ; punpckldq %xmm1,%xmm0
DB 102,15,112,200,229 ; pshufd $0xe5,%xmm0,%xmm1
- DB 102,65,15,126,201 ; movd %xmm1,%r9d
+ DB 102,65,15,126,200 ; movd %xmm1,%r8d
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
- DB 102,65,15,126,202 ; movd %xmm1,%r10d
+ DB 102,65,15,126,201 ; movd %xmm1,%r9d
DB 102,15,112,200,231 ; pshufd $0xe7,%xmm0,%xmm1
- DB 102,65,15,126,203 ; movd %xmm1,%r11d
- DB 72,139,24 ; mov (%rax),%rbx
- DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 102,65,15,126,202 ; movd %xmm1,%r10d
+ DB 76,139,24 ; mov (%rax),%r11
+ DB 243,67,15,16,12,147 ; movss (%r11,%r10,4),%xmm1
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,233 ; unpcklps %xmm1,%xmm5
DB 102,15,126,192 ; movd %xmm0,%eax
- DB 243,15,16,52,131 ; movss (%rbx,%rax,4),%xmm6
- DB 243,66,15,16,12,147 ; movss (%rbx,%r10,4),%xmm1
+ DB 243,65,15,16,52,131 ; movss (%r11,%rax,4),%xmm6
+ DB 243,67,15,16,12,139 ; movss (%r11,%r9,4),%xmm1
DB 15,20,241 ; unpcklps %xmm1,%xmm6
DB 15,20,245 ; unpcklps %xmm5,%xmm6
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
- DB 102,15,254,13,161,188,0,0 ; paddd 0xbca1(%rip),%xmm1 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,254,13,157,189,0,0 ; paddd 0xbd9d(%rip),%xmm1 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,112,233,78 ; pshufd $0x4e,%xmm1,%xmm5
- DB 102,73,15,126,233 ; movq %xmm5,%r9
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,232 ; movq %xmm5,%r8
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,44,155 ; movss (%rbx,%r11,4),%xmm5
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,44,147 ; movss (%r11,%r10,4),%xmm5
DB 15,20,205 ; unpcklps %xmm5,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,60,131 ; movss (%rbx,%rax,4),%xmm7
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,60,131 ; movss (%r11,%rax,4),%xmm7
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,253 ; unpcklps %xmm5,%xmm7
DB 15,20,249 ; unpcklps %xmm1,%xmm7
- DB 102,15,254,5,119,188,0,0 ; paddd 0xbc77(%rip),%xmm0 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,254,5,113,189,0,0 ; paddd 0xbd71(%rip),%xmm0 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
- DB 102,73,15,126,201 ; movq %xmm1,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,200 ; movq %xmm1,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,12,147 ; movss (%r11,%r10,4),%xmm1
DB 15,20,193 ; unpcklps %xmm1,%xmm0
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,205 ; unpcklps %xmm5,%xmm1
DB 15,20,200 ; unpcklps %xmm0,%xmm1
- DB 15,40,45,142,194,0,0 ; movaps 0xc28e(%rip),%xmm5 # 2d120 <_sk_overlay_sse2_8bit+0x14d3>
+ DB 15,40,45,134,195,0,0 ; movaps 0xc386(%rip),%xmm5 # 2d1d0 <_sk_overlay_sse2_8bit+0x155b>
DB 15,88,229 ; addps %xmm5,%xmm4
DB 15,41,100,36,64 ; movaps %xmm4,0x40(%rsp)
DB 68,15,88,213 ; addps %xmm5,%xmm10
@@ -31436,7 +31361,7 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,127,68,36,32 ; movdqa %xmm0,0x20(%rsp)
DB 102,15,254,216 ; paddd %xmm0,%xmm3
DB 102,15,112,227,245 ; pshufd $0xf5,%xmm3,%xmm4
- DB 102,15,111,5,87,194,0,0 ; movdqa 0xc257(%rip),%xmm0 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,5,79,195,0,0 ; movdqa 0xc34f(%rip),%xmm0 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,244,216 ; pmuludq %xmm0,%xmm3
DB 102,15,112,211,232 ; pshufd $0xe8,%xmm3,%xmm2
DB 102,15,244,224 ; pmuludq %xmm0,%xmm4
@@ -31444,52 +31369,52 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,112,220,232 ; pshufd $0xe8,%xmm4,%xmm3
DB 102,15,98,211 ; punpckldq %xmm3,%xmm2
DB 102,15,112,218,229 ; pshufd $0xe5,%xmm2,%xmm3
- DB 102,65,15,126,218 ; movd %xmm3,%r10d
- DB 102,15,112,218,78 ; pshufd $0x4e,%xmm2,%xmm3
DB 102,65,15,126,217 ; movd %xmm3,%r9d
+ DB 102,15,112,218,78 ; pshufd $0x4e,%xmm2,%xmm3
+ DB 102,65,15,126,216 ; movd %xmm3,%r8d
DB 102,15,112,218,231 ; pshufd $0xe7,%xmm2,%xmm3
DB 102,15,126,216 ; movd %xmm3,%eax
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,44,147 ; movss (%rbx,%r10,4),%xmm5
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,44,139 ; movss (%r11,%r9,4),%xmm5
DB 15,20,235 ; unpcklps %xmm3,%xmm5
DB 102,15,126,208 ; movd %xmm2,%eax
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,28,131 ; movss (%r11,%r8,4),%xmm3
DB 15,20,227 ; unpcklps %xmm3,%xmm4
DB 15,20,229 ; unpcklps %xmm5,%xmm4
DB 102,15,111,218 ; movdqa %xmm2,%xmm3
- DB 102,15,254,29,96,187,0,0 ; paddd 0xbb60(%rip),%xmm3 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,254,29,86,188,0,0 ; paddd 0xbc56(%rip),%xmm3 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,112,235,78 ; pshufd $0x4e,%xmm3,%xmm5
- DB 102,73,15,126,233 ; movq %xmm5,%r9
- DB 102,73,15,126,218 ; movq %xmm3,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,232 ; movq %xmm5,%r8
+ DB 102,73,15,126,217 ; movq %xmm3,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,28,147 ; movss (%r11,%r10,4),%xmm3
DB 15,20,235 ; unpcklps %xmm3,%xmm5
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,4,139 ; movss (%rbx,%r9,4),%xmm0
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,4,131 ; movss (%r11,%r8,4),%xmm0
DB 15,20,216 ; unpcklps %xmm0,%xmm3
DB 15,20,221 ; unpcklps %xmm5,%xmm3
- DB 102,15,254,21,54,187,0,0 ; paddd 0xbb36(%rip),%xmm2 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,254,21,42,188,0,0 ; paddd 0xbc2a(%rip),%xmm2 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,112,194,78 ; pshufd $0x4e,%xmm2,%xmm0
- DB 102,73,15,126,193 ; movq %xmm0,%r9
- DB 102,73,15,126,210 ; movq %xmm2,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,192 ; movq %xmm0,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,20,147 ; movss (%r11,%r10,4),%xmm2
DB 15,20,194 ; unpcklps %xmm2,%xmm0
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,213 ; unpcklps %xmm5,%xmm2
DB 15,20,208 ; unpcklps %xmm0,%xmm2
DB 65,15,91,196 ; cvtdq2ps %xmm12,%xmm0
@@ -31523,54 +31448,54 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,98,193 ; punpckldq %xmm1,%xmm0
DB 102,15,112,200,229 ; pshufd $0xe5,%xmm0,%xmm1
- DB 102,65,15,126,202 ; movd %xmm1,%r10d
- DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,65,15,126,201 ; movd %xmm1,%r9d
+ DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
+ DB 102,65,15,126,200 ; movd %xmm1,%r8d
DB 102,15,112,200,231 ; pshufd $0xe7,%xmm0,%xmm1
DB 102,15,126,200 ; movd %xmm1,%eax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,60,147 ; movss (%rbx,%r10,4),%xmm7
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,60,139 ; movss (%r11,%r9,4),%xmm7
DB 15,20,249 ; unpcklps %xmm1,%xmm7
DB 102,15,126,192 ; movd %xmm0,%eax
- DB 243,68,15,16,4,131 ; movss (%rbx,%rax,4),%xmm8
- DB 243,66,15,16,12,139 ; movss (%rbx,%r9,4),%xmm1
+ DB 243,69,15,16,4,131 ; movss (%r11,%rax,4),%xmm8
+ DB 243,67,15,16,12,131 ; movss (%r11,%r8,4),%xmm1
DB 68,15,20,193 ; unpcklps %xmm1,%xmm8
DB 68,15,20,199 ; unpcklps %xmm7,%xmm8
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
- DB 102,68,15,111,21,1,186,0,0 ; movdqa 0xba01(%rip),%xmm10 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,68,15,111,21,242,186,0,0 ; movdqa 0xbaf2(%rip),%xmm10 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,65,15,254,202 ; paddd %xmm10,%xmm1
DB 102,15,112,249,78 ; pshufd $0x4e,%xmm1,%xmm7
- DB 102,73,15,126,249 ; movq %xmm7,%r9
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,248 ; movq %xmm7,%r8
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,60,131 ; movss (%rbx,%rax,4),%xmm7
- DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 243,65,15,16,60,131 ; movss (%r11,%rax,4),%xmm7
+ DB 243,67,15,16,12,147 ; movss (%r11,%r10,4),%xmm1
DB 15,20,249 ; unpcklps %xmm1,%xmm7
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,205 ; unpcklps %xmm5,%xmm1
DB 15,20,207 ; unpcklps %xmm7,%xmm1
- DB 102,15,111,45,210,185,0,0 ; movdqa 0xb9d2(%rip),%xmm5 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,111,45,193,186,0,0 ; movdqa 0xbac1(%rip),%xmm5 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,254,197 ; paddd %xmm5,%xmm0
DB 102,15,112,232,78 ; pshufd $0x4e,%xmm0,%xmm5
- DB 102,73,15,126,233 ; movq %xmm5,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,232 ; movq %xmm5,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,4,155 ; movss (%rbx,%r11,4),%xmm0
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,4,147 ; movss (%r11,%r10,4),%xmm0
DB 15,20,232 ; unpcklps %xmm0,%xmm5
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,199 ; unpcklps %xmm7,%xmm0
DB 15,20,197 ; unpcklps %xmm5,%xmm0
DB 102,15,254,116,36,32 ; paddd 0x20(%rsp),%xmm6
@@ -31582,54 +31507,54 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,112,237,232 ; pshufd $0xe8,%xmm5,%xmm5
DB 102,15,98,245 ; punpckldq %xmm5,%xmm6
DB 102,15,112,238,229 ; pshufd $0xe5,%xmm6,%xmm5
- DB 102,65,15,126,234 ; movd %xmm5,%r10d
- DB 102,15,112,238,78 ; pshufd $0x4e,%xmm6,%xmm5
DB 102,65,15,126,233 ; movd %xmm5,%r9d
+ DB 102,15,112,238,78 ; pshufd $0x4e,%xmm6,%xmm5
+ DB 102,65,15,126,232 ; movd %xmm5,%r8d
DB 102,15,112,238,231 ; pshufd $0xe7,%xmm6,%xmm5
DB 102,15,126,232 ; movd %xmm5,%eax
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,60,147 ; movss (%rbx,%r10,4),%xmm7
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,60,139 ; movss (%r11,%r9,4),%xmm7
DB 15,20,253 ; unpcklps %xmm5,%xmm7
DB 102,15,126,240 ; movd %xmm6,%eax
- DB 243,68,15,16,60,131 ; movss (%rbx,%rax,4),%xmm15
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 243,69,15,16,60,131 ; movss (%r11,%rax,4),%xmm15
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 68,15,20,253 ; unpcklps %xmm5,%xmm15
DB 68,15,20,255 ; unpcklps %xmm7,%xmm15
DB 102,15,111,238 ; movdqa %xmm6,%xmm5
DB 102,65,15,254,234 ; paddd %xmm10,%xmm5
DB 102,15,112,253,78 ; pshufd $0x4e,%xmm5,%xmm7
- DB 102,73,15,126,249 ; movq %xmm7,%r9
- DB 102,73,15,126,234 ; movq %xmm5,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,248 ; movq %xmm7,%r8
+ DB 102,73,15,126,233 ; movq %xmm5,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,60,155 ; movss (%rbx,%r11,4),%xmm7
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,60,147 ; movss (%r11,%r10,4),%xmm7
DB 15,20,239 ; unpcklps %xmm7,%xmm5
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,68,15,16,28,131 ; movss (%rbx,%rax,4),%xmm11
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,69,15,16,28,131 ; movss (%r11,%rax,4),%xmm11
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 68,15,20,223 ; unpcklps %xmm7,%xmm11
DB 68,15,20,221 ; unpcklps %xmm5,%xmm11
- DB 102,15,111,45,205,184,0,0 ; movdqa 0xb8cd(%rip),%xmm5 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,111,45,184,185,0,0 ; movdqa 0xb9b8(%rip),%xmm5 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,254,245 ; paddd %xmm5,%xmm6
DB 102,15,111,253 ; movdqa %xmm5,%xmm7
DB 102,15,112,238,78 ; pshufd $0x4e,%xmm6,%xmm5
- DB 102,73,15,126,233 ; movq %xmm5,%r9
- DB 102,73,15,126,242 ; movq %xmm6,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,232 ; movq %xmm5,%r8
+ DB 102,73,15,126,241 ; movq %xmm6,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,52,155 ; movss (%rbx,%r11,4),%xmm6
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,52,147 ; movss (%r11,%r10,4),%xmm6
DB 15,20,238 ; unpcklps %xmm6,%xmm5
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,68,15,16,20,131 ; movss (%rbx,%rax,4),%xmm10
- DB 243,66,15,16,52,139 ; movss (%rbx,%r9,4),%xmm6
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,69,15,16,20,131 ; movss (%r11,%rax,4),%xmm10
+ DB 243,67,15,16,52,131 ; movss (%r11,%r8,4),%xmm6
DB 68,15,20,214 ; unpcklps %xmm6,%xmm10
DB 68,15,20,213 ; unpcklps %xmm5,%xmm10
DB 69,15,92,248 ; subps %xmm8,%xmm15
@@ -31660,7 +31585,7 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,65,15,111,206 ; movdqa %xmm14,%xmm1
DB 102,65,15,254,201 ; paddd %xmm9,%xmm1
DB 102,15,112,209,245 ; pshufd $0xf5,%xmm1,%xmm2
- DB 102,15,111,5,112,190,0,0 ; movdqa 0xbe70(%rip),%xmm0 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,5,90,191,0,0 ; movdqa 0xbf5a(%rip),%xmm0 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,244,200 ; pmuludq %xmm0,%xmm1
DB 102,15,112,217,232 ; pshufd $0xe8,%xmm1,%xmm3
DB 102,15,244,208 ; pmuludq %xmm0,%xmm2
@@ -31668,53 +31593,53 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,112,202,232 ; pshufd $0xe8,%xmm2,%xmm1
DB 102,15,98,217 ; punpckldq %xmm1,%xmm3
DB 102,15,112,203,229 ; pshufd $0xe5,%xmm3,%xmm1
- DB 102,65,15,126,202 ; movd %xmm1,%r10d
- DB 102,15,112,203,78 ; pshufd $0x4e,%xmm3,%xmm1
DB 102,65,15,126,201 ; movd %xmm1,%r9d
+ DB 102,15,112,203,78 ; pshufd $0x4e,%xmm3,%xmm1
+ DB 102,65,15,126,200 ; movd %xmm1,%r8d
DB 102,15,112,203,231 ; pshufd $0xe7,%xmm3,%xmm1
DB 102,15,126,200 ; movd %xmm1,%eax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,20,139 ; movss (%r11,%r9,4),%xmm2
DB 15,20,209 ; unpcklps %xmm1,%xmm2
DB 102,15,126,216 ; movd %xmm3,%eax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 15,20,204 ; unpcklps %xmm4,%xmm1
DB 15,20,202 ; unpcklps %xmm2,%xmm1
DB 102,15,111,211 ; movdqa %xmm3,%xmm2
- DB 102,15,111,5,122,183,0,0 ; movdqa 0xb77a(%rip),%xmm0 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,111,5,98,184,0,0 ; movdqa 0xb862(%rip),%xmm0 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,254,208 ; paddd %xmm0,%xmm2
DB 102,15,112,226,78 ; pshufd $0x4e,%xmm2,%xmm4
- DB 102,73,15,126,225 ; movq %xmm4,%r9
- DB 102,73,15,126,210 ; movq %xmm2,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,224 ; movq %xmm4,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,20,147 ; movss (%r11,%r10,4),%xmm2
DB 15,20,226 ; unpcklps %xmm2,%xmm4
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,213 ; unpcklps %xmm5,%xmm2
DB 15,20,212 ; unpcklps %xmm4,%xmm2
DB 102,15,254,223 ; paddd %xmm7,%xmm3
DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
- DB 102,73,15,126,225 ; movq %xmm4,%r9
- DB 102,73,15,126,218 ; movq %xmm3,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,224 ; movq %xmm4,%r8
+ DB 102,73,15,126,217 ; movq %xmm3,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,36,155 ; movss (%rbx,%r11,4),%xmm4
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,36,147 ; movss (%r11,%r10,4),%xmm4
DB 15,20,220 ; unpcklps %xmm4,%xmm3
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,229 ; unpcklps %xmm5,%xmm4
DB 15,20,227 ; unpcklps %xmm3,%xmm4
DB 102,15,111,124,36,32 ; movdqa 0x20(%rsp),%xmm7
@@ -31727,52 +31652,52 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,112,237,232 ; pshufd $0xe8,%xmm5,%xmm5
DB 102,15,98,221 ; punpckldq %xmm5,%xmm3
DB 102,15,112,235,229 ; pshufd $0xe5,%xmm3,%xmm5
- DB 102,65,15,126,234 ; movd %xmm5,%r10d
- DB 102,15,112,235,78 ; pshufd $0x4e,%xmm3,%xmm5
DB 102,65,15,126,233 ; movd %xmm5,%r9d
+ DB 102,15,112,235,78 ; pshufd $0x4e,%xmm3,%xmm5
+ DB 102,65,15,126,232 ; movd %xmm5,%r8d
DB 102,15,112,235,231 ; pshufd $0xe7,%xmm3,%xmm5
DB 102,15,126,232 ; movd %xmm5,%eax
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,52,147 ; movss (%rbx,%r10,4),%xmm6
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,52,139 ; movss (%r11,%r9,4),%xmm6
DB 15,20,245 ; unpcklps %xmm5,%xmm6
DB 102,15,126,216 ; movd %xmm3,%eax
- DB 243,68,15,16,4,131 ; movss (%rbx,%rax,4),%xmm8
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 243,69,15,16,4,131 ; movss (%r11,%rax,4),%xmm8
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 68,15,20,197 ; unpcklps %xmm5,%xmm8
DB 68,15,20,198 ; unpcklps %xmm6,%xmm8
DB 102,15,111,235 ; movdqa %xmm3,%xmm5
DB 102,15,254,232 ; paddd %xmm0,%xmm5
DB 102,15,112,245,78 ; pshufd $0x4e,%xmm5,%xmm6
- DB 102,73,15,126,241 ; movq %xmm6,%r9
- DB 102,73,15,126,234 ; movq %xmm5,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,240 ; movq %xmm6,%r8
+ DB 102,73,15,126,233 ; movq %xmm5,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,52,155 ; movss (%rbx,%r11,4),%xmm6
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,52,147 ; movss (%r11,%r10,4),%xmm6
DB 15,20,238 ; unpcklps %xmm6,%xmm5
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,52,131 ; movss (%rbx,%rax,4),%xmm6
- DB 243,66,15,16,4,139 ; movss (%rbx,%r9,4),%xmm0
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,52,131 ; movss (%r11,%rax,4),%xmm6
+ DB 243,67,15,16,4,131 ; movss (%r11,%r8,4),%xmm0
DB 15,20,240 ; unpcklps %xmm0,%xmm6
DB 15,20,245 ; unpcklps %xmm5,%xmm6
- DB 102,15,254,29,75,182,0,0 ; paddd 0xb64b(%rip),%xmm3 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,254,29,44,183,0,0 ; paddd 0xb72c(%rip),%xmm3 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,112,195,78 ; pshufd $0x4e,%xmm3,%xmm0
- DB 102,73,15,126,193 ; movq %xmm0,%r9
- DB 102,73,15,126,218 ; movq %xmm3,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,192 ; movq %xmm0,%r8
+ DB 102,73,15,126,217 ; movq %xmm3,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,28,147 ; movss (%r11,%r10,4),%xmm3
DB 15,20,195 ; unpcklps %xmm3,%xmm0
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,28,131 ; movss (%r11,%r8,4),%xmm3
DB 15,20,235 ; unpcklps %xmm3,%xmm5
DB 15,20,232 ; unpcklps %xmm0,%xmm5
DB 68,15,92,193 ; subps %xmm1,%xmm8
@@ -31795,52 +31720,52 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,98,193 ; punpckldq %xmm1,%xmm0
DB 102,15,112,200,229 ; pshufd $0xe5,%xmm0,%xmm1
- DB 102,65,15,126,202 ; movd %xmm1,%r10d
- DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,65,15,126,201 ; movd %xmm1,%r9d
+ DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
+ DB 102,65,15,126,200 ; movd %xmm1,%r8d
DB 102,15,112,200,231 ; pshufd $0xe7,%xmm0,%xmm1
DB 102,15,126,200 ; movd %xmm1,%eax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,20,139 ; movss (%r11,%r9,4),%xmm2
DB 15,20,209 ; unpcklps %xmm1,%xmm2
DB 102,15,126,192 ; movd %xmm0,%eax
- DB 243,68,15,16,12,131 ; movss (%rbx,%rax,4),%xmm9
- DB 243,66,15,16,12,139 ; movss (%rbx,%r9,4),%xmm1
+ DB 243,69,15,16,12,131 ; movss (%r11,%rax,4),%xmm9
+ DB 243,67,15,16,12,131 ; movss (%r11,%r8,4),%xmm1
DB 68,15,20,201 ; unpcklps %xmm1,%xmm9
DB 68,15,20,202 ; unpcklps %xmm2,%xmm9
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
- DB 102,15,254,13,72,181,0,0 ; paddd 0xb548(%rip),%xmm1 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,254,13,38,182,0,0 ; paddd 0xb626(%rip),%xmm1 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
- DB 102,73,15,126,209 ; movq %xmm2,%r9
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,208 ; movq %xmm2,%r8
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,20,147 ; movss (%r11,%r10,4),%xmm2
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,68,15,16,52,131 ; movss (%rbx,%rax,4),%xmm14
- DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,69,15,16,52,131 ; movss (%r11,%rax,4),%xmm14
+ DB 243,67,15,16,20,131 ; movss (%r11,%r8,4),%xmm2
DB 68,15,20,242 ; unpcklps %xmm2,%xmm14
DB 68,15,20,241 ; unpcklps %xmm1,%xmm14
- DB 102,15,254,5,27,181,0,0 ; paddd 0xb51b(%rip),%xmm0 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,254,5,248,181,0,0 ; paddd 0xb5f8(%rip),%xmm0 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
- DB 102,73,15,126,201 ; movq %xmm1,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,200 ; movq %xmm1,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,12,147 ; movss (%r11,%r10,4),%xmm1
DB 15,20,193 ; unpcklps %xmm1,%xmm0
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,12,139 ; movss (%rbx,%r9,4),%xmm1
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,12,131 ; movss (%r11,%r8,4),%xmm1
DB 15,20,217 ; unpcklps %xmm1,%xmm3
DB 15,20,216 ; unpcklps %xmm0,%xmm3
DB 102,68,15,254,231 ; paddd %xmm7,%xmm12
@@ -31851,52 +31776,52 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,112,192,232 ; pshufd $0xe8,%xmm0,%xmm0
DB 102,15,98,208 ; punpckldq %xmm0,%xmm2
DB 102,15,112,194,229 ; pshufd $0xe5,%xmm2,%xmm0
- DB 102,65,15,126,194 ; movd %xmm0,%r10d
- DB 102,15,112,194,78 ; pshufd $0x4e,%xmm2,%xmm0
DB 102,65,15,126,193 ; movd %xmm0,%r9d
+ DB 102,15,112,194,78 ; pshufd $0x4e,%xmm2,%xmm0
+ DB 102,65,15,126,192 ; movd %xmm0,%r8d
DB 102,15,112,194,231 ; pshufd $0xe7,%xmm2,%xmm0
DB 102,15,126,192 ; movd %xmm0,%eax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,12,147 ; movss (%rbx,%r10,4),%xmm1
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,12,139 ; movss (%r11,%r9,4),%xmm1
DB 15,20,200 ; unpcklps %xmm0,%xmm1
DB 102,15,126,208 ; movd %xmm2,%eax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,199 ; unpcklps %xmm7,%xmm0
DB 15,20,193 ; unpcklps %xmm1,%xmm0
- DB 102,15,111,37,78,180,0,0 ; movdqa 0xb44e(%rip),%xmm4 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,111,37,39,181,0,0 ; movdqa 0xb527(%rip),%xmm4 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,254,226 ; paddd %xmm2,%xmm4
DB 102,15,112,204,78 ; pshufd $0x4e,%xmm4,%xmm1
- DB 102,73,15,126,201 ; movq %xmm1,%r9
- DB 102,73,15,126,226 ; movq %xmm4,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,200 ; movq %xmm1,%r8
+ DB 102,73,15,126,225 ; movq %xmm4,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,60,131 ; movss (%rbx,%rax,4),%xmm7
- DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 243,65,15,16,60,131 ; movss (%r11,%rax,4),%xmm7
+ DB 243,67,15,16,12,147 ; movss (%r11,%r10,4),%xmm1
DB 15,20,249 ; unpcklps %xmm1,%xmm7
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 15,20,204 ; unpcklps %xmm4,%xmm1
DB 15,20,207 ; unpcklps %xmm7,%xmm1
- DB 102,15,254,21,32,180,0,0 ; paddd 0xb420(%rip),%xmm2 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,254,21,247,180,0,0 ; paddd 0xb4f7(%rip),%xmm2 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,112,226,78 ; pshufd $0x4e,%xmm2,%xmm4
- DB 102,73,15,126,225 ; movq %xmm4,%r9
- DB 102,73,15,126,210 ; movq %xmm2,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,224 ; movq %xmm4,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,20,147 ; movss (%r11,%r10,4),%xmm2
DB 15,20,226 ; unpcklps %xmm2,%xmm4
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,215 ; unpcklps %xmm7,%xmm2
DB 15,20,212 ; unpcklps %xmm4,%xmm2
DB 65,15,92,193 ; subps %xmm9,%xmm0
@@ -31936,31 +31861,29 @@ _sk_clut_3D_sse2 LABEL PROC
DB 15,40,172,36,128,0,0,0 ; movaps 0x80(%rsp),%xmm5
DB 15,40,180,36,144,0,0,0 ; movaps 0x90(%rsp),%xmm6
DB 15,40,188,36,160,0,0,0 ; movaps 0xa0(%rsp),%xmm7
- DB 72,129,196,176,0,0,0 ; add $0xb0,%rsp
- DB 91 ; pop %rbx
+ DB 72,129,196,184,0,0,0 ; add $0xb8,%rsp
DB 255,224 ; jmpq *%rax
PUBLIC _sk_clut_4D_sse2
_sk_clut_4D_sse2 LABEL PROC
- DB 83 ; push %rbx
- DB 72,129,236,48,1,0,0 ; sub $0x130,%rsp
+ DB 72,129,236,56,1,0,0 ; sub $0x138,%rsp
DB 15,41,188,36,32,1,0,0 ; movaps %xmm7,0x120(%rsp)
DB 15,41,180,36,16,1,0,0 ; movaps %xmm6,0x110(%rsp)
DB 15,41,172,36,0,1,0,0 ; movaps %xmm5,0x100(%rsp)
DB 15,41,164,36,240,0,0,0 ; movaps %xmm4,0xf0(%rsp)
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 68,139,72,20 ; mov 0x14(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 102,65,15,110,226 ; movd %r10d,%xmm4
+ DB 68,139,64,20 ; mov 0x14(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 102,65,15,110,225 ; movd %r9d,%xmm4
DB 102,15,112,228,0 ; pshufd $0x0,%xmm4,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
DB 15,89,227 ; mulps %xmm3,%xmm4
DB 15,40,236 ; movaps %xmm4,%xmm5
- DB 102,65,15,110,217 ; movd %r9d,%xmm3
+ DB 102,65,15,110,216 ; movd %r8d,%xmm3
DB 102,15,112,251,0 ; pshufd $0x0,%xmm3,%xmm7
- DB 68,139,72,16 ; mov 0x10(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 102,65,15,110,226 ; movd %r10d,%xmm4
+ DB 68,139,64,16 ; mov 0x10(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 102,65,15,110,225 ; movd %r9d,%xmm4
DB 102,15,112,228,0 ; pshufd $0x0,%xmm4,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
DB 15,89,226 ; mulps %xmm2,%xmm4
@@ -31978,16 +31901,16 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,98,226 ; punpckldq %xmm2,%xmm4
DB 102,15,111,244 ; movdqa %xmm4,%xmm6
DB 102,15,127,180,36,208,0,0,0 ; movdqa %xmm6,0xd0(%rsp)
- DB 102,65,15,110,209 ; movd %r9d,%xmm2
+ DB 102,65,15,110,208 ; movd %r8d,%xmm2
DB 102,15,244,211 ; pmuludq %xmm3,%xmm2
DB 102,15,112,210,232 ; pshufd $0xe8,%xmm2,%xmm2
DB 102,15,244,216 ; pmuludq %xmm0,%xmm3
DB 102,15,112,219,232 ; pshufd $0xe8,%xmm3,%xmm3
DB 102,15,98,211 ; punpckldq %xmm3,%xmm2
DB 102,68,15,112,250,0 ; pshufd $0x0,%xmm2,%xmm15
- DB 68,139,72,12 ; mov 0xc(%rax),%r9d
- DB 69,141,81,255 ; lea -0x1(%r9),%r10d
- DB 102,65,15,110,218 ; movd %r10d,%xmm3
+ DB 68,139,64,12 ; mov 0xc(%rax),%r8d
+ DB 69,141,72,255 ; lea -0x1(%r8),%r9d
+ DB 102,65,15,110,217 ; movd %r9d,%xmm3
DB 102,15,112,219,0 ; pshufd $0x0,%xmm3,%xmm3
DB 15,91,227 ; cvtdq2ps %xmm3,%xmm4
DB 15,89,225 ; mulps %xmm1,%xmm4
@@ -32004,11 +31927,11 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,98,217 ; punpckldq %xmm1,%xmm3
DB 102,15,127,156,36,144,0,0,0 ; movdqa %xmm3,0x90(%rsp)
- DB 102,65,15,110,201 ; movd %r9d,%xmm1
+ DB 102,65,15,110,200 ; movd %r8d,%xmm1
DB 102,15,244,202 ; pmuludq %xmm2,%xmm1
- DB 68,139,72,8 ; mov 0x8(%rax),%r9d
- DB 65,255,201 ; dec %r9d
- DB 102,65,15,110,209 ; movd %r9d,%xmm2
+ DB 68,139,64,8 ; mov 0x8(%rax),%r8d
+ DB 65,255,200 ; dec %r8d
+ DB 102,65,15,110,208 ; movd %r8d,%xmm2
DB 102,15,112,210,0 ; pshufd $0x0,%xmm2,%xmm2
DB 68,15,91,242 ; cvtdq2ps %xmm2,%xmm14
DB 68,15,89,240 ; mulps %xmm0,%xmm14
@@ -32033,7 +31956,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,254,209 ; paddd %xmm1,%xmm2
DB 102,15,111,220 ; movdqa %xmm4,%xmm3
DB 102,15,254,218 ; paddd %xmm2,%xmm3
- DB 102,68,15,111,21,236,183,0,0 ; movdqa 0xb7ec(%rip),%xmm10 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,68,15,111,21,195,184,0,0 ; movdqa 0xb8c3(%rip),%xmm10 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,112,235,245 ; pshufd $0xf5,%xmm3,%xmm5
DB 102,65,15,244,218 ; pmuludq %xmm10,%xmm3
DB 102,15,112,227,232 ; pshufd $0xe8,%xmm3,%xmm4
@@ -32041,56 +31964,56 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,221,232 ; pshufd $0xe8,%xmm5,%xmm3
DB 102,15,98,227 ; punpckldq %xmm3,%xmm4
DB 102,15,112,220,229 ; pshufd $0xe5,%xmm4,%xmm3
- DB 102,65,15,126,217 ; movd %xmm3,%r9d
+ DB 102,65,15,126,216 ; movd %xmm3,%r8d
DB 102,15,112,220,78 ; pshufd $0x4e,%xmm4,%xmm3
- DB 102,65,15,126,218 ; movd %xmm3,%r10d
+ DB 102,65,15,126,217 ; movd %xmm3,%r9d
DB 102,15,112,220,231 ; pshufd $0xe7,%xmm4,%xmm3
- DB 102,65,15,126,219 ; movd %xmm3,%r11d
- DB 72,139,24 ; mov (%rax),%rbx
- DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 102,65,15,126,218 ; movd %xmm3,%r10d
+ DB 76,139,24 ; mov (%rax),%r11
+ DB 243,67,15,16,28,147 ; movss (%r11,%r10,4),%xmm3
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,235 ; unpcklps %xmm3,%xmm5
DB 102,15,126,224 ; movd %xmm4,%eax
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,52,147 ; movss (%rbx,%r10,4),%xmm6
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,52,139 ; movss (%r11,%r9,4),%xmm6
DB 15,20,222 ; unpcklps %xmm6,%xmm3
DB 15,20,221 ; unpcklps %xmm5,%xmm3
DB 102,15,111,236 ; movdqa %xmm4,%xmm5
- DB 102,15,254,45,238,176,0,0 ; paddd 0xb0ee(%rip),%xmm5 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,254,45,196,177,0,0 ; paddd 0xb1c4(%rip),%xmm5 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,112,245,78 ; pshufd $0x4e,%xmm5,%xmm6
- DB 102,73,15,126,241 ; movq %xmm6,%r9
- DB 102,73,15,126,234 ; movq %xmm5,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,240 ; movq %xmm6,%r8
+ DB 102,73,15,126,233 ; movq %xmm5,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,52,155 ; movss (%rbx,%r11,4),%xmm6
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,52,147 ; movss (%r11,%r10,4),%xmm6
DB 15,20,238 ; unpcklps %xmm6,%xmm5
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,52,131 ; movss (%rbx,%rax,4),%xmm6
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,52,131 ; movss (%r11,%rax,4),%xmm6
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,247 ; unpcklps %xmm7,%xmm6
DB 15,20,245 ; unpcklps %xmm5,%xmm6
- DB 102,15,254,37,196,176,0,0 ; paddd 0xb0c4(%rip),%xmm4 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,254,37,152,177,0,0 ; paddd 0xb198(%rip),%xmm4 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,112,236,78 ; pshufd $0x4e,%xmm4,%xmm5
- DB 102,73,15,126,233 ; movq %xmm5,%r9
- DB 102,73,15,126,226 ; movq %xmm4,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,232 ; movq %xmm5,%r8
+ DB 102,73,15,126,225 ; movq %xmm4,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,44,155 ; movss (%rbx,%r11,4),%xmm5
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,44,147 ; movss (%r11,%r10,4),%xmm5
DB 15,20,229 ; unpcklps %xmm5,%xmm4
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,239 ; unpcklps %xmm7,%xmm5
DB 15,20,236 ; unpcklps %xmm4,%xmm5
- DB 15,40,61,219,182,0,0 ; movaps 0xb6db(%rip),%xmm7 # 2d120 <_sk_overlay_sse2_8bit+0x14d3>
+ DB 15,40,61,173,183,0,0 ; movaps 0xb7ad(%rip),%xmm7 # 2d1d0 <_sk_overlay_sse2_8bit+0x155b>
DB 68,15,88,199 ; addps %xmm7,%xmm8
DB 68,15,41,68,36,48 ; movaps %xmm8,0x30(%rsp)
DB 68,15,88,207 ; addps %xmm7,%xmm9
@@ -32114,52 +32037,52 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,215,232 ; pshufd $0xe8,%xmm7,%xmm2
DB 102,15,98,194 ; punpckldq %xmm2,%xmm0
DB 102,15,112,208,229 ; pshufd $0xe5,%xmm0,%xmm2
- DB 102,65,15,126,210 ; movd %xmm2,%r10d
- DB 102,15,112,208,78 ; pshufd $0x4e,%xmm0,%xmm2
DB 102,65,15,126,209 ; movd %xmm2,%r9d
+ DB 102,15,112,208,78 ; pshufd $0x4e,%xmm0,%xmm2
+ DB 102,65,15,126,208 ; movd %xmm2,%r8d
DB 102,15,112,208,231 ; pshufd $0xe7,%xmm0,%xmm2
DB 102,15,126,208 ; movd %xmm2,%eax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,60,147 ; movss (%rbx,%r10,4),%xmm7
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,60,139 ; movss (%r11,%r9,4),%xmm7
DB 15,20,250 ; unpcklps %xmm2,%xmm7
DB 102,15,126,192 ; movd %xmm0,%eax
- DB 243,68,15,16,44,131 ; movss (%rbx,%rax,4),%xmm13
- DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
+ DB 243,69,15,16,44,131 ; movss (%r11,%rax,4),%xmm13
+ DB 243,67,15,16,20,131 ; movss (%r11,%r8,4),%xmm2
DB 68,15,20,234 ; unpcklps %xmm2,%xmm13
DB 68,15,20,239 ; unpcklps %xmm7,%xmm13
DB 102,15,111,208 ; movdqa %xmm0,%xmm2
- DB 102,15,254,21,155,175,0,0 ; paddd 0xaf9b(%rip),%xmm2 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,254,21,108,176,0,0 ; paddd 0xb06c(%rip),%xmm2 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,112,250,78 ; pshufd $0x4e,%xmm2,%xmm7
- DB 102,73,15,126,249 ; movq %xmm7,%r9
- DB 102,73,15,126,210 ; movq %xmm2,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,248 ; movq %xmm7,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,60,131 ; movss (%rbx,%rax,4),%xmm7
- DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,65,15,16,60,131 ; movss (%r11,%rax,4),%xmm7
+ DB 243,67,15,16,20,147 ; movss (%r11,%r10,4),%xmm2
DB 15,20,250 ; unpcklps %xmm2,%xmm7
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,70,15,16,12,139 ; movss (%rbx,%r9,4),%xmm9
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,71,15,16,12,131 ; movss (%r11,%r8,4),%xmm9
DB 65,15,20,209 ; unpcklps %xmm9,%xmm2
DB 15,20,215 ; unpcklps %xmm7,%xmm2
- DB 102,15,254,5,112,175,0,0 ; paddd 0xaf70(%rip),%xmm0 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,254,5,63,176,0,0 ; paddd 0xb03f(%rip),%xmm0 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,112,248,78 ; pshufd $0x4e,%xmm0,%xmm7
- DB 102,73,15,126,249 ; movq %xmm7,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,248 ; movq %xmm7,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,60,131 ; movss (%rbx,%rax,4),%xmm7
- DB 243,66,15,16,4,155 ; movss (%rbx,%r11,4),%xmm0
+ DB 243,65,15,16,60,131 ; movss (%r11,%rax,4),%xmm7
+ DB 243,67,15,16,4,147 ; movss (%r11,%r10,4),%xmm0
DB 15,20,248 ; unpcklps %xmm0,%xmm7
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 15,20,196 ; unpcklps %xmm4,%xmm0
DB 15,20,199 ; unpcklps %xmm7,%xmm0
DB 65,15,91,228 ; cvtdq2ps %xmm12,%xmm4
@@ -32186,61 +32109,61 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,111,217 ; movdqa %xmm1,%xmm3
DB 102,15,254,92,36,32 ; paddd 0x20(%rsp),%xmm3
DB 102,15,112,227,245 ; pshufd $0xf5,%xmm3,%xmm4
- DB 102,68,15,111,53,46,181,0,0 ; movdqa 0xb52e(%rip),%xmm14 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,68,15,111,53,251,181,0,0 ; movdqa 0xb5fb(%rip),%xmm14 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,65,15,244,222 ; pmuludq %xmm14,%xmm3
DB 102,15,112,219,232 ; pshufd $0xe8,%xmm3,%xmm3
DB 102,65,15,244,230 ; pmuludq %xmm14,%xmm4
DB 102,15,112,228,232 ; pshufd $0xe8,%xmm4,%xmm4
DB 102,15,98,220 ; punpckldq %xmm4,%xmm3
DB 102,15,112,227,229 ; pshufd $0xe5,%xmm3,%xmm4
- DB 102,65,15,126,226 ; movd %xmm4,%r10d
- DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
DB 102,65,15,126,225 ; movd %xmm4,%r9d
+ DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
+ DB 102,65,15,126,224 ; movd %xmm4,%r8d
DB 102,15,112,227,231 ; pshufd $0xe7,%xmm3,%xmm4
DB 102,15,126,224 ; movd %xmm4,%eax
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,44,147 ; movss (%rbx,%r10,4),%xmm5
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,44,139 ; movss (%r11,%r9,4),%xmm5
DB 15,20,236 ; unpcklps %xmm4,%xmm5
DB 102,15,126,216 ; movd %xmm3,%eax
- DB 243,68,15,16,36,131 ; movss (%rbx,%rax,4),%xmm12
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 243,69,15,16,36,131 ; movss (%r11,%rax,4),%xmm12
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 68,15,20,228 ; unpcklps %xmm4,%xmm12
DB 68,15,20,229 ; unpcklps %xmm5,%xmm12
DB 102,15,111,227 ; movdqa %xmm3,%xmm4
- DB 102,15,111,61,55,174,0,0 ; movdqa 0xae37(%rip),%xmm7 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,111,61,3,175,0,0 ; movdqa 0xaf03(%rip),%xmm7 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,254,231 ; paddd %xmm7,%xmm4
DB 102,15,112,236,78 ; pshufd $0x4e,%xmm4,%xmm5
- DB 102,73,15,126,233 ; movq %xmm5,%r9
- DB 102,73,15,126,226 ; movq %xmm4,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,232 ; movq %xmm5,%r8
+ DB 102,73,15,126,225 ; movq %xmm4,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,44,155 ; movss (%rbx,%r11,4),%xmm5
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,44,147 ; movss (%r11,%r10,4),%xmm5
DB 15,20,229 ; unpcklps %xmm5,%xmm4
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,52,131 ; movss (%rbx,%rax,4),%xmm6
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,52,131 ; movss (%r11,%rax,4),%xmm6
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,245 ; unpcklps %xmm5,%xmm6
DB 15,20,244 ; unpcklps %xmm4,%xmm6
- DB 102,68,15,111,5,8,174,0,0 ; movdqa 0xae08(%rip),%xmm8 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,68,15,111,5,210,174,0,0 ; movdqa 0xaed2(%rip),%xmm8 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,65,15,254,216 ; paddd %xmm8,%xmm3
DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
- DB 102,73,15,126,225 ; movq %xmm4,%r9
- DB 102,73,15,126,218 ; movq %xmm3,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,224 ; movq %xmm4,%r8
+ DB 102,73,15,126,217 ; movq %xmm3,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,36,155 ; movss (%rbx,%r11,4),%xmm4
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,36,147 ; movss (%r11,%r10,4),%xmm4
DB 15,20,220 ; unpcklps %xmm4,%xmm3
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 15,20,236 ; unpcklps %xmm4,%xmm5
DB 15,20,235 ; unpcklps %xmm3,%xmm5
DB 102,65,15,254,203 ; paddd %xmm11,%xmm1
@@ -32251,52 +32174,52 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,219,232 ; pshufd $0xe8,%xmm3,%xmm3
DB 102,15,98,203 ; punpckldq %xmm3,%xmm1
DB 102,15,112,217,229 ; pshufd $0xe5,%xmm1,%xmm3
- DB 102,65,15,126,218 ; movd %xmm3,%r10d
- DB 102,15,112,217,78 ; pshufd $0x4e,%xmm1,%xmm3
DB 102,65,15,126,217 ; movd %xmm3,%r9d
+ DB 102,15,112,217,78 ; pshufd $0x4e,%xmm1,%xmm3
+ DB 102,65,15,126,216 ; movd %xmm3,%r8d
DB 102,15,112,217,231 ; pshufd $0xe7,%xmm1,%xmm3
DB 102,15,126,216 ; movd %xmm3,%eax
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,36,147 ; movss (%rbx,%r10,4),%xmm4
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,36,139 ; movss (%r11,%r9,4),%xmm4
DB 15,20,227 ; unpcklps %xmm3,%xmm4
DB 102,15,126,200 ; movd %xmm1,%eax
- DB 243,68,15,16,60,131 ; movss (%rbx,%rax,4),%xmm15
- DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 243,69,15,16,60,131 ; movss (%r11,%rax,4),%xmm15
+ DB 243,67,15,16,28,131 ; movss (%r11,%r8,4),%xmm3
DB 68,15,20,251 ; unpcklps %xmm3,%xmm15
DB 68,15,20,252 ; unpcklps %xmm4,%xmm15
DB 102,15,111,217 ; movdqa %xmm1,%xmm3
DB 102,15,254,223 ; paddd %xmm7,%xmm3
DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
- DB 102,73,15,126,225 ; movq %xmm4,%r9
- DB 102,73,15,126,218 ; movq %xmm3,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,224 ; movq %xmm4,%r8
+ DB 102,73,15,126,217 ; movq %xmm3,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,28,147 ; movss (%r11,%r10,4),%xmm3
DB 15,20,227 ; unpcklps %xmm3,%xmm4
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,68,15,16,52,131 ; movss (%rbx,%rax,4),%xmm14
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,69,15,16,52,131 ; movss (%r11,%rax,4),%xmm14
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 68,15,20,247 ; unpcklps %xmm7,%xmm14
DB 68,15,20,244 ; unpcklps %xmm4,%xmm14
DB 102,65,15,254,200 ; paddd %xmm8,%xmm1
DB 102,15,112,225,78 ; pshufd $0x4e,%xmm1,%xmm4
- DB 102,73,15,126,225 ; movq %xmm4,%r9
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,224 ; movq %xmm4,%r8
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,36,155 ; movss (%rbx,%r11,4),%xmm4
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,36,147 ; movss (%r11,%r10,4),%xmm4
DB 15,20,204 ; unpcklps %xmm4,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,68,15,16,20,131 ; movss (%rbx,%rax,4),%xmm10
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,69,15,16,20,131 ; movss (%r11,%rax,4),%xmm10
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 68,15,20,215 ; unpcklps %xmm7,%xmm10
DB 68,15,20,209 ; unpcklps %xmm1,%xmm10
DB 69,15,92,252 ; subps %xmm12,%xmm15
@@ -32339,7 +32262,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,68,15,111,108,36,32 ; movdqa 0x20(%rsp),%xmm13
DB 102,65,15,254,205 ; paddd %xmm13,%xmm1
DB 102,15,112,209,245 ; pshufd $0xf5,%xmm1,%xmm2
- DB 102,15,111,29,107,178,0,0 ; movdqa 0xb26b(%rip),%xmm3 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,29,48,179,0,0 ; movdqa 0xb330(%rip),%xmm3 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,244,203 ; pmuludq %xmm3,%xmm1
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,244,211 ; pmuludq %xmm3,%xmm2
@@ -32347,54 +32270,54 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,210,232 ; pshufd $0xe8,%xmm2,%xmm2
DB 102,15,98,202 ; punpckldq %xmm2,%xmm1
DB 102,15,112,209,229 ; pshufd $0xe5,%xmm1,%xmm2
- DB 102,65,15,126,210 ; movd %xmm2,%r10d
- DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
DB 102,65,15,126,209 ; movd %xmm2,%r9d
+ DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
+ DB 102,65,15,126,208 ; movd %xmm2,%r8d
DB 102,15,112,209,231 ; pshufd $0xe7,%xmm1,%xmm2
DB 102,15,126,208 ; movd %xmm2,%eax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,44,147 ; movss (%rbx,%r10,4),%xmm5
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,44,139 ; movss (%r11,%r9,4),%xmm5
DB 15,20,234 ; unpcklps %xmm2,%xmm5
DB 102,15,126,200 ; movd %xmm1,%eax
- DB 243,68,15,16,12,131 ; movss (%rbx,%rax,4),%xmm9
- DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
+ DB 243,69,15,16,12,131 ; movss (%r11,%rax,4),%xmm9
+ DB 243,67,15,16,20,131 ; movss (%r11,%r8,4),%xmm2
DB 68,15,20,202 ; unpcklps %xmm2,%xmm9
DB 68,15,20,205 ; unpcklps %xmm5,%xmm9
DB 102,15,111,209 ; movdqa %xmm1,%xmm2
- DB 102,15,111,29,114,171,0,0 ; movdqa 0xab72(%rip),%xmm3 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,111,29,54,172,0,0 ; movdqa 0xac36(%rip),%xmm3 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,254,211 ; paddd %xmm3,%xmm2
DB 102,15,112,234,78 ; pshufd $0x4e,%xmm2,%xmm5
- DB 102,73,15,126,233 ; movq %xmm5,%r9
- DB 102,73,15,126,210 ; movq %xmm2,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,232 ; movq %xmm5,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,20,147 ; movss (%r11,%r10,4),%xmm2
DB 15,20,234 ; unpcklps %xmm2,%xmm5
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,52,139 ; movss (%rbx,%r9,4),%xmm6
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,52,131 ; movss (%r11,%r8,4),%xmm6
DB 15,20,214 ; unpcklps %xmm6,%xmm2
DB 15,20,213 ; unpcklps %xmm5,%xmm2
DB 102,69,15,111,224 ; movdqa %xmm8,%xmm12
DB 102,65,15,254,204 ; paddd %xmm12,%xmm1
DB 102,15,112,233,78 ; pshufd $0x4e,%xmm1,%xmm5
- DB 102,73,15,126,233 ; movq %xmm5,%r9
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,232 ; movq %xmm5,%r8
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,44,155 ; movss (%rbx,%r11,4),%xmm5
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,44,147 ; movss (%r11,%r10,4),%xmm5
DB 15,20,205 ; unpcklps %xmm5,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,52,131 ; movss (%rbx,%rax,4),%xmm6
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,52,131 ; movss (%r11,%rax,4),%xmm6
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,245 ; unpcklps %xmm5,%xmm6
DB 15,20,241 ; unpcklps %xmm1,%xmm6
DB 102,15,111,164,36,128,0,0,0 ; movdqa 0x80(%rsp),%xmm4
@@ -32406,52 +32329,52 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,98,193 ; punpckldq %xmm1,%xmm0
DB 102,15,112,200,229 ; pshufd $0xe5,%xmm0,%xmm1
- DB 102,65,15,126,202 ; movd %xmm1,%r10d
- DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,65,15,126,201 ; movd %xmm1,%r9d
+ DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
+ DB 102,65,15,126,200 ; movd %xmm1,%r8d
DB 102,15,112,200,231 ; pshufd $0xe7,%xmm0,%xmm1
DB 102,15,126,200 ; movd %xmm1,%eax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,44,147 ; movss (%rbx,%r10,4),%xmm5
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,44,139 ; movss (%r11,%r9,4),%xmm5
DB 15,20,233 ; unpcklps %xmm1,%xmm5
DB 102,15,126,192 ; movd %xmm0,%eax
- DB 243,68,15,16,4,131 ; movss (%rbx,%rax,4),%xmm8
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 243,69,15,16,4,131 ; movss (%r11,%rax,4),%xmm8
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 68,15,20,199 ; unpcklps %xmm7,%xmm8
DB 68,15,20,197 ; unpcklps %xmm5,%xmm8
DB 102,15,111,232 ; movdqa %xmm0,%xmm5
DB 102,15,254,235 ; paddd %xmm3,%xmm5
DB 102,15,112,253,78 ; pshufd $0x4e,%xmm5,%xmm7
- DB 102,73,15,126,249 ; movq %xmm7,%r9
- DB 102,73,15,126,234 ; movq %xmm5,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,248 ; movq %xmm7,%r8
+ DB 102,73,15,126,233 ; movq %xmm5,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,60,131 ; movss (%rbx,%rax,4),%xmm7
- DB 243,66,15,16,44,155 ; movss (%rbx,%r11,4),%xmm5
+ DB 243,65,15,16,60,131 ; movss (%r11,%rax,4),%xmm7
+ DB 243,67,15,16,44,147 ; movss (%r11,%r10,4),%xmm5
DB 15,20,253 ; unpcklps %xmm5,%xmm7
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,28,131 ; movss (%r11,%r8,4),%xmm3
DB 15,20,235 ; unpcklps %xmm3,%xmm5
DB 15,20,239 ; unpcklps %xmm7,%xmm5
DB 102,65,15,254,196 ; paddd %xmm12,%xmm0
DB 102,15,112,216,78 ; pshufd $0x4e,%xmm0,%xmm3
- DB 102,73,15,126,217 ; movq %xmm3,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,216 ; movq %xmm3,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,4,155 ; movss (%rbx,%r11,4),%xmm0
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,4,147 ; movss (%r11,%r10,4),%xmm0
DB 15,20,216 ; unpcklps %xmm0,%xmm3
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,207 ; unpcklps %xmm7,%xmm1
DB 15,20,203 ; unpcklps %xmm3,%xmm1
DB 69,15,92,193 ; subps %xmm9,%xmm8
@@ -32469,118 +32392,118 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,65,15,111,211 ; movdqa %xmm11,%xmm2
DB 102,65,15,254,213 ; paddd %xmm13,%xmm2
DB 102,15,112,218,245 ; pshufd $0xf5,%xmm2,%xmm3
- DB 102,15,111,5,48,176,0,0 ; movdqa 0xb030(%rip),%xmm0 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,5,235,176,0,0 ; movdqa 0xb0eb(%rip),%xmm0 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,244,208 ; pmuludq %xmm0,%xmm2
DB 102,15,112,250,232 ; pshufd $0xe8,%xmm2,%xmm7
DB 102,15,244,216 ; pmuludq %xmm0,%xmm3
DB 102,15,112,211,232 ; pshufd $0xe8,%xmm3,%xmm2
DB 102,15,98,250 ; punpckldq %xmm2,%xmm7
DB 102,15,112,215,229 ; pshufd $0xe5,%xmm7,%xmm2
- DB 102,65,15,126,210 ; movd %xmm2,%r10d
- DB 102,15,112,215,78 ; pshufd $0x4e,%xmm7,%xmm2
DB 102,65,15,126,209 ; movd %xmm2,%r9d
+ DB 102,15,112,215,78 ; pshufd $0x4e,%xmm7,%xmm2
+ DB 102,65,15,126,208 ; movd %xmm2,%r8d
DB 102,15,112,215,231 ; pshufd $0xe7,%xmm7,%xmm2
DB 102,15,126,208 ; movd %xmm2,%eax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,28,139 ; movss (%r11,%r9,4),%xmm3
DB 15,20,218 ; unpcklps %xmm2,%xmm3
DB 102,15,126,248 ; movd %xmm7,%eax
- DB 243,68,15,16,12,131 ; movss (%rbx,%rax,4),%xmm9
- DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
+ DB 243,69,15,16,12,131 ; movss (%r11,%rax,4),%xmm9
+ DB 243,67,15,16,20,131 ; movss (%r11,%r8,4),%xmm2
DB 68,15,20,202 ; unpcklps %xmm2,%xmm9
DB 68,15,20,203 ; unpcklps %xmm3,%xmm9
DB 102,15,111,215 ; movdqa %xmm7,%xmm2
- DB 102,15,111,5,59,169,0,0 ; movdqa 0xa93b(%rip),%xmm0 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,111,5,245,169,0,0 ; movdqa 0xa9f5(%rip),%xmm0 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,254,208 ; paddd %xmm0,%xmm2
DB 102,15,112,218,78 ; pshufd $0x4e,%xmm2,%xmm3
- DB 102,73,15,126,217 ; movq %xmm3,%r9
- DB 102,73,15,126,210 ; movq %xmm2,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,216 ; movq %xmm3,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,28,147 ; movss (%r11,%r10,4),%xmm3
DB 15,20,211 ; unpcklps %xmm3,%xmm2
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,52,131 ; movss (%rbx,%rax,4),%xmm6
- DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,52,131 ; movss (%r11,%rax,4),%xmm6
+ DB 243,67,15,16,28,131 ; movss (%r11,%r8,4),%xmm3
DB 15,20,243 ; unpcklps %xmm3,%xmm6
DB 15,20,242 ; unpcklps %xmm2,%xmm6
- DB 102,68,15,111,45,12,169,0,0 ; movdqa 0xa90c(%rip),%xmm13 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,68,15,111,45,196,169,0,0 ; movdqa 0xa9c4(%rip),%xmm13 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,65,15,254,253 ; paddd %xmm13,%xmm7
DB 102,15,112,215,78 ; pshufd $0x4e,%xmm7,%xmm2
- DB 102,73,15,126,209 ; movq %xmm2,%r9
- DB 102,73,15,126,250 ; movq %xmm7,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,208 ; movq %xmm2,%r8
+ DB 102,73,15,126,249 ; movq %xmm7,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,28,147 ; movss (%r11,%r10,4),%xmm3
DB 15,20,211 ; unpcklps %xmm3,%xmm2
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,60,131 ; movss (%rbx,%rax,4),%xmm7
- DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,60,131 ; movss (%r11,%rax,4),%xmm7
+ DB 243,67,15,16,28,131 ; movss (%r11,%r8,4),%xmm3
DB 15,20,251 ; unpcklps %xmm3,%xmm7
DB 15,20,250 ; unpcklps %xmm2,%xmm7
DB 102,68,15,254,220 ; paddd %xmm4,%xmm11
DB 102,65,15,112,219,245 ; pshufd $0xf5,%xmm11,%xmm3
- DB 102,15,111,37,34,175,0,0 ; movdqa 0xaf22(%rip),%xmm4 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,37,216,175,0,0 ; movdqa 0xafd8(%rip),%xmm4 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,68,15,244,220 ; pmuludq %xmm4,%xmm11
DB 102,65,15,112,211,232 ; pshufd $0xe8,%xmm11,%xmm2
DB 102,15,244,220 ; pmuludq %xmm4,%xmm3
DB 102,15,112,219,232 ; pshufd $0xe8,%xmm3,%xmm3
DB 102,15,98,211 ; punpckldq %xmm3,%xmm2
DB 102,15,112,218,229 ; pshufd $0xe5,%xmm2,%xmm3
- DB 102,65,15,126,218 ; movd %xmm3,%r10d
- DB 102,15,112,218,78 ; pshufd $0x4e,%xmm2,%xmm3
DB 102,65,15,126,217 ; movd %xmm3,%r9d
+ DB 102,15,112,218,78 ; pshufd $0x4e,%xmm2,%xmm3
+ DB 102,65,15,126,216 ; movd %xmm3,%r8d
DB 102,15,112,218,231 ; pshufd $0xe7,%xmm2,%xmm3
DB 102,15,126,216 ; movd %xmm3,%eax
- DB 243,68,15,16,28,131 ; movss (%rbx,%rax,4),%xmm11
- DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
+ DB 243,69,15,16,28,131 ; movss (%r11,%rax,4),%xmm11
+ DB 243,67,15,16,28,139 ; movss (%r11,%r9,4),%xmm3
DB 65,15,20,219 ; unpcklps %xmm11,%xmm3
DB 102,15,126,208 ; movd %xmm2,%eax
- DB 243,68,15,16,28,131 ; movss (%rbx,%rax,4),%xmm11
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 243,69,15,16,28,131 ; movss (%r11,%rax,4),%xmm11
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 68,15,20,220 ; unpcklps %xmm4,%xmm11
DB 68,15,20,219 ; unpcklps %xmm3,%xmm11
DB 102,15,111,218 ; movdqa %xmm2,%xmm3
DB 102,15,254,216 ; paddd %xmm0,%xmm3
DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
- DB 102,73,15,126,225 ; movq %xmm4,%r9
- DB 102,73,15,126,218 ; movq %xmm3,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,224 ; movq %xmm4,%r8
+ DB 102,73,15,126,217 ; movq %xmm3,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,36,155 ; movss (%rbx,%r11,4),%xmm4
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,36,147 ; movss (%r11,%r10,4),%xmm4
DB 15,20,220 ; unpcklps %xmm4,%xmm3
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 15,20,196 ; unpcklps %xmm4,%xmm0
DB 15,20,195 ; unpcklps %xmm3,%xmm0
DB 102,65,15,254,213 ; paddd %xmm13,%xmm2
DB 102,15,112,218,78 ; pshufd $0x4e,%xmm2,%xmm3
- DB 102,73,15,126,217 ; movq %xmm3,%r9
- DB 102,73,15,126,210 ; movq %xmm2,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,216 ; movq %xmm3,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,28,147 ; movss (%r11,%r10,4),%xmm3
DB 15,20,211 ; unpcklps %xmm3,%xmm2
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,68,15,16,44,131 ; movss (%rbx,%rax,4),%xmm13
- DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,69,15,16,44,131 ; movss (%r11,%rax,4),%xmm13
+ DB 243,67,15,16,28,131 ; movss (%r11,%r8,4),%xmm3
DB 68,15,20,235 ; unpcklps %xmm3,%xmm13
DB 68,15,20,234 ; unpcklps %xmm2,%xmm13
DB 69,15,92,217 ; subps %xmm9,%xmm11
@@ -32629,7 +32552,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,65,15,111,202 ; movdqa %xmm10,%xmm1
DB 102,15,254,200 ; paddd %xmm0,%xmm1
DB 102,15,112,209,245 ; pshufd $0xf5,%xmm1,%xmm2
- DB 102,15,111,29,88,173,0,0 ; movdqa 0xad58(%rip),%xmm3 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,29,11,174,0,0 ; movdqa 0xae0b(%rip),%xmm3 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,244,203 ; pmuludq %xmm3,%xmm1
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,244,211 ; pmuludq %xmm3,%xmm2
@@ -32637,54 +32560,54 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,210,232 ; pshufd $0xe8,%xmm2,%xmm2
DB 102,15,98,202 ; punpckldq %xmm2,%xmm1
DB 102,15,112,209,229 ; pshufd $0xe5,%xmm1,%xmm2
- DB 102,65,15,126,210 ; movd %xmm2,%r10d
- DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
DB 102,65,15,126,209 ; movd %xmm2,%r9d
+ DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
+ DB 102,65,15,126,208 ; movd %xmm2,%r8d
DB 102,15,112,209,231 ; pshufd $0xe7,%xmm1,%xmm2
DB 102,15,126,208 ; movd %xmm2,%eax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,28,139 ; movss (%r11,%r9,4),%xmm3
DB 15,20,218 ; unpcklps %xmm2,%xmm3
DB 102,15,126,200 ; movd %xmm1,%eax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 15,20,212 ; unpcklps %xmm4,%xmm2
DB 15,20,211 ; unpcklps %xmm3,%xmm2
DB 102,15,111,217 ; movdqa %xmm1,%xmm3
- DB 102,15,111,61,97,166,0,0 ; movdqa 0xa661(%rip),%xmm7 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,111,61,18,167,0,0 ; movdqa 0xa712(%rip),%xmm7 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,254,223 ; paddd %xmm7,%xmm3
DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
- DB 102,73,15,126,225 ; movq %xmm4,%r9
- DB 102,73,15,126,218 ; movq %xmm3,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,224 ; movq %xmm4,%r8
+ DB 102,73,15,126,217 ; movq %xmm3,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,28,147 ; movss (%r11,%r10,4),%xmm3
DB 15,20,227 ; unpcklps %xmm3,%xmm4
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,221 ; unpcklps %xmm5,%xmm3
DB 15,20,220 ; unpcklps %xmm4,%xmm3
- DB 102,68,15,111,13,50,166,0,0 ; movdqa 0xa632(%rip),%xmm9 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,68,15,111,13,225,166,0,0 ; movdqa 0xa6e1(%rip),%xmm9 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,65,15,254,201 ; paddd %xmm9,%xmm1
DB 102,15,112,225,78 ; pshufd $0x4e,%xmm1,%xmm4
- DB 102,73,15,126,225 ; movq %xmm4,%r9
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,224 ; movq %xmm4,%r8
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,36,155 ; movss (%rbx,%r11,4),%xmm4
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,36,147 ; movss (%r11,%r10,4),%xmm4
DB 15,20,204 ; unpcklps %xmm4,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 15,20,229 ; unpcklps %xmm5,%xmm4
DB 15,20,225 ; unpcklps %xmm1,%xmm4
DB 102,68,15,111,188,36,128,0,0,0 ; movdqa 0x80(%rsp),%xmm15
@@ -32696,52 +32619,52 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,98,193 ; punpckldq %xmm1,%xmm0
DB 102,15,112,200,229 ; pshufd $0xe5,%xmm0,%xmm1
- DB 102,65,15,126,202 ; movd %xmm1,%r10d
- DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,65,15,126,201 ; movd %xmm1,%r9d
+ DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
+ DB 102,65,15,126,200 ; movd %xmm1,%r8d
DB 102,15,112,200,231 ; pshufd $0xe7,%xmm0,%xmm1
DB 102,15,126,200 ; movd %xmm1,%eax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,44,147 ; movss (%rbx,%r10,4),%xmm5
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,44,139 ; movss (%r11,%r9,4),%xmm5
DB 15,20,233 ; unpcklps %xmm1,%xmm5
DB 102,15,126,192 ; movd %xmm0,%eax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,52,139 ; movss (%rbx,%r9,4),%xmm6
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,52,131 ; movss (%r11,%r8,4),%xmm6
DB 15,20,206 ; unpcklps %xmm6,%xmm1
DB 15,20,205 ; unpcklps %xmm5,%xmm1
DB 102,15,111,232 ; movdqa %xmm0,%xmm5
DB 102,15,254,239 ; paddd %xmm7,%xmm5
DB 102,15,112,245,78 ; pshufd $0x4e,%xmm5,%xmm6
- DB 102,73,15,126,241 ; movq %xmm6,%r9
- DB 102,73,15,126,234 ; movq %xmm5,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,240 ; movq %xmm6,%r8
+ DB 102,73,15,126,233 ; movq %xmm5,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,52,131 ; movss (%rbx,%rax,4),%xmm6
- DB 243,66,15,16,44,155 ; movss (%rbx,%r11,4),%xmm5
+ DB 243,65,15,16,52,131 ; movss (%r11,%rax,4),%xmm6
+ DB 243,67,15,16,44,147 ; movss (%r11,%r10,4),%xmm5
DB 15,20,245 ; unpcklps %xmm5,%xmm6
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,239 ; unpcklps %xmm7,%xmm5
DB 15,20,238 ; unpcklps %xmm6,%xmm5
DB 102,65,15,254,193 ; paddd %xmm9,%xmm0
DB 102,15,112,240,78 ; pshufd $0x4e,%xmm0,%xmm6
- DB 102,73,15,126,241 ; movq %xmm6,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,240 ; movq %xmm6,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,52,131 ; movss (%rbx,%rax,4),%xmm6
- DB 243,66,15,16,4,155 ; movss (%rbx,%r11,4),%xmm0
+ DB 243,65,15,16,52,131 ; movss (%r11,%rax,4),%xmm6
+ DB 243,67,15,16,4,147 ; movss (%r11,%r10,4),%xmm0
DB 15,20,240 ; unpcklps %xmm0,%xmm6
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,199 ; unpcklps %xmm7,%xmm0
DB 15,20,198 ; unpcklps %xmm6,%xmm0
DB 15,92,202 ; subps %xmm2,%xmm1
@@ -32767,53 +32690,53 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,211,232 ; pshufd $0xe8,%xmm3,%xmm2
DB 102,15,98,226 ; punpckldq %xmm2,%xmm4
DB 102,15,112,212,229 ; pshufd $0xe5,%xmm4,%xmm2
- DB 102,65,15,126,210 ; movd %xmm2,%r10d
- DB 102,15,112,212,78 ; pshufd $0x4e,%xmm4,%xmm2
DB 102,65,15,126,209 ; movd %xmm2,%r9d
+ DB 102,15,112,212,78 ; pshufd $0x4e,%xmm4,%xmm2
+ DB 102,65,15,126,208 ; movd %xmm2,%r8d
DB 102,15,112,212,231 ; pshufd $0xe7,%xmm4,%xmm2
DB 102,15,126,208 ; movd %xmm2,%eax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,28,147 ; movss (%rbx,%r10,4),%xmm3
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,28,139 ; movss (%r11,%r9,4),%xmm3
DB 15,20,218 ; unpcklps %xmm2,%xmm3
DB 102,15,126,224 ; movd %xmm4,%eax
- DB 243,68,15,16,52,131 ; movss (%rbx,%rax,4),%xmm14
- DB 243,66,15,16,52,139 ; movss (%rbx,%r9,4),%xmm6
+ DB 243,69,15,16,52,131 ; movss (%r11,%rax,4),%xmm14
+ DB 243,67,15,16,52,131 ; movss (%r11,%r8,4),%xmm6
DB 68,15,20,246 ; unpcklps %xmm6,%xmm14
DB 68,15,20,243 ; unpcklps %xmm3,%xmm14
DB 102,15,111,220 ; movdqa %xmm4,%xmm3
- DB 102,68,15,111,21,34,164,0,0 ; movdqa 0xa422(%rip),%xmm10 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,68,15,111,21,200,164,0,0 ; movdqa 0xa4c8(%rip),%xmm10 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,65,15,254,218 ; paddd %xmm10,%xmm3
DB 102,15,112,243,78 ; pshufd $0x4e,%xmm3,%xmm6
- DB 102,73,15,126,241 ; movq %xmm6,%r9
- DB 102,73,15,126,218 ; movq %xmm3,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,240 ; movq %xmm6,%r8
+ DB 102,73,15,126,217 ; movq %xmm3,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,52,131 ; movss (%rbx,%rax,4),%xmm6
- DB 243,66,15,16,28,155 ; movss (%rbx,%r11,4),%xmm3
+ DB 243,65,15,16,52,131 ; movss (%r11,%rax,4),%xmm6
+ DB 243,67,15,16,28,147 ; movss (%r11,%r10,4),%xmm3
DB 15,20,243 ; unpcklps %xmm3,%xmm6
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,223 ; unpcklps %xmm7,%xmm3
DB 15,20,222 ; unpcklps %xmm6,%xmm3
DB 102,65,15,254,225 ; paddd %xmm9,%xmm4
DB 102,15,112,244,78 ; pshufd $0x4e,%xmm4,%xmm6
- DB 102,73,15,126,241 ; movq %xmm6,%r9
- DB 102,73,15,126,226 ; movq %xmm4,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,240 ; movq %xmm6,%r8
+ DB 102,73,15,126,225 ; movq %xmm4,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,52,131 ; movss (%rbx,%rax,4),%xmm6
- DB 243,66,15,16,36,155 ; movss (%rbx,%r11,4),%xmm4
+ DB 243,65,15,16,52,131 ; movss (%r11,%rax,4),%xmm6
+ DB 243,67,15,16,36,147 ; movss (%r11,%r10,4),%xmm4
DB 15,20,244 ; unpcklps %xmm4,%xmm6
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,231 ; unpcklps %xmm7,%xmm4
DB 15,20,230 ; unpcklps %xmm6,%xmm4
DB 102,65,15,111,211 ; movdqa %xmm11,%xmm2
@@ -32825,52 +32748,52 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,255,232 ; pshufd $0xe8,%xmm7,%xmm7
DB 102,15,98,247 ; punpckldq %xmm7,%xmm6
DB 102,15,112,254,229 ; pshufd $0xe5,%xmm6,%xmm7
- DB 102,65,15,126,250 ; movd %xmm7,%r10d
- DB 102,15,112,254,78 ; pshufd $0x4e,%xmm6,%xmm7
DB 102,65,15,126,249 ; movd %xmm7,%r9d
+ DB 102,15,112,254,78 ; pshufd $0x4e,%xmm6,%xmm7
+ DB 102,65,15,126,248 ; movd %xmm7,%r8d
DB 102,15,112,254,231 ; pshufd $0xe7,%xmm6,%xmm7
DB 102,15,126,248 ; movd %xmm7,%eax
- DB 243,15,16,60,131 ; movss (%rbx,%rax,4),%xmm7
- DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
+ DB 243,65,15,16,60,131 ; movss (%r11,%rax,4),%xmm7
+ DB 243,67,15,16,20,139 ; movss (%r11,%r9,4),%xmm2
DB 15,20,215 ; unpcklps %xmm7,%xmm2
DB 102,15,126,240 ; movd %xmm6,%eax
- DB 243,68,15,16,36,131 ; movss (%rbx,%rax,4),%xmm12
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 243,69,15,16,36,131 ; movss (%r11,%rax,4),%xmm12
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 68,15,20,231 ; unpcklps %xmm7,%xmm12
DB 68,15,20,226 ; unpcklps %xmm2,%xmm12
DB 102,15,111,214 ; movdqa %xmm6,%xmm2
DB 102,65,15,254,210 ; paddd %xmm10,%xmm2
DB 102,15,112,250,78 ; pshufd $0x4e,%xmm2,%xmm7
- DB 102,73,15,126,249 ; movq %xmm7,%r9
- DB 102,73,15,126,210 ; movq %xmm2,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,248 ; movq %xmm7,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,60,155 ; movss (%rbx,%r11,4),%xmm7
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,60,147 ; movss (%r11,%r10,4),%xmm7
DB 15,20,215 ; unpcklps %xmm7,%xmm2
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,68,15,16,28,131 ; movss (%rbx,%rax,4),%xmm11
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,69,15,16,28,131 ; movss (%r11,%rax,4),%xmm11
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 68,15,20,223 ; unpcklps %xmm7,%xmm11
DB 68,15,20,218 ; unpcklps %xmm2,%xmm11
DB 102,65,15,254,241 ; paddd %xmm9,%xmm6
DB 102,15,112,214,78 ; pshufd $0x4e,%xmm6,%xmm2
- DB 102,73,15,126,209 ; movq %xmm2,%r9
- DB 102,73,15,126,242 ; movq %xmm6,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,208 ; movq %xmm2,%r8
+ DB 102,73,15,126,241 ; movq %xmm6,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,52,155 ; movss (%rbx,%r11,4),%xmm6
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,52,147 ; movss (%r11,%r10,4),%xmm6
DB 15,20,214 ; unpcklps %xmm6,%xmm2
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,68,15,16,20,131 ; movss (%rbx,%rax,4),%xmm10
- DB 243,66,15,16,52,139 ; movss (%rbx,%r9,4),%xmm6
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,69,15,16,20,131 ; movss (%r11,%rax,4),%xmm10
+ DB 243,67,15,16,52,131 ; movss (%r11,%r8,4),%xmm6
DB 68,15,20,214 ; unpcklps %xmm6,%xmm10
DB 68,15,20,210 ; unpcklps %xmm2,%xmm10
DB 69,15,92,230 ; subps %xmm14,%xmm12
@@ -32902,7 +32825,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,111,116,36,32 ; movdqa 0x20(%rsp),%xmm6
DB 102,15,254,198 ; paddd %xmm6,%xmm0
DB 102,15,112,200,245 ; pshufd $0xf5,%xmm0,%xmm1
- DB 102,15,111,29,153,168,0,0 ; movdqa 0xa899(%rip),%xmm3 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,29,56,169,0,0 ; movdqa 0xa938(%rip),%xmm3 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,244,195 ; pmuludq %xmm3,%xmm0
DB 102,15,112,208,232 ; pshufd $0xe8,%xmm0,%xmm2
DB 102,15,244,203 ; pmuludq %xmm3,%xmm1
@@ -32910,53 +32833,53 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,193,232 ; pshufd $0xe8,%xmm1,%xmm0
DB 102,15,98,208 ; punpckldq %xmm0,%xmm2
DB 102,15,112,194,229 ; pshufd $0xe5,%xmm2,%xmm0
- DB 102,65,15,126,194 ; movd %xmm0,%r10d
- DB 102,15,112,194,78 ; pshufd $0x4e,%xmm2,%xmm0
DB 102,65,15,126,193 ; movd %xmm0,%r9d
+ DB 102,15,112,194,78 ; pshufd $0x4e,%xmm2,%xmm0
+ DB 102,65,15,126,192 ; movd %xmm0,%r8d
DB 102,15,112,194,231 ; pshufd $0xe7,%xmm2,%xmm0
DB 102,15,126,192 ; movd %xmm0,%eax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,12,147 ; movss (%rbx,%r10,4),%xmm1
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,12,139 ; movss (%r11,%r9,4),%xmm1
DB 15,20,200 ; unpcklps %xmm0,%xmm1
DB 102,15,126,208 ; movd %xmm2,%eax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,28,139 ; movss (%rbx,%r9,4),%xmm3
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,28,131 ; movss (%r11,%r8,4),%xmm3
DB 15,20,195 ; unpcklps %xmm3,%xmm0
DB 15,20,193 ; unpcklps %xmm1,%xmm0
DB 102,15,111,202 ; movdqa %xmm2,%xmm1
- DB 102,68,15,111,5,161,161,0,0 ; movdqa 0xa1a1(%rip),%xmm8 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,68,15,111,5,62,162,0,0 ; movdqa 0xa23e(%rip),%xmm8 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,65,15,254,200 ; paddd %xmm8,%xmm1
DB 102,15,112,217,78 ; pshufd $0x4e,%xmm1,%xmm3
- DB 102,73,15,126,217 ; movq %xmm3,%r9
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,216 ; movq %xmm3,%r8
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,12,147 ; movss (%r11,%r10,4),%xmm1
DB 15,20,217 ; unpcklps %xmm1,%xmm3
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 15,20,204 ; unpcklps %xmm4,%xmm1
DB 15,20,203 ; unpcklps %xmm3,%xmm1
DB 102,65,15,254,209 ; paddd %xmm9,%xmm2
DB 102,15,112,218,78 ; pshufd $0x4e,%xmm2,%xmm3
- DB 102,73,15,126,217 ; movq %xmm3,%r9
- DB 102,73,15,126,210 ; movq %xmm2,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,216 ; movq %xmm3,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,20,147 ; movss (%r11,%r10,4),%xmm2
DB 15,20,218 ; unpcklps %xmm2,%xmm3
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 15,20,212 ; unpcklps %xmm4,%xmm2
DB 15,20,211 ; unpcklps %xmm3,%xmm2
DB 102,15,111,221 ; movdqa %xmm5,%xmm3
@@ -32968,53 +32891,53 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,228,232 ; pshufd $0xe8,%xmm4,%xmm4
DB 102,15,98,220 ; punpckldq %xmm4,%xmm3
DB 102,15,112,227,229 ; pshufd $0xe5,%xmm3,%xmm4
- DB 102,65,15,126,226 ; movd %xmm4,%r10d
- DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
DB 102,65,15,126,225 ; movd %xmm4,%r9d
+ DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
+ DB 102,65,15,126,224 ; movd %xmm4,%r8d
DB 102,15,112,227,231 ; pshufd $0xe7,%xmm3,%xmm4
DB 102,15,126,224 ; movd %xmm4,%eax
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,44,147 ; movss (%rbx,%r10,4),%xmm5
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,44,139 ; movss (%r11,%r9,4),%xmm5
DB 15,20,236 ; unpcklps %xmm4,%xmm5
DB 102,15,126,216 ; movd %xmm3,%eax
- DB 243,68,15,16,52,131 ; movss (%rbx,%rax,4),%xmm14
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 243,69,15,16,52,131 ; movss (%r11,%rax,4),%xmm14
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 68,15,20,244 ; unpcklps %xmm4,%xmm14
DB 68,15,20,245 ; unpcklps %xmm5,%xmm14
DB 102,15,111,227 ; movdqa %xmm3,%xmm4
DB 102,65,15,254,224 ; paddd %xmm8,%xmm4
DB 102,15,112,236,78 ; pshufd $0x4e,%xmm4,%xmm5
- DB 102,73,15,126,233 ; movq %xmm5,%r9
- DB 102,73,15,126,226 ; movq %xmm4,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,232 ; movq %xmm5,%r8
+ DB 102,73,15,126,225 ; movq %xmm4,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,44,155 ; movss (%rbx,%r11,4),%xmm5
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,44,147 ; movss (%r11,%r10,4),%xmm5
DB 15,20,229 ; unpcklps %xmm5,%xmm4
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,68,15,16,4,131 ; movss (%rbx,%rax,4),%xmm8
- DB 243,66,15,16,44,139 ; movss (%rbx,%r9,4),%xmm5
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,69,15,16,4,131 ; movss (%r11,%rax,4),%xmm8
+ DB 243,67,15,16,44,131 ; movss (%r11,%r8,4),%xmm5
DB 68,15,20,197 ; unpcklps %xmm5,%xmm8
DB 68,15,20,196 ; unpcklps %xmm4,%xmm8
DB 102,65,15,254,217 ; paddd %xmm9,%xmm3
DB 102,69,15,111,249 ; movdqa %xmm9,%xmm15
DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
- DB 102,73,15,126,225 ; movq %xmm4,%r9
- DB 102,73,15,126,218 ; movq %xmm3,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,224 ; movq %xmm4,%r8
+ DB 102,73,15,126,217 ; movq %xmm3,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,36,155 ; movss (%rbx,%r11,4),%xmm4
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,36,147 ; movss (%r11,%r10,4),%xmm4
DB 15,20,220 ; unpcklps %xmm4,%xmm3
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,44,131 ; movss (%rbx,%rax,4),%xmm5
- DB 243,66,15,16,36,139 ; movss (%rbx,%r9,4),%xmm4
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,44,131 ; movss (%r11,%rax,4),%xmm5
+ DB 243,67,15,16,36,131 ; movss (%r11,%r8,4),%xmm4
DB 15,20,236 ; unpcklps %xmm4,%xmm5
DB 15,20,235 ; unpcklps %xmm3,%xmm5
DB 68,15,92,240 ; subps %xmm0,%xmm14
@@ -33030,7 +32953,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,254,60,36 ; paddd (%rsp),%xmm7
DB 102,15,254,247 ; paddd %xmm7,%xmm6
DB 102,15,112,206,245 ; pshufd $0xf5,%xmm6,%xmm1
- DB 102,15,111,21,100,166,0,0 ; movdqa 0xa664(%rip),%xmm2 # 2d130 <_sk_overlay_sse2_8bit+0x14e3>
+ DB 102,15,111,21,249,166,0,0 ; movdqa 0xa6f9(%rip),%xmm2 # 2d1e0 <_sk_overlay_sse2_8bit+0x156b>
DB 102,15,244,242 ; pmuludq %xmm2,%xmm6
DB 102,15,112,198,232 ; pshufd $0xe8,%xmm6,%xmm0
DB 102,15,244,202 ; pmuludq %xmm2,%xmm1
@@ -33038,52 +32961,52 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,98,193 ; punpckldq %xmm1,%xmm0
DB 102,15,112,200,229 ; pshufd $0xe5,%xmm0,%xmm1
- DB 102,65,15,126,202 ; movd %xmm1,%r10d
- DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,65,15,126,201 ; movd %xmm1,%r9d
+ DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
+ DB 102,65,15,126,200 ; movd %xmm1,%r8d
DB 102,15,112,200,231 ; pshufd $0xe7,%xmm0,%xmm1
DB 102,15,126,200 ; movd %xmm1,%eax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,20,147 ; movss (%rbx,%r10,4),%xmm2
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,20,139 ; movss (%r11,%r9,4),%xmm2
DB 15,20,209 ; unpcklps %xmm1,%xmm2
DB 102,15,126,192 ; movd %xmm0,%eax
- DB 243,68,15,16,12,131 ; movss (%rbx,%rax,4),%xmm9
- DB 243,66,15,16,12,139 ; movss (%rbx,%r9,4),%xmm1
+ DB 243,69,15,16,12,131 ; movss (%r11,%rax,4),%xmm9
+ DB 243,67,15,16,12,131 ; movss (%r11,%r8,4),%xmm1
DB 68,15,20,201 ; unpcklps %xmm1,%xmm9
DB 68,15,20,202 ; unpcklps %xmm2,%xmm9
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
- DB 102,15,254,13,107,159,0,0 ; paddd 0x9f6b(%rip),%xmm1 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,254,13,255,159,0,0 ; paddd 0x9fff(%rip),%xmm1 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
- DB 102,73,15,126,209 ; movq %xmm2,%r9
- DB 102,73,15,126,202 ; movq %xmm1,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,208 ; movq %xmm2,%r8
+ DB 102,73,15,126,201 ; movq %xmm1,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,67,15,16,20,147 ; movss (%r11,%r10,4),%xmm2
DB 15,20,202 ; unpcklps %xmm2,%xmm1
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,36,131 ; movss (%rbx,%rax,4),%xmm4
- DB 243,66,15,16,20,139 ; movss (%rbx,%r9,4),%xmm2
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,36,131 ; movss (%r11,%rax,4),%xmm4
+ DB 243,67,15,16,20,131 ; movss (%r11,%r8,4),%xmm2
DB 15,20,226 ; unpcklps %xmm2,%xmm4
DB 15,20,225 ; unpcklps %xmm1,%xmm4
DB 102,65,15,254,199 ; paddd %xmm15,%xmm0
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
- DB 102,73,15,126,201 ; movq %xmm1,%r9
- DB 102,73,15,126,194 ; movq %xmm0,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,200 ; movq %xmm1,%r8
+ DB 102,73,15,126,193 ; movq %xmm0,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,12,147 ; movss (%r11,%r10,4),%xmm1
DB 15,20,193 ; unpcklps %xmm1,%xmm0
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,28,131 ; movss (%rbx,%rax,4),%xmm3
- DB 243,66,15,16,12,139 ; movss (%rbx,%r9,4),%xmm1
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,28,131 ; movss (%r11,%rax,4),%xmm3
+ DB 243,67,15,16,12,131 ; movss (%r11,%r8,4),%xmm1
DB 15,20,217 ; unpcklps %xmm1,%xmm3
DB 15,20,216 ; unpcklps %xmm0,%xmm3
DB 102,68,15,111,255 ; movdqa %xmm7,%xmm15
@@ -33095,52 +33018,52 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,192,232 ; pshufd $0xe8,%xmm0,%xmm0
DB 102,15,98,208 ; punpckldq %xmm0,%xmm2
DB 102,15,112,194,229 ; pshufd $0xe5,%xmm2,%xmm0
- DB 102,65,15,126,194 ; movd %xmm0,%r10d
- DB 102,15,112,194,78 ; pshufd $0x4e,%xmm2,%xmm0
DB 102,65,15,126,193 ; movd %xmm0,%r9d
+ DB 102,15,112,194,78 ; pshufd $0x4e,%xmm2,%xmm0
+ DB 102,65,15,126,192 ; movd %xmm0,%r8d
DB 102,15,112,194,231 ; pshufd $0xe7,%xmm2,%xmm0
DB 102,15,126,192 ; movd %xmm0,%eax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,12,147 ; movss (%rbx,%r10,4),%xmm1
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,12,139 ; movss (%r11,%r9,4),%xmm1
DB 15,20,200 ; unpcklps %xmm0,%xmm1
DB 102,15,126,208 ; movd %xmm2,%eax
- DB 243,15,16,4,131 ; movss (%rbx,%rax,4),%xmm0
- DB 243,66,15,16,60,139 ; movss (%rbx,%r9,4),%xmm7
+ DB 243,65,15,16,4,131 ; movss (%r11,%rax,4),%xmm0
+ DB 243,67,15,16,60,131 ; movss (%r11,%r8,4),%xmm7
DB 15,20,199 ; unpcklps %xmm7,%xmm0
DB 15,20,193 ; unpcklps %xmm1,%xmm0
- DB 102,15,111,53,109,158,0,0 ; movdqa 0x9e6d(%rip),%xmm6 # 2caa0 <_sk_overlay_sse2_8bit+0xe53>
+ DB 102,15,111,53,251,158,0,0 ; movdqa 0x9efb(%rip),%xmm6 # 2cb50 <_sk_overlay_sse2_8bit+0xedb>
DB 102,15,254,242 ; paddd %xmm2,%xmm6
DB 102,15,112,206,78 ; pshufd $0x4e,%xmm6,%xmm1
- DB 102,73,15,126,201 ; movq %xmm1,%r9
- DB 102,73,15,126,242 ; movq %xmm6,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,200 ; movq %xmm1,%r8
+ DB 102,73,15,126,241 ; movq %xmm6,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,60,131 ; movss (%rbx,%rax,4),%xmm7
- DB 243,66,15,16,12,155 ; movss (%rbx,%r11,4),%xmm1
+ DB 243,65,15,16,60,131 ; movss (%r11,%rax,4),%xmm7
+ DB 243,67,15,16,12,147 ; movss (%r11,%r10,4),%xmm1
DB 15,20,249 ; unpcklps %xmm1,%xmm7
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,12,131 ; movss (%rbx,%rax,4),%xmm1
- DB 243,70,15,16,60,139 ; movss (%rbx,%r9,4),%xmm15
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,12,131 ; movss (%r11,%rax,4),%xmm1
+ DB 243,71,15,16,60,131 ; movss (%r11,%r8,4),%xmm15
DB 65,15,20,207 ; unpcklps %xmm15,%xmm1
DB 15,20,207 ; unpcklps %xmm7,%xmm1
- DB 102,15,254,21,62,158,0,0 ; paddd 0x9e3e(%rip),%xmm2 # 2cac0 <_sk_overlay_sse2_8bit+0xe73>
+ DB 102,15,254,21,202,158,0,0 ; paddd 0x9eca(%rip),%xmm2 # 2cb70 <_sk_overlay_sse2_8bit+0xefb>
DB 102,15,112,250,78 ; pshufd $0x4e,%xmm2,%xmm7
- DB 102,73,15,126,249 ; movq %xmm7,%r9
- DB 102,73,15,126,210 ; movq %xmm2,%r10
- DB 77,137,203 ; mov %r9,%r11
- DB 73,193,235,32 ; shr $0x20,%r11
- DB 76,137,208 ; mov %r10,%rax
+ DB 102,73,15,126,248 ; movq %xmm7,%r8
+ DB 102,73,15,126,209 ; movq %xmm2,%r9
+ DB 77,137,194 ; mov %r8,%r10
+ DB 73,193,234,32 ; shr $0x20,%r10
+ DB 76,137,200 ; mov %r9,%rax
DB 72,193,232,32 ; shr $0x20,%rax
- DB 243,15,16,60,131 ; movss (%rbx,%rax,4),%xmm7
- DB 243,66,15,16,20,155 ; movss (%rbx,%r11,4),%xmm2
+ DB 243,65,15,16,60,131 ; movss (%r11,%rax,4),%xmm7
+ DB 243,67,15,16,20,147 ; movss (%r11,%r10,4),%xmm2
DB 15,20,250 ; unpcklps %xmm2,%xmm7
- DB 68,137,208 ; mov %r10d,%eax
- DB 69,137,201 ; mov %r9d,%r9d
- DB 243,15,16,20,131 ; movss (%rbx,%rax,4),%xmm2
- DB 243,66,15,16,52,139 ; movss (%rbx,%r9,4),%xmm6
+ DB 68,137,200 ; mov %r9d,%eax
+ DB 69,137,192 ; mov %r8d,%r8d
+ DB 243,65,15,16,20,131 ; movss (%r11,%rax,4),%xmm2
+ DB 243,67,15,16,52,131 ; movss (%r11,%r8,4),%xmm6
DB 15,20,214 ; unpcklps %xmm6,%xmm2
DB 15,20,215 ; unpcklps %xmm7,%xmm2
DB 65,15,92,193 ; subps %xmm9,%xmm0
@@ -33188,14 +33111,16 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,89,212 ; mulps %xmm4,%xmm2
DB 65,15,88,213 ; addps %xmm13,%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,29,26,157,0,0 ; movaps 0x9d1a(%rip),%xmm3 # 2ca90 <_sk_overlay_sse2_8bit+0xe43>
+ DB 15,40,29,164,157,0,0 ; movaps 0x9da4(%rip),%xmm3 # 2cb40 <_sk_overlay_sse2_8bit+0xecb>
DB 15,40,164,36,240,0,0,0 ; movaps 0xf0(%rsp),%xmm4
DB 15,40,172,36,0,1,0,0 ; movaps 0x100(%rsp),%xmm5
DB 15,40,180,36,16,1,0,0 ; movaps 0x110(%rsp),%xmm6
DB 15,40,188,36,32,1,0,0 ; movaps 0x120(%rsp),%xmm7
- DB 72,129,196,48,1,0,0 ; add $0x130,%rsp
- DB 91 ; pop %rbx
+ DB 72,129,196,56,1,0,0 ; add $0x138,%rsp
DB 255,224 ; jmpq *%rax
+ DB 144 ; nop
+ DB 144 ; nop
+ DB 144 ; nop
PUBLIC _sk_start_pipeline_hsw_8bit
_sk_start_pipeline_hsw_8bit LABEL PROC
@@ -33228,7 +33153,7 @@ _sk_start_pipeline_hsw_8bit LABEL PROC
DB 73,137,246 ; mov %rsi,%r14
DB 76,137,141,240,254,255,255 ; mov %r9,-0x110(%rbp)
DB 77,57,207 ; cmp %r9,%r15
- DB 15,131,138,0,0,0 ; jae 22ead <_sk_start_pipeline_hsw_8bit+0x10d>
+ DB 15,131,138,0,0,0 ; jae 22ed5 <_sk_start_pipeline_hsw_8bit+0x10d>
DB 72,139,133,24,255,255,255 ; mov -0xe8(%rbp),%rax
DB 72,141,64,16 ; lea 0x10(%rax),%rax
DB 72,137,133,248,254,255,255 ; mov %rax,-0x108(%rbp)
@@ -33238,7 +33163,7 @@ _sk_start_pipeline_hsw_8bit LABEL PROC
DB 76,137,189,8,255,255,255 ; mov %r15,-0xf8(%rbp)
DB 72,199,133,16,255,255,255,0,0,0,0 ; movq $0x0,-0xf0(%rbp)
DB 72,57,157,248,254,255,255 ; cmp %rbx,-0x108(%rbp)
- DB 119,36 ; ja 22e89 <_sk_start_pipeline_hsw_8bit+0xe9>
+ DB 119,36 ; ja 22eb1 <_sk_start_pipeline_hsw_8bit+0xe9>
DB 76,137,231 ; mov %r12,%rdi
DB 76,137,246 ; mov %r14,%rsi
DB 65,255,213 ; callq *%r13
@@ -33247,17 +33172,17 @@ _sk_start_pipeline_hsw_8bit LABEL PROC
DB 72,137,133,0,255,255,255 ; mov %rax,-0x100(%rbp)
DB 72,131,193,32 ; add $0x20,%rcx
DB 72,57,217 ; cmp %rbx,%rcx
- DB 118,220 ; jbe 22e65 <_sk_start_pipeline_hsw_8bit+0xc5>
+ DB 118,220 ; jbe 22e8d <_sk_start_pipeline_hsw_8bit+0xc5>
DB 72,137,217 ; mov %rbx,%rcx
DB 72,41,193 ; sub %rax,%rcx
- DB 116,16 ; je 22ea1 <_sk_start_pipeline_hsw_8bit+0x101>
+ DB 116,16 ; je 22ec9 <_sk_start_pipeline_hsw_8bit+0x101>
DB 72,137,141,16,255,255,255 ; mov %rcx,-0xf0(%rbp)
DB 76,137,231 ; mov %r12,%rdi
DB 76,137,246 ; mov %r14,%rsi
DB 65,255,213 ; callq *%r13
DB 73,255,199 ; inc %r15
DB 76,59,189,240,254,255,255 ; cmp -0x110(%rbp),%r15
- DB 117,143 ; jne 22e3c <_sk_start_pipeline_hsw_8bit+0x9c>
+ DB 117,143 ; jne 22e64 <_sk_start_pipeline_hsw_8bit+0x9c>
DB 197,248,40,181,32,255,255,255 ; vmovaps -0xe0(%rbp),%xmm6
DB 197,248,40,189,48,255,255,255 ; vmovaps -0xd0(%rbp),%xmm7
DB 197,120,40,133,64,255,255,255 ; vmovaps -0xc0(%rbp),%xmm8
@@ -33295,7 +33220,7 @@ _sk_uniform_color_hsw_8bit LABEL PROC
PUBLIC _sk_set_rgb_hsw_8bit
_sk_set_rgb_hsw_8bit LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 197,250,16,37,197,145,0,0 ; vmovss 0x91c5(%rip),%xmm4 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 197,250,16,37,197,145,0,0 ; vmovss 0x91c5(%rip),%xmm4 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 197,218,89,40 ; vmulss (%rax),%xmm4,%xmm5
DB 196,225,250,44,205 ; vcvttss2si %xmm5,%rcx
DB 197,218,89,104,4 ; vmulss 0x4(%rax),%xmm4,%xmm5
@@ -33308,7 +33233,7 @@ _sk_set_rgb_hsw_8bit LABEL PROC
DB 9,208 ; or %edx,%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
DB 196,226,125,88,228 ; vpbroadcastd %xmm4,%ymm4
- DB 197,253,111,45,5,151,0,0 ; vmovdqa 0x9705(%rip),%ymm5 # 2c660 <_sk_overlay_sse2_8bit+0xa13>
+ DB 197,253,111,45,93,151,0,0 ; vmovdqa 0x975d(%rip),%ymm5 # 2c6e0 <_sk_overlay_sse2_8bit+0xa6b>
DB 197,245,219,205 ; vpand %ymm5,%ymm1,%ymm1
DB 197,253,219,197 ; vpand %ymm5,%ymm0,%ymm0
DB 197,221,235,192 ; vpor %ymm0,%ymm4,%ymm0
@@ -33318,10 +33243,10 @@ _sk_set_rgb_hsw_8bit LABEL PROC
PUBLIC _sk_premul_hsw_8bit
_sk_premul_hsw_8bit LABEL PROC
- DB 197,253,111,37,9,151,0,0 ; vmovdqa 0x9709(%rip),%ymm4 # 2c680 <_sk_overlay_sse2_8bit+0xa33>
+ DB 197,253,111,37,97,151,0,0 ; vmovdqa 0x9761(%rip),%ymm4 # 2c700 <_sk_overlay_sse2_8bit+0xa8b>
DB 196,226,125,0,236 ; vpshufb %ymm4,%ymm0,%ymm5
DB 196,226,117,0,228 ; vpshufb %ymm4,%ymm1,%ymm4
- DB 197,253,111,53,23,151,0,0 ; vmovdqa 0x9717(%rip),%ymm6 # 2c6a0 <_sk_overlay_sse2_8bit+0xa53>
+ DB 197,253,111,53,111,151,0,0 ; vmovdqa 0x976f(%rip),%ymm6 # 2c720 <_sk_overlay_sse2_8bit+0xaab>
DB 197,221,235,230 ; vpor %ymm6,%ymm4,%ymm4
DB 197,213,235,238 ; vpor %ymm6,%ymm5,%ymm5
DB 196,226,125,48,240 ; vpmovzxbw %xmm0,%ymm6
@@ -33359,7 +33284,7 @@ _sk_premul_hsw_8bit LABEL PROC
PUBLIC _sk_swap_rb_hsw_8bit
_sk_swap_rb_hsw_8bit LABEL PROC
- DB 197,253,111,37,143,150,0,0 ; vmovdqa 0x968f(%rip),%ymm4 # 2c6c0 <_sk_overlay_sse2_8bit+0xa73>
+ DB 197,253,111,37,231,150,0,0 ; vmovdqa 0x96e7(%rip),%ymm4 # 2c740 <_sk_overlay_sse2_8bit+0xacb>
DB 196,226,125,0,196 ; vpshufb %ymm4,%ymm0,%ymm0
DB 196,226,117,0,204 ; vpshufb %ymm4,%ymm1,%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -33384,7 +33309,7 @@ _sk_load_8888_hsw_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,17 ; jne 23081 <_sk_load_8888_hsw_8bit+0x32>
+ DB 117,17 ; jne 230a9 <_sk_load_8888_hsw_8bit+0x32>
DB 196,161,126,111,76,130,32 ; vmovdqu 0x20(%rdx,%r8,4),%ymm1
DB 196,161,126,111,4,130 ; vmovdqu (%rdx,%r8,4),%ymm0
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -33394,14 +33319,14 @@ _sk_load_8888_hsw_8bit LABEL PROC
DB 197,253,239,192 ; vpxor %ymm0,%ymm0,%ymm0
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,231 ; ja 2307d <_sk_load_8888_hsw_8bit+0x2e>
+ DB 119,231 ; ja 230a5 <_sk_load_8888_hsw_8bit+0x2e>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,23,1,0,0 ; lea 0x117(%rip),%rcx # 231b8 <_sk_load_8888_hsw_8bit+0x169>
+ DB 72,141,13,23,1,0,0 ; lea 0x117(%rip),%rcx # 231e0 <_sk_load_8888_hsw_8bit+0x169>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 196,161,121,110,4,130 ; vmovd (%rdx,%r8,4),%xmm0
- DB 235,203 ; jmp 2307d <_sk_load_8888_hsw_8bit+0x2e>
+ DB 235,203 ; jmp 230a5 <_sk_load_8888_hsw_8bit+0x2e>
DB 196,161,121,110,68,130,8 ; vmovd 0x8(%rdx,%r8,4),%xmm0
DB 196,226,121,89,192 ; vpbroadcastq %xmm0,%xmm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
@@ -33409,7 +33334,7 @@ _sk_load_8888_hsw_8bit LABEL PROC
DB 196,162,121,53,36,130 ; vpmovzxdq (%rdx,%r8,4),%xmm4
DB 197,249,112,228,232 ; vpshufd $0xe8,%xmm4,%xmm4
DB 196,227,125,2,196,3 ; vpblendd $0x3,%ymm4,%ymm0,%ymm0
- DB 235,162 ; jmp 2307d <_sk_load_8888_hsw_8bit+0x2e>
+ DB 235,162 ; jmp 230a5 <_sk_load_8888_hsw_8bit+0x2e>
DB 196,161,121,110,68,130,24 ; vmovd 0x18(%rdx,%r8,4),%xmm0
DB 196,226,125,89,192 ; vpbroadcastq %xmm0,%ymm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
@@ -33422,7 +33347,7 @@ _sk_load_8888_hsw_8bit LABEL PROC
DB 196,227,125,56,196,1 ; vinserti128 $0x1,%xmm4,%ymm0,%ymm0
DB 196,161,122,111,36,130 ; vmovdqu (%rdx,%r8,4),%xmm4
DB 196,227,93,2,192,240 ; vpblendd $0xf0,%ymm0,%ymm4,%ymm0
- DB 233,83,255,255,255 ; jmpq 2307d <_sk_load_8888_hsw_8bit+0x2e>
+ DB 233,83,255,255,255 ; jmpq 230a5 <_sk_load_8888_hsw_8bit+0x2e>
DB 196,161,121,110,68,130,40 ; vmovd 0x28(%rdx,%r8,4),%xmm0
DB 196,226,121,89,192 ; vpbroadcastq %xmm0,%xmm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
@@ -33431,7 +33356,7 @@ _sk_load_8888_hsw_8bit LABEL PROC
DB 196,227,117,2,200,15 ; vpblendd $0xf,%ymm0,%ymm1,%ymm1
DB 196,161,121,110,68,130,32 ; vmovd 0x20(%rdx,%r8,4),%xmm0
DB 196,227,117,2,200,1 ; vpblendd $0x1,%ymm0,%ymm1,%ymm1
- DB 233,23,255,255,255 ; jmpq 23077 <_sk_load_8888_hsw_8bit+0x28>
+ DB 233,23,255,255,255 ; jmpq 2309f <_sk_load_8888_hsw_8bit+0x28>
DB 196,161,121,110,68,130,56 ; vmovd 0x38(%rdx,%r8,4),%xmm0
DB 196,226,125,89,192 ; vpbroadcastq %xmm0,%ymm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
@@ -33445,7 +33370,7 @@ _sk_load_8888_hsw_8bit LABEL PROC
DB 196,161,126,111,4,130 ; vmovdqu (%rdx,%r8,4),%ymm0
DB 196,161,122,111,100,130,32 ; vmovdqu 0x20(%rdx,%r8,4),%xmm4
DB 196,227,93,2,201,240 ; vpblendd $0xf0,%ymm1,%ymm4,%ymm1
- DB 233,199,254,255,255 ; jmpq 2307d <_sk_load_8888_hsw_8bit+0x2e>
+ DB 233,199,254,255,255 ; jmpq 230a5 <_sk_load_8888_hsw_8bit+0x2e>
DB 102,144 ; xchg %ax,%ax
DB 242,254 ; repnz (bad)
DB 255 ; (bad)
@@ -33496,7 +33421,7 @@ _sk_load_8888_dst_hsw_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,17 ; jne 23226 <_sk_load_8888_dst_hsw_8bit+0x32>
+ DB 117,17 ; jne 2324e <_sk_load_8888_dst_hsw_8bit+0x32>
DB 196,161,126,111,92,130,32 ; vmovdqu 0x20(%rdx,%r8,4),%ymm3
DB 196,161,126,111,20,130 ; vmovdqu (%rdx,%r8,4),%ymm2
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -33506,14 +33431,14 @@ _sk_load_8888_dst_hsw_8bit LABEL PROC
DB 197,237,239,210 ; vpxor %ymm2,%ymm2,%ymm2
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,231 ; ja 23222 <_sk_load_8888_dst_hsw_8bit+0x2e>
+ DB 119,231 ; ja 2324a <_sk_load_8888_dst_hsw_8bit+0x2e>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,22,1,0,0 ; lea 0x116(%rip),%rcx # 2335c <_sk_load_8888_dst_hsw_8bit+0x168>
+ DB 72,141,13,22,1,0,0 ; lea 0x116(%rip),%rcx # 23384 <_sk_load_8888_dst_hsw_8bit+0x168>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 196,161,121,110,20,130 ; vmovd (%rdx,%r8,4),%xmm2
- DB 235,203 ; jmp 23222 <_sk_load_8888_dst_hsw_8bit+0x2e>
+ DB 235,203 ; jmp 2324a <_sk_load_8888_dst_hsw_8bit+0x2e>
DB 196,161,121,110,84,130,8 ; vmovd 0x8(%rdx,%r8,4),%xmm2
DB 196,226,121,89,210 ; vpbroadcastq %xmm2,%xmm2
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
@@ -33521,7 +33446,7 @@ _sk_load_8888_dst_hsw_8bit LABEL PROC
DB 196,162,121,53,36,130 ; vpmovzxdq (%rdx,%r8,4),%xmm4
DB 197,249,112,228,232 ; vpshufd $0xe8,%xmm4,%xmm4
DB 196,227,109,2,212,3 ; vpblendd $0x3,%ymm4,%ymm2,%ymm2
- DB 235,162 ; jmp 23222 <_sk_load_8888_dst_hsw_8bit+0x2e>
+ DB 235,162 ; jmp 2324a <_sk_load_8888_dst_hsw_8bit+0x2e>
DB 196,161,121,110,84,130,24 ; vmovd 0x18(%rdx,%r8,4),%xmm2
DB 196,226,125,89,210 ; vpbroadcastq %xmm2,%ymm2
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
@@ -33534,7 +33459,7 @@ _sk_load_8888_dst_hsw_8bit LABEL PROC
DB 196,227,109,56,212,1 ; vinserti128 $0x1,%xmm4,%ymm2,%ymm2
DB 196,161,122,111,36,130 ; vmovdqu (%rdx,%r8,4),%xmm4
DB 196,227,93,2,210,240 ; vpblendd $0xf0,%ymm2,%ymm4,%ymm2
- DB 233,83,255,255,255 ; jmpq 23222 <_sk_load_8888_dst_hsw_8bit+0x2e>
+ DB 233,83,255,255,255 ; jmpq 2324a <_sk_load_8888_dst_hsw_8bit+0x2e>
DB 196,161,121,110,84,130,40 ; vmovd 0x28(%rdx,%r8,4),%xmm2
DB 196,226,121,89,210 ; vpbroadcastq %xmm2,%xmm2
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
@@ -33543,7 +33468,7 @@ _sk_load_8888_dst_hsw_8bit LABEL PROC
DB 196,227,101,2,218,15 ; vpblendd $0xf,%ymm2,%ymm3,%ymm3
DB 196,161,121,110,84,130,32 ; vmovd 0x20(%rdx,%r8,4),%xmm2
DB 196,227,101,2,218,1 ; vpblendd $0x1,%ymm2,%ymm3,%ymm3
- DB 233,23,255,255,255 ; jmpq 2321c <_sk_load_8888_dst_hsw_8bit+0x28>
+ DB 233,23,255,255,255 ; jmpq 23244 <_sk_load_8888_dst_hsw_8bit+0x28>
DB 196,161,121,110,84,130,56 ; vmovd 0x38(%rdx,%r8,4),%xmm2
DB 196,226,125,89,210 ; vpbroadcastq %xmm2,%ymm2
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
@@ -33557,7 +33482,7 @@ _sk_load_8888_dst_hsw_8bit LABEL PROC
DB 196,161,126,111,20,130 ; vmovdqu (%rdx,%r8,4),%ymm2
DB 196,161,122,111,100,130,32 ; vmovdqu 0x20(%rdx,%r8,4),%xmm4
DB 196,227,93,2,219,240 ; vpblendd $0xf0,%ymm3,%ymm4,%ymm3
- DB 233,199,254,255,255 ; jmpq 23222 <_sk_load_8888_dst_hsw_8bit+0x2e>
+ DB 233,199,254,255,255 ; jmpq 2324a <_sk_load_8888_dst_hsw_8bit+0x2e>
DB 144 ; nop
DB 243,254 ; repz (bad)
DB 255 ; (bad)
@@ -33608,7 +33533,7 @@ _sk_store_8888_hsw_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,17 ; jne 233ca <_sk_store_8888_hsw_8bit+0x32>
+ DB 117,17 ; jne 233f2 <_sk_store_8888_hsw_8bit+0x32>
DB 196,161,126,127,4,130 ; vmovdqu %ymm0,(%rdx,%r8,4)
DB 196,161,126,127,76,130,32 ; vmovdqu %ymm1,0x20(%rdx,%r8,4)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -33616,17 +33541,17 @@ _sk_store_8888_hsw_8bit LABEL PROC
DB 65,128,225,15 ; and $0xf,%r9b
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,239 ; ja 233c6 <_sk_store_8888_hsw_8bit+0x2e>
+ DB 119,239 ; ja 233ee <_sk_store_8888_hsw_8bit+0x2e>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,178,0,0,0 ; lea 0xb2(%rip),%rcx # 23494 <_sk_store_8888_hsw_8bit+0xfc>
+ DB 72,141,13,178,0,0,0 ; lea 0xb2(%rip),%rcx # 234bc <_sk_store_8888_hsw_8bit+0xfc>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 196,161,121,126,4,130 ; vmovd %xmm0,(%rdx,%r8,4)
- DB 235,211 ; jmp 233c6 <_sk_store_8888_hsw_8bit+0x2e>
+ DB 235,211 ; jmp 233ee <_sk_store_8888_hsw_8bit+0x2e>
DB 196,163,121,22,68,130,8,2 ; vpextrd $0x2,%xmm0,0x8(%rdx,%r8,4)
DB 196,161,121,214,4,130 ; vmovq %xmm0,(%rdx,%r8,4)
- DB 235,195 ; jmp 233c6 <_sk_store_8888_hsw_8bit+0x2e>
+ DB 235,195 ; jmp 233ee <_sk_store_8888_hsw_8bit+0x2e>
DB 196,227,125,57,196,1 ; vextracti128 $0x1,%ymm0,%xmm4
DB 196,163,121,22,100,130,24,2 ; vpextrd $0x2,%xmm4,0x18(%rdx,%r8,4)
DB 196,227,125,57,196,1 ; vextracti128 $0x1,%ymm0,%xmm4
@@ -33634,12 +33559,12 @@ _sk_store_8888_hsw_8bit LABEL PROC
DB 196,227,125,57,196,1 ; vextracti128 $0x1,%ymm0,%xmm4
DB 196,161,121,126,100,130,16 ; vmovd %xmm4,0x10(%rdx,%r8,4)
DB 196,161,122,127,4,130 ; vmovdqu %xmm0,(%rdx,%r8,4)
- DB 235,146 ; jmp 233c6 <_sk_store_8888_hsw_8bit+0x2e>
+ DB 235,146 ; jmp 233ee <_sk_store_8888_hsw_8bit+0x2e>
DB 196,163,121,22,76,130,40,2 ; vpextrd $0x2,%xmm1,0x28(%rdx,%r8,4)
DB 196,163,121,22,76,130,36,1 ; vpextrd $0x1,%xmm1,0x24(%rdx,%r8,4)
DB 196,161,121,126,76,130,32 ; vmovd %xmm1,0x20(%rdx,%r8,4)
DB 196,161,126,127,4,130 ; vmovdqu %ymm0,(%rdx,%r8,4)
- DB 233,112,255,255,255 ; jmpq 233c6 <_sk_store_8888_hsw_8bit+0x2e>
+ DB 233,112,255,255,255 ; jmpq 233ee <_sk_store_8888_hsw_8bit+0x2e>
DB 196,227,125,57,204,1 ; vextracti128 $0x1,%ymm1,%xmm4
DB 196,163,121,22,100,130,56,2 ; vpextrd $0x2,%xmm4,0x38(%rdx,%r8,4)
DB 196,227,125,57,204,1 ; vextracti128 $0x1,%ymm1,%xmm4
@@ -33648,7 +33573,7 @@ _sk_store_8888_hsw_8bit LABEL PROC
DB 196,161,121,126,100,130,48 ; vmovd %xmm4,0x30(%rdx,%r8,4)
DB 196,161,126,127,4,130 ; vmovdqu %ymm0,(%rdx,%r8,4)
DB 196,161,122,127,76,130,32 ; vmovdqu %xmm1,0x20(%rdx,%r8,4)
- DB 233,53,255,255,255 ; jmpq 233c6 <_sk_store_8888_hsw_8bit+0x2e>
+ DB 233,53,255,255,255 ; jmpq 233ee <_sk_store_8888_hsw_8bit+0x2e>
DB 15,31,0 ; nopl (%rax)
DB 87 ; push %rdi
DB 255 ; (bad)
@@ -33661,7 +33586,7 @@ _sk_store_8888_hsw_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 125,255 ; jge 234a9 <_sk_store_8888_hsw_8bit+0x111>
+ DB 125,255 ; jge 234d1 <_sk_store_8888_hsw_8bit+0x111>
DB 255 ; (bad)
DB 255,111,255 ; ljmp *-0x1(%rdi)
DB 255 ; (bad)
@@ -33672,7 +33597,7 @@ _sk_store_8888_hsw_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 235,255 ; jmp 234c1 <_sk_store_8888_hsw_8bit+0x129>
+ DB 235,255 ; jmp 234e9 <_sk_store_8888_hsw_8bit+0x129>
DB 255 ; (bad)
DB 255 ; (bad)
DB 222,255 ; fdivrp %st,%st(7)
@@ -33696,10 +33621,10 @@ _sk_load_bgra_hsw_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,35 ; jne 23514 <_sk_load_bgra_hsw_8bit+0x44>
+ DB 117,35 ; jne 2353c <_sk_load_bgra_hsw_8bit+0x44>
DB 196,161,126,111,76,130,32 ; vmovdqu 0x20(%rdx,%r8,4),%ymm1
DB 196,161,126,111,4,130 ; vmovdqu (%rdx,%r8,4),%ymm0
- DB 197,253,111,37,218,145,0,0 ; vmovdqa 0x91da(%rip),%ymm4 # 2c6e0 <_sk_overlay_sse2_8bit+0xa93>
+ DB 197,253,111,37,50,146,0,0 ; vmovdqa 0x9232(%rip),%ymm4 # 2c760 <_sk_overlay_sse2_8bit+0xaeb>
DB 196,226,125,0,196 ; vpshufb %ymm4,%ymm0,%ymm0
DB 196,226,117,0,204 ; vpshufb %ymm4,%ymm1,%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -33709,14 +33634,14 @@ _sk_load_bgra_hsw_8bit LABEL PROC
DB 197,253,239,192 ; vpxor %ymm0,%ymm0,%ymm0
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,213 ; ja 234fe <_sk_load_bgra_hsw_8bit+0x2e>
+ DB 119,213 ; ja 23526 <_sk_load_bgra_hsw_8bit+0x2e>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,24,1,0,0 ; lea 0x118(%rip),%rcx # 2364c <_sk_load_bgra_hsw_8bit+0x17c>
+ DB 72,141,13,24,1,0,0 ; lea 0x118(%rip),%rcx # 23674 <_sk_load_bgra_hsw_8bit+0x17c>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 196,161,121,110,4,130 ; vmovd (%rdx,%r8,4),%xmm0
- DB 235,185 ; jmp 234fe <_sk_load_bgra_hsw_8bit+0x2e>
+ DB 235,185 ; jmp 23526 <_sk_load_bgra_hsw_8bit+0x2e>
DB 196,161,121,110,68,130,8 ; vmovd 0x8(%rdx,%r8,4),%xmm0
DB 196,226,121,89,192 ; vpbroadcastq %xmm0,%xmm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
@@ -33724,7 +33649,7 @@ _sk_load_bgra_hsw_8bit LABEL PROC
DB 196,162,121,53,36,130 ; vpmovzxdq (%rdx,%r8,4),%xmm4
DB 197,249,112,228,232 ; vpshufd $0xe8,%xmm4,%xmm4
DB 196,227,125,2,196,3 ; vpblendd $0x3,%ymm4,%ymm0,%ymm0
- DB 235,144 ; jmp 234fe <_sk_load_bgra_hsw_8bit+0x2e>
+ DB 235,144 ; jmp 23526 <_sk_load_bgra_hsw_8bit+0x2e>
DB 196,161,121,110,68,130,24 ; vmovd 0x18(%rdx,%r8,4),%xmm0
DB 196,226,125,89,192 ; vpbroadcastq %xmm0,%ymm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
@@ -33737,7 +33662,7 @@ _sk_load_bgra_hsw_8bit LABEL PROC
DB 196,227,125,56,196,1 ; vinserti128 $0x1,%xmm4,%ymm0,%ymm0
DB 196,161,122,111,36,130 ; vmovdqu (%rdx,%r8,4),%xmm4
DB 196,227,93,2,192,240 ; vpblendd $0xf0,%ymm0,%ymm4,%ymm0
- DB 233,65,255,255,255 ; jmpq 234fe <_sk_load_bgra_hsw_8bit+0x2e>
+ DB 233,65,255,255,255 ; jmpq 23526 <_sk_load_bgra_hsw_8bit+0x2e>
DB 196,161,121,110,68,130,40 ; vmovd 0x28(%rdx,%r8,4),%xmm0
DB 196,226,121,89,192 ; vpbroadcastq %xmm0,%xmm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
@@ -33746,7 +33671,7 @@ _sk_load_bgra_hsw_8bit LABEL PROC
DB 196,227,117,2,200,15 ; vpblendd $0xf,%ymm0,%ymm1,%ymm1
DB 196,161,121,110,68,130,32 ; vmovd 0x20(%rdx,%r8,4),%xmm0
DB 196,227,117,2,200,1 ; vpblendd $0x1,%ymm0,%ymm1,%ymm1
- DB 233,5,255,255,255 ; jmpq 234f8 <_sk_load_bgra_hsw_8bit+0x28>
+ DB 233,5,255,255,255 ; jmpq 23520 <_sk_load_bgra_hsw_8bit+0x28>
DB 196,161,121,110,68,130,56 ; vmovd 0x38(%rdx,%r8,4),%xmm0
DB 196,226,125,89,192 ; vpbroadcastq %xmm0,%ymm0
DB 197,245,239,201 ; vpxor %ymm1,%ymm1,%ymm1
@@ -33760,7 +33685,7 @@ _sk_load_bgra_hsw_8bit LABEL PROC
DB 196,161,126,111,4,130 ; vmovdqu (%rdx,%r8,4),%ymm0
DB 196,161,122,111,100,130,32 ; vmovdqu 0x20(%rdx,%r8,4),%xmm4
DB 196,227,93,2,201,240 ; vpblendd $0xf0,%ymm1,%ymm4,%ymm1
- DB 233,181,254,255,255 ; jmpq 234fe <_sk_load_bgra_hsw_8bit+0x2e>
+ DB 233,181,254,255,255 ; jmpq 23526 <_sk_load_bgra_hsw_8bit+0x2e>
DB 15,31,0 ; nopl (%rax)
DB 241 ; icebp
DB 254 ; (bad)
@@ -33809,10 +33734,10 @@ _sk_load_bgra_dst_hsw_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,35 ; jne 236cc <_sk_load_bgra_dst_hsw_8bit+0x44>
+ DB 117,35 ; jne 236f4 <_sk_load_bgra_dst_hsw_8bit+0x44>
DB 196,161,126,111,92,130,32 ; vmovdqu 0x20(%rdx,%r8,4),%ymm3
DB 196,161,126,111,20,130 ; vmovdqu (%rdx,%r8,4),%ymm2
- DB 197,253,111,37,66,144,0,0 ; vmovdqa 0x9042(%rip),%ymm4 # 2c700 <_sk_overlay_sse2_8bit+0xab3>
+ DB 197,253,111,37,154,144,0,0 ; vmovdqa 0x909a(%rip),%ymm4 # 2c780 <_sk_overlay_sse2_8bit+0xb0b>
DB 196,226,109,0,212 ; vpshufb %ymm4,%ymm2,%ymm2
DB 196,226,101,0,220 ; vpshufb %ymm4,%ymm3,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -33822,14 +33747,14 @@ _sk_load_bgra_dst_hsw_8bit LABEL PROC
DB 197,237,239,210 ; vpxor %ymm2,%ymm2,%ymm2
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,213 ; ja 236b6 <_sk_load_bgra_dst_hsw_8bit+0x2e>
+ DB 119,213 ; ja 236de <_sk_load_bgra_dst_hsw_8bit+0x2e>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,24,1,0,0 ; lea 0x118(%rip),%rcx # 23804 <_sk_load_bgra_dst_hsw_8bit+0x17c>
+ DB 72,141,13,24,1,0,0 ; lea 0x118(%rip),%rcx # 2382c <_sk_load_bgra_dst_hsw_8bit+0x17c>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 196,161,121,110,20,130 ; vmovd (%rdx,%r8,4),%xmm2
- DB 235,185 ; jmp 236b6 <_sk_load_bgra_dst_hsw_8bit+0x2e>
+ DB 235,185 ; jmp 236de <_sk_load_bgra_dst_hsw_8bit+0x2e>
DB 196,161,121,110,84,130,8 ; vmovd 0x8(%rdx,%r8,4),%xmm2
DB 196,226,121,89,210 ; vpbroadcastq %xmm2,%xmm2
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
@@ -33837,7 +33762,7 @@ _sk_load_bgra_dst_hsw_8bit LABEL PROC
DB 196,162,121,53,36,130 ; vpmovzxdq (%rdx,%r8,4),%xmm4
DB 197,249,112,228,232 ; vpshufd $0xe8,%xmm4,%xmm4
DB 196,227,109,2,212,3 ; vpblendd $0x3,%ymm4,%ymm2,%ymm2
- DB 235,144 ; jmp 236b6 <_sk_load_bgra_dst_hsw_8bit+0x2e>
+ DB 235,144 ; jmp 236de <_sk_load_bgra_dst_hsw_8bit+0x2e>
DB 196,161,121,110,84,130,24 ; vmovd 0x18(%rdx,%r8,4),%xmm2
DB 196,226,125,89,210 ; vpbroadcastq %xmm2,%ymm2
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
@@ -33850,7 +33775,7 @@ _sk_load_bgra_dst_hsw_8bit LABEL PROC
DB 196,227,109,56,212,1 ; vinserti128 $0x1,%xmm4,%ymm2,%ymm2
DB 196,161,122,111,36,130 ; vmovdqu (%rdx,%r8,4),%xmm4
DB 196,227,93,2,210,240 ; vpblendd $0xf0,%ymm2,%ymm4,%ymm2
- DB 233,65,255,255,255 ; jmpq 236b6 <_sk_load_bgra_dst_hsw_8bit+0x2e>
+ DB 233,65,255,255,255 ; jmpq 236de <_sk_load_bgra_dst_hsw_8bit+0x2e>
DB 196,161,121,110,84,130,40 ; vmovd 0x28(%rdx,%r8,4),%xmm2
DB 196,226,121,89,210 ; vpbroadcastq %xmm2,%xmm2
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
@@ -33859,7 +33784,7 @@ _sk_load_bgra_dst_hsw_8bit LABEL PROC
DB 196,227,101,2,218,15 ; vpblendd $0xf,%ymm2,%ymm3,%ymm3
DB 196,161,121,110,84,130,32 ; vmovd 0x20(%rdx,%r8,4),%xmm2
DB 196,227,101,2,218,1 ; vpblendd $0x1,%ymm2,%ymm3,%ymm3
- DB 233,5,255,255,255 ; jmpq 236b0 <_sk_load_bgra_dst_hsw_8bit+0x28>
+ DB 233,5,255,255,255 ; jmpq 236d8 <_sk_load_bgra_dst_hsw_8bit+0x28>
DB 196,161,121,110,84,130,56 ; vmovd 0x38(%rdx,%r8,4),%xmm2
DB 196,226,125,89,210 ; vpbroadcastq %xmm2,%ymm2
DB 197,229,239,219 ; vpxor %ymm3,%ymm3,%ymm3
@@ -33873,7 +33798,7 @@ _sk_load_bgra_dst_hsw_8bit LABEL PROC
DB 196,161,126,111,20,130 ; vmovdqu (%rdx,%r8,4),%ymm2
DB 196,161,122,111,100,130,32 ; vmovdqu 0x20(%rdx,%r8,4),%xmm4
DB 196,227,93,2,219,240 ; vpblendd $0xf0,%ymm3,%ymm4,%ymm3
- DB 233,181,254,255,255 ; jmpq 236b6 <_sk_load_bgra_dst_hsw_8bit+0x2e>
+ DB 233,181,254,255,255 ; jmpq 236de <_sk_load_bgra_dst_hsw_8bit+0x2e>
DB 15,31,0 ; nopl (%rax)
DB 241 ; icebp
DB 254 ; (bad)
@@ -33921,11 +33846,11 @@ _sk_store_bgra_hsw_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
- DB 197,253,111,37,188,142,0,0 ; vmovdqa 0x8ebc(%rip),%ymm4 # 2c720 <_sk_overlay_sse2_8bit+0xad3>
+ DB 197,253,111,37,20,143,0,0 ; vmovdqa 0x8f14(%rip),%ymm4 # 2c7a0 <_sk_overlay_sse2_8bit+0xb2b>
DB 196,226,117,0,236 ; vpshufb %ymm4,%ymm1,%ymm5
DB 196,226,125,0,228 ; vpshufb %ymm4,%ymm0,%ymm4
DB 77,133,201 ; test %r9,%r9
- DB 117,17 ; jne 23884 <_sk_store_bgra_hsw_8bit+0x44>
+ DB 117,17 ; jne 238ac <_sk_store_bgra_hsw_8bit+0x44>
DB 196,161,126,127,36,130 ; vmovdqu %ymm4,(%rdx,%r8,4)
DB 196,161,126,127,108,130,32 ; vmovdqu %ymm5,0x20(%rdx,%r8,4)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -33933,17 +33858,17 @@ _sk_store_bgra_hsw_8bit LABEL PROC
DB 65,128,225,15 ; and $0xf,%r9b
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,239 ; ja 23880 <_sk_store_bgra_hsw_8bit+0x40>
+ DB 119,239 ; ja 238a8 <_sk_store_bgra_hsw_8bit+0x40>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,176,0,0,0 ; lea 0xb0(%rip),%rcx # 2394c <_sk_store_bgra_hsw_8bit+0x10c>
+ DB 72,141,13,176,0,0,0 ; lea 0xb0(%rip),%rcx # 23974 <_sk_store_bgra_hsw_8bit+0x10c>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 196,161,121,126,36,130 ; vmovd %xmm4,(%rdx,%r8,4)
- DB 235,211 ; jmp 23880 <_sk_store_bgra_hsw_8bit+0x40>
+ DB 235,211 ; jmp 238a8 <_sk_store_bgra_hsw_8bit+0x40>
DB 196,163,121,22,100,130,8,2 ; vpextrd $0x2,%xmm4,0x8(%rdx,%r8,4)
DB 196,161,121,214,36,130 ; vmovq %xmm4,(%rdx,%r8,4)
- DB 235,195 ; jmp 23880 <_sk_store_bgra_hsw_8bit+0x40>
+ DB 235,195 ; jmp 238a8 <_sk_store_bgra_hsw_8bit+0x40>
DB 196,227,125,57,229,1 ; vextracti128 $0x1,%ymm4,%xmm5
DB 196,163,121,22,108,130,24,2 ; vpextrd $0x2,%xmm5,0x18(%rdx,%r8,4)
DB 196,227,125,57,229,1 ; vextracti128 $0x1,%ymm4,%xmm5
@@ -33951,12 +33876,12 @@ _sk_store_bgra_hsw_8bit LABEL PROC
DB 196,227,125,57,229,1 ; vextracti128 $0x1,%ymm4,%xmm5
DB 196,161,121,126,108,130,16 ; vmovd %xmm5,0x10(%rdx,%r8,4)
DB 196,161,122,127,36,130 ; vmovdqu %xmm4,(%rdx,%r8,4)
- DB 235,146 ; jmp 23880 <_sk_store_bgra_hsw_8bit+0x40>
+ DB 235,146 ; jmp 238a8 <_sk_store_bgra_hsw_8bit+0x40>
DB 196,163,121,22,108,130,40,2 ; vpextrd $0x2,%xmm5,0x28(%rdx,%r8,4)
DB 196,163,121,22,108,130,36,1 ; vpextrd $0x1,%xmm5,0x24(%rdx,%r8,4)
DB 196,161,121,126,108,130,32 ; vmovd %xmm5,0x20(%rdx,%r8,4)
DB 196,161,126,127,36,130 ; vmovdqu %ymm4,(%rdx,%r8,4)
- DB 233,112,255,255,255 ; jmpq 23880 <_sk_store_bgra_hsw_8bit+0x40>
+ DB 233,112,255,255,255 ; jmpq 238a8 <_sk_store_bgra_hsw_8bit+0x40>
DB 196,227,125,57,238,1 ; vextracti128 $0x1,%ymm5,%xmm6
DB 196,163,121,22,116,130,56,2 ; vpextrd $0x2,%xmm6,0x38(%rdx,%r8,4)
DB 196,227,125,57,238,1 ; vextracti128 $0x1,%ymm5,%xmm6
@@ -33965,7 +33890,7 @@ _sk_store_bgra_hsw_8bit LABEL PROC
DB 196,161,121,126,116,130,48 ; vmovd %xmm6,0x30(%rdx,%r8,4)
DB 196,161,126,127,36,130 ; vmovdqu %ymm4,(%rdx,%r8,4)
DB 196,161,122,127,108,130,32 ; vmovdqu %xmm5,0x20(%rdx,%r8,4)
- DB 233,53,255,255,255 ; jmpq 23880 <_sk_store_bgra_hsw_8bit+0x40>
+ DB 233,53,255,255,255 ; jmpq 238a8 <_sk_store_bgra_hsw_8bit+0x40>
DB 144 ; nop
DB 89 ; pop %rcx
DB 255 ; (bad)
@@ -33978,7 +33903,7 @@ _sk_store_bgra_hsw_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,255 ; jg 23961 <_sk_store_bgra_hsw_8bit+0x121>
+ DB 127,255 ; jg 23989 <_sk_store_bgra_hsw_8bit+0x121>
DB 255 ; (bad)
DB 255,113,255 ; pushq -0x1(%rcx)
DB 255 ; (bad)
@@ -34014,7 +33939,7 @@ _sk_load_a8_hsw_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,35 ; jne 239c8 <_sk_load_a8_hsw_8bit+0x40>
+ DB 117,35 ; jne 239f0 <_sk_load_a8_hsw_8bit+0x40>
DB 196,161,122,111,4,2 ; vmovdqu (%rdx,%r8,1),%xmm0
DB 197,249,112,200,78 ; vpshufd $0x4e,%xmm0,%xmm1
DB 196,226,125,49,201 ; vpmovzxbd %xmm1,%ymm1
@@ -34027,35 +33952,35 @@ _sk_load_a8_hsw_8bit LABEL PROC
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,210 ; ja 239ab <_sk_load_a8_hsw_8bit+0x23>
+ DB 119,210 ; ja 239d3 <_sk_load_a8_hsw_8bit+0x23>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,192,0,0,0 ; lea 0xc0(%rip),%rcx # 23aa4 <_sk_load_a8_hsw_8bit+0x11c>
+ DB 72,141,13,192,0,0,0 ; lea 0xc0(%rip),%rcx # 23acc <_sk_load_a8_hsw_8bit+0x11c>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 197,249,110,192 ; vmovd %eax,%xmm0
- DB 235,179 ; jmp 239ab <_sk_load_a8_hsw_8bit+0x23>
+ DB 235,179 ; jmp 239d3 <_sk_load_a8_hsw_8bit+0x23>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,163,121,32,68,2,2,2 ; vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm0,%xmm0
DB 66,15,183,4,2 ; movzwl (%rdx,%r8,1),%eax
DB 197,249,110,200 ; vmovd %eax,%xmm1
DB 196,227,121,14,193,1 ; vpblendw $0x1,%xmm1,%xmm0,%xmm0
- DB 235,150 ; jmp 239ab <_sk_load_a8_hsw_8bit+0x23>
+ DB 235,150 ; jmp 239d3 <_sk_load_a8_hsw_8bit+0x23>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,163,121,32,68,2,6,6 ; vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm0,%xmm0
DB 196,163,121,32,68,2,5,5 ; vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm0,%xmm0
DB 196,163,121,32,68,2,4,4 ; vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm0,%xmm0
DB 196,161,121,110,12,2 ; vmovd (%rdx,%r8,1),%xmm1
DB 196,227,121,2,193,1 ; vpblendd $0x1,%xmm1,%xmm0,%xmm0
- DB 233,105,255,255,255 ; jmpq 239ab <_sk_load_a8_hsw_8bit+0x23>
+ DB 233,105,255,255,255 ; jmpq 239d3 <_sk_load_a8_hsw_8bit+0x23>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,163,121,32,68,2,10,10 ; vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm0,%xmm0
DB 196,163,121,32,68,2,9,9 ; vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm0,%xmm0
DB 196,163,121,32,68,2,8,8 ; vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm0,%xmm0
DB 196,161,122,126,12,2 ; vmovq (%rdx,%r8,1),%xmm1
DB 196,227,113,2,192,12 ; vpblendd $0xc,%xmm0,%xmm1,%xmm0
- DB 233,60,255,255,255 ; jmpq 239ab <_sk_load_a8_hsw_8bit+0x23>
+ DB 233,60,255,255,255 ; jmpq 239d3 <_sk_load_a8_hsw_8bit+0x23>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,163,121,32,68,2,14,14 ; vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm0,%xmm0
DB 196,163,121,32,68,2,13,13 ; vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm0,%xmm0
@@ -34063,7 +33988,7 @@ _sk_load_a8_hsw_8bit LABEL PROC
DB 196,161,122,126,12,2 ; vmovq (%rdx,%r8,1),%xmm1
DB 196,163,113,34,76,2,8,2 ; vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm1,%xmm1
DB 196,227,113,2,192,8 ; vpblendd $0x8,%xmm0,%xmm1,%xmm0
- DB 233,7,255,255,255 ; jmpq 239ab <_sk_load_a8_hsw_8bit+0x23>
+ DB 233,7,255,255,255 ; jmpq 239d3 <_sk_load_a8_hsw_8bit+0x23>
DB 73,255 ; rex.WB (bad)
DB 255 ; (bad)
DB 255,96,255 ; jmpq *-0x1(%rax)
@@ -34073,7 +33998,7 @@ _sk_load_a8_hsw_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 125,255 ; jge 23ab9 <_sk_load_a8_hsw_8bit+0x131>
+ DB 125,255 ; jge 23ae1 <_sk_load_a8_hsw_8bit+0x131>
DB 255 ; (bad)
DB 255,113,255 ; pushq -0x1(%rcx)
DB 255 ; (bad)
@@ -34108,7 +34033,7 @@ _sk_load_a8_dst_hsw_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,35 ; jne 23b20 <_sk_load_a8_dst_hsw_8bit+0x40>
+ DB 117,35 ; jne 23b48 <_sk_load_a8_dst_hsw_8bit+0x40>
DB 196,161,122,111,20,2 ; vmovdqu (%rdx,%r8,1),%xmm2
DB 197,249,112,218,78 ; vpshufd $0x4e,%xmm2,%xmm3
DB 196,226,125,49,219 ; vpmovzxbd %xmm3,%ymm3
@@ -34121,35 +34046,35 @@ _sk_load_a8_dst_hsw_8bit LABEL PROC
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,210 ; ja 23b03 <_sk_load_a8_dst_hsw_8bit+0x23>
+ DB 119,210 ; ja 23b2b <_sk_load_a8_dst_hsw_8bit+0x23>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,192,0,0,0 ; lea 0xc0(%rip),%rcx # 23bfc <_sk_load_a8_dst_hsw_8bit+0x11c>
+ DB 72,141,13,192,0,0,0 ; lea 0xc0(%rip),%rcx # 23c24 <_sk_load_a8_dst_hsw_8bit+0x11c>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 197,249,110,208 ; vmovd %eax,%xmm2
- DB 235,179 ; jmp 23b03 <_sk_load_a8_dst_hsw_8bit+0x23>
+ DB 235,179 ; jmp 23b2b <_sk_load_a8_dst_hsw_8bit+0x23>
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,163,105,32,84,2,2,2 ; vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm2,%xmm2
DB 66,15,183,4,2 ; movzwl (%rdx,%r8,1),%eax
DB 197,249,110,216 ; vmovd %eax,%xmm3
DB 196,227,105,14,211,1 ; vpblendw $0x1,%xmm3,%xmm2,%xmm2
- DB 235,150 ; jmp 23b03 <_sk_load_a8_dst_hsw_8bit+0x23>
+ DB 235,150 ; jmp 23b2b <_sk_load_a8_dst_hsw_8bit+0x23>
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,163,105,32,84,2,6,6 ; vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm2,%xmm2
DB 196,163,105,32,84,2,5,5 ; vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm2,%xmm2
DB 196,163,105,32,84,2,4,4 ; vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm2,%xmm2
DB 196,161,121,110,28,2 ; vmovd (%rdx,%r8,1),%xmm3
DB 196,227,105,2,211,1 ; vpblendd $0x1,%xmm3,%xmm2,%xmm2
- DB 233,105,255,255,255 ; jmpq 23b03 <_sk_load_a8_dst_hsw_8bit+0x23>
+ DB 233,105,255,255,255 ; jmpq 23b2b <_sk_load_a8_dst_hsw_8bit+0x23>
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,163,105,32,84,2,10,10 ; vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm2,%xmm2
DB 196,163,105,32,84,2,9,9 ; vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm2,%xmm2
DB 196,163,105,32,84,2,8,8 ; vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm2,%xmm2
DB 196,161,122,126,28,2 ; vmovq (%rdx,%r8,1),%xmm3
DB 196,227,97,2,210,12 ; vpblendd $0xc,%xmm2,%xmm3,%xmm2
- DB 233,60,255,255,255 ; jmpq 23b03 <_sk_load_a8_dst_hsw_8bit+0x23>
+ DB 233,60,255,255,255 ; jmpq 23b2b <_sk_load_a8_dst_hsw_8bit+0x23>
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,163,105,32,84,2,14,14 ; vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm2,%xmm2
DB 196,163,105,32,84,2,13,13 ; vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm2,%xmm2
@@ -34157,7 +34082,7 @@ _sk_load_a8_dst_hsw_8bit LABEL PROC
DB 196,161,122,126,28,2 ; vmovq (%rdx,%r8,1),%xmm3
DB 196,163,97,34,92,2,8,2 ; vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm3,%xmm3
DB 196,227,97,2,210,8 ; vpblendd $0x8,%xmm2,%xmm3,%xmm2
- DB 233,7,255,255,255 ; jmpq 23b03 <_sk_load_a8_dst_hsw_8bit+0x23>
+ DB 233,7,255,255,255 ; jmpq 23b2b <_sk_load_a8_dst_hsw_8bit+0x23>
DB 73,255 ; rex.WB (bad)
DB 255 ; (bad)
DB 255,96,255 ; jmpq *-0x1(%rax)
@@ -34167,7 +34092,7 @@ _sk_load_a8_dst_hsw_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 125,255 ; jge 23c11 <_sk_load_a8_dst_hsw_8bit+0x131>
+ DB 125,255 ; jge 23c39 <_sk_load_a8_dst_hsw_8bit+0x131>
DB 255 ; (bad)
DB 255,113,255 ; pushq -0x1(%rcx)
DB 255 ; (bad)
@@ -34201,49 +34126,49 @@ _sk_store_a8_hsw_8bit LABEL PROC
DB 72,99,87,8 ; movslq 0x8(%rdi),%rdx
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
- DB 197,253,111,37,232,138,0,0 ; vmovdqa 0x8ae8(%rip),%ymm4 # 2c740 <_sk_overlay_sse2_8bit+0xaf3>
+ DB 197,253,111,37,64,139,0,0 ; vmovdqa 0x8b40(%rip),%ymm4 # 2c7c0 <_sk_overlay_sse2_8bit+0xb4b>
DB 196,226,117,0,236 ; vpshufb %ymm4,%ymm1,%ymm5
DB 196,227,253,0,237,232 ; vpermq $0xe8,%ymm5,%ymm5
- DB 197,249,111,53,229,148,0,0 ; vmovdqa 0x94e5(%rip),%xmm6 # 2d150 <_sk_overlay_sse2_8bit+0x1503>
+ DB 197,249,111,53,109,149,0,0 ; vmovdqa 0x956d(%rip),%xmm6 # 2d200 <_sk_overlay_sse2_8bit+0x158b>
DB 196,226,81,0,238 ; vpshufb %xmm6,%xmm5,%xmm5
DB 196,226,125,0,228 ; vpshufb %ymm4,%ymm0,%ymm4
DB 196,227,253,0,228,232 ; vpermq $0xe8,%ymm4,%ymm4
DB 196,226,89,0,230 ; vpshufb %xmm6,%xmm4,%xmm4
DB 197,217,108,229 ; vpunpcklqdq %xmm5,%xmm4,%xmm4
DB 77,133,201 ; test %r9,%r9
- DB 117,10 ; jne 23c93 <_sk_store_a8_hsw_8bit+0x5b>
+ DB 117,10 ; jne 23cbb <_sk_store_a8_hsw_8bit+0x5b>
DB 196,161,122,127,36,2 ; vmovdqu %xmm4,(%rdx,%r8,1)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
DB 65,128,225,15 ; and $0xf,%r9b
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,239 ; ja 23c8f <_sk_store_a8_hsw_8bit+0x57>
+ DB 119,239 ; ja 23cb7 <_sk_store_a8_hsw_8bit+0x57>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,137,0,0,0 ; lea 0x89(%rip),%rcx # 23d34 <_sk_store_a8_hsw_8bit+0xfc>
+ DB 72,141,13,137,0,0,0 ; lea 0x89(%rip),%rcx # 23d5c <_sk_store_a8_hsw_8bit+0xfc>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 196,163,121,20,36,2,0 ; vpextrb $0x0,%xmm4,(%rdx,%r8,1)
- DB 235,210 ; jmp 23c8f <_sk_store_a8_hsw_8bit+0x57>
+ DB 235,210 ; jmp 23cb7 <_sk_store_a8_hsw_8bit+0x57>
DB 196,163,121,20,100,2,2,2 ; vpextrb $0x2,%xmm4,0x2(%rdx,%r8,1)
DB 196,163,121,21,36,2,0 ; vpextrw $0x0,%xmm4,(%rdx,%r8,1)
- DB 235,193 ; jmp 23c8f <_sk_store_a8_hsw_8bit+0x57>
+ DB 235,193 ; jmp 23cb7 <_sk_store_a8_hsw_8bit+0x57>
DB 196,163,121,20,100,2,6,6 ; vpextrb $0x6,%xmm4,0x6(%rdx,%r8,1)
DB 196,163,121,20,100,2,5,5 ; vpextrb $0x5,%xmm4,0x5(%rdx,%r8,1)
DB 196,163,121,20,100,2,4,4 ; vpextrb $0x4,%xmm4,0x4(%rdx,%r8,1)
DB 196,161,121,126,36,2 ; vmovd %xmm4,(%rdx,%r8,1)
- DB 235,161 ; jmp 23c8f <_sk_store_a8_hsw_8bit+0x57>
+ DB 235,161 ; jmp 23cb7 <_sk_store_a8_hsw_8bit+0x57>
DB 196,163,121,20,100,2,10,10 ; vpextrb $0xa,%xmm4,0xa(%rdx,%r8,1)
DB 196,163,121,20,100,2,9,9 ; vpextrb $0x9,%xmm4,0x9(%rdx,%r8,1)
DB 196,163,121,20,100,2,8,8 ; vpextrb $0x8,%xmm4,0x8(%rdx,%r8,1)
- DB 235,32 ; jmp 23d28 <_sk_store_a8_hsw_8bit+0xf0>
+ DB 235,32 ; jmp 23d50 <_sk_store_a8_hsw_8bit+0xf0>
DB 196,163,121,20,100,2,14,14 ; vpextrb $0xe,%xmm4,0xe(%rdx,%r8,1)
DB 196,163,121,20,100,2,13,13 ; vpextrb $0xd,%xmm4,0xd(%rdx,%r8,1)
DB 196,163,121,20,100,2,12,12 ; vpextrb $0xc,%xmm4,0xc(%rdx,%r8,1)
DB 196,163,121,22,100,2,8,2 ; vpextrd $0x2,%xmm4,0x8(%rdx,%r8,1)
DB 196,161,121,214,36,2 ; vmovq %xmm4,(%rdx,%r8,1)
- DB 233,92,255,255,255 ; jmpq 23c8f <_sk_store_a8_hsw_8bit+0x57>
+ DB 233,92,255,255,255 ; jmpq 23cb7 <_sk_store_a8_hsw_8bit+0x57>
DB 144 ; nop
DB 128,255,255 ; cmp $0xff,%bh
DB 255,145,255,255,255,137 ; callq *-0x76000001(%rcx)
@@ -34289,15 +34214,15 @@ _sk_load_g8_hsw_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,61 ; jne 23dca <_sk_load_g8_hsw_8bit+0x5a>
+ DB 117,61 ; jne 23df2 <_sk_load_g8_hsw_8bit+0x5a>
DB 196,161,122,111,4,2 ; vmovdqu (%rdx,%r8,1),%xmm0
DB 196,226,125,49,200 ; vpmovzxbd %xmm0,%ymm1
DB 197,249,112,192,78 ; vpshufd $0x4e,%xmm0,%xmm0
DB 196,226,125,49,192 ; vpmovzxbd %xmm0,%ymm0
- DB 196,226,125,88,37,161,132,0,0 ; vpbroadcastd 0x84a1(%rip),%ymm4 # 2c24c <_sk_overlay_sse2_8bit+0x5ff>
+ DB 196,226,125,88,37,161,132,0,0 ; vpbroadcastd 0x84a1(%rip),%ymm4 # 2c274 <_sk_overlay_sse2_8bit+0x5ff>
DB 196,226,125,64,236 ; vpmulld %ymm4,%ymm0,%ymm5
DB 196,226,117,64,196 ; vpmulld %ymm4,%ymm1,%ymm0
- DB 196,226,125,88,13,146,132,0,0 ; vpbroadcastd 0x8492(%rip),%ymm1 # 2c250 <_sk_overlay_sse2_8bit+0x603>
+ DB 196,226,125,88,13,146,132,0,0 ; vpbroadcastd 0x8492(%rip),%ymm1 # 2c278 <_sk_overlay_sse2_8bit+0x603>
DB 197,253,235,193 ; vpor %ymm1,%ymm0,%ymm0
DB 197,213,235,201 ; vpor %ymm1,%ymm5,%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -34306,35 +34231,35 @@ _sk_load_g8_hsw_8bit LABEL PROC
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,184 ; ja 23d93 <_sk_load_g8_hsw_8bit+0x23>
+ DB 119,184 ; ja 23dbb <_sk_load_g8_hsw_8bit+0x23>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,198,0,0,0 ; lea 0xc6(%rip),%rcx # 23eac <_sk_load_g8_hsw_8bit+0x13c>
+ DB 72,141,13,198,0,0,0 ; lea 0xc6(%rip),%rcx # 23ed4 <_sk_load_g8_hsw_8bit+0x13c>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 197,249,110,192 ; vmovd %eax,%xmm0
- DB 235,153 ; jmp 23d93 <_sk_load_g8_hsw_8bit+0x23>
+ DB 235,153 ; jmp 23dbb <_sk_load_g8_hsw_8bit+0x23>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,163,121,32,68,2,2,2 ; vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm0,%xmm0
DB 66,15,183,4,2 ; movzwl (%rdx,%r8,1),%eax
DB 197,249,110,200 ; vmovd %eax,%xmm1
DB 196,227,121,14,193,1 ; vpblendw $0x1,%xmm1,%xmm0,%xmm0
- DB 233,121,255,255,255 ; jmpq 23d93 <_sk_load_g8_hsw_8bit+0x23>
+ DB 233,121,255,255,255 ; jmpq 23dbb <_sk_load_g8_hsw_8bit+0x23>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,163,121,32,68,2,6,6 ; vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm0,%xmm0
DB 196,163,121,32,68,2,5,5 ; vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm0,%xmm0
DB 196,163,121,32,68,2,4,4 ; vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm0,%xmm0
DB 196,161,121,110,12,2 ; vmovd (%rdx,%r8,1),%xmm1
DB 196,227,121,2,193,1 ; vpblendd $0x1,%xmm1,%xmm0,%xmm0
- DB 233,76,255,255,255 ; jmpq 23d93 <_sk_load_g8_hsw_8bit+0x23>
+ DB 233,76,255,255,255 ; jmpq 23dbb <_sk_load_g8_hsw_8bit+0x23>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,163,121,32,68,2,10,10 ; vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm0,%xmm0
DB 196,163,121,32,68,2,9,9 ; vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm0,%xmm0
DB 196,163,121,32,68,2,8,8 ; vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm0,%xmm0
DB 196,161,122,126,12,2 ; vmovq (%rdx,%r8,1),%xmm1
DB 196,227,113,2,192,12 ; vpblendd $0xc,%xmm0,%xmm1,%xmm0
- DB 233,31,255,255,255 ; jmpq 23d93 <_sk_load_g8_hsw_8bit+0x23>
+ DB 233,31,255,255,255 ; jmpq 23dbb <_sk_load_g8_hsw_8bit+0x23>
DB 197,249,239,192 ; vpxor %xmm0,%xmm0,%xmm0
DB 196,163,121,32,68,2,14,14 ; vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm0,%xmm0
DB 196,163,121,32,68,2,13,13 ; vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm0,%xmm0
@@ -34342,7 +34267,7 @@ _sk_load_g8_hsw_8bit LABEL PROC
DB 196,161,122,126,12,2 ; vmovq (%rdx,%r8,1),%xmm1
DB 196,163,113,34,76,2,8,2 ; vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm1,%xmm1
DB 196,227,113,2,192,8 ; vpblendd $0x8,%xmm0,%xmm1,%xmm0
- DB 233,234,254,255,255 ; jmpq 23d93 <_sk_load_g8_hsw_8bit+0x23>
+ DB 233,234,254,255,255 ; jmpq 23dbb <_sk_load_g8_hsw_8bit+0x23>
DB 15,31,0 ; nopl (%rax)
DB 67,255 ; rex.XB (bad)
DB 255 ; (bad)
@@ -34354,7 +34279,7 @@ _sk_load_g8_hsw_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 122,255 ; jp 23ec1 <_sk_load_g8_hsw_8bit+0x151>
+ DB 122,255 ; jp 23ee9 <_sk_load_g8_hsw_8bit+0x151>
DB 255 ; (bad)
DB 255,110,255 ; ljmp *-0x1(%rsi)
DB 255 ; (bad)
@@ -34388,15 +34313,15 @@ _sk_load_g8_dst_hsw_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,61 ; jne 23f42 <_sk_load_g8_dst_hsw_8bit+0x5a>
+ DB 117,61 ; jne 23f6a <_sk_load_g8_dst_hsw_8bit+0x5a>
DB 196,161,122,111,20,2 ; vmovdqu (%rdx,%r8,1),%xmm2
DB 196,226,125,49,218 ; vpmovzxbd %xmm2,%ymm3
DB 197,249,112,210,78 ; vpshufd $0x4e,%xmm2,%xmm2
DB 196,226,125,49,210 ; vpmovzxbd %xmm2,%ymm2
- DB 196,226,125,88,37,41,131,0,0 ; vpbroadcastd 0x8329(%rip),%ymm4 # 2c24c <_sk_overlay_sse2_8bit+0x5ff>
+ DB 196,226,125,88,37,41,131,0,0 ; vpbroadcastd 0x8329(%rip),%ymm4 # 2c274 <_sk_overlay_sse2_8bit+0x5ff>
DB 196,226,109,64,236 ; vpmulld %ymm4,%ymm2,%ymm5
DB 196,226,101,64,212 ; vpmulld %ymm4,%ymm3,%ymm2
- DB 196,226,125,88,29,26,131,0,0 ; vpbroadcastd 0x831a(%rip),%ymm3 # 2c250 <_sk_overlay_sse2_8bit+0x603>
+ DB 196,226,125,88,29,26,131,0,0 ; vpbroadcastd 0x831a(%rip),%ymm3 # 2c278 <_sk_overlay_sse2_8bit+0x603>
DB 197,237,235,211 ; vpor %ymm3,%ymm2,%ymm2
DB 197,213,235,219 ; vpor %ymm3,%ymm5,%ymm3
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -34405,35 +34330,35 @@ _sk_load_g8_dst_hsw_8bit LABEL PROC
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 119,184 ; ja 23f0b <_sk_load_g8_dst_hsw_8bit+0x23>
+ DB 119,184 ; ja 23f33 <_sk_load_g8_dst_hsw_8bit+0x23>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,198,0,0,0 ; lea 0xc6(%rip),%rcx # 24024 <_sk_load_g8_dst_hsw_8bit+0x13c>
+ DB 72,141,13,198,0,0,0 ; lea 0xc6(%rip),%rcx # 2404c <_sk_load_g8_dst_hsw_8bit+0x13c>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 197,249,110,208 ; vmovd %eax,%xmm2
- DB 235,153 ; jmp 23f0b <_sk_load_g8_dst_hsw_8bit+0x23>
+ DB 235,153 ; jmp 23f33 <_sk_load_g8_dst_hsw_8bit+0x23>
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,163,105,32,84,2,2,2 ; vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm2,%xmm2
DB 66,15,183,4,2 ; movzwl (%rdx,%r8,1),%eax
DB 197,249,110,216 ; vmovd %eax,%xmm3
DB 196,227,105,14,211,1 ; vpblendw $0x1,%xmm3,%xmm2,%xmm2
- DB 233,121,255,255,255 ; jmpq 23f0b <_sk_load_g8_dst_hsw_8bit+0x23>
+ DB 233,121,255,255,255 ; jmpq 23f33 <_sk_load_g8_dst_hsw_8bit+0x23>
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,163,105,32,84,2,6,6 ; vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm2,%xmm2
DB 196,163,105,32,84,2,5,5 ; vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm2,%xmm2
DB 196,163,105,32,84,2,4,4 ; vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm2,%xmm2
DB 196,161,121,110,28,2 ; vmovd (%rdx,%r8,1),%xmm3
DB 196,227,105,2,211,1 ; vpblendd $0x1,%xmm3,%xmm2,%xmm2
- DB 233,76,255,255,255 ; jmpq 23f0b <_sk_load_g8_dst_hsw_8bit+0x23>
+ DB 233,76,255,255,255 ; jmpq 23f33 <_sk_load_g8_dst_hsw_8bit+0x23>
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,163,105,32,84,2,10,10 ; vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm2,%xmm2
DB 196,163,105,32,84,2,9,9 ; vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm2,%xmm2
DB 196,163,105,32,84,2,8,8 ; vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm2,%xmm2
DB 196,161,122,126,28,2 ; vmovq (%rdx,%r8,1),%xmm3
DB 196,227,97,2,210,12 ; vpblendd $0xc,%xmm2,%xmm3,%xmm2
- DB 233,31,255,255,255 ; jmpq 23f0b <_sk_load_g8_dst_hsw_8bit+0x23>
+ DB 233,31,255,255,255 ; jmpq 23f33 <_sk_load_g8_dst_hsw_8bit+0x23>
DB 197,233,239,210 ; vpxor %xmm2,%xmm2,%xmm2
DB 196,163,105,32,84,2,14,14 ; vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm2,%xmm2
DB 196,163,105,32,84,2,13,13 ; vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm2,%xmm2
@@ -34441,7 +34366,7 @@ _sk_load_g8_dst_hsw_8bit LABEL PROC
DB 196,161,122,126,28,2 ; vmovq (%rdx,%r8,1),%xmm3
DB 196,163,97,34,92,2,8,2 ; vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm3,%xmm3
DB 196,227,97,2,210,8 ; vpblendd $0x8,%xmm2,%xmm3,%xmm2
- DB 233,234,254,255,255 ; jmpq 23f0b <_sk_load_g8_dst_hsw_8bit+0x23>
+ DB 233,234,254,255,255 ; jmpq 23f33 <_sk_load_g8_dst_hsw_8bit+0x23>
DB 15,31,0 ; nopl (%rax)
DB 67,255 ; rex.XB (bad)
DB 255 ; (bad)
@@ -34453,7 +34378,7 @@ _sk_load_g8_dst_hsw_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 122,255 ; jp 24039 <_sk_load_g8_dst_hsw_8bit+0x151>
+ DB 122,255 ; jp 24061 <_sk_load_g8_dst_hsw_8bit+0x151>
DB 255 ; (bad)
DB 255,110,255 ; ljmp *-0x1(%rsi)
DB 255 ; (bad)
@@ -34488,10 +34413,10 @@ _sk_srcover_rgba_8888_hsw_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,192 ; test %r8,%r8
- DB 15,133,222,0,0,0 ; jne 24163 <_sk_srcover_rgba_8888_hsw_8bit+0x103>
+ DB 15,133,222,0,0,0 ; jne 2418b <_sk_srcover_rgba_8888_hsw_8bit+0x103>
DB 196,33,126,111,76,138,32 ; vmovdqu 0x20(%rdx,%r9,4),%ymm9
DB 196,33,126,111,28,138 ; vmovdqu (%rdx,%r9,4),%ymm11
- DB 197,253,111,53,198,134,0,0 ; vmovdqa 0x86c6(%rip),%ymm6 # 2c760 <_sk_overlay_sse2_8bit+0xb13>
+ DB 197,253,111,53,30,135,0,0 ; vmovdqa 0x871e(%rip),%ymm6 # 2c7e0 <_sk_overlay_sse2_8bit+0xb6b>
DB 196,226,117,0,254 ; vpshufb %ymm6,%ymm1,%ymm7
DB 196,226,125,0,246 ; vpshufb %ymm6,%ymm0,%ymm6
DB 196,66,125,48,195 ; vpmovzxbw %xmm11,%ymm8
@@ -34529,7 +34454,7 @@ _sk_srcover_rgba_8888_hsw_8bit LABEL PROC
DB 197,221,252,224 ; vpaddb %ymm0,%ymm4,%ymm4
DB 197,213,252,233 ; vpaddb %ymm1,%ymm5,%ymm5
DB 77,133,192 ; test %r8,%r8
- DB 117,72 ; jne 2419a <_sk_srcover_rgba_8888_hsw_8bit+0x13a>
+ DB 117,72 ; jne 241c2 <_sk_srcover_rgba_8888_hsw_8bit+0x13a>
DB 196,161,126,127,36,138 ; vmovdqu %ymm4,(%rdx,%r9,4)
DB 196,161,126,127,108,138,32 ; vmovdqu %ymm5,0x20(%rdx,%r9,4)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -34540,25 +34465,25 @@ _sk_srcover_rgba_8888_hsw_8bit LABEL PROC
DB 196,65,37,239,219 ; vpxor %ymm11,%ymm11,%ymm11
DB 254,200 ; dec %al
DB 60,14 ; cmp $0xe,%al
- DB 15,135,22,255,255,255 ; ja 24092 <_sk_srcover_rgba_8888_hsw_8bit+0x32>
+ DB 15,135,22,255,255,255 ; ja 240ba <_sk_srcover_rgba_8888_hsw_8bit+0x32>
DB 15,182,192 ; movzbl %al,%eax
- DB 72,141,13,234,1,0,0 ; lea 0x1ea(%rip),%rcx # 24370 <_sk_srcover_rgba_8888_hsw_8bit+0x310>
+ DB 72,141,13,234,1,0,0 ; lea 0x1ea(%rip),%rcx # 24398 <_sk_srcover_rgba_8888_hsw_8bit+0x310>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 196,33,121,110,28,138 ; vmovd (%rdx,%r9,4),%xmm11
- DB 233,248,254,255,255 ; jmpq 24092 <_sk_srcover_rgba_8888_hsw_8bit+0x32>
+ DB 233,248,254,255,255 ; jmpq 240ba <_sk_srcover_rgba_8888_hsw_8bit+0x32>
DB 65,128,224,15 ; and $0xf,%r8b
DB 65,254,200 ; dec %r8b
DB 65,128,248,14 ; cmp $0xe,%r8b
- DB 119,184 ; ja 2415f <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ DB 119,184 ; ja 24187 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
DB 65,15,182,192 ; movzbl %r8b,%eax
- DB 72,141,13,250,1,0,0 ; lea 0x1fa(%rip),%rcx # 243ac <_sk_srcover_rgba_8888_hsw_8bit+0x34c>
+ DB 72,141,13,250,1,0,0 ; lea 0x1fa(%rip),%rcx # 243d4 <_sk_srcover_rgba_8888_hsw_8bit+0x34c>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 196,161,121,126,36,138 ; vmovd %xmm4,(%rdx,%r9,4)
- DB 235,156 ; jmp 2415f <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ DB 235,156 ; jmp 24187 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
DB 196,161,121,110,100,138,8 ; vmovd 0x8(%rdx,%r9,4),%xmm4
DB 196,226,121,89,236 ; vpbroadcastq %xmm4,%xmm5
DB 196,65,53,239,201 ; vpxor %ymm9,%ymm9,%ymm9
@@ -34566,7 +34491,7 @@ _sk_srcover_rgba_8888_hsw_8bit LABEL PROC
DB 196,162,121,53,52,138 ; vpmovzxdq (%rdx,%r9,4),%xmm6
DB 197,249,112,246,232 ; vpshufd $0xe8,%xmm6,%xmm6
DB 196,99,37,2,222,3 ; vpblendd $0x3,%ymm6,%ymm11,%ymm11
- DB 233,162,254,255,255 ; jmpq 24092 <_sk_srcover_rgba_8888_hsw_8bit+0x32>
+ DB 233,162,254,255,255 ; jmpq 240ba <_sk_srcover_rgba_8888_hsw_8bit+0x32>
DB 196,161,121,110,100,138,24 ; vmovd 0x18(%rdx,%r9,4),%xmm4
DB 196,226,125,89,236 ; vpbroadcastq %xmm4,%ymm5
DB 196,65,53,239,201 ; vpxor %ymm9,%ymm9,%ymm9
@@ -34579,7 +34504,7 @@ _sk_srcover_rgba_8888_hsw_8bit LABEL PROC
DB 196,99,37,56,222,1 ; vinserti128 $0x1,%xmm6,%ymm11,%ymm11
DB 196,161,122,111,52,138 ; vmovdqu (%rdx,%r9,4),%xmm6
DB 196,67,77,2,219,240 ; vpblendd $0xf0,%ymm11,%ymm6,%ymm11
- DB 233,82,254,255,255 ; jmpq 24092 <_sk_srcover_rgba_8888_hsw_8bit+0x32>
+ DB 233,82,254,255,255 ; jmpq 240ba <_sk_srcover_rgba_8888_hsw_8bit+0x32>
DB 196,161,121,110,100,138,40 ; vmovd 0x28(%rdx,%r9,4),%xmm4
DB 196,226,121,89,228 ; vpbroadcastq %xmm4,%xmm4
DB 197,213,239,237 ; vpxor %ymm5,%ymm5,%ymm5
@@ -34588,7 +34513,7 @@ _sk_srcover_rgba_8888_hsw_8bit LABEL PROC
DB 196,99,53,2,205,15 ; vpblendd $0xf,%ymm5,%ymm9,%ymm9
DB 196,161,121,110,108,138,32 ; vmovd 0x20(%rdx,%r9,4),%xmm5
DB 196,99,53,2,205,1 ; vpblendd $0x1,%ymm5,%ymm9,%ymm9
- DB 233,22,254,255,255 ; jmpq 2408c <_sk_srcover_rgba_8888_hsw_8bit+0x2c>
+ DB 233,22,254,255,255 ; jmpq 240b4 <_sk_srcover_rgba_8888_hsw_8bit+0x2c>
DB 196,161,121,110,100,138,56 ; vmovd 0x38(%rdx,%r9,4),%xmm4
DB 196,226,125,89,228 ; vpbroadcastq %xmm4,%ymm4
DB 197,213,239,237 ; vpxor %ymm5,%ymm5,%ymm5
@@ -34602,10 +34527,10 @@ _sk_srcover_rgba_8888_hsw_8bit LABEL PROC
DB 196,33,126,111,28,138 ; vmovdqu (%rdx,%r9,4),%ymm11
DB 196,161,122,111,116,138,32 ; vmovdqu 0x20(%rdx,%r9,4),%xmm6
DB 196,67,77,2,201,240 ; vpblendd $0xf0,%ymm9,%ymm6,%ymm9
- DB 233,198,253,255,255 ; jmpq 24092 <_sk_srcover_rgba_8888_hsw_8bit+0x32>
+ DB 233,198,253,255,255 ; jmpq 240ba <_sk_srcover_rgba_8888_hsw_8bit+0x32>
DB 196,163,121,22,100,138,8,2 ; vpextrd $0x2,%xmm4,0x8(%rdx,%r9,4)
DB 196,161,121,214,36,138 ; vmovq %xmm4,(%rdx,%r9,4)
- DB 233,128,254,255,255 ; jmpq 2415f <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ DB 233,128,254,255,255 ; jmpq 24187 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
DB 196,227,125,57,229,1 ; vextracti128 $0x1,%ymm4,%xmm5
DB 196,163,121,22,108,138,24,2 ; vpextrd $0x2,%xmm5,0x18(%rdx,%r9,4)
DB 196,227,125,57,229,1 ; vextracti128 $0x1,%ymm4,%xmm5
@@ -34613,12 +34538,12 @@ _sk_srcover_rgba_8888_hsw_8bit LABEL PROC
DB 196,227,125,57,229,1 ; vextracti128 $0x1,%ymm4,%xmm5
DB 196,161,121,126,108,138,16 ; vmovd %xmm5,0x10(%rdx,%r9,4)
DB 196,161,122,127,36,138 ; vmovdqu %xmm4,(%rdx,%r9,4)
- DB 233,76,254,255,255 ; jmpq 2415f <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ DB 233,76,254,255,255 ; jmpq 24187 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
DB 196,163,121,22,108,138,40,2 ; vpextrd $0x2,%xmm5,0x28(%rdx,%r9,4)
DB 196,163,121,22,108,138,36,1 ; vpextrd $0x1,%xmm5,0x24(%rdx,%r9,4)
DB 196,161,121,126,108,138,32 ; vmovd %xmm5,0x20(%rdx,%r9,4)
DB 196,161,126,127,36,138 ; vmovdqu %ymm4,(%rdx,%r9,4)
- DB 233,42,254,255,255 ; jmpq 2415f <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ DB 233,42,254,255,255 ; jmpq 24187 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
DB 196,227,125,57,238,1 ; vextracti128 $0x1,%ymm5,%xmm6
DB 196,163,121,22,116,138,56,2 ; vpextrd $0x2,%xmm6,0x38(%rdx,%r9,4)
DB 196,227,125,57,238,1 ; vextracti128 $0x1,%ymm5,%xmm6
@@ -34627,7 +34552,7 @@ _sk_srcover_rgba_8888_hsw_8bit LABEL PROC
DB 196,161,121,126,116,138,48 ; vmovd %xmm6,0x30(%rdx,%r9,4)
DB 196,161,126,127,36,138 ; vmovdqu %ymm4,(%rdx,%r9,4)
DB 196,161,122,127,108,138,32 ; vmovdqu %xmm5,0x20(%rdx,%r9,4)
- DB 233,239,253,255,255 ; jmpq 2415f <_sk_srcover_rgba_8888_hsw_8bit+0xff>
+ DB 233,239,253,255,255 ; jmpq 24187 <_sk_srcover_rgba_8888_hsw_8bit+0xff>
DB 31 ; (bad)
DB 254 ; (bad)
DB 255 ; (bad)
@@ -34677,7 +34602,7 @@ _sk_srcover_rgba_8888_hsw_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 126,255 ; jle 243c9 <_sk_srcover_rgba_8888_hsw_8bit+0x369>
+ DB 126,255 ; jle 243f1 <_sk_srcover_rgba_8888_hsw_8bit+0x369>
DB 255 ; (bad)
DB 255,119,255 ; pushq -0x1(%rdi)
DB 255 ; (bad)
@@ -34697,7 +34622,7 @@ PUBLIC _sk_scale_1_float_hsw_8bit
_sk_scale_1_float_hsw_8bit LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,250,16,32 ; vmovss (%rax),%xmm4
- DB 197,218,89,37,242,124,0,0 ; vmulss 0x7cf2(%rip),%xmm4,%xmm4 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 197,218,89,37,242,124,0,0 ; vmulss 0x7cf2(%rip),%xmm4,%xmm4 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 197,250,44,196 ; vcvttss2si %xmm4,%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
DB 196,226,125,120,228 ; vpbroadcastb %xmm4,%ymm4
@@ -34707,7 +34632,7 @@ _sk_scale_1_float_hsw_8bit LABEL PROC
DB 196,226,125,48,241 ; vpmovzxbw %xmm1,%ymm6
DB 196,227,125,57,201,1 ; vextracti128 $0x1,%ymm1,%xmm1
DB 196,226,125,48,201 ; vpmovzxbw %xmm1,%ymm1
- DB 197,221,219,37,85,131,0,0 ; vpand 0x8355(%rip),%ymm4,%ymm4 # 2c780 <_sk_overlay_sse2_8bit+0xb33>
+ DB 197,221,219,37,173,131,0,0 ; vpand 0x83ad(%rip),%ymm4,%ymm4 # 2c800 <_sk_overlay_sse2_8bit+0xb8b>
DB 197,221,213,249 ; vpmullw %ymm1,%ymm4,%ymm7
DB 197,93,213,198 ; vpmullw %ymm6,%ymm4,%ymm8
DB 197,93,213,200 ; vpmullw %ymm0,%ymm4,%ymm9
@@ -34739,12 +34664,12 @@ _sk_scale_u8_hsw_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 15,133,191,0,0,0 ; jne 24563 <_sk_scale_u8_hsw_8bit+0xe0>
+ DB 15,133,191,0,0,0 ; jne 2458b <_sk_scale_u8_hsw_8bit+0xe0>
DB 196,161,122,111,36,2 ; vmovdqu (%rdx,%r8,1),%xmm4
DB 196,226,125,49,236 ; vpmovzxbd %xmm4,%ymm5
DB 197,249,112,228,78 ; vpshufd $0x4e,%xmm4,%xmm4
DB 196,226,125,49,228 ; vpmovzxbd %xmm4,%ymm4
- DB 197,253,111,53,223,130,0,0 ; vmovdqa 0x82df(%rip),%ymm6 # 2c7a0 <_sk_overlay_sse2_8bit+0xb53>
+ DB 197,253,111,53,55,131,0,0 ; vmovdqa 0x8337(%rip),%ymm6 # 2c820 <_sk_overlay_sse2_8bit+0xbab>
DB 196,226,93,0,230 ; vpshufb %ymm6,%ymm4,%ymm4
DB 196,226,85,0,238 ; vpshufb %ymm6,%ymm5,%ymm5
DB 196,226,125,48,240 ; vpmovzxbw %xmm0,%ymm6
@@ -34783,35 +34708,35 @@ _sk_scale_u8_hsw_8bit LABEL PROC
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 15,135,50,255,255,255 ; ja 244aa <_sk_scale_u8_hsw_8bit+0x27>
+ DB 15,135,50,255,255,255 ; ja 244d2 <_sk_scale_u8_hsw_8bit+0x27>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,201,0,0,0 ; lea 0xc9(%rip),%rcx # 2464c <_sk_scale_u8_hsw_8bit+0x1c9>
+ DB 72,141,13,201,0,0,0 ; lea 0xc9(%rip),%rcx # 24674 <_sk_scale_u8_hsw_8bit+0x1c9>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
- DB 233,16,255,255,255 ; jmpq 244aa <_sk_scale_u8_hsw_8bit+0x27>
+ DB 233,16,255,255,255 ; jmpq 244d2 <_sk_scale_u8_hsw_8bit+0x27>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 196,163,89,32,100,2,2,2 ; vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm4,%xmm4
DB 66,15,183,4,2 ; movzwl (%rdx,%r8,1),%eax
DB 197,249,110,232 ; vmovd %eax,%xmm5
DB 196,227,89,14,229,1 ; vpblendw $0x1,%xmm5,%xmm4,%xmm4
- DB 233,240,254,255,255 ; jmpq 244aa <_sk_scale_u8_hsw_8bit+0x27>
+ DB 233,240,254,255,255 ; jmpq 244d2 <_sk_scale_u8_hsw_8bit+0x27>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 196,163,89,32,100,2,6,6 ; vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm4,%xmm4
DB 196,163,89,32,100,2,5,5 ; vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm4,%xmm4
DB 196,163,89,32,100,2,4,4 ; vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm4,%xmm4
DB 196,161,121,110,44,2 ; vmovd (%rdx,%r8,1),%xmm5
DB 196,227,89,2,229,1 ; vpblendd $0x1,%xmm5,%xmm4,%xmm4
- DB 233,195,254,255,255 ; jmpq 244aa <_sk_scale_u8_hsw_8bit+0x27>
+ DB 233,195,254,255,255 ; jmpq 244d2 <_sk_scale_u8_hsw_8bit+0x27>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 196,163,89,32,100,2,10,10 ; vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm4,%xmm4
DB 196,163,89,32,100,2,9,9 ; vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm4,%xmm4
DB 196,163,89,32,100,2,8,8 ; vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm4,%xmm4
DB 196,161,122,126,44,2 ; vmovq (%rdx,%r8,1),%xmm5
DB 196,227,81,2,228,12 ; vpblendd $0xc,%xmm4,%xmm5,%xmm4
- DB 233,150,254,255,255 ; jmpq 244aa <_sk_scale_u8_hsw_8bit+0x27>
+ DB 233,150,254,255,255 ; jmpq 244d2 <_sk_scale_u8_hsw_8bit+0x27>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 196,163,89,32,100,2,14,14 ; vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm4,%xmm4
DB 196,163,89,32,100,2,13,13 ; vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm4,%xmm4
@@ -34819,7 +34744,7 @@ _sk_scale_u8_hsw_8bit LABEL PROC
DB 196,161,122,126,44,2 ; vmovq (%rdx,%r8,1),%xmm5
DB 196,163,81,34,108,2,8,2 ; vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm5,%xmm5
DB 196,227,81,2,228,8 ; vpblendd $0x8,%xmm4,%xmm5,%xmm4
- DB 233,97,254,255,255 ; jmpq 244aa <_sk_scale_u8_hsw_8bit+0x27>
+ DB 233,97,254,255,255 ; jmpq 244d2 <_sk_scale_u8_hsw_8bit+0x27>
DB 15,31,0 ; nopl (%rax)
DB 64,255 ; rex (bad)
DB 255 ; (bad)
@@ -34831,7 +34756,7 @@ _sk_scale_u8_hsw_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 122,255 ; jp 24661 <_sk_scale_u8_hsw_8bit+0x1de>
+ DB 122,255 ; jp 24689 <_sk_scale_u8_hsw_8bit+0x1de>
DB 255 ; (bad)
DB 255,110,255 ; ljmp *-0x1(%rsi)
DB 255 ; (bad)
@@ -34859,7 +34784,7 @@ PUBLIC _sk_lerp_1_float_hsw_8bit
_sk_lerp_1_float_hsw_8bit LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 197,250,16,32 ; vmovss (%rax),%xmm4
- DB 197,218,89,37,82,122,0,0 ; vmulss 0x7a52(%rip),%xmm4,%xmm4 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 197,218,89,37,82,122,0,0 ; vmulss 0x7a52(%rip),%xmm4,%xmm4 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 197,250,44,196 ; vcvttss2si %xmm4,%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
DB 196,226,125,120,228 ; vpbroadcastb %xmm4,%ymm4
@@ -34869,7 +34794,7 @@ _sk_lerp_1_float_hsw_8bit LABEL PROC
DB 196,226,125,48,241 ; vpmovzxbw %xmm1,%ymm6
DB 196,227,125,57,201,1 ; vextracti128 $0x1,%ymm1,%xmm1
DB 196,226,125,48,201 ; vpmovzxbw %xmm1,%ymm1
- DB 197,221,219,61,245,128,0,0 ; vpand 0x80f5(%rip),%ymm4,%ymm7 # 2c7c0 <_sk_overlay_sse2_8bit+0xb73>
+ DB 197,221,219,61,77,129,0,0 ; vpand 0x814d(%rip),%ymm4,%ymm7 # 2c840 <_sk_overlay_sse2_8bit+0xbcb>
DB 197,69,213,193 ; vpmullw %ymm1,%ymm7,%ymm8
DB 197,69,213,206 ; vpmullw %ymm6,%ymm7,%ymm9
DB 197,69,213,208 ; vpmullw %ymm0,%ymm7,%ymm10
@@ -34932,12 +34857,12 @@ _sk_lerp_u8_hsw_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 15,133,106,1,0,0 ; jne 24943 <_sk_lerp_u8_hsw_8bit+0x18b>
+ DB 15,133,106,1,0,0 ; jne 2496b <_sk_lerp_u8_hsw_8bit+0x18b>
DB 196,161,122,111,36,2 ; vmovdqu (%rdx,%r8,1),%xmm4
DB 196,226,125,49,236 ; vpmovzxbd %xmm4,%ymm5
DB 197,249,112,228,78 ; vpshufd $0x4e,%xmm4,%xmm4
DB 196,226,125,49,228 ; vpmovzxbd %xmm4,%ymm4
- DB 197,253,111,53,234,127,0,0 ; vmovdqa 0x7fea(%rip),%ymm6 # 2c7e0 <_sk_overlay_sse2_8bit+0xb93>
+ DB 197,253,111,53,66,128,0,0 ; vmovdqa 0x8042(%rip),%ymm6 # 2c860 <_sk_overlay_sse2_8bit+0xbeb>
DB 196,98,93,0,206 ; vpshufb %ymm6,%ymm4,%ymm9
DB 196,98,85,0,222 ; vpshufb %ymm6,%ymm5,%ymm11
DB 196,226,125,48,240 ; vpmovzxbw %xmm0,%ymm6
@@ -35011,35 +34936,35 @@ _sk_lerp_u8_hsw_8bit LABEL PROC
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 65,254,201 ; dec %r9b
DB 65,128,249,14 ; cmp $0xe,%r9b
- DB 15,135,135,254,255,255 ; ja 247df <_sk_lerp_u8_hsw_8bit+0x27>
+ DB 15,135,135,254,255,255 ; ja 24807 <_sk_lerp_u8_hsw_8bit+0x27>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,201,0,0,0 ; lea 0xc9(%rip),%rcx # 24a2c <_sk_lerp_u8_hsw_8bit+0x274>
+ DB 72,141,13,201,0,0,0 ; lea 0xc9(%rip),%rcx # 24a54 <_sk_lerp_u8_hsw_8bit+0x274>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 197,249,110,224 ; vmovd %eax,%xmm4
- DB 233,101,254,255,255 ; jmpq 247df <_sk_lerp_u8_hsw_8bit+0x27>
+ DB 233,101,254,255,255 ; jmpq 24807 <_sk_lerp_u8_hsw_8bit+0x27>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 196,163,89,32,100,2,2,2 ; vpinsrb $0x2,0x2(%rdx,%r8,1),%xmm4,%xmm4
DB 66,15,183,4,2 ; movzwl (%rdx,%r8,1),%eax
DB 197,249,110,232 ; vmovd %eax,%xmm5
DB 196,227,89,14,229,1 ; vpblendw $0x1,%xmm5,%xmm4,%xmm4
- DB 233,69,254,255,255 ; jmpq 247df <_sk_lerp_u8_hsw_8bit+0x27>
+ DB 233,69,254,255,255 ; jmpq 24807 <_sk_lerp_u8_hsw_8bit+0x27>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 196,163,89,32,100,2,6,6 ; vpinsrb $0x6,0x6(%rdx,%r8,1),%xmm4,%xmm4
DB 196,163,89,32,100,2,5,5 ; vpinsrb $0x5,0x5(%rdx,%r8,1),%xmm4,%xmm4
DB 196,163,89,32,100,2,4,4 ; vpinsrb $0x4,0x4(%rdx,%r8,1),%xmm4,%xmm4
DB 196,161,121,110,44,2 ; vmovd (%rdx,%r8,1),%xmm5
DB 196,227,89,2,229,1 ; vpblendd $0x1,%xmm5,%xmm4,%xmm4
- DB 233,24,254,255,255 ; jmpq 247df <_sk_lerp_u8_hsw_8bit+0x27>
+ DB 233,24,254,255,255 ; jmpq 24807 <_sk_lerp_u8_hsw_8bit+0x27>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 196,163,89,32,100,2,10,10 ; vpinsrb $0xa,0xa(%rdx,%r8,1),%xmm4,%xmm4
DB 196,163,89,32,100,2,9,9 ; vpinsrb $0x9,0x9(%rdx,%r8,1),%xmm4,%xmm4
DB 196,163,89,32,100,2,8,8 ; vpinsrb $0x8,0x8(%rdx,%r8,1),%xmm4,%xmm4
DB 196,161,122,126,44,2 ; vmovq (%rdx,%r8,1),%xmm5
DB 196,227,81,2,228,12 ; vpblendd $0xc,%xmm4,%xmm5,%xmm4
- DB 233,235,253,255,255 ; jmpq 247df <_sk_lerp_u8_hsw_8bit+0x27>
+ DB 233,235,253,255,255 ; jmpq 24807 <_sk_lerp_u8_hsw_8bit+0x27>
DB 197,217,239,228 ; vpxor %xmm4,%xmm4,%xmm4
DB 196,163,89,32,100,2,14,14 ; vpinsrb $0xe,0xe(%rdx,%r8,1),%xmm4,%xmm4
DB 196,163,89,32,100,2,13,13 ; vpinsrb $0xd,0xd(%rdx,%r8,1),%xmm4,%xmm4
@@ -35047,7 +34972,7 @@ _sk_lerp_u8_hsw_8bit LABEL PROC
DB 196,161,122,126,44,2 ; vmovq (%rdx,%r8,1),%xmm5
DB 196,163,81,34,108,2,8,2 ; vpinsrd $0x2,0x8(%rdx,%r8,1),%xmm5,%xmm5
DB 196,227,81,2,228,8 ; vpblendd $0x8,%xmm4,%xmm5,%xmm4
- DB 233,182,253,255,255 ; jmpq 247df <_sk_lerp_u8_hsw_8bit+0x27>
+ DB 233,182,253,255,255 ; jmpq 24807 <_sk_lerp_u8_hsw_8bit+0x27>
DB 15,31,0 ; nopl (%rax)
DB 64,255 ; rex (bad)
DB 255 ; (bad)
@@ -35059,7 +34984,7 @@ _sk_lerp_u8_hsw_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 122,255 ; jp 24a41 <_sk_lerp_u8_hsw_8bit+0x289>
+ DB 122,255 ; jp 24a69 <_sk_lerp_u8_hsw_8bit+0x289>
DB 255 ; (bad)
DB 255,110,255 ; ljmp *-0x1(%rsi)
DB 255 ; (bad)
@@ -35100,7 +35025,7 @@ _sk_move_dst_src_hsw_8bit LABEL PROC
PUBLIC _sk_black_color_hsw_8bit
_sk_black_color_hsw_8bit LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 196,226,125,24,5,197,119,0,0 ; vbroadcastss 0x77c5(%rip),%ymm0 # 2c250 <_sk_overlay_sse2_8bit+0x603>
+ DB 196,226,125,24,5,197,119,0,0 ; vbroadcastss 0x77c5(%rip),%ymm0 # 2c278 <_sk_overlay_sse2_8bit+0x603>
DB 197,252,40,200 ; vmovaps %ymm0,%ymm1
DB 255,224 ; jmpq *%rax
@@ -35120,7 +35045,7 @@ _sk_clear_hsw_8bit LABEL PROC
PUBLIC _sk_srcatop_hsw_8bit
_sk_srcatop_hsw_8bit LABEL PROC
- DB 197,125,111,5,79,125,0,0 ; vmovdqa 0x7d4f(%rip),%ymm8 # 2c800 <_sk_overlay_sse2_8bit+0xbb3>
+ DB 197,125,111,5,167,125,0,0 ; vmovdqa 0x7da7(%rip),%ymm8 # 2c880 <_sk_overlay_sse2_8bit+0xc0b>
DB 196,194,101,0,224 ; vpshufb %ymm8,%ymm3,%ymm4
DB 196,194,109,0,232 ; vpshufb %ymm8,%ymm2,%ymm5
DB 196,98,125,48,208 ; vpmovzxbw %xmm0,%ymm10
@@ -35195,7 +35120,7 @@ _sk_srcatop_hsw_8bit LABEL PROC
PUBLIC _sk_dstatop_hsw_8bit
_sk_dstatop_hsw_8bit LABEL PROC
- DB 197,125,111,5,10,124,0,0 ; vmovdqa 0x7c0a(%rip),%ymm8 # 2c820 <_sk_overlay_sse2_8bit+0xbd3>
+ DB 197,125,111,5,98,124,0,0 ; vmovdqa 0x7c62(%rip),%ymm8 # 2c8a0 <_sk_overlay_sse2_8bit+0xc2b>
DB 196,194,117,0,224 ; vpshufb %ymm8,%ymm1,%ymm4
DB 196,194,125,0,232 ; vpshufb %ymm8,%ymm0,%ymm5
DB 196,98,125,48,210 ; vpmovzxbw %xmm2,%ymm10
@@ -35270,7 +35195,7 @@ _sk_dstatop_hsw_8bit LABEL PROC
PUBLIC _sk_srcin_hsw_8bit
_sk_srcin_hsw_8bit LABEL PROC
- DB 197,253,111,37,193,122,0,0 ; vmovdqa 0x7ac1(%rip),%ymm4 # 2c840 <_sk_overlay_sse2_8bit+0xbf3>
+ DB 197,253,111,37,25,123,0,0 ; vmovdqa 0x7b19(%rip),%ymm4 # 2c8c0 <_sk_overlay_sse2_8bit+0xc4b>
DB 196,226,101,0,236 ; vpshufb %ymm4,%ymm3,%ymm5
DB 196,226,109,0,228 ; vpshufb %ymm4,%ymm2,%ymm4
DB 196,226,125,48,240 ; vpmovzxbw %xmm0,%ymm6
@@ -35308,7 +35233,7 @@ _sk_srcin_hsw_8bit LABEL PROC
PUBLIC _sk_dstin_hsw_8bit
_sk_dstin_hsw_8bit LABEL PROC
- DB 197,253,111,37,55,122,0,0 ; vmovdqa 0x7a37(%rip),%ymm4 # 2c860 <_sk_overlay_sse2_8bit+0xc13>
+ DB 197,253,111,37,143,122,0,0 ; vmovdqa 0x7a8f(%rip),%ymm4 # 2c8e0 <_sk_overlay_sse2_8bit+0xc6b>
DB 196,226,117,0,204 ; vpshufb %ymm4,%ymm1,%ymm1
DB 196,226,125,0,196 ; vpshufb %ymm4,%ymm0,%ymm0
DB 196,226,125,48,226 ; vpmovzxbw %xmm2,%ymm4
@@ -35346,7 +35271,7 @@ _sk_dstin_hsw_8bit LABEL PROC
PUBLIC _sk_srcout_hsw_8bit
_sk_srcout_hsw_8bit LABEL PROC
- DB 197,253,111,37,171,121,0,0 ; vmovdqa 0x79ab(%rip),%ymm4 # 2c880 <_sk_overlay_sse2_8bit+0xc33>
+ DB 197,253,111,37,3,122,0,0 ; vmovdqa 0x7a03(%rip),%ymm4 # 2c900 <_sk_overlay_sse2_8bit+0xc8b>
DB 196,226,109,0,236 ; vpshufb %ymm4,%ymm2,%ymm5
DB 196,226,101,0,228 ; vpshufb %ymm4,%ymm3,%ymm4
DB 197,205,118,246 ; vpcmpeqd %ymm6,%ymm6,%ymm6
@@ -35387,7 +35312,7 @@ _sk_srcout_hsw_8bit LABEL PROC
PUBLIC _sk_dstout_hsw_8bit
_sk_dstout_hsw_8bit LABEL PROC
- DB 197,253,111,37,21,121,0,0 ; vmovdqa 0x7915(%rip),%ymm4 # 2c8a0 <_sk_overlay_sse2_8bit+0xc53>
+ DB 197,253,111,37,109,121,0,0 ; vmovdqa 0x796d(%rip),%ymm4 # 2c920 <_sk_overlay_sse2_8bit+0xcab>
DB 196,226,125,0,196 ; vpshufb %ymm4,%ymm0,%ymm0
DB 196,226,117,0,204 ; vpshufb %ymm4,%ymm1,%ymm1
DB 197,221,118,228 ; vpcmpeqd %ymm4,%ymm4,%ymm4
@@ -35428,7 +35353,7 @@ _sk_dstout_hsw_8bit LABEL PROC
PUBLIC _sk_srcover_hsw_8bit
_sk_srcover_hsw_8bit LABEL PROC
- DB 197,253,111,37,125,120,0,0 ; vmovdqa 0x787d(%rip),%ymm4 # 2c8c0 <_sk_overlay_sse2_8bit+0xc73>
+ DB 197,253,111,37,213,120,0,0 ; vmovdqa 0x78d5(%rip),%ymm4 # 2c940 <_sk_overlay_sse2_8bit+0xccb>
DB 196,226,117,0,236 ; vpshufb %ymm4,%ymm1,%ymm5
DB 196,226,125,0,228 ; vpshufb %ymm4,%ymm0,%ymm4
DB 196,98,125,48,202 ; vpmovzxbw %xmm2,%ymm9
@@ -35470,7 +35395,7 @@ _sk_srcover_hsw_8bit LABEL PROC
PUBLIC _sk_dstover_hsw_8bit
_sk_dstover_hsw_8bit LABEL PROC
- DB 197,253,111,37,222,119,0,0 ; vmovdqa 0x77de(%rip),%ymm4 # 2c8e0 <_sk_overlay_sse2_8bit+0xc93>
+ DB 197,253,111,37,54,120,0,0 ; vmovdqa 0x7836(%rip),%ymm4 # 2c960 <_sk_overlay_sse2_8bit+0xceb>
DB 196,226,101,0,236 ; vpshufb %ymm4,%ymm3,%ymm5
DB 196,226,109,0,228 ; vpshufb %ymm4,%ymm2,%ymm4
DB 196,98,125,48,200 ; vpmovzxbw %xmm0,%ymm9
@@ -35550,7 +35475,7 @@ _sk_multiply_hsw_8bit LABEL PROC
DB 72,131,236,56 ; sub $0x38,%rsp
DB 197,253,111,243 ; vmovdqa %ymm3,%ymm6
DB 197,253,111,218 ; vmovdqa %ymm2,%ymm3
- DB 197,125,111,13,155,118,0,0 ; vmovdqa 0x769b(%rip),%ymm9 # 2c900 <_sk_overlay_sse2_8bit+0xcb3>
+ DB 197,125,111,13,243,118,0,0 ; vmovdqa 0x76f3(%rip),%ymm9 # 2c980 <_sk_overlay_sse2_8bit+0xd0b>
DB 196,194,101,0,225 ; vpshufb %ymm9,%ymm3,%ymm4
DB 196,194,77,0,233 ; vpshufb %ymm9,%ymm6,%ymm5
DB 196,65,45,118,210 ; vpcmpeqd %ymm10,%ymm10,%ymm10
@@ -35691,7 +35616,7 @@ _sk_screen_hsw_8bit LABEL PROC
PUBLIC _sk_xor__hsw_8bit
_sk_xor__hsw_8bit LABEL PROC
- DB 197,125,111,13,39,116,0,0 ; vmovdqa 0x7427(%rip),%ymm9 # 2c920 <_sk_overlay_sse2_8bit+0xcd3>
+ DB 197,125,111,13,127,116,0,0 ; vmovdqa 0x747f(%rip),%ymm9 # 2c9a0 <_sk_overlay_sse2_8bit+0xd2b>
DB 196,194,109,0,225 ; vpshufb %ymm9,%ymm2,%ymm4
DB 196,194,101,0,249 ; vpshufb %ymm9,%ymm3,%ymm7
DB 196,65,37,118,219 ; vpcmpeqd %ymm11,%ymm11,%ymm11
@@ -35775,7 +35700,7 @@ _sk_plus__hsw_8bit LABEL PROC
PUBLIC _sk_darken_hsw_8bit
_sk_darken_hsw_8bit LABEL PROC
- DB 197,125,111,5,201,114,0,0 ; vmovdqa 0x72c9(%rip),%ymm8 # 2c940 <_sk_overlay_sse2_8bit+0xcf3>
+ DB 197,125,111,5,33,115,0,0 ; vmovdqa 0x7321(%rip),%ymm8 # 2c9c0 <_sk_overlay_sse2_8bit+0xd4b>
DB 196,194,101,0,224 ; vpshufb %ymm8,%ymm3,%ymm4
DB 196,194,109,0,240 ; vpshufb %ymm8,%ymm2,%ymm6
DB 196,98,125,48,208 ; vpmovzxbw %xmm0,%ymm10
@@ -35848,7 +35773,7 @@ _sk_darken_hsw_8bit LABEL PROC
DB 197,253,248,246 ; vpsubb %ymm6,%ymm0,%ymm6
DB 197,245,248,205 ; vpsubb %ymm5,%ymm1,%ymm1
DB 197,253,248,196 ; vpsubb %ymm4,%ymm0,%ymm0
- DB 196,226,125,88,37,110,106,0,0 ; vpbroadcastd 0x6a6e(%rip),%ymm4 # 2c254 <_sk_overlay_sse2_8bit+0x607>
+ DB 196,226,125,88,37,110,106,0,0 ; vpbroadcastd 0x6a6e(%rip),%ymm4 # 2c27c <_sk_overlay_sse2_8bit+0x607>
DB 196,227,125,76,198,64 ; vpblendvb %ymm4,%ymm6,%ymm0,%ymm0
DB 196,227,117,76,207,64 ; vpblendvb %ymm4,%ymm7,%ymm1,%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -35856,7 +35781,7 @@ _sk_darken_hsw_8bit LABEL PROC
PUBLIC _sk_lighten_hsw_8bit
_sk_lighten_hsw_8bit LABEL PROC
- DB 197,125,111,5,98,113,0,0 ; vmovdqa 0x7162(%rip),%ymm8 # 2c960 <_sk_overlay_sse2_8bit+0xd13>
+ DB 197,125,111,5,186,113,0,0 ; vmovdqa 0x71ba(%rip),%ymm8 # 2c9e0 <_sk_overlay_sse2_8bit+0xd6b>
DB 196,194,101,0,224 ; vpshufb %ymm8,%ymm3,%ymm4
DB 196,194,109,0,240 ; vpshufb %ymm8,%ymm2,%ymm6
DB 196,98,125,48,208 ; vpmovzxbw %xmm0,%ymm10
@@ -35929,7 +35854,7 @@ _sk_lighten_hsw_8bit LABEL PROC
DB 197,253,248,246 ; vpsubb %ymm6,%ymm0,%ymm6
DB 197,245,248,205 ; vpsubb %ymm5,%ymm1,%ymm1
DB 197,253,248,196 ; vpsubb %ymm4,%ymm0,%ymm0
- DB 196,226,125,88,37,231,104,0,0 ; vpbroadcastd 0x68e7(%rip),%ymm4 # 2c254 <_sk_overlay_sse2_8bit+0x607>
+ DB 196,226,125,88,37,231,104,0,0 ; vpbroadcastd 0x68e7(%rip),%ymm4 # 2c27c <_sk_overlay_sse2_8bit+0x607>
DB 196,227,125,76,198,64 ; vpblendvb %ymm4,%ymm6,%ymm0,%ymm0
DB 196,227,117,76,207,64 ; vpblendvb %ymm4,%ymm7,%ymm1,%ymm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -35967,7 +35892,7 @@ _sk_exclusion_hsw_8bit LABEL PROC
DB 196,227,77,56,252,1 ; vinserti128 $0x1,%xmm4,%ymm6,%ymm7
DB 196,227,77,70,228,49 ; vperm2i128 $0x31,%ymm4,%ymm6,%ymm4
DB 197,197,103,228 ; vpackuswb %ymm4,%ymm7,%ymm4
- DB 197,253,111,53,100,111,0,0 ; vmovdqa 0x6f64(%rip),%ymm6 # 2c980 <_sk_overlay_sse2_8bit+0xd33>
+ DB 197,253,111,53,188,111,0,0 ; vmovdqa 0x6fbc(%rip),%ymm6 # 2ca00 <_sk_overlay_sse2_8bit+0xd8b>
DB 197,221,219,254 ; vpand %ymm6,%ymm4,%ymm7
DB 197,213,219,246 ; vpand %ymm6,%ymm5,%ymm6
DB 197,237,252,192 ; vpaddb %ymm0,%ymm2,%ymm0
@@ -35981,7 +35906,7 @@ _sk_exclusion_hsw_8bit LABEL PROC
PUBLIC _sk_difference_hsw_8bit
_sk_difference_hsw_8bit LABEL PROC
- DB 197,125,111,5,88,111,0,0 ; vmovdqa 0x6f58(%rip),%ymm8 # 2c9a0 <_sk_overlay_sse2_8bit+0xd53>
+ DB 197,125,111,5,176,111,0,0 ; vmovdqa 0x6fb0(%rip),%ymm8 # 2ca20 <_sk_overlay_sse2_8bit+0xdab>
DB 196,194,101,0,224 ; vpshufb %ymm8,%ymm3,%ymm4
DB 196,194,109,0,240 ; vpshufb %ymm8,%ymm2,%ymm6
DB 196,98,125,48,208 ; vpmovzxbw %xmm0,%ymm10
@@ -36048,7 +35973,7 @@ _sk_difference_hsw_8bit LABEL PROC
DB 197,197,103,237 ; vpackuswb %ymm5,%ymm7,%ymm5
DB 197,181,218,228 ; vpminub %ymm4,%ymm9,%ymm4
DB 197,165,218,237 ; vpminub %ymm5,%ymm11,%ymm5
- DB 197,253,111,53,34,110,0,0 ; vmovdqa 0x6e22(%rip),%ymm6 # 2c9c0 <_sk_overlay_sse2_8bit+0xd73>
+ DB 197,253,111,53,122,110,0,0 ; vmovdqa 0x6e7a(%rip),%ymm6 # 2ca40 <_sk_overlay_sse2_8bit+0xdcb>
DB 197,213,219,254 ; vpand %ymm6,%ymm5,%ymm7
DB 197,221,219,246 ; vpand %ymm6,%ymm4,%ymm6
DB 197,237,252,192 ; vpaddb %ymm0,%ymm2,%ymm0
@@ -36072,7 +35997,7 @@ _sk_hardlight_hsw_8bit LABEL PROC
DB 196,227,125,57,203,1 ; vextracti128 $0x1,%ymm1,%xmm3
DB 196,98,125,48,195 ; vpmovzxbw %xmm3,%ymm8
DB 197,126,127,132,36,64,1,0,0 ; vmovdqu %ymm8,0x140(%rsp)
- DB 197,253,111,29,216,109,0,0 ; vmovdqa 0x6dd8(%rip),%ymm3 # 2c9e0 <_sk_overlay_sse2_8bit+0xd93>
+ DB 197,253,111,29,48,110,0,0 ; vmovdqa 0x6e30(%rip),%ymm3 # 2ca60 <_sk_overlay_sse2_8bit+0xdeb>
DB 196,226,125,0,227 ; vpshufb %ymm3,%ymm0,%ymm4
DB 196,226,117,0,203 ; vpshufb %ymm3,%ymm1,%ymm1
DB 197,125,111,251 ; vmovdqa %ymm3,%ymm15
@@ -36101,7 +36026,7 @@ _sk_hardlight_hsw_8bit LABEL PROC
DB 196,65,125,111,231 ; vmovdqa %ymm15,%ymm12
DB 196,194,93,0,220 ; vpshufb %ymm12,%ymm4,%ymm3
DB 196,226,125,48,211 ; vpmovzxbw %xmm3,%ymm2
- DB 196,226,125,121,5,90,109,0,0 ; vpbroadcastw 0x6d5a(%rip),%ymm0 # 2ca00 <_sk_overlay_sse2_8bit+0xdb3>
+ DB 196,226,125,121,5,178,109,0,0 ; vpbroadcastw 0x6db2(%rip),%ymm0 # 2ca80 <_sk_overlay_sse2_8bit+0xe0b>
DB 197,109,239,248 ; vpxor %ymm0,%ymm2,%ymm15
DB 197,133,213,207 ; vpmullw %ymm7,%ymm15,%ymm1
DB 197,254,127,140,36,160,1,0,0 ; vmovdqu %ymm1,0x1a0(%rsp)
@@ -36201,7 +36126,7 @@ _sk_hardlight_hsw_8bit LABEL PROC
DB 197,254,111,116,36,96 ; vmovdqu 0x60(%rsp),%ymm6
DB 197,205,253,180,36,128,0,0,0 ; vpaddw 0x80(%rsp),%ymm6,%ymm6
DB 196,193,53,253,252 ; vpaddw %ymm12,%ymm9,%ymm7
- DB 196,98,125,121,5,57,107,0,0 ; vpbroadcastw 0x6b39(%rip),%ymm8 # 2ca02 <_sk_overlay_sse2_8bit+0xdb5>
+ DB 196,98,125,121,5,145,107,0,0 ; vpbroadcastw 0x6b91(%rip),%ymm8 # 2ca82 <_sk_overlay_sse2_8bit+0xe0d>
DB 196,193,93,253,224 ; vpaddw %ymm8,%ymm4,%ymm4
DB 197,229,253,220 ; vpaddw %ymm4,%ymm3,%ymm3
DB 196,193,85,253,224 ; vpaddw %ymm8,%ymm5,%ymm4
@@ -36210,7 +36135,7 @@ _sk_hardlight_hsw_8bit LABEL PROC
DB 197,245,253,204 ; vpaddw %ymm4,%ymm1,%ymm1
DB 196,193,69,253,224 ; vpaddw %ymm8,%ymm7,%ymm4
DB 197,253,253,196 ; vpaddw %ymm4,%ymm0,%ymm0
- DB 196,226,125,121,37,14,107,0,0 ; vpbroadcastw 0x6b0e(%rip),%ymm4 # 2ca04 <_sk_overlay_sse2_8bit+0xdb7>
+ DB 196,226,125,121,37,102,107,0,0 ; vpbroadcastw 0x6b66(%rip),%ymm4 # 2ca84 <_sk_overlay_sse2_8bit+0xe0f>
DB 197,253,228,196 ; vpmulhuw %ymm4,%ymm0,%ymm0
DB 197,245,228,204 ; vpmulhuw %ymm4,%ymm1,%ymm1
DB 197,237,228,212 ; vpmulhuw %ymm4,%ymm2,%ymm2
@@ -36235,7 +36160,7 @@ PUBLIC _sk_overlay_hsw_8bit
_sk_overlay_hsw_8bit LABEL PROC
DB 72,129,236,24,2,0,0 ; sub $0x218,%rsp
DB 197,252,17,140,36,192,1,0,0 ; vmovups %ymm1,0x1c0(%rsp)
- DB 197,253,111,45,181,106,0,0 ; vmovdqa 0x6ab5(%rip),%ymm5 # 2ca20 <_sk_overlay_sse2_8bit+0xdd3>
+ DB 197,253,111,45,13,107,0,0 ; vmovdqa 0x6b0d(%rip),%ymm5 # 2caa0 <_sk_overlay_sse2_8bit+0xe2b>
DB 197,253,111,226 ; vmovdqa %ymm2,%ymm4
DB 196,227,125,57,225,1 ; vextracti128 $0x1,%ymm4,%xmm1
DB 196,98,125,48,193 ; vpmovzxbw %xmm1,%ymm8
@@ -36270,7 +36195,7 @@ _sk_overlay_hsw_8bit LABEL PROC
DB 197,93,117,251 ; vpcmpeqw %ymm3,%ymm4,%ymm15
DB 197,253,111,216 ; vmovdqa %ymm0,%ymm3
DB 196,226,125,48,227 ; vpmovzxbw %xmm3,%ymm4
- DB 196,226,125,121,5,15,106,0,0 ; vpbroadcastw 0x6a0f(%rip),%ymm0 # 2ca40 <_sk_overlay_sse2_8bit+0xdf3>
+ DB 196,226,125,121,5,103,106,0,0 ; vpbroadcastw 0x6a67(%rip),%ymm0 # 2cac0 <_sk_overlay_sse2_8bit+0xe4b>
DB 197,117,239,232 ; vpxor %ymm0,%ymm1,%ymm13
DB 197,21,213,212 ; vpmullw %ymm4,%ymm13,%ymm10
DB 197,126,127,148,36,64,1,0,0 ; vmovdqu %ymm10,0x140(%rsp)
@@ -36371,7 +36296,7 @@ _sk_overlay_hsw_8bit LABEL PROC
DB 197,254,111,116,36,64 ; vmovdqu 0x40(%rsp),%ymm6
DB 197,205,253,116,36,96 ; vpaddw 0x60(%rsp),%ymm6,%ymm6
DB 196,193,29,253,253 ; vpaddw %ymm13,%ymm12,%ymm7
- DB 196,98,125,121,5,2,104,0,0 ; vpbroadcastw 0x6802(%rip),%ymm8 # 2ca42 <_sk_overlay_sse2_8bit+0xdf5>
+ DB 196,98,125,121,5,90,104,0,0 ; vpbroadcastw 0x685a(%rip),%ymm8 # 2cac2 <_sk_overlay_sse2_8bit+0xe4d>
DB 196,193,109,253,208 ; vpaddw %ymm8,%ymm2,%ymm2
DB 197,229,253,210 ; vpaddw %ymm2,%ymm3,%ymm2
DB 196,193,85,253,216 ; vpaddw %ymm8,%ymm5,%ymm3
@@ -36380,7 +36305,7 @@ _sk_overlay_hsw_8bit LABEL PROC
DB 197,245,253,204 ; vpaddw %ymm4,%ymm1,%ymm1
DB 196,193,69,253,224 ; vpaddw %ymm8,%ymm7,%ymm4
DB 197,253,253,196 ; vpaddw %ymm4,%ymm0,%ymm0
- DB 196,226,125,121,37,215,103,0,0 ; vpbroadcastw 0x67d7(%rip),%ymm4 # 2ca44 <_sk_overlay_sse2_8bit+0xdf7>
+ DB 196,226,125,121,37,47,104,0,0 ; vpbroadcastw 0x682f(%rip),%ymm4 # 2cac4 <_sk_overlay_sse2_8bit+0xe4f>
DB 197,253,228,196 ; vpmulhuw %ymm4,%ymm0,%ymm0
DB 197,245,228,204 ; vpmulhuw %ymm4,%ymm1,%ymm1
DB 197,229,228,220 ; vpmulhuw %ymm4,%ymm3,%ymm3
@@ -36434,7 +36359,7 @@ _sk_start_pipeline_sse41_8bit LABEL PROC
DB 73,137,246 ; mov %rsi,%r14
DB 76,137,141,240,254,255,255 ; mov %r9,-0x110(%rbp)
DB 77,57,207 ; cmp %r9,%r15
- DB 15,131,138,0,0,0 ; jae 263db <_sk_start_pipeline_sse41_8bit+0x10b>
+ DB 15,131,138,0,0,0 ; jae 26403 <_sk_start_pipeline_sse41_8bit+0x10b>
DB 72,139,133,24,255,255,255 ; mov -0xe8(%rbp),%rax
DB 72,141,64,8 ; lea 0x8(%rax),%rax
DB 72,137,133,248,254,255,255 ; mov %rax,-0x108(%rbp)
@@ -36444,7 +36369,7 @@ _sk_start_pipeline_sse41_8bit LABEL PROC
DB 72,137,133,0,255,255,255 ; mov %rax,-0x100(%rbp)
DB 76,137,189,8,255,255,255 ; mov %r15,-0xf8(%rbp)
DB 72,199,133,16,255,255,255,0,0,0,0 ; movq $0x0,-0xf0(%rbp)
- DB 119,36 ; ja 263b7 <_sk_start_pipeline_sse41_8bit+0xe7>
+ DB 119,36 ; ja 263df <_sk_start_pipeline_sse41_8bit+0xe7>
DB 76,137,231 ; mov %r12,%rdi
DB 76,137,246 ; mov %r14,%rsi
DB 65,255,213 ; callq *%r13
@@ -36453,17 +36378,17 @@ _sk_start_pipeline_sse41_8bit LABEL PROC
DB 72,137,133,0,255,255,255 ; mov %rax,-0x100(%rbp)
DB 72,131,193,16 ; add $0x10,%rcx
DB 72,57,217 ; cmp %rbx,%rcx
- DB 118,220 ; jbe 26393 <_sk_start_pipeline_sse41_8bit+0xc3>
+ DB 118,220 ; jbe 263bb <_sk_start_pipeline_sse41_8bit+0xc3>
DB 72,137,217 ; mov %rbx,%rcx
DB 72,41,193 ; sub %rax,%rcx
- DB 116,16 ; je 263cf <_sk_start_pipeline_sse41_8bit+0xff>
+ DB 116,16 ; je 263f7 <_sk_start_pipeline_sse41_8bit+0xff>
DB 72,137,141,16,255,255,255 ; mov %rcx,-0xf0(%rbp)
DB 76,137,231 ; mov %r12,%rdi
DB 76,137,246 ; mov %r14,%rsi
DB 65,255,213 ; callq *%r13
DB 73,255,199 ; inc %r15
DB 76,59,189,240,254,255,255 ; cmp -0x110(%rbp),%r15
- DB 117,143 ; jne 2636a <_sk_start_pipeline_sse41_8bit+0x9a>
+ DB 117,143 ; jne 26392 <_sk_start_pipeline_sse41_8bit+0x9a>
DB 15,40,181,32,255,255,255 ; movaps -0xe0(%rbp),%xmm6
DB 15,40,189,48,255,255,255 ; movaps -0xd0(%rbp),%xmm7
DB 68,15,40,133,64,255,255,255 ; movaps -0xc0(%rbp),%xmm8
@@ -36501,7 +36426,7 @@ _sk_uniform_color_sse41_8bit LABEL PROC
PUBLIC _sk_set_rgb_sse41_8bit
_sk_set_rgb_sse41_8bit LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 243,15,16,37,152,92,0,0 ; movss 0x5c98(%rip),%xmm4 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 243,15,16,37,152,92,0,0 ; movss 0x5c98(%rip),%xmm4 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 243,15,16,40 ; movss (%rax),%xmm5
DB 243,15,89,236 ; mulss %xmm4,%xmm5
DB 243,72,15,44,205 ; cvttss2si %xmm5,%rcx
@@ -36516,7 +36441,7 @@ _sk_set_rgb_sse41_8bit LABEL PROC
DB 9,208 ; or %edx,%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,112,228,0 ; pshufd $0x0,%xmm4,%xmm4
- DB 102,15,111,45,208,108,0,0 ; movdqa 0x6cd0(%rip),%xmm5 # 2d160 <_sk_overlay_sse2_8bit+0x1513>
+ DB 102,15,111,45,88,109,0,0 ; movdqa 0x6d58(%rip),%xmm5 # 2d210 <_sk_overlay_sse2_8bit+0x159b>
DB 102,15,219,205 ; pand %xmm5,%xmm1
DB 102,15,219,197 ; pand %xmm5,%xmm0
DB 102,15,235,196 ; por %xmm4,%xmm0
@@ -36528,12 +36453,12 @@ PUBLIC _sk_premul_sse41_8bit
_sk_premul_sse41_8bit LABEL PROC
DB 102,15,111,225 ; movdqa %xmm1,%xmm4
DB 102,15,111,232 ; movdqa %xmm0,%xmm5
- DB 102,15,111,5,188,108,0,0 ; movdqa 0x6cbc(%rip),%xmm0 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,5,68,109,0,0 ; movdqa 0x6d44(%rip),%xmm0 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,15,111,253 ; movdqa %xmm5,%xmm7
DB 102,15,56,0,248 ; pshufb %xmm0,%xmm7
DB 102,15,111,244 ; movdqa %xmm4,%xmm6
DB 102,15,56,0,240 ; pshufb %xmm0,%xmm6
- DB 102,15,111,5,146,108,0,0 ; movdqa 0x6c92(%rip),%xmm0 # 2d160 <_sk_overlay_sse2_8bit+0x1513>
+ DB 102,15,111,5,26,109,0,0 ; movdqa 0x6d1a(%rip),%xmm0 # 2d210 <_sk_overlay_sse2_8bit+0x159b>
DB 102,15,235,240 ; por %xmm0,%xmm6
DB 102,15,235,248 ; por %xmm0,%xmm7
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
@@ -36564,7 +36489,7 @@ _sk_premul_sse41_8bit LABEL PROC
PUBLIC _sk_swap_rb_sse41_8bit
_sk_swap_rb_sse41_8bit LABEL PROC
- DB 102,15,111,37,47,108,0,0 ; movdqa 0x6c2f(%rip),%xmm4 # 2d180 <_sk_overlay_sse2_8bit+0x1533>
+ DB 102,15,111,37,183,108,0,0 ; movdqa 0x6cb7(%rip),%xmm4 # 2d230 <_sk_overlay_sse2_8bit+0x15bb>
DB 102,15,56,0,196 ; pshufb %xmm4,%xmm0
DB 102,15,56,0,204 ; pshufb %xmm4,%xmm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -36589,7 +36514,7 @@ _sk_load_8888_sse41_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,17 ; jne 265a1 <_sk_load_8888_sse41_8bit+0x32>
+ DB 117,17 ; jne 265c9 <_sk_load_8888_sse41_8bit+0x32>
DB 243,66,15,111,76,130,16 ; movdqu 0x10(%rdx,%r8,4),%xmm1
DB 243,66,15,111,4,130 ; movdqu (%rdx,%r8,4),%xmm0
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -36599,24 +36524,24 @@ _sk_load_8888_sse41_8bit LABEL PROC
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,231 ; ja 2659d <_sk_load_8888_sse41_8bit+0x2e>
+ DB 119,231 ; ja 265c5 <_sk_load_8888_sse41_8bit+0x2e>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,75,0,0,0 ; lea 0x4b(%rip),%rcx # 2660c <_sk_load_8888_sse41_8bit+0x9d>
+ DB 72,141,13,75,0,0,0 ; lea 0x4b(%rip),%rcx # 26634 <_sk_load_8888_sse41_8bit+0x9d>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,66,15,110,4,130 ; movd (%rdx,%r8,4),%xmm0
- DB 235,203 ; jmp 2659d <_sk_load_8888_sse41_8bit+0x2e>
+ DB 235,203 ; jmp 265c5 <_sk_load_8888_sse41_8bit+0x2e>
DB 102,66,15,110,68,130,8 ; movd 0x8(%rdx,%r8,4),%xmm0
DB 102,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm0
DB 243,66,15,126,36,130 ; movq (%rdx,%r8,4),%xmm4
DB 102,15,58,14,196,15 ; pblendw $0xf,%xmm4,%xmm0
- DB 235,177 ; jmp 2659d <_sk_load_8888_sse41_8bit+0x2e>
+ DB 235,177 ; jmp 265c5 <_sk_load_8888_sse41_8bit+0x2e>
DB 102,66,15,110,68,130,24 ; movd 0x18(%rdx,%r8,4),%xmm0
DB 102,15,112,200,69 ; pshufd $0x45,%xmm0,%xmm1
DB 102,66,15,58,34,76,130,20,1 ; pinsrd $0x1,0x14(%rdx,%r8,4),%xmm1
DB 102,66,15,58,34,76,130,16,0 ; pinsrd $0x0,0x10(%rdx,%r8,4),%xmm1
- DB 235,139 ; jmp 26597 <_sk_load_8888_sse41_8bit+0x28>
+ DB 235,139 ; jmp 265bf <_sk_load_8888_sse41_8bit+0x28>
DB 190,255,255,255,210 ; mov $0xd2ffffff,%esi
DB 255 ; (bad)
DB 255 ; (bad)
@@ -36646,7 +36571,7 @@ _sk_load_8888_dst_sse41_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,17 ; jne 2665a <_sk_load_8888_dst_sse41_8bit+0x32>
+ DB 117,17 ; jne 26682 <_sk_load_8888_dst_sse41_8bit+0x32>
DB 243,66,15,111,92,130,16 ; movdqu 0x10(%rdx,%r8,4),%xmm3
DB 243,66,15,111,20,130 ; movdqu (%rdx,%r8,4),%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -36656,24 +36581,24 @@ _sk_load_8888_dst_sse41_8bit LABEL PROC
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,231 ; ja 26656 <_sk_load_8888_dst_sse41_8bit+0x2e>
+ DB 119,231 ; ja 2667e <_sk_load_8888_dst_sse41_8bit+0x2e>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,78,0,0,0 ; lea 0x4e(%rip),%rcx # 266c8 <_sk_load_8888_dst_sse41_8bit+0xa0>
+ DB 72,141,13,78,0,0,0 ; lea 0x4e(%rip),%rcx # 266f0 <_sk_load_8888_dst_sse41_8bit+0xa0>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,66,15,110,20,130 ; movd (%rdx,%r8,4),%xmm2
- DB 235,203 ; jmp 26656 <_sk_load_8888_dst_sse41_8bit+0x2e>
+ DB 235,203 ; jmp 2667e <_sk_load_8888_dst_sse41_8bit+0x2e>
DB 102,66,15,110,84,130,8 ; movd 0x8(%rdx,%r8,4),%xmm2
DB 102,15,112,210,69 ; pshufd $0x45,%xmm2,%xmm2
DB 243,66,15,126,36,130 ; movq (%rdx,%r8,4),%xmm4
DB 102,15,58,14,212,15 ; pblendw $0xf,%xmm4,%xmm2
- DB 235,177 ; jmp 26656 <_sk_load_8888_dst_sse41_8bit+0x2e>
+ DB 235,177 ; jmp 2667e <_sk_load_8888_dst_sse41_8bit+0x2e>
DB 102,66,15,110,84,130,24 ; movd 0x18(%rdx,%r8,4),%xmm2
DB 102,15,112,218,69 ; pshufd $0x45,%xmm2,%xmm3
DB 102,66,15,58,34,92,130,20,1 ; pinsrd $0x1,0x14(%rdx,%r8,4),%xmm3
DB 102,66,15,58,34,92,130,16,0 ; pinsrd $0x0,0x10(%rdx,%r8,4),%xmm3
- DB 235,139 ; jmp 26650 <_sk_load_8888_dst_sse41_8bit+0x28>
+ DB 235,139 ; jmp 26678 <_sk_load_8888_dst_sse41_8bit+0x28>
DB 15,31,0 ; nopl (%rax)
DB 187,255,255,255,207 ; mov $0xcfffffff,%ebx
DB 255 ; (bad)
@@ -36685,7 +36610,7 @@ _sk_load_8888_dst_sse41_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 233,255,255,255,221 ; jmpq ffffffffde0266e0 <_sk_overlay_sse2_8bit+0xffffffffddffaa93>
+ DB 233,255,255,255,221 ; jmpq ffffffffde026708 <_sk_overlay_sse2_8bit+0xffffffffddffaa93>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; .byte 0xff
@@ -36701,7 +36626,7 @@ _sk_store_8888_sse41_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,192 ; test %r8,%r8
- DB 117,17 ; jne 26716 <_sk_store_8888_sse41_8bit+0x32>
+ DB 117,17 ; jne 2673e <_sk_store_8888_sse41_8bit+0x32>
DB 243,66,15,127,4,138 ; movdqu %xmm0,(%rdx,%r9,4)
DB 243,66,15,127,76,138,16 ; movdqu %xmm1,0x10(%rdx,%r9,4)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -36709,22 +36634,22 @@ _sk_store_8888_sse41_8bit LABEL PROC
DB 65,128,224,7 ; and $0x7,%r8b
DB 65,254,200 ; dec %r8b
DB 65,128,248,6 ; cmp $0x6,%r8b
- DB 119,239 ; ja 26712 <_sk_store_8888_sse41_8bit+0x2e>
+ DB 119,239 ; ja 2673a <_sk_store_8888_sse41_8bit+0x2e>
DB 65,15,182,192 ; movzbl %r8b,%eax
- DB 72,141,13,70,0,0,0 ; lea 0x46(%rip),%rcx # 26774 <_sk_store_8888_sse41_8bit+0x90>
+ DB 72,141,13,70,0,0,0 ; lea 0x46(%rip),%rcx # 2679c <_sk_store_8888_sse41_8bit+0x90>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,66,15,126,4,138 ; movd %xmm0,(%rdx,%r9,4)
- DB 235,211 ; jmp 26712 <_sk_store_8888_sse41_8bit+0x2e>
+ DB 235,211 ; jmp 2673a <_sk_store_8888_sse41_8bit+0x2e>
DB 102,66,15,58,22,68,138,8,2 ; pextrd $0x2,%xmm0,0x8(%rdx,%r9,4)
DB 102,66,15,214,4,138 ; movq %xmm0,(%rdx,%r9,4)
- DB 235,194 ; jmp 26712 <_sk_store_8888_sse41_8bit+0x2e>
+ DB 235,194 ; jmp 2673a <_sk_store_8888_sse41_8bit+0x2e>
DB 102,66,15,58,22,76,138,24,2 ; pextrd $0x2,%xmm1,0x18(%rdx,%r9,4)
DB 102,66,15,58,22,76,138,20,1 ; pextrd $0x1,%xmm1,0x14(%rdx,%r9,4)
DB 102,66,15,126,76,138,16 ; movd %xmm1,0x10(%rdx,%r9,4)
DB 243,66,15,127,4,138 ; movdqu %xmm0,(%rdx,%r9,4)
- DB 235,161 ; jmp 26712 <_sk_store_8888_sse41_8bit+0x2e>
+ DB 235,161 ; jmp 2673a <_sk_store_8888_sse41_8bit+0x2e>
DB 15,31,0 ; nopl (%rax)
DB 195 ; retq
DB 255 ; (bad)
@@ -36761,10 +36686,10 @@ _sk_load_bgra_sse41_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,35 ; jne 267d4 <_sk_load_bgra_sse41_8bit+0x44>
+ DB 117,35 ; jne 267fc <_sk_load_bgra_sse41_8bit+0x44>
DB 243,66,15,111,76,130,16 ; movdqu 0x10(%rdx,%r8,4),%xmm1
DB 243,66,15,111,4,130 ; movdqu (%rdx,%r8,4),%xmm0
- DB 102,15,111,37,186,105,0,0 ; movdqa 0x69ba(%rip),%xmm4 # 2d180 <_sk_overlay_sse2_8bit+0x1533>
+ DB 102,15,111,37,66,106,0,0 ; movdqa 0x6a42(%rip),%xmm4 # 2d230 <_sk_overlay_sse2_8bit+0x15bb>
DB 102,15,56,0,196 ; pshufb %xmm4,%xmm0
DB 102,15,56,0,204 ; pshufb %xmm4,%xmm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -36774,24 +36699,24 @@ _sk_load_bgra_sse41_8bit LABEL PROC
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,213 ; ja 267be <_sk_load_bgra_sse41_8bit+0x2e>
+ DB 119,213 ; ja 267e6 <_sk_load_bgra_sse41_8bit+0x2e>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,80,0,0,0 ; lea 0x50(%rip),%rcx # 26844 <_sk_load_bgra_sse41_8bit+0xb4>
+ DB 72,141,13,80,0,0,0 ; lea 0x50(%rip),%rcx # 2686c <_sk_load_bgra_sse41_8bit+0xb4>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,66,15,110,4,130 ; movd (%rdx,%r8,4),%xmm0
- DB 235,185 ; jmp 267be <_sk_load_bgra_sse41_8bit+0x2e>
+ DB 235,185 ; jmp 267e6 <_sk_load_bgra_sse41_8bit+0x2e>
DB 102,66,15,110,68,130,8 ; movd 0x8(%rdx,%r8,4),%xmm0
DB 102,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm0
DB 243,66,15,126,36,130 ; movq (%rdx,%r8,4),%xmm4
DB 102,15,58,14,196,15 ; pblendw $0xf,%xmm4,%xmm0
- DB 235,159 ; jmp 267be <_sk_load_bgra_sse41_8bit+0x2e>
+ DB 235,159 ; jmp 267e6 <_sk_load_bgra_sse41_8bit+0x2e>
DB 102,66,15,110,68,130,24 ; movd 0x18(%rdx,%r8,4),%xmm0
DB 102,15,112,200,69 ; pshufd $0x45,%xmm0,%xmm1
DB 102,66,15,58,34,76,130,20,1 ; pinsrd $0x1,0x14(%rdx,%r8,4),%xmm1
DB 102,66,15,58,34,76,130,16,0 ; pinsrd $0x0,0x10(%rdx,%r8,4),%xmm1
- DB 233,118,255,255,255 ; jmpq 267b8 <_sk_load_bgra_sse41_8bit+0x28>
+ DB 233,118,255,255,255 ; jmpq 267e0 <_sk_load_bgra_sse41_8bit+0x28>
DB 102,144 ; xchg %ax,%ax
DB 185,255,255,255,205 ; mov $0xcdffffff,%ecx
DB 255 ; (bad)
@@ -36822,10 +36747,10 @@ _sk_load_bgra_dst_sse41_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,35 ; jne 268a4 <_sk_load_bgra_dst_sse41_8bit+0x44>
+ DB 117,35 ; jne 268cc <_sk_load_bgra_dst_sse41_8bit+0x44>
DB 243,66,15,111,92,130,16 ; movdqu 0x10(%rdx,%r8,4),%xmm3
DB 243,66,15,111,20,130 ; movdqu (%rdx,%r8,4),%xmm2
- DB 102,15,111,37,234,104,0,0 ; movdqa 0x68ea(%rip),%xmm4 # 2d180 <_sk_overlay_sse2_8bit+0x1533>
+ DB 102,15,111,37,114,105,0,0 ; movdqa 0x6972(%rip),%xmm4 # 2d230 <_sk_overlay_sse2_8bit+0x15bb>
DB 102,15,56,0,212 ; pshufb %xmm4,%xmm2
DB 102,15,56,0,220 ; pshufb %xmm4,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -36835,24 +36760,24 @@ _sk_load_bgra_dst_sse41_8bit LABEL PROC
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,213 ; ja 2688e <_sk_load_bgra_dst_sse41_8bit+0x2e>
+ DB 119,213 ; ja 268b6 <_sk_load_bgra_dst_sse41_8bit+0x2e>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,80,0,0,0 ; lea 0x50(%rip),%rcx # 26914 <_sk_load_bgra_dst_sse41_8bit+0xb4>
+ DB 72,141,13,80,0,0,0 ; lea 0x50(%rip),%rcx # 2693c <_sk_load_bgra_dst_sse41_8bit+0xb4>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,66,15,110,20,130 ; movd (%rdx,%r8,4),%xmm2
- DB 235,185 ; jmp 2688e <_sk_load_bgra_dst_sse41_8bit+0x2e>
+ DB 235,185 ; jmp 268b6 <_sk_load_bgra_dst_sse41_8bit+0x2e>
DB 102,66,15,110,84,130,8 ; movd 0x8(%rdx,%r8,4),%xmm2
DB 102,15,112,210,69 ; pshufd $0x45,%xmm2,%xmm2
DB 243,66,15,126,36,130 ; movq (%rdx,%r8,4),%xmm4
DB 102,15,58,14,212,15 ; pblendw $0xf,%xmm4,%xmm2
- DB 235,159 ; jmp 2688e <_sk_load_bgra_dst_sse41_8bit+0x2e>
+ DB 235,159 ; jmp 268b6 <_sk_load_bgra_dst_sse41_8bit+0x2e>
DB 102,66,15,110,84,130,24 ; movd 0x18(%rdx,%r8,4),%xmm2
DB 102,15,112,218,69 ; pshufd $0x45,%xmm2,%xmm3
DB 102,66,15,58,34,92,130,20,1 ; pinsrd $0x1,0x14(%rdx,%r8,4),%xmm3
DB 102,66,15,58,34,92,130,16,0 ; pinsrd $0x0,0x10(%rdx,%r8,4),%xmm3
- DB 233,118,255,255,255 ; jmpq 26888 <_sk_load_bgra_dst_sse41_8bit+0x28>
+ DB 233,118,255,255,255 ; jmpq 268b0 <_sk_load_bgra_dst_sse41_8bit+0x28>
DB 102,144 ; xchg %ax,%ax
DB 185,255,255,255,205 ; mov $0xcdffffff,%ecx
DB 255 ; (bad)
@@ -36882,13 +36807,13 @@ _sk_store_bgra_sse41_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
- DB 102,15,111,53,44,104,0,0 ; movdqa 0x682c(%rip),%xmm6 # 2d180 <_sk_overlay_sse2_8bit+0x1533>
+ DB 102,15,111,53,180,104,0,0 ; movdqa 0x68b4(%rip),%xmm6 # 2d230 <_sk_overlay_sse2_8bit+0x15bb>
DB 102,15,111,233 ; movdqa %xmm1,%xmm5
DB 102,15,56,0,238 ; pshufb %xmm6,%xmm5
DB 102,15,111,224 ; movdqa %xmm0,%xmm4
DB 102,15,56,0,230 ; pshufb %xmm6,%xmm4
DB 77,133,192 ; test %r8,%r8
- DB 117,17 ; jne 2697c <_sk_store_bgra_sse41_8bit+0x4c>
+ DB 117,17 ; jne 269a4 <_sk_store_bgra_sse41_8bit+0x4c>
DB 243,66,15,127,36,138 ; movdqu %xmm4,(%rdx,%r9,4)
DB 243,66,15,127,108,138,16 ; movdqu %xmm5,0x10(%rdx,%r9,4)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -36896,22 +36821,22 @@ _sk_store_bgra_sse41_8bit LABEL PROC
DB 65,128,224,7 ; and $0x7,%r8b
DB 65,254,200 ; dec %r8b
DB 65,128,248,6 ; cmp $0x6,%r8b
- DB 119,239 ; ja 26978 <_sk_store_bgra_sse41_8bit+0x48>
+ DB 119,239 ; ja 269a0 <_sk_store_bgra_sse41_8bit+0x48>
DB 65,15,182,192 ; movzbl %r8b,%eax
- DB 72,141,13,68,0,0,0 ; lea 0x44(%rip),%rcx # 269d8 <_sk_store_bgra_sse41_8bit+0xa8>
+ DB 72,141,13,68,0,0,0 ; lea 0x44(%rip),%rcx # 26a00 <_sk_store_bgra_sse41_8bit+0xa8>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,66,15,126,36,138 ; movd %xmm4,(%rdx,%r9,4)
- DB 235,211 ; jmp 26978 <_sk_store_bgra_sse41_8bit+0x48>
+ DB 235,211 ; jmp 269a0 <_sk_store_bgra_sse41_8bit+0x48>
DB 102,66,15,58,22,100,138,8,2 ; pextrd $0x2,%xmm4,0x8(%rdx,%r9,4)
DB 102,66,15,214,36,138 ; movq %xmm4,(%rdx,%r9,4)
- DB 235,194 ; jmp 26978 <_sk_store_bgra_sse41_8bit+0x48>
+ DB 235,194 ; jmp 269a0 <_sk_store_bgra_sse41_8bit+0x48>
DB 102,66,15,58,22,108,138,24,2 ; pextrd $0x2,%xmm5,0x18(%rdx,%r9,4)
DB 102,66,15,58,22,108,138,20,1 ; pextrd $0x1,%xmm5,0x14(%rdx,%r9,4)
DB 102,66,15,126,108,138,16 ; movd %xmm5,0x10(%rdx,%r9,4)
DB 243,66,15,127,36,138 ; movdqu %xmm4,(%rdx,%r9,4)
- DB 235,161 ; jmp 26978 <_sk_store_bgra_sse41_8bit+0x48>
+ DB 235,161 ; jmp 269a0 <_sk_store_bgra_sse41_8bit+0x48>
DB 144 ; nop
DB 197,255,255 ; (bad)
DB 255,214 ; callq *%rsi
@@ -36944,9 +36869,9 @@ _sk_load_a8_sse41_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,42 ; jne 26a3b <_sk_load_a8_sse41_8bit+0x47>
+ DB 117,42 ; jne 26a63 <_sk_load_a8_sse41_8bit+0x47>
DB 102,66,15,56,48,12,2 ; pmovzxbw (%rdx,%r8,1),%xmm1
- DB 102,15,219,13,48,96,0,0 ; pand 0x6030(%rip),%xmm1 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,13,136,96,0,0 ; pand 0x6088(%rip),%xmm1 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 102,15,56,51,193 ; pmovzxwd %xmm1,%xmm0
DB 102,15,105,204 ; punpckhwd %xmm4,%xmm1
@@ -36958,15 +36883,15 @@ _sk_load_a8_sse41_8bit LABEL PROC
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,204 ; ja 26a18 <_sk_load_a8_sse41_8bit+0x24>
+ DB 119,204 ; ja 26a40 <_sk_load_a8_sse41_8bit+0x24>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,117,0,0,0 ; lea 0x75(%rip),%rcx # 26acc <_sk_load_a8_sse41_8bit+0xd8>
+ DB 72,141,13,117,0,0,0 ; lea 0x75(%rip),%rcx # 26af4 <_sk_load_a8_sse41_8bit+0xd8>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,200 ; movd %eax,%xmm1
- DB 235,173 ; jmp 26a18 <_sk_load_a8_sse41_8bit+0x24>
+ DB 235,173 ; jmp 26a40 <_sk_load_a8_sse41_8bit+0x24>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,196,200,2 ; pinsrw $0x2,%eax,%xmm1
@@ -36974,7 +36899,7 @@ _sk_load_a8_sse41_8bit LABEL PROC
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,15,56,48,192 ; pmovzxbw %xmm0,%xmm0
DB 102,15,58,14,200,3 ; pblendw $0x3,%xmm0,%xmm1
- DB 235,136 ; jmp 26a18 <_sk_load_a8_sse41_8bit+0x24>
+ DB 235,136 ; jmp 26a40 <_sk_load_a8_sse41_8bit+0x24>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,196,200,6 ; pinsrw $0x6,%eax,%xmm1
@@ -36985,7 +36910,7 @@ _sk_load_a8_sse41_8bit LABEL PROC
DB 102,66,15,110,4,2 ; movd (%rdx,%r8,1),%xmm0
DB 102,15,56,48,192 ; pmovzxbw %xmm0,%xmm0
DB 102,15,58,14,200,15 ; pblendw $0xf,%xmm0,%xmm1
- DB 233,77,255,255,255 ; jmpq 26a18 <_sk_load_a8_sse41_8bit+0x24>
+ DB 233,77,255,255,255 ; jmpq 26a40 <_sk_load_a8_sse41_8bit+0x24>
DB 144 ; nop
DB 148 ; xchg %eax,%esp
DB 255 ; (bad)
@@ -36994,7 +36919,7 @@ _sk_load_a8_sse41_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 233,255,255,255,222 ; jmpq ffffffffdf026adc <_sk_overlay_sse2_8bit+0xffffffffdeffae8f>
+ DB 233,255,255,255,222 ; jmpq ffffffffdf026b04 <_sk_overlay_sse2_8bit+0xffffffffdeffae8f>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,211 ; callq *%rbx
@@ -37015,9 +36940,9 @@ _sk_load_a8_dst_sse41_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,42 ; jne 26b2f <_sk_load_a8_dst_sse41_8bit+0x47>
+ DB 117,42 ; jne 26b57 <_sk_load_a8_dst_sse41_8bit+0x47>
DB 102,66,15,56,48,28,2 ; pmovzxbw (%rdx,%r8,1),%xmm3
- DB 102,15,219,29,60,95,0,0 ; pand 0x5f3c(%rip),%xmm3 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,29,148,95,0,0 ; pand 0x5f94(%rip),%xmm3 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 102,15,56,51,211 ; pmovzxwd %xmm3,%xmm2
DB 102,15,105,220 ; punpckhwd %xmm4,%xmm3
@@ -37029,15 +36954,15 @@ _sk_load_a8_dst_sse41_8bit LABEL PROC
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,204 ; ja 26b0c <_sk_load_a8_dst_sse41_8bit+0x24>
+ DB 119,204 ; ja 26b34 <_sk_load_a8_dst_sse41_8bit+0x24>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,117,0,0,0 ; lea 0x75(%rip),%rcx # 26bc0 <_sk_load_a8_dst_sse41_8bit+0xd8>
+ DB 72,141,13,117,0,0,0 ; lea 0x75(%rip),%rcx # 26be8 <_sk_load_a8_dst_sse41_8bit+0xd8>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,216 ; movd %eax,%xmm3
- DB 235,173 ; jmp 26b0c <_sk_load_a8_dst_sse41_8bit+0x24>
+ DB 235,173 ; jmp 26b34 <_sk_load_a8_dst_sse41_8bit+0x24>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,196,216,2 ; pinsrw $0x2,%eax,%xmm3
@@ -37045,7 +36970,7 @@ _sk_load_a8_dst_sse41_8bit LABEL PROC
DB 102,15,110,208 ; movd %eax,%xmm2
DB 102,15,56,48,210 ; pmovzxbw %xmm2,%xmm2
DB 102,15,58,14,218,3 ; pblendw $0x3,%xmm2,%xmm3
- DB 235,136 ; jmp 26b0c <_sk_load_a8_dst_sse41_8bit+0x24>
+ DB 235,136 ; jmp 26b34 <_sk_load_a8_dst_sse41_8bit+0x24>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,196,216,6 ; pinsrw $0x6,%eax,%xmm3
@@ -37056,7 +36981,7 @@ _sk_load_a8_dst_sse41_8bit LABEL PROC
DB 102,66,15,110,20,2 ; movd (%rdx,%r8,1),%xmm2
DB 102,15,56,48,210 ; pmovzxbw %xmm2,%xmm2
DB 102,15,58,14,218,15 ; pblendw $0xf,%xmm2,%xmm3
- DB 233,77,255,255,255 ; jmpq 26b0c <_sk_load_a8_dst_sse41_8bit+0x24>
+ DB 233,77,255,255,255 ; jmpq 26b34 <_sk_load_a8_dst_sse41_8bit+0x24>
DB 144 ; nop
DB 148 ; xchg %eax,%esp
DB 255 ; (bad)
@@ -37065,7 +36990,7 @@ _sk_load_a8_dst_sse41_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 233,255,255,255,222 ; jmpq ffffffffdf026bd0 <_sk_overlay_sse2_8bit+0xffffffffdeffaf83>
+ DB 233,255,255,255,222 ; jmpq ffffffffdf026bf8 <_sk_overlay_sse2_8bit+0xffffffffdeffaf83>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,211 ; callq *%rbx
@@ -37085,39 +37010,39 @@ _sk_store_a8_sse41_8bit LABEL PROC
DB 72,99,87,8 ; movslq 0x8(%rdi),%rdx
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
- DB 102,15,111,45,148,101,0,0 ; movdqa 0x6594(%rip),%xmm5 # 2d190 <_sk_overlay_sse2_8bit+0x1543>
+ DB 102,15,111,45,28,102,0,0 ; movdqa 0x661c(%rip),%xmm5 # 2d240 <_sk_overlay_sse2_8bit+0x15cb>
DB 102,15,111,241 ; movdqa %xmm1,%xmm6
DB 102,15,56,0,245 ; pshufb %xmm5,%xmm6
DB 102,15,111,224 ; movdqa %xmm0,%xmm4
DB 102,15,56,0,229 ; pshufb %xmm5,%xmm4
DB 102,15,108,230 ; punpcklqdq %xmm6,%xmm4
DB 77,133,201 ; test %r9,%r9
- DB 117,19 ; jne 26c2a <_sk_store_a8_sse41_8bit+0x4e>
- DB 102,15,56,0,37,48,101,0,0 ; pshufb 0x6530(%rip),%xmm4 # 2d150 <_sk_overlay_sse2_8bit+0x1503>
+ DB 117,19 ; jne 26c52 <_sk_store_a8_sse41_8bit+0x4e>
+ DB 102,15,56,0,37,184,101,0,0 ; pshufb 0x65b8(%rip),%xmm4 # 2d200 <_sk_overlay_sse2_8bit+0x158b>
DB 102,66,15,214,36,2 ; movq %xmm4,(%rdx,%r8,1)
DB 72,173 ; lods %ds:(%rsi),%rax
DB 255,224 ; jmpq *%rax
DB 65,128,225,7 ; and $0x7,%r9b
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,239 ; ja 26c26 <_sk_store_a8_sse41_8bit+0x4a>
+ DB 119,239 ; ja 26c4e <_sk_store_a8_sse41_8bit+0x4a>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,94,0,0,0 ; lea 0x5e(%rip),%rcx # 26ca0 <_sk_store_a8_sse41_8bit+0xc4>
+ DB 72,141,13,94,0,0,0 ; lea 0x5e(%rip),%rcx # 26cc8 <_sk_store_a8_sse41_8bit+0xc4>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,66,15,58,20,36,2,0 ; pextrb $0x0,%xmm4,(%rdx,%r8,1)
- DB 235,209 ; jmp 26c26 <_sk_store_a8_sse41_8bit+0x4a>
+ DB 235,209 ; jmp 26c4e <_sk_store_a8_sse41_8bit+0x4a>
DB 102,66,15,58,20,100,2,2,4 ; pextrb $0x4,%xmm4,0x2(%rdx,%r8,1)
- DB 102,15,56,0,37,249,93,0,0 ; pshufb 0x5df9(%rip),%xmm4 # 2ca60 <_sk_overlay_sse2_8bit+0xe13>
+ DB 102,15,56,0,37,81,94,0,0 ; pshufb 0x5e51(%rip),%xmm4 # 2cae0 <_sk_overlay_sse2_8bit+0xe6b>
DB 102,66,15,58,21,36,2,0 ; pextrw $0x0,%xmm4,(%rdx,%r8,1)
- DB 235,181 ; jmp 26c26 <_sk_store_a8_sse41_8bit+0x4a>
+ DB 235,181 ; jmp 26c4e <_sk_store_a8_sse41_8bit+0x4a>
DB 102,66,15,58,20,100,2,6,12 ; pextrb $0xc,%xmm4,0x6(%rdx,%r8,1)
DB 102,66,15,58,20,100,2,5,10 ; pextrb $0xa,%xmm4,0x5(%rdx,%r8,1)
DB 102,66,15,58,20,100,2,4,8 ; pextrb $0x8,%xmm4,0x4(%rdx,%r8,1)
- DB 102,15,56,0,37,219,93,0,0 ; pshufb 0x5ddb(%rip),%xmm4 # 2ca70 <_sk_overlay_sse2_8bit+0xe23>
+ DB 102,15,56,0,37,51,94,0,0 ; pshufb 0x5e33(%rip),%xmm4 # 2caf0 <_sk_overlay_sse2_8bit+0xe7b>
DB 102,66,15,126,36,2 ; movd %xmm4,(%rdx,%r8,1)
- DB 235,137 ; jmp 26c26 <_sk_store_a8_sse41_8bit+0x4a>
+ DB 235,137 ; jmp 26c4e <_sk_store_a8_sse41_8bit+0x4a>
DB 15,31,0 ; nopl (%rax)
DB 171 ; stos %eax,%es:(%rdi)
DB 255 ; (bad)
@@ -37151,16 +37076,16 @@ _sk_load_g8_sse41_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,66 ; jne 26d1b <_sk_load_g8_sse41_8bit+0x5f>
+ DB 117,66 ; jne 26d43 <_sk_load_g8_sse41_8bit+0x5f>
DB 102,66,15,56,48,12,2 ; pmovzxbw (%rdx,%r8,1),%xmm1
- DB 102,15,219,13,104,93,0,0 ; pand 0x5d68(%rip),%xmm1 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,13,192,93,0,0 ; pand 0x5dc0(%rip),%xmm1 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 102,15,56,51,193 ; pmovzxwd %xmm1,%xmm0
DB 102,15,105,204 ; punpckhwd %xmm4,%xmm1
- DB 102,15,111,37,163,100,0,0 ; movdqa 0x64a3(%rip),%xmm4 # 2d1a0 <_sk_overlay_sse2_8bit+0x1553>
+ DB 102,15,111,37,43,101,0,0 ; movdqa 0x652b(%rip),%xmm4 # 2d250 <_sk_overlay_sse2_8bit+0x15db>
DB 102,15,56,64,204 ; pmulld %xmm4,%xmm1
DB 102,15,56,64,196 ; pmulld %xmm4,%xmm0
- DB 102,15,111,37,81,100,0,0 ; movdqa 0x6451(%rip),%xmm4 # 2d160 <_sk_overlay_sse2_8bit+0x1513>
+ DB 102,15,111,37,217,100,0,0 ; movdqa 0x64d9(%rip),%xmm4 # 2d210 <_sk_overlay_sse2_8bit+0x159b>
DB 102,15,235,196 ; por %xmm4,%xmm0
DB 102,15,235,204 ; por %xmm4,%xmm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -37169,15 +37094,15 @@ _sk_load_g8_sse41_8bit LABEL PROC
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,180 ; ja 26ce0 <_sk_load_g8_sse41_8bit+0x24>
+ DB 119,180 ; ja 26d08 <_sk_load_g8_sse41_8bit+0x24>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,121,0,0,0 ; lea 0x79(%rip),%rcx # 26db0 <_sk_load_g8_sse41_8bit+0xf4>
+ DB 72,141,13,121,0,0,0 ; lea 0x79(%rip),%rcx # 26dd8 <_sk_load_g8_sse41_8bit+0xf4>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,200 ; movd %eax,%xmm1
- DB 235,149 ; jmp 26ce0 <_sk_load_g8_sse41_8bit+0x24>
+ DB 235,149 ; jmp 26d08 <_sk_load_g8_sse41_8bit+0x24>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,196,200,2 ; pinsrw $0x2,%eax,%xmm1
@@ -37185,7 +37110,7 @@ _sk_load_g8_sse41_8bit LABEL PROC
DB 102,15,110,192 ; movd %eax,%xmm0
DB 102,15,56,48,192 ; pmovzxbw %xmm0,%xmm0
DB 102,15,58,14,200,3 ; pblendw $0x3,%xmm0,%xmm1
- DB 233,109,255,255,255 ; jmpq 26ce0 <_sk_load_g8_sse41_8bit+0x24>
+ DB 233,109,255,255,255 ; jmpq 26d08 <_sk_load_g8_sse41_8bit+0x24>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,196,200,6 ; pinsrw $0x6,%eax,%xmm1
@@ -37196,7 +37121,7 @@ _sk_load_g8_sse41_8bit LABEL PROC
DB 102,66,15,110,4,2 ; movd (%rdx,%r8,1),%xmm0
DB 102,15,56,48,192 ; pmovzxbw %xmm0,%xmm0
DB 102,15,58,14,200,15 ; pblendw $0xf,%xmm0,%xmm1
- DB 233,50,255,255,255 ; jmpq 26ce0 <_sk_load_g8_sse41_8bit+0x24>
+ DB 233,50,255,255,255 ; jmpq 26d08 <_sk_load_g8_sse41_8bit+0x24>
DB 102,144 ; xchg %ax,%ax
DB 144 ; nop
DB 255 ; (bad)
@@ -37205,7 +37130,7 @@ _sk_load_g8_sse41_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 232,255,255,255,221 ; callq ffffffffde026dc0 <_sk_overlay_sse2_8bit+0xffffffffddffb173>
+ DB 232,255,255,255,221 ; callq ffffffffde026de8 <_sk_overlay_sse2_8bit+0xffffffffddffb173>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,210 ; callq *%rdx
@@ -37226,16 +37151,16 @@ _sk_load_g8_dst_sse41_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,66 ; jne 26e2b <_sk_load_g8_dst_sse41_8bit+0x5f>
+ DB 117,66 ; jne 26e53 <_sk_load_g8_dst_sse41_8bit+0x5f>
DB 102,66,15,56,48,28,2 ; pmovzxbw (%rdx,%r8,1),%xmm3
- DB 102,15,219,29,88,92,0,0 ; pand 0x5c58(%rip),%xmm3 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,29,176,92,0,0 ; pand 0x5cb0(%rip),%xmm3 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 102,15,56,51,211 ; pmovzxwd %xmm3,%xmm2
DB 102,15,105,220 ; punpckhwd %xmm4,%xmm3
- DB 102,15,111,37,147,99,0,0 ; movdqa 0x6393(%rip),%xmm4 # 2d1a0 <_sk_overlay_sse2_8bit+0x1553>
+ DB 102,15,111,37,27,100,0,0 ; movdqa 0x641b(%rip),%xmm4 # 2d250 <_sk_overlay_sse2_8bit+0x15db>
DB 102,15,56,64,220 ; pmulld %xmm4,%xmm3
DB 102,15,56,64,212 ; pmulld %xmm4,%xmm2
- DB 102,15,111,37,65,99,0,0 ; movdqa 0x6341(%rip),%xmm4 # 2d160 <_sk_overlay_sse2_8bit+0x1513>
+ DB 102,15,111,37,201,99,0,0 ; movdqa 0x63c9(%rip),%xmm4 # 2d210 <_sk_overlay_sse2_8bit+0x159b>
DB 102,15,235,212 ; por %xmm4,%xmm2
DB 102,15,235,220 ; por %xmm4,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -37244,15 +37169,15 @@ _sk_load_g8_dst_sse41_8bit LABEL PROC
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,180 ; ja 26df0 <_sk_load_g8_dst_sse41_8bit+0x24>
+ DB 119,180 ; ja 26e18 <_sk_load_g8_dst_sse41_8bit+0x24>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,121,0,0,0 ; lea 0x79(%rip),%rcx # 26ec0 <_sk_load_g8_dst_sse41_8bit+0xf4>
+ DB 72,141,13,121,0,0,0 ; lea 0x79(%rip),%rcx # 26ee8 <_sk_load_g8_dst_sse41_8bit+0xf4>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,216 ; movd %eax,%xmm3
- DB 235,149 ; jmp 26df0 <_sk_load_g8_dst_sse41_8bit+0x24>
+ DB 235,149 ; jmp 26e18 <_sk_load_g8_dst_sse41_8bit+0x24>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,196,216,2 ; pinsrw $0x2,%eax,%xmm3
@@ -37260,7 +37185,7 @@ _sk_load_g8_dst_sse41_8bit LABEL PROC
DB 102,15,110,208 ; movd %eax,%xmm2
DB 102,15,56,48,210 ; pmovzxbw %xmm2,%xmm2
DB 102,15,58,14,218,3 ; pblendw $0x3,%xmm2,%xmm3
- DB 233,109,255,255,255 ; jmpq 26df0 <_sk_load_g8_dst_sse41_8bit+0x24>
+ DB 233,109,255,255,255 ; jmpq 26e18 <_sk_load_g8_dst_sse41_8bit+0x24>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,196,216,6 ; pinsrw $0x6,%eax,%xmm3
@@ -37271,7 +37196,7 @@ _sk_load_g8_dst_sse41_8bit LABEL PROC
DB 102,66,15,110,20,2 ; movd (%rdx,%r8,1),%xmm2
DB 102,15,56,48,210 ; pmovzxbw %xmm2,%xmm2
DB 102,15,58,14,218,15 ; pblendw $0xf,%xmm2,%xmm3
- DB 233,50,255,255,255 ; jmpq 26df0 <_sk_load_g8_dst_sse41_8bit+0x24>
+ DB 233,50,255,255,255 ; jmpq 26e18 <_sk_load_g8_dst_sse41_8bit+0x24>
DB 102,144 ; xchg %ax,%ax
DB 144 ; nop
DB 255 ; (bad)
@@ -37280,7 +37205,7 @@ _sk_load_g8_dst_sse41_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 232,255,255,255,221 ; callq ffffffffde026ed0 <_sk_overlay_sse2_8bit+0xffffffffddffb283>
+ DB 232,255,255,255,221 ; callq ffffffffde026ef8 <_sk_overlay_sse2_8bit+0xffffffffddffb283>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,210 ; callq *%rdx
@@ -37302,11 +37227,11 @@ _sk_srcover_rgba_8888_sse41_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,192 ; test %r8,%r8
- DB 15,133,206,0,0,0 ; jne 26fcf <_sk_srcover_rgba_8888_sse41_8bit+0xf3>
+ DB 15,133,206,0,0,0 ; jne 26ff7 <_sk_srcover_rgba_8888_sse41_8bit+0xf3>
DB 243,70,15,111,68,138,16 ; movdqu 0x10(%rdx,%r9,4),%xmm8
DB 243,70,15,111,12,138 ; movdqu (%rdx,%r9,4),%xmm9
DB 77,133,192 ; test %r8,%r8
- DB 102,15,111,37,87,98,0,0 ; movdqa 0x6257(%rip),%xmm4 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,37,223,98,0,0 ; movdqa 0x62df(%rip),%xmm4 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,15,111,241 ; movdqa %xmm1,%xmm6
DB 102,15,56,0,244 ; pshufb %xmm4,%xmm6
DB 102,15,111,248 ; movdqa %xmm0,%xmm7
@@ -37340,7 +37265,7 @@ _sk_srcover_rgba_8888_sse41_8bit LABEL PROC
DB 102,68,15,248,204 ; psubb %xmm4,%xmm9
DB 102,68,15,252,200 ; paddb %xmm0,%xmm9
DB 102,68,15,252,193 ; paddb %xmm1,%xmm8
- DB 117,72 ; jne 27006 <_sk_srcover_rgba_8888_sse41_8bit+0x12a>
+ DB 117,72 ; jne 2702e <_sk_srcover_rgba_8888_sse41_8bit+0x12a>
DB 243,70,15,127,12,138 ; movdqu %xmm9,(%rdx,%r9,4)
DB 243,70,15,127,68,138,16 ; movdqu %xmm8,0x10(%rdx,%r9,4)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -37351,43 +37276,43 @@ _sk_srcover_rgba_8888_sse41_8bit LABEL PROC
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
DB 254,200 ; dec %al
DB 60,6 ; cmp $0x6,%al
- DB 15,135,38,255,255,255 ; ja 26f0e <_sk_srcover_rgba_8888_sse41_8bit+0x32>
+ DB 15,135,38,255,255,255 ; ja 26f36 <_sk_srcover_rgba_8888_sse41_8bit+0x32>
DB 15,182,192 ; movzbl %al,%eax
- DB 72,141,13,186,0,0,0 ; lea 0xba(%rip),%rcx # 270ac <_sk_srcover_rgba_8888_sse41_8bit+0x1d0>
+ DB 72,141,13,186,0,0,0 ; lea 0xba(%rip),%rcx # 270d4 <_sk_srcover_rgba_8888_sse41_8bit+0x1d0>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,70,15,110,12,138 ; movd (%rdx,%r9,4),%xmm9
- DB 233,8,255,255,255 ; jmpq 26f0e <_sk_srcover_rgba_8888_sse41_8bit+0x32>
+ DB 233,8,255,255,255 ; jmpq 26f36 <_sk_srcover_rgba_8888_sse41_8bit+0x32>
DB 65,128,224,7 ; and $0x7,%r8b
DB 65,254,200 ; dec %r8b
DB 65,128,248,6 ; cmp $0x6,%r8b
- DB 119,184 ; ja 26fcb <_sk_srcover_rgba_8888_sse41_8bit+0xef>
+ DB 119,184 ; ja 26ff3 <_sk_srcover_rgba_8888_sse41_8bit+0xef>
DB 65,15,182,192 ; movzbl %r8b,%eax
- DB 72,141,13,170,0,0,0 ; lea 0xaa(%rip),%rcx # 270c8 <_sk_srcover_rgba_8888_sse41_8bit+0x1ec>
+ DB 72,141,13,170,0,0,0 ; lea 0xaa(%rip),%rcx # 270f0 <_sk_srcover_rgba_8888_sse41_8bit+0x1ec>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,70,15,126,12,138 ; movd %xmm9,(%rdx,%r9,4)
- DB 235,156 ; jmp 26fcb <_sk_srcover_rgba_8888_sse41_8bit+0xef>
+ DB 235,156 ; jmp 26ff3 <_sk_srcover_rgba_8888_sse41_8bit+0xef>
DB 102,66,15,110,100,138,8 ; movd 0x8(%rdx,%r9,4),%xmm4
DB 102,68,15,112,204,69 ; pshufd $0x45,%xmm4,%xmm9
DB 243,66,15,126,36,138 ; movq (%rdx,%r9,4),%xmm4
DB 102,68,15,58,14,204,15 ; pblendw $0xf,%xmm4,%xmm9
- DB 233,192,254,255,255 ; jmpq 26f0e <_sk_srcover_rgba_8888_sse41_8bit+0x32>
+ DB 233,192,254,255,255 ; jmpq 26f36 <_sk_srcover_rgba_8888_sse41_8bit+0x32>
DB 102,66,15,110,100,138,24 ; movd 0x18(%rdx,%r9,4),%xmm4
DB 102,68,15,112,196,69 ; pshufd $0x45,%xmm4,%xmm8
DB 102,70,15,58,34,68,138,20,1 ; pinsrd $0x1,0x14(%rdx,%r9,4),%xmm8
DB 102,70,15,58,34,68,138,16,0 ; pinsrd $0x0,0x10(%rdx,%r9,4),%xmm8
- DB 233,150,254,255,255 ; jmpq 26f08 <_sk_srcover_rgba_8888_sse41_8bit+0x2c>
+ DB 233,150,254,255,255 ; jmpq 26f30 <_sk_srcover_rgba_8888_sse41_8bit+0x2c>
DB 102,70,15,58,22,76,138,8,2 ; pextrd $0x2,%xmm9,0x8(%rdx,%r9,4)
DB 102,70,15,214,12,138 ; movq %xmm9,(%rdx,%r9,4)
- DB 233,69,255,255,255 ; jmpq 26fcb <_sk_srcover_rgba_8888_sse41_8bit+0xef>
+ DB 233,69,255,255,255 ; jmpq 26ff3 <_sk_srcover_rgba_8888_sse41_8bit+0xef>
DB 102,70,15,58,22,68,138,24,2 ; pextrd $0x2,%xmm8,0x18(%rdx,%r9,4)
DB 102,70,15,58,22,68,138,20,1 ; pextrd $0x1,%xmm8,0x14(%rdx,%r9,4)
DB 102,70,15,126,68,138,16 ; movd %xmm8,0x10(%rdx,%r9,4)
DB 243,70,15,127,12,138 ; movdqu %xmm9,(%rdx,%r9,4)
- DB 233,33,255,255,255 ; jmpq 26fcb <_sk_srcover_rgba_8888_sse41_8bit+0xef>
+ DB 233,33,255,255,255 ; jmpq 26ff3 <_sk_srcover_rgba_8888_sse41_8bit+0xef>
DB 102,144 ; xchg %ax,%ax
DB 79,255 ; rex.WRXB (bad)
DB 255 ; (bad)
@@ -37426,7 +37351,7 @@ _sk_scale_1_float_sse41_8bit LABEL PROC
DB 102,15,111,232 ; movdqa %xmm0,%xmm5
DB 72,173 ; lods %ds:(%rsi),%rax
DB 243,15,16,0 ; movss (%rax),%xmm0
- DB 243,15,89,5,238,79,0,0 ; mulss 0x4fee(%rip),%xmm0 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 243,15,89,5,238,79,0,0 ; mulss 0x4fee(%rip),%xmm0 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 243,15,44,192 ; cvttss2si %xmm0,%eax
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 102,68,15,56,48,197 ; pmovzxbw %xmm5,%xmm8
@@ -37434,7 +37359,7 @@ _sk_scale_1_float_sse41_8bit LABEL PROC
DB 102,68,15,56,48,204 ; pmovzxbw %xmm4,%xmm9
DB 102,15,104,224 ; punpckhbw %xmm0,%xmm4
DB 102,15,110,240 ; movd %eax,%xmm6
- DB 102,15,56,0,53,142,96,0,0 ; pshufb 0x608e(%rip),%xmm6 # 2d1b0 <_sk_overlay_sse2_8bit+0x1563>
+ DB 102,15,56,0,53,22,97,0,0 ; pshufb 0x6116(%rip),%xmm6 # 2d260 <_sk_overlay_sse2_8bit+0x15eb>
DB 102,15,111,206 ; movdqa %xmm6,%xmm1
DB 102,65,15,213,201 ; pmullw %xmm9,%xmm1
DB 102,15,111,198 ; movdqa %xmm6,%xmm0
@@ -37465,13 +37390,13 @@ _sk_scale_u8_sse41_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 15,133,160,0,0,0 ; jne 27233 <_sk_scale_u8_sse41_8bit+0xc1>
+ DB 15,133,160,0,0,0 ; jne 2725b <_sk_scale_u8_sse41_8bit+0xc1>
DB 102,66,15,56,48,52,2 ; pmovzxbw (%rdx,%r8,1),%xmm6
- DB 102,15,219,53,174,88,0,0 ; pand 0x58ae(%rip),%xmm6 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,53,6,89,0,0 ; pand 0x5906(%rip),%xmm6 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
DB 102,15,111,254 ; movdqa %xmm6,%xmm7
- DB 102,15,56,0,61,12,96,0,0 ; pshufb 0x600c(%rip),%xmm7 # 2d1c0 <_sk_overlay_sse2_8bit+0x1573>
- DB 102,15,56,0,53,19,96,0,0 ; pshufb 0x6013(%rip),%xmm6 # 2d1d0 <_sk_overlay_sse2_8bit+0x1583>
+ DB 102,15,56,0,61,148,96,0,0 ; pshufb 0x6094(%rip),%xmm7 # 2d270 <_sk_overlay_sse2_8bit+0x15fb>
+ DB 102,15,56,0,53,155,96,0,0 ; pshufb 0x609b(%rip),%xmm6 # 2d280 <_sk_overlay_sse2_8bit+0x160b>
DB 102,68,15,56,48,200 ; pmovzxbw %xmm0,%xmm9
DB 102,65,15,104,192 ; punpckhbw %xmm8,%xmm0
DB 102,68,15,56,48,209 ; pmovzxbw %xmm1,%xmm10
@@ -37502,15 +37427,15 @@ _sk_scale_u8_sse41_8bit LABEL PROC
DB 102,15,239,246 ; pxor %xmm6,%xmm6
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 15,135,82,255,255,255 ; ja 2719a <_sk_scale_u8_sse41_8bit+0x28>
+ DB 15,135,82,255,255,255 ; ja 271c2 <_sk_scale_u8_sse41_8bit+0x28>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,125,0,0,0 ; lea 0x7d(%rip),%rcx # 272d0 <_sk_scale_u8_sse41_8bit+0x15e>
+ DB 72,141,13,125,0,0,0 ; lea 0x7d(%rip),%rcx # 272f8 <_sk_scale_u8_sse41_8bit+0x15e>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,240 ; movd %eax,%xmm6
- DB 233,48,255,255,255 ; jmpq 2719a <_sk_scale_u8_sse41_8bit+0x28>
+ DB 233,48,255,255,255 ; jmpq 271c2 <_sk_scale_u8_sse41_8bit+0x28>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,246 ; pxor %xmm6,%xmm6
DB 102,15,196,240,2 ; pinsrw $0x2,%eax,%xmm6
@@ -37518,7 +37443,7 @@ _sk_scale_u8_sse41_8bit LABEL PROC
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,56,48,228 ; pmovzxbw %xmm4,%xmm4
DB 102,15,58,14,244,3 ; pblendw $0x3,%xmm4,%xmm6
- DB 233,8,255,255,255 ; jmpq 2719a <_sk_scale_u8_sse41_8bit+0x28>
+ DB 233,8,255,255,255 ; jmpq 271c2 <_sk_scale_u8_sse41_8bit+0x28>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,246 ; pxor %xmm6,%xmm6
DB 102,15,196,240,6 ; pinsrw $0x6,%eax,%xmm6
@@ -37529,7 +37454,7 @@ _sk_scale_u8_sse41_8bit LABEL PROC
DB 102,66,15,110,36,2 ; movd (%rdx,%r8,1),%xmm4
DB 102,15,56,48,228 ; pmovzxbw %xmm4,%xmm4
DB 102,15,58,14,244,15 ; pblendw $0xf,%xmm4,%xmm6
- DB 233,205,254,255,255 ; jmpq 2719a <_sk_scale_u8_sse41_8bit+0x28>
+ DB 233,205,254,255,255 ; jmpq 271c2 <_sk_scale_u8_sse41_8bit+0x28>
DB 15,31,0 ; nopl (%rax)
DB 140,255 ; mov %?,%edi
DB 255 ; (bad)
@@ -37554,7 +37479,7 @@ PUBLIC _sk_lerp_1_float_sse41_8bit
_sk_lerp_1_float_sse41_8bit LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 243,15,16,32 ; movss (%rax),%xmm4
- DB 243,15,89,37,238,77,0,0 ; mulss 0x4dee(%rip),%xmm4 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 243,15,89,37,238,77,0,0 ; mulss 0x4dee(%rip),%xmm4 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 243,15,44,196 ; cvttss2si %xmm4,%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,96,228 ; punpcklbw %xmm4,%xmm4
@@ -37565,7 +37490,7 @@ _sk_lerp_1_float_sse41_8bit LABEL PROC
DB 102,65,15,104,193 ; punpckhbw %xmm9,%xmm0
DB 102,68,15,56,48,217 ; pmovzxbw %xmm1,%xmm11
DB 102,65,15,104,201 ; punpckhbw %xmm9,%xmm1
- DB 102,15,56,0,61,171,94,0,0 ; pshufb 0x5eab(%rip),%xmm7 # 2d1e0 <_sk_overlay_sse2_8bit+0x1593>
+ DB 102,15,56,0,61,51,95,0,0 ; pshufb 0x5f33(%rip),%xmm7 # 2d290 <_sk_overlay_sse2_8bit+0x161b>
DB 102,68,15,111,231 ; movdqa %xmm7,%xmm12
DB 102,69,15,213,227 ; pmullw %xmm11,%xmm12
DB 102,68,15,111,239 ; movdqa %xmm7,%xmm13
@@ -37624,13 +37549,13 @@ _sk_lerp_u8_sse41_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 15,133,46,1,0,0 ; jne 2755d <_sk_lerp_u8_sse41_8bit+0x14f>
+ DB 15,133,46,1,0,0 ; jne 27585 <_sk_lerp_u8_sse41_8bit+0x14f>
DB 102,66,15,56,48,60,2 ; pmovzxbw (%rdx,%r8,1),%xmm7
- DB 102,15,219,61,18,86,0,0 ; pand 0x5612(%rip),%xmm7 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,61,106,86,0,0 ; pand 0x566a(%rip),%xmm7 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
DB 102,15,111,247 ; movdqa %xmm7,%xmm6
- DB 102,15,56,0,53,112,93,0,0 ; pshufb 0x5d70(%rip),%xmm6 # 2d1c0 <_sk_overlay_sse2_8bit+0x1573>
- DB 102,15,56,0,61,119,93,0,0 ; pshufb 0x5d77(%rip),%xmm7 # 2d1d0 <_sk_overlay_sse2_8bit+0x1583>
+ DB 102,15,56,0,53,248,93,0,0 ; pshufb 0x5df8(%rip),%xmm6 # 2d270 <_sk_overlay_sse2_8bit+0x15fb>
+ DB 102,15,56,0,61,255,93,0,0 ; pshufb 0x5dff(%rip),%xmm7 # 2d280 <_sk_overlay_sse2_8bit+0x160b>
DB 102,68,15,56,48,200 ; pmovzxbw %xmm0,%xmm9
DB 102,65,15,104,192 ; punpckhbw %xmm8,%xmm0
DB 102,68,15,56,48,209 ; pmovzxbw %xmm1,%xmm10
@@ -37690,15 +37615,15 @@ _sk_lerp_u8_sse41_8bit LABEL PROC
DB 102,15,239,255 ; pxor %xmm7,%xmm7
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 15,135,196,254,255,255 ; ja 27436 <_sk_lerp_u8_sse41_8bit+0x28>
+ DB 15,135,196,254,255,255 ; ja 2745e <_sk_lerp_u8_sse41_8bit+0x28>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,123,0,0,0 ; lea 0x7b(%rip),%rcx # 275f8 <_sk_lerp_u8_sse41_8bit+0x1ea>
+ DB 72,141,13,123,0,0,0 ; lea 0x7b(%rip),%rcx # 27620 <_sk_lerp_u8_sse41_8bit+0x1ea>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,248 ; movd %eax,%xmm7
- DB 233,162,254,255,255 ; jmpq 27436 <_sk_lerp_u8_sse41_8bit+0x28>
+ DB 233,162,254,255,255 ; jmpq 2745e <_sk_lerp_u8_sse41_8bit+0x28>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,255 ; pxor %xmm7,%xmm7
DB 102,15,196,248,2 ; pinsrw $0x2,%eax,%xmm7
@@ -37706,7 +37631,7 @@ _sk_lerp_u8_sse41_8bit LABEL PROC
DB 102,15,110,232 ; movd %eax,%xmm5
DB 102,15,56,48,237 ; pmovzxbw %xmm5,%xmm5
DB 102,15,58,14,253,3 ; pblendw $0x3,%xmm5,%xmm7
- DB 233,122,254,255,255 ; jmpq 27436 <_sk_lerp_u8_sse41_8bit+0x28>
+ DB 233,122,254,255,255 ; jmpq 2745e <_sk_lerp_u8_sse41_8bit+0x28>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,255 ; pxor %xmm7,%xmm7
DB 102,15,196,248,6 ; pinsrw $0x6,%eax,%xmm7
@@ -37717,7 +37642,7 @@ _sk_lerp_u8_sse41_8bit LABEL PROC
DB 102,66,15,110,44,2 ; movd (%rdx,%r8,1),%xmm5
DB 102,15,56,48,237 ; pmovzxbw %xmm5,%xmm5
DB 102,15,58,14,253,15 ; pblendw $0xf,%xmm5,%xmm7
- DB 233,63,254,255,255 ; jmpq 27436 <_sk_lerp_u8_sse41_8bit+0x28>
+ DB 233,63,254,255,255 ; jmpq 2745e <_sk_lerp_u8_sse41_8bit+0x28>
DB 144 ; nop
DB 142,255 ; mov %edi,%?
DB 255 ; (bad)
@@ -37725,7 +37650,7 @@ _sk_lerp_u8_sse41_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 233,255,255,255,222 ; jmpq ffffffffdf027608 <_sk_overlay_sse2_8bit+0xffffffffdeffb9bb>
+ DB 233,255,255,255,222 ; jmpq ffffffffdf027630 <_sk_overlay_sse2_8bit+0xffffffffdeffb9bb>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,211 ; callq *%rbx
@@ -37753,7 +37678,7 @@ _sk_move_dst_src_sse41_8bit LABEL PROC
PUBLIC _sk_black_color_sse41_8bit
_sk_black_color_sse41_8bit LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,5,47,91,0,0 ; movaps 0x5b2f(%rip),%xmm0 # 2d160 <_sk_overlay_sse2_8bit+0x1513>
+ DB 15,40,5,183,91,0,0 ; movaps 0x5bb7(%rip),%xmm0 # 2d210 <_sk_overlay_sse2_8bit+0x159b>
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 255,224 ; jmpq *%rax
@@ -37773,7 +37698,7 @@ _sk_clear_sse41_8bit LABEL PROC
PUBLIC _sk_srcatop_sse41_8bit
_sk_srcatop_sse41_8bit LABEL PROC
- DB 102,68,15,111,21,27,91,0,0 ; movdqa 0x5b1b(%rip),%xmm10 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,68,15,111,21,163,91,0,0 ; movdqa 0x5ba3(%rip),%xmm10 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,111,219 ; movdqa %xmm3,%xmm11
DB 102,68,15,56,48,195 ; pmovzxbw %xmm3,%xmm8
DB 102,15,111,235 ; movdqa %xmm3,%xmm5
@@ -37841,7 +37766,7 @@ _sk_srcatop_sse41_8bit LABEL PROC
PUBLIC _sk_dstatop_sse41_8bit
_sk_dstatop_sse41_8bit LABEL PROC
- DB 102,68,15,111,29,224,89,0,0 ; movdqa 0x59e0(%rip),%xmm11 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,68,15,111,29,104,90,0,0 ; movdqa 0x5a68(%rip),%xmm11 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,111,233 ; movdqa %xmm1,%xmm13
DB 102,69,15,56,0,235 ; pshufb %xmm11,%xmm13
DB 102,68,15,111,248 ; movdqa %xmm0,%xmm15
@@ -37911,7 +37836,7 @@ PUBLIC _sk_srcin_sse41_8bit
_sk_srcin_sse41_8bit LABEL PROC
DB 102,15,111,225 ; movdqa %xmm1,%xmm4
DB 102,15,111,232 ; movdqa %xmm0,%xmm5
- DB 102,15,111,5,151,88,0,0 ; movdqa 0x5897(%rip),%xmm0 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,5,31,89,0,0 ; movdqa 0x591f(%rip),%xmm0 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,15,111,243 ; movdqa %xmm3,%xmm6
DB 102,15,56,0,240 ; pshufb %xmm0,%xmm6
DB 102,15,111,250 ; movdqa %xmm2,%xmm7
@@ -37944,7 +37869,7 @@ _sk_srcin_sse41_8bit LABEL PROC
PUBLIC _sk_dstin_sse41_8bit
_sk_dstin_sse41_8bit LABEL PROC
- DB 102,15,111,37,10,88,0,0 ; movdqa 0x580a(%rip),%xmm4 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,37,146,88,0,0 ; movdqa 0x5892(%rip),%xmm4 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,15,56,0,204 ; pshufb %xmm4,%xmm1
DB 102,15,56,0,196 ; pshufb %xmm4,%xmm0
DB 102,69,15,239,210 ; pxor %xmm10,%xmm10
@@ -37981,7 +37906,7 @@ PUBLIC _sk_srcout_sse41_8bit
_sk_srcout_sse41_8bit LABEL PROC
DB 102,15,111,225 ; movdqa %xmm1,%xmm4
DB 102,15,111,232 ; movdqa %xmm0,%xmm5
- DB 102,15,111,5,109,87,0,0 ; movdqa 0x576d(%rip),%xmm0 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,5,245,87,0,0 ; movdqa 0x57f5(%rip),%xmm0 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,15,111,250 ; movdqa %xmm2,%xmm7
DB 102,15,56,0,248 ; pshufb %xmm0,%xmm7
DB 102,15,111,243 ; movdqa %xmm3,%xmm6
@@ -38017,7 +37942,7 @@ _sk_srcout_sse41_8bit LABEL PROC
PUBLIC _sk_dstout_sse41_8bit
_sk_dstout_sse41_8bit LABEL PROC
- DB 102,15,111,37,212,86,0,0 ; movdqa 0x56d4(%rip),%xmm4 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,37,92,87,0,0 ; movdqa 0x575c(%rip),%xmm4 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,15,56,0,196 ; pshufb %xmm4,%xmm0
DB 102,15,56,0,204 ; pshufb %xmm4,%xmm1
DB 102,15,118,228 ; pcmpeqd %xmm4,%xmm4
@@ -38055,7 +37980,7 @@ _sk_dstout_sse41_8bit LABEL PROC
PUBLIC _sk_srcover_sse41_8bit
_sk_srcover_sse41_8bit LABEL PROC
- DB 102,15,111,53,51,86,0,0 ; movdqa 0x5633(%rip),%xmm6 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,53,187,86,0,0 ; movdqa 0x56bb(%rip),%xmm6 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,111,217 ; movdqa %xmm1,%xmm11
DB 102,68,15,56,0,222 ; pshufb %xmm6,%xmm11
DB 102,15,111,232 ; movdqa %xmm0,%xmm5
@@ -38094,7 +38019,7 @@ _sk_srcover_sse41_8bit LABEL PROC
PUBLIC _sk_dstover_sse41_8bit
_sk_dstover_sse41_8bit LABEL PROC
- DB 102,68,15,111,5,131,85,0,0 ; movdqa 0x5583(%rip),%xmm8 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,68,15,111,5,11,86,0,0 ; movdqa 0x560b(%rip),%xmm8 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,111,209 ; movdqa %xmm1,%xmm10
DB 102,68,15,56,48,201 ; pmovzxbw %xmm1,%xmm9
DB 102,15,252,203 ; paddb %xmm3,%xmm1
@@ -38169,7 +38094,7 @@ _sk_multiply_sse41_8bit LABEL PROC
DB 102,15,111,218 ; movdqa %xmm2,%xmm3
DB 102,15,111,209 ; movdqa %xmm1,%xmm2
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
- DB 102,68,15,111,53,65,84,0,0 ; movdqa 0x5441(%rip),%xmm14 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,68,15,111,53,201,84,0,0 ; movdqa 0x54c9(%rip),%xmm14 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,111,195 ; movdqa %xmm3,%xmm8
DB 102,15,111,235 ; movdqa %xmm3,%xmm5
DB 102,65,15,56,0,238 ; pshufb %xmm14,%xmm5
@@ -38294,7 +38219,7 @@ _sk_screen_sse41_8bit LABEL PROC
PUBLIC _sk_xor__sse41_8bit
_sk_xor__sse41_8bit LABEL PROC
- DB 102,68,15,111,21,255,81,0,0 ; movdqa 0x51ff(%rip),%xmm10 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,68,15,111,21,135,82,0,0 ; movdqa 0x5287(%rip),%xmm10 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,111,226 ; movdqa %xmm2,%xmm12
DB 102,68,15,56,48,194 ; pmovzxbw %xmm2,%xmm8
DB 102,15,111,234 ; movdqa %xmm2,%xmm5
@@ -38372,7 +38297,7 @@ _sk_plus__sse41_8bit LABEL PROC
PUBLIC _sk_darken_sse41_8bit
_sk_darken_sse41_8bit LABEL PROC
DB 102,68,15,111,240 ; movdqa %xmm0,%xmm14
- DB 102,68,15,111,5,166,80,0,0 ; movdqa 0x50a6(%rip),%xmm8 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,68,15,111,5,46,81,0,0 ; movdqa 0x512e(%rip),%xmm8 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,111,219 ; movdqa %xmm3,%xmm11
DB 102,68,15,56,48,203 ; pmovzxbw %xmm3,%xmm9
DB 102,15,111,243 ; movdqa %xmm3,%xmm6
@@ -38439,7 +38364,7 @@ _sk_darken_sse41_8bit LABEL PROC
DB 102,15,248,231 ; psubb %xmm7,%xmm4
DB 102,15,248,206 ; psubb %xmm6,%xmm1
DB 102,68,15,248,245 ; psubb %xmm5,%xmm14
- DB 15,40,5,218,79,0,0 ; movaps 0x4fda(%rip),%xmm0 # 2d1f0 <_sk_overlay_sse2_8bit+0x15a3>
+ DB 15,40,5,98,80,0,0 ; movaps 0x5062(%rip),%xmm0 # 2d2a0 <_sk_overlay_sse2_8bit+0x162b>
DB 102,68,15,56,16,244 ; pblendvb %xmm0,%xmm4,%xmm14
DB 102,65,15,56,16,200 ; pblendvb %xmm0,%xmm8,%xmm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -38449,7 +38374,7 @@ _sk_darken_sse41_8bit LABEL PROC
PUBLIC _sk_lighten_sse41_8bit
_sk_lighten_sse41_8bit LABEL PROC
DB 102,68,15,111,240 ; movdqa %xmm0,%xmm14
- DB 102,68,15,111,5,55,79,0,0 ; movdqa 0x4f37(%rip),%xmm8 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,68,15,111,5,191,79,0,0 ; movdqa 0x4fbf(%rip),%xmm8 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,111,219 ; movdqa %xmm3,%xmm11
DB 102,68,15,56,48,203 ; pmovzxbw %xmm3,%xmm9
DB 102,15,111,243 ; movdqa %xmm3,%xmm6
@@ -38516,7 +38441,7 @@ _sk_lighten_sse41_8bit LABEL PROC
DB 102,15,248,231 ; psubb %xmm7,%xmm4
DB 102,15,248,206 ; psubb %xmm6,%xmm1
DB 102,68,15,248,245 ; psubb %xmm5,%xmm14
- DB 15,40,5,107,78,0,0 ; movaps 0x4e6b(%rip),%xmm0 # 2d1f0 <_sk_overlay_sse2_8bit+0x15a3>
+ DB 15,40,5,243,78,0,0 ; movaps 0x4ef3(%rip),%xmm0 # 2d2a0 <_sk_overlay_sse2_8bit+0x162b>
DB 102,68,15,56,16,244 ; pblendvb %xmm0,%xmm4,%xmm14
DB 102,65,15,56,16,200 ; pblendvb %xmm0,%xmm8,%xmm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -38554,7 +38479,7 @@ _sk_exclusion_sse41_8bit LABEL PROC
DB 102,15,113,215,8 ; psrlw $0x8,%xmm7
DB 102,15,103,253 ; packuswb %xmm5,%xmm7
DB 102,15,103,230 ; packuswb %xmm6,%xmm4
- DB 102,15,111,45,193,77,0,0 ; movdqa 0x4dc1(%rip),%xmm5 # 2d1f0 <_sk_overlay_sse2_8bit+0x15a3>
+ DB 102,15,111,45,73,78,0,0 ; movdqa 0x4e49(%rip),%xmm5 # 2d2a0 <_sk_overlay_sse2_8bit+0x162b>
DB 102,15,248,204 ; psubb %xmm4,%xmm1
DB 102,15,219,229 ; pand %xmm5,%xmm4
DB 102,15,219,239 ; pand %xmm7,%xmm5
@@ -38567,7 +38492,7 @@ _sk_exclusion_sse41_8bit LABEL PROC
PUBLIC _sk_difference_sse41_8bit
_sk_difference_sse41_8bit LABEL PROC
DB 102,68,15,111,193 ; movdqa %xmm1,%xmm8
- DB 102,15,111,13,24,77,0,0 ; movdqa 0x4d18(%rip),%xmm1 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,13,160,77,0,0 ; movdqa 0x4da0(%rip),%xmm1 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,111,219 ; movdqa %xmm3,%xmm11
DB 102,68,15,56,48,203 ; pmovzxbw %xmm3,%xmm9
DB 102,15,111,243 ; movdqa %xmm3,%xmm6
@@ -38605,7 +38530,7 @@ _sk_difference_sse41_8bit LABEL PROC
DB 102,15,113,214,8 ; psrlw $0x8,%xmm6
DB 102,15,113,215,8 ; psrlw $0x8,%xmm7
DB 102,15,103,254 ; packuswb %xmm6,%xmm7
- DB 102,15,111,37,93,76,0,0 ; movdqa 0x4c5d(%rip),%xmm4 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,37,229,76,0,0 ; movdqa 0x4ce5(%rip),%xmm4 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,15,56,0,204 ; pshufb %xmm4,%xmm1
DB 102,15,56,0,236 ; pshufb %xmm4,%xmm5
DB 102,69,15,104,236 ; punpckhbw %xmm12,%xmm13
@@ -38630,7 +38555,7 @@ _sk_difference_sse41_8bit LABEL PROC
DB 102,15,103,241 ; packuswb %xmm1,%xmm6
DB 102,65,15,218,230 ; pminub %xmm14,%xmm4
DB 102,15,218,247 ; pminub %xmm7,%xmm6
- DB 102,15,111,13,96,76,0,0 ; movdqa 0x4c60(%rip),%xmm1 # 2d1f0 <_sk_overlay_sse2_8bit+0x15a3>
+ DB 102,15,111,13,232,76,0,0 ; movdqa 0x4ce8(%rip),%xmm1 # 2d2a0 <_sk_overlay_sse2_8bit+0x162b>
DB 102,68,15,248,198 ; psubb %xmm6,%xmm8
DB 102,15,219,241 ; pand %xmm1,%xmm6
DB 102,15,219,204 ; pand %xmm4,%xmm1
@@ -38657,7 +38582,7 @@ _sk_hardlight_sse41_8bit LABEL PROC
DB 102,15,127,12,36 ; movdqa %xmm1,(%rsp)
DB 102,69,15,56,48,221 ; pmovzxbw %xmm13,%xmm11
DB 102,68,15,127,156,36,176,0,0,0 ; movdqa %xmm11,0xb0(%rsp)
- DB 102,15,111,13,104,75,0,0 ; movdqa 0x4b68(%rip),%xmm1 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,13,240,75,0,0 ; movdqa 0x4bf0(%rip),%xmm1 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,56,0,241 ; pshufb %xmm1,%xmm14
DB 102,68,15,56,0,233 ; pshufb %xmm1,%xmm13
DB 102,69,15,56,48,205 ; pmovzxbw %xmm13,%xmm9
@@ -38706,7 +38631,7 @@ _sk_hardlight_sse41_8bit LABEL PROC
DB 102,65,15,56,58,242 ; pminuw %xmm10,%xmm6
DB 102,15,117,240 ; pcmpeqw %xmm0,%xmm6
DB 102,15,127,180,36,192,0,0,0 ; movdqa %xmm6,0xc0(%rsp)
- DB 102,15,111,53,68,67,0,0 ; movdqa 0x4344(%rip),%xmm6 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,111,53,156,67,0,0 ; movdqa 0x439c(%rip),%xmm6 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,111,199 ; movdqa %xmm7,%xmm0
DB 102,15,239,198 ; pxor %xmm6,%xmm0
DB 102,65,15,213,192 ; pmullw %xmm8,%xmm0
@@ -38813,7 +38738,7 @@ _sk_hardlight_sse41_8bit LABEL PROC
DB 102,15,253,180,36,160,0,0,0 ; paddw 0xa0(%rsp),%xmm6
DB 102,15,253,124,36,16 ; paddw 0x10(%rsp),%xmm7
DB 102,15,253,44,36 ; paddw (%rsp),%xmm5
- DB 102,15,111,5,177,72,0,0 ; movdqa 0x48b1(%rip),%xmm0 # 2d200 <_sk_overlay_sse2_8bit+0x15b3>
+ DB 102,15,111,5,57,73,0,0 ; movdqa 0x4939(%rip),%xmm0 # 2d2b0 <_sk_overlay_sse2_8bit+0x163b>
DB 102,68,15,253,216 ; paddw %xmm0,%xmm11
DB 102,68,15,253,219 ; paddw %xmm3,%xmm11
DB 102,15,253,240 ; paddw %xmm0,%xmm6
@@ -38822,7 +38747,7 @@ _sk_hardlight_sse41_8bit LABEL PROC
DB 102,15,253,252 ; paddw %xmm4,%xmm7
DB 102,15,253,232 ; paddw %xmm0,%xmm5
DB 102,15,253,234 ; paddw %xmm2,%xmm5
- DB 102,15,111,5,151,72,0,0 ; movdqa 0x4897(%rip),%xmm0 # 2d210 <_sk_overlay_sse2_8bit+0x15c3>
+ DB 102,15,111,5,31,73,0,0 ; movdqa 0x491f(%rip),%xmm0 # 2d2c0 <_sk_overlay_sse2_8bit+0x164b>
DB 102,15,228,240 ; pmulhuw %xmm0,%xmm6
DB 102,68,15,228,216 ; pmulhuw %xmm0,%xmm11
DB 102,15,228,232 ; pmulhuw %xmm0,%xmm5
@@ -38855,7 +38780,7 @@ _sk_overlay_sse41_8bit LABEL PROC
DB 102,15,127,12,36 ; movdqa %xmm1,(%rsp)
DB 102,65,15,56,48,206 ; pmovzxbw %xmm14,%xmm1
DB 102,15,127,140,36,16,1,0,0 ; movdqa %xmm1,0x110(%rsp)
- DB 102,15,111,13,97,71,0,0 ; movdqa 0x4761(%rip),%xmm1 # 2d170 <_sk_overlay_sse2_8bit+0x1523>
+ DB 102,15,111,13,233,71,0,0 ; movdqa 0x47e9(%rip),%xmm1 # 2d220 <_sk_overlay_sse2_8bit+0x15ab>
DB 102,68,15,56,0,249 ; pshufb %xmm1,%xmm15
DB 102,68,15,56,0,241 ; pshufb %xmm1,%xmm14
DB 102,65,15,56,48,238 ; pmovzxbw %xmm14,%xmm5
@@ -38907,7 +38832,7 @@ _sk_overlay_sse41_8bit LABEL PROC
DB 102,65,15,56,58,221 ; pminuw %xmm13,%xmm3
DB 102,15,117,216 ; pcmpeqw %xmm0,%xmm3
DB 102,15,127,156,36,176,0,0,0 ; movdqa %xmm3,0xb0(%rsp)
- DB 102,15,111,53,36,63,0,0 ; movdqa 0x3f24(%rip),%xmm6 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,111,53,124,63,0,0 ; movdqa 0x3f7c(%rip),%xmm6 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,65,15,111,193 ; movdqa %xmm9,%xmm0
DB 102,15,239,198 ; pxor %xmm6,%xmm0
DB 102,15,213,196 ; pmullw %xmm4,%xmm0
@@ -39016,7 +38941,7 @@ _sk_overlay_sse41_8bit LABEL PROC
DB 102,15,253,180,36,160,0,0,0 ; paddw 0xa0(%rsp),%xmm6
DB 102,68,15,253,132,36,128,0,0,0 ; paddw 0x80(%rsp),%xmm8
DB 102,15,253,44,36 ; paddw (%rsp),%xmm5
- DB 102,15,111,5,144,68,0,0 ; movdqa 0x4490(%rip),%xmm0 # 2d200 <_sk_overlay_sse2_8bit+0x15b3>
+ DB 102,15,111,5,24,69,0,0 ; movdqa 0x4518(%rip),%xmm0 # 2d2b0 <_sk_overlay_sse2_8bit+0x163b>
DB 102,68,15,253,216 ; paddw %xmm0,%xmm11
DB 102,69,15,253,217 ; paddw %xmm9,%xmm11
DB 102,15,253,240 ; paddw %xmm0,%xmm6
@@ -39025,7 +38950,7 @@ _sk_overlay_sse41_8bit LABEL PROC
DB 102,68,15,253,195 ; paddw %xmm3,%xmm8
DB 102,15,253,232 ; paddw %xmm0,%xmm5
DB 102,15,253,234 ; paddw %xmm2,%xmm5
- DB 102,15,111,5,116,68,0,0 ; movdqa 0x4474(%rip),%xmm0 # 2d210 <_sk_overlay_sse2_8bit+0x15c3>
+ DB 102,15,111,5,252,68,0,0 ; movdqa 0x44fc(%rip),%xmm0 # 2d2c0 <_sk_overlay_sse2_8bit+0x164b>
DB 102,15,228,240 ; pmulhuw %xmm0,%xmm6
DB 102,68,15,228,216 ; pmulhuw %xmm0,%xmm11
DB 102,15,228,232 ; pmulhuw %xmm0,%xmm5
@@ -39078,7 +39003,7 @@ _sk_start_pipeline_sse2_8bit LABEL PROC
DB 73,137,246 ; mov %rsi,%r14
DB 76,137,141,240,254,255,255 ; mov %r9,-0x110(%rbp)
DB 77,57,207 ; cmp %r9,%r15
- DB 15,131,138,0,0,0 ; jae 28eff <_sk_start_pipeline_sse2_8bit+0x10b>
+ DB 15,131,138,0,0,0 ; jae 28f27 <_sk_start_pipeline_sse2_8bit+0x10b>
DB 72,139,133,24,255,255,255 ; mov -0xe8(%rbp),%rax
DB 72,141,64,8 ; lea 0x8(%rax),%rax
DB 72,137,133,248,254,255,255 ; mov %rax,-0x108(%rbp)
@@ -39088,7 +39013,7 @@ _sk_start_pipeline_sse2_8bit LABEL PROC
DB 72,137,133,0,255,255,255 ; mov %rax,-0x100(%rbp)
DB 76,137,189,8,255,255,255 ; mov %r15,-0xf8(%rbp)
DB 72,199,133,16,255,255,255,0,0,0,0 ; movq $0x0,-0xf0(%rbp)
- DB 119,36 ; ja 28edb <_sk_start_pipeline_sse2_8bit+0xe7>
+ DB 119,36 ; ja 28f03 <_sk_start_pipeline_sse2_8bit+0xe7>
DB 76,137,231 ; mov %r12,%rdi
DB 76,137,246 ; mov %r14,%rsi
DB 65,255,213 ; callq *%r13
@@ -39097,17 +39022,17 @@ _sk_start_pipeline_sse2_8bit LABEL PROC
DB 72,137,133,0,255,255,255 ; mov %rax,-0x100(%rbp)
DB 72,131,193,16 ; add $0x10,%rcx
DB 72,57,217 ; cmp %rbx,%rcx
- DB 118,220 ; jbe 28eb7 <_sk_start_pipeline_sse2_8bit+0xc3>
+ DB 118,220 ; jbe 28edf <_sk_start_pipeline_sse2_8bit+0xc3>
DB 72,137,217 ; mov %rbx,%rcx
DB 72,41,193 ; sub %rax,%rcx
- DB 116,16 ; je 28ef3 <_sk_start_pipeline_sse2_8bit+0xff>
+ DB 116,16 ; je 28f1b <_sk_start_pipeline_sse2_8bit+0xff>
DB 72,137,141,16,255,255,255 ; mov %rcx,-0xf0(%rbp)
DB 76,137,231 ; mov %r12,%rdi
DB 76,137,246 ; mov %r14,%rsi
DB 65,255,213 ; callq *%r13
DB 73,255,199 ; inc %r15
DB 76,59,189,240,254,255,255 ; cmp -0x110(%rbp),%r15
- DB 117,143 ; jne 28e8e <_sk_start_pipeline_sse2_8bit+0x9a>
+ DB 117,143 ; jne 28eb6 <_sk_start_pipeline_sse2_8bit+0x9a>
DB 15,40,181,32,255,255,255 ; movaps -0xe0(%rbp),%xmm6
DB 15,40,189,48,255,255,255 ; movaps -0xd0(%rbp),%xmm7
DB 68,15,40,133,64,255,255,255 ; movaps -0xc0(%rbp),%xmm8
@@ -39145,7 +39070,7 @@ _sk_uniform_color_sse2_8bit LABEL PROC
PUBLIC _sk_set_rgb_sse2_8bit
_sk_set_rgb_sse2_8bit LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 243,15,16,37,116,49,0,0 ; movss 0x3174(%rip),%xmm4 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 243,15,16,37,116,49,0,0 ; movss 0x3174(%rip),%xmm4 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 243,15,16,40 ; movss (%rax),%xmm5
DB 243,15,89,236 ; mulss %xmm4,%xmm5
DB 243,72,15,44,205 ; cvttss2si %xmm5,%rcx
@@ -39160,7 +39085,7 @@ _sk_set_rgb_sse2_8bit LABEL PROC
DB 9,208 ; or %edx,%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,112,228,0 ; pshufd $0x0,%xmm4,%xmm4
- DB 102,15,111,45,172,65,0,0 ; movdqa 0x41ac(%rip),%xmm5 # 2d160 <_sk_overlay_sse2_8bit+0x1513>
+ DB 102,15,111,45,52,66,0,0 ; movdqa 0x4234(%rip),%xmm5 # 2d210 <_sk_overlay_sse2_8bit+0x159b>
DB 102,15,219,205 ; pand %xmm5,%xmm1
DB 102,15,219,197 ; pand %xmm5,%xmm0
DB 102,15,235,196 ; por %xmm4,%xmm0
@@ -39183,7 +39108,7 @@ _sk_premul_sse2_8bit LABEL PROC
DB 102,15,96,192 ; punpcklbw %xmm0,%xmm0
DB 242,15,112,192,95 ; pshuflw $0x5f,%xmm0,%xmm0
DB 243,15,112,248,95 ; pshufhw $0x5f,%xmm0,%xmm7
- DB 102,15,111,5,80,65,0,0 ; movdqa 0x4150(%rip),%xmm0 # 2d160 <_sk_overlay_sse2_8bit+0x1513>
+ DB 102,15,111,5,216,65,0,0 ; movdqa 0x41d8(%rip),%xmm0 # 2d210 <_sk_overlay_sse2_8bit+0x159b>
DB 102,15,235,248 ; por %xmm0,%xmm7
DB 102,15,235,240 ; por %xmm0,%xmm6
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
@@ -39258,7 +39183,7 @@ _sk_load_8888_sse2_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,16 ; jne 29130 <_sk_load_8888_sse2_8bit+0x31>
+ DB 117,16 ; jne 29158 <_sk_load_8888_sse2_8bit+0x31>
DB 66,15,16,76,130,16 ; movups 0x10(%rdx,%r8,4),%xmm1
DB 102,66,15,16,4,130 ; movupd (%rdx,%r8,4),%xmm0
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -39268,18 +39193,18 @@ _sk_load_8888_sse2_8bit LABEL PROC
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,231 ; ja 2912c <_sk_load_8888_sse2_8bit+0x2d>
+ DB 119,231 ; ja 29154 <_sk_load_8888_sse2_8bit+0x2d>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,80,0,0,0 ; lea 0x50(%rip),%rcx # 291a0 <_sk_load_8888_sse2_8bit+0xa1>
+ DB 72,141,13,80,0,0,0 ; lea 0x50(%rip),%rcx # 291c8 <_sk_load_8888_sse2_8bit+0xa1>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 243,66,15,16,4,130 ; movss (%rdx,%r8,4),%xmm0
- DB 235,203 ; jmp 2912c <_sk_load_8888_sse2_8bit+0x2d>
+ DB 235,203 ; jmp 29154 <_sk_load_8888_sse2_8bit+0x2d>
DB 102,66,15,110,68,130,8 ; movd 0x8(%rdx,%r8,4),%xmm0
DB 102,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm0
DB 102,66,15,18,4,130 ; movlpd (%rdx,%r8,4),%xmm0
- DB 235,183 ; jmp 2912c <_sk_load_8888_sse2_8bit+0x2d>
+ DB 235,183 ; jmp 29154 <_sk_load_8888_sse2_8bit+0x2d>
DB 102,66,15,110,68,130,24 ; movd 0x18(%rdx,%r8,4),%xmm0
DB 102,15,112,200,69 ; pshufd $0x45,%xmm0,%xmm1
DB 243,66,15,16,68,130,20 ; movss 0x14(%rdx,%r8,4),%xmm0
@@ -39288,7 +39213,7 @@ _sk_load_8888_sse2_8bit LABEL PROC
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 243,66,15,16,68,130,16 ; movss 0x10(%rdx,%r8,4),%xmm0
DB 243,15,16,200 ; movss %xmm0,%xmm1
- DB 235,134 ; jmp 29126 <_sk_load_8888_sse2_8bit+0x27>
+ DB 235,134 ; jmp 2914e <_sk_load_8888_sse2_8bit+0x27>
DB 185,255,255,255,205 ; mov $0xcdffffff,%ecx
DB 255 ; (bad)
DB 255 ; (bad)
@@ -39317,7 +39242,7 @@ _sk_load_8888_dst_sse2_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,16 ; jne 291ed <_sk_load_8888_dst_sse2_8bit+0x31>
+ DB 117,16 ; jne 29215 <_sk_load_8888_dst_sse2_8bit+0x31>
DB 66,15,16,92,130,16 ; movups 0x10(%rdx,%r8,4),%xmm3
DB 102,66,15,16,20,130 ; movupd (%rdx,%r8,4),%xmm2
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -39327,18 +39252,18 @@ _sk_load_8888_dst_sse2_8bit LABEL PROC
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,231 ; ja 291e9 <_sk_load_8888_dst_sse2_8bit+0x2d>
+ DB 119,231 ; ja 29211 <_sk_load_8888_dst_sse2_8bit+0x2d>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,83,0,0,0 ; lea 0x53(%rip),%rcx # 29260 <_sk_load_8888_dst_sse2_8bit+0xa4>
+ DB 72,141,13,83,0,0,0 ; lea 0x53(%rip),%rcx # 29288 <_sk_load_8888_dst_sse2_8bit+0xa4>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 243,66,15,16,20,130 ; movss (%rdx,%r8,4),%xmm2
- DB 235,203 ; jmp 291e9 <_sk_load_8888_dst_sse2_8bit+0x2d>
+ DB 235,203 ; jmp 29211 <_sk_load_8888_dst_sse2_8bit+0x2d>
DB 102,66,15,110,84,130,8 ; movd 0x8(%rdx,%r8,4),%xmm2
DB 102,15,112,210,69 ; pshufd $0x45,%xmm2,%xmm2
DB 102,66,15,18,20,130 ; movlpd (%rdx,%r8,4),%xmm2
- DB 235,183 ; jmp 291e9 <_sk_load_8888_dst_sse2_8bit+0x2d>
+ DB 235,183 ; jmp 29211 <_sk_load_8888_dst_sse2_8bit+0x2d>
DB 102,66,15,110,84,130,24 ; movd 0x18(%rdx,%r8,4),%xmm2
DB 102,15,112,218,69 ; pshufd $0x45,%xmm2,%xmm3
DB 243,66,15,16,84,130,20 ; movss 0x14(%rdx,%r8,4),%xmm2
@@ -39347,7 +39272,7 @@ _sk_load_8888_dst_sse2_8bit LABEL PROC
DB 15,40,218 ; movaps %xmm2,%xmm3
DB 243,66,15,16,84,130,16 ; movss 0x10(%rdx,%r8,4),%xmm2
DB 243,15,16,218 ; movss %xmm2,%xmm3
- DB 235,134 ; jmp 291e3 <_sk_load_8888_dst_sse2_8bit+0x27>
+ DB 235,134 ; jmp 2920b <_sk_load_8888_dst_sse2_8bit+0x27>
DB 15,31,0 ; nopl (%rax)
DB 182,255 ; mov $0xff,%dh
DB 255 ; (bad)
@@ -39380,7 +39305,7 @@ _sk_store_8888_sse2_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,192 ; test %r8,%r8
- DB 117,17 ; jne 292ae <_sk_store_8888_sse2_8bit+0x32>
+ DB 117,17 ; jne 292d6 <_sk_store_8888_sse2_8bit+0x32>
DB 243,66,15,127,4,138 ; movdqu %xmm0,(%rdx,%r9,4)
DB 243,66,15,127,76,138,16 ; movdqu %xmm1,0x10(%rdx,%r9,4)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -39388,25 +39313,25 @@ _sk_store_8888_sse2_8bit LABEL PROC
DB 65,128,224,7 ; and $0x7,%r8b
DB 65,254,200 ; dec %r8b
DB 65,128,248,6 ; cmp $0x6,%r8b
- DB 119,239 ; ja 292aa <_sk_store_8888_sse2_8bit+0x2e>
+ DB 119,239 ; ja 292d2 <_sk_store_8888_sse2_8bit+0x2e>
DB 65,15,182,192 ; movzbl %r8b,%eax
- DB 72,141,13,78,0,0,0 ; lea 0x4e(%rip),%rcx # 29314 <_sk_store_8888_sse2_8bit+0x98>
+ DB 72,141,13,78,0,0,0 ; lea 0x4e(%rip),%rcx # 2933c <_sk_store_8888_sse2_8bit+0x98>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,66,15,126,4,138 ; movd %xmm0,(%rdx,%r9,4)
- DB 235,211 ; jmp 292aa <_sk_store_8888_sse2_8bit+0x2e>
+ DB 235,211 ; jmp 292d2 <_sk_store_8888_sse2_8bit+0x2e>
DB 102,15,112,224,78 ; pshufd $0x4e,%xmm0,%xmm4
DB 102,66,15,126,100,138,8 ; movd %xmm4,0x8(%rdx,%r9,4)
DB 102,66,15,214,4,138 ; movq %xmm0,(%rdx,%r9,4)
- DB 235,191 ; jmp 292aa <_sk_store_8888_sse2_8bit+0x2e>
+ DB 235,191 ; jmp 292d2 <_sk_store_8888_sse2_8bit+0x2e>
DB 102,15,112,225,78 ; pshufd $0x4e,%xmm1,%xmm4
DB 102,66,15,126,100,138,24 ; movd %xmm4,0x18(%rdx,%r9,4)
DB 102,15,112,225,229 ; pshufd $0xe5,%xmm1,%xmm4
DB 102,66,15,126,100,138,20 ; movd %xmm4,0x14(%rdx,%r9,4)
DB 102,66,15,126,76,138,16 ; movd %xmm1,0x10(%rdx,%r9,4)
DB 243,66,15,127,4,138 ; movdqu %xmm0,(%rdx,%r9,4)
- DB 235,152 ; jmp 292aa <_sk_store_8888_sse2_8bit+0x2e>
+ DB 235,152 ; jmp 292d2 <_sk_store_8888_sse2_8bit+0x2e>
DB 102,144 ; xchg %ax,%ax
DB 187,255,255,255,207 ; mov $0xcfffffff,%ebx
DB 255 ; (bad)
@@ -39440,7 +39365,7 @@ _sk_load_bgra_sse2_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,92 ; jne 293ad <_sk_load_bgra_sse2_8bit+0x7d>
+ DB 117,92 ; jne 293d5 <_sk_load_bgra_sse2_8bit+0x7d>
DB 66,15,16,76,130,16 ; movups 0x10(%rdx,%r8,4),%xmm1
DB 102,66,15,16,4,130 ; movupd (%rdx,%r8,4),%xmm0
DB 102,15,239,228 ; pxor %xmm4,%xmm4
@@ -39467,18 +39392,18 @@ _sk_load_bgra_sse2_8bit LABEL PROC
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,155 ; ja 2935d <_sk_load_bgra_sse2_8bit+0x2d>
+ DB 119,155 ; ja 29385 <_sk_load_bgra_sse2_8bit+0x2d>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,91,0,0,0 ; lea 0x5b(%rip),%rcx # 29428 <_sk_load_bgra_sse2_8bit+0xf8>
+ DB 72,141,13,91,0,0,0 ; lea 0x5b(%rip),%rcx # 29450 <_sk_load_bgra_sse2_8bit+0xf8>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 243,66,15,16,4,130 ; movss (%rdx,%r8,4),%xmm0
- DB 233,124,255,255,255 ; jmpq 2935d <_sk_load_bgra_sse2_8bit+0x2d>
+ DB 233,124,255,255,255 ; jmpq 29385 <_sk_load_bgra_sse2_8bit+0x2d>
DB 102,66,15,110,68,130,8 ; movd 0x8(%rdx,%r8,4),%xmm0
DB 102,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm0
DB 102,66,15,18,4,130 ; movlpd (%rdx,%r8,4),%xmm0
- DB 233,101,255,255,255 ; jmpq 2935d <_sk_load_bgra_sse2_8bit+0x2d>
+ DB 233,101,255,255,255 ; jmpq 29385 <_sk_load_bgra_sse2_8bit+0x2d>
DB 102,66,15,110,68,130,24 ; movd 0x18(%rdx,%r8,4),%xmm0
DB 102,15,112,200,69 ; pshufd $0x45,%xmm0,%xmm1
DB 243,66,15,16,68,130,20 ; movss 0x14(%rdx,%r8,4),%xmm0
@@ -39487,7 +39412,7 @@ _sk_load_bgra_sse2_8bit LABEL PROC
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 243,66,15,16,68,130,16 ; movss 0x10(%rdx,%r8,4),%xmm0
DB 243,15,16,200 ; movss %xmm0,%xmm1
- DB 233,49,255,255,255 ; jmpq 29357 <_sk_load_bgra_sse2_8bit+0x27>
+ DB 233,49,255,255,255 ; jmpq 2937f <_sk_load_bgra_sse2_8bit+0x27>
DB 102,144 ; xchg %ax,%ax
DB 174 ; scas %es:(%rdi),%al
DB 255 ; (bad)
@@ -39522,7 +39447,7 @@ _sk_load_bgra_dst_sse2_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,92 ; jne 294c1 <_sk_load_bgra_dst_sse2_8bit+0x7d>
+ DB 117,92 ; jne 294e9 <_sk_load_bgra_dst_sse2_8bit+0x7d>
DB 66,15,16,92,130,16 ; movups 0x10(%rdx,%r8,4),%xmm3
DB 102,66,15,16,20,130 ; movupd (%rdx,%r8,4),%xmm2
DB 102,15,239,228 ; pxor %xmm4,%xmm4
@@ -39549,18 +39474,18 @@ _sk_load_bgra_dst_sse2_8bit LABEL PROC
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,155 ; ja 29471 <_sk_load_bgra_dst_sse2_8bit+0x2d>
+ DB 119,155 ; ja 29499 <_sk_load_bgra_dst_sse2_8bit+0x2d>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,91,0,0,0 ; lea 0x5b(%rip),%rcx # 2953c <_sk_load_bgra_dst_sse2_8bit+0xf8>
+ DB 72,141,13,91,0,0,0 ; lea 0x5b(%rip),%rcx # 29564 <_sk_load_bgra_dst_sse2_8bit+0xf8>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 243,66,15,16,20,130 ; movss (%rdx,%r8,4),%xmm2
- DB 233,124,255,255,255 ; jmpq 29471 <_sk_load_bgra_dst_sse2_8bit+0x2d>
+ DB 233,124,255,255,255 ; jmpq 29499 <_sk_load_bgra_dst_sse2_8bit+0x2d>
DB 102,66,15,110,84,130,8 ; movd 0x8(%rdx,%r8,4),%xmm2
DB 102,15,112,210,69 ; pshufd $0x45,%xmm2,%xmm2
DB 102,66,15,18,20,130 ; movlpd (%rdx,%r8,4),%xmm2
- DB 233,101,255,255,255 ; jmpq 29471 <_sk_load_bgra_dst_sse2_8bit+0x2d>
+ DB 233,101,255,255,255 ; jmpq 29499 <_sk_load_bgra_dst_sse2_8bit+0x2d>
DB 102,66,15,110,84,130,24 ; movd 0x18(%rdx,%r8,4),%xmm2
DB 102,15,112,218,69 ; pshufd $0x45,%xmm2,%xmm3
DB 243,66,15,16,84,130,20 ; movss 0x14(%rdx,%r8,4),%xmm2
@@ -39569,7 +39494,7 @@ _sk_load_bgra_dst_sse2_8bit LABEL PROC
DB 15,40,218 ; movaps %xmm2,%xmm3
DB 243,66,15,16,84,130,16 ; movss 0x10(%rdx,%r8,4),%xmm2
DB 243,15,16,218 ; movss %xmm2,%xmm3
- DB 233,49,255,255,255 ; jmpq 2946b <_sk_load_bgra_dst_sse2_8bit+0x27>
+ DB 233,49,255,255,255 ; jmpq 29493 <_sk_load_bgra_dst_sse2_8bit+0x27>
DB 102,144 ; xchg %ax,%ax
DB 174 ; scas %es:(%rdi),%al
DB 255 ; (bad)
@@ -39623,7 +39548,7 @@ _sk_store_bgra_sse2_8bit LABEL PROC
DB 243,15,112,237,198 ; pshufhw $0xc6,%xmm5,%xmm5
DB 102,15,103,238 ; packuswb %xmm6,%xmm5
DB 77,133,192 ; test %r8,%r8
- DB 117,17 ; jne 295de <_sk_store_bgra_sse2_8bit+0x86>
+ DB 117,17 ; jne 29606 <_sk_store_bgra_sse2_8bit+0x86>
DB 243,66,15,127,44,138 ; movdqu %xmm5,(%rdx,%r9,4)
DB 243,66,15,127,100,138,16 ; movdqu %xmm4,0x10(%rdx,%r9,4)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -39631,25 +39556,25 @@ _sk_store_bgra_sse2_8bit LABEL PROC
DB 65,128,224,7 ; and $0x7,%r8b
DB 65,254,200 ; dec %r8b
DB 65,128,248,6 ; cmp $0x6,%r8b
- DB 119,239 ; ja 295da <_sk_store_bgra_sse2_8bit+0x82>
+ DB 119,239 ; ja 29602 <_sk_store_bgra_sse2_8bit+0x82>
DB 65,15,182,192 ; movzbl %r8b,%eax
- DB 72,141,13,78,0,0,0 ; lea 0x4e(%rip),%rcx # 29644 <_sk_store_bgra_sse2_8bit+0xec>
+ DB 72,141,13,78,0,0,0 ; lea 0x4e(%rip),%rcx # 2966c <_sk_store_bgra_sse2_8bit+0xec>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,66,15,126,44,138 ; movd %xmm5,(%rdx,%r9,4)
- DB 235,211 ; jmp 295da <_sk_store_bgra_sse2_8bit+0x82>
+ DB 235,211 ; jmp 29602 <_sk_store_bgra_sse2_8bit+0x82>
DB 102,15,112,229,78 ; pshufd $0x4e,%xmm5,%xmm4
DB 102,66,15,126,100,138,8 ; movd %xmm4,0x8(%rdx,%r9,4)
DB 102,66,15,214,44,138 ; movq %xmm5,(%rdx,%r9,4)
- DB 235,191 ; jmp 295da <_sk_store_bgra_sse2_8bit+0x82>
+ DB 235,191 ; jmp 29602 <_sk_store_bgra_sse2_8bit+0x82>
DB 102,15,112,244,78 ; pshufd $0x4e,%xmm4,%xmm6
DB 102,66,15,126,116,138,24 ; movd %xmm6,0x18(%rdx,%r9,4)
DB 102,15,112,244,229 ; pshufd $0xe5,%xmm4,%xmm6
DB 102,66,15,126,116,138,20 ; movd %xmm6,0x14(%rdx,%r9,4)
DB 102,66,15,126,100,138,16 ; movd %xmm4,0x10(%rdx,%r9,4)
DB 243,66,15,127,44,138 ; movdqu %xmm5,(%rdx,%r9,4)
- DB 235,152 ; jmp 295da <_sk_store_bgra_sse2_8bit+0x82>
+ DB 235,152 ; jmp 29602 <_sk_store_bgra_sse2_8bit+0x82>
DB 102,144 ; xchg %ax,%ax
DB 187,255,255,255,207 ; mov $0xcfffffff,%ebx
DB 255 ; (bad)
@@ -39682,10 +39607,10 @@ _sk_load_a8_sse2_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,48 ; jne 296ad <_sk_load_a8_sse2_8bit+0x4d>
+ DB 117,48 ; jne 296d5 <_sk_load_a8_sse2_8bit+0x4d>
DB 243,66,15,126,4,2 ; movq (%rdx,%r8,1),%xmm0
DB 102,15,96,192 ; punpcklbw %xmm0,%xmm0
- DB 102,15,219,5,193,51,0,0 ; pand 0x33c1(%rip),%xmm0 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,5,25,52,0,0 ; pand 0x3419(%rip),%xmm0 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
DB 102,15,105,204 ; punpckhwd %xmm4,%xmm1
@@ -39698,15 +39623,15 @@ _sk_load_a8_sse2_8bit LABEL PROC
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,201 ; ja 29687 <_sk_load_a8_sse2_8bit+0x27>
+ DB 119,201 ; ja 296af <_sk_load_a8_sse2_8bit+0x27>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,111,0,0,0 ; lea 0x6f(%rip),%rcx # 29738 <_sk_load_a8_sse2_8bit+0xd8>
+ DB 72,141,13,111,0,0,0 ; lea 0x6f(%rip),%rcx # 29760 <_sk_load_a8_sse2_8bit+0xd8>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
- DB 235,170 ; jmp 29687 <_sk_load_a8_sse2_8bit+0x27>
+ DB 235,170 ; jmp 296af <_sk_load_a8_sse2_8bit+0x27>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 102,15,196,192,2 ; pinsrw $0x2,%eax,%xmm0
@@ -39714,7 +39639,7 @@ _sk_load_a8_sse2_8bit LABEL PROC
DB 102,15,110,200 ; movd %eax,%xmm1
DB 102,15,96,200 ; punpcklbw %xmm0,%xmm1
DB 243,15,16,193 ; movss %xmm1,%xmm0
- DB 235,136 ; jmp 29687 <_sk_load_a8_sse2_8bit+0x27>
+ DB 235,136 ; jmp 296af <_sk_load_a8_sse2_8bit+0x27>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 102,15,196,192,6 ; pinsrw $0x6,%eax,%xmm0
@@ -39725,7 +39650,7 @@ _sk_load_a8_sse2_8bit LABEL PROC
DB 102,66,15,110,12,2 ; movd (%rdx,%r8,1),%xmm1
DB 102,15,96,200 ; punpcklbw %xmm0,%xmm1
DB 242,15,16,193 ; movsd %xmm1,%xmm0
- DB 233,80,255,255,255 ; jmpq 29687 <_sk_load_a8_sse2_8bit+0x27>
+ DB 233,80,255,255,255 ; jmpq 296af <_sk_load_a8_sse2_8bit+0x27>
DB 144 ; nop
DB 154 ; (bad)
DB 255 ; (bad)
@@ -39757,10 +39682,10 @@ _sk_load_a8_dst_sse2_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,48 ; jne 297a1 <_sk_load_a8_dst_sse2_8bit+0x4d>
+ DB 117,48 ; jne 297c9 <_sk_load_a8_dst_sse2_8bit+0x4d>
DB 243,66,15,126,20,2 ; movq (%rdx,%r8,1),%xmm2
DB 102,15,96,208 ; punpcklbw %xmm0,%xmm2
- DB 102,15,219,21,205,50,0,0 ; pand 0x32cd(%rip),%xmm2 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,21,37,51,0,0 ; pand 0x3325(%rip),%xmm2 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 102,15,111,218 ; movdqa %xmm2,%xmm3
DB 102,15,105,220 ; punpckhwd %xmm4,%xmm3
@@ -39773,15 +39698,15 @@ _sk_load_a8_dst_sse2_8bit LABEL PROC
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,201 ; ja 2977b <_sk_load_a8_dst_sse2_8bit+0x27>
+ DB 119,201 ; ja 297a3 <_sk_load_a8_dst_sse2_8bit+0x27>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,111,0,0,0 ; lea 0x6f(%rip),%rcx # 2982c <_sk_load_a8_dst_sse2_8bit+0xd8>
+ DB 72,141,13,111,0,0,0 ; lea 0x6f(%rip),%rcx # 29854 <_sk_load_a8_dst_sse2_8bit+0xd8>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,208 ; movd %eax,%xmm2
- DB 235,170 ; jmp 2977b <_sk_load_a8_dst_sse2_8bit+0x27>
+ DB 235,170 ; jmp 297a3 <_sk_load_a8_dst_sse2_8bit+0x27>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 102,15,196,208,2 ; pinsrw $0x2,%eax,%xmm2
@@ -39789,7 +39714,7 @@ _sk_load_a8_dst_sse2_8bit LABEL PROC
DB 102,15,110,216 ; movd %eax,%xmm3
DB 102,15,96,216 ; punpcklbw %xmm0,%xmm3
DB 243,15,16,211 ; movss %xmm3,%xmm2
- DB 235,136 ; jmp 2977b <_sk_load_a8_dst_sse2_8bit+0x27>
+ DB 235,136 ; jmp 297a3 <_sk_load_a8_dst_sse2_8bit+0x27>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 102,15,196,208,6 ; pinsrw $0x6,%eax,%xmm2
@@ -39800,7 +39725,7 @@ _sk_load_a8_dst_sse2_8bit LABEL PROC
DB 102,66,15,110,28,2 ; movd (%rdx,%r8,1),%xmm3
DB 102,15,96,216 ; punpcklbw %xmm0,%xmm3
DB 242,15,16,211 ; movsd %xmm3,%xmm2
- DB 233,80,255,255,255 ; jmpq 2977b <_sk_load_a8_dst_sse2_8bit+0x27>
+ DB 233,80,255,255,255 ; jmpq 297a3 <_sk_load_a8_dst_sse2_8bit+0x27>
DB 144 ; nop
DB 154 ; (bad)
DB 255 ; (bad)
@@ -39842,8 +39767,8 @@ _sk_store_a8_sse2_8bit LABEL PROC
DB 102,15,114,228,16 ; psrad $0x10,%xmm4
DB 102,15,107,229 ; packssdw %xmm5,%xmm4
DB 77,133,201 ; test %r9,%r9
- DB 117,26 ; jne 298ad <_sk_store_a8_sse2_8bit+0x65>
- DB 102,15,219,37,181,49,0,0 ; pand 0x31b5(%rip),%xmm4 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 117,26 ; jne 298d5 <_sk_store_a8_sse2_8bit+0x65>
+ DB 102,15,219,37,13,50,0,0 ; pand 0x320d(%rip),%xmm4 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,103,228 ; packuswb %xmm4,%xmm4
DB 102,66,15,214,36,2 ; movq %xmm4,(%rdx,%r8,1)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -39852,24 +39777,24 @@ _sk_store_a8_sse2_8bit LABEL PROC
DB 65,128,225,7 ; and $0x7,%r9b
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,235 ; ja 298a5 <_sk_store_a8_sse2_8bit+0x5d>
+ DB 119,235 ; ja 298cd <_sk_store_a8_sse2_8bit+0x5d>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,131,0,0,0 ; lea 0x83(%rip),%rcx # 29948 <_sk_store_a8_sse2_8bit+0x100>
+ DB 72,141,13,131,0,0,0 ; lea 0x83(%rip),%rcx # 29970 <_sk_store_a8_sse2_8bit+0x100>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,15,127,100,36,64 ; movdqa %xmm4,0x40(%rsp)
DB 138,68,36,64 ; mov 0x40(%rsp),%al
DB 66,136,4,2 ; mov %al,(%rdx,%r8,1)
- DB 235,199 ; jmp 298a5 <_sk_store_a8_sse2_8bit+0x5d>
+ DB 235,199 ; jmp 298cd <_sk_store_a8_sse2_8bit+0x5d>
DB 102,15,127,100,36,48 ; movdqa %xmm4,0x30(%rsp)
DB 138,68,36,52 ; mov 0x34(%rsp),%al
DB 66,136,68,2,2 ; mov %al,0x2(%rdx,%r8,1)
- DB 102,15,219,37,91,49,0,0 ; pand 0x315b(%rip),%xmm4 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,37,179,49,0,0 ; pand 0x31b3(%rip),%xmm4 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,103,228 ; packuswb %xmm4,%xmm4
DB 102,15,126,224 ; movd %xmm4,%eax
DB 102,66,137,4,2 ; mov %ax,(%rdx,%r8,1)
- DB 235,161 ; jmp 298a5 <_sk_store_a8_sse2_8bit+0x5d>
+ DB 235,161 ; jmp 298cd <_sk_store_a8_sse2_8bit+0x5d>
DB 102,15,127,100,36,32 ; movdqa %xmm4,0x20(%rsp)
DB 138,68,36,44 ; mov 0x2c(%rsp),%al
DB 66,136,68,2,6 ; mov %al,0x6(%rdx,%r8,1)
@@ -39879,10 +39804,10 @@ _sk_store_a8_sse2_8bit LABEL PROC
DB 102,15,127,36,36 ; movdqa %xmm4,(%rsp)
DB 138,68,36,8 ; mov 0x8(%rsp),%al
DB 66,136,68,2,4 ; mov %al,0x4(%rdx,%r8,1)
- DB 102,15,219,37,24,49,0,0 ; pand 0x3118(%rip),%xmm4 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,37,112,49,0,0 ; pand 0x3170(%rip),%xmm4 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,103,228 ; packuswb %xmm4,%xmm4
DB 102,66,15,126,36,2 ; movd %xmm4,(%rdx,%r8,1)
- DB 233,94,255,255,255 ; jmpq 298a5 <_sk_store_a8_sse2_8bit+0x5d>
+ DB 233,94,255,255,255 ; jmpq 298cd <_sk_store_a8_sse2_8bit+0x5d>
DB 144 ; nop
DB 134,255 ; xchg %bh,%bh
DB 255 ; (bad)
@@ -39890,7 +39815,7 @@ _sk_store_a8_sse2_8bit LABEL PROC
DB 255 ; (bad)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 232,255,255,255,218 ; callq ffffffffdb029958 <_sk_overlay_sse2_8bit+0xffffffffdaffdd0b>
+ DB 232,255,255,255,218 ; callq ffffffffdb029980 <_sk_overlay_sse2_8bit+0xffffffffdaffdd0b>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,203 ; dec %ebx
@@ -39912,15 +39837,15 @@ _sk_load_g8_sse2_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,116 ; jne 299f5 <_sk_load_g8_sse2_8bit+0x91>
+ DB 117,116 ; jne 29a1d <_sk_load_g8_sse2_8bit+0x91>
DB 243,66,15,126,4,2 ; movq (%rdx,%r8,1),%xmm0
DB 102,15,96,192 ; punpcklbw %xmm0,%xmm0
- DB 102,15,219,5,189,48,0,0 ; pand 0x30bd(%rip),%xmm0 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,5,21,49,0,0 ; pand 0x3115(%rip),%xmm0 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,111,224 ; movdqa %xmm0,%xmm4
DB 102,15,97,225 ; punpcklwd %xmm1,%xmm4
DB 102,15,105,193 ; punpckhwd %xmm1,%xmm0
- DB 102,15,111,45,245,55,0,0 ; movdqa 0x37f5(%rip),%xmm5 # 2d1a0 <_sk_overlay_sse2_8bit+0x1553>
+ DB 102,15,111,45,125,56,0,0 ; movdqa 0x387d(%rip),%xmm5 # 2d250 <_sk_overlay_sse2_8bit+0x15db>
DB 102,15,112,240,245 ; pshufd $0xf5,%xmm0,%xmm6
DB 102,15,244,197 ; pmuludq %xmm5,%xmm0
DB 102,15,112,200,232 ; pshufd $0xe8,%xmm0,%xmm1
@@ -39933,7 +39858,7 @@ _sk_load_g8_sse2_8bit LABEL PROC
DB 102,15,244,245 ; pmuludq %xmm5,%xmm6
DB 102,15,112,230,232 ; pshufd $0xe8,%xmm6,%xmm4
DB 102,15,98,196 ; punpckldq %xmm4,%xmm0
- DB 102,15,111,37,119,55,0,0 ; movdqa 0x3777(%rip),%xmm4 # 2d160 <_sk_overlay_sse2_8bit+0x1513>
+ DB 102,15,111,37,255,55,0,0 ; movdqa 0x37ff(%rip),%xmm4 # 2d210 <_sk_overlay_sse2_8bit+0x159b>
DB 102,15,235,196 ; por %xmm4,%xmm0
DB 102,15,235,204 ; por %xmm4,%xmm1
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -39942,15 +39867,15 @@ _sk_load_g8_sse2_8bit LABEL PROC
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,133 ; ja 2998b <_sk_load_g8_sse2_8bit+0x27>
+ DB 119,133 ; ja 299b3 <_sk_load_g8_sse2_8bit+0x27>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,119,0,0,0 ; lea 0x77(%rip),%rcx # 29a88 <_sk_load_g8_sse2_8bit+0x124>
+ DB 72,141,13,119,0,0,0 ; lea 0x77(%rip),%rcx # 29ab0 <_sk_load_g8_sse2_8bit+0x124>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,192 ; movd %eax,%xmm0
- DB 233,99,255,255,255 ; jmpq 2998b <_sk_load_g8_sse2_8bit+0x27>
+ DB 233,99,255,255,255 ; jmpq 299b3 <_sk_load_g8_sse2_8bit+0x27>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 102,15,196,192,2 ; pinsrw $0x2,%eax,%xmm0
@@ -39958,7 +39883,7 @@ _sk_load_g8_sse2_8bit LABEL PROC
DB 102,15,110,200 ; movd %eax,%xmm1
DB 102,15,96,200 ; punpcklbw %xmm0,%xmm1
DB 243,15,16,193 ; movss %xmm1,%xmm0
- DB 233,62,255,255,255 ; jmpq 2998b <_sk_load_g8_sse2_8bit+0x27>
+ DB 233,62,255,255,255 ; jmpq 299b3 <_sk_load_g8_sse2_8bit+0x27>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 102,15,196,192,6 ; pinsrw $0x6,%eax,%xmm0
@@ -39969,7 +39894,7 @@ _sk_load_g8_sse2_8bit LABEL PROC
DB 102,66,15,110,12,2 ; movd (%rdx,%r8,1),%xmm1
DB 102,15,96,200 ; punpcklbw %xmm0,%xmm1
DB 242,15,16,193 ; movsd %xmm1,%xmm0
- DB 233,6,255,255,255 ; jmpq 2998b <_sk_load_g8_sse2_8bit+0x27>
+ DB 233,6,255,255,255 ; jmpq 299b3 <_sk_load_g8_sse2_8bit+0x27>
DB 15,31,0 ; nopl (%rax)
DB 146 ; xchg %eax,%edx
DB 255 ; (bad)
@@ -40002,15 +39927,15 @@ _sk_load_g8_dst_sse2_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 117,116 ; jne 29b35 <_sk_load_g8_dst_sse2_8bit+0x91>
+ DB 117,116 ; jne 29b5d <_sk_load_g8_dst_sse2_8bit+0x91>
DB 243,66,15,126,20,2 ; movq (%rdx,%r8,1),%xmm2
DB 102,15,96,208 ; punpcklbw %xmm0,%xmm2
- DB 102,15,219,21,125,47,0,0 ; pand 0x2f7d(%rip),%xmm2 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,21,213,47,0,0 ; pand 0x2fd5(%rip),%xmm2 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,111,226 ; movdqa %xmm2,%xmm4
DB 102,15,97,227 ; punpcklwd %xmm3,%xmm4
DB 102,15,105,211 ; punpckhwd %xmm3,%xmm2
- DB 102,15,111,45,181,54,0,0 ; movdqa 0x36b5(%rip),%xmm5 # 2d1a0 <_sk_overlay_sse2_8bit+0x1553>
+ DB 102,15,111,45,61,55,0,0 ; movdqa 0x373d(%rip),%xmm5 # 2d250 <_sk_overlay_sse2_8bit+0x15db>
DB 102,15,112,242,245 ; pshufd $0xf5,%xmm2,%xmm6
DB 102,15,244,213 ; pmuludq %xmm5,%xmm2
DB 102,15,112,218,232 ; pshufd $0xe8,%xmm2,%xmm3
@@ -40023,7 +39948,7 @@ _sk_load_g8_dst_sse2_8bit LABEL PROC
DB 102,15,244,245 ; pmuludq %xmm5,%xmm6
DB 102,15,112,230,232 ; pshufd $0xe8,%xmm6,%xmm4
DB 102,15,98,212 ; punpckldq %xmm4,%xmm2
- DB 102,15,111,37,55,54,0,0 ; movdqa 0x3637(%rip),%xmm4 # 2d160 <_sk_overlay_sse2_8bit+0x1513>
+ DB 102,15,111,37,191,54,0,0 ; movdqa 0x36bf(%rip),%xmm4 # 2d210 <_sk_overlay_sse2_8bit+0x159b>
DB 102,15,235,212 ; por %xmm4,%xmm2
DB 102,15,235,220 ; por %xmm4,%xmm3
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -40032,15 +39957,15 @@ _sk_load_g8_dst_sse2_8bit LABEL PROC
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 119,133 ; ja 29acb <_sk_load_g8_dst_sse2_8bit+0x27>
+ DB 119,133 ; ja 29af3 <_sk_load_g8_dst_sse2_8bit+0x27>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,119,0,0,0 ; lea 0x77(%rip),%rcx # 29bc8 <_sk_load_g8_dst_sse2_8bit+0x124>
+ DB 72,141,13,119,0,0,0 ; lea 0x77(%rip),%rcx # 29bf0 <_sk_load_g8_dst_sse2_8bit+0x124>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,208 ; movd %eax,%xmm2
- DB 233,99,255,255,255 ; jmpq 29acb <_sk_load_g8_dst_sse2_8bit+0x27>
+ DB 233,99,255,255,255 ; jmpq 29af3 <_sk_load_g8_dst_sse2_8bit+0x27>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 102,15,196,208,2 ; pinsrw $0x2,%eax,%xmm2
@@ -40048,7 +39973,7 @@ _sk_load_g8_dst_sse2_8bit LABEL PROC
DB 102,15,110,216 ; movd %eax,%xmm3
DB 102,15,96,216 ; punpcklbw %xmm0,%xmm3
DB 243,15,16,211 ; movss %xmm3,%xmm2
- DB 233,62,255,255,255 ; jmpq 29acb <_sk_load_g8_dst_sse2_8bit+0x27>
+ DB 233,62,255,255,255 ; jmpq 29af3 <_sk_load_g8_dst_sse2_8bit+0x27>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 102,15,196,208,6 ; pinsrw $0x6,%eax,%xmm2
@@ -40059,7 +39984,7 @@ _sk_load_g8_dst_sse2_8bit LABEL PROC
DB 102,66,15,110,28,2 ; movd (%rdx,%r8,1),%xmm3
DB 102,15,96,216 ; punpcklbw %xmm0,%xmm3
DB 242,15,16,211 ; movsd %xmm3,%xmm2
- DB 233,6,255,255,255 ; jmpq 29acb <_sk_load_g8_dst_sse2_8bit+0x27>
+ DB 233,6,255,255,255 ; jmpq 29af3 <_sk_load_g8_dst_sse2_8bit+0x27>
DB 15,31,0 ; nopl (%rax)
DB 146 ; xchg %eax,%edx
DB 255 ; (bad)
@@ -40093,7 +40018,7 @@ _sk_srcover_rgba_8888_sse2_8bit LABEL PROC
DB 72,193,226,2 ; shl $0x2,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,192 ; test %r8,%r8
- DB 15,133,253,0,0,0 ; jne 29d06 <_sk_srcover_rgba_8888_sse2_8bit+0x122>
+ DB 15,133,253,0,0,0 ; jne 29d2e <_sk_srcover_rgba_8888_sse2_8bit+0x122>
DB 70,15,16,68,138,16 ; movups 0x10(%rdx,%r9,4),%xmm8
DB 102,70,15,16,12,138 ; movupd (%rdx,%r9,4),%xmm9
DB 77,133,192 ; test %r8,%r8
@@ -40142,7 +40067,7 @@ _sk_srcover_rgba_8888_sse2_8bit LABEL PROC
DB 102,68,15,248,207 ; psubb %xmm7,%xmm9
DB 102,68,15,252,200 ; paddb %xmm0,%xmm9
DB 102,68,15,252,193 ; paddb %xmm1,%xmm8
- DB 117,72 ; jne 29d3d <_sk_srcover_rgba_8888_sse2_8bit+0x159>
+ DB 117,72 ; jne 29d65 <_sk_srcover_rgba_8888_sse2_8bit+0x159>
DB 243,70,15,127,12,138 ; movdqu %xmm9,(%rdx,%r9,4)
DB 243,70,15,127,68,138,16 ; movdqu %xmm8,0x10(%rdx,%r9,4)
DB 72,173 ; lods %ds:(%rsi),%rax
@@ -40153,29 +40078,29 @@ _sk_srcover_rgba_8888_sse2_8bit LABEL PROC
DB 102,69,15,239,201 ; pxor %xmm9,%xmm9
DB 254,200 ; dec %al
DB 60,6 ; cmp $0x6,%al
- DB 15,135,246,254,255,255 ; ja 29c15 <_sk_srcover_rgba_8888_sse2_8bit+0x31>
+ DB 15,135,246,254,255,255 ; ja 29c3d <_sk_srcover_rgba_8888_sse2_8bit+0x31>
DB 15,182,192 ; movzbl %al,%eax
- DB 72,141,13,207,0,0,0 ; lea 0xcf(%rip),%rcx # 29df8 <_sk_srcover_rgba_8888_sse2_8bit+0x214>
+ DB 72,141,13,207,0,0,0 ; lea 0xcf(%rip),%rcx # 29e20 <_sk_srcover_rgba_8888_sse2_8bit+0x214>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 243,70,15,16,12,138 ; movss (%rdx,%r9,4),%xmm9
- DB 233,216,254,255,255 ; jmpq 29c15 <_sk_srcover_rgba_8888_sse2_8bit+0x31>
+ DB 233,216,254,255,255 ; jmpq 29c3d <_sk_srcover_rgba_8888_sse2_8bit+0x31>
DB 65,128,224,7 ; and $0x7,%r8b
DB 65,254,200 ; dec %r8b
DB 65,128,248,6 ; cmp $0x6,%r8b
- DB 119,184 ; ja 29d02 <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
+ DB 119,184 ; ja 29d2a <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
DB 65,15,182,192 ; movzbl %r8b,%eax
- DB 72,141,13,191,0,0,0 ; lea 0xbf(%rip),%rcx # 29e14 <_sk_srcover_rgba_8888_sse2_8bit+0x230>
+ DB 72,141,13,191,0,0,0 ; lea 0xbf(%rip),%rcx # 29e3c <_sk_srcover_rgba_8888_sse2_8bit+0x230>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 102,70,15,126,12,138 ; movd %xmm9,(%rdx,%r9,4)
- DB 235,156 ; jmp 29d02 <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
+ DB 235,156 ; jmp 29d2a <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
DB 102,66,15,110,100,138,8 ; movd 0x8(%rdx,%r9,4),%xmm4
DB 102,68,15,112,204,69 ; pshufd $0x45,%xmm4,%xmm9
DB 102,70,15,18,12,138 ; movlpd (%rdx,%r9,4),%xmm9
- DB 233,151,254,255,255 ; jmpq 29c15 <_sk_srcover_rgba_8888_sse2_8bit+0x31>
+ DB 233,151,254,255,255 ; jmpq 29c3d <_sk_srcover_rgba_8888_sse2_8bit+0x31>
DB 102,66,15,110,100,138,24 ; movd 0x18(%rdx,%r9,4),%xmm4
DB 102,68,15,112,196,69 ; pshufd $0x45,%xmm4,%xmm8
DB 243,66,15,16,100,138,20 ; movss 0x14(%rdx,%r9,4),%xmm4
@@ -40184,23 +40109,23 @@ _sk_srcover_rgba_8888_sse2_8bit LABEL PROC
DB 68,15,40,196 ; movaps %xmm4,%xmm8
DB 243,66,15,16,100,138,16 ; movss 0x10(%rdx,%r9,4),%xmm4
DB 243,68,15,16,196 ; movss %xmm4,%xmm8
- DB 233,94,254,255,255 ; jmpq 29c0f <_sk_srcover_rgba_8888_sse2_8bit+0x2b>
+ DB 233,94,254,255,255 ; jmpq 29c37 <_sk_srcover_rgba_8888_sse2_8bit+0x2b>
DB 102,65,15,112,225,78 ; pshufd $0x4e,%xmm9,%xmm4
DB 102,66,15,126,100,138,8 ; movd %xmm4,0x8(%rdx,%r9,4)
DB 102,70,15,214,12,138 ; movq %xmm9,(%rdx,%r9,4)
- DB 233,57,255,255,255 ; jmpq 29d02 <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
+ DB 233,57,255,255,255 ; jmpq 29d2a <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
DB 102,65,15,112,224,78 ; pshufd $0x4e,%xmm8,%xmm4
DB 102,66,15,126,100,138,24 ; movd %xmm4,0x18(%rdx,%r9,4)
DB 102,65,15,112,224,229 ; pshufd $0xe5,%xmm8,%xmm4
DB 102,66,15,126,100,138,20 ; movd %xmm4,0x14(%rdx,%r9,4)
DB 102,70,15,126,68,138,16 ; movd %xmm8,0x10(%rdx,%r9,4)
DB 243,70,15,127,12,138 ; movdqu %xmm9,(%rdx,%r9,4)
- DB 233,13,255,255,255 ; jmpq 29d02 <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
+ DB 233,13,255,255,255 ; jmpq 29d2a <_sk_srcover_rgba_8888_sse2_8bit+0x11e>
DB 15,31,0 ; nopl (%rax)
DB 58,255 ; cmp %bh,%bh
DB 255 ; (bad)
DB 255 ; (bad)
- DB 123,255 ; jnp 29dfd <_sk_srcover_rgba_8888_sse2_8bit+0x219>
+ DB 123,255 ; jnp 29e25 <_sk_srcover_rgba_8888_sse2_8bit+0x219>
DB 255 ; (bad)
DB 255,110,255 ; ljmp *-0x1(%rsi)
DB 255 ; (bad)
@@ -40236,7 +40161,7 @@ _sk_scale_1_float_sse2_8bit LABEL PROC
DB 102,68,15,111,200 ; movdqa %xmm0,%xmm9
DB 72,173 ; lods %ds:(%rsi),%rax
DB 243,15,16,0 ; movss (%rax),%xmm0
- DB 243,15,89,5,160,34,0,0 ; mulss 0x22a0(%rip),%xmm0 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 243,15,89,5,160,34,0,0 ; mulss 0x22a0(%rip),%xmm0 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 243,15,44,192 ; cvttss2si %xmm0,%eax
DB 102,15,239,246 ; pxor %xmm6,%xmm6
DB 102,65,15,111,193 ; movdqa %xmm9,%xmm0
@@ -40248,7 +40173,7 @@ _sk_scale_1_float_sse2_8bit LABEL PROC
DB 102,15,96,246 ; punpcklbw %xmm6,%xmm6
DB 242,15,112,246,0 ; pshuflw $0x0,%xmm6,%xmm6
DB 102,15,112,246,80 ; pshufd $0x50,%xmm6,%xmm6
- DB 102,15,219,53,207,43,0,0 ; pand 0x2bcf(%rip),%xmm6 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,53,39,44,0,0 ; pand 0x2c27(%rip),%xmm6 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,111,254 ; movdqa %xmm6,%xmm7
DB 102,65,15,213,248 ; pmullw %xmm8,%xmm7
DB 102,15,111,230 ; movdqa %xmm6,%xmm4
@@ -40279,10 +40204,10 @@ _sk_scale_u8_sse2_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 15,133,239,0,0,0 ; jne 29fe1 <_sk_scale_u8_sse2_8bit+0x110>
+ DB 15,133,239,0,0,0 ; jne 2a009 <_sk_scale_u8_sse2_8bit+0x110>
DB 243,66,15,126,36,2 ; movq (%rdx,%r8,1),%xmm4
DB 102,15,96,224 ; punpcklbw %xmm0,%xmm4
- DB 102,15,219,37,76,43,0,0 ; pand 0x2b4c(%rip),%xmm4 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,37,164,43,0,0 ; pand 0x2ba4(%rip),%xmm4 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
DB 102,15,111,236 ; movdqa %xmm4,%xmm5
DB 102,65,15,105,232 ; punpckhwd %xmm8,%xmm5
@@ -40335,15 +40260,15 @@ _sk_scale_u8_sse2_8bit LABEL PROC
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 15,135,6,255,255,255 ; ja 29efc <_sk_scale_u8_sse2_8bit+0x2b>
+ DB 15,135,6,255,255,255 ; ja 29f24 <_sk_scale_u8_sse2_8bit+0x2b>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,119,0,0,0 ; lea 0x77(%rip),%rcx # 2a078 <_sk_scale_u8_sse2_8bit+0x1a7>
+ DB 72,141,13,119,0,0,0 ; lea 0x77(%rip),%rcx # 2a0a0 <_sk_scale_u8_sse2_8bit+0x1a7>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,224 ; movd %eax,%xmm4
- DB 233,228,254,255,255 ; jmpq 29efc <_sk_scale_u8_sse2_8bit+0x2b>
+ DB 233,228,254,255,255 ; jmpq 29f24 <_sk_scale_u8_sse2_8bit+0x2b>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 102,15,196,224,2 ; pinsrw $0x2,%eax,%xmm4
@@ -40351,7 +40276,7 @@ _sk_scale_u8_sse2_8bit LABEL PROC
DB 102,15,110,232 ; movd %eax,%xmm5
DB 102,15,96,232 ; punpcklbw %xmm0,%xmm5
DB 243,15,16,229 ; movss %xmm5,%xmm4
- DB 233,191,254,255,255 ; jmpq 29efc <_sk_scale_u8_sse2_8bit+0x2b>
+ DB 233,191,254,255,255 ; jmpq 29f24 <_sk_scale_u8_sse2_8bit+0x2b>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 102,15,196,224,6 ; pinsrw $0x6,%eax,%xmm4
@@ -40362,7 +40287,7 @@ _sk_scale_u8_sse2_8bit LABEL PROC
DB 102,66,15,110,44,2 ; movd (%rdx,%r8,1),%xmm5
DB 102,15,96,232 ; punpcklbw %xmm0,%xmm5
DB 242,15,16,229 ; movsd %xmm5,%xmm4
- DB 233,135,254,255,255 ; jmpq 29efc <_sk_scale_u8_sse2_8bit+0x2b>
+ DB 233,135,254,255,255 ; jmpq 29f24 <_sk_scale_u8_sse2_8bit+0x2b>
DB 15,31,0 ; nopl (%rax)
DB 146 ; xchg %eax,%edx
DB 255 ; (bad)
@@ -40389,7 +40314,7 @@ PUBLIC _sk_lerp_1_float_sse2_8bit
_sk_lerp_1_float_sse2_8bit LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
DB 243,15,16,32 ; movss (%rax),%xmm4
- DB 243,15,89,37,70,32,0,0 ; mulss 0x2046(%rip),%xmm4 # 2c0e8 <_sk_overlay_sse2_8bit+0x49b>
+ DB 243,15,89,37,70,32,0,0 ; mulss 0x2046(%rip),%xmm4 # 2c110 <_sk_overlay_sse2_8bit+0x49b>
DB 243,15,44,196 ; cvttss2si %xmm4,%eax
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,96,228 ; punpcklbw %xmm4,%xmm4
@@ -40402,7 +40327,7 @@ _sk_lerp_1_float_sse2_8bit LABEL PROC
DB 102,68,15,111,217 ; movdqa %xmm1,%xmm11
DB 102,69,15,96,217 ; punpcklbw %xmm9,%xmm11
DB 102,65,15,104,201 ; punpckhbw %xmm9,%xmm1
- DB 102,15,111,53,109,41,0,0 ; movdqa 0x296d(%rip),%xmm6 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,111,53,197,41,0,0 ; movdqa 0x29c5(%rip),%xmm6 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,65,15,219,240 ; pand %xmm8,%xmm6
DB 102,15,111,230 ; movdqa %xmm6,%xmm4
DB 102,15,213,225 ; pmullw %xmm1,%xmm4
@@ -40465,10 +40390,10 @@ _sk_lerp_u8_sse2_8bit LABEL PROC
DB 72,15,175,209 ; imul %rcx,%rdx
DB 72,3,16 ; add (%rax),%rdx
DB 77,133,201 ; test %r9,%r9
- DB 15,133,141,1,0,0 ; jne 2a378 <_sk_lerp_u8_sse2_8bit+0x1ae>
+ DB 15,133,141,1,0,0 ; jne 2a3a0 <_sk_lerp_u8_sse2_8bit+0x1ae>
DB 243,66,15,126,44,2 ; movq (%rdx,%r8,1),%xmm5
DB 102,15,96,232 ; punpcklbw %xmm0,%xmm5
- DB 102,15,219,45,83,40,0,0 ; pand 0x2853(%rip),%xmm5 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,219,45,171,40,0,0 ; pand 0x28ab(%rip),%xmm5 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,69,15,239,192 ; pxor %xmm8,%xmm8
DB 102,15,111,229 ; movdqa %xmm5,%xmm4
DB 102,65,15,105,224 ; punpckhwd %xmm8,%xmm4
@@ -40554,15 +40479,15 @@ _sk_lerp_u8_sse2_8bit LABEL PROC
DB 102,15,239,237 ; pxor %xmm5,%xmm5
DB 65,254,201 ; dec %r9b
DB 65,128,249,6 ; cmp $0x6,%r9b
- DB 15,135,104,254,255,255 ; ja 2a1f5 <_sk_lerp_u8_sse2_8bit+0x2b>
+ DB 15,135,104,254,255,255 ; ja 2a21d <_sk_lerp_u8_sse2_8bit+0x2b>
DB 65,15,182,193 ; movzbl %r9b,%eax
- DB 72,141,13,116,0,0,0 ; lea 0x74(%rip),%rcx # 2a40c <_sk_lerp_u8_sse2_8bit+0x242>
+ DB 72,141,13,116,0,0,0 ; lea 0x74(%rip),%rcx # 2a434 <_sk_lerp_u8_sse2_8bit+0x242>
DB 72,99,4,129 ; movslq (%rcx,%rax,4),%rax
DB 72,1,200 ; add %rcx,%rax
DB 255,224 ; jmpq *%rax
DB 66,15,182,4,2 ; movzbl (%rdx,%r8,1),%eax
DB 102,15,110,232 ; movd %eax,%xmm5
- DB 233,70,254,255,255 ; jmpq 2a1f5 <_sk_lerp_u8_sse2_8bit+0x2b>
+ DB 233,70,254,255,255 ; jmpq 2a21d <_sk_lerp_u8_sse2_8bit+0x2b>
DB 66,15,182,68,2,2 ; movzbl 0x2(%rdx,%r8,1),%eax
DB 102,15,239,237 ; pxor %xmm5,%xmm5
DB 102,15,196,232,2 ; pinsrw $0x2,%eax,%xmm5
@@ -40570,7 +40495,7 @@ _sk_lerp_u8_sse2_8bit LABEL PROC
DB 102,15,110,224 ; movd %eax,%xmm4
DB 102,15,96,224 ; punpcklbw %xmm0,%xmm4
DB 243,15,16,236 ; movss %xmm4,%xmm5
- DB 233,33,254,255,255 ; jmpq 2a1f5 <_sk_lerp_u8_sse2_8bit+0x2b>
+ DB 233,33,254,255,255 ; jmpq 2a21d <_sk_lerp_u8_sse2_8bit+0x2b>
DB 66,15,182,68,2,6 ; movzbl 0x6(%rdx,%r8,1),%eax
DB 102,15,239,237 ; pxor %xmm5,%xmm5
DB 102,15,196,232,6 ; pinsrw $0x6,%eax,%xmm5
@@ -40581,7 +40506,7 @@ _sk_lerp_u8_sse2_8bit LABEL PROC
DB 102,66,15,110,36,2 ; movd (%rdx,%r8,1),%xmm4
DB 102,15,96,224 ; punpcklbw %xmm0,%xmm4
DB 242,15,16,236 ; movsd %xmm4,%xmm5
- DB 233,233,253,255,255 ; jmpq 2a1f5 <_sk_lerp_u8_sse2_8bit+0x2b>
+ DB 233,233,253,255,255 ; jmpq 2a21d <_sk_lerp_u8_sse2_8bit+0x2b>
DB 149 ; xchg %eax,%ebp
DB 255 ; (bad)
DB 255 ; (bad)
@@ -40620,7 +40545,7 @@ _sk_move_dst_src_sse2_8bit LABEL PROC
PUBLIC _sk_black_color_sse2_8bit
_sk_black_color_sse2_8bit LABEL PROC
DB 72,173 ; lods %ds:(%rsi),%rax
- DB 15,40,5,27,45,0,0 ; movaps 0x2d1b(%rip),%xmm0 # 2d160 <_sk_overlay_sse2_8bit+0x1513>
+ DB 15,40,5,163,45,0,0 ; movaps 0x2da3(%rip),%xmm0 # 2d210 <_sk_overlay_sse2_8bit+0x159b>
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 255,224 ; jmpq *%rax
@@ -41491,7 +41416,7 @@ _sk_darken_sse2_8bit LABEL PROC
DB 102,65,15,248,234 ; psubb %xmm10,%xmm5
DB 102,15,248,207 ; psubb %xmm7,%xmm1
DB 102,15,248,196 ; psubb %xmm4,%xmm0
- DB 102,15,111,37,164,30,0,0 ; movdqa 0x1ea4(%rip),%xmm4 # 2d1f0 <_sk_overlay_sse2_8bit+0x15a3>
+ DB 102,15,111,37,44,31,0,0 ; movdqa 0x1f2c(%rip),%xmm4 # 2d2a0 <_sk_overlay_sse2_8bit+0x162b>
DB 102,15,219,236 ; pand %xmm4,%xmm5
DB 102,15,111,252 ; movdqa %xmm4,%xmm7
DB 102,15,223,248 ; pandn %xmm0,%xmm7
@@ -41597,7 +41522,7 @@ _sk_lighten_sse2_8bit LABEL PROC
DB 102,65,15,248,234 ; psubb %xmm10,%xmm5
DB 102,15,248,207 ; psubb %xmm7,%xmm1
DB 102,15,248,196 ; psubb %xmm4,%xmm0
- DB 102,15,111,37,184,28,0,0 ; movdqa 0x1cb8(%rip),%xmm4 # 2d1f0 <_sk_overlay_sse2_8bit+0x15a3>
+ DB 102,15,111,37,64,29,0,0 ; movdqa 0x1d40(%rip),%xmm4 # 2d2a0 <_sk_overlay_sse2_8bit+0x162b>
DB 102,15,219,236 ; pand %xmm4,%xmm5
DB 102,15,111,252 ; movdqa %xmm4,%xmm7
DB 102,15,223,248 ; pandn %xmm0,%xmm7
@@ -41645,7 +41570,7 @@ _sk_exclusion_sse2_8bit LABEL PROC
DB 102,15,113,214,8 ; psrlw $0x8,%xmm6
DB 102,15,103,244 ; packuswb %xmm4,%xmm6
DB 102,15,103,239 ; packuswb %xmm7,%xmm5
- DB 102,15,111,37,235,27,0,0 ; movdqa 0x1beb(%rip),%xmm4 # 2d1f0 <_sk_overlay_sse2_8bit+0x15a3>
+ DB 102,15,111,37,115,28,0,0 ; movdqa 0x1c73(%rip),%xmm4 # 2d2a0 <_sk_overlay_sse2_8bit+0x162b>
DB 102,15,248,205 ; psubb %xmm5,%xmm1
DB 102,15,219,236 ; pand %xmm4,%xmm5
DB 102,15,219,230 ; pand %xmm6,%xmm4
@@ -41742,7 +41667,7 @@ _sk_difference_sse2_8bit LABEL PROC
DB 102,65,15,103,244 ; packuswb %xmm12,%xmm6
DB 102,65,15,218,226 ; pminub %xmm10,%xmm4
DB 102,65,15,218,243 ; pminub %xmm11,%xmm6
- DB 102,15,111,45,40,26,0,0 ; movdqa 0x1a28(%rip),%xmm5 # 2d1f0 <_sk_overlay_sse2_8bit+0x15a3>
+ DB 102,15,111,45,176,26,0,0 ; movdqa 0x1ab0(%rip),%xmm5 # 2d2a0 <_sk_overlay_sse2_8bit+0x162b>
DB 102,15,248,206 ; psubb %xmm6,%xmm1
DB 102,15,219,245 ; pand %xmm5,%xmm6
DB 102,15,219,236 ; pand %xmm4,%xmm5
@@ -41837,7 +41762,7 @@ _sk_hardlight_sse2_8bit LABEL PROC
DB 102,68,15,111,220 ; movdqa %xmm4,%xmm11
DB 102,69,15,217,211 ; psubusw %xmm11,%xmm10
DB 102,68,15,117,213 ; pcmpeqw %xmm5,%xmm10
- DB 102,15,111,45,187,16,0,0 ; movdqa 0x10bb(%rip),%xmm5 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,111,45,19,17,0,0 ; movdqa 0x1113(%rip),%xmm5 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,111,198 ; movdqa %xmm6,%xmm0
DB 102,15,239,197 ; pxor %xmm5,%xmm0
DB 102,65,15,213,198 ; pmullw %xmm14,%xmm0
@@ -41941,7 +41866,7 @@ _sk_hardlight_sse2_8bit LABEL PROC
DB 102,68,15,253,188,36,160,0,0,0 ; paddw 0xa0(%rsp),%xmm15
DB 102,68,15,253,76,36,16 ; paddw 0x10(%rsp),%xmm9
DB 102,15,253,44,36 ; paddw (%rsp),%xmm5
- DB 102,15,111,5,57,22,0,0 ; movdqa 0x1639(%rip),%xmm0 # 2d200 <_sk_overlay_sse2_8bit+0x15b3>
+ DB 102,15,111,5,193,22,0,0 ; movdqa 0x16c1(%rip),%xmm0 # 2d2b0 <_sk_overlay_sse2_8bit+0x163b>
DB 102,15,253,208 ; paddw %xmm0,%xmm2
DB 102,68,15,253,210 ; paddw %xmm2,%xmm10
DB 102,68,15,253,248 ; paddw %xmm0,%xmm15
@@ -41950,7 +41875,7 @@ _sk_hardlight_sse2_8bit LABEL PROC
DB 102,69,15,253,193 ; paddw %xmm9,%xmm8
DB 102,15,253,232 ; paddw %xmm0,%xmm5
DB 102,15,253,233 ; paddw %xmm1,%xmm5
- DB 102,15,111,5,28,22,0,0 ; movdqa 0x161c(%rip),%xmm0 # 2d210 <_sk_overlay_sse2_8bit+0x15c3>
+ DB 102,15,111,5,164,22,0,0 ; movdqa 0x16a4(%rip),%xmm0 # 2d2c0 <_sk_overlay_sse2_8bit+0x164b>
DB 102,15,228,232 ; pmulhuw %xmm0,%xmm5
DB 102,68,15,228,192 ; pmulhuw %xmm0,%xmm8
DB 102,68,15,228,248 ; pmulhuw %xmm0,%xmm15
@@ -42053,7 +41978,7 @@ _sk_overlay_sse2_8bit LABEL PROC
DB 102,15,217,234 ; psubusw %xmm2,%xmm5
DB 102,15,117,236 ; pcmpeqw %xmm4,%xmm5
DB 102,15,127,172,36,160,0,0,0 ; movdqa %xmm5,0xa0(%rsp)
- DB 102,15,111,53,80,12,0,0 ; movdqa 0xc50(%rip),%xmm6 # 2ca50 <_sk_overlay_sse2_8bit+0xe03>
+ DB 102,15,111,53,168,12,0,0 ; movdqa 0xca8(%rip),%xmm6 # 2cad0 <_sk_overlay_sse2_8bit+0xe5b>
DB 102,15,111,194 ; movdqa %xmm2,%xmm0
DB 102,15,239,198 ; pxor %xmm6,%xmm0
DB 102,65,15,213,199 ; pmullw %xmm15,%xmm0
@@ -42161,7 +42086,7 @@ _sk_overlay_sse2_8bit LABEL PROC
DB 102,68,15,253,92,36,112 ; paddw 0x70(%rsp),%xmm11
DB 102,15,253,44,36 ; paddw (%rsp),%xmm5
DB 102,15,253,116,36,16 ; paddw 0x10(%rsp),%xmm6
- DB 102,15,111,5,202,17,0,0 ; movdqa 0x11ca(%rip),%xmm0 # 2d200 <_sk_overlay_sse2_8bit+0x15b3>
+ DB 102,15,111,5,82,18,0,0 ; movdqa 0x1252(%rip),%xmm0 # 2d2b0 <_sk_overlay_sse2_8bit+0x163b>
DB 102,68,15,253,224 ; paddw %xmm0,%xmm12
DB 102,68,15,253,227 ; paddw %xmm3,%xmm12
DB 102,68,15,253,216 ; paddw %xmm0,%xmm11
@@ -42170,7 +42095,7 @@ _sk_overlay_sse2_8bit LABEL PROC
DB 102,15,253,234 ; paddw %xmm2,%xmm5
DB 102,15,253,240 ; paddw %xmm0,%xmm6
DB 102,15,253,241 ; paddw %xmm1,%xmm6
- DB 102,15,111,5,174,17,0,0 ; movdqa 0x11ae(%rip),%xmm0 # 2d210 <_sk_overlay_sse2_8bit+0x15c3>
+ DB 102,15,111,5,54,18,0,0 ; movdqa 0x1236(%rip),%xmm0 # 2d2c0 <_sk_overlay_sse2_8bit+0x164b>
DB 102,15,228,240 ; pmulhuw %xmm0,%xmm6
DB 102,15,228,232 ; pmulhuw %xmm0,%xmm5
DB 102,68,15,228,216 ; pmulhuw %xmm0,%xmm11
@@ -42204,14 +42129,14 @@ ALIGN 4
DB 252 ; cld
DB 190,0,0,128,191 ; mov $0xbf800000,%esi
DB 0,0 ; add %al,(%rax)
- DB 224,64 ; loopne 2c11c <.literal4+0x64>
+ DB 224,64 ; loopne 2c144 <.literal4+0x64>
DB 154 ; (bad)
DB 153 ; cltd
DB 153 ; cltd
DB 62,61,10,23,63,174 ; ds cmp $0xae3f170a,%eax
- DB 71,225,61 ; rex.RXB loope 2c125 <.literal4+0x6d>
+ DB 71,225,61 ; rex.RXB loope 2c14d <.literal4+0x6d>
DB 0,0 ; add %al,(%rax)
- DB 127,67 ; jg 2c12f <.literal4+0x77>
+ DB 127,67 ; jg 2c157 <.literal4+0x77>
DB 145 ; xchg %eax,%ecx
DB 131,158,61,92,143,50,63 ; sbbl $0x3f,0x328f5c3d(%rsi)
DB 10,215 ; or %bh,%dl
@@ -42244,7 +42169,7 @@ ALIGN 4
DB 0,0 ; add %al,(%rax)
DB 8,33 ; or %ah,(%rcx)
DB 132,55 ; test %dh,(%rdi)
- DB 224,7 ; loopne 2c145 <.literal4+0x8d>
+ DB 224,7 ; loopne 2c16d <.literal4+0x8d>
DB 0,0 ; add %al,(%rax)
DB 33,8 ; and %ecx,(%rax)
DB 2,58 ; add (%rdx),%bh
@@ -42255,8 +42180,8 @@ ALIGN 4
DB 0,0 ; add %al,(%rax)
DB 0,52,255 ; add %dh,(%rdi,%rdi,8)
DB 255 ; (bad)
- DB 127,0 ; jg 2c158 <.literal4+0xa0>
- DB 119,115 ; ja 2c1cd <.literal4+0x115>
+ DB 127,0 ; jg 2c180 <.literal4+0xa0>
+ DB 119,115 ; ja 2c1f5 <.literal4+0x115>
DB 248 ; clc
DB 194,117,191 ; retq $0xbf75
DB 191,63,249,68,180 ; mov $0xb444f93f,%edi
@@ -42279,12 +42204,12 @@ ALIGN 4
DB 190,80,128,3,62 ; mov $0x3e038050,%esi
DB 31 ; (bad)
DB 215 ; xlat %ds:(%rbx)
- DB 118,63 ; jbe 2c1e3 <.literal4+0x12b>
+ DB 118,63 ; jbe 2c20b <.literal4+0x12b>
DB 246,64,83,63 ; testb $0x3f,0x53(%rax)
DB 0,0 ; add %al,(%rax)
DB 248 ; clc
DB 65,0,0 ; add %al,(%r8)
- DB 124,66 ; jl 2c1f2 <.literal4+0x13a>
+ DB 124,66 ; jl 2c21a <.literal4+0x13a>
DB 0,240 ; add %dh,%al
DB 0,0 ; add %al,(%rax)
DB 137,136,136,55,0,15 ; mov %ecx,0xf003788(%rax)
@@ -42294,9 +42219,9 @@ ALIGN 4
DB 137,136,136,59,15,0 ; mov %ecx,0xf3b88(%rax)
DB 0,0 ; add %al,(%rax)
DB 137,136,136,61,0,0 ; mov %ecx,0x3d88(%rax)
- DB 112,65 ; jo 2c215 <.literal4+0x15d>
+ DB 112,65 ; jo 2c23d <.literal4+0x15d>
DB 0,255 ; add %bh,%bh
- DB 127,71 ; jg 2c21f <.literal4+0x167>
+ DB 127,71 ; jg 2c247 <.literal4+0x167>
DB 208 ; (bad)
DB 179,89 ; mov $0x59,%bl
DB 62,89 ; ds pop %rcx
@@ -42323,15 +42248,15 @@ ALIGN 4
DB 0,0 ; add %al,(%rax)
DB 128,0,0 ; addb $0x0,(%rax)
DB 0,191,0,0,192,191 ; add %bh,-0x40400000(%rdi)
- DB 114,28 ; jb 2c23e <.literal4+0x186>
+ DB 114,28 ; jb 2c266 <.literal4+0x186>
DB 199 ; (bad)
DB 62,0,0 ; add %al,%ds:(%rax)
DB 192,63,85 ; sarb $0x55,(%rdi)
DB 85 ; push %rbp
DB 149 ; xchg %eax,%ebp
DB 191,57,142,99,61 ; mov $0x3d638e39,%edi
- DB 114,249 ; jb 2c22b <.literal4+0x173>
- DB 127,63 ; jg 2c273 <_sk_overlay_sse2_8bit+0x626>
+ DB 114,249 ; jb 2c253 <.literal4+0x173>
+ DB 127,63 ; jg 2c29b <_sk_overlay_sse2_8bit+0x626>
DB 3,0 ; add (%rax),%eax
DB 0,0 ; add %al,(%rax)
DB 0,128,0,0,0,4 ; add %al,0x4000000(%rax)
@@ -42349,34 +42274,59 @@ ALIGN 4
DB 255,0 ; incl (%rax)
ALIGN 32
- DB 255,0 ; incl (%rax)
DB 0,0 ; add %al,(%rax)
- DB 255,0 ; incl (%rax)
DB 0,0 ; add %al,(%rax)
- DB 255,0 ; incl (%rax)
DB 0,0 ; add %al,(%rax)
- DB 255,0 ; incl (%rax)
+ DB 128,63,0 ; cmpb $0x0,(%rdi)
DB 0,0 ; add %al,(%rax)
- DB 255,0 ; incl (%rax)
+ DB 64,0,0 ; add %al,(%rax)
+ DB 64 ; rex
+ DB 64,0,0 ; add %al,(%rax)
+ DB 128,64,0,0 ; addb $0x0,0x0(%rax)
+ DB 160,64,0,0,192,64,0,0,224 ; movabs 0xe0000040c0000040,%al
+ DB 64,0,0 ; add %al,(%rax)
DB 0,0 ; add %al,(%rax)
- DB 255,0 ; incl (%rax)
+ DB 1,0 ; add %eax,(%rax)
DB 0,0 ; add %al,(%rax)
- DB 255,0 ; incl (%rax)
+ DB 2,0 ; add (%rax),%al
DB 0,0 ; add %al,(%rax)
- DB 255,0 ; incl (%rax)
+ DB 3,0 ; add (%rax),%eax
DB 0,0 ; add %al,(%rax)
- DB 1,255 ; add %edi,%edi
+ DB 4,0 ; add $0x0,%al
+ DB 0,0 ; add %al,(%rax)
+ DB 5,0,0,0,6 ; add $0x6000000,%eax
+ DB 0,0 ; add %al,(%rax)
+ DB 0,7 ; add %al,(%rdi)
+ DB 0,0 ; add %al,(%rax)
+ DB 0,255 ; add %bh,%bh
+ DB 0,0 ; add %al,(%rax)
+ DB 0,255 ; add %bh,%bh
+ DB 0,0 ; add %al,(%rax)
+ DB 0,255 ; add %bh,%bh
+ DB 0,0 ; add %al,(%rax)
+ DB 0,255 ; add %bh,%bh
+ DB 0,0 ; add %al,(%rax)
+ DB 0,255 ; add %bh,%bh
+ DB 0,0 ; add %al,(%rax)
+ DB 0,255 ; add %bh,%bh
+ DB 0,0 ; add %al,(%rax)
+ DB 0,255 ; add %bh,%bh
+ DB 0,0 ; add %al,(%rax)
+ DB 0,255 ; add %bh,%bh
+ DB 0,0 ; add %al,(%rax)
+ DB 0,1 ; add %al,(%rcx)
+ DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c288 <_sk_overlay_sse2_8bit+0xa00063b>
+ DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c2e8 <_sk_overlay_sse2_8bit+0xa000673>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c290 <_sk_overlay_sse2_8bit+0x12000643>
+ DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c2f0 <_sk_overlay_sse2_8bit+0x1200067b>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c298 <_sk_overlay_sse2_8bit+0x1a00064b>
+ DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c2f8 <_sk_overlay_sse2_8bit+0x1a000683>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c2a0 <_sk_overlay_sse2_8bit+0x3000653>
+ DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c300 <_sk_overlay_sse2_8bit+0x300068b>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,6 ; incl (%rsi)
@@ -42419,16 +42369,16 @@ ALIGN 32
DB 0,0 ; add %al,(%rax)
DB 1,255 ; add %edi,%edi
DB 255 ; (bad)
- DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c2e8 <_sk_overlay_sse2_8bit+0xa00069b>
+ DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c348 <_sk_overlay_sse2_8bit+0xa0006d3>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c2f0 <_sk_overlay_sse2_8bit+0x120006a3>
+ DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c350 <_sk_overlay_sse2_8bit+0x120006db>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c2f8 <_sk_overlay_sse2_8bit+0x1a0006ab>
+ DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c358 <_sk_overlay_sse2_8bit+0x1a0006e3>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c300 <_sk_overlay_sse2_8bit+0x30006b3>
+ DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c360 <_sk_overlay_sse2_8bit+0x30006eb>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,6 ; incl (%rsi)
@@ -42471,16 +42421,16 @@ ALIGN 32
DB 0,0 ; add %al,(%rax)
DB 1,255 ; add %edi,%edi
DB 255 ; (bad)
- DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c348 <_sk_overlay_sse2_8bit+0xa0006fb>
+ DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c3a8 <_sk_overlay_sse2_8bit+0xa000733>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c350 <_sk_overlay_sse2_8bit+0x12000703>
+ DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c3b0 <_sk_overlay_sse2_8bit+0x1200073b>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c358 <_sk_overlay_sse2_8bit+0x1a00070b>
+ DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c3b8 <_sk_overlay_sse2_8bit+0x1a000743>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c360 <_sk_overlay_sse2_8bit+0x3000713>
+ DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c3c0 <_sk_overlay_sse2_8bit+0x300074b>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,6 ; incl (%rsi)
@@ -42523,16 +42473,16 @@ ALIGN 32
DB 0,0 ; add %al,(%rax)
DB 1,255 ; add %edi,%edi
DB 255 ; (bad)
- DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c3a8 <_sk_overlay_sse2_8bit+0xa00075b>
+ DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c408 <_sk_overlay_sse2_8bit+0xa000793>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c3b0 <_sk_overlay_sse2_8bit+0x12000763>
+ DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c410 <_sk_overlay_sse2_8bit+0x1200079b>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c3b8 <_sk_overlay_sse2_8bit+0x1a00076b>
+ DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c418 <_sk_overlay_sse2_8bit+0x1a0007a3>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c3c0 <_sk_overlay_sse2_8bit+0x3000773>
+ DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c420 <_sk_overlay_sse2_8bit+0x30007ab>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,6 ; incl (%rsi)
@@ -42575,16 +42525,16 @@ ALIGN 32
DB 0,0 ; add %al,(%rax)
DB 1,255 ; add %edi,%edi
DB 255 ; (bad)
- DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c408 <_sk_overlay_sse2_8bit+0xa0007bb>
+ DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c468 <_sk_overlay_sse2_8bit+0xa0007f3>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c410 <_sk_overlay_sse2_8bit+0x120007c3>
+ DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c470 <_sk_overlay_sse2_8bit+0x120007fb>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c418 <_sk_overlay_sse2_8bit+0x1a0007cb>
+ DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c478 <_sk_overlay_sse2_8bit+0x1a000803>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c420 <_sk_overlay_sse2_8bit+0x30007d3>
+ DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c480 <_sk_overlay_sse2_8bit+0x300080b>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,6 ; incl (%rsi)
@@ -42627,16 +42577,16 @@ ALIGN 32
DB 0,0 ; add %al,(%rax)
DB 1,255 ; add %edi,%edi
DB 255 ; (bad)
- DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c468 <_sk_overlay_sse2_8bit+0xa00081b>
+ DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c4c8 <_sk_overlay_sse2_8bit+0xa000853>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c470 <_sk_overlay_sse2_8bit+0x12000823>
+ DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c4d0 <_sk_overlay_sse2_8bit+0x1200085b>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c478 <_sk_overlay_sse2_8bit+0x1a00082b>
+ DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c4d8 <_sk_overlay_sse2_8bit+0x1a000863>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c480 <_sk_overlay_sse2_8bit+0x3000833>
+ DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c4e0 <_sk_overlay_sse2_8bit+0x300086b>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,6 ; incl (%rsi)
@@ -42679,16 +42629,16 @@ ALIGN 32
DB 0,0 ; add %al,(%rax)
DB 1,255 ; add %edi,%edi
DB 255 ; (bad)
- DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c4c8 <_sk_overlay_sse2_8bit+0xa00087b>
+ DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c528 <_sk_overlay_sse2_8bit+0xa0008b3>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c4d0 <_sk_overlay_sse2_8bit+0x12000883>
+ DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c530 <_sk_overlay_sse2_8bit+0x120008bb>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c4d8 <_sk_overlay_sse2_8bit+0x1a00088b>
+ DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c538 <_sk_overlay_sse2_8bit+0x1a0008c3>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c4e0 <_sk_overlay_sse2_8bit+0x3000893>
+ DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c540 <_sk_overlay_sse2_8bit+0x30008cb>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,6 ; incl (%rsi)
@@ -42731,16 +42681,16 @@ ALIGN 32
DB 0,0 ; add %al,(%rax)
DB 1,255 ; add %edi,%edi
DB 255 ; (bad)
- DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c528 <_sk_overlay_sse2_8bit+0xa0008db>
+ DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02c588 <_sk_overlay_sse2_8bit+0xa000913>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c530 <_sk_overlay_sse2_8bit+0x120008e3>
+ DB 255,13,255,255,255,17 ; decl 0x11ffffff(%rip) # 1202c590 <_sk_overlay_sse2_8bit+0x1200091b>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c538 <_sk_overlay_sse2_8bit+0x1a0008eb>
+ DB 255,21,255,255,255,25 ; callq *0x19ffffff(%rip) # 1a02c598 <_sk_overlay_sse2_8bit+0x1a000923>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c540 <_sk_overlay_sse2_8bit+0x30008f3>
+ DB 255,29,255,255,255,2 ; lcall *0x2ffffff(%rip) # 302c5a0 <_sk_overlay_sse2_8bit+0x300092b>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,6 ; incl (%rsi)
@@ -42764,9 +42714,17 @@ ALIGN 32
DB 255,30 ; lcall *(%rsi)
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255 ; (bad)
DB 255,0 ; incl (%rax)
DB 0,0 ; add %al,(%rax)
+ DB 0,0 ; add %al,(%rax)
+ DB 0,128,63,0,0,0 ; add %al,0x3f(%rax)
+ DB 64,0,0 ; add %al,(%rax)
+ DB 64 ; rex
+ DB 64,0,0 ; add %al,(%rax)
+ DB 128,64,0,0 ; addb $0x0,0x0(%rax)
+ DB 160,64,0,0,192,64,0,0,224 ; movabs 0xe0000040c0000040,%al
+ DB 64,255,0 ; rex incl (%rax)
+ DB 0,0 ; add %al,(%rax)
DB 255,0 ; incl (%rax)
DB 0,0 ; add %al,(%rax)
DB 255,0 ; incl (%rax)
@@ -43526,7 +43484,22 @@ ALIGN 16
DB 0,0 ; add %al,(%rax)
DB 0,0 ; add %al,(%rax)
DB 0,0 ; add %al,(%rax)
- DB 0,63 ; add %bh,(%rdi)
+ DB 0,0 ; add %al,(%rax)
+ DB 1,0 ; add %eax,(%rax)
+ DB 0,0 ; add %al,(%rax)
+ DB 2,0 ; add (%rax),%al
+ DB 0,0 ; add %al,(%rax)
+ DB 3,0 ; add (%rax),%eax
+ DB 0,0 ; add %al,(%rax)
+ DB 4,0 ; add $0x0,%al
+ DB 0,0 ; add %al,(%rax)
+ DB 5,0,0,0,6 ; add $0x6000000,%eax
+ DB 0,0 ; add %al,(%rax)
+ DB 0,7 ; add %al,(%rdi)
+ DB 0,0 ; add %al,(%rax)
+ DB 0,0 ; add %al,(%rax)
+ DB 0,0 ; add %al,(%rax)
+ DB 63 ; (bad)
DB 0,0 ; add %al,(%rax)
DB 0,63 ; add %bh,(%rdi)
DB 0,0 ; add %al,(%rax)
@@ -43534,6 +43507,13 @@ ALIGN 16
DB 0,0 ; add %al,(%rax)
DB 0,63 ; add %bh,(%rdi)
DB 0,0 ; add %al,(%rax)
+ DB 0,0 ; add %al,(%rax)
+ DB 0,0 ; add %al,(%rax)
+ DB 128,63,0 ; cmpb $0x0,(%rdi)
+ DB 0,0 ; add %al,(%rax)
+ DB 64,0,0 ; add %al,(%rax)
+ DB 64 ; rex
+ DB 64,0,0 ; add %al,(%rax)
DB 128,63,0 ; cmpb $0x0,(%rdi)
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%rax)
DB 63 ; (bad)
@@ -43577,11 +43557,11 @@ ALIGN 16
DB 0,128,191,0,0,128 ; add %al,-0x7fffff41(%rax)
DB 191,0,0,224,64 ; mov $0x40e00000,%edi
DB 0,0 ; add %al,(%rax)
- DB 224,64 ; loopne 2cb48 <.literal16+0xf8>
+ DB 224,64 ; loopne 2cbf8 <.literal16+0x128>
DB 0,0 ; add %al,(%rax)
- DB 224,64 ; loopne 2cb4c <.literal16+0xfc>
+ DB 224,64 ; loopne 2cbfc <.literal16+0x12c>
DB 0,0 ; add %al,(%rax)
- DB 224,64 ; loopne 2cb50 <.literal16+0x100>
+ DB 224,64 ; loopne 2cc00 <.literal16+0x130>
DB 154 ; (bad)
DB 153 ; cltd
DB 153 ; cltd
@@ -43601,13 +43581,13 @@ ALIGN 16
DB 10,23 ; or (%rdi),%dl
DB 63 ; (bad)
DB 174 ; scas %es:(%rdi),%al
- DB 71,225,61 ; rex.RXB loope 2cb71 <.literal16+0x121>
+ DB 71,225,61 ; rex.RXB loope 2cc21 <.literal16+0x151>
DB 174 ; scas %es:(%rdi),%al
- DB 71,225,61 ; rex.RXB loope 2cb75 <.literal16+0x125>
+ DB 71,225,61 ; rex.RXB loope 2cc25 <.literal16+0x155>
DB 174 ; scas %es:(%rdi),%al
- DB 71,225,61 ; rex.RXB loope 2cb79 <.literal16+0x129>
+ DB 71,225,61 ; rex.RXB loope 2cc29 <.literal16+0x159>
DB 174 ; scas %es:(%rdi),%al
- DB 71,225,61 ; rex.RXB loope 2cb7d <.literal16+0x12d>
+ DB 71,225,61 ; rex.RXB loope 2cc2d <.literal16+0x15d>
DB 255,0 ; incl (%rax)
DB 0,0 ; add %al,(%rax)
DB 255,0 ; incl (%rax)
@@ -43618,10 +43598,10 @@ ALIGN 16
DB 0,0 ; add %al,(%rax)
DB 1,255 ; add %edi,%edi
DB 255 ; (bad)
- DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02cb58 <_sk_overlay_sse2_8bit+0xa000f0b>
+ DB 255,5,255,255,255,9 ; incl 0x9ffffff(%rip) # a02cc08 <_sk_overlay_sse2_8bit+0xa000f93>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 255,13,255,255,255,2 ; decl 0x2ffffff(%rip) # 302cb60 <_sk_overlay_sse2_8bit+0x3000f13>
+ DB 255,13,255,255,255,2 ; decl 0x2ffffff(%rip) # 302cc10 <_sk_overlay_sse2_8bit+0x3000f9b>
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,6 ; incl (%rsi)
@@ -43636,11 +43616,11 @@ ALIGN 16
DB 255,0 ; incl (%rax)
DB 0,127,67 ; add %bh,0x43(%rdi)
DB 0,0 ; add %al,(%rax)
- DB 127,67 ; jg 2cbbb <.literal16+0x16b>
+ DB 127,67 ; jg 2cc6b <.literal16+0x19b>
DB 0,0 ; add %al,(%rax)
- DB 127,67 ; jg 2cbbf <.literal16+0x16f>
+ DB 127,67 ; jg 2cc6f <.literal16+0x19f>
DB 0,0 ; add %al,(%rax)
- DB 127,67 ; jg 2cbc3 <.literal16+0x173>
+ DB 127,67 ; jg 2cc73 <.literal16+0x1a3>
DB 145 ; xchg %eax,%ecx
DB 131,158,61,145,131,158,61 ; sbbl $0x3d,-0x617c6ec3(%rsi)
DB 145 ; xchg %eax,%ecx
@@ -43791,13 +43771,13 @@ ALIGN 16
DB 132,55 ; test %dh,(%rdi)
DB 8,33 ; or %ah,(%rcx)
DB 132,55 ; test %dh,(%rdi)
- DB 224,7 ; loopne 2ccc9 <.literal16+0x279>
+ DB 224,7 ; loopne 2cd79 <.literal16+0x2a9>
DB 0,0 ; add %al,(%rax)
- DB 224,7 ; loopne 2cccd <.literal16+0x27d>
+ DB 224,7 ; loopne 2cd7d <.literal16+0x2ad>
DB 0,0 ; add %al,(%rax)
- DB 224,7 ; loopne 2ccd1 <.literal16+0x281>
+ DB 224,7 ; loopne 2cd81 <.literal16+0x2b1>
DB 0,0 ; add %al,(%rax)
- DB 224,7 ; loopne 2ccd5 <.literal16+0x285>
+ DB 224,7 ; loopne 2cd85 <.literal16+0x2b5>
DB 0,0 ; add %al,(%rax)
DB 33,8 ; and %ecx,(%rax)
DB 2,58 ; add (%rdx),%bh
@@ -43857,17 +43837,17 @@ ALIGN 16
DB 0,0 ; add %al,(%rax)
DB 52,255 ; xor $0xff,%al
DB 255 ; (bad)
- DB 127,0 ; jg 2cd54 <.literal16+0x304>
+ DB 127,0 ; jg 2ce04 <.literal16+0x334>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 2cd58 <.literal16+0x308>
+ DB 127,0 ; jg 2ce08 <.literal16+0x338>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 2cd5c <.literal16+0x30c>
+ DB 127,0 ; jg 2ce0c <.literal16+0x33c>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 2cd60 <.literal16+0x310>
- DB 119,115 ; ja 2cdd5 <.literal16+0x385>
+ DB 127,0 ; jg 2ce10 <.literal16+0x340>
+ DB 119,115 ; ja 2ce85 <.literal16+0x3b5>
DB 248 ; clc
DB 194,119,115 ; retq $0x7377
DB 248 ; clc
@@ -43878,7 +43858,7 @@ ALIGN 16
DB 194,117,191 ; retq $0xbf75
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; (bad)
- DB 117,191 ; jne 2cd39 <.literal16+0x2e9>
+ DB 117,191 ; jne 2cde9 <.literal16+0x319>
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; (bad)
DB 249 ; stc
@@ -43890,7 +43870,7 @@ ALIGN 16
DB 249 ; stc
DB 68,180,62 ; rex.R mov $0x3e,%spl
DB 163,233,220,63,163,233,220,63,163 ; movabs %eax,0xa33fdce9a33fdce9
- DB 233,220,63,163,233 ; jmpq ffffffffe9a60d7a <_sk_overlay_sse2_8bit+0xffffffffe9a3512d>
+ DB 233,220,63,163,233 ; jmpq ffffffffe9a60e2a <_sk_overlay_sse2_8bit+0xffffffffe9a351b5>
DB 220,63 ; fdivrl (%rdi)
DB 81 ; push %rcx
DB 140,242 ; mov %?,%edx
@@ -43980,16 +43960,16 @@ ALIGN 16
DB 128,3,62 ; addb $0x3e,(%rbx)
DB 31 ; (bad)
DB 215 ; xlat %ds:(%rbx)
- DB 118,63 ; jbe 2cec3 <.literal16+0x473>
+ DB 118,63 ; jbe 2cf73 <.literal16+0x4a3>
DB 31 ; (bad)
DB 215 ; xlat %ds:(%rbx)
- DB 118,63 ; jbe 2cec7 <.literal16+0x477>
+ DB 118,63 ; jbe 2cf77 <.literal16+0x4a7>
DB 31 ; (bad)
DB 215 ; xlat %ds:(%rbx)
- DB 118,63 ; jbe 2cecb <.literal16+0x47b>
+ DB 118,63 ; jbe 2cf7b <.literal16+0x4ab>
DB 31 ; (bad)
DB 215 ; xlat %ds:(%rbx)
- DB 118,63 ; jbe 2cecf <.literal16+0x47f>
+ DB 118,63 ; jbe 2cf7f <.literal16+0x4af>
DB 246,64,83,63 ; testb $0x3f,0x53(%rax)
DB 246,64,83,63 ; testb $0x3f,0x53(%rax)
DB 246,64,83,63 ; testb $0x3f,0x53(%rax)
@@ -44010,13 +43990,13 @@ ALIGN 16
DB 65,0,0 ; add %al,(%r8)
DB 248 ; clc
DB 65,0,0 ; add %al,(%r8)
- DB 124,66 ; jl 2cf06 <.literal16+0x4b6>
+ DB 124,66 ; jl 2cfb6 <.literal16+0x4e6>
DB 0,0 ; add %al,(%rax)
- DB 124,66 ; jl 2cf0a <.literal16+0x4ba>
+ DB 124,66 ; jl 2cfba <.literal16+0x4ea>
DB 0,0 ; add %al,(%rax)
- DB 124,66 ; jl 2cf0e <.literal16+0x4be>
+ DB 124,66 ; jl 2cfbe <.literal16+0x4ee>
DB 0,0 ; add %al,(%rax)
- DB 124,66 ; jl 2cf12 <.literal16+0x4c2>
+ DB 124,66 ; jl 2cfc2 <.literal16+0x4f2>
DB 0,240 ; add %dh,%al
DB 0,0 ; add %al,(%rax)
DB 0,240 ; add %dh,%al
@@ -44062,13 +44042,13 @@ ALIGN 16
DB 136,136,61,137,136,136 ; mov %cl,-0x777776c3(%rax)
DB 61,137,136,136,61 ; cmp $0x3d888889,%eax
DB 0,0 ; add %al,(%rax)
- DB 112,65 ; jo 2cf95 <.literal16+0x545>
+ DB 112,65 ; jo 2d045 <.literal16+0x575>
DB 0,0 ; add %al,(%rax)
- DB 112,65 ; jo 2cf99 <.literal16+0x549>
+ DB 112,65 ; jo 2d049 <.literal16+0x579>
DB 0,0 ; add %al,(%rax)
- DB 112,65 ; jo 2cf9d <.literal16+0x54d>
+ DB 112,65 ; jo 2d04d <.literal16+0x57d>
DB 0,0 ; add %al,(%rax)
- DB 112,65 ; jo 2cfa1 <.literal16+0x551>
+ DB 112,65 ; jo 2d051 <.literal16+0x581>
DB 0,128,0,0,0,128 ; add %al,-0x80000000(%rax)
DB 0,0 ; add %al,(%rax)
DB 0,128,0,0,0,128 ; add %al,-0x80000000(%rax)
@@ -44107,13 +44087,13 @@ ALIGN 16
DB 64,254 ; rex (bad)
DB 255,0 ; incl (%rax)
DB 255 ; (bad)
- DB 127,71 ; jg 2d00b <.literal16+0x5bb>
+ DB 127,71 ; jg 2d0bb <.literal16+0x5eb>
DB 0,255 ; add %bh,%bh
- DB 127,71 ; jg 2d00f <.literal16+0x5bf>
+ DB 127,71 ; jg 2d0bf <.literal16+0x5ef>
DB 0,255 ; add %bh,%bh
- DB 127,71 ; jg 2d013 <.literal16+0x5c3>
+ DB 127,71 ; jg 2d0c3 <.literal16+0x5f3>
DB 0,255 ; add %bh,%bh
- DB 127,71 ; jg 2d017 <.literal16+0x5c7>
+ DB 127,71 ; jg 2d0c7 <.literal16+0x5f7>
DB 208 ; (bad)
DB 179,89 ; mov $0x59,%bl
DB 62,208 ; ds (bad)
@@ -44143,10 +44123,10 @@ ALIGN 16
DB 61,152,221,147,61 ; cmp $0x3d93dd98,%eax
DB 152 ; cwtl
DB 221,147,61,45,16,17 ; fstl 0x11102d3d(%rbx)
- DB 192,45,16,17,192,45,16 ; shrb $0x10,0x2dc01110(%rip) # 2dc2e11a <_sk_overlay_sse2_8bit+0x2dc024cd>
+ DB 192,45,16,17,192,45,16 ; shrb $0x10,0x2dc01110(%rip) # 2dc2e1ca <_sk_overlay_sse2_8bit+0x2dc02555>
DB 17,192 ; adc %eax,%eax
DB 45,16,17,192,18 ; sub $0x12c01110,%eax
- DB 120,57 ; js 2d04c <.literal16+0x5fc>
+ DB 120,57 ; js 2d0fc <.literal16+0x62c>
DB 64,18,120,57 ; adc 0x39(%rax),%dil
DB 64,18,120,57 ; adc 0x39(%rax),%dil
DB 64,18,120,57 ; adc 0x39(%rax),%dil
@@ -44211,13 +44191,13 @@ ALIGN 16
DB 192,191,0,0,192,191,0 ; sarb $0x0,-0x40400000(%rdi)
DB 0,192 ; add %al,%al
DB 191,0,0,192,191 ; mov $0xbfc00000,%edi
- DB 114,28 ; jb 2d0fe <.literal16+0x6ae>
+ DB 114,28 ; jb 2d1ae <.literal16+0x6de>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt 2d102 <.literal16+0x6b2>
+ DB 62,114,28 ; jb,pt 2d1b2 <.literal16+0x6e2>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt 2d106 <.literal16+0x6b6>
+ DB 62,114,28 ; jb,pt 2d1b6 <.literal16+0x6e6>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt 2d10a <.literal16+0x6ba>
+ DB 62,114,28 ; jb,pt 2d1ba <.literal16+0x6ea>
DB 199 ; (bad)
DB 62,85 ; ds push %rbp
DB 85 ; push %rbp
@@ -44236,15 +44216,15 @@ ALIGN 16
DB 0,192 ; add %al,%al
DB 63 ; (bad)
DB 57,142,99,61,57,142 ; cmp %ecx,-0x71c6c29d(%rsi)
- DB 99,61,57,142,99,61 ; movslq 0x3d638e39(%rip),%edi # 3d665f55 <_sk_overlay_sse2_8bit+0x3d63a308>
+ DB 99,61,57,142,99,61 ; movslq 0x3d638e39(%rip),%edi # 3d666005 <_sk_overlay_sse2_8bit+0x3d63a390>
DB 57,142,99,61,114,249 ; cmp %ecx,-0x68dc29d(%rsi)
- DB 127,63 ; jg 2d163 <.literal16+0x713>
- DB 114,249 ; jb 2d11f <.literal16+0x6cf>
- DB 127,63 ; jg 2d167 <.literal16+0x717>
- DB 114,249 ; jb 2d123 <.literal16+0x6d3>
- DB 127,63 ; jg 2d16b <.literal16+0x71b>
- DB 114,249 ; jb 2d127 <.literal16+0x6d7>
- DB 127,63 ; jg 2d16f <.literal16+0x71f>
+ DB 127,63 ; jg 2d213 <.literal16+0x743>
+ DB 114,249 ; jb 2d1cf <.literal16+0x6ff>
+ DB 127,63 ; jg 2d217 <.literal16+0x747>
+ DB 114,249 ; jb 2d1d3 <.literal16+0x703>
+ DB 127,63 ; jg 2d21b <.literal16+0x74b>
+ DB 114,249 ; jb 2d1d7 <.literal16+0x707>
+ DB 127,63 ; jg 2d21f <.literal16+0x74f>
DB 3,0 ; add (%rax),%eax
DB 0,0 ; add %al,(%rax)
DB 3,0 ; add (%rax),%eax
@@ -44351,14 +44331,14 @@ ALIGN 16
DB 255 ; (bad)
DB 255 ; (bad)
DB 255,0 ; incl (%rax)
- DB 127,0 ; jg 2d202 <.literal16+0x7b2>
- DB 127,0 ; jg 2d204 <.literal16+0x7b4>
- DB 127,0 ; jg 2d206 <.literal16+0x7b6>
- DB 127,0 ; jg 2d208 <.literal16+0x7b8>
- DB 127,0 ; jg 2d20a <.literal16+0x7ba>
- DB 127,0 ; jg 2d20c <.literal16+0x7bc>
- DB 127,0 ; jg 2d20e <.literal16+0x7be>
- DB 127,0 ; jg 2d210 <.literal16+0x7c0>
+ DB 127,0 ; jg 2d2b2 <.literal16+0x7e2>
+ DB 127,0 ; jg 2d2b4 <.literal16+0x7e4>
+ DB 127,0 ; jg 2d2b6 <.literal16+0x7e6>
+ DB 127,0 ; jg 2d2b8 <.literal16+0x7e8>
+ DB 127,0 ; jg 2d2ba <.literal16+0x7ea>
+ DB 127,0 ; jg 2d2bc <.literal16+0x7ec>
+ DB 127,0 ; jg 2d2be <.literal16+0x7ee>
+ DB 127,0 ; jg 2d2c0 <.literal16+0x7f0>
DB 129,128,129,128,129,128,129,128,129,128; addl $0x80818081,-0x7f7e7f7f(%rax)
DB 129 ; .byte 0x81
DB 128 ; .byte 0x80
@@ -44382,7 +44362,7 @@ _sk_start_pipeline_sse2 LABEL PROC
DB 131,236,112 ; sub $0x70,%esp
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 59,69,20 ; cmp 0x14(%ebp),%eax
- DB 15,131,131,0,0,0 ; jae 9b <_sk_start_pipeline_sse2+0x9b>
+ DB 115,124 ; jae 90 <_sk_start_pipeline_sse2+0x90>
DB 139,85,16 ; mov 0x10(%ebp),%edx
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,117,24 ; mov 0x18(%ebp),%esi
@@ -44396,11 +44376,9 @@ _sk_start_pipeline_sse2 LABEL PROC
DB 137,68,36,12 ; mov %eax,0xc(%esp)
DB 137,68,36,20 ; mov %eax,0x14(%esp)
DB 199,68,36,24,0,0,0,0 ; movl $0x0,0x18(%esp)
- DB 139,69,28 ; mov 0x1c(%ebp),%eax
- DB 137,68,36,28 ; mov %eax,0x1c(%esp)
DB 137,200 ; mov %ecx,%eax
DB 141,92,36,16 ; lea 0x10(%esp),%ebx
- DB 119,31 ; ja 76 <_sk_start_pipeline_sse2+0x76>
+ DB 119,31 ; ja 6b <_sk_start_pipeline_sse2+0x6b>
DB 131,236,8 ; sub $0x8,%esp
DB 86 ; push %esi
DB 83 ; push %ebx
@@ -44412,10 +44390,10 @@ _sk_start_pipeline_sse2 LABEL PROC
DB 137,68,36,16 ; mov %eax,0x10(%esp)
DB 131,193,8 ; add $0x8,%ecx
DB 57,209 ; cmp %edx,%ecx
- DB 118,225 ; jbe 57 <_sk_start_pipeline_sse2+0x57>
+ DB 118,225 ; jbe 4c <_sk_start_pipeline_sse2+0x4c>
DB 137,209 ; mov %edx,%ecx
DB 41,193 ; sub %eax,%ecx
- DB 116,21 ; je 91 <_sk_start_pipeline_sse2+0x91>
+ DB 116,21 ; je 86 <_sk_start_pipeline_sse2+0x86>
DB 137,76,36,24 ; mov %ecx,0x18(%esp)
DB 131,236,8 ; sub $0x8,%esp
DB 86 ; push %esi
@@ -44427,7 +44405,7 @@ _sk_start_pipeline_sse2 LABEL PROC
DB 139,68,36,12 ; mov 0xc(%esp),%eax
DB 64 ; inc %eax
DB 59,69,20 ; cmp 0x14(%ebp),%eax
- DB 117,146 ; jne 2d <_sk_start_pipeline_sse2+0x2d>
+ DB 117,153 ; jne 29 <_sk_start_pipeline_sse2+0x29>
DB 141,101,244 ; lea -0xc(%ebp),%esp
DB 94 ; pop %esi
DB 95 ; pop %edi
@@ -44445,18 +44423,16 @@ _sk_seed_shader_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call ae <_sk_seed_shader_sse2+0xa>
+ DB 232,0,0,0,0 ; call a3 <_sk_seed_shader_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 139,85,8 ; mov 0x8(%ebp),%edx
- DB 139,114,12 ; mov 0xc(%edx),%esi
DB 102,15,110,2 ; movd (%edx),%xmm0
DB 102,15,112,192,0 ; pshufd $0x0,%xmm0,%xmm0
- DB 15,91,200 ; cvtdq2ps %xmm0,%xmm1
- DB 15,40,144,98,146,0,0 ; movaps 0x9262(%eax),%xmm2
- DB 15,88,202 ; addps %xmm2,%xmm1
- DB 15,16,6 ; movups (%esi),%xmm0
- DB 15,88,193 ; addps %xmm1,%xmm0
+ DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
+ DB 15,40,144,93,146,0,0 ; movaps 0x925d(%eax),%xmm2
+ DB 15,88,194 ; addps %xmm2,%xmm0
+ DB 15,88,128,109,146,0,0 ; addps 0x926d(%eax),%xmm0
DB 102,15,110,74,4 ; movd 0x4(%edx),%xmm1
DB 102,15,112,201,0 ; pshufd $0x0,%xmm1,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
@@ -44468,7 +44444,7 @@ _sk_seed_shader_sse2 LABEL PROC
DB 15,41,82,32 ; movaps %xmm2,0x20(%edx)
DB 15,41,82,16 ; movaps %xmm2,0x10(%edx)
DB 131,236,8 ; sub $0x8,%esp
- DB 15,40,144,114,146,0,0 ; movaps 0x9272(%eax),%xmm2
+ DB 15,40,144,125,146,0,0 ; movaps 0x927d(%eax),%xmm2
DB 15,87,219 ; xorps %xmm3,%xmm3
DB 86 ; push %esi
DB 82 ; push %edx
@@ -44488,27 +44464,25 @@ _sk_dither_sse2 LABEL PROC
DB 15,41,85,232 ; movaps %xmm2,-0x18(%ebp)
DB 15,40,217 ; movaps %xmm1,%xmm3
DB 15,40,208 ; movaps %xmm0,%xmm2
- DB 232,0,0,0,0 ; call 12b <_sk_dither_sse2+0x1a>
+ DB 232,0,0,0,0 ; call 11e <_sk_dither_sse2+0x1a>
DB 89 ; pop %ecx
DB 139,69,8 ; mov 0x8(%ebp),%eax
- DB 139,80,12 ; mov 0xc(%eax),%edx
DB 102,15,110,32 ; movd (%eax),%xmm4
- DB 102,15,112,228,0 ; pshufd $0x0,%xmm4,%xmm4
- DB 243,15,111,106,32 ; movdqu 0x20(%edx),%xmm5
- DB 102,15,254,236 ; paddd %xmm4,%xmm5
+ DB 102,15,112,236,0 ; pshufd $0x0,%xmm4,%xmm5
+ DB 102,15,254,169,18,146,0,0 ; paddd 0x9212(%ecx),%xmm5
DB 102,15,110,96,4 ; movd 0x4(%eax),%xmm4
DB 102,15,112,252,0 ; pshufd $0x0,%xmm4,%xmm7
DB 102,15,239,253 ; pxor %xmm5,%xmm7
- DB 102,15,111,177,5,146,0,0 ; movdqa 0x9205(%ecx),%xmm6
+ DB 102,15,111,177,34,146,0,0 ; movdqa 0x9222(%ecx),%xmm6
DB 102,15,111,207 ; movdqa %xmm7,%xmm1
DB 102,15,219,206 ; pand %xmm6,%xmm1
DB 102,15,219,245 ; pand %xmm5,%xmm6
- DB 102,15,111,129,37,146,0,0 ; movdqa 0x9225(%ecx),%xmm0
+ DB 102,15,111,129,66,146,0,0 ; movdqa 0x9242(%ecx),%xmm0
DB 102,15,111,231 ; movdqa %xmm7,%xmm4
DB 102,15,219,224 ; pand %xmm0,%xmm4
DB 102,15,219,197 ; pand %xmm5,%xmm0
- DB 102,15,219,185,21,146,0,0 ; pand 0x9215(%ecx),%xmm7
- DB 102,15,219,169,21,146,0,0 ; pand 0x9215(%ecx),%xmm5
+ DB 102,15,219,185,50,146,0,0 ; pand 0x9232(%ecx),%xmm7
+ DB 102,15,219,169,50,146,0,0 ; pand 0x9232(%ecx),%xmm5
DB 102,15,114,246,4 ; pslld $0x4,%xmm6
DB 102,15,254,192 ; paddd %xmm0,%xmm0
DB 102,15,235,198 ; por %xmm6,%xmm0
@@ -44523,8 +44497,8 @@ _sk_dither_sse2 LABEL PROC
DB 102,15,114,215,1 ; psrld $0x1,%xmm7
DB 102,15,235,231 ; por %xmm7,%xmm4
DB 15,91,196 ; cvtdq2ps %xmm4,%xmm0
- DB 15,89,129,53,146,0,0 ; mulps 0x9235(%ecx),%xmm0
- DB 15,88,129,69,146,0,0 ; addps 0x9245(%ecx),%xmm0
+ DB 15,89,129,82,146,0,0 ; mulps 0x9252(%ecx),%xmm0
+ DB 15,88,129,98,146,0,0 ; addps 0x9262(%ecx),%xmm0
DB 243,15,16,14 ; movss (%esi),%xmm1
DB 15,198,201,0 ; shufps $0x0,%xmm1,%xmm1
DB 15,89,200 ; mulps %xmm0,%xmm1
@@ -44583,12 +44557,12 @@ _sk_black_color_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 26b <_sk_black_color_sse2+0xb>
+ DB 232,0,0,0,0 ; call 25a <_sk_black_color_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 141,81,4 ; lea 0x4(%ecx),%edx
DB 131,236,8 ; sub $0x8,%esp
- DB 15,40,152,21,145,0,0 ; movaps 0x9115(%eax),%xmm3
+ DB 15,40,152,54,145,0,0 ; movaps 0x9136(%eax),%xmm3
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 15,87,201 ; xorps %xmm1,%xmm1
DB 15,87,210 ; xorps %xmm2,%xmm2
@@ -44604,12 +44578,12 @@ _sk_white_color_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 29b <_sk_white_color_sse2+0xb>
+ DB 232,0,0,0,0 ; call 28a <_sk_white_color_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 141,81,4 ; lea 0x4(%ecx),%edx
DB 131,236,8 ; sub $0x8,%esp
- DB 15,40,128,245,144,0,0 ; movaps 0x90f5(%eax),%xmm0
+ DB 15,40,128,22,145,0,0 ; movaps 0x9116(%eax),%xmm0
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 15,40,216 ; movaps %xmm0,%xmm3
@@ -44685,13 +44659,13 @@ _sk_srcatop_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 34a <_sk_srcatop_sse2+0xb>
+ DB 232,0,0,0,0 ; call 339 <_sk_srcatop_sse2+0xb>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 15,40,97,64 ; movaps 0x40(%ecx),%xmm4
DB 15,89,196 ; mulps %xmm4,%xmm0
- DB 15,40,170,86,144,0,0 ; movaps 0x9056(%edx),%xmm5
+ DB 15,40,170,119,144,0,0 ; movaps 0x9077(%edx),%xmm5
DB 15,92,235 ; subps %xmm3,%xmm5
DB 15,40,113,16 ; movaps 0x10(%ecx),%xmm6
DB 15,89,245 ; mulps %xmm5,%xmm6
@@ -44721,14 +44695,14 @@ _sk_dstatop_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 3a9 <_sk_dstatop_sse2+0xb>
+ DB 232,0,0,0,0 ; call 398 <_sk_dstatop_sse2+0xb>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 15,40,105,64 ; movaps 0x40(%ecx),%xmm5
DB 15,40,113,16 ; movaps 0x10(%ecx),%xmm6
DB 15,89,243 ; mulps %xmm3,%xmm6
- DB 15,40,162,7,144,0,0 ; movaps 0x9007(%edx),%xmm4
+ DB 15,40,162,40,144,0,0 ; movaps 0x9028(%edx),%xmm4
DB 15,92,229 ; subps %xmm5,%xmm4
DB 15,89,196 ; mulps %xmm4,%xmm0
DB 15,88,198 ; addps %xmm6,%xmm0
@@ -44802,11 +44776,11 @@ _sk_srcout_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 46a <_sk_srcout_sse2+0xb>
+ DB 232,0,0,0,0 ; call 459 <_sk_srcout_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 139,85,8 ; mov 0x8(%ebp),%edx
- DB 15,40,160,86,143,0,0 ; movaps 0x8f56(%eax),%xmm4
+ DB 15,40,160,119,143,0,0 ; movaps 0x8f77(%eax),%xmm4
DB 15,92,98,64 ; subps 0x40(%edx),%xmm4
DB 15,89,196 ; mulps %xmm4,%xmm0
DB 15,89,204 ; mulps %xmm4,%xmm1
@@ -44826,11 +44800,11 @@ _sk_dstout_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 4a2 <_sk_dstout_sse2+0xb>
+ DB 232,0,0,0,0 ; call 491 <_sk_dstout_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 139,85,8 ; mov 0x8(%ebp),%edx
- DB 15,40,160,46,143,0,0 ; movaps 0x8f2e(%eax),%xmm4
+ DB 15,40,160,79,143,0,0 ; movaps 0x8f4f(%eax),%xmm4
DB 15,92,227 ; subps %xmm3,%xmm4
DB 15,40,66,16 ; movaps 0x10(%edx),%xmm0
DB 15,89,196 ; mulps %xmm4,%xmm0
@@ -44854,11 +44828,11 @@ _sk_srcover_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 4e9 <_sk_srcover_sse2+0xb>
+ DB 232,0,0,0,0 ; call 4d8 <_sk_srcover_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 139,85,8 ; mov 0x8(%ebp),%edx
- DB 15,40,160,247,142,0,0 ; movaps 0x8ef7(%eax),%xmm4
+ DB 15,40,160,24,143,0,0 ; movaps 0x8f18(%eax),%xmm4
DB 15,92,227 ; subps %xmm3,%xmm4
DB 15,40,106,16 ; movaps 0x10(%edx),%xmm5
DB 15,89,236 ; mulps %xmm4,%xmm5
@@ -44885,12 +44859,12 @@ _sk_dstover_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 539 <_sk_dstover_sse2+0xb>
+ DB 232,0,0,0,0 ; call 528 <_sk_dstover_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 139,85,8 ; mov 0x8(%ebp),%edx
DB 15,40,106,64 ; movaps 0x40(%edx),%xmm5
- DB 15,40,160,183,142,0,0 ; movaps 0x8eb7(%eax),%xmm4
+ DB 15,40,160,216,142,0,0 ; movaps 0x8ed8(%eax),%xmm4
DB 15,92,229 ; subps %xmm5,%xmm4
DB 15,89,196 ; mulps %xmm4,%xmm0
DB 15,88,66,16 ; addps 0x10(%edx),%xmm0
@@ -44937,12 +44911,12 @@ _sk_multiply_sse2 LABEL PROC
DB 131,236,56 ; sub $0x38,%esp
DB 15,41,85,216 ; movaps %xmm2,-0x28(%ebp)
DB 15,40,232 ; movaps %xmm0,%xmm5
- DB 232,0,0,0,0 ; call 5b8 <_sk_multiply_sse2+0x12>
+ DB 232,0,0,0,0 ; call 5a7 <_sk_multiply_sse2+0x12>
DB 89 ; pop %ecx
DB 139,69,8 ; mov 0x8(%ebp),%eax
DB 15,40,80,64 ; movaps 0x40(%eax),%xmm2
DB 15,41,85,200 ; movaps %xmm2,-0x38(%ebp)
- DB 15,40,129,72,142,0,0 ; movaps 0x8e48(%ecx),%xmm0
+ DB 15,40,129,105,142,0,0 ; movaps 0x8e69(%ecx),%xmm0
DB 15,40,240 ; movaps %xmm0,%xmm6
DB 15,92,242 ; subps %xmm2,%xmm6
DB 15,40,254 ; movaps %xmm6,%xmm7
@@ -44995,12 +44969,12 @@ _sk_plus__sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 65e <_sk_plus__sse2+0xb>
+ DB 232,0,0,0,0 ; call 64d <_sk_plus__sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 139,85,8 ; mov 0x8(%ebp),%edx
DB 15,88,66,16 ; addps 0x10(%edx),%xmm0
- DB 15,40,160,178,141,0,0 ; movaps 0x8db2(%eax),%xmm4
+ DB 15,40,160,211,141,0,0 ; movaps 0x8dd3(%eax),%xmm4
DB 15,93,196 ; minps %xmm4,%xmm0
DB 15,88,74,32 ; addps 0x20(%edx),%xmm1
DB 15,93,204 ; minps %xmm4,%xmm1
@@ -45063,12 +45037,12 @@ _sk_xor__sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
DB 15,40,227 ; movaps %xmm3,%xmm4
- DB 232,0,0,0,0 ; call 70c <_sk_xor__sse2+0xe>
+ DB 232,0,0,0,0 ; call 6fb <_sk_xor__sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 15,40,105,64 ; movaps 0x40(%ecx),%xmm5
- DB 15,40,154,20,141,0,0 ; movaps 0x8d14(%edx),%xmm3
+ DB 15,40,154,53,141,0,0 ; movaps 0x8d35(%edx),%xmm3
DB 15,40,243 ; movaps %xmm3,%xmm6
DB 15,92,245 ; subps %xmm5,%xmm6
DB 15,89,198 ; mulps %xmm6,%xmm0
@@ -45102,7 +45076,7 @@ _sk_darken_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
DB 15,40,224 ; movaps %xmm0,%xmm4
- DB 232,0,0,0,0 ; call 774 <_sk_darken_sse2+0xe>
+ DB 232,0,0,0,0 ; call 763 <_sk_darken_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -45128,7 +45102,7 @@ _sk_darken_sse2 LABEL PROC
DB 15,89,203 ; mulps %xmm3,%xmm1
DB 15,95,209 ; maxps %xmm1,%xmm2
DB 15,92,234 ; subps %xmm2,%xmm5
- DB 15,40,138,188,140,0,0 ; movaps 0x8cbc(%edx),%xmm1
+ DB 15,40,138,221,140,0,0 ; movaps 0x8cdd(%edx),%xmm1
DB 15,92,203 ; subps %xmm3,%xmm1
DB 15,89,206 ; mulps %xmm6,%xmm1
DB 15,88,217 ; addps %xmm1,%xmm3
@@ -45149,7 +45123,7 @@ _sk_lighten_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
DB 15,40,224 ; movaps %xmm0,%xmm4
- DB 232,0,0,0,0 ; call 7f4 <_sk_lighten_sse2+0xe>
+ DB 232,0,0,0,0 ; call 7e3 <_sk_lighten_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -45175,7 +45149,7 @@ _sk_lighten_sse2 LABEL PROC
DB 15,89,203 ; mulps %xmm3,%xmm1
DB 15,93,209 ; minps %xmm1,%xmm2
DB 15,92,234 ; subps %xmm2,%xmm5
- DB 15,40,138,76,140,0,0 ; movaps 0x8c4c(%edx),%xmm1
+ DB 15,40,138,109,140,0,0 ; movaps 0x8c6d(%edx),%xmm1
DB 15,92,203 ; subps %xmm3,%xmm1
DB 15,89,206 ; mulps %xmm6,%xmm1
DB 15,88,217 ; addps %xmm1,%xmm3
@@ -45197,7 +45171,7 @@ _sk_difference_sse2 LABEL PROC
DB 131,236,8 ; sub $0x8,%esp
DB 15,40,225 ; movaps %xmm1,%xmm4
DB 15,40,200 ; movaps %xmm0,%xmm1
- DB 232,0,0,0,0 ; call 877 <_sk_difference_sse2+0x11>
+ DB 232,0,0,0,0 ; call 866 <_sk_difference_sse2+0x11>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -45226,7 +45200,7 @@ _sk_difference_sse2 LABEL PROC
DB 15,93,214 ; minps %xmm6,%xmm2
DB 15,88,210 ; addps %xmm2,%xmm2
DB 15,92,226 ; subps %xmm2,%xmm4
- DB 15,40,146,217,139,0,0 ; movaps 0x8bd9(%edx),%xmm2
+ DB 15,40,146,250,139,0,0 ; movaps 0x8bfa(%edx),%xmm2
DB 15,92,211 ; subps %xmm3,%xmm2
DB 15,89,213 ; mulps %xmm5,%xmm2
DB 15,88,218 ; addps %xmm2,%xmm3
@@ -45246,7 +45220,7 @@ _sk_exclusion_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
DB 15,40,224 ; movaps %xmm0,%xmm4
- DB 232,0,0,0,0 ; call 8fd <_sk_exclusion_sse2+0xe>
+ DB 232,0,0,0,0 ; call 8ec <_sk_exclusion_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -45268,7 +45242,7 @@ _sk_exclusion_sse2 LABEL PROC
DB 15,89,202 ; mulps %xmm2,%xmm1
DB 15,88,201 ; addps %xmm1,%xmm1
DB 15,92,233 ; subps %xmm1,%xmm5
- DB 15,40,138,99,139,0,0 ; movaps 0x8b63(%edx),%xmm1
+ DB 15,40,138,132,139,0,0 ; movaps 0x8b84(%edx),%xmm1
DB 15,92,203 ; subps %xmm3,%xmm1
DB 15,89,73,64 ; mulps 0x40(%ecx),%xmm1
DB 15,88,217 ; addps %xmm1,%xmm3
@@ -45292,7 +45266,7 @@ _sk_colorburn_sse2 LABEL PROC
DB 15,41,85,168 ; movaps %xmm2,-0x58(%ebp)
DB 15,40,209 ; movaps %xmm1,%xmm2
DB 15,40,224 ; movaps %xmm0,%xmm4
- DB 232,0,0,0,0 ; call 97c <_sk_colorburn_sse2+0x19>
+ DB 232,0,0,0,0 ; call 96b <_sk_colorburn_sse2+0x19>
DB 89 ; pop %ecx
DB 139,69,8 ; mov 0x8(%ebp),%eax
DB 15,40,72,64 ; movaps 0x40(%eax),%xmm1
@@ -45307,7 +45281,7 @@ _sk_colorburn_sse2 LABEL PROC
DB 15,93,198 ; minps %xmm6,%xmm0
DB 15,40,233 ; movaps %xmm1,%xmm5
DB 15,92,232 ; subps %xmm0,%xmm5
- DB 15,40,177,244,138,0,0 ; movaps 0x8af4(%ecx),%xmm6
+ DB 15,40,177,21,139,0,0 ; movaps 0x8b15(%ecx),%xmm6
DB 15,40,198 ; movaps %xmm6,%xmm0
DB 15,92,193 ; subps %xmm1,%xmm0
DB 15,41,69,200 ; movaps %xmm0,-0x38(%ebp)
@@ -45418,11 +45392,11 @@ _sk_colordodge_sse2 LABEL PROC
DB 15,40,243 ; movaps %xmm3,%xmm6
DB 15,41,85,168 ; movaps %xmm2,-0x58(%ebp)
DB 15,41,77,232 ; movaps %xmm1,-0x18(%ebp)
- DB 232,0,0,0,0 ; call b05 <_sk_colordodge_sse2+0x16>
+ DB 232,0,0,0,0 ; call af4 <_sk_colordodge_sse2+0x16>
DB 89 ; pop %ecx
DB 139,69,8 ; mov 0x8(%ebp),%eax
DB 15,40,72,16 ; movaps 0x10(%eax),%xmm1
- DB 15,40,145,123,137,0,0 ; movaps 0x897b(%ecx),%xmm2
+ DB 15,40,145,156,137,0,0 ; movaps 0x899c(%ecx),%xmm2
DB 15,40,226 ; movaps %xmm2,%xmm4
DB 15,92,214 ; subps %xmm6,%xmm2
DB 15,40,250 ; movaps %xmm2,%xmm7
@@ -45533,11 +45507,11 @@ _sk_hardlight_sse2 LABEL PROC
DB 15,40,243 ; movaps %xmm3,%xmm6
DB 15,41,85,168 ; movaps %xmm2,-0x58(%ebp)
DB 15,41,77,232 ; movaps %xmm1,-0x18(%ebp)
- DB 232,0,0,0,0 ; call c66 <_sk_hardlight_sse2+0x16>
+ DB 232,0,0,0,0 ; call c55 <_sk_hardlight_sse2+0x16>
DB 89 ; pop %ecx
DB 139,69,8 ; mov 0x8(%ebp),%eax
DB 15,40,72,64 ; movaps 0x40(%eax),%xmm1
- DB 15,40,145,42,136,0,0 ; movaps 0x882a(%ecx),%xmm2
+ DB 15,40,145,75,136,0,0 ; movaps 0x884b(%ecx),%xmm2
DB 15,40,234 ; movaps %xmm2,%xmm5
DB 15,92,233 ; subps %xmm1,%xmm5
DB 15,40,225 ; movaps %xmm1,%xmm4
@@ -45641,11 +45615,11 @@ _sk_overlay_sse2 LABEL PROC
DB 15,41,85,152 ; movaps %xmm2,-0x68(%ebp)
DB 15,41,77,168 ; movaps %xmm1,-0x58(%ebp)
DB 15,40,232 ; movaps %xmm0,%xmm5
- DB 232,0,0,0,0 ; call db1 <_sk_overlay_sse2+0x1a>
+ DB 232,0,0,0,0 ; call da0 <_sk_overlay_sse2+0x1a>
DB 89 ; pop %ecx
DB 139,69,8 ; mov 0x8(%ebp),%eax
DB 15,40,80,64 ; movaps 0x40(%eax),%xmm2
- DB 15,40,161,239,134,0,0 ; movaps 0x86ef(%ecx),%xmm4
+ DB 15,40,161,16,135,0,0 ; movaps 0x8710(%ecx),%xmm4
DB 15,40,244 ; movaps %xmm4,%xmm6
DB 15,92,242 ; subps %xmm2,%xmm6
DB 15,40,206 ; movaps %xmm6,%xmm1
@@ -45768,20 +45742,20 @@ _sk_softlight_sse2 LABEL PROC
DB 15,40,241 ; movaps %xmm1,%xmm6
DB 15,89,246 ; mulps %xmm6,%xmm6
DB 15,88,241 ; addps %xmm1,%xmm6
- DB 232,0,0,0,0 ; call f41 <_sk_softlight_sse2+0x52>
+ DB 232,0,0,0,0 ; call f30 <_sk_softlight_sse2+0x52>
DB 89 ; pop %ecx
DB 15,40,194 ; movaps %xmm2,%xmm0
- DB 15,40,137,127,133,0,0 ; movaps 0x857f(%ecx),%xmm1
+ DB 15,40,137,160,133,0,0 ; movaps 0x85a0(%ecx),%xmm1
DB 15,41,141,104,255,255,255 ; movaps %xmm1,-0x98(%ebp)
DB 15,88,193 ; addps %xmm1,%xmm0
DB 15,89,198 ; mulps %xmm6,%xmm0
- DB 15,40,185,111,133,0,0 ; movaps 0x856f(%ecx),%xmm7
+ DB 15,40,185,144,133,0,0 ; movaps 0x8590(%ecx),%xmm7
DB 15,41,125,232 ; movaps %xmm7,-0x18(%ebp)
DB 15,92,250 ; subps %xmm2,%xmm7
DB 15,82,242 ; rsqrtps %xmm2,%xmm6
DB 15,83,206 ; rcpps %xmm6,%xmm1
DB 15,92,202 ; subps %xmm2,%xmm1
- DB 15,40,161,143,133,0,0 ; movaps 0x858f(%ecx),%xmm4
+ DB 15,40,161,176,133,0,0 ; movaps 0x85b0(%ecx),%xmm4
DB 15,41,101,152 ; movaps %xmm4,-0x68(%ebp)
DB 15,89,212 ; mulps %xmm4,%xmm2
DB 15,88,208 ; addps %xmm0,%xmm2
@@ -45975,7 +45949,7 @@ _sk_hue_sse2 LABEL PROC
DB 15,93,200 ; minps %xmm0,%xmm1
DB 15,92,225 ; subps %xmm1,%xmm4
DB 15,41,101,168 ; movaps %xmm4,-0x58(%ebp)
- DB 232,0,0,0,0 ; call 1202 <_sk_hue_sse2+0x4f>
+ DB 232,0,0,0,0 ; call 11f1 <_sk_hue_sse2+0x4f>
DB 89 ; pop %ecx
DB 15,40,221 ; movaps %xmm5,%xmm3
DB 15,40,197 ; movaps %xmm5,%xmm0
@@ -45985,7 +45959,7 @@ _sk_hue_sse2 LABEL PROC
DB 15,40,226 ; movaps %xmm2,%xmm4
DB 15,40,72,64 ; movaps 0x40(%eax),%xmm1
DB 15,41,77,216 ; movaps %xmm1,-0x28(%ebp)
- DB 15,40,169,14,131,0,0 ; movaps 0x830e(%ecx),%xmm5
+ DB 15,40,169,47,131,0,0 ; movaps 0x832f(%ecx),%xmm5
DB 15,92,233 ; subps %xmm1,%xmm5
DB 15,89,197 ; mulps %xmm5,%xmm0
DB 15,41,133,72,255,255,255 ; movaps %xmm0,-0xb8(%ebp)
@@ -46018,17 +45992,17 @@ _sk_hue_sse2 LABEL PROC
DB 15,89,233 ; mulps %xmm1,%xmm5
DB 15,41,173,120,255,255,255 ; movaps %xmm5,-0x88(%ebp)
DB 15,89,193 ; mulps %xmm1,%xmm0
- DB 15,40,153,222,130,0,0 ; movaps 0x82de(%ecx),%xmm3
+ DB 15,40,153,255,130,0,0 ; movaps 0x82ff(%ecx),%xmm3
DB 15,41,93,232 ; movaps %xmm3,-0x18(%ebp)
DB 15,40,117,152 ; movaps -0x68(%ebp),%xmm6
DB 15,40,206 ; movaps %xmm6,%xmm1
DB 15,89,203 ; mulps %xmm3,%xmm1
- DB 15,40,153,238,130,0,0 ; movaps 0x82ee(%ecx),%xmm3
+ DB 15,40,153,15,131,0,0 ; movaps 0x830f(%ecx),%xmm3
DB 15,40,109,136 ; movaps -0x78(%ebp),%xmm5
DB 15,40,253 ; movaps %xmm5,%xmm7
DB 15,89,251 ; mulps %xmm3,%xmm7
DB 15,88,249 ; addps %xmm1,%xmm7
- DB 15,40,137,14,131,0,0 ; movaps 0x830e(%ecx),%xmm1
+ DB 15,40,137,47,131,0,0 ; movaps 0x832f(%ecx),%xmm1
DB 15,92,77,184 ; subps -0x48(%ebp),%xmm1
DB 15,89,241 ; mulps %xmm1,%xmm6
DB 15,41,117,152 ; movaps %xmm6,-0x68(%ebp)
@@ -46038,7 +46012,7 @@ _sk_hue_sse2 LABEL PROC
DB 15,40,77,200 ; movaps -0x38(%ebp),%xmm1
DB 15,89,241 ; mulps %xmm1,%xmm6
DB 15,41,117,168 ; movaps %xmm6,-0x58(%ebp)
- DB 15,40,169,254,130,0,0 ; movaps 0x82fe(%ecx),%xmm5
+ DB 15,40,169,31,131,0,0 ; movaps 0x831f(%ecx),%xmm5
DB 15,89,205 ; mulps %xmm5,%xmm1
DB 15,88,207 ; addps %xmm7,%xmm1
DB 15,94,212 ; divps %xmm4,%xmm2
@@ -46227,19 +46201,19 @@ _sk_saturation_sse2 LABEL PROC
DB 15,89,221 ; mulps %xmm5,%xmm3
DB 15,40,211 ; movaps %xmm3,%xmm2
DB 15,89,253 ; mulps %xmm5,%xmm7
- DB 232,0,0,0,0 ; call 1556 <_sk_saturation_sse2+0xb0>
+ DB 232,0,0,0,0 ; call 1545 <_sk_saturation_sse2+0xb0>
DB 89 ; pop %ecx
- DB 15,40,153,202,127,0,0 ; movaps 0x7fca(%ecx),%xmm3
+ DB 15,40,153,235,127,0,0 ; movaps 0x7feb(%ecx),%xmm3
DB 15,41,157,88,255,255,255 ; movaps %xmm3,-0xa8(%ebp)
DB 15,40,77,184 ; movaps -0x48(%ebp),%xmm1
DB 15,40,193 ; movaps %xmm1,%xmm0
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,40,153,218,127,0,0 ; movaps 0x7fda(%ecx),%xmm3
+ DB 15,40,153,251,127,0,0 ; movaps 0x7ffb(%ecx),%xmm3
DB 15,41,93,232 ; movaps %xmm3,-0x18(%ebp)
DB 15,40,238 ; movaps %xmm6,%xmm5
DB 15,89,235 ; mulps %xmm3,%xmm5
DB 15,88,232 ; addps %xmm0,%xmm5
- DB 15,40,129,250,127,0,0 ; movaps 0x7ffa(%ecx),%xmm0
+ DB 15,40,129,27,128,0,0 ; movaps 0x801b(%ecx),%xmm0
DB 15,41,133,104,255,255,255 ; movaps %xmm0,-0x98(%ebp)
DB 15,92,69,216 ; subps -0x28(%ebp),%xmm0
DB 15,89,200 ; mulps %xmm0,%xmm1
@@ -46251,7 +46225,7 @@ _sk_saturation_sse2 LABEL PROC
DB 15,89,200 ; mulps %xmm0,%xmm1
DB 15,41,141,120,255,255,255 ; movaps %xmm1,-0x88(%ebp)
DB 15,40,200 ; movaps %xmm0,%xmm1
- DB 15,40,129,234,127,0,0 ; movaps 0x7fea(%ecx),%xmm0
+ DB 15,40,129,11,128,0,0 ; movaps 0x800b(%ecx),%xmm0
DB 15,89,200 ; mulps %xmm0,%xmm1
DB 15,88,205 ; addps %xmm5,%xmm1
DB 15,40,109,168 ; movaps -0x58(%ebp),%xmm5
@@ -46403,21 +46377,21 @@ _sk_color_sse2 LABEL PROC
DB 15,41,165,104,255,255,255 ; movaps %xmm4,-0x98(%ebp)
DB 15,40,232 ; movaps %xmm0,%xmm5
DB 15,41,173,120,255,255,255 ; movaps %xmm5,-0x88(%ebp)
- DB 232,0,0,0,0 ; call 17b1 <_sk_color_sse2+0x2a>
+ DB 232,0,0,0,0 ; call 17a0 <_sk_color_sse2+0x2a>
DB 89 ; pop %ecx
DB 139,69,8 ; mov 0x8(%ebp),%eax
DB 15,40,80,16 ; movaps 0x10(%eax),%xmm2
DB 15,40,72,32 ; movaps 0x20(%eax),%xmm1
- DB 15,40,177,175,125,0,0 ; movaps 0x7daf(%ecx),%xmm6
+ DB 15,40,177,208,125,0,0 ; movaps 0x7dd0(%ecx),%xmm6
DB 15,41,117,216 ; movaps %xmm6,-0x28(%ebp)
DB 15,40,194 ; movaps %xmm2,%xmm0
DB 15,89,198 ; mulps %xmm6,%xmm0
- DB 15,40,153,191,125,0,0 ; movaps 0x7dbf(%ecx),%xmm3
+ DB 15,40,153,224,125,0,0 ; movaps 0x7de0(%ecx),%xmm3
DB 15,41,93,184 ; movaps %xmm3,-0x48(%ebp)
DB 15,40,241 ; movaps %xmm1,%xmm6
DB 15,89,243 ; mulps %xmm3,%xmm6
DB 15,88,240 ; addps %xmm0,%xmm6
- DB 15,40,129,223,125,0,0 ; movaps 0x7ddf(%ecx),%xmm0
+ DB 15,40,129,0,126,0,0 ; movaps 0x7e00(%ecx),%xmm0
DB 15,41,69,168 ; movaps %xmm0,-0x58(%ebp)
DB 15,92,69,200 ; subps -0x38(%ebp),%xmm0
DB 15,89,208 ; mulps %xmm0,%xmm2
@@ -46427,7 +46401,7 @@ _sk_color_sse2 LABEL PROC
DB 15,40,80,48 ; movaps 0x30(%eax),%xmm2
DB 15,89,194 ; mulps %xmm2,%xmm0
DB 15,41,133,72,255,255,255 ; movaps %xmm0,-0xb8(%ebp)
- DB 15,40,137,207,125,0,0 ; movaps 0x7dcf(%ecx),%xmm1
+ DB 15,40,137,240,125,0,0 ; movaps 0x7df0(%ecx),%xmm1
DB 15,89,209 ; mulps %xmm1,%xmm2
DB 15,88,214 ; addps %xmm6,%xmm2
DB 15,40,88,64 ; movaps 0x40(%eax),%xmm3
@@ -46581,21 +46555,21 @@ _sk_luminosity_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 129,236,184,0,0,0 ; sub $0xb8,%esp
DB 15,40,242 ; movaps %xmm2,%xmm6
- DB 232,0,0,0,0 ; call 1a14 <_sk_luminosity_sse2+0x11>
+ DB 232,0,0,0,0 ; call 1a03 <_sk_luminosity_sse2+0x11>
DB 89 ; pop %ecx
DB 139,69,8 ; mov 0x8(%ebp),%eax
- DB 15,40,161,140,123,0,0 ; movaps 0x7b8c(%ecx),%xmm4
+ DB 15,40,161,173,123,0,0 ; movaps 0x7bad(%ecx),%xmm4
DB 15,41,101,232 ; movaps %xmm4,-0x18(%ebp)
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 15,89,212 ; mulps %xmm4,%xmm2
- DB 15,40,161,156,123,0,0 ; movaps 0x7b9c(%ecx),%xmm4
+ DB 15,40,161,189,123,0,0 ; movaps 0x7bbd(%ecx),%xmm4
DB 15,41,101,216 ; movaps %xmm4,-0x28(%ebp)
DB 15,40,233 ; movaps %xmm1,%xmm5
DB 15,89,236 ; mulps %xmm4,%xmm5
DB 15,88,234 ; addps %xmm2,%xmm5
DB 15,40,80,64 ; movaps 0x40(%eax),%xmm2
DB 15,41,85,184 ; movaps %xmm2,-0x48(%ebp)
- DB 15,40,161,188,123,0,0 ; movaps 0x7bbc(%ecx),%xmm4
+ DB 15,40,161,221,123,0,0 ; movaps 0x7bdd(%ecx),%xmm4
DB 15,40,252 ; movaps %xmm4,%xmm7
DB 15,92,250 ; subps %xmm2,%xmm7
DB 15,89,199 ; mulps %xmm7,%xmm0
@@ -46605,7 +46579,7 @@ _sk_luminosity_sse2 LABEL PROC
DB 15,89,254 ; mulps %xmm6,%xmm7
DB 15,41,189,104,255,255,255 ; movaps %xmm7,-0x98(%ebp)
DB 15,40,214 ; movaps %xmm6,%xmm2
- DB 15,40,137,172,123,0,0 ; movaps 0x7bac(%ecx),%xmm1
+ DB 15,40,137,205,123,0,0 ; movaps 0x7bcd(%ecx),%xmm1
DB 15,89,209 ; mulps %xmm1,%xmm2
DB 15,88,213 ; addps %xmm5,%xmm2
DB 15,40,104,16 ; movaps 0x10(%eax),%xmm5
@@ -46765,7 +46739,7 @@ _sk_srcover_rgba_8888_sse2 LABEL PROC
DB 131,236,44 ; sub $0x2c,%esp
DB 102,15,127,85,200 ; movdqa %xmm2,-0x38(%ebp)
DB 15,41,77,216 ; movaps %xmm1,-0x28(%ebp)
- DB 232,0,0,0,0 ; call 1c7f <_sk_srcover_rgba_8888_sse2+0x17>
+ DB 232,0,0,0,0 ; call 1c6e <_sk_srcover_rgba_8888_sse2+0x17>
DB 95 ; pop %edi
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -46777,9 +46751,9 @@ _sk_srcover_rgba_8888_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,49 ; mov (%ecx),%esi
- DB 15,133,224,0,0,0 ; jne 1d81 <_sk_srcover_rgba_8888_sse2+0x119>
+ DB 15,133,224,0,0,0 ; jne 1d70 <_sk_srcover_rgba_8888_sse2+0x119>
DB 243,15,111,20,178 ; movdqu (%edx,%esi,4),%xmm2
- DB 102,15,111,167,97,121,0,0 ; movdqa 0x7961(%edi),%xmm4
+ DB 102,15,111,167,130,121,0,0 ; movdqa 0x7982(%edi),%xmm4
DB 102,15,111,234 ; movdqa %xmm2,%xmm5
DB 102,15,219,236 ; pand %xmm4,%xmm5
DB 102,15,111,242 ; movdqa %xmm2,%xmm6
@@ -46790,9 +46764,9 @@ _sk_srcover_rgba_8888_sse2 LABEL PROC
DB 102,15,219,252 ; pand %xmm4,%xmm7
DB 15,91,229 ; cvtdq2ps %xmm5,%xmm4
DB 15,41,97,16 ; movaps %xmm4,0x10(%ecx)
- DB 15,40,175,113,121,0,0 ; movaps 0x7971(%edi),%xmm5
+ DB 15,40,175,146,121,0,0 ; movaps 0x7992(%edi),%xmm5
DB 15,92,235 ; subps %xmm3,%xmm5
- DB 15,40,143,129,121,0,0 ; movaps 0x7981(%edi),%xmm1
+ DB 15,40,143,162,121,0,0 ; movaps 0x79a2(%edi),%xmm1
DB 15,89,193 ; mulps %xmm1,%xmm0
DB 15,89,229 ; mulps %xmm5,%xmm4
DB 15,88,224 ; addps %xmm0,%xmm4
@@ -46825,7 +46799,7 @@ _sk_srcover_rgba_8888_sse2 LABEL PROC
DB 102,15,235,194 ; por %xmm2,%xmm0
DB 102,15,235,193 ; por %xmm1,%xmm0
DB 133,219 ; test %ebx,%ebx
- DB 117,95 ; jne 1dbc <_sk_srcover_rgba_8888_sse2+0x154>
+ DB 117,95 ; jne 1dab <_sk_srcover_rgba_8888_sse2+0x154>
DB 243,15,127,4,178 ; movdqu %xmm0,(%edx,%esi,4)
DB 141,80,8 ; lea 0x8(%eax),%edx
DB 131,236,8 ; sub $0x8,%esp
@@ -46846,33 +46820,33 @@ _sk_srcover_rgba_8888_sse2 LABEL PROC
DB 136,69,243 ; mov %al,-0xd(%ebp)
DB 128,101,243,3 ; andb $0x3,-0xd(%ebp)
DB 128,125,243,1 ; cmpb $0x1,-0xd(%ebp)
- DB 116,80 ; je 1de0 <_sk_srcover_rgba_8888_sse2+0x178>
+ DB 116,80 ; je 1dcf <_sk_srcover_rgba_8888_sse2+0x178>
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 128,125,243,2 ; cmpb $0x2,-0xd(%ebp)
DB 139,69,12 ; mov 0xc(%ebp),%eax
- DB 116,21 ; je 1db2 <_sk_srcover_rgba_8888_sse2+0x14a>
+ DB 116,21 ; je 1da1 <_sk_srcover_rgba_8888_sse2+0x14a>
DB 128,125,243,3 ; cmpb $0x3,-0xd(%ebp)
- DB 15,133,255,254,255,255 ; jne 1ca6 <_sk_srcover_rgba_8888_sse2+0x3e>
+ DB 15,133,255,254,255,255 ; jne 1c95 <_sk_srcover_rgba_8888_sse2+0x3e>
DB 102,15,110,84,178,8 ; movd 0x8(%edx,%esi,4),%xmm2
DB 102,15,112,210,69 ; pshufd $0x45,%xmm2,%xmm2
DB 102,15,18,20,178 ; movlpd (%edx,%esi,4),%xmm2
- DB 233,234,254,255,255 ; jmp 1ca6 <_sk_srcover_rgba_8888_sse2+0x3e>
+ DB 233,234,254,255,255 ; jmp 1c95 <_sk_srcover_rgba_8888_sse2+0x3e>
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,41 ; je 1ded <_sk_srcover_rgba_8888_sse2+0x185>
+ DB 116,41 ; je 1ddc <_sk_srcover_rgba_8888_sse2+0x185>
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,16 ; je 1dd9 <_sk_srcover_rgba_8888_sse2+0x171>
+ DB 116,16 ; je 1dc8 <_sk_srcover_rgba_8888_sse2+0x171>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,148 ; jne 1d62 <_sk_srcover_rgba_8888_sse2+0xfa>
+ DB 117,148 ; jne 1d51 <_sk_srcover_rgba_8888_sse2+0xfa>
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
DB 102,15,126,76,178,8 ; movd %xmm1,0x8(%edx,%esi,4)
DB 102,15,214,4,178 ; movq %xmm0,(%edx,%esi,4)
- DB 235,130 ; jmp 1d62 <_sk_srcover_rgba_8888_sse2+0xfa>
+ DB 235,130 ; jmp 1d51 <_sk_srcover_rgba_8888_sse2+0xfa>
DB 102,15,110,20,178 ; movd (%edx,%esi,4),%xmm2
DB 139,69,12 ; mov 0xc(%ebp),%eax
- DB 233,185,254,255,255 ; jmp 1ca6 <_sk_srcover_rgba_8888_sse2+0x3e>
+ DB 233,185,254,255,255 ; jmp 1c95 <_sk_srcover_rgba_8888_sse2+0x3e>
DB 102,15,126,4,178 ; movd %xmm0,(%edx,%esi,4)
- DB 233,107,255,255,255 ; jmp 1d62 <_sk_srcover_rgba_8888_sse2+0xfa>
+ DB 233,107,255,255,255 ; jmp 1d51 <_sk_srcover_rgba_8888_sse2+0xfa>
PUBLIC _sk_clamp_0_sse2
_sk_clamp_0_sse2 LABEL PROC
@@ -46899,10 +46873,10 @@ _sk_clamp_1_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 1e2b <_sk_clamp_1_sse2+0xb>
+ DB 232,0,0,0,0 ; call 1e1a <_sk_clamp_1_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
- DB 15,40,160,229,119,0,0 ; movaps 0x77e5(%eax),%xmm4
+ DB 15,40,160,6,120,0,0 ; movaps 0x7806(%eax),%xmm4
DB 15,93,196 ; minps %xmm4,%xmm0
DB 15,93,204 ; minps %xmm4,%xmm1
DB 15,93,212 ; minps %xmm4,%xmm2
@@ -46921,10 +46895,10 @@ _sk_clamp_a_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 1e5e <_sk_clamp_a_sse2+0xb>
+ DB 232,0,0,0,0 ; call 1e4d <_sk_clamp_a_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
- DB 15,93,152,194,119,0,0 ; minps 0x77c2(%eax),%xmm3
+ DB 15,93,152,227,119,0,0 ; minps 0x77e3(%eax),%xmm3
DB 15,93,195 ; minps %xmm3,%xmm0
DB 15,93,203 ; minps %xmm3,%xmm1
DB 15,93,211 ; minps %xmm3,%xmm2
@@ -46942,12 +46916,12 @@ _sk_clamp_a_dst_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 1e8e <_sk_clamp_a_dst_sse2+0xb>
+ DB 232,0,0,0,0 ; call 1e7d <_sk_clamp_a_dst_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 139,85,8 ; mov 0x8(%ebp),%edx
DB 15,40,98,64 ; movaps 0x40(%edx),%xmm4
- DB 15,93,160,162,119,0,0 ; minps 0x77a2(%eax),%xmm4
+ DB 15,93,160,195,119,0,0 ; minps 0x77c3(%eax),%xmm4
DB 15,41,98,64 ; movaps %xmm4,0x40(%edx)
DB 15,40,106,16 ; movaps 0x10(%edx),%xmm5
DB 15,93,236 ; minps %xmm4,%xmm5
@@ -47012,10 +46986,10 @@ _sk_invert_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 1f39 <_sk_invert_sse2+0xb>
+ DB 232,0,0,0,0 ; call 1f28 <_sk_invert_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
- DB 15,40,160,7,119,0,0 ; movaps 0x7707(%eax),%xmm4
+ DB 15,40,160,40,119,0,0 ; movaps 0x7728(%eax),%xmm4
DB 15,40,236 ; movaps %xmm4,%xmm5
DB 15,92,232 ; subps %xmm0,%xmm5
DB 15,40,244 ; movaps %xmm4,%xmm6
@@ -47124,11 +47098,11 @@ _sk_unpremul_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 2037 <_sk_unpremul_sse2+0xb>
+ DB 232,0,0,0,0 ; call 2026 <_sk_unpremul_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 15,87,228 ; xorps %xmm4,%xmm4
- DB 15,40,168,25,118,0,0 ; movaps 0x7619(%eax),%xmm5
+ DB 15,40,168,58,118,0,0 ; movaps 0x763a(%eax),%xmm5
DB 15,94,235 ; divps %xmm3,%xmm5
DB 15,194,227,4 ; cmpneqps %xmm3,%xmm4
DB 15,84,229 ; andps %xmm5,%xmm4
@@ -47153,23 +47127,23 @@ _sk_from_srgb_sse2 LABEL PROC
DB 15,40,234 ; movaps %xmm2,%xmm5
DB 15,40,217 ; movaps %xmm1,%xmm3
DB 15,40,208 ; movaps %xmm0,%xmm2
- DB 232,0,0,0,0 ; call 2081 <_sk_from_srgb_sse2+0x18>
+ DB 232,0,0,0,0 ; call 2070 <_sk_from_srgb_sse2+0x18>
DB 88 ; pop %eax
DB 15,40,202 ; movaps %xmm2,%xmm1
DB 15,89,201 ; mulps %xmm1,%xmm1
- DB 15,40,160,239,117,0,0 ; movaps 0x75ef(%eax),%xmm4
+ DB 15,40,160,16,118,0,0 ; movaps 0x7610(%eax),%xmm4
DB 15,89,196 ; mulps %xmm4,%xmm0
- DB 15,40,176,255,117,0,0 ; movaps 0x75ff(%eax),%xmm6
+ DB 15,40,176,32,118,0,0 ; movaps 0x7620(%eax),%xmm6
DB 15,41,117,216 ; movaps %xmm6,-0x28(%ebp)
DB 15,88,198 ; addps %xmm6,%xmm0
DB 15,89,193 ; mulps %xmm1,%xmm0
- DB 15,40,176,223,117,0,0 ; movaps 0x75df(%eax),%xmm6
+ DB 15,40,176,0,118,0,0 ; movaps 0x7600(%eax),%xmm6
DB 15,40,202 ; movaps %xmm2,%xmm1
DB 15,89,206 ; mulps %xmm6,%xmm1
- DB 15,40,184,15,118,0,0 ; movaps 0x760f(%eax),%xmm7
+ DB 15,40,184,48,118,0,0 ; movaps 0x7630(%eax),%xmm7
DB 15,41,125,232 ; movaps %xmm7,-0x18(%ebp)
DB 15,88,199 ; addps %xmm7,%xmm0
- DB 15,40,184,31,118,0,0 ; movaps 0x761f(%eax),%xmm7
+ DB 15,40,184,64,118,0,0 ; movaps 0x7640(%eax),%xmm7
DB 15,194,215,1 ; cmpltps %xmm7,%xmm2
DB 15,84,202 ; andps %xmm2,%xmm1
DB 15,85,208 ; andnps %xmm0,%xmm2
@@ -47221,24 +47195,24 @@ _sk_from_srgb_dst_sse2 LABEL PROC
DB 15,41,85,200 ; movaps %xmm2,-0x38(%ebp)
DB 15,41,77,216 ; movaps %xmm1,-0x28(%ebp)
DB 15,41,69,232 ; movaps %xmm0,-0x18(%ebp)
- DB 232,0,0,0,0 ; call 215c <_sk_from_srgb_dst_sse2+0x1b>
+ DB 232,0,0,0,0 ; call 214b <_sk_from_srgb_dst_sse2+0x1b>
DB 89 ; pop %ecx
DB 139,69,8 ; mov 0x8(%ebp),%eax
DB 15,40,72,16 ; movaps 0x10(%eax),%xmm1
DB 15,40,233 ; movaps %xmm1,%xmm5
DB 15,89,237 ; mulps %xmm5,%xmm5
- DB 15,40,161,100,117,0,0 ; movaps 0x7564(%ecx),%xmm4
+ DB 15,40,161,133,117,0,0 ; movaps 0x7585(%ecx),%xmm4
DB 15,40,193 ; movaps %xmm1,%xmm0
DB 15,89,196 ; mulps %xmm4,%xmm0
- DB 15,40,177,116,117,0,0 ; movaps 0x7574(%ecx),%xmm6
+ DB 15,40,177,149,117,0,0 ; movaps 0x7595(%ecx),%xmm6
DB 15,88,198 ; addps %xmm6,%xmm0
DB 15,89,197 ; mulps %xmm5,%xmm0
- DB 15,40,169,84,117,0,0 ; movaps 0x7554(%ecx),%xmm5
+ DB 15,40,169,117,117,0,0 ; movaps 0x7575(%ecx),%xmm5
DB 15,40,209 ; movaps %xmm1,%xmm2
DB 15,89,213 ; mulps %xmm5,%xmm2
- DB 15,40,185,132,117,0,0 ; movaps 0x7584(%ecx),%xmm7
+ DB 15,40,185,165,117,0,0 ; movaps 0x75a5(%ecx),%xmm7
DB 15,88,199 ; addps %xmm7,%xmm0
- DB 15,40,153,148,117,0,0 ; movaps 0x7594(%ecx),%xmm3
+ DB 15,40,153,181,117,0,0 ; movaps 0x75b5(%ecx),%xmm3
DB 15,194,203,1 ; cmpltps %xmm3,%xmm1
DB 15,84,209 ; andps %xmm1,%xmm2
DB 15,85,200 ; andnps %xmm0,%xmm1
@@ -47295,28 +47269,28 @@ _sk_to_srgb_sse2 LABEL PROC
DB 15,40,250 ; movaps %xmm2,%xmm7
DB 15,40,241 ; movaps %xmm1,%xmm6
DB 15,40,208 ; movaps %xmm0,%xmm2
- DB 232,0,0,0,0 ; call 2247 <_sk_to_srgb_sse2+0x18>
+ DB 232,0,0,0,0 ; call 2236 <_sk_to_srgb_sse2+0x18>
DB 88 ; pop %eax
DB 15,82,218 ; rsqrtps %xmm2,%xmm3
- DB 15,40,160,201,116,0,0 ; movaps 0x74c9(%eax),%xmm4
+ DB 15,40,160,234,116,0,0 ; movaps 0x74ea(%eax),%xmm4
DB 15,40,235 ; movaps %xmm3,%xmm5
DB 15,89,236 ; mulps %xmm4,%xmm5
- DB 15,40,128,217,116,0,0 ; movaps 0x74d9(%eax),%xmm0
+ DB 15,40,128,250,116,0,0 ; movaps 0x74fa(%eax),%xmm0
DB 15,41,69,232 ; movaps %xmm0,-0x18(%ebp)
DB 15,88,232 ; addps %xmm0,%xmm5
DB 15,89,235 ; mulps %xmm3,%xmm5
- DB 15,40,128,233,116,0,0 ; movaps 0x74e9(%eax),%xmm0
+ DB 15,40,128,10,117,0,0 ; movaps 0x750a(%eax),%xmm0
DB 15,41,69,200 ; movaps %xmm0,-0x38(%ebp)
DB 15,88,232 ; addps %xmm0,%xmm5
- DB 15,40,128,249,116,0,0 ; movaps 0x74f9(%eax),%xmm0
+ DB 15,40,128,26,117,0,0 ; movaps 0x751a(%eax),%xmm0
DB 15,41,69,216 ; movaps %xmm0,-0x28(%ebp)
DB 15,88,216 ; addps %xmm0,%xmm3
DB 15,83,195 ; rcpps %xmm3,%xmm0
DB 15,89,197 ; mulps %xmm5,%xmm0
- DB 15,40,168,185,116,0,0 ; movaps 0x74b9(%eax),%xmm5
+ DB 15,40,168,218,116,0,0 ; movaps 0x74da(%eax),%xmm5
DB 15,40,202 ; movaps %xmm2,%xmm1
DB 15,89,205 ; mulps %xmm5,%xmm1
- DB 15,40,152,9,117,0,0 ; movaps 0x7509(%eax),%xmm3
+ DB 15,40,152,42,117,0,0 ; movaps 0x752a(%eax),%xmm3
DB 15,194,211,1 ; cmpltps %xmm3,%xmm2
DB 15,84,202 ; andps %xmm2,%xmm1
DB 15,85,208 ; andnps %xmm0,%xmm2
@@ -47371,7 +47345,7 @@ _sk_rgb_to_hsl_sse2 LABEL PROC
DB 15,41,93,200 ; movaps %xmm3,-0x38(%ebp)
DB 15,40,249 ; movaps %xmm1,%xmm7
DB 15,40,224 ; movaps %xmm0,%xmm4
- DB 232,0,0,0,0 ; call 233e <_sk_rgb_to_hsl_sse2+0x15>
+ DB 232,0,0,0,0 ; call 232d <_sk_rgb_to_hsl_sse2+0x15>
DB 88 ; pop %eax
DB 15,40,199 ; movaps %xmm7,%xmm0
DB 15,95,194 ; maxps %xmm2,%xmm0
@@ -47385,14 +47359,14 @@ _sk_rgb_to_hsl_sse2 LABEL PROC
DB 15,40,195 ; movaps %xmm3,%xmm0
DB 15,92,193 ; subps %xmm1,%xmm0
DB 15,41,69,216 ; movaps %xmm0,-0x28(%ebp)
- DB 15,40,136,34,116,0,0 ; movaps 0x7422(%eax),%xmm1
+ DB 15,40,136,67,116,0,0 ; movaps 0x7443(%eax),%xmm1
DB 15,94,200 ; divps %xmm0,%xmm1
DB 15,40,199 ; movaps %xmm7,%xmm0
DB 15,92,194 ; subps %xmm2,%xmm0
DB 15,89,193 ; mulps %xmm1,%xmm0
DB 15,40,239 ; movaps %xmm7,%xmm5
DB 15,194,234,1 ; cmpltps %xmm2,%xmm5
- DB 15,84,168,50,116,0,0 ; andps 0x7432(%eax),%xmm5
+ DB 15,84,168,83,116,0,0 ; andps 0x7453(%eax),%xmm5
DB 15,88,232 ; addps %xmm0,%xmm5
DB 15,40,195 ; movaps %xmm3,%xmm0
DB 15,194,196,0 ; cmpeqps %xmm4,%xmm0
@@ -47402,9 +47376,9 @@ _sk_rgb_to_hsl_sse2 LABEL PROC
DB 15,92,231 ; subps %xmm7,%xmm4
DB 15,89,209 ; mulps %xmm1,%xmm2
DB 15,89,225 ; mulps %xmm1,%xmm4
- DB 15,40,136,66,116,0,0 ; movaps 0x7442(%eax),%xmm1
+ DB 15,40,136,99,116,0,0 ; movaps 0x7463(%eax),%xmm1
DB 15,88,209 ; addps %xmm1,%xmm2
- DB 15,88,160,82,116,0,0 ; addps 0x7452(%eax),%xmm4
+ DB 15,88,160,115,116,0,0 ; addps 0x7473(%eax),%xmm4
DB 15,84,214 ; andps %xmm6,%xmm2
DB 15,85,244 ; andnps %xmm4,%xmm6
DB 15,86,242 ; orps %xmm2,%xmm6
@@ -47416,7 +47390,7 @@ _sk_rgb_to_hsl_sse2 LABEL PROC
DB 15,194,226,4 ; cmpneqps %xmm2,%xmm4
DB 15,92,203 ; subps %xmm3,%xmm1
DB 15,88,218 ; addps %xmm2,%xmm3
- DB 15,40,168,114,116,0,0 ; movaps 0x7472(%eax),%xmm5
+ DB 15,40,168,147,116,0,0 ; movaps 0x7493(%eax),%xmm5
DB 15,92,202 ; subps %xmm2,%xmm1
DB 15,40,211 ; movaps %xmm3,%xmm2
DB 15,89,213 ; mulps %xmm5,%xmm2
@@ -47426,7 +47400,7 @@ _sk_rgb_to_hsl_sse2 LABEL PROC
DB 15,86,233 ; orps %xmm1,%xmm5
DB 15,40,77,216 ; movaps -0x28(%ebp),%xmm1
DB 15,94,205 ; divps %xmm5,%xmm1
- DB 15,89,128,98,116,0,0 ; mulps 0x7462(%eax),%xmm0
+ DB 15,89,128,131,116,0,0 ; mulps 0x7483(%eax),%xmm0
DB 15,84,196 ; andps %xmm4,%xmm0
DB 15,84,204 ; andps %xmm4,%xmm1
DB 139,69,12 ; mov 0xc(%ebp),%eax
@@ -47447,9 +47421,9 @@ _sk_hsl_to_rgb_sse2 LABEL PROC
DB 129,236,200,0,0,0 ; sub $0xc8,%esp
DB 15,41,157,56,255,255,255 ; movaps %xmm3,-0xc8(%ebp)
DB 15,41,69,184 ; movaps %xmm0,-0x48(%ebp)
- DB 232,0,0,0,0 ; call 2439 <_sk_hsl_to_rgb_sse2+0x19>
+ DB 232,0,0,0,0 ; call 2428 <_sk_hsl_to_rgb_sse2+0x19>
DB 88 ; pop %eax
- DB 15,40,160,135,115,0,0 ; movaps 0x7387(%eax),%xmm4
+ DB 15,40,160,168,115,0,0 ; movaps 0x73a8(%eax),%xmm4
DB 15,40,220 ; movaps %xmm4,%xmm3
DB 15,41,165,104,255,255,255 ; movaps %xmm4,-0x98(%ebp)
DB 15,194,218,2 ; cmpleps %xmm2,%xmm3
@@ -47462,13 +47436,13 @@ _sk_hsl_to_rgb_sse2 LABEL PROC
DB 15,84,243 ; andps %xmm3,%xmm6
DB 15,85,217 ; andnps %xmm1,%xmm3
DB 15,86,222 ; orps %xmm6,%xmm3
- DB 15,40,168,151,115,0,0 ; movaps 0x7397(%eax),%xmm5
+ DB 15,40,168,184,115,0,0 ; movaps 0x73b8(%eax),%xmm5
DB 15,88,232 ; addps %xmm0,%xmm5
DB 243,15,91,205 ; cvttps2dq %xmm5,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,194,193,1 ; cmpltps %xmm1,%xmm0
- DB 15,40,176,167,115,0,0 ; movaps 0x73a7(%eax),%xmm6
+ DB 15,40,176,200,115,0,0 ; movaps 0x73c8(%eax),%xmm6
DB 15,41,117,136 ; movaps %xmm6,-0x78(%ebp)
DB 15,84,198 ; andps %xmm6,%xmm0
DB 15,92,200 ; subps %xmm0,%xmm1
@@ -47478,19 +47452,19 @@ _sk_hsl_to_rgb_sse2 LABEL PROC
DB 15,41,93,216 ; movaps %xmm3,-0x28(%ebp)
DB 15,88,210 ; addps %xmm2,%xmm2
DB 15,92,211 ; subps %xmm3,%xmm2
- DB 15,40,184,183,115,0,0 ; movaps 0x73b7(%eax),%xmm7
+ DB 15,40,184,216,115,0,0 ; movaps 0x73d8(%eax),%xmm7
DB 15,41,189,88,255,255,255 ; movaps %xmm7,-0xa8(%ebp)
DB 15,194,253,2 ; cmpleps %xmm5,%xmm7
DB 15,92,218 ; subps %xmm2,%xmm3
DB 15,41,93,200 ; movaps %xmm3,-0x38(%ebp)
DB 15,40,204 ; movaps %xmm4,%xmm1
DB 15,194,205,2 ; cmpleps %xmm5,%xmm1
- DB 15,40,160,231,115,0,0 ; movaps 0x73e7(%eax),%xmm4
+ DB 15,40,160,8,116,0,0 ; movaps 0x7408(%eax),%xmm4
DB 15,41,165,120,255,255,255 ; movaps %xmm4,-0x88(%ebp)
DB 15,194,229,2 ; cmpleps %xmm5,%xmm4
- DB 15,40,176,199,115,0,0 ; movaps 0x73c7(%eax),%xmm6
+ DB 15,40,176,232,115,0,0 ; movaps 0x73e8(%eax),%xmm6
DB 15,89,238 ; mulps %xmm6,%xmm5
- DB 15,40,128,215,115,0,0 ; movaps 0x73d7(%eax),%xmm0
+ DB 15,40,128,248,115,0,0 ; movaps 0x73f8(%eax),%xmm0
DB 15,41,69,168 ; movaps %xmm0,-0x58(%ebp)
DB 15,92,197 ; subps %xmm5,%xmm0
DB 15,89,195 ; mulps %xmm3,%xmm0
@@ -47516,18 +47490,18 @@ _sk_hsl_to_rgb_sse2 LABEL PROC
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
DB 15,40,203 ; movaps %xmm3,%xmm1
DB 15,194,200,1 ; cmpltps %xmm0,%xmm1
- DB 15,84,136,167,115,0,0 ; andps 0x73a7(%eax),%xmm1
+ DB 15,84,136,200,115,0,0 ; andps 0x73c8(%eax),%xmm1
DB 15,92,193 ; subps %xmm1,%xmm0
DB 15,40,203 ; movaps %xmm3,%xmm1
DB 15,92,200 ; subps %xmm0,%xmm1
- DB 15,40,128,183,115,0,0 ; movaps 0x73b7(%eax),%xmm0
+ DB 15,40,128,216,115,0,0 ; movaps 0x73d8(%eax),%xmm0
DB 15,194,193,2 ; cmpleps %xmm1,%xmm0
- DB 15,40,152,135,115,0,0 ; movaps 0x7387(%eax),%xmm3
+ DB 15,40,152,168,115,0,0 ; movaps 0x73a8(%eax),%xmm3
DB 15,194,217,2 ; cmpleps %xmm1,%xmm3
- DB 15,40,160,231,115,0,0 ; movaps 0x73e7(%eax),%xmm4
+ DB 15,40,160,8,116,0,0 ; movaps 0x7408(%eax),%xmm4
DB 15,194,225,2 ; cmpleps %xmm1,%xmm4
DB 15,89,206 ; mulps %xmm6,%xmm1
- DB 15,40,168,215,115,0,0 ; movaps 0x73d7(%eax),%xmm5
+ DB 15,40,168,248,115,0,0 ; movaps 0x73f8(%eax),%xmm5
DB 15,92,233 ; subps %xmm1,%xmm5
DB 15,89,239 ; mulps %xmm7,%xmm5
DB 15,88,234 ; addps %xmm2,%xmm5
@@ -47547,7 +47521,7 @@ _sk_hsl_to_rgb_sse2 LABEL PROC
DB 15,40,125,232 ; movaps -0x18(%ebp),%xmm7
DB 15,85,252 ; andnps %xmm4,%xmm7
DB 15,40,93,184 ; movaps -0x48(%ebp),%xmm3
- DB 15,88,152,247,115,0,0 ; addps 0x73f7(%eax),%xmm3
+ DB 15,88,152,24,116,0,0 ; addps 0x7418(%eax),%xmm3
DB 243,15,91,195 ; cvttps2dq %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
DB 15,40,203 ; movaps %xmm3,%xmm1
@@ -47630,7 +47604,7 @@ _sk_scale_u8_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 26b3 <_sk_scale_u8_sse2+0xe>
+ DB 232,0,0,0,0 ; call 26a2 <_sk_scale_u8_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -47641,13 +47615,13 @@ _sk_scale_u8_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,65 ; jne 270f <_sk_scale_u8_sse2+0x6a>
+ DB 117,65 ; jne 26fe <_sk_scale_u8_sse2+0x6a>
DB 102,15,110,36,62 ; movd (%esi,%edi,1),%xmm4
DB 102,15,96,224 ; punpcklbw %xmm0,%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
- DB 102,15,219,162,141,113,0,0 ; pand 0x718d(%edx),%xmm4
+ DB 102,15,219,162,174,113,0,0 ; pand 0x71ae(%edx),%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,162,157,113,0,0 ; mulps 0x719d(%edx),%xmm4
+ DB 15,89,162,190,113,0,0 ; mulps 0x71be(%edx),%xmm4
DB 15,89,196 ; mulps %xmm4,%xmm0
DB 15,89,204 ; mulps %xmm4,%xmm1
DB 15,89,212 ; mulps %xmm4,%xmm2
@@ -47666,12 +47640,12 @@ _sk_scale_u8_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,50 ; je 2749 <_sk_scale_u8_sse2+0xa4>
+ DB 116,50 ; je 2738 <_sk_scale_u8_sse2+0xa4>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,19 ; je 2733 <_sk_scale_u8_sse2+0x8e>
+ DB 116,19 ; je 2722 <_sk_scale_u8_sse2+0x8e>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,182 ; jne 26db <_sk_scale_u8_sse2+0x36>
+ DB 117,182 ; jne 26ca <_sk_scale_u8_sse2+0x36>
DB 15,182,92,62,2 ; movzbl 0x2(%esi,%edi,1),%ebx
DB 102,15,110,227 ; movd %ebx,%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
@@ -47680,10 +47654,10 @@ _sk_scale_u8_sse2 LABEL PROC
DB 102,15,96,232 ; punpcklbw %xmm0,%xmm5
DB 102,15,97,232 ; punpcklwd %xmm0,%xmm5
DB 242,15,16,229 ; movsd %xmm5,%xmm4
- DB 235,146 ; jmp 26db <_sk_scale_u8_sse2+0x36>
+ DB 235,146 ; jmp 26ca <_sk_scale_u8_sse2+0x36>
DB 15,182,52,62 ; movzbl (%esi,%edi,1),%esi
DB 102,15,110,230 ; movd %esi,%xmm4
- DB 235,136 ; jmp 26db <_sk_scale_u8_sse2+0x36>
+ DB 235,136 ; jmp 26ca <_sk_scale_u8_sse2+0x36>
PUBLIC _sk_scale_565_sse2
_sk_scale_565_sse2 LABEL PROC
@@ -47696,7 +47670,7 @@ _sk_scale_565_sse2 LABEL PROC
DB 15,41,85,200 ; movaps %xmm2,-0x38(%ebp)
DB 15,41,77,216 ; movaps %xmm1,-0x28(%ebp)
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
- DB 232,0,0,0,0 ; call 276d <_sk_scale_565_sse2+0x1a>
+ DB 232,0,0,0,0 ; call 275c <_sk_scale_565_sse2+0x1a>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -47708,20 +47682,20 @@ _sk_scale_565_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 15,133,157,0,0,0 ; jne 282b <_sk_scale_565_sse2+0xd8>
+ DB 15,133,157,0,0,0 ; jne 281a <_sk_scale_565_sse2+0xd8>
DB 243,15,126,52,126 ; movq (%esi,%edi,2),%xmm6
DB 102,15,97,240 ; punpcklwd %xmm0,%xmm6
- DB 102,15,111,162,243,112,0,0 ; movdqa 0x70f3(%edx),%xmm4
+ DB 102,15,111,162,20,113,0,0 ; movdqa 0x7114(%edx),%xmm4
DB 102,15,219,230 ; pand %xmm6,%xmm4
DB 15,91,212 ; cvtdq2ps %xmm4,%xmm2
- DB 15,89,146,3,113,0,0 ; mulps 0x7103(%edx),%xmm2
- DB 102,15,111,170,19,113,0,0 ; movdqa 0x7113(%edx),%xmm5
+ DB 15,89,146,36,113,0,0 ; mulps 0x7124(%edx),%xmm2
+ DB 102,15,111,170,52,113,0,0 ; movdqa 0x7134(%edx),%xmm5
DB 102,15,219,238 ; pand %xmm6,%xmm5
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
- DB 15,89,170,35,113,0,0 ; mulps 0x7123(%edx),%xmm5
- DB 102,15,219,178,51,113,0,0 ; pand 0x7133(%edx),%xmm6
+ DB 15,89,170,68,113,0,0 ; mulps 0x7144(%edx),%xmm5
+ DB 102,15,219,178,84,113,0,0 ; pand 0x7154(%edx),%xmm6
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
- DB 15,89,178,67,113,0,0 ; mulps 0x7143(%edx),%xmm6
+ DB 15,89,178,100,113,0,0 ; mulps 0x7164(%edx),%xmm6
DB 15,40,253 ; movaps %xmm5,%xmm7
DB 15,93,254 ; minps %xmm6,%xmm7
DB 15,40,226 ; movaps %xmm2,%xmm4
@@ -47756,22 +47730,22 @@ _sk_scale_565_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,50 ; je 2865 <_sk_scale_565_sse2+0x112>
+ DB 116,50 ; je 2854 <_sk_scale_565_sse2+0x112>
DB 102,15,239,246 ; pxor %xmm6,%xmm6
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,23 ; je 2853 <_sk_scale_565_sse2+0x100>
+ DB 116,23 ; je 2842 <_sk_scale_565_sse2+0x100>
DB 128,251,3 ; cmp $0x3,%bl
- DB 15,133,82,255,255,255 ; jne 2797 <_sk_scale_565_sse2+0x44>
+ DB 15,133,82,255,255,255 ; jne 2786 <_sk_scale_565_sse2+0x44>
DB 15,183,92,126,4 ; movzwl 0x4(%esi,%edi,2),%ebx
DB 102,15,110,227 ; movd %ebx,%xmm4
DB 102,15,112,244,69 ; pshufd $0x45,%xmm4,%xmm6
DB 102,15,110,36,126 ; movd (%esi,%edi,2),%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
DB 242,15,16,244 ; movsd %xmm4,%xmm6
- DB 233,50,255,255,255 ; jmp 2797 <_sk_scale_565_sse2+0x44>
+ DB 233,50,255,255,255 ; jmp 2786 <_sk_scale_565_sse2+0x44>
DB 15,183,52,126 ; movzwl (%esi,%edi,2),%esi
DB 102,15,110,246 ; movd %esi,%xmm6
- DB 233,37,255,255,255 ; jmp 2797 <_sk_scale_565_sse2+0x44>
+ DB 233,37,255,255,255 ; jmp 2786 <_sk_scale_565_sse2+0x44>
PUBLIC _sk_lerp_1_float_sse2
_sk_lerp_1_float_sse2 LABEL PROC
@@ -47816,7 +47790,7 @@ _sk_lerp_u8_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 28da <_sk_lerp_u8_sse2+0xe>
+ DB 232,0,0,0,0 ; call 28c9 <_sk_lerp_u8_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -47827,13 +47801,13 @@ _sk_lerp_u8_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,102 ; jne 295b <_sk_lerp_u8_sse2+0x8f>
+ DB 117,102 ; jne 294a <_sk_lerp_u8_sse2+0x8f>
DB 102,15,110,36,62 ; movd (%esi,%edi,1),%xmm4
DB 102,15,96,224 ; punpcklbw %xmm0,%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
- DB 102,15,219,162,230,111,0,0 ; pand 0x6fe6(%edx),%xmm4
+ DB 102,15,219,162,7,112,0,0 ; pand 0x7007(%edx),%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,162,246,111,0,0 ; mulps 0x6ff6(%edx),%xmm4
+ DB 15,89,162,23,112,0,0 ; mulps 0x7017(%edx),%xmm4
DB 15,40,105,16 ; movaps 0x10(%ecx),%xmm5
DB 15,40,113,32 ; movaps 0x20(%ecx),%xmm6
DB 15,92,197 ; subps %xmm5,%xmm0
@@ -47863,12 +47837,12 @@ _sk_lerp_u8_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,53 ; je 2998 <_sk_lerp_u8_sse2+0xcc>
+ DB 116,53 ; je 2987 <_sk_lerp_u8_sse2+0xcc>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,19 ; je 297f <_sk_lerp_u8_sse2+0xb3>
+ DB 116,19 ; je 296e <_sk_lerp_u8_sse2+0xb3>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,145 ; jne 2902 <_sk_lerp_u8_sse2+0x36>
+ DB 117,145 ; jne 28f1 <_sk_lerp_u8_sse2+0x36>
DB 15,182,92,62,2 ; movzbl 0x2(%esi,%edi,1),%ebx
DB 102,15,110,227 ; movd %ebx,%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
@@ -47877,10 +47851,10 @@ _sk_lerp_u8_sse2 LABEL PROC
DB 102,15,96,232 ; punpcklbw %xmm0,%xmm5
DB 102,15,97,232 ; punpcklwd %xmm0,%xmm5
DB 242,15,16,229 ; movsd %xmm5,%xmm4
- DB 233,106,255,255,255 ; jmp 2902 <_sk_lerp_u8_sse2+0x36>
+ DB 233,106,255,255,255 ; jmp 28f1 <_sk_lerp_u8_sse2+0x36>
DB 15,182,52,62 ; movzbl (%esi,%edi,1),%esi
DB 102,15,110,230 ; movd %esi,%xmm4
- DB 233,93,255,255,255 ; jmp 2902 <_sk_lerp_u8_sse2+0x36>
+ DB 233,93,255,255,255 ; jmp 28f1 <_sk_lerp_u8_sse2+0x36>
PUBLIC _sk_lerp_565_sse2
_sk_lerp_565_sse2 LABEL PROC
@@ -47894,7 +47868,7 @@ _sk_lerp_565_sse2 LABEL PROC
DB 15,41,85,136 ; movaps %xmm2,-0x78(%ebp)
DB 15,41,77,152 ; movaps %xmm1,-0x68(%ebp)
DB 102,15,127,69,184 ; movdqa %xmm0,-0x48(%ebp)
- DB 232,0,0,0,0 ; call 29c4 <_sk_lerp_565_sse2+0x1f>
+ DB 232,0,0,0,0 ; call 29b3 <_sk_lerp_565_sse2+0x1f>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -47906,20 +47880,20 @@ _sk_lerp_565_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 15,133,211,0,0,0 ; jne 2ab8 <_sk_lerp_565_sse2+0x113>
+ DB 15,133,211,0,0,0 ; jne 2aa7 <_sk_lerp_565_sse2+0x113>
DB 243,15,126,44,126 ; movq (%esi,%edi,2),%xmm5
DB 102,15,97,232 ; punpcklwd %xmm0,%xmm5
- DB 102,15,111,162,28,111,0,0 ; movdqa 0x6f1c(%edx),%xmm4
+ DB 102,15,111,162,61,111,0,0 ; movdqa 0x6f3d(%edx),%xmm4
DB 102,15,219,229 ; pand %xmm5,%xmm4
DB 15,91,204 ; cvtdq2ps %xmm4,%xmm1
- DB 15,89,138,44,111,0,0 ; mulps 0x6f2c(%edx),%xmm1
- DB 102,15,111,178,60,111,0,0 ; movdqa 0x6f3c(%edx),%xmm6
+ DB 15,89,138,77,111,0,0 ; mulps 0x6f4d(%edx),%xmm1
+ DB 102,15,111,178,93,111,0,0 ; movdqa 0x6f5d(%edx),%xmm6
DB 102,15,219,245 ; pand %xmm5,%xmm6
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
- DB 15,89,178,76,111,0,0 ; mulps 0x6f4c(%edx),%xmm6
- DB 102,15,219,170,92,111,0,0 ; pand 0x6f5c(%edx),%xmm5
+ DB 15,89,178,109,111,0,0 ; mulps 0x6f6d(%edx),%xmm6
+ DB 102,15,219,170,125,111,0,0 ; pand 0x6f7d(%edx),%xmm5
DB 15,91,213 ; cvtdq2ps %xmm5,%xmm2
- DB 15,89,146,108,111,0,0 ; mulps 0x6f6c(%edx),%xmm2
+ DB 15,89,146,141,111,0,0 ; mulps 0x6f8d(%edx),%xmm2
DB 15,40,218 ; movaps %xmm2,%xmm3
DB 15,41,93,200 ; movaps %xmm3,-0x38(%ebp)
DB 15,40,254 ; movaps %xmm6,%xmm7
@@ -47969,22 +47943,22 @@ _sk_lerp_565_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,50 ; je 2af2 <_sk_lerp_565_sse2+0x14d>
+ DB 116,50 ; je 2ae1 <_sk_lerp_565_sse2+0x14d>
DB 102,15,239,237 ; pxor %xmm5,%xmm5
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,23 ; je 2ae0 <_sk_lerp_565_sse2+0x13b>
+ DB 116,23 ; je 2acf <_sk_lerp_565_sse2+0x13b>
DB 128,251,3 ; cmp $0x3,%bl
- DB 15,133,28,255,255,255 ; jne 29ee <_sk_lerp_565_sse2+0x49>
+ DB 15,133,28,255,255,255 ; jne 29dd <_sk_lerp_565_sse2+0x49>
DB 15,183,92,126,4 ; movzwl 0x4(%esi,%edi,2),%ebx
DB 102,15,110,227 ; movd %ebx,%xmm4
DB 102,15,112,236,69 ; pshufd $0x45,%xmm4,%xmm5
DB 102,15,110,36,126 ; movd (%esi,%edi,2),%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
DB 242,15,16,236 ; movsd %xmm4,%xmm5
- DB 233,252,254,255,255 ; jmp 29ee <_sk_lerp_565_sse2+0x49>
+ DB 233,252,254,255,255 ; jmp 29dd <_sk_lerp_565_sse2+0x49>
DB 15,183,52,126 ; movzwl (%esi,%edi,2),%esi
DB 102,15,110,238 ; movd %esi,%xmm5
- DB 233,239,254,255,255 ; jmp 29ee <_sk_lerp_565_sse2+0x49>
+ DB 233,239,254,255,255 ; jmp 29dd <_sk_lerp_565_sse2+0x49>
PUBLIC _sk_load_tables_sse2
_sk_load_tables_sse2 LABEL PROC
@@ -47994,7 +47968,7 @@ _sk_load_tables_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 2b0d <_sk_load_tables_sse2+0xe>
+ DB 232,0,0,0,0 ; call 2afc <_sk_load_tables_sse2+0xe>
DB 90 ; pop %edx
DB 139,117,12 ; mov 0xc(%ebp),%esi
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -48003,9 +47977,9 @@ _sk_load_tables_sse2 LABEL PROC
DB 133,192 ; test %eax,%eax
DB 139,54 ; mov (%esi),%esi
DB 139,30 ; mov (%esi),%ebx
- DB 15,133,19,1,0,0 ; jne 2c38 <_sk_load_tables_sse2+0x139>
+ DB 15,133,19,1,0,0 ; jne 2c27 <_sk_load_tables_sse2+0x139>
DB 243,15,111,28,187 ; movdqu (%ebx,%edi,4),%xmm3
- DB 102,15,111,146,51,110,0,0 ; movdqa 0x6e33(%edx),%xmm2
+ DB 102,15,111,146,84,110,0,0 ; movdqa 0x6e54(%edx),%xmm2
DB 102,15,111,195 ; movdqa %xmm3,%xmm0
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 102,15,112,200,229 ; pshufd $0xe5,%xmm0,%xmm1
@@ -48061,7 +48035,7 @@ _sk_load_tables_sse2 LABEL PROC
DB 15,20,215 ; unpcklps %xmm7,%xmm2
DB 102,15,114,211,24 ; psrld $0x18,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
- DB 15,89,154,67,110,0,0 ; mulps 0x6e43(%edx),%xmm3
+ DB 15,89,154,100,110,0,0 ; mulps 0x6e64(%edx),%xmm3
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 137,194 ; mov %eax,%edx
DB 141,66,8 ; lea 0x8(%edx),%eax
@@ -48077,18 +48051,18 @@ _sk_load_tables_sse2 LABEL PROC
DB 195 ; ret
DB 36,3 ; and $0x3,%al
DB 60,1 ; cmp $0x1,%al
- DB 116,37 ; je 2c63 <_sk_load_tables_sse2+0x164>
+ DB 116,37 ; je 2c52 <_sk_load_tables_sse2+0x164>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 60,2 ; cmp $0x2,%al
- DB 116,19 ; je 2c59 <_sk_load_tables_sse2+0x15a>
+ DB 116,19 ; je 2c48 <_sk_load_tables_sse2+0x15a>
DB 60,3 ; cmp $0x3,%al
- DB 15,133,220,254,255,255 ; jne 2b2a <_sk_load_tables_sse2+0x2b>
+ DB 15,133,220,254,255,255 ; jne 2b19 <_sk_load_tables_sse2+0x2b>
DB 102,15,110,68,187,8 ; movd 0x8(%ebx,%edi,4),%xmm0
DB 102,15,112,216,69 ; pshufd $0x45,%xmm0,%xmm3
DB 102,15,18,28,187 ; movlpd (%ebx,%edi,4),%xmm3
- DB 233,199,254,255,255 ; jmp 2b2a <_sk_load_tables_sse2+0x2b>
+ DB 233,199,254,255,255 ; jmp 2b19 <_sk_load_tables_sse2+0x2b>
DB 102,15,110,28,187 ; movd (%ebx,%edi,4),%xmm3
- DB 233,189,254,255,255 ; jmp 2b2a <_sk_load_tables_sse2+0x2b>
+ DB 233,189,254,255,255 ; jmp 2b19 <_sk_load_tables_sse2+0x2b>
PUBLIC _sk_load_tables_u16_be_sse2
_sk_load_tables_u16_be_sse2 LABEL PROC
@@ -48098,7 +48072,7 @@ _sk_load_tables_u16_be_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,44 ; sub $0x2c,%esp
- DB 232,0,0,0,0 ; call 2c7b <_sk_load_tables_u16_be_sse2+0xe>
+ DB 232,0,0,0,0 ; call 2c6a <_sk_load_tables_u16_be_sse2+0xe>
DB 90 ; pop %edx
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 139,69,8 ; mov 0x8(%ebp),%eax
@@ -48109,7 +48083,7 @@ _sk_load_tables_u16_be_sse2 LABEL PROC
DB 139,57 ; mov (%ecx),%edi
DB 139,15 ; mov (%edi),%ecx
DB 190,255,0,255,0 ; mov $0xff00ff,%esi
- DB 15,133,166,1,0,0 ; jne 2e41 <_sk_load_tables_u16_be_sse2+0x1d4>
+ DB 15,133,166,1,0,0 ; jne 2e30 <_sk_load_tables_u16_be_sse2+0x1d4>
DB 102,15,16,4,89 ; movupd (%ecx,%ebx,2),%xmm0
DB 243,15,111,76,89,16 ; movdqu 0x10(%ecx,%ebx,2),%xmm1
DB 102,15,40,216 ; movapd %xmm0,%xmm3
@@ -48206,7 +48180,7 @@ _sk_load_tables_u16_be_sse2 LABEL PROC
DB 243,15,126,93,208 ; movq -0x30(%ebp),%xmm3
DB 102,15,97,223 ; punpcklwd %xmm7,%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
- DB 15,89,154,229,108,0,0 ; mulps 0x6ce5(%edx),%xmm3
+ DB 15,89,154,6,109,0,0 ; mulps 0x6d06(%edx),%xmm3
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 137,193 ; mov %eax,%ecx
DB 141,65,8 ; lea 0x8(%ecx),%eax
@@ -48223,12 +48197,12 @@ _sk_load_tables_u16_be_sse2 LABEL PROC
DB 242,15,16,4,89 ; movsd (%ecx,%ebx,2),%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 131,248,1 ; cmp $0x1,%eax
- DB 15,132,83,254,255,255 ; je 2ca6 <_sk_load_tables_u16_be_sse2+0x39>
+ DB 15,132,83,254,255,255 ; je 2c95 <_sk_load_tables_u16_be_sse2+0x39>
DB 102,15,22,68,89,8 ; movhpd 0x8(%ecx,%ebx,2),%xmm0
DB 131,248,3 ; cmp $0x3,%eax
- DB 15,130,68,254,255,255 ; jb 2ca6 <_sk_load_tables_u16_be_sse2+0x39>
+ DB 15,130,68,254,255,255 ; jb 2c95 <_sk_load_tables_u16_be_sse2+0x39>
DB 243,15,126,76,89,16 ; movq 0x10(%ecx,%ebx,2),%xmm1
- DB 233,57,254,255,255 ; jmp 2ca6 <_sk_load_tables_u16_be_sse2+0x39>
+ DB 233,57,254,255,255 ; jmp 2c95 <_sk_load_tables_u16_be_sse2+0x39>
PUBLIC _sk_load_tables_rgb_u16_be_sse2
_sk_load_tables_rgb_u16_be_sse2 LABEL PROC
@@ -48238,7 +48212,7 @@ _sk_load_tables_rgb_u16_be_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,28 ; sub $0x1c,%esp
- DB 232,0,0,0,0 ; call 2e7b <_sk_load_tables_rgb_u16_be_sse2+0xe>
+ DB 232,0,0,0,0 ; call 2e6a <_sk_load_tables_rgb_u16_be_sse2+0xe>
DB 88 ; pop %eax
DB 137,69,240 ; mov %eax,-0x10(%ebp)
DB 139,69,12 ; mov 0xc(%ebp),%eax
@@ -48249,7 +48223,7 @@ _sk_load_tables_rgb_u16_be_sse2 LABEL PROC
DB 139,56 ; mov (%eax),%edi
DB 139,7 ; mov (%edi),%eax
DB 190,255,0,255,0 ; mov $0xff00ff,%esi
- DB 15,133,141,1,0,0 ; jne 3029 <_sk_load_tables_rgb_u16_be_sse2+0x1bc>
+ DB 15,133,141,1,0,0 ; jne 3018 <_sk_load_tables_rgb_u16_be_sse2+0x1bc>
DB 243,15,111,12,88 ; movdqu (%eax,%ebx,2),%xmm1
DB 243,15,111,92,88,8 ; movdqu 0x8(%eax,%ebx,2),%xmm3
DB 102,15,115,219,4 ; psrldq $0x4,%xmm3
@@ -48343,7 +48317,7 @@ _sk_load_tables_rgb_u16_be_sse2 LABEL PROC
DB 141,65,8 ; lea 0x8(%ecx),%eax
DB 131,236,8 ; sub $0x8,%esp
DB 139,85,240 ; mov -0x10(%ebp),%edx
- DB 15,40,162,245,106,0,0 ; movaps 0x6af5(%edx),%xmm4
+ DB 15,40,162,22,107,0,0 ; movaps 0x6b16(%edx),%xmm4
DB 15,40,195 ; movaps %xmm3,%xmm0
DB 15,40,220 ; movaps %xmm4,%xmm3
DB 80 ; push %eax
@@ -48359,20 +48333,20 @@ _sk_load_tables_rgb_u16_be_sse2 LABEL PROC
DB 102,15,196,76,88,4,2 ; pinsrw $0x2,0x4(%eax,%ebx,2),%xmm1
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 131,249,1 ; cmp $0x1,%ecx
- DB 117,13 ; jne 304b <_sk_load_tables_rgb_u16_be_sse2+0x1de>
+ DB 117,13 ; jne 303a <_sk_load_tables_rgb_u16_be_sse2+0x1de>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 233,115,254,255,255 ; jmp 2ebe <_sk_load_tables_rgb_u16_be_sse2+0x51>
+ DB 233,115,254,255,255 ; jmp 2ead <_sk_load_tables_rgb_u16_be_sse2+0x51>
DB 102,15,110,68,88,6 ; movd 0x6(%eax,%ebx,2),%xmm0
DB 102,15,196,68,88,10,2 ; pinsrw $0x2,0xa(%eax,%ebx,2),%xmm0
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 131,249,3 ; cmp $0x3,%ecx
- DB 114,18 ; jb 3073 <_sk_load_tables_rgb_u16_be_sse2+0x206>
+ DB 114,18 ; jb 3062 <_sk_load_tables_rgb_u16_be_sse2+0x206>
DB 102,15,110,92,88,12 ; movd 0xc(%eax,%ebx,2),%xmm3
DB 102,15,196,92,88,16,2 ; pinsrw $0x2,0x10(%eax,%ebx,2),%xmm3
- DB 233,75,254,255,255 ; jmp 2ebe <_sk_load_tables_rgb_u16_be_sse2+0x51>
+ DB 233,75,254,255,255 ; jmp 2ead <_sk_load_tables_rgb_u16_be_sse2+0x51>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
- DB 233,66,254,255,255 ; jmp 2ebe <_sk_load_tables_rgb_u16_be_sse2+0x51>
+ DB 233,66,254,255,255 ; jmp 2ead <_sk_load_tables_rgb_u16_be_sse2+0x51>
PUBLIC _sk_byte_tables_sse2
_sk_byte_tables_sse2 LABEL PROC
@@ -48382,11 +48356,11 @@ _sk_byte_tables_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 308a <_sk_byte_tables_sse2+0xe>
+ DB 232,0,0,0,0 ; call 3079 <_sk_byte_tables_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,8 ; mov (%eax),%ecx
- DB 15,40,162,246,104,0,0 ; movaps 0x68f6(%edx),%xmm4
+ DB 15,40,162,23,105,0,0 ; movaps 0x6917(%edx),%xmm4
DB 15,89,196 ; mulps %xmm4,%xmm0
DB 102,15,91,192 ; cvtps2dq %xmm0,%xmm0
DB 102,15,112,232,78 ; pshufd $0x4e,%xmm0,%xmm5
@@ -48408,7 +48382,7 @@ _sk_byte_tables_sse2 LABEL PROC
DB 102,15,196,192,0 ; pinsrw $0x0,%eax,%xmm0
DB 139,65,4 ; mov 0x4(%ecx),%eax
DB 102,15,196,195,1 ; pinsrw $0x1,%ebx,%xmm0
- DB 15,40,170,6,105,0,0 ; movaps 0x6906(%edx),%xmm5
+ DB 15,40,170,39,105,0,0 ; movaps 0x6927(%edx),%xmm5
DB 15,89,204 ; mulps %xmm4,%xmm1
DB 102,15,91,201 ; cvtps2dq %xmm1,%xmm1
DB 102,15,112,241,78 ; pshufd $0x4e,%xmm1,%xmm6
@@ -48531,12 +48505,12 @@ _sk_byte_tables_rgb_sse2 LABEL PROC
DB 15,182,60,31 ; movzbl (%edi,%ebx,1),%edi
DB 193,231,8 ; shl $0x8,%edi
DB 9,215 ; or %edx,%edi
- DB 232,0,0,0,0 ; call 328a <_sk_byte_tables_rgb_sse2+0x65>
+ DB 232,0,0,0,0 ; call 3279 <_sk_byte_tables_rgb_sse2+0x65>
DB 90 ; pop %edx
DB 102,15,196,199,0 ; pinsrw $0x0,%edi,%xmm0
DB 139,121,4 ; mov 0x4(%ecx),%edi
DB 102,15,196,198,1 ; pinsrw $0x1,%esi,%xmm0
- DB 15,40,170,22,103,0,0 ; movaps 0x6716(%edx),%xmm5
+ DB 15,40,170,55,103,0,0 ; movaps 0x6737(%edx),%xmm5
DB 15,89,204 ; mulps %xmm4,%xmm1
DB 102,15,91,201 ; cvtps2dq %xmm1,%xmm1
DB 102,15,112,241,78 ; pshufd $0x4e,%xmm1,%xmm6
@@ -48762,7 +48736,7 @@ _sk_parametric_r_sse2 LABEL PROC
DB 15,40,218 ; movaps %xmm2,%xmm3
DB 15,40,209 ; movaps %xmm1,%xmm2
DB 15,40,200 ; movaps %xmm0,%xmm1
- DB 232,0,0,0,0 ; call 3559 <_sk_parametric_r_sse2+0x18>
+ DB 232,0,0,0,0 ; call 3548 <_sk_parametric_r_sse2+0x18>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,8 ; mov (%eax),%ecx
@@ -48782,15 +48756,15 @@ _sk_parametric_r_sse2 LABEL PROC
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
DB 15,88,245 ; addps %xmm5,%xmm6
DB 15,91,238 ; cvtdq2ps %xmm6,%xmm5
- DB 15,89,170,87,100,0,0 ; mulps 0x6457(%edx),%xmm5
- DB 15,84,178,103,100,0,0 ; andps 0x6467(%edx),%xmm6
- DB 15,86,178,119,100,0,0 ; orps 0x6477(%edx),%xmm6
- DB 15,88,170,135,100,0,0 ; addps 0x6487(%edx),%xmm5
- DB 15,40,186,151,100,0,0 ; movaps 0x6497(%edx),%xmm7
+ DB 15,89,170,120,100,0,0 ; mulps 0x6478(%edx),%xmm5
+ DB 15,84,178,136,100,0,0 ; andps 0x6488(%edx),%xmm6
+ DB 15,86,178,152,100,0,0 ; orps 0x6498(%edx),%xmm6
+ DB 15,88,170,168,100,0,0 ; addps 0x64a8(%edx),%xmm5
+ DB 15,40,186,184,100,0,0 ; movaps 0x64b8(%edx),%xmm7
DB 15,89,254 ; mulps %xmm6,%xmm7
DB 15,92,239 ; subps %xmm7,%xmm5
- DB 15,88,178,167,100,0,0 ; addps 0x64a7(%edx),%xmm6
- DB 15,40,186,183,100,0,0 ; movaps 0x64b7(%edx),%xmm7
+ DB 15,88,178,200,100,0,0 ; addps 0x64c8(%edx),%xmm6
+ DB 15,40,186,216,100,0,0 ; movaps 0x64d8(%edx),%xmm7
DB 15,94,254 ; divps %xmm6,%xmm7
DB 243,15,16,49 ; movss (%ecx),%xmm6
DB 15,198,246,0 ; shufps $0x0,%xmm6,%xmm6
@@ -48800,21 +48774,21 @@ _sk_parametric_r_sse2 LABEL PROC
DB 15,91,254 ; cvtdq2ps %xmm6,%xmm7
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,194,199,1 ; cmpltps %xmm7,%xmm0
- DB 15,40,178,199,100,0,0 ; movaps 0x64c7(%edx),%xmm6
+ DB 15,40,178,232,100,0,0 ; movaps 0x64e8(%edx),%xmm6
DB 15,84,198 ; andps %xmm6,%xmm0
DB 15,92,248 ; subps %xmm0,%xmm7
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,92,199 ; subps %xmm7,%xmm0
- DB 15,88,170,215,100,0,0 ; addps 0x64d7(%edx),%xmm5
- DB 15,40,186,231,100,0,0 ; movaps 0x64e7(%edx),%xmm7
+ DB 15,88,170,248,100,0,0 ; addps 0x64f8(%edx),%xmm5
+ DB 15,40,186,8,101,0,0 ; movaps 0x6508(%edx),%xmm7
DB 15,89,248 ; mulps %xmm0,%xmm7
DB 15,92,239 ; subps %xmm7,%xmm5
- DB 15,40,186,247,100,0,0 ; movaps 0x64f7(%edx),%xmm7
+ DB 15,40,186,24,101,0,0 ; movaps 0x6518(%edx),%xmm7
DB 15,92,248 ; subps %xmm0,%xmm7
- DB 15,40,130,7,101,0,0 ; movaps 0x6507(%edx),%xmm0
+ DB 15,40,130,40,101,0,0 ; movaps 0x6528(%edx),%xmm0
DB 15,94,199 ; divps %xmm7,%xmm0
DB 15,88,197 ; addps %xmm5,%xmm0
- DB 15,89,130,23,101,0,0 ; mulps 0x6517(%edx),%xmm0
+ DB 15,89,130,56,101,0,0 ; mulps 0x6538(%edx),%xmm0
DB 102,15,91,192 ; cvtps2dq %xmm0,%xmm0
DB 243,15,16,105,20 ; movss 0x14(%ecx),%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
@@ -48846,7 +48820,7 @@ _sk_parametric_g_sse2 LABEL PROC
DB 15,41,93,232 ; movaps %xmm3,-0x18(%ebp)
DB 15,40,218 ; movaps %xmm2,%xmm3
DB 15,40,208 ; movaps %xmm0,%xmm2
- DB 232,0,0,0,0 ; call 3690 <_sk_parametric_g_sse2+0x15>
+ DB 232,0,0,0,0 ; call 367f <_sk_parametric_g_sse2+0x15>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,8 ; mov (%eax),%ecx
@@ -48866,15 +48840,15 @@ _sk_parametric_g_sse2 LABEL PROC
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
DB 15,88,245 ; addps %xmm5,%xmm6
DB 15,91,238 ; cvtdq2ps %xmm6,%xmm5
- DB 15,89,170,240,99,0,0 ; mulps 0x63f0(%edx),%xmm5
- DB 15,84,178,0,100,0,0 ; andps 0x6400(%edx),%xmm6
- DB 15,86,178,16,100,0,0 ; orps 0x6410(%edx),%xmm6
- DB 15,88,170,32,100,0,0 ; addps 0x6420(%edx),%xmm5
- DB 15,40,186,48,100,0,0 ; movaps 0x6430(%edx),%xmm7
+ DB 15,89,170,17,100,0,0 ; mulps 0x6411(%edx),%xmm5
+ DB 15,84,178,33,100,0,0 ; andps 0x6421(%edx),%xmm6
+ DB 15,86,178,49,100,0,0 ; orps 0x6431(%edx),%xmm6
+ DB 15,88,170,65,100,0,0 ; addps 0x6441(%edx),%xmm5
+ DB 15,40,186,81,100,0,0 ; movaps 0x6451(%edx),%xmm7
DB 15,89,254 ; mulps %xmm6,%xmm7
DB 15,92,239 ; subps %xmm7,%xmm5
- DB 15,88,178,64,100,0,0 ; addps 0x6440(%edx),%xmm6
- DB 15,40,186,80,100,0,0 ; movaps 0x6450(%edx),%xmm7
+ DB 15,88,178,97,100,0,0 ; addps 0x6461(%edx),%xmm6
+ DB 15,40,186,113,100,0,0 ; movaps 0x6471(%edx),%xmm7
DB 15,94,254 ; divps %xmm6,%xmm7
DB 243,15,16,49 ; movss (%ecx),%xmm6
DB 15,198,246,0 ; shufps $0x0,%xmm6,%xmm6
@@ -48884,21 +48858,21 @@ _sk_parametric_g_sse2 LABEL PROC
DB 15,91,254 ; cvtdq2ps %xmm6,%xmm7
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,194,199,1 ; cmpltps %xmm7,%xmm0
- DB 15,40,178,96,100,0,0 ; movaps 0x6460(%edx),%xmm6
+ DB 15,40,178,129,100,0,0 ; movaps 0x6481(%edx),%xmm6
DB 15,84,198 ; andps %xmm6,%xmm0
DB 15,92,248 ; subps %xmm0,%xmm7
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,92,199 ; subps %xmm7,%xmm0
- DB 15,88,170,112,100,0,0 ; addps 0x6470(%edx),%xmm5
- DB 15,40,186,128,100,0,0 ; movaps 0x6480(%edx),%xmm7
+ DB 15,88,170,145,100,0,0 ; addps 0x6491(%edx),%xmm5
+ DB 15,40,186,161,100,0,0 ; movaps 0x64a1(%edx),%xmm7
DB 15,89,248 ; mulps %xmm0,%xmm7
DB 15,92,239 ; subps %xmm7,%xmm5
- DB 15,40,186,144,100,0,0 ; movaps 0x6490(%edx),%xmm7
+ DB 15,40,186,177,100,0,0 ; movaps 0x64b1(%edx),%xmm7
DB 15,92,248 ; subps %xmm0,%xmm7
- DB 15,40,130,160,100,0,0 ; movaps 0x64a0(%edx),%xmm0
+ DB 15,40,130,193,100,0,0 ; movaps 0x64c1(%edx),%xmm0
DB 15,94,199 ; divps %xmm7,%xmm0
DB 15,88,197 ; addps %xmm5,%xmm0
- DB 15,89,130,176,100,0,0 ; mulps 0x64b0(%edx),%xmm0
+ DB 15,89,130,209,100,0,0 ; mulps 0x64d1(%edx),%xmm0
DB 102,15,91,192 ; cvtps2dq %xmm0,%xmm0
DB 243,15,16,105,20 ; movss 0x14(%ecx),%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
@@ -48929,7 +48903,7 @@ _sk_parametric_b_sse2 LABEL PROC
DB 15,41,93,232 ; movaps %xmm3,-0x18(%ebp)
DB 15,40,217 ; movaps %xmm1,%xmm3
DB 15,40,200 ; movaps %xmm0,%xmm1
- DB 232,0,0,0,0 ; call 37c4 <_sk_parametric_b_sse2+0x15>
+ DB 232,0,0,0,0 ; call 37b3 <_sk_parametric_b_sse2+0x15>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,8 ; mov (%eax),%ecx
@@ -48949,15 +48923,15 @@ _sk_parametric_b_sse2 LABEL PROC
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
DB 15,88,245 ; addps %xmm5,%xmm6
DB 15,91,238 ; cvtdq2ps %xmm6,%xmm5
- DB 15,89,170,140,99,0,0 ; mulps 0x638c(%edx),%xmm5
- DB 15,84,178,156,99,0,0 ; andps 0x639c(%edx),%xmm6
- DB 15,86,178,172,99,0,0 ; orps 0x63ac(%edx),%xmm6
- DB 15,88,170,188,99,0,0 ; addps 0x63bc(%edx),%xmm5
- DB 15,40,186,204,99,0,0 ; movaps 0x63cc(%edx),%xmm7
+ DB 15,89,170,173,99,0,0 ; mulps 0x63ad(%edx),%xmm5
+ DB 15,84,178,189,99,0,0 ; andps 0x63bd(%edx),%xmm6
+ DB 15,86,178,205,99,0,0 ; orps 0x63cd(%edx),%xmm6
+ DB 15,88,170,221,99,0,0 ; addps 0x63dd(%edx),%xmm5
+ DB 15,40,186,237,99,0,0 ; movaps 0x63ed(%edx),%xmm7
DB 15,89,254 ; mulps %xmm6,%xmm7
DB 15,92,239 ; subps %xmm7,%xmm5
- DB 15,88,178,220,99,0,0 ; addps 0x63dc(%edx),%xmm6
- DB 15,40,186,236,99,0,0 ; movaps 0x63ec(%edx),%xmm7
+ DB 15,88,178,253,99,0,0 ; addps 0x63fd(%edx),%xmm6
+ DB 15,40,186,13,100,0,0 ; movaps 0x640d(%edx),%xmm7
DB 15,94,254 ; divps %xmm6,%xmm7
DB 243,15,16,49 ; movss (%ecx),%xmm6
DB 15,198,246,0 ; shufps $0x0,%xmm6,%xmm6
@@ -48967,21 +48941,21 @@ _sk_parametric_b_sse2 LABEL PROC
DB 15,91,254 ; cvtdq2ps %xmm6,%xmm7
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,194,199,1 ; cmpltps %xmm7,%xmm0
- DB 15,40,178,252,99,0,0 ; movaps 0x63fc(%edx),%xmm6
+ DB 15,40,178,29,100,0,0 ; movaps 0x641d(%edx),%xmm6
DB 15,84,198 ; andps %xmm6,%xmm0
DB 15,92,248 ; subps %xmm0,%xmm7
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,92,199 ; subps %xmm7,%xmm0
- DB 15,88,170,12,100,0,0 ; addps 0x640c(%edx),%xmm5
- DB 15,40,186,28,100,0,0 ; movaps 0x641c(%edx),%xmm7
+ DB 15,88,170,45,100,0,0 ; addps 0x642d(%edx),%xmm5
+ DB 15,40,186,61,100,0,0 ; movaps 0x643d(%edx),%xmm7
DB 15,89,248 ; mulps %xmm0,%xmm7
DB 15,92,239 ; subps %xmm7,%xmm5
- DB 15,40,186,44,100,0,0 ; movaps 0x642c(%edx),%xmm7
+ DB 15,40,186,77,100,0,0 ; movaps 0x644d(%edx),%xmm7
DB 15,92,248 ; subps %xmm0,%xmm7
- DB 15,40,130,60,100,0,0 ; movaps 0x643c(%edx),%xmm0
+ DB 15,40,130,93,100,0,0 ; movaps 0x645d(%edx),%xmm0
DB 15,94,199 ; divps %xmm7,%xmm0
DB 15,88,197 ; addps %xmm5,%xmm0
- DB 15,89,130,76,100,0,0 ; mulps 0x644c(%edx),%xmm0
+ DB 15,89,130,109,100,0,0 ; mulps 0x646d(%edx),%xmm0
DB 102,15,91,192 ; cvtps2dq %xmm0,%xmm0
DB 243,15,16,105,20 ; movss 0x14(%ecx),%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
@@ -49012,7 +48986,7 @@ _sk_parametric_a_sse2 LABEL PROC
DB 15,41,85,232 ; movaps %xmm2,-0x18(%ebp)
DB 15,40,209 ; movaps %xmm1,%xmm2
DB 15,40,200 ; movaps %xmm0,%xmm1
- DB 232,0,0,0,0 ; call 38f8 <_sk_parametric_a_sse2+0x15>
+ DB 232,0,0,0,0 ; call 38e7 <_sk_parametric_a_sse2+0x15>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,8 ; mov (%eax),%ecx
@@ -49032,15 +49006,15 @@ _sk_parametric_a_sse2 LABEL PROC
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
DB 15,88,245 ; addps %xmm5,%xmm6
DB 15,91,238 ; cvtdq2ps %xmm6,%xmm5
- DB 15,89,170,40,99,0,0 ; mulps 0x6328(%edx),%xmm5
- DB 15,84,178,56,99,0,0 ; andps 0x6338(%edx),%xmm6
- DB 15,86,178,72,99,0,0 ; orps 0x6348(%edx),%xmm6
- DB 15,88,170,88,99,0,0 ; addps 0x6358(%edx),%xmm5
- DB 15,40,186,104,99,0,0 ; movaps 0x6368(%edx),%xmm7
+ DB 15,89,170,73,99,0,0 ; mulps 0x6349(%edx),%xmm5
+ DB 15,84,178,89,99,0,0 ; andps 0x6359(%edx),%xmm6
+ DB 15,86,178,105,99,0,0 ; orps 0x6369(%edx),%xmm6
+ DB 15,88,170,121,99,0,0 ; addps 0x6379(%edx),%xmm5
+ DB 15,40,186,137,99,0,0 ; movaps 0x6389(%edx),%xmm7
DB 15,89,254 ; mulps %xmm6,%xmm7
DB 15,92,239 ; subps %xmm7,%xmm5
- DB 15,88,178,120,99,0,0 ; addps 0x6378(%edx),%xmm6
- DB 15,40,186,136,99,0,0 ; movaps 0x6388(%edx),%xmm7
+ DB 15,88,178,153,99,0,0 ; addps 0x6399(%edx),%xmm6
+ DB 15,40,186,169,99,0,0 ; movaps 0x63a9(%edx),%xmm7
DB 15,94,254 ; divps %xmm6,%xmm7
DB 243,15,16,49 ; movss (%ecx),%xmm6
DB 15,198,246,0 ; shufps $0x0,%xmm6,%xmm6
@@ -49050,21 +49024,21 @@ _sk_parametric_a_sse2 LABEL PROC
DB 15,91,254 ; cvtdq2ps %xmm6,%xmm7
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,194,199,1 ; cmpltps %xmm7,%xmm0
- DB 15,40,178,152,99,0,0 ; movaps 0x6398(%edx),%xmm6
+ DB 15,40,178,185,99,0,0 ; movaps 0x63b9(%edx),%xmm6
DB 15,84,198 ; andps %xmm6,%xmm0
DB 15,92,248 ; subps %xmm0,%xmm7
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,92,199 ; subps %xmm7,%xmm0
- DB 15,88,170,168,99,0,0 ; addps 0x63a8(%edx),%xmm5
- DB 15,40,186,184,99,0,0 ; movaps 0x63b8(%edx),%xmm7
+ DB 15,88,170,201,99,0,0 ; addps 0x63c9(%edx),%xmm5
+ DB 15,40,186,217,99,0,0 ; movaps 0x63d9(%edx),%xmm7
DB 15,89,248 ; mulps %xmm0,%xmm7
DB 15,92,239 ; subps %xmm7,%xmm5
- DB 15,40,186,200,99,0,0 ; movaps 0x63c8(%edx),%xmm7
+ DB 15,40,186,233,99,0,0 ; movaps 0x63e9(%edx),%xmm7
DB 15,92,248 ; subps %xmm0,%xmm7
- DB 15,40,130,216,99,0,0 ; movaps 0x63d8(%edx),%xmm0
+ DB 15,40,130,249,99,0,0 ; movaps 0x63f9(%edx),%xmm0
DB 15,94,199 ; divps %xmm7,%xmm0
DB 15,88,197 ; addps %xmm5,%xmm0
- DB 15,89,130,232,99,0,0 ; mulps 0x63e8(%edx),%xmm0
+ DB 15,89,130,9,100,0,0 ; mulps 0x6409(%edx),%xmm0
DB 102,15,91,192 ; cvtps2dq %xmm0,%xmm0
DB 243,15,16,105,20 ; movss 0x14(%ecx),%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
@@ -49094,18 +49068,18 @@ _sk_gamma_sse2 LABEL PROC
DB 131,236,40 ; sub $0x28,%esp
DB 15,41,93,216 ; movaps %xmm3,-0x28(%ebp)
DB 15,40,216 ; movaps %xmm0,%xmm3
- DB 232,0,0,0,0 ; call 3a29 <_sk_gamma_sse2+0x12>
+ DB 232,0,0,0,0 ; call 3a18 <_sk_gamma_sse2+0x12>
DB 88 ; pop %eax
DB 15,91,195 ; cvtdq2ps %xmm3,%xmm0
- DB 15,89,128,199,98,0,0 ; mulps 0x62c7(%eax),%xmm0
- DB 15,84,152,215,98,0,0 ; andps 0x62d7(%eax),%xmm3
- DB 15,86,152,231,98,0,0 ; orps 0x62e7(%eax),%xmm3
- DB 15,88,128,247,98,0,0 ; addps 0x62f7(%eax),%xmm0
+ DB 15,89,128,232,98,0,0 ; mulps 0x62e8(%eax),%xmm0
+ DB 15,84,152,248,98,0,0 ; andps 0x62f8(%eax),%xmm3
+ DB 15,86,152,8,99,0,0 ; orps 0x6308(%eax),%xmm3
+ DB 15,88,128,24,99,0,0 ; addps 0x6318(%eax),%xmm0
DB 15,40,227 ; movaps %xmm3,%xmm4
- DB 15,89,160,7,99,0,0 ; mulps 0x6307(%eax),%xmm4
+ DB 15,89,160,40,99,0,0 ; mulps 0x6328(%eax),%xmm4
DB 15,92,196 ; subps %xmm4,%xmm0
- DB 15,88,152,23,99,0,0 ; addps 0x6317(%eax),%xmm3
- DB 15,40,160,39,99,0,0 ; movaps 0x6327(%eax),%xmm4
+ DB 15,88,152,56,99,0,0 ; addps 0x6338(%eax),%xmm3
+ DB 15,40,160,72,99,0,0 ; movaps 0x6348(%eax),%xmm4
DB 15,94,227 ; divps %xmm3,%xmm4
DB 15,92,196 ; subps %xmm4,%xmm0
DB 139,77,12 ; mov 0xc(%ebp),%ecx
@@ -49118,30 +49092,30 @@ _sk_gamma_sse2 LABEL PROC
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
DB 15,40,224 ; movaps %xmm0,%xmm4
DB 15,194,227,1 ; cmpltps %xmm3,%xmm4
- DB 15,84,160,55,99,0,0 ; andps 0x6337(%eax),%xmm4
+ DB 15,84,160,88,99,0,0 ; andps 0x6358(%eax),%xmm4
DB 15,92,220 ; subps %xmm4,%xmm3
DB 15,40,224 ; movaps %xmm0,%xmm4
DB 15,92,227 ; subps %xmm3,%xmm4
- DB 15,88,128,71,99,0,0 ; addps 0x6347(%eax),%xmm0
- DB 15,40,176,103,99,0,0 ; movaps 0x6367(%eax),%xmm6
+ DB 15,88,128,104,99,0,0 ; addps 0x6368(%eax),%xmm0
+ DB 15,40,176,136,99,0,0 ; movaps 0x6388(%eax),%xmm6
DB 15,92,244 ; subps %xmm4,%xmm6
- DB 15,40,168,87,99,0,0 ; movaps 0x6357(%eax),%xmm5
+ DB 15,40,168,120,99,0,0 ; movaps 0x6378(%eax),%xmm5
DB 15,89,229 ; mulps %xmm5,%xmm4
DB 15,92,196 ; subps %xmm4,%xmm0
- DB 15,40,152,119,99,0,0 ; movaps 0x6377(%eax),%xmm3
+ DB 15,40,152,152,99,0,0 ; movaps 0x6398(%eax),%xmm3
DB 15,40,227 ; movaps %xmm3,%xmm4
DB 15,94,230 ; divps %xmm6,%xmm4
DB 15,88,224 ; addps %xmm0,%xmm4
DB 15,91,193 ; cvtdq2ps %xmm1,%xmm0
- DB 15,89,128,199,98,0,0 ; mulps 0x62c7(%eax),%xmm0
- DB 15,84,136,215,98,0,0 ; andps 0x62d7(%eax),%xmm1
- DB 15,86,136,231,98,0,0 ; orps 0x62e7(%eax),%xmm1
- DB 15,88,128,247,98,0,0 ; addps 0x62f7(%eax),%xmm0
+ DB 15,89,128,232,98,0,0 ; mulps 0x62e8(%eax),%xmm0
+ DB 15,84,136,248,98,0,0 ; andps 0x62f8(%eax),%xmm1
+ DB 15,86,136,8,99,0,0 ; orps 0x6308(%eax),%xmm1
+ DB 15,88,128,24,99,0,0 ; addps 0x6318(%eax),%xmm0
DB 15,40,241 ; movaps %xmm1,%xmm6
- DB 15,89,176,7,99,0,0 ; mulps 0x6307(%eax),%xmm6
+ DB 15,89,176,40,99,0,0 ; mulps 0x6328(%eax),%xmm6
DB 15,92,198 ; subps %xmm6,%xmm0
- DB 15,88,136,23,99,0,0 ; addps 0x6317(%eax),%xmm1
- DB 15,40,176,39,99,0,0 ; movaps 0x6327(%eax),%xmm6
+ DB 15,88,136,56,99,0,0 ; addps 0x6338(%eax),%xmm1
+ DB 15,40,176,72,99,0,0 ; movaps 0x6348(%eax),%xmm6
DB 15,94,241 ; divps %xmm1,%xmm6
DB 15,92,198 ; subps %xmm6,%xmm0
DB 15,89,199 ; mulps %xmm7,%xmm0
@@ -49149,12 +49123,12 @@ _sk_gamma_sse2 LABEL PROC
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
DB 15,40,240 ; movaps %xmm0,%xmm6
DB 15,194,241,1 ; cmpltps %xmm1,%xmm6
- DB 15,84,176,55,99,0,0 ; andps 0x6337(%eax),%xmm6
+ DB 15,84,176,88,99,0,0 ; andps 0x6358(%eax),%xmm6
DB 15,92,206 ; subps %xmm6,%xmm1
DB 15,40,240 ; movaps %xmm0,%xmm6
DB 15,92,241 ; subps %xmm1,%xmm6
- DB 15,88,128,71,99,0,0 ; addps 0x6347(%eax),%xmm0
- DB 15,40,184,103,99,0,0 ; movaps 0x6367(%eax),%xmm7
+ DB 15,88,128,104,99,0,0 ; addps 0x6368(%eax),%xmm0
+ DB 15,40,184,136,99,0,0 ; movaps 0x6388(%eax),%xmm7
DB 15,92,254 ; subps %xmm6,%xmm7
DB 15,89,245 ; mulps %xmm5,%xmm6
DB 15,92,198 ; subps %xmm6,%xmm0
@@ -49162,15 +49136,15 @@ _sk_gamma_sse2 LABEL PROC
DB 15,94,207 ; divps %xmm7,%xmm1
DB 15,88,200 ; addps %xmm0,%xmm1
DB 15,91,194 ; cvtdq2ps %xmm2,%xmm0
- DB 15,89,128,199,98,0,0 ; mulps 0x62c7(%eax),%xmm0
- DB 15,84,144,215,98,0,0 ; andps 0x62d7(%eax),%xmm2
- DB 15,86,144,231,98,0,0 ; orps 0x62e7(%eax),%xmm2
- DB 15,88,128,247,98,0,0 ; addps 0x62f7(%eax),%xmm0
- DB 15,40,176,7,99,0,0 ; movaps 0x6307(%eax),%xmm6
+ DB 15,89,128,232,98,0,0 ; mulps 0x62e8(%eax),%xmm0
+ DB 15,84,144,248,98,0,0 ; andps 0x62f8(%eax),%xmm2
+ DB 15,86,144,8,99,0,0 ; orps 0x6308(%eax),%xmm2
+ DB 15,88,128,24,99,0,0 ; addps 0x6318(%eax),%xmm0
+ DB 15,40,176,40,99,0,0 ; movaps 0x6328(%eax),%xmm6
DB 15,89,242 ; mulps %xmm2,%xmm6
DB 15,92,198 ; subps %xmm6,%xmm0
- DB 15,88,144,23,99,0,0 ; addps 0x6317(%eax),%xmm2
- DB 15,40,176,39,99,0,0 ; movaps 0x6327(%eax),%xmm6
+ DB 15,88,144,56,99,0,0 ; addps 0x6338(%eax),%xmm2
+ DB 15,40,176,72,99,0,0 ; movaps 0x6348(%eax),%xmm6
DB 15,94,242 ; divps %xmm2,%xmm6
DB 15,92,198 ; subps %xmm6,%xmm0
DB 15,89,69,232 ; mulps -0x18(%ebp),%xmm0
@@ -49178,18 +49152,18 @@ _sk_gamma_sse2 LABEL PROC
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
DB 15,40,240 ; movaps %xmm0,%xmm6
DB 15,194,242,1 ; cmpltps %xmm2,%xmm6
- DB 15,84,176,55,99,0,0 ; andps 0x6337(%eax),%xmm6
+ DB 15,84,176,88,99,0,0 ; andps 0x6358(%eax),%xmm6
DB 15,92,214 ; subps %xmm6,%xmm2
DB 15,40,240 ; movaps %xmm0,%xmm6
DB 15,92,242 ; subps %xmm2,%xmm6
- DB 15,88,128,71,99,0,0 ; addps 0x6347(%eax),%xmm0
+ DB 15,88,128,104,99,0,0 ; addps 0x6368(%eax),%xmm0
DB 15,89,238 ; mulps %xmm6,%xmm5
DB 15,92,197 ; subps %xmm5,%xmm0
- DB 15,40,144,103,99,0,0 ; movaps 0x6367(%eax),%xmm2
+ DB 15,40,144,136,99,0,0 ; movaps 0x6388(%eax),%xmm2
DB 15,92,214 ; subps %xmm6,%xmm2
DB 15,94,218 ; divps %xmm2,%xmm3
DB 15,88,216 ; addps %xmm0,%xmm3
- DB 15,40,128,135,99,0,0 ; movaps 0x6387(%eax),%xmm0
+ DB 15,40,128,168,99,0,0 ; movaps 0x63a8(%eax),%xmm0
DB 15,89,224 ; mulps %xmm0,%xmm4
DB 15,89,200 ; mulps %xmm0,%xmm1
DB 15,89,216 ; mulps %xmm0,%xmm3
@@ -49214,31 +49188,31 @@ _sk_lab_to_xyz_sse2 LABEL PROC
DB 15,41,93,232 ; movaps %xmm3,-0x18(%ebp)
DB 15,40,218 ; movaps %xmm2,%xmm3
DB 15,40,208 ; movaps %xmm0,%xmm2
- DB 232,0,0,0,0 ; call 3c11 <_sk_lab_to_xyz_sse2+0x15>
+ DB 232,0,0,0,0 ; call 3c00 <_sk_lab_to_xyz_sse2+0x15>
DB 88 ; pop %eax
- DB 15,89,144,175,97,0,0 ; mulps 0x61af(%eax),%xmm2
- DB 15,40,160,191,97,0,0 ; movaps 0x61bf(%eax),%xmm4
+ DB 15,89,144,208,97,0,0 ; mulps 0x61d0(%eax),%xmm2
+ DB 15,40,160,224,97,0,0 ; movaps 0x61e0(%eax),%xmm4
DB 15,89,204 ; mulps %xmm4,%xmm1
- DB 15,40,168,207,97,0,0 ; movaps 0x61cf(%eax),%xmm5
+ DB 15,40,168,240,97,0,0 ; movaps 0x61f0(%eax),%xmm5
DB 15,88,205 ; addps %xmm5,%xmm1
DB 15,89,220 ; mulps %xmm4,%xmm3
DB 15,88,221 ; addps %xmm5,%xmm3
- DB 15,88,144,223,97,0,0 ; addps 0x61df(%eax),%xmm2
- DB 15,89,144,239,97,0,0 ; mulps 0x61ef(%eax),%xmm2
- DB 15,89,136,255,97,0,0 ; mulps 0x61ff(%eax),%xmm1
+ DB 15,88,144,0,98,0,0 ; addps 0x6200(%eax),%xmm2
+ DB 15,89,144,16,98,0,0 ; mulps 0x6210(%eax),%xmm2
+ DB 15,89,136,32,98,0,0 ; mulps 0x6220(%eax),%xmm1
DB 15,88,202 ; addps %xmm2,%xmm1
- DB 15,89,152,15,98,0,0 ; mulps 0x620f(%eax),%xmm3
+ DB 15,89,152,48,98,0,0 ; mulps 0x6230(%eax),%xmm3
DB 15,40,234 ; movaps %xmm2,%xmm5
DB 15,92,235 ; subps %xmm3,%xmm5
DB 15,40,193 ; movaps %xmm1,%xmm0
DB 15,89,192 ; mulps %xmm0,%xmm0
DB 15,89,193 ; mulps %xmm1,%xmm0
- DB 15,40,152,31,98,0,0 ; movaps 0x621f(%eax),%xmm3
+ DB 15,40,152,64,98,0,0 ; movaps 0x6240(%eax),%xmm3
DB 15,40,227 ; movaps %xmm3,%xmm4
DB 15,194,224,1 ; cmpltps %xmm0,%xmm4
- DB 15,40,176,47,98,0,0 ; movaps 0x622f(%eax),%xmm6
+ DB 15,40,176,80,98,0,0 ; movaps 0x6250(%eax),%xmm6
DB 15,88,206 ; addps %xmm6,%xmm1
- DB 15,40,184,63,98,0,0 ; movaps 0x623f(%eax),%xmm7
+ DB 15,40,184,96,98,0,0 ; movaps 0x6260(%eax),%xmm7
DB 15,89,207 ; mulps %xmm7,%xmm1
DB 15,84,196 ; andps %xmm4,%xmm0
DB 15,85,225 ; andnps %xmm1,%xmm4
@@ -49263,8 +49237,8 @@ _sk_lab_to_xyz_sse2 LABEL PROC
DB 15,85,221 ; andnps %xmm5,%xmm3
DB 15,86,216 ; orps %xmm0,%xmm3
DB 139,77,12 ; mov 0xc(%ebp),%ecx
- DB 15,89,160,79,98,0,0 ; mulps 0x624f(%eax),%xmm4
- DB 15,89,152,95,98,0,0 ; mulps 0x625f(%eax),%xmm3
+ DB 15,89,160,112,98,0,0 ; mulps 0x6270(%eax),%xmm4
+ DB 15,89,152,128,98,0,0 ; mulps 0x6280(%eax),%xmm3
DB 141,65,4 ; lea 0x4(%ecx),%eax
DB 131,236,8 ; sub $0x8,%esp
DB 15,40,196 ; movaps %xmm4,%xmm0
@@ -49285,7 +49259,7 @@ _sk_load_a8_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 3d01 <_sk_load_a8_sse2+0xe>
+ DB 232,0,0,0,0 ; call 3cf0 <_sk_load_a8_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -49296,13 +49270,13 @@ _sk_load_a8_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,60 ; jne 3d58 <_sk_load_a8_sse2+0x65>
+ DB 117,60 ; jne 3d47 <_sk_load_a8_sse2+0x65>
DB 102,15,110,4,62 ; movd (%esi,%edi,1),%xmm0
DB 102,15,96,192 ; punpcklbw %xmm0,%xmm0
DB 102,15,97,192 ; punpcklwd %xmm0,%xmm0
- DB 102,15,219,130,127,97,0,0 ; pand 0x617f(%edx),%xmm0
+ DB 102,15,219,130,160,97,0,0 ; pand 0x61a0(%edx),%xmm0
DB 15,91,216 ; cvtdq2ps %xmm0,%xmm3
- DB 15,89,154,143,97,0,0 ; mulps 0x618f(%edx),%xmm3
+ DB 15,89,154,176,97,0,0 ; mulps 0x61b0(%edx),%xmm3
DB 141,80,8 ; lea 0x8(%eax),%edx
DB 131,236,8 ; sub $0x8,%esp
DB 15,87,192 ; xorps %xmm0,%xmm0
@@ -49319,12 +49293,12 @@ _sk_load_a8_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,50 ; je 3d92 <_sk_load_a8_sse2+0x9f>
+ DB 116,50 ; je 3d81 <_sk_load_a8_sse2+0x9f>
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,19 ; je 3d7c <_sk_load_a8_sse2+0x89>
+ DB 116,19 ; je 3d6b <_sk_load_a8_sse2+0x89>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,187 ; jne 3d29 <_sk_load_a8_sse2+0x36>
+ DB 117,187 ; jne 3d18 <_sk_load_a8_sse2+0x36>
DB 15,182,92,62,2 ; movzbl 0x2(%esi,%edi,1),%ebx
DB 102,15,110,195 ; movd %ebx,%xmm0
DB 102,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm0
@@ -49333,10 +49307,10 @@ _sk_load_a8_sse2 LABEL PROC
DB 102,15,96,200 ; punpcklbw %xmm0,%xmm1
DB 102,15,97,200 ; punpcklwd %xmm0,%xmm1
DB 242,15,16,193 ; movsd %xmm1,%xmm0
- DB 235,151 ; jmp 3d29 <_sk_load_a8_sse2+0x36>
+ DB 235,151 ; jmp 3d18 <_sk_load_a8_sse2+0x36>
DB 15,182,52,62 ; movzbl (%esi,%edi,1),%esi
DB 102,15,110,198 ; movd %esi,%xmm0
- DB 235,141 ; jmp 3d29 <_sk_load_a8_sse2+0x36>
+ DB 235,141 ; jmp 3d18 <_sk_load_a8_sse2+0x36>
PUBLIC _sk_load_a8_dst_sse2
_sk_load_a8_dst_sse2 LABEL PROC
@@ -49359,15 +49333,15 @@ _sk_load_a8_dst_sse2 LABEL PROC
DB 102,15,127,97,32 ; movdqa %xmm4,0x20(%ecx)
DB 102,15,127,97,16 ; movdqa %xmm4,0x10(%ecx)
DB 133,219 ; test %ebx,%ebx
- DB 232,0,0,0,0 ; call 3dd5 <_sk_load_a8_dst_sse2+0x39>
+ DB 232,0,0,0,0 ; call 3dc4 <_sk_load_a8_dst_sse2+0x39>
DB 90 ; pop %edx
- DB 117,54 ; jne 3e0e <_sk_load_a8_dst_sse2+0x72>
+ DB 117,54 ; jne 3dfd <_sk_load_a8_dst_sse2+0x72>
DB 102,15,110,36,55 ; movd (%edi,%esi,1),%xmm4
DB 102,15,96,224 ; punpcklbw %xmm0,%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
- DB 102,15,219,162,203,96,0,0 ; pand 0x60cb(%edx),%xmm4
+ DB 102,15,219,162,236,96,0,0 ; pand 0x60ec(%edx),%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,162,219,96,0,0 ; mulps 0x60db(%edx),%xmm4
+ DB 15,89,162,252,96,0,0 ; mulps 0x60fc(%edx),%xmm4
DB 15,41,97,64 ; movaps %xmm4,0x40(%ecx)
DB 141,80,8 ; lea 0x8(%eax),%edx
DB 131,236,8 ; sub $0x8,%esp
@@ -49382,11 +49356,11 @@ _sk_load_a8_dst_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,46 ; je 3e44 <_sk_load_a8_dst_sse2+0xa8>
+ DB 116,46 ; je 3e33 <_sk_load_a8_dst_sse2+0xa8>
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,19 ; je 3e2e <_sk_load_a8_dst_sse2+0x92>
+ DB 116,19 ; je 3e1d <_sk_load_a8_dst_sse2+0x92>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,197 ; jne 3de5 <_sk_load_a8_dst_sse2+0x49>
+ DB 117,197 ; jne 3dd4 <_sk_load_a8_dst_sse2+0x49>
DB 15,182,92,55,2 ; movzbl 0x2(%edi,%esi,1),%ebx
DB 102,15,110,227 ; movd %ebx,%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
@@ -49395,10 +49369,10 @@ _sk_load_a8_dst_sse2 LABEL PROC
DB 102,15,96,232 ; punpcklbw %xmm0,%xmm5
DB 102,15,97,232 ; punpcklwd %xmm0,%xmm5
DB 242,15,16,229 ; movsd %xmm5,%xmm4
- DB 235,161 ; jmp 3de5 <_sk_load_a8_dst_sse2+0x49>
+ DB 235,161 ; jmp 3dd4 <_sk_load_a8_dst_sse2+0x49>
DB 15,182,52,55 ; movzbl (%edi,%esi,1),%esi
DB 102,15,110,230 ; movd %esi,%xmm4
- DB 235,151 ; jmp 3de5 <_sk_load_a8_dst_sse2+0x49>
+ DB 235,151 ; jmp 3dd4 <_sk_load_a8_dst_sse2+0x49>
PUBLIC _sk_gather_a8_sse2
_sk_gather_a8_sse2 LABEL PROC
@@ -49437,13 +49411,13 @@ _sk_gather_a8_sse2 LABEL PROC
DB 9,202 ; or %ecx,%edx
DB 102,15,196,194,0 ; pinsrw $0x0,%edx,%xmm0
DB 102,15,196,199,1 ; pinsrw $0x1,%edi,%xmm0
- DB 232,0,0,0,0 ; call 3ed3 <_sk_gather_a8_sse2+0x85>
+ DB 232,0,0,0,0 ; call 3ec2 <_sk_gather_a8_sse2+0x85>
DB 89 ; pop %ecx
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,96,193 ; punpcklbw %xmm1,%xmm0
DB 102,15,97,193 ; punpcklwd %xmm1,%xmm0
DB 15,91,216 ; cvtdq2ps %xmm0,%xmm3
- DB 15,89,153,237,95,0,0 ; mulps 0x5fed(%ecx),%xmm3
+ DB 15,89,153,14,96,0,0 ; mulps 0x600e(%ecx),%xmm3
DB 141,72,8 ; lea 0x8(%eax),%ecx
DB 131,236,8 ; sub $0x8,%esp
DB 15,87,192 ; xorps %xmm0,%xmm0
@@ -49466,7 +49440,7 @@ _sk_store_a8_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,60 ; sub $0x3c,%esp
- DB 232,0,0,0,0 ; call 3f17 <_sk_store_a8_sse2+0xe>
+ DB 232,0,0,0,0 ; call 3f06 <_sk_store_a8_sse2+0xe>
DB 94 ; pop %esi
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -49475,7 +49449,7 @@ _sk_store_a8_sse2 LABEL PROC
DB 15,175,81,4 ; imul 0x4(%ecx),%edx
DB 3,23 ; add (%edi),%edx
DB 139,89,8 ; mov 0x8(%ecx),%ebx
- DB 15,40,166,185,95,0,0 ; movaps 0x5fb9(%esi),%xmm4
+ DB 15,40,166,218,95,0,0 ; movaps 0x5fda(%esi),%xmm4
DB 15,89,227 ; mulps %xmm3,%xmm4
DB 102,15,91,228 ; cvtps2dq %xmm4,%xmm4
DB 102,15,114,244,16 ; pslld $0x10,%xmm4
@@ -49484,7 +49458,7 @@ _sk_store_a8_sse2 LABEL PROC
DB 102,15,103,228 ; packuswb %xmm4,%xmm4
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,26 ; jne 3f6c <_sk_store_a8_sse2+0x63>
+ DB 117,26 ; jne 3f5b <_sk_store_a8_sse2+0x63>
DB 102,15,126,230 ; movd %xmm4,%esi
DB 137,52,58 ; mov %esi,(%edx,%edi,1)
DB 141,80,8 ; lea 0x8(%eax),%edx
@@ -49502,26 +49476,26 @@ _sk_store_a8_sse2 LABEL PROC
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,57 ; je 3fb5 <_sk_store_a8_sse2+0xac>
+ DB 116,57 ; je 3fa4 <_sk_store_a8_sse2+0xac>
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,17 ; je 3f92 <_sk_store_a8_sse2+0x89>
+ DB 116,17 ; je 3f81 <_sk_store_a8_sse2+0x89>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,211 ; jne 3f59 <_sk_store_a8_sse2+0x50>
+ DB 117,211 ; jne 3f48 <_sk_store_a8_sse2+0x50>
DB 102,15,127,101,200 ; movdqa %xmm4,-0x38(%ebp)
DB 138,93,208 ; mov -0x30(%ebp),%bl
DB 136,92,58,2 ; mov %bl,0x2(%edx,%edi,1)
DB 102,15,112,228,212 ; pshufd $0xd4,%xmm4,%xmm4
- DB 102,15,219,166,201,95,0,0 ; pand 0x5fc9(%esi),%xmm4
+ DB 102,15,219,166,234,95,0,0 ; pand 0x5fea(%esi),%xmm4
DB 102,15,103,228 ; packuswb %xmm4,%xmm4
DB 102,15,103,228 ; packuswb %xmm4,%xmm4
DB 102,15,103,228 ; packuswb %xmm4,%xmm4
DB 102,15,126,230 ; movd %xmm4,%esi
DB 102,137,52,58 ; mov %si,(%edx,%edi,1)
- DB 235,164 ; jmp 3f59 <_sk_store_a8_sse2+0x50>
+ DB 235,164 ; jmp 3f48 <_sk_store_a8_sse2+0x50>
DB 102,15,127,101,216 ; movdqa %xmm4,-0x28(%ebp)
DB 138,93,216 ; mov -0x28(%ebp),%bl
DB 136,28,58 ; mov %bl,(%edx,%edi,1)
- DB 235,151 ; jmp 3f59 <_sk_store_a8_sse2+0x50>
+ DB 235,151 ; jmp 3f48 <_sk_store_a8_sse2+0x50>
PUBLIC _sk_load_g8_sse2
_sk_load_g8_sse2 LABEL PROC
@@ -49531,7 +49505,7 @@ _sk_load_g8_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 3fd0 <_sk_load_g8_sse2+0xe>
+ DB 232,0,0,0,0 ; call 3fbf <_sk_load_g8_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -49542,16 +49516,16 @@ _sk_load_g8_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,63 ; jne 402a <_sk_load_g8_sse2+0x68>
+ DB 117,63 ; jne 4019 <_sk_load_g8_sse2+0x68>
DB 102,15,110,4,62 ; movd (%esi,%edi,1),%xmm0
DB 102,15,96,192 ; punpcklbw %xmm0,%xmm0
DB 102,15,97,192 ; punpcklwd %xmm0,%xmm0
- DB 102,15,219,130,32,95,0,0 ; pand 0x5f20(%edx),%xmm0
+ DB 102,15,219,130,65,95,0,0 ; pand 0x5f41(%edx),%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,130,48,95,0,0 ; mulps 0x5f30(%edx),%xmm0
+ DB 15,89,130,81,95,0,0 ; mulps 0x5f51(%edx),%xmm0
DB 141,112,8 ; lea 0x8(%eax),%esi
DB 131,236,8 ; sub $0x8,%esp
- DB 15,40,154,64,95,0,0 ; movaps 0x5f40(%edx),%xmm3
+ DB 15,40,154,97,95,0,0 ; movaps 0x5f61(%edx),%xmm3
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 86 ; push %esi
@@ -49565,12 +49539,12 @@ _sk_load_g8_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,50 ; je 4064 <_sk_load_g8_sse2+0xa2>
+ DB 116,50 ; je 4053 <_sk_load_g8_sse2+0xa2>
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,19 ; je 404e <_sk_load_g8_sse2+0x8c>
+ DB 116,19 ; je 403d <_sk_load_g8_sse2+0x8c>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,184 ; jne 3ff8 <_sk_load_g8_sse2+0x36>
+ DB 117,184 ; jne 3fe7 <_sk_load_g8_sse2+0x36>
DB 15,182,92,62,2 ; movzbl 0x2(%esi,%edi,1),%ebx
DB 102,15,110,195 ; movd %ebx,%xmm0
DB 102,15,112,192,69 ; pshufd $0x45,%xmm0,%xmm0
@@ -49579,10 +49553,10 @@ _sk_load_g8_sse2 LABEL PROC
DB 102,15,96,200 ; punpcklbw %xmm0,%xmm1
DB 102,15,97,200 ; punpcklwd %xmm0,%xmm1
DB 242,15,16,193 ; movsd %xmm1,%xmm0
- DB 235,148 ; jmp 3ff8 <_sk_load_g8_sse2+0x36>
+ DB 235,148 ; jmp 3fe7 <_sk_load_g8_sse2+0x36>
DB 15,182,52,62 ; movzbl (%esi,%edi,1),%esi
DB 102,15,110,198 ; movd %esi,%xmm0
- DB 235,138 ; jmp 3ff8 <_sk_load_g8_sse2+0x36>
+ DB 235,138 ; jmp 3fe7 <_sk_load_g8_sse2+0x36>
PUBLIC _sk_load_g8_dst_sse2
_sk_load_g8_dst_sse2 LABEL PROC
@@ -49592,7 +49566,7 @@ _sk_load_g8_dst_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 407c <_sk_load_g8_dst_sse2+0xe>
+ DB 232,0,0,0,0 ; call 406b <_sk_load_g8_dst_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -49603,17 +49577,17 @@ _sk_load_g8_dst_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,73 ; jne 40e0 <_sk_load_g8_dst_sse2+0x72>
+ DB 117,73 ; jne 40cf <_sk_load_g8_dst_sse2+0x72>
DB 102,15,110,36,62 ; movd (%esi,%edi,1),%xmm4
DB 102,15,96,224 ; punpcklbw %xmm0,%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
- DB 102,15,219,162,164,94,0,0 ; pand 0x5ea4(%edx),%xmm4
+ DB 102,15,219,162,197,94,0,0 ; pand 0x5ec5(%edx),%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,162,180,94,0,0 ; mulps 0x5eb4(%edx),%xmm4
+ DB 15,89,162,213,94,0,0 ; mulps 0x5ed5(%edx),%xmm4
DB 15,41,97,48 ; movaps %xmm4,0x30(%ecx)
DB 15,41,97,32 ; movaps %xmm4,0x20(%ecx)
DB 15,41,97,16 ; movaps %xmm4,0x10(%ecx)
- DB 15,40,162,196,94,0,0 ; movaps 0x5ec4(%edx),%xmm4
+ DB 15,40,162,229,94,0,0 ; movaps 0x5ee5(%edx),%xmm4
DB 15,41,97,64 ; movaps %xmm4,0x40(%ecx)
DB 141,80,8 ; lea 0x8(%eax),%edx
DB 131,236,8 ; sub $0x8,%esp
@@ -49628,12 +49602,12 @@ _sk_load_g8_dst_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,50 ; je 411a <_sk_load_g8_dst_sse2+0xac>
+ DB 116,50 ; je 4109 <_sk_load_g8_dst_sse2+0xac>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,19 ; je 4104 <_sk_load_g8_dst_sse2+0x96>
+ DB 116,19 ; je 40f3 <_sk_load_g8_dst_sse2+0x96>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,174 ; jne 40a4 <_sk_load_g8_dst_sse2+0x36>
+ DB 117,174 ; jne 4093 <_sk_load_g8_dst_sse2+0x36>
DB 15,182,92,62,2 ; movzbl 0x2(%esi,%edi,1),%ebx
DB 102,15,110,227 ; movd %ebx,%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
@@ -49642,10 +49616,10 @@ _sk_load_g8_dst_sse2 LABEL PROC
DB 102,15,96,232 ; punpcklbw %xmm0,%xmm5
DB 102,15,97,232 ; punpcklwd %xmm0,%xmm5
DB 242,15,16,229 ; movsd %xmm5,%xmm4
- DB 235,138 ; jmp 40a4 <_sk_load_g8_dst_sse2+0x36>
+ DB 235,138 ; jmp 4093 <_sk_load_g8_dst_sse2+0x36>
DB 15,182,52,62 ; movzbl (%esi,%edi,1),%esi
DB 102,15,110,230 ; movd %esi,%xmm4
- DB 235,128 ; jmp 40a4 <_sk_load_g8_dst_sse2+0x36>
+ DB 235,128 ; jmp 4093 <_sk_load_g8_dst_sse2+0x36>
PUBLIC _sk_gather_g8_sse2
_sk_gather_g8_sse2 LABEL PROC
@@ -49683,17 +49657,17 @@ _sk_gather_g8_sse2 LABEL PROC
DB 193,226,8 ; shl $0x8,%edx
DB 9,202 ; or %ecx,%edx
DB 102,15,196,194,0 ; pinsrw $0x0,%edx,%xmm0
- DB 232,0,0,0,0 ; call 41a4 <_sk_gather_g8_sse2+0x80>
+ DB 232,0,0,0,0 ; call 4193 <_sk_gather_g8_sse2+0x80>
DB 89 ; pop %ecx
DB 102,15,196,199,1 ; pinsrw $0x1,%edi,%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,96,193 ; punpcklbw %xmm1,%xmm0
DB 102,15,97,193 ; punpcklwd %xmm1,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,129,172,93,0,0 ; mulps 0x5dac(%ecx),%xmm0
+ DB 15,89,129,205,93,0,0 ; mulps 0x5dcd(%ecx),%xmm0
DB 141,80,8 ; lea 0x8(%eax),%edx
DB 131,236,8 ; sub $0x8,%esp
- DB 15,40,153,188,93,0,0 ; movaps 0x5dbc(%ecx),%xmm3
+ DB 15,40,153,221,93,0,0 ; movaps 0x5ddd(%ecx),%xmm3
DB 15,40,200 ; movaps %xmm0,%xmm1
DB 15,40,208 ; movaps %xmm0,%xmm2
DB 82 ; push %edx
@@ -49713,7 +49687,7 @@ _sk_load_565_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 41ef <_sk_load_565_sse2+0xe>
+ DB 232,0,0,0,0 ; call 41de <_sk_load_565_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -49725,23 +49699,23 @@ _sk_load_565_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,97 ; jne 426d <_sk_load_565_sse2+0x8c>
+ DB 117,97 ; jne 425c <_sk_load_565_sse2+0x8c>
DB 243,15,126,20,126 ; movq (%esi,%edi,2),%xmm2
DB 102,15,97,208 ; punpcklwd %xmm0,%xmm2
- DB 102,15,111,130,129,93,0,0 ; movdqa 0x5d81(%edx),%xmm0
+ DB 102,15,111,130,162,93,0,0 ; movdqa 0x5da2(%edx),%xmm0
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,130,145,93,0,0 ; mulps 0x5d91(%edx),%xmm0
- DB 102,15,111,138,161,93,0,0 ; movdqa 0x5da1(%edx),%xmm1
+ DB 15,89,130,178,93,0,0 ; mulps 0x5db2(%edx),%xmm0
+ DB 102,15,111,138,194,93,0,0 ; movdqa 0x5dc2(%edx),%xmm1
DB 102,15,219,202 ; pand %xmm2,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,138,177,93,0,0 ; mulps 0x5db1(%edx),%xmm1
- DB 102,15,219,146,193,93,0,0 ; pand 0x5dc1(%edx),%xmm2
+ DB 15,89,138,210,93,0,0 ; mulps 0x5dd2(%edx),%xmm1
+ DB 102,15,219,146,226,93,0,0 ; pand 0x5de2(%edx),%xmm2
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,146,209,93,0,0 ; mulps 0x5dd1(%edx),%xmm2
+ DB 15,89,146,242,93,0,0 ; mulps 0x5df2(%edx),%xmm2
DB 141,112,8 ; lea 0x8(%eax),%esi
DB 131,236,8 ; sub $0x8,%esp
- DB 15,40,154,225,93,0,0 ; movaps 0x5de1(%edx),%xmm3
+ DB 15,40,154,2,94,0,0 ; movaps 0x5e02(%edx),%xmm3
DB 86 ; push %esi
DB 81 ; push %ecx
DB 255,80,4 ; call *0x4(%eax)
@@ -49753,22 +49727,22 @@ _sk_load_565_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,46 ; je 42a3 <_sk_load_565_sse2+0xc2>
+ DB 116,46 ; je 4292 <_sk_load_565_sse2+0xc2>
DB 102,15,239,210 ; pxor %xmm2,%xmm2
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,19 ; je 4291 <_sk_load_565_sse2+0xb0>
+ DB 116,19 ; je 4280 <_sk_load_565_sse2+0xb0>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,146 ; jne 4215 <_sk_load_565_sse2+0x34>
+ DB 117,146 ; jne 4204 <_sk_load_565_sse2+0x34>
DB 15,183,92,126,4 ; movzwl 0x4(%esi,%edi,2),%ebx
DB 102,15,110,195 ; movd %ebx,%xmm0
DB 102,15,112,208,69 ; pshufd $0x45,%xmm0,%xmm2
DB 102,15,110,4,126 ; movd (%esi,%edi,2),%xmm0
DB 102,15,97,192 ; punpcklwd %xmm0,%xmm0
DB 242,15,16,208 ; movsd %xmm0,%xmm2
- DB 233,114,255,255,255 ; jmp 4215 <_sk_load_565_sse2+0x34>
+ DB 233,114,255,255,255 ; jmp 4204 <_sk_load_565_sse2+0x34>
DB 15,183,52,126 ; movzwl (%esi,%edi,2),%esi
DB 102,15,110,214 ; movd %esi,%xmm2
- DB 233,101,255,255,255 ; jmp 4215 <_sk_load_565_sse2+0x34>
+ DB 233,101,255,255,255 ; jmp 4204 <_sk_load_565_sse2+0x34>
PUBLIC _sk_load_565_dst_sse2
_sk_load_565_dst_sse2 LABEL PROC
@@ -49778,7 +49752,7 @@ _sk_load_565_dst_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 42be <_sk_load_565_dst_sse2+0xe>
+ DB 232,0,0,0,0 ; call 42ad <_sk_load_565_dst_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -49790,24 +49764,24 @@ _sk_load_565_dst_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,113 ; jne 434c <_sk_load_565_dst_sse2+0x9c>
+ DB 117,113 ; jne 433b <_sk_load_565_dst_sse2+0x9c>
DB 243,15,126,36,126 ; movq (%esi,%edi,2),%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
- DB 102,15,111,170,34,93,0,0 ; movdqa 0x5d22(%edx),%xmm5
+ DB 102,15,111,170,67,93,0,0 ; movdqa 0x5d43(%edx),%xmm5
DB 102,15,219,236 ; pand %xmm4,%xmm5
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
- DB 15,89,170,50,93,0,0 ; mulps 0x5d32(%edx),%xmm5
+ DB 15,89,170,83,93,0,0 ; mulps 0x5d53(%edx),%xmm5
DB 15,41,105,16 ; movaps %xmm5,0x10(%ecx)
- DB 102,15,111,170,66,93,0,0 ; movdqa 0x5d42(%edx),%xmm5
+ DB 102,15,111,170,99,93,0,0 ; movdqa 0x5d63(%edx),%xmm5
DB 102,15,219,236 ; pand %xmm4,%xmm5
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
- DB 15,89,170,82,93,0,0 ; mulps 0x5d52(%edx),%xmm5
+ DB 15,89,170,115,93,0,0 ; mulps 0x5d73(%edx),%xmm5
DB 15,41,105,32 ; movaps %xmm5,0x20(%ecx)
- DB 102,15,219,162,98,93,0,0 ; pand 0x5d62(%edx),%xmm4
+ DB 102,15,219,162,131,93,0,0 ; pand 0x5d83(%edx),%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,162,114,93,0,0 ; mulps 0x5d72(%edx),%xmm4
+ DB 15,89,162,147,93,0,0 ; mulps 0x5d93(%edx),%xmm4
DB 15,41,97,48 ; movaps %xmm4,0x30(%ecx)
- DB 15,40,162,130,93,0,0 ; movaps 0x5d82(%edx),%xmm4
+ DB 15,40,162,163,93,0,0 ; movaps 0x5da3(%edx),%xmm4
DB 15,41,97,64 ; movaps %xmm4,0x40(%ecx)
DB 141,80,8 ; lea 0x8(%eax),%edx
DB 131,236,8 ; sub $0x8,%esp
@@ -49822,22 +49796,22 @@ _sk_load_565_dst_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,46 ; je 4382 <_sk_load_565_dst_sse2+0xd2>
+ DB 116,46 ; je 4371 <_sk_load_565_dst_sse2+0xd2>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,19 ; je 4370 <_sk_load_565_dst_sse2+0xc0>
+ DB 116,19 ; je 435f <_sk_load_565_dst_sse2+0xc0>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,130 ; jne 42e4 <_sk_load_565_dst_sse2+0x34>
+ DB 117,130 ; jne 42d3 <_sk_load_565_dst_sse2+0x34>
DB 15,183,92,126,4 ; movzwl 0x4(%esi,%edi,2),%ebx
DB 102,15,110,227 ; movd %ebx,%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
DB 102,15,110,44,126 ; movd (%esi,%edi,2),%xmm5
DB 102,15,97,232 ; punpcklwd %xmm0,%xmm5
DB 242,15,16,229 ; movsd %xmm5,%xmm4
- DB 233,98,255,255,255 ; jmp 42e4 <_sk_load_565_dst_sse2+0x34>
+ DB 233,98,255,255,255 ; jmp 42d3 <_sk_load_565_dst_sse2+0x34>
DB 15,183,52,126 ; movzwl (%esi,%edi,2),%esi
DB 102,15,110,230 ; movd %esi,%xmm4
- DB 233,85,255,255,255 ; jmp 42e4 <_sk_load_565_dst_sse2+0x34>
+ DB 233,85,255,255,255 ; jmp 42d3 <_sk_load_565_dst_sse2+0x34>
PUBLIC _sk_gather_565_sse2
_sk_gather_565_sse2 LABEL PROC
@@ -49870,25 +49844,25 @@ _sk_gather_565_sse2 LABEL PROC
DB 102,15,196,209,2 ; pinsrw $0x2,%ecx,%xmm2
DB 102,15,126,193 ; movd %xmm0,%ecx
DB 15,183,12,74 ; movzwl (%edx,%ecx,2),%ecx
- DB 232,0,0,0,0 ; call 440a <_sk_gather_565_sse2+0x7b>
+ DB 232,0,0,0,0 ; call 43f9 <_sk_gather_565_sse2+0x7b>
DB 90 ; pop %edx
DB 102,15,196,209,3 ; pinsrw $0x3,%ecx,%xmm2
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 102,15,97,208 ; punpcklwd %xmm0,%xmm2
- DB 102,15,111,130,70,92,0,0 ; movdqa 0x5c46(%edx),%xmm0
+ DB 102,15,111,130,103,92,0,0 ; movdqa 0x5c67(%edx),%xmm0
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,130,86,92,0,0 ; mulps 0x5c56(%edx),%xmm0
- DB 102,15,111,138,102,92,0,0 ; movdqa 0x5c66(%edx),%xmm1
+ DB 15,89,130,119,92,0,0 ; mulps 0x5c77(%edx),%xmm0
+ DB 102,15,111,138,135,92,0,0 ; movdqa 0x5c87(%edx),%xmm1
DB 102,15,219,202 ; pand %xmm2,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,138,118,92,0,0 ; mulps 0x5c76(%edx),%xmm1
- DB 102,15,219,146,134,92,0,0 ; pand 0x5c86(%edx),%xmm2
+ DB 15,89,138,151,92,0,0 ; mulps 0x5c97(%edx),%xmm1
+ DB 102,15,219,146,167,92,0,0 ; pand 0x5ca7(%edx),%xmm2
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,146,150,92,0,0 ; mulps 0x5c96(%edx),%xmm2
+ DB 15,89,146,183,92,0,0 ; mulps 0x5cb7(%edx),%xmm2
DB 141,72,8 ; lea 0x8(%eax),%ecx
DB 131,236,8 ; sub $0x8,%esp
- DB 15,40,154,166,92,0,0 ; movaps 0x5ca6(%edx),%xmm3
+ DB 15,40,154,199,92,0,0 ; movaps 0x5cc7(%edx),%xmm3
DB 81 ; push %ecx
DB 255,117,8 ; pushl 0x8(%ebp)
DB 255,80,4 ; call *0x4(%eax)
@@ -49904,7 +49878,7 @@ _sk_store_565_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 447d <_sk_store_565_sse2+0xe>
+ DB 232,0,0,0,0 ; call 446c <_sk_store_565_sse2+0xe>
DB 95 ; pop %edi
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -49914,8 +49888,8 @@ _sk_store_565_sse2 LABEL PROC
DB 1,210 ; add %edx,%edx
DB 3,22 ; add (%esi),%edx
DB 139,49 ; mov (%ecx),%esi
- DB 15,40,167,67,92,0,0 ; movaps 0x5c43(%edi),%xmm4
- DB 15,40,175,83,92,0,0 ; movaps 0x5c53(%edi),%xmm5
+ DB 15,40,167,100,92,0,0 ; movaps 0x5c64(%edi),%xmm4
+ DB 15,40,175,116,92,0,0 ; movaps 0x5c74(%edi),%xmm5
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 15,40,240 ; movaps %xmm0,%xmm6
DB 15,89,244 ; mulps %xmm4,%xmm6
@@ -49935,7 +49909,7 @@ _sk_store_565_sse2 LABEL PROC
DB 102,15,112,236,229 ; pshufd $0xe5,%xmm4,%xmm5
DB 102,15,126,109,236 ; movd %xmm5,-0x14(%ebp)
DB 133,219 ; test %ebx,%ebx
- DB 117,34 ; jne 4511 <_sk_store_565_sse2+0xa2>
+ DB 117,34 ; jne 4500 <_sk_store_565_sse2+0xa2>
DB 102,15,126,231 ; movd %xmm4,%edi
DB 102,15,126,235 ; movd %xmm5,%ebx
DB 137,60,114 ; mov %edi,(%edx,%esi,2)
@@ -49955,20 +49929,20 @@ _sk_store_565_sse2 LABEL PROC
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,37 ; je 4547 <_sk_store_565_sse2+0xd8>
+ DB 116,37 ; je 4536 <_sk_store_565_sse2+0xd8>
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,15 ; je 4536 <_sk_store_565_sse2+0xc7>
+ DB 116,15 ; je 4525 <_sk_store_565_sse2+0xc7>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,210 ; jne 44fe <_sk_store_565_sse2+0x8f>
+ DB 117,210 ; jne 44ed <_sk_store_565_sse2+0x8f>
DB 102,15,197,252,4 ; pextrw $0x4,%xmm4,%edi
DB 102,137,124,114,4 ; mov %di,0x4(%edx,%esi,2)
DB 102,15,112,228,212 ; pshufd $0xd4,%xmm4,%xmm4
DB 242,15,112,228,232 ; pshuflw $0xe8,%xmm4,%xmm4
DB 102,15,126,36,114 ; movd %xmm4,(%edx,%esi,2)
- DB 235,183 ; jmp 44fe <_sk_store_565_sse2+0x8f>
+ DB 235,183 ; jmp 44ed <_sk_store_565_sse2+0x8f>
DB 102,15,126,231 ; movd %xmm4,%edi
DB 102,137,60,114 ; mov %di,(%edx,%esi,2)
- DB 235,173 ; jmp 44fe <_sk_store_565_sse2+0x8f>
+ DB 235,173 ; jmp 44ed <_sk_store_565_sse2+0x8f>
PUBLIC _sk_load_4444_sse2
_sk_load_4444_sse2 LABEL PROC
@@ -49978,7 +49952,7 @@ _sk_load_4444_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 455f <_sk_load_4444_sse2+0xe>
+ DB 232,0,0,0,0 ; call 454e <_sk_load_4444_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -49990,24 +49964,24 @@ _sk_load_4444_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,112 ; jne 45ec <_sk_load_4444_sse2+0x9b>
+ DB 117,112 ; jne 45db <_sk_load_4444_sse2+0x9b>
DB 243,15,126,28,126 ; movq (%esi,%edi,2),%xmm3
DB 102,15,97,216 ; punpcklwd %xmm0,%xmm3
- DB 102,15,111,130,129,91,0,0 ; movdqa 0x5b81(%edx),%xmm0
+ DB 102,15,111,130,162,91,0,0 ; movdqa 0x5ba2(%edx),%xmm0
DB 102,15,219,195 ; pand %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,130,145,91,0,0 ; mulps 0x5b91(%edx),%xmm0
- DB 102,15,111,138,161,91,0,0 ; movdqa 0x5ba1(%edx),%xmm1
+ DB 15,89,130,178,91,0,0 ; mulps 0x5bb2(%edx),%xmm0
+ DB 102,15,111,138,194,91,0,0 ; movdqa 0x5bc2(%edx),%xmm1
DB 102,15,219,203 ; pand %xmm3,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,138,177,91,0,0 ; mulps 0x5bb1(%edx),%xmm1
- DB 102,15,111,146,193,91,0,0 ; movdqa 0x5bc1(%edx),%xmm2
+ DB 15,89,138,210,91,0,0 ; mulps 0x5bd2(%edx),%xmm1
+ DB 102,15,111,146,226,91,0,0 ; movdqa 0x5be2(%edx),%xmm2
DB 102,15,219,211 ; pand %xmm3,%xmm2
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,146,209,91,0,0 ; mulps 0x5bd1(%edx),%xmm2
- DB 102,15,219,154,225,91,0,0 ; pand 0x5be1(%edx),%xmm3
+ DB 15,89,146,242,91,0,0 ; mulps 0x5bf2(%edx),%xmm2
+ DB 102,15,219,154,2,92,0,0 ; pand 0x5c02(%edx),%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
- DB 15,89,154,241,91,0,0 ; mulps 0x5bf1(%edx),%xmm3
+ DB 15,89,154,18,92,0,0 ; mulps 0x5c12(%edx),%xmm3
DB 141,80,8 ; lea 0x8(%eax),%edx
DB 131,236,8 ; sub $0x8,%esp
DB 82 ; push %edx
@@ -50021,22 +49995,22 @@ _sk_load_4444_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,46 ; je 4622 <_sk_load_4444_sse2+0xd1>
+ DB 116,46 ; je 4611 <_sk_load_4444_sse2+0xd1>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,19 ; je 4610 <_sk_load_4444_sse2+0xbf>
+ DB 116,19 ; je 45ff <_sk_load_4444_sse2+0xbf>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,131 ; jne 4585 <_sk_load_4444_sse2+0x34>
+ DB 117,131 ; jne 4574 <_sk_load_4444_sse2+0x34>
DB 15,183,92,126,4 ; movzwl 0x4(%esi,%edi,2),%ebx
DB 102,15,110,195 ; movd %ebx,%xmm0
DB 102,15,112,216,69 ; pshufd $0x45,%xmm0,%xmm3
DB 102,15,110,4,126 ; movd (%esi,%edi,2),%xmm0
DB 102,15,97,192 ; punpcklwd %xmm0,%xmm0
DB 242,15,16,216 ; movsd %xmm0,%xmm3
- DB 233,99,255,255,255 ; jmp 4585 <_sk_load_4444_sse2+0x34>
+ DB 233,99,255,255,255 ; jmp 4574 <_sk_load_4444_sse2+0x34>
DB 15,183,52,126 ; movzwl (%esi,%edi,2),%esi
DB 102,15,110,222 ; movd %esi,%xmm3
- DB 233,86,255,255,255 ; jmp 4585 <_sk_load_4444_sse2+0x34>
+ DB 233,86,255,255,255 ; jmp 4574 <_sk_load_4444_sse2+0x34>
PUBLIC _sk_load_4444_dst_sse2
_sk_load_4444_dst_sse2 LABEL PROC
@@ -50046,7 +50020,7 @@ _sk_load_4444_dst_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 463d <_sk_load_4444_dst_sse2+0xe>
+ DB 232,0,0,0,0 ; call 462c <_sk_load_4444_dst_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -50058,27 +50032,27 @@ _sk_load_4444_dst_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 15,133,128,0,0,0 ; jne 46de <_sk_load_4444_dst_sse2+0xaf>
+ DB 15,133,128,0,0,0 ; jne 46cd <_sk_load_4444_dst_sse2+0xaf>
DB 243,15,126,36,126 ; movq (%esi,%edi,2),%xmm4
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
- DB 102,15,111,170,35,91,0,0 ; movdqa 0x5b23(%edx),%xmm5
+ DB 102,15,111,170,68,91,0,0 ; movdqa 0x5b44(%edx),%xmm5
DB 102,15,219,236 ; pand %xmm4,%xmm5
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
- DB 15,89,170,51,91,0,0 ; mulps 0x5b33(%edx),%xmm5
+ DB 15,89,170,84,91,0,0 ; mulps 0x5b54(%edx),%xmm5
DB 15,41,105,16 ; movaps %xmm5,0x10(%ecx)
- DB 102,15,111,170,67,91,0,0 ; movdqa 0x5b43(%edx),%xmm5
+ DB 102,15,111,170,100,91,0,0 ; movdqa 0x5b64(%edx),%xmm5
DB 102,15,219,236 ; pand %xmm4,%xmm5
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
- DB 15,89,170,83,91,0,0 ; mulps 0x5b53(%edx),%xmm5
+ DB 15,89,170,116,91,0,0 ; mulps 0x5b74(%edx),%xmm5
DB 15,41,105,32 ; movaps %xmm5,0x20(%ecx)
- DB 102,15,111,170,99,91,0,0 ; movdqa 0x5b63(%edx),%xmm5
+ DB 102,15,111,170,132,91,0,0 ; movdqa 0x5b84(%edx),%xmm5
DB 102,15,219,236 ; pand %xmm4,%xmm5
DB 15,91,237 ; cvtdq2ps %xmm5,%xmm5
- DB 15,89,170,115,91,0,0 ; mulps 0x5b73(%edx),%xmm5
+ DB 15,89,170,148,91,0,0 ; mulps 0x5b94(%edx),%xmm5
DB 15,41,105,48 ; movaps %xmm5,0x30(%ecx)
- DB 102,15,219,162,131,91,0,0 ; pand 0x5b83(%edx),%xmm4
+ DB 102,15,219,162,164,91,0,0 ; pand 0x5ba4(%edx),%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
- DB 15,89,162,147,91,0,0 ; mulps 0x5b93(%edx),%xmm4
+ DB 15,89,162,180,91,0,0 ; mulps 0x5bb4(%edx),%xmm4
DB 15,41,97,64 ; movaps %xmm4,0x40(%ecx)
DB 141,80,8 ; lea 0x8(%eax),%edx
DB 131,236,8 ; sub $0x8,%esp
@@ -50093,22 +50067,22 @@ _sk_load_4444_dst_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,50 ; je 4718 <_sk_load_4444_dst_sse2+0xe9>
+ DB 116,50 ; je 4707 <_sk_load_4444_dst_sse2+0xe9>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,23 ; je 4706 <_sk_load_4444_dst_sse2+0xd7>
+ DB 116,23 ; je 46f5 <_sk_load_4444_dst_sse2+0xd7>
DB 128,251,3 ; cmp $0x3,%bl
- DB 15,133,111,255,255,255 ; jne 4667 <_sk_load_4444_dst_sse2+0x38>
+ DB 15,133,111,255,255,255 ; jne 4656 <_sk_load_4444_dst_sse2+0x38>
DB 15,183,92,126,4 ; movzwl 0x4(%esi,%edi,2),%ebx
DB 102,15,110,227 ; movd %ebx,%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
DB 102,15,110,44,126 ; movd (%esi,%edi,2),%xmm5
DB 102,15,97,232 ; punpcklwd %xmm0,%xmm5
DB 242,15,16,229 ; movsd %xmm5,%xmm4
- DB 233,79,255,255,255 ; jmp 4667 <_sk_load_4444_dst_sse2+0x38>
+ DB 233,79,255,255,255 ; jmp 4656 <_sk_load_4444_dst_sse2+0x38>
DB 15,183,52,126 ; movzwl (%esi,%edi,2),%esi
DB 102,15,110,230 ; movd %esi,%xmm4
- DB 233,66,255,255,255 ; jmp 4667 <_sk_load_4444_dst_sse2+0x38>
+ DB 233,66,255,255,255 ; jmp 4656 <_sk_load_4444_dst_sse2+0x38>
PUBLIC _sk_gather_4444_sse2
_sk_gather_4444_sse2 LABEL PROC
@@ -50142,25 +50116,25 @@ _sk_gather_4444_sse2 LABEL PROC
DB 102,15,126,193 ; movd %xmm0,%ecx
DB 15,183,12,74 ; movzwl (%edx,%ecx,2),%ecx
DB 102,15,196,217,3 ; pinsrw $0x3,%ecx,%xmm3
- DB 232,0,0,0,0 ; call 47a5 <_sk_gather_4444_sse2+0x80>
+ DB 232,0,0,0,0 ; call 4794 <_sk_gather_4444_sse2+0x80>
DB 89 ; pop %ecx
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 102,15,97,216 ; punpcklwd %xmm0,%xmm3
- DB 102,15,111,129,59,90,0,0 ; movdqa 0x5a3b(%ecx),%xmm0
+ DB 102,15,111,129,92,90,0,0 ; movdqa 0x5a5c(%ecx),%xmm0
DB 102,15,219,195 ; pand %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,89,129,75,90,0,0 ; mulps 0x5a4b(%ecx),%xmm0
- DB 102,15,111,137,91,90,0,0 ; movdqa 0x5a5b(%ecx),%xmm1
+ DB 15,89,129,108,90,0,0 ; mulps 0x5a6c(%ecx),%xmm0
+ DB 102,15,111,137,124,90,0,0 ; movdqa 0x5a7c(%ecx),%xmm1
DB 102,15,219,203 ; pand %xmm3,%xmm1
DB 15,91,201 ; cvtdq2ps %xmm1,%xmm1
- DB 15,89,137,107,90,0,0 ; mulps 0x5a6b(%ecx),%xmm1
- DB 102,15,111,145,123,90,0,0 ; movdqa 0x5a7b(%ecx),%xmm2
+ DB 15,89,137,140,90,0,0 ; mulps 0x5a8c(%ecx),%xmm1
+ DB 102,15,111,145,156,90,0,0 ; movdqa 0x5a9c(%ecx),%xmm2
DB 102,15,219,211 ; pand %xmm3,%xmm2
DB 15,91,210 ; cvtdq2ps %xmm2,%xmm2
- DB 15,89,145,139,90,0,0 ; mulps 0x5a8b(%ecx),%xmm2
- DB 102,15,219,153,155,90,0,0 ; pand 0x5a9b(%ecx),%xmm3
+ DB 15,89,145,172,90,0,0 ; mulps 0x5aac(%ecx),%xmm2
+ DB 102,15,219,153,188,90,0,0 ; pand 0x5abc(%ecx),%xmm3
DB 15,91,219 ; cvtdq2ps %xmm3,%xmm3
- DB 15,89,153,171,90,0,0 ; mulps 0x5aab(%ecx),%xmm3
+ DB 15,89,153,204,90,0,0 ; mulps 0x5acc(%ecx),%xmm3
DB 141,72,8 ; lea 0x8(%eax),%ecx
DB 131,236,8 ; sub $0x8,%esp
DB 81 ; push %ecx
@@ -50178,7 +50152,7 @@ _sk_store_4444_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 4822 <_sk_store_4444_sse2+0xe>
+ DB 232,0,0,0,0 ; call 4811 <_sk_store_4444_sse2+0xe>
DB 95 ; pop %edi
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -50188,7 +50162,7 @@ _sk_store_4444_sse2 LABEL PROC
DB 1,210 ; add %edx,%edx
DB 3,22 ; add (%esi),%edx
DB 139,49 ; mov (%ecx),%esi
- DB 15,40,167,62,90,0,0 ; movaps 0x5a3e(%edi),%xmm4
+ DB 15,40,167,95,90,0,0 ; movaps 0x5a5f(%edi),%xmm4
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 15,40,232 ; movaps %xmm0,%xmm5
DB 15,89,236 ; mulps %xmm4,%xmm5
@@ -50214,7 +50188,7 @@ _sk_store_4444_sse2 LABEL PROC
DB 102,15,112,236,229 ; pshufd $0xe5,%xmm4,%xmm5
DB 102,15,126,109,236 ; movd %xmm5,-0x14(%ebp)
DB 133,219 ; test %ebx,%ebx
- DB 117,34 ; jne 48c5 <_sk_store_4444_sse2+0xb1>
+ DB 117,34 ; jne 48b4 <_sk_store_4444_sse2+0xb1>
DB 102,15,126,231 ; movd %xmm4,%edi
DB 102,15,126,235 ; movd %xmm5,%ebx
DB 137,60,114 ; mov %edi,(%edx,%esi,2)
@@ -50234,20 +50208,20 @@ _sk_store_4444_sse2 LABEL PROC
DB 102,15,97,224 ; punpcklwd %xmm0,%xmm4
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,37 ; je 48fb <_sk_store_4444_sse2+0xe7>
+ DB 116,37 ; je 48ea <_sk_store_4444_sse2+0xe7>
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,15 ; je 48ea <_sk_store_4444_sse2+0xd6>
+ DB 116,15 ; je 48d9 <_sk_store_4444_sse2+0xd6>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,210 ; jne 48b2 <_sk_store_4444_sse2+0x9e>
+ DB 117,210 ; jne 48a1 <_sk_store_4444_sse2+0x9e>
DB 102,15,197,252,4 ; pextrw $0x4,%xmm4,%edi
DB 102,137,124,114,4 ; mov %di,0x4(%edx,%esi,2)
DB 102,15,112,228,212 ; pshufd $0xd4,%xmm4,%xmm4
DB 242,15,112,228,232 ; pshuflw $0xe8,%xmm4,%xmm4
DB 102,15,126,36,114 ; movd %xmm4,(%edx,%esi,2)
- DB 235,183 ; jmp 48b2 <_sk_store_4444_sse2+0x9e>
+ DB 235,183 ; jmp 48a1 <_sk_store_4444_sse2+0x9e>
DB 102,15,126,231 ; movd %xmm4,%edi
DB 102,137,60,114 ; mov %di,(%edx,%esi,2)
- DB 235,173 ; jmp 48b2 <_sk_store_4444_sse2+0x9e>
+ DB 235,173 ; jmp 48a1 <_sk_store_4444_sse2+0x9e>
PUBLIC _sk_load_8888_sse2
_sk_load_8888_sse2 LABEL PROC
@@ -50257,7 +50231,7 @@ _sk_load_8888_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 4913 <_sk_load_8888_sse2+0xe>
+ DB 232,0,0,0,0 ; call 4902 <_sk_load_8888_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -50269,13 +50243,13 @@ _sk_load_8888_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,102 ; jne 4997 <_sk_load_8888_sse2+0x92>
+ DB 117,102 ; jne 4986 <_sk_load_8888_sse2+0x92>
DB 243,15,111,28,190 ; movdqu (%esi,%edi,4),%xmm3
- DB 102,15,111,146,93,89,0,0 ; movdqa 0x595d(%edx),%xmm2
+ DB 102,15,111,146,126,89,0,0 ; movdqa 0x597e(%edx),%xmm2
DB 102,15,111,195 ; movdqa %xmm3,%xmm0
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,40,162,109,89,0,0 ; movaps 0x596d(%edx),%xmm4
+ DB 15,40,162,142,89,0,0 ; movaps 0x598e(%edx),%xmm4
DB 15,89,196 ; mulps %xmm4,%xmm0
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,15,114,209,8 ; psrld $0x8,%xmm1
@@ -50303,18 +50277,18 @@ _sk_load_8888_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,35 ; je 49c2 <_sk_load_8888_sse2+0xbd>
+ DB 116,35 ; je 49b1 <_sk_load_8888_sse2+0xbd>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,16 ; je 49b8 <_sk_load_8888_sse2+0xb3>
+ DB 116,16 ; je 49a7 <_sk_load_8888_sse2+0xb3>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,137 ; jne 4936 <_sk_load_8888_sse2+0x31>
+ DB 117,137 ; jne 4925 <_sk_load_8888_sse2+0x31>
DB 102,15,110,68,190,8 ; movd 0x8(%esi,%edi,4),%xmm0
DB 102,15,112,216,69 ; pshufd $0x45,%xmm0,%xmm3
DB 102,15,18,28,190 ; movlpd (%esi,%edi,4),%xmm3
- DB 233,116,255,255,255 ; jmp 4936 <_sk_load_8888_sse2+0x31>
+ DB 233,116,255,255,255 ; jmp 4925 <_sk_load_8888_sse2+0x31>
DB 102,15,110,28,190 ; movd (%esi,%edi,4),%xmm3
- DB 233,106,255,255,255 ; jmp 4936 <_sk_load_8888_sse2+0x31>
+ DB 233,106,255,255,255 ; jmp 4925 <_sk_load_8888_sse2+0x31>
PUBLIC _sk_load_8888_dst_sse2
_sk_load_8888_dst_sse2 LABEL PROC
@@ -50324,7 +50298,7 @@ _sk_load_8888_dst_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 49da <_sk_load_8888_dst_sse2+0xe>
+ DB 232,0,0,0,0 ; call 49c9 <_sk_load_8888_dst_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -50336,13 +50310,13 @@ _sk_load_8888_dst_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,118 ; jne 4a6e <_sk_load_8888_dst_sse2+0xa2>
+ DB 117,118 ; jne 4a5d <_sk_load_8888_dst_sse2+0xa2>
DB 243,15,111,36,190 ; movdqu (%esi,%edi,4),%xmm4
- DB 102,15,111,170,182,88,0,0 ; movdqa 0x58b6(%edx),%xmm5
+ DB 102,15,111,170,215,88,0,0 ; movdqa 0x58d7(%edx),%xmm5
DB 102,15,111,244 ; movdqa %xmm4,%xmm6
DB 102,15,219,245 ; pand %xmm5,%xmm6
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
- DB 15,40,186,198,88,0,0 ; movaps 0x58c6(%edx),%xmm7
+ DB 15,40,186,231,88,0,0 ; movaps 0x58e7(%edx),%xmm7
DB 15,89,247 ; mulps %xmm7,%xmm6
DB 15,41,113,16 ; movaps %xmm6,0x10(%ecx)
DB 102,15,111,244 ; movdqa %xmm4,%xmm6
@@ -50374,18 +50348,18 @@ _sk_load_8888_dst_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,39 ; je 4a9d <_sk_load_8888_dst_sse2+0xd1>
+ DB 116,39 ; je 4a8c <_sk_load_8888_dst_sse2+0xd1>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,20 ; je 4a93 <_sk_load_8888_dst_sse2+0xc7>
+ DB 116,20 ; je 4a82 <_sk_load_8888_dst_sse2+0xc7>
DB 128,251,3 ; cmp $0x3,%bl
- DB 15,133,117,255,255,255 ; jne 49fd <_sk_load_8888_dst_sse2+0x31>
+ DB 15,133,117,255,255,255 ; jne 49ec <_sk_load_8888_dst_sse2+0x31>
DB 102,15,110,100,190,8 ; movd 0x8(%esi,%edi,4),%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
DB 102,15,18,36,190 ; movlpd (%esi,%edi,4),%xmm4
- DB 233,96,255,255,255 ; jmp 49fd <_sk_load_8888_dst_sse2+0x31>
+ DB 233,96,255,255,255 ; jmp 49ec <_sk_load_8888_dst_sse2+0x31>
DB 102,15,110,36,190 ; movd (%esi,%edi,4),%xmm4
- DB 233,86,255,255,255 ; jmp 49fd <_sk_load_8888_dst_sse2+0x31>
+ DB 233,86,255,255,255 ; jmp 49ec <_sk_load_8888_dst_sse2+0x31>
PUBLIC _sk_gather_8888_sse2
_sk_gather_8888_sse2 LABEL PROC
@@ -50417,16 +50391,16 @@ _sk_gather_8888_sse2 LABEL PROC
DB 102,15,110,28,138 ; movd (%edx,%ecx,4),%xmm3
DB 102,15,126,193 ; movd %xmm0,%ecx
DB 102,15,110,4,138 ; movd (%edx,%ecx,4),%xmm0
- DB 232,0,0,0,0 ; call 4b1d <_sk_gather_8888_sse2+0x76>
+ DB 232,0,0,0,0 ; call 4b0c <_sk_gather_8888_sse2+0x76>
DB 89 ; pop %ecx
DB 102,15,98,202 ; punpckldq %xmm2,%xmm1
DB 102,15,98,216 ; punpckldq %xmm0,%xmm3
DB 102,15,98,217 ; punpckldq %xmm1,%xmm3
- DB 102,15,111,145,147,87,0,0 ; movdqa 0x5793(%ecx),%xmm2
+ DB 102,15,111,145,180,87,0,0 ; movdqa 0x57b4(%ecx),%xmm2
DB 102,15,111,195 ; movdqa %xmm3,%xmm0
DB 102,15,219,194 ; pand %xmm2,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,40,161,163,87,0,0 ; movaps 0x57a3(%ecx),%xmm4
+ DB 15,40,161,196,87,0,0 ; movaps 0x57c4(%ecx),%xmm4
DB 15,89,196 ; mulps %xmm4,%xmm0
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,15,114,209,8 ; psrld $0x8,%xmm1
@@ -50458,7 +50432,7 @@ _sk_store_8888_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 4b98 <_sk_store_8888_sse2+0xe>
+ DB 232,0,0,0,0 ; call 4b87 <_sk_store_8888_sse2+0xe>
DB 95 ; pop %edi
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -50468,7 +50442,7 @@ _sk_store_8888_sse2 LABEL PROC
DB 193,226,2 ; shl $0x2,%edx
DB 3,22 ; add (%esi),%edx
DB 139,49 ; mov (%ecx),%esi
- DB 15,40,167,56,87,0,0 ; movaps 0x5738(%edi),%xmm4
+ DB 15,40,167,89,87,0,0 ; movaps 0x5759(%edi),%xmm4
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 15,40,232 ; movaps %xmm0,%xmm5
DB 15,89,236 ; mulps %xmm4,%xmm5
@@ -50488,7 +50462,7 @@ _sk_store_8888_sse2 LABEL PROC
DB 102,15,235,229 ; por %xmm5,%xmm4
DB 102,15,235,230 ; por %xmm6,%xmm4
DB 133,219 ; test %ebx,%ebx
- DB 117,24 ; jne 4c15 <_sk_store_8888_sse2+0x8b>
+ DB 117,24 ; jne 4c04 <_sk_store_8888_sse2+0x8b>
DB 243,15,127,36,178 ; movdqu %xmm4,(%edx,%esi,4)
DB 141,80,8 ; lea 0x8(%eax),%edx
DB 131,236,8 ; sub $0x8,%esp
@@ -50503,17 +50477,17 @@ _sk_store_8888_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,28 ; je 4c39 <_sk_store_8888_sse2+0xaf>
+ DB 116,28 ; je 4c28 <_sk_store_8888_sse2+0xaf>
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,16 ; je 4c32 <_sk_store_8888_sse2+0xa8>
+ DB 116,16 ; je 4c21 <_sk_store_8888_sse2+0xa8>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,219 ; jne 4c02 <_sk_store_8888_sse2+0x78>
+ DB 117,219 ; jne 4bf1 <_sk_store_8888_sse2+0x78>
DB 102,15,112,236,78 ; pshufd $0x4e,%xmm4,%xmm5
DB 102,15,126,108,178,8 ; movd %xmm5,0x8(%edx,%esi,4)
DB 102,15,214,36,178 ; movq %xmm4,(%edx,%esi,4)
- DB 235,201 ; jmp 4c02 <_sk_store_8888_sse2+0x78>
+ DB 235,201 ; jmp 4bf1 <_sk_store_8888_sse2+0x78>
DB 102,15,126,36,178 ; movd %xmm4,(%edx,%esi,4)
- DB 235,194 ; jmp 4c02 <_sk_store_8888_sse2+0x78>
+ DB 235,194 ; jmp 4bf1 <_sk_store_8888_sse2+0x78>
PUBLIC _sk_load_bgra_sse2
_sk_load_bgra_sse2 LABEL PROC
@@ -50523,7 +50497,7 @@ _sk_load_bgra_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 4c4e <_sk_load_bgra_sse2+0xe>
+ DB 232,0,0,0,0 ; call 4c3d <_sk_load_bgra_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -50535,13 +50509,13 @@ _sk_load_bgra_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,102 ; jne 4cd2 <_sk_load_bgra_sse2+0x92>
+ DB 117,102 ; jne 4cc1 <_sk_load_bgra_sse2+0x92>
DB 243,15,111,28,190 ; movdqu (%esi,%edi,4),%xmm3
- DB 102,15,111,130,146,86,0,0 ; movdqa 0x5692(%edx),%xmm0
+ DB 102,15,111,130,179,86,0,0 ; movdqa 0x56b3(%edx),%xmm0
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,15,219,200 ; pand %xmm0,%xmm1
DB 15,91,209 ; cvtdq2ps %xmm1,%xmm2
- DB 15,40,162,162,86,0,0 ; movaps 0x56a2(%edx),%xmm4
+ DB 15,40,162,195,86,0,0 ; movaps 0x56c3(%edx),%xmm4
DB 15,89,212 ; mulps %xmm4,%xmm2
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,15,114,209,8 ; psrld $0x8,%xmm1
@@ -50569,18 +50543,18 @@ _sk_load_bgra_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,35 ; je 4cfd <_sk_load_bgra_sse2+0xbd>
+ DB 116,35 ; je 4cec <_sk_load_bgra_sse2+0xbd>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,16 ; je 4cf3 <_sk_load_bgra_sse2+0xb3>
+ DB 116,16 ; je 4ce2 <_sk_load_bgra_sse2+0xb3>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,137 ; jne 4c71 <_sk_load_bgra_sse2+0x31>
+ DB 117,137 ; jne 4c60 <_sk_load_bgra_sse2+0x31>
DB 102,15,110,68,190,8 ; movd 0x8(%esi,%edi,4),%xmm0
DB 102,15,112,216,69 ; pshufd $0x45,%xmm0,%xmm3
DB 102,15,18,28,190 ; movlpd (%esi,%edi,4),%xmm3
- DB 233,116,255,255,255 ; jmp 4c71 <_sk_load_bgra_sse2+0x31>
+ DB 233,116,255,255,255 ; jmp 4c60 <_sk_load_bgra_sse2+0x31>
DB 102,15,110,28,190 ; movd (%esi,%edi,4),%xmm3
- DB 233,106,255,255,255 ; jmp 4c71 <_sk_load_bgra_sse2+0x31>
+ DB 233,106,255,255,255 ; jmp 4c60 <_sk_load_bgra_sse2+0x31>
PUBLIC _sk_load_bgra_dst_sse2
_sk_load_bgra_dst_sse2 LABEL PROC
@@ -50590,7 +50564,7 @@ _sk_load_bgra_dst_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 4d15 <_sk_load_bgra_dst_sse2+0xe>
+ DB 232,0,0,0,0 ; call 4d04 <_sk_load_bgra_dst_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -50602,13 +50576,13 @@ _sk_load_bgra_dst_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 117,118 ; jne 4da9 <_sk_load_bgra_dst_sse2+0xa2>
+ DB 117,118 ; jne 4d98 <_sk_load_bgra_dst_sse2+0xa2>
DB 243,15,111,36,190 ; movdqu (%esi,%edi,4),%xmm4
- DB 102,15,111,170,235,85,0,0 ; movdqa 0x55eb(%edx),%xmm5
+ DB 102,15,111,170,12,86,0,0 ; movdqa 0x560c(%edx),%xmm5
DB 102,15,111,244 ; movdqa %xmm4,%xmm6
DB 102,15,219,245 ; pand %xmm5,%xmm6
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
- DB 15,40,186,251,85,0,0 ; movaps 0x55fb(%edx),%xmm7
+ DB 15,40,186,28,86,0,0 ; movaps 0x561c(%edx),%xmm7
DB 15,89,247 ; mulps %xmm7,%xmm6
DB 15,41,113,48 ; movaps %xmm6,0x30(%ecx)
DB 102,15,111,244 ; movdqa %xmm4,%xmm6
@@ -50640,18 +50614,18 @@ _sk_load_bgra_dst_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,39 ; je 4dd8 <_sk_load_bgra_dst_sse2+0xd1>
+ DB 116,39 ; je 4dc7 <_sk_load_bgra_dst_sse2+0xd1>
DB 102,15,239,228 ; pxor %xmm4,%xmm4
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,20 ; je 4dce <_sk_load_bgra_dst_sse2+0xc7>
+ DB 116,20 ; je 4dbd <_sk_load_bgra_dst_sse2+0xc7>
DB 128,251,3 ; cmp $0x3,%bl
- DB 15,133,117,255,255,255 ; jne 4d38 <_sk_load_bgra_dst_sse2+0x31>
+ DB 15,133,117,255,255,255 ; jne 4d27 <_sk_load_bgra_dst_sse2+0x31>
DB 102,15,110,100,190,8 ; movd 0x8(%esi,%edi,4),%xmm4
DB 102,15,112,228,69 ; pshufd $0x45,%xmm4,%xmm4
DB 102,15,18,36,190 ; movlpd (%esi,%edi,4),%xmm4
- DB 233,96,255,255,255 ; jmp 4d38 <_sk_load_bgra_dst_sse2+0x31>
+ DB 233,96,255,255,255 ; jmp 4d27 <_sk_load_bgra_dst_sse2+0x31>
DB 102,15,110,36,190 ; movd (%esi,%edi,4),%xmm4
- DB 233,86,255,255,255 ; jmp 4d38 <_sk_load_bgra_dst_sse2+0x31>
+ DB 233,86,255,255,255 ; jmp 4d27 <_sk_load_bgra_dst_sse2+0x31>
PUBLIC _sk_gather_bgra_sse2
_sk_gather_bgra_sse2 LABEL PROC
@@ -50683,16 +50657,16 @@ _sk_gather_bgra_sse2 LABEL PROC
DB 102,15,110,28,138 ; movd (%edx,%ecx,4),%xmm3
DB 102,15,126,193 ; movd %xmm0,%ecx
DB 102,15,110,4,138 ; movd (%edx,%ecx,4),%xmm0
- DB 232,0,0,0,0 ; call 4e58 <_sk_gather_bgra_sse2+0x76>
+ DB 232,0,0,0,0 ; call 4e47 <_sk_gather_bgra_sse2+0x76>
DB 89 ; pop %ecx
DB 102,15,98,202 ; punpckldq %xmm2,%xmm1
DB 102,15,98,216 ; punpckldq %xmm0,%xmm3
DB 102,15,98,217 ; punpckldq %xmm1,%xmm3
- DB 102,15,111,129,200,84,0,0 ; movdqa 0x54c8(%ecx),%xmm0
+ DB 102,15,111,129,233,84,0,0 ; movdqa 0x54e9(%ecx),%xmm0
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,15,219,200 ; pand %xmm0,%xmm1
DB 15,91,209 ; cvtdq2ps %xmm1,%xmm2
- DB 15,40,161,216,84,0,0 ; movaps 0x54d8(%ecx),%xmm4
+ DB 15,40,161,249,84,0,0 ; movaps 0x54f9(%ecx),%xmm4
DB 15,89,212 ; mulps %xmm4,%xmm2
DB 102,15,111,203 ; movdqa %xmm3,%xmm1
DB 102,15,114,209,8 ; psrld $0x8,%xmm1
@@ -50724,7 +50698,7 @@ _sk_store_bgra_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,12 ; sub $0xc,%esp
- DB 232,0,0,0,0 ; call 4ed3 <_sk_store_bgra_sse2+0xe>
+ DB 232,0,0,0,0 ; call 4ec2 <_sk_store_bgra_sse2+0xe>
DB 95 ; pop %edi
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -50734,7 +50708,7 @@ _sk_store_bgra_sse2 LABEL PROC
DB 193,226,2 ; shl $0x2,%edx
DB 3,22 ; add (%esi),%edx
DB 139,49 ; mov (%ecx),%esi
- DB 15,40,167,109,84,0,0 ; movaps 0x546d(%edi),%xmm4
+ DB 15,40,167,142,84,0,0 ; movaps 0x548e(%edi),%xmm4
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 15,40,234 ; movaps %xmm2,%xmm5
DB 15,89,236 ; mulps %xmm4,%xmm5
@@ -50754,7 +50728,7 @@ _sk_store_bgra_sse2 LABEL PROC
DB 102,15,235,229 ; por %xmm5,%xmm4
DB 102,15,235,230 ; por %xmm6,%xmm4
DB 133,219 ; test %ebx,%ebx
- DB 117,24 ; jne 4f50 <_sk_store_bgra_sse2+0x8b>
+ DB 117,24 ; jne 4f3f <_sk_store_bgra_sse2+0x8b>
DB 243,15,127,36,178 ; movdqu %xmm4,(%edx,%esi,4)
DB 141,80,8 ; lea 0x8(%eax),%edx
DB 131,236,8 ; sub $0x8,%esp
@@ -50769,17 +50743,17 @@ _sk_store_bgra_sse2 LABEL PROC
DB 195 ; ret
DB 128,227,3 ; and $0x3,%bl
DB 128,251,1 ; cmp $0x1,%bl
- DB 116,28 ; je 4f74 <_sk_store_bgra_sse2+0xaf>
+ DB 116,28 ; je 4f63 <_sk_store_bgra_sse2+0xaf>
DB 128,251,2 ; cmp $0x2,%bl
- DB 116,16 ; je 4f6d <_sk_store_bgra_sse2+0xa8>
+ DB 116,16 ; je 4f5c <_sk_store_bgra_sse2+0xa8>
DB 128,251,3 ; cmp $0x3,%bl
- DB 117,219 ; jne 4f3d <_sk_store_bgra_sse2+0x78>
+ DB 117,219 ; jne 4f2c <_sk_store_bgra_sse2+0x78>
DB 102,15,112,236,78 ; pshufd $0x4e,%xmm4,%xmm5
DB 102,15,126,108,178,8 ; movd %xmm5,0x8(%edx,%esi,4)
DB 102,15,214,36,178 ; movq %xmm4,(%edx,%esi,4)
- DB 235,201 ; jmp 4f3d <_sk_store_bgra_sse2+0x78>
+ DB 235,201 ; jmp 4f2c <_sk_store_bgra_sse2+0x78>
DB 102,15,126,36,178 ; movd %xmm4,(%edx,%esi,4)
- DB 235,194 ; jmp 4f3d <_sk_store_bgra_sse2+0x78>
+ DB 235,194 ; jmp 4f2c <_sk_store_bgra_sse2+0x78>
PUBLIC _sk_load_f16_sse2
_sk_load_f16_sse2 LABEL PROC
@@ -50789,7 +50763,7 @@ _sk_load_f16_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,92 ; sub $0x5c,%esp
- DB 232,0,0,0,0 ; call 4f89 <_sk_load_f16_sse2+0xe>
+ DB 232,0,0,0,0 ; call 4f78 <_sk_load_f16_sse2+0xe>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -50801,7 +50775,7 @@ _sk_load_f16_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 15,133,160,1,0,0 ; jne 514b <_sk_load_f16_sse2+0x1d0>
+ DB 15,133,160,1,0,0 ; jne 513a <_sk_load_f16_sse2+0x1d0>
DB 102,15,16,4,254 ; movupd (%esi,%edi,8),%xmm0
DB 243,15,111,76,254,16 ; movdqu 0x10(%esi,%edi,8),%xmm1
DB 102,15,40,216 ; movapd %xmm0,%xmm3
@@ -50829,7 +50803,7 @@ _sk_load_f16_sse2 LABEL PROC
DB 102,15,126,69,232 ; movd %xmm0,-0x18(%ebp)
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 102,15,97,200 ; punpcklwd %xmm0,%xmm1
- DB 102,15,111,154,199,83,0,0 ; movdqa 0x53c7(%edx),%xmm3
+ DB 102,15,111,154,232,83,0,0 ; movdqa 0x53e8(%edx),%xmm3
DB 102,15,111,225 ; movdqa %xmm1,%xmm4
DB 102,15,219,227 ; pand %xmm3,%xmm4
DB 102,15,239,204 ; pxor %xmm4,%xmm1
@@ -50862,15 +50836,15 @@ _sk_load_f16_sse2 LABEL PROC
DB 102,15,111,199 ; movdqa %xmm7,%xmm0
DB 102,15,114,240,13 ; pslld $0xd,%xmm0
DB 102,15,235,195 ; por %xmm3,%xmm0
- DB 102,15,111,154,215,83,0,0 ; movdqa 0x53d7(%edx),%xmm3
+ DB 102,15,111,154,248,83,0,0 ; movdqa 0x53f8(%edx),%xmm3
DB 102,15,254,211 ; paddd %xmm3,%xmm2
DB 102,15,254,243 ; paddd %xmm3,%xmm6
DB 102,15,254,235 ; paddd %xmm3,%xmm5
DB 102,15,254,195 ; paddd %xmm3,%xmm0
- DB 102,15,111,154,231,83,0,0 ; movdqa 0x53e7(%edx),%xmm3
+ DB 102,15,111,154,8,84,0,0 ; movdqa 0x5408(%edx),%xmm3
DB 102,15,127,93,184 ; movdqa %xmm3,-0x48(%ebp)
DB 102,15,239,203 ; pxor %xmm3,%xmm1
- DB 102,15,111,154,247,83,0,0 ; movdqa 0x53f7(%edx),%xmm3
+ DB 102,15,111,154,24,84,0,0 ; movdqa 0x5418(%edx),%xmm3
DB 102,15,111,227 ; movdqa %xmm3,%xmm4
DB 102,15,102,225 ; pcmpgtd %xmm1,%xmm4
DB 102,15,223,226 ; pandn %xmm2,%xmm4
@@ -50902,12 +50876,12 @@ _sk_load_f16_sse2 LABEL PROC
DB 242,15,16,4,254 ; movsd (%esi,%edi,8),%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 131,251,1 ; cmp $0x1,%ebx
- DB 15,132,89,254,255,255 ; je 4fb6 <_sk_load_f16_sse2+0x3b>
+ DB 15,132,89,254,255,255 ; je 4fa5 <_sk_load_f16_sse2+0x3b>
DB 102,15,22,68,254,8 ; movhpd 0x8(%esi,%edi,8),%xmm0
DB 131,251,3 ; cmp $0x3,%ebx
- DB 15,130,74,254,255,255 ; jb 4fb6 <_sk_load_f16_sse2+0x3b>
+ DB 15,130,74,254,255,255 ; jb 4fa5 <_sk_load_f16_sse2+0x3b>
DB 243,15,126,76,254,16 ; movq 0x10(%esi,%edi,8),%xmm1
- DB 233,63,254,255,255 ; jmp 4fb6 <_sk_load_f16_sse2+0x3b>
+ DB 233,63,254,255,255 ; jmp 4fa5 <_sk_load_f16_sse2+0x3b>
PUBLIC _sk_load_f16_dst_sse2
_sk_load_f16_dst_sse2 LABEL PROC
@@ -50921,7 +50895,7 @@ _sk_load_f16_dst_sse2 LABEL PROC
DB 15,41,149,120,255,255,255 ; movaps %xmm2,-0x88(%ebp)
DB 102,15,127,77,136 ; movdqa %xmm1,-0x78(%ebp)
DB 15,41,69,152 ; movaps %xmm0,-0x68(%ebp)
- DB 232,0,0,0,0 ; call 519f <_sk_load_f16_dst_sse2+0x28>
+ DB 232,0,0,0,0 ; call 518e <_sk_load_f16_dst_sse2+0x28>
DB 90 ; pop %edx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
@@ -50933,7 +50907,7 @@ _sk_load_f16_dst_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 133,219 ; test %ebx,%ebx
DB 139,57 ; mov (%ecx),%edi
- DB 15,133,206,1,0,0 ; jne 538f <_sk_load_f16_dst_sse2+0x218>
+ DB 15,133,206,1,0,0 ; jne 537e <_sk_load_f16_dst_sse2+0x218>
DB 102,15,16,4,254 ; movupd (%esi,%edi,8),%xmm0
DB 243,15,111,76,254,16 ; movdqu 0x10(%esi,%edi,8),%xmm1
DB 102,15,40,208 ; movapd %xmm0,%xmm2
@@ -50961,7 +50935,7 @@ _sk_load_f16_dst_sse2 LABEL PROC
DB 102,15,126,85,232 ; movd %xmm2,-0x18(%ebp)
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 102,15,97,225 ; punpcklwd %xmm1,%xmm4
- DB 102,15,111,154,241,81,0,0 ; movdqa 0x51f1(%edx),%xmm3
+ DB 102,15,111,154,18,82,0,0 ; movdqa 0x5212(%edx),%xmm3
DB 102,15,111,212 ; movdqa %xmm4,%xmm2
DB 102,15,219,211 ; pand %xmm3,%xmm2
DB 102,15,239,226 ; pxor %xmm2,%xmm4
@@ -50969,13 +50943,13 @@ _sk_load_f16_dst_sse2 LABEL PROC
DB 102,15,111,204 ; movdqa %xmm4,%xmm1
DB 102,15,114,241,13 ; pslld $0xd,%xmm1
DB 102,15,235,202 ; por %xmm2,%xmm1
- DB 102,15,111,146,17,82,0,0 ; movdqa 0x5211(%edx),%xmm2
+ DB 102,15,111,146,50,82,0,0 ; movdqa 0x5232(%edx),%xmm2
DB 102,15,127,85,168 ; movdqa %xmm2,-0x58(%ebp)
DB 102,15,239,226 ; pxor %xmm2,%xmm4
- DB 102,15,111,178,33,82,0,0 ; movdqa 0x5221(%edx),%xmm6
+ DB 102,15,111,178,66,82,0,0 ; movdqa 0x5242(%edx),%xmm6
DB 102,15,111,254 ; movdqa %xmm6,%xmm7
DB 102,15,102,252 ; pcmpgtd %xmm4,%xmm7
- DB 102,15,111,146,1,82,0,0 ; movdqa 0x5201(%edx),%xmm2
+ DB 102,15,111,146,34,82,0,0 ; movdqa 0x5222(%edx),%xmm2
DB 102,15,127,85,184 ; movdqa %xmm2,-0x48(%ebp)
DB 102,15,254,202 ; paddd %xmm2,%xmm1
DB 102,15,223,249 ; pandn %xmm1,%xmm7
@@ -51043,12 +51017,12 @@ _sk_load_f16_dst_sse2 LABEL PROC
DB 242,15,16,4,254 ; movsd (%esi,%edi,8),%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 131,251,1 ; cmp $0x1,%ebx
- DB 15,132,43,254,255,255 ; je 51cc <_sk_load_f16_dst_sse2+0x55>
+ DB 15,132,43,254,255,255 ; je 51bb <_sk_load_f16_dst_sse2+0x55>
DB 102,15,22,68,254,8 ; movhpd 0x8(%esi,%edi,8),%xmm0
DB 131,251,3 ; cmp $0x3,%ebx
- DB 15,130,28,254,255,255 ; jb 51cc <_sk_load_f16_dst_sse2+0x55>
+ DB 15,130,28,254,255,255 ; jb 51bb <_sk_load_f16_dst_sse2+0x55>
DB 243,15,126,76,254,16 ; movq 0x10(%esi,%edi,8),%xmm1
- DB 233,17,254,255,255 ; jmp 51cc <_sk_load_f16_dst_sse2+0x55>
+ DB 233,17,254,255,255 ; jmp 51bb <_sk_load_f16_dst_sse2+0x55>
PUBLIC _sk_gather_f16_sse2
_sk_gather_f16_sse2 LABEL PROC
@@ -51084,7 +51058,7 @@ _sk_gather_f16_sse2 LABEL PROC
DB 102,15,126,194 ; movd %xmm0,%edx
DB 102,15,110,68,209,4 ; movd 0x4(%ecx,%edx,8),%xmm0
DB 102,15,110,60,209 ; movd (%ecx,%edx,8),%xmm7
- DB 232,0,0,0,0 ; call 5449 <_sk_gather_f16_sse2+0x8e>
+ DB 232,0,0,0,0 ; call 5438 <_sk_gather_f16_sse2+0x8e>
DB 89 ; pop %ecx
DB 102,15,98,202 ; punpckldq %xmm2,%xmm1
DB 102,15,98,227 ; punpckldq %xmm3,%xmm4
@@ -51117,7 +51091,7 @@ _sk_gather_f16_sse2 LABEL PROC
DB 102,15,126,69,248 ; movd %xmm0,-0x8(%ebp)
DB 102,15,239,192 ; pxor %xmm0,%xmm0
DB 102,15,97,200 ; punpcklwd %xmm0,%xmm1
- DB 102,15,111,153,135,79,0,0 ; movdqa 0x4f87(%ecx),%xmm3
+ DB 102,15,111,153,168,79,0,0 ; movdqa 0x4fa8(%ecx),%xmm3
DB 102,15,111,225 ; movdqa %xmm1,%xmm4
DB 102,15,219,227 ; pand %xmm3,%xmm4
DB 102,15,239,204 ; pxor %xmm4,%xmm1
@@ -51150,15 +51124,15 @@ _sk_gather_f16_sse2 LABEL PROC
DB 102,15,111,199 ; movdqa %xmm7,%xmm0
DB 102,15,114,240,13 ; pslld $0xd,%xmm0
DB 102,15,235,195 ; por %xmm3,%xmm0
- DB 102,15,111,153,151,79,0,0 ; movdqa 0x4f97(%ecx),%xmm3
+ DB 102,15,111,153,184,79,0,0 ; movdqa 0x4fb8(%ecx),%xmm3
DB 102,15,254,211 ; paddd %xmm3,%xmm2
DB 102,15,254,243 ; paddd %xmm3,%xmm6
DB 102,15,254,235 ; paddd %xmm3,%xmm5
DB 102,15,254,195 ; paddd %xmm3,%xmm0
- DB 102,15,111,153,167,79,0,0 ; movdqa 0x4fa7(%ecx),%xmm3
+ DB 102,15,111,153,200,79,0,0 ; movdqa 0x4fc8(%ecx),%xmm3
DB 102,15,127,93,200 ; movdqa %xmm3,-0x38(%ebp)
DB 102,15,239,203 ; pxor %xmm3,%xmm1
- DB 102,15,111,153,183,79,0,0 ; movdqa 0x4fb7(%ecx),%xmm3
+ DB 102,15,111,153,216,79,0,0 ; movdqa 0x4fd8(%ecx),%xmm3
DB 102,15,111,227 ; movdqa %xmm3,%xmm4
DB 102,15,102,225 ; pcmpgtd %xmm1,%xmm4
DB 102,15,223,226 ; pandn %xmm2,%xmm4
@@ -51195,20 +51169,20 @@ _sk_store_f16_sse2 LABEL PROC
DB 131,236,80 ; sub $0x50,%esp
DB 15,41,93,216 ; movaps %xmm3,-0x28(%ebp)
DB 102,15,111,218 ; movdqa %xmm2,%xmm3
- DB 232,0,0,0,0 ; call 560c <_sk_store_f16_sse2+0x15>
+ DB 232,0,0,0,0 ; call 55fb <_sk_store_f16_sse2+0x15>
DB 88 ; pop %eax
- DB 102,15,111,176,4,78,0,0 ; movdqa 0x4e04(%eax),%xmm6
+ DB 102,15,111,176,37,78,0,0 ; movdqa 0x4e25(%eax),%xmm6
DB 102,15,111,208 ; movdqa %xmm0,%xmm2
DB 102,15,219,214 ; pand %xmm6,%xmm2
DB 102,15,127,69,200 ; movdqa %xmm0,-0x38(%ebp)
DB 102,15,111,232 ; movdqa %xmm0,%xmm5
DB 102,15,239,234 ; pxor %xmm2,%xmm5
- DB 102,15,111,160,20,78,0,0 ; movdqa 0x4e14(%eax),%xmm4
+ DB 102,15,111,160,53,78,0,0 ; movdqa 0x4e35(%eax),%xmm4
DB 102,15,114,210,16 ; psrld $0x10,%xmm2
DB 102,15,111,196 ; movdqa %xmm4,%xmm0
DB 102,15,102,197 ; pcmpgtd %xmm5,%xmm0
DB 102,15,114,213,13 ; psrld $0xd,%xmm5
- DB 102,15,111,184,36,78,0,0 ; movdqa 0x4e24(%eax),%xmm7
+ DB 102,15,111,184,69,78,0,0 ; movdqa 0x4e45(%eax),%xmm7
DB 102,15,254,215 ; paddd %xmm7,%xmm2
DB 102,15,127,125,232 ; movdqa %xmm7,-0x18(%ebp)
DB 102,15,254,213 ; paddd %xmm5,%xmm2
@@ -51270,7 +51244,7 @@ _sk_store_f16_sse2 LABEL PROC
DB 3,55 ; add (%edi),%esi
DB 139,121,8 ; mov 0x8(%ecx),%edi
DB 133,255 ; test %edi,%edi
- DB 117,53 ; jne 577e <_sk_store_f16_sse2+0x187>
+ DB 117,53 ; jne 576d <_sk_store_f16_sse2+0x187>
DB 102,15,111,193 ; movdqa %xmm1,%xmm0
DB 102,15,98,197 ; punpckldq %xmm5,%xmm0
DB 243,15,127,4,214 ; movdqu %xmm0,(%esi,%edx,8)
@@ -51293,13 +51267,13 @@ _sk_store_f16_sse2 LABEL PROC
DB 102,15,98,213 ; punpckldq %xmm5,%xmm2
DB 102,15,214,20,214 ; movq %xmm2,(%esi,%edx,8)
DB 131,255,1 ; cmp $0x1,%edi
- DB 116,208 ; je 5760 <_sk_store_f16_sse2+0x169>
+ DB 116,208 ; je 574f <_sk_store_f16_sse2+0x169>
DB 102,15,23,84,214,8 ; movhpd %xmm2,0x8(%esi,%edx,8)
DB 131,255,3 ; cmp $0x3,%edi
- DB 114,197 ; jb 5760 <_sk_store_f16_sse2+0x169>
+ DB 114,197 ; jb 574f <_sk_store_f16_sse2+0x169>
DB 102,15,106,205 ; punpckhdq %xmm5,%xmm1
DB 102,15,214,76,214,16 ; movq %xmm1,0x10(%esi,%edx,8)
- DB 235,185 ; jmp 5760 <_sk_store_f16_sse2+0x169>
+ DB 235,185 ; jmp 574f <_sk_store_f16_sse2+0x169>
PUBLIC _sk_load_u16_be_sse2
_sk_load_u16_be_sse2 LABEL PROC
@@ -51320,9 +51294,9 @@ _sk_load_u16_be_sse2 LABEL PROC
DB 139,89,8 ; mov 0x8(%ecx),%ebx
DB 193,230,2 ; shl $0x2,%esi
DB 133,219 ; test %ebx,%ebx
- DB 232,0,0,0,0 ; call 57d2 <_sk_load_u16_be_sse2+0x2b>
+ DB 232,0,0,0,0 ; call 57c1 <_sk_load_u16_be_sse2+0x2b>
DB 90 ; pop %edx
- DB 15,133,11,1,0,0 ; jne 58e4 <_sk_load_u16_be_sse2+0x13d>
+ DB 15,133,11,1,0,0 ; jne 58d3 <_sk_load_u16_be_sse2+0x13d>
DB 102,15,16,4,119 ; movupd (%edi,%esi,2),%xmm0
DB 243,15,111,76,119,16 ; movdqu 0x10(%edi,%esi,2),%xmm1
DB 102,15,40,208 ; movapd %xmm0,%xmm2
@@ -51343,7 +51317,7 @@ _sk_load_u16_be_sse2 LABEL PROC
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,97,195 ; punpcklwd %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,40,162,110,76,0,0 ; movaps 0x4c6e(%edx),%xmm4
+ DB 15,40,162,143,76,0,0 ; movaps 0x4c8f(%edx),%xmm4
DB 15,89,196 ; mulps %xmm4,%xmm0
DB 102,15,111,205 ; movdqa %xmm5,%xmm1
DB 102,15,113,241,8 ; psllw $0x8,%xmm1
@@ -51393,12 +51367,12 @@ _sk_load_u16_be_sse2 LABEL PROC
DB 242,15,16,4,119 ; movsd (%edi,%esi,2),%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 131,251,1 ; cmp $0x1,%ebx
- DB 15,132,238,254,255,255 ; je 57e4 <_sk_load_u16_be_sse2+0x3d>
+ DB 15,132,238,254,255,255 ; je 57d3 <_sk_load_u16_be_sse2+0x3d>
DB 102,15,22,68,119,8 ; movhpd 0x8(%edi,%esi,2),%xmm0
DB 131,251,3 ; cmp $0x3,%ebx
- DB 15,130,223,254,255,255 ; jb 57e4 <_sk_load_u16_be_sse2+0x3d>
+ DB 15,130,223,254,255,255 ; jb 57d3 <_sk_load_u16_be_sse2+0x3d>
DB 243,15,126,76,119,16 ; movq 0x10(%edi,%esi,2),%xmm1
- DB 233,212,254,255,255 ; jmp 57e4 <_sk_load_u16_be_sse2+0x3d>
+ DB 233,212,254,255,255 ; jmp 57d3 <_sk_load_u16_be_sse2+0x3d>
PUBLIC _sk_load_rgb_u16_be_sse2
_sk_load_rgb_u16_be_sse2 LABEL PROC
@@ -51418,9 +51392,9 @@ _sk_load_rgb_u16_be_sse2 LABEL PROC
DB 3,50 ; add (%edx),%esi
DB 107,25,3 ; imul $0x3,(%ecx),%ebx
DB 133,255 ; test %edi,%edi
- DB 232,0,0,0,0 ; call 5939 <_sk_load_rgb_u16_be_sse2+0x29>
+ DB 232,0,0,0,0 ; call 5928 <_sk_load_rgb_u16_be_sse2+0x29>
DB 90 ; pop %edx
- DB 15,133,240,0,0,0 ; jne 5a30 <_sk_load_rgb_u16_be_sse2+0x120>
+ DB 15,133,240,0,0,0 ; jne 5a1f <_sk_load_rgb_u16_be_sse2+0x120>
DB 243,15,111,20,94 ; movdqu (%esi,%ebx,2),%xmm2
DB 243,15,111,92,94,8 ; movdqu 0x8(%esi,%ebx,2),%xmm3
DB 102,15,115,219,4 ; psrldq $0x4,%xmm3
@@ -51445,7 +51419,7 @@ _sk_load_rgb_u16_be_sse2 LABEL PROC
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,97,195 ; punpcklwd %xmm3,%xmm0
DB 15,91,192 ; cvtdq2ps %xmm0,%xmm0
- DB 15,40,170,23,75,0,0 ; movaps 0x4b17(%edx),%xmm5
+ DB 15,40,170,56,75,0,0 ; movaps 0x4b38(%edx),%xmm5
DB 15,89,197 ; mulps %xmm5,%xmm0
DB 102,15,111,204 ; movdqa %xmm4,%xmm1
DB 102,15,113,241,8 ; psllw $0x8,%xmm1
@@ -51471,7 +51445,7 @@ _sk_load_rgb_u16_be_sse2 LABEL PROC
DB 15,89,213 ; mulps %xmm5,%xmm2
DB 141,112,8 ; lea 0x8(%eax),%esi
DB 131,236,8 ; sub $0x8,%esp
- DB 15,40,154,39,75,0,0 ; movaps 0x4b27(%edx),%xmm3
+ DB 15,40,154,72,75,0,0 ; movaps 0x4b48(%edx),%xmm3
DB 86 ; push %esi
DB 81 ; push %ecx
DB 255,80,4 ; call *0x4(%eax)
@@ -51485,20 +51459,20 @@ _sk_load_rgb_u16_be_sse2 LABEL PROC
DB 102,15,196,84,94,4,2 ; pinsrw $0x2,0x4(%esi,%ebx,2),%xmm2
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 131,255,1 ; cmp $0x1,%edi
- DB 117,13 ; jne 5a52 <_sk_load_rgb_u16_be_sse2+0x142>
+ DB 117,13 ; jne 5a41 <_sk_load_rgb_u16_be_sse2+0x142>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
DB 102,15,239,192 ; pxor %xmm0,%xmm0
- DB 233,16,255,255,255 ; jmp 5962 <_sk_load_rgb_u16_be_sse2+0x52>
+ DB 233,16,255,255,255 ; jmp 5951 <_sk_load_rgb_u16_be_sse2+0x52>
DB 102,15,110,68,94,6 ; movd 0x6(%esi,%ebx,2),%xmm0
DB 102,15,196,68,94,10,2 ; pinsrw $0x2,0xa(%esi,%ebx,2),%xmm0
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 131,255,3 ; cmp $0x3,%edi
- DB 114,18 ; jb 5a7a <_sk_load_rgb_u16_be_sse2+0x16a>
+ DB 114,18 ; jb 5a69 <_sk_load_rgb_u16_be_sse2+0x16a>
DB 102,15,110,92,94,12 ; movd 0xc(%esi,%ebx,2),%xmm3
DB 102,15,196,92,94,16,2 ; pinsrw $0x2,0x10(%esi,%ebx,2),%xmm3
- DB 233,232,254,255,255 ; jmp 5962 <_sk_load_rgb_u16_be_sse2+0x52>
+ DB 233,232,254,255,255 ; jmp 5951 <_sk_load_rgb_u16_be_sse2+0x52>
DB 102,15,239,219 ; pxor %xmm3,%xmm3
- DB 233,223,254,255,255 ; jmp 5962 <_sk_load_rgb_u16_be_sse2+0x52>
+ DB 233,223,254,255,255 ; jmp 5951 <_sk_load_rgb_u16_be_sse2+0x52>
PUBLIC _sk_store_u16_be_sse2
_sk_store_u16_be_sse2 LABEL PROC
@@ -51508,9 +51482,9 @@ _sk_store_u16_be_sse2 LABEL PROC
DB 86 ; push %esi
DB 131,236,16 ; sub $0x10,%esp
DB 15,41,93,232 ; movaps %xmm3,-0x18(%ebp)
- DB 232,0,0,0,0 ; call 5a94 <_sk_store_u16_be_sse2+0x11>
+ DB 232,0,0,0,0 ; call 5a83 <_sk_store_u16_be_sse2+0x11>
DB 88 ; pop %eax
- DB 15,40,176,220,73,0,0 ; movaps 0x49dc(%eax),%xmm6
+ DB 15,40,176,253,73,0,0 ; movaps 0x49fd(%eax),%xmm6
DB 15,40,224 ; movaps %xmm0,%xmm4
DB 15,89,230 ; mulps %xmm6,%xmm4
DB 102,15,91,228 ; cvtps2dq %xmm4,%xmm4
@@ -51563,7 +51537,7 @@ _sk_store_u16_be_sse2 LABEL PROC
DB 139,121,8 ; mov 0x8(%ecx),%edi
DB 193,226,2 ; shl $0x2,%edx
DB 133,255 ; test %edi,%edi
- DB 117,45 ; jne 5b96 <_sk_store_u16_be_sse2+0x113>
+ DB 117,45 ; jne 5b85 <_sk_store_u16_be_sse2+0x113>
DB 102,15,111,220 ; movdqa %xmm4,%xmm3
DB 102,15,98,221 ; punpckldq %xmm5,%xmm3
DB 243,15,127,28,86 ; movdqu %xmm3,(%esi,%edx,2)
@@ -51584,13 +51558,13 @@ _sk_store_u16_be_sse2 LABEL PROC
DB 102,15,98,245 ; punpckldq %xmm5,%xmm6
DB 102,15,214,52,86 ; movq %xmm6,(%esi,%edx,2)
DB 131,255,1 ; cmp $0x1,%edi
- DB 116,216 ; je 5b80 <_sk_store_u16_be_sse2+0xfd>
+ DB 116,216 ; je 5b6f <_sk_store_u16_be_sse2+0xfd>
DB 102,15,23,116,86,8 ; movhpd %xmm6,0x8(%esi,%edx,2)
DB 131,255,3 ; cmp $0x3,%edi
- DB 114,205 ; jb 5b80 <_sk_store_u16_be_sse2+0xfd>
+ DB 114,205 ; jb 5b6f <_sk_store_u16_be_sse2+0xfd>
DB 102,15,106,229 ; punpckhdq %xmm5,%xmm4
DB 102,15,214,100,86,16 ; movq %xmm4,0x10(%esi,%edx,2)
- DB 235,193 ; jmp 5b80 <_sk_store_u16_be_sse2+0xfd>
+ DB 235,193 ; jmp 5b6f <_sk_store_u16_be_sse2+0xfd>
PUBLIC _sk_load_f32_sse2
_sk_load_f32_sse2 LABEL PROC
@@ -51611,7 +51585,7 @@ _sk_load_f32_sse2 LABEL PROC
DB 15,16,36,23 ; movups (%edi,%edx,1),%xmm4
DB 139,121,8 ; mov 0x8(%ecx),%edi
DB 133,255 ; test %edi,%edi
- DB 117,71 ; jne 5c36 <_sk_load_f32_sse2+0x77>
+ DB 117,71 ; jne 5c25 <_sk_load_f32_sse2+0x77>
DB 15,16,84,178,16 ; movups 0x10(%edx,%esi,4),%xmm2
DB 15,16,92,178,32 ; movups 0x20(%edx,%esi,4),%xmm3
DB 15,16,68,178,48 ; movups 0x30(%edx,%esi,4),%xmm0
@@ -51639,17 +51613,17 @@ _sk_load_f32_sse2 LABEL PROC
DB 195 ; ret
DB 15,87,192 ; xorps %xmm0,%xmm0
DB 131,255,1 ; cmp $0x1,%edi
- DB 117,8 ; jne 5c46 <_sk_load_f32_sse2+0x87>
+ DB 117,8 ; jne 5c35 <_sk_load_f32_sse2+0x87>
DB 15,87,219 ; xorps %xmm3,%xmm3
DB 15,87,210 ; xorps %xmm2,%xmm2
- DB 235,184 ; jmp 5bfe <_sk_load_f32_sse2+0x3f>
+ DB 235,184 ; jmp 5bed <_sk_load_f32_sse2+0x3f>
DB 15,16,84,178,16 ; movups 0x10(%edx,%esi,4),%xmm2
DB 131,255,3 ; cmp $0x3,%edi
- DB 114,7 ; jb 5c57 <_sk_load_f32_sse2+0x98>
+ DB 114,7 ; jb 5c46 <_sk_load_f32_sse2+0x98>
DB 15,16,92,178,32 ; movups 0x20(%edx,%esi,4),%xmm3
- DB 235,167 ; jmp 5bfe <_sk_load_f32_sse2+0x3f>
+ DB 235,167 ; jmp 5bed <_sk_load_f32_sse2+0x3f>
DB 15,87,219 ; xorps %xmm3,%xmm3
- DB 235,162 ; jmp 5bfe <_sk_load_f32_sse2+0x3f>
+ DB 235,162 ; jmp 5bed <_sk_load_f32_sse2+0x3f>
PUBLIC _sk_load_f32_dst_sse2
_sk_load_f32_dst_sse2 LABEL PROC
@@ -51673,7 +51647,7 @@ _sk_load_f32_dst_sse2 LABEL PROC
DB 15,16,52,23 ; movups (%edi,%edx,1),%xmm6
DB 139,121,8 ; mov 0x8(%ecx),%edi
DB 133,255 ; test %edi,%edi
- DB 117,97 ; jne 5cf8 <_sk_load_f32_dst_sse2+0x9c>
+ DB 117,97 ; jne 5ce7 <_sk_load_f32_dst_sse2+0x9c>
DB 15,16,124,178,16 ; movups 0x10(%edx,%esi,4),%xmm7
DB 15,16,92,178,32 ; movups 0x20(%edx,%esi,4),%xmm3
DB 15,16,84,178,48 ; movups 0x30(%edx,%esi,4),%xmm2
@@ -51707,17 +51681,17 @@ _sk_load_f32_dst_sse2 LABEL PROC
DB 195 ; ret
DB 15,87,210 ; xorps %xmm2,%xmm2
DB 131,255,1 ; cmp $0x1,%edi
- DB 117,8 ; jne 5d08 <_sk_load_f32_dst_sse2+0xac>
+ DB 117,8 ; jne 5cf7 <_sk_load_f32_dst_sse2+0xac>
DB 15,87,219 ; xorps %xmm3,%xmm3
DB 15,87,255 ; xorps %xmm7,%xmm7
- DB 235,158 ; jmp 5ca6 <_sk_load_f32_dst_sse2+0x4a>
+ DB 235,158 ; jmp 5c95 <_sk_load_f32_dst_sse2+0x4a>
DB 15,16,124,178,16 ; movups 0x10(%edx,%esi,4),%xmm7
DB 131,255,3 ; cmp $0x3,%edi
- DB 114,7 ; jb 5d19 <_sk_load_f32_dst_sse2+0xbd>
+ DB 114,7 ; jb 5d08 <_sk_load_f32_dst_sse2+0xbd>
DB 15,16,92,178,32 ; movups 0x20(%edx,%esi,4),%xmm3
- DB 235,141 ; jmp 5ca6 <_sk_load_f32_dst_sse2+0x4a>
+ DB 235,141 ; jmp 5c95 <_sk_load_f32_dst_sse2+0x4a>
DB 15,87,219 ; xorps %xmm3,%xmm3
- DB 235,136 ; jmp 5ca6 <_sk_load_f32_dst_sse2+0x4a>
+ DB 235,136 ; jmp 5c95 <_sk_load_f32_dst_sse2+0x4a>
PUBLIC _sk_store_f32_sse2
_sk_store_f32_sse2 LABEL PROC
@@ -51753,7 +51727,7 @@ _sk_store_f32_sse2 LABEL PROC
DB 15,40,238 ; movaps %xmm6,%xmm5
DB 102,15,20,239 ; unpcklpd %xmm7,%xmm5
DB 133,255 ; test %edi,%edi
- DB 117,40 ; jne 5da4 <_sk_store_f32_sse2+0x86>
+ DB 117,40 ; jne 5d93 <_sk_store_f32_sse2+0x86>
DB 102,15,21,247 ; unpckhpd %xmm7,%xmm6
DB 15,17,100,178,16 ; movups %xmm4,0x10(%edx,%esi,4)
DB 102,15,17,108,178,32 ; movupd %xmm5,0x20(%edx,%esi,4)
@@ -51770,12 +51744,12 @@ _sk_store_f32_sse2 LABEL PROC
DB 93 ; pop %ebp
DB 195 ; ret
DB 131,255,1 ; cmp $0x1,%edi
- DB 116,232 ; je 5d91 <_sk_store_f32_sse2+0x73>
+ DB 116,232 ; je 5d80 <_sk_store_f32_sse2+0x73>
DB 15,17,100,178,16 ; movups %xmm4,0x10(%edx,%esi,4)
DB 131,255,3 ; cmp $0x3,%edi
- DB 114,222 ; jb 5d91 <_sk_store_f32_sse2+0x73>
+ DB 114,222 ; jb 5d80 <_sk_store_f32_sse2+0x73>
DB 102,15,17,108,178,32 ; movupd %xmm5,0x20(%edx,%esi,4)
- DB 235,214 ; jmp 5d91 <_sk_store_f32_sse2+0x73>
+ DB 235,214 ; jmp 5d80 <_sk_store_f32_sse2+0x73>
PUBLIC _sk_clamp_x_sse2
_sk_clamp_x_sse2 LABEL PROC
@@ -51830,7 +51804,7 @@ _sk_repeat_x_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 5e38 <_sk_repeat_x_sse2+0xb>
+ DB 232,0,0,0,0 ; call 5e27 <_sk_repeat_x_sse2+0xb>
DB 89 ; pop %ecx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,16 ; mov (%eax),%edx
@@ -51841,7 +51815,7 @@ _sk_repeat_x_sse2 LABEL PROC
DB 243,15,91,230 ; cvttps2dq %xmm6,%xmm4
DB 15,91,252 ; cvtdq2ps %xmm4,%xmm7
DB 15,194,247,1 ; cmpltps %xmm7,%xmm6
- DB 15,84,177,72,70,0,0 ; andps 0x4648(%ecx),%xmm6
+ DB 15,84,177,105,70,0,0 ; andps 0x4669(%ecx),%xmm6
DB 15,87,228 ; xorps %xmm4,%xmm4
DB 15,92,254 ; subps %xmm6,%xmm7
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
@@ -51866,7 +51840,7 @@ _sk_repeat_y_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 5e9e <_sk_repeat_y_sse2+0xb>
+ DB 232,0,0,0,0 ; call 5e8d <_sk_repeat_y_sse2+0xb>
DB 89 ; pop %ecx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,16 ; mov (%eax),%edx
@@ -51877,7 +51851,7 @@ _sk_repeat_y_sse2 LABEL PROC
DB 243,15,91,230 ; cvttps2dq %xmm6,%xmm4
DB 15,91,252 ; cvtdq2ps %xmm4,%xmm7
DB 15,194,247,1 ; cmpltps %xmm7,%xmm6
- DB 15,84,177,242,69,0,0 ; andps 0x45f2(%ecx),%xmm6
+ DB 15,84,177,19,70,0,0 ; andps 0x4613(%ecx),%xmm6
DB 15,87,228 ; xorps %xmm4,%xmm4
DB 15,92,254 ; subps %xmm6,%xmm7
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
@@ -51902,7 +51876,7 @@ _sk_mirror_x_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 5f04 <_sk_mirror_x_sse2+0xb>
+ DB 232,0,0,0,0 ; call 5ef3 <_sk_mirror_x_sse2+0xb>
DB 89 ; pop %ecx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,16 ; mov (%eax),%edx
@@ -51911,13 +51885,13 @@ _sk_mirror_x_sse2 LABEL PROC
DB 15,40,229 ; movaps %xmm5,%xmm4
DB 15,198,228,0 ; shufps $0x0,%xmm4,%xmm4
DB 15,92,196 ; subps %xmm4,%xmm0
- DB 243,15,89,177,28,75,0,0 ; mulss 0x4b1c(%ecx),%xmm6
+ DB 243,15,89,177,61,75,0,0 ; mulss 0x4b3d(%ecx),%xmm6
DB 15,198,246,0 ; shufps $0x0,%xmm6,%xmm6
DB 15,89,240 ; mulps %xmm0,%xmm6
DB 243,15,91,254 ; cvttps2dq %xmm6,%xmm7
DB 15,91,255 ; cvtdq2ps %xmm7,%xmm7
DB 15,194,247,1 ; cmpltps %xmm7,%xmm6
- DB 15,84,177,156,69,0,0 ; andps 0x459c(%ecx),%xmm6
+ DB 15,84,177,189,69,0,0 ; andps 0x45bd(%ecx),%xmm6
DB 15,92,254 ; subps %xmm6,%xmm7
DB 243,15,88,237 ; addss %xmm5,%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
@@ -51946,7 +51920,7 @@ _sk_mirror_y_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 5f89 <_sk_mirror_y_sse2+0xb>
+ DB 232,0,0,0,0 ; call 5f78 <_sk_mirror_y_sse2+0xb>
DB 89 ; pop %ecx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,16 ; mov (%eax),%edx
@@ -51955,13 +51929,13 @@ _sk_mirror_y_sse2 LABEL PROC
DB 15,40,229 ; movaps %xmm5,%xmm4
DB 15,198,228,0 ; shufps $0x0,%xmm4,%xmm4
DB 15,92,204 ; subps %xmm4,%xmm1
- DB 243,15,89,177,155,74,0,0 ; mulss 0x4a9b(%ecx),%xmm6
+ DB 243,15,89,177,188,74,0,0 ; mulss 0x4abc(%ecx),%xmm6
DB 15,198,246,0 ; shufps $0x0,%xmm6,%xmm6
DB 15,89,241 ; mulps %xmm1,%xmm6
DB 243,15,91,254 ; cvttps2dq %xmm6,%xmm7
DB 15,91,255 ; cvtdq2ps %xmm7,%xmm7
DB 15,194,247,1 ; cmpltps %xmm7,%xmm6
- DB 15,84,177,39,69,0,0 ; andps 0x4527(%ecx),%xmm6
+ DB 15,84,177,72,69,0,0 ; andps 0x4548(%ecx),%xmm6
DB 15,92,254 ; subps %xmm6,%xmm7
DB 243,15,88,237 ; addss %xmm5,%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
@@ -51990,12 +51964,12 @@ _sk_clamp_x_1_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 600e <_sk_clamp_x_1_sse2+0xb>
+ DB 232,0,0,0,0 ; call 5ffd <_sk_clamp_x_1_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 15,87,228 ; xorps %xmm4,%xmm4
DB 15,95,224 ; maxps %xmm0,%xmm4
- DB 15,93,160,178,68,0,0 ; minps 0x44b2(%eax),%xmm4
+ DB 15,93,160,211,68,0,0 ; minps 0x44d3(%eax),%xmm4
DB 141,65,4 ; lea 0x4(%ecx),%eax
DB 131,236,8 ; sub $0x8,%esp
DB 15,40,196 ; movaps %xmm4,%xmm0
@@ -52011,14 +51985,14 @@ _sk_repeat_x_1_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 603e <_sk_repeat_x_1_sse2+0xb>
+ DB 232,0,0,0,0 ; call 602d <_sk_repeat_x_1_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 243,15,91,224 ; cvttps2dq %xmm0,%xmm4
DB 15,91,228 ; cvtdq2ps %xmm4,%xmm4
DB 15,40,232 ; movaps %xmm0,%xmm5
DB 15,194,236,1 ; cmpltps %xmm4,%xmm5
- DB 15,84,168,146,68,0,0 ; andps 0x4492(%eax),%xmm5
+ DB 15,84,168,179,68,0,0 ; andps 0x44b3(%eax),%xmm5
DB 15,92,229 ; subps %xmm5,%xmm4
DB 15,92,196 ; subps %xmm4,%xmm0
DB 141,65,4 ; lea 0x4(%ecx),%eax
@@ -52035,17 +52009,17 @@ _sk_mirror_x_1_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 6079 <_sk_mirror_x_1_sse2+0xb>
+ DB 232,0,0,0,0 ; call 6068 <_sk_mirror_x_1_sse2+0xb>
DB 89 ; pop %ecx
DB 139,69,12 ; mov 0xc(%ebp),%eax
- DB 15,40,161,103,68,0,0 ; movaps 0x4467(%ecx),%xmm4
+ DB 15,40,161,136,68,0,0 ; movaps 0x4488(%ecx),%xmm4
DB 15,88,196 ; addps %xmm4,%xmm0
- DB 15,40,169,119,68,0,0 ; movaps 0x4477(%ecx),%xmm5
+ DB 15,40,169,152,68,0,0 ; movaps 0x4498(%ecx),%xmm5
DB 15,89,232 ; mulps %xmm0,%xmm5
DB 243,15,91,245 ; cvttps2dq %xmm5,%xmm6
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
DB 15,194,238,1 ; cmpltps %xmm6,%xmm5
- DB 15,84,169,135,68,0,0 ; andps 0x4487(%ecx),%xmm5
+ DB 15,84,169,168,68,0,0 ; andps 0x44a8(%ecx),%xmm5
DB 15,87,255 ; xorps %xmm7,%xmm7
DB 15,92,245 ; subps %xmm5,%xmm6
DB 15,88,246 ; addps %xmm6,%xmm6
@@ -52068,13 +52042,13 @@ _sk_luminance_to_alpha_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
DB 15,40,218 ; movaps %xmm2,%xmm3
- DB 232,0,0,0,0 ; call 60d7 <_sk_luminance_to_alpha_sse2+0xe>
+ DB 232,0,0,0,0 ; call 60c6 <_sk_luminance_to_alpha_sse2+0xe>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
- DB 15,89,128,57,68,0,0 ; mulps 0x4439(%eax),%xmm0
- DB 15,89,136,73,68,0,0 ; mulps 0x4449(%eax),%xmm1
+ DB 15,89,128,90,68,0,0 ; mulps 0x445a(%eax),%xmm0
+ DB 15,89,136,106,68,0,0 ; mulps 0x446a(%eax),%xmm1
DB 15,88,200 ; addps %xmm0,%xmm1
- DB 15,89,152,89,68,0,0 ; mulps 0x4459(%eax),%xmm3
+ DB 15,89,152,122,68,0,0 ; mulps 0x447a(%eax),%xmm3
DB 15,88,217 ; addps %xmm1,%xmm3
DB 141,65,4 ; lea 0x4(%ecx),%eax
DB 131,236,8 ; sub $0x8,%esp
@@ -52448,7 +52422,7 @@ _sk_evenly_spaced_gradient_sse2 LABEL PROC
DB 86 ; push %esi
DB 131,236,60 ; sub $0x3c,%esp
DB 15,41,69,184 ; movaps %xmm0,-0x48(%ebp)
- DB 232,0,0,0,0 ; call 6574 <_sk_evenly_spaced_gradient_sse2+0x12>
+ DB 232,0,0,0,0 ; call 6563 <_sk_evenly_spaced_gradient_sse2+0x12>
DB 90 ; pop %edx
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 141,65,4 ; lea 0x4(%ecx),%eax
@@ -52459,12 +52433,12 @@ _sk_evenly_spaced_gradient_sse2 LABEL PROC
DB 78 ; dec %esi
DB 102,15,110,206 ; movd %esi,%xmm1
DB 102,15,112,201,0 ; pshufd $0x0,%xmm1,%xmm1
- DB 102,15,111,146,204,63,0,0 ; movdqa 0x3fcc(%edx),%xmm2
+ DB 102,15,111,146,237,63,0,0 ; movdqa 0x3fed(%edx),%xmm2
DB 102,15,219,209 ; pand %xmm1,%xmm2
- DB 102,15,235,146,220,63,0,0 ; por 0x3fdc(%edx),%xmm2
+ DB 102,15,235,146,253,63,0,0 ; por 0x3ffd(%edx),%xmm2
DB 102,15,114,209,16 ; psrld $0x10,%xmm1
- DB 102,15,235,138,236,63,0,0 ; por 0x3fec(%edx),%xmm1
- DB 15,88,138,252,63,0,0 ; addps 0x3ffc(%edx),%xmm1
+ DB 102,15,235,138,13,64,0,0 ; por 0x400d(%edx),%xmm1
+ DB 15,88,138,29,64,0,0 ; addps 0x401d(%edx),%xmm1
DB 15,88,202 ; addps %xmm2,%xmm1
DB 15,89,200 ; mulps %xmm0,%xmm1
DB 243,15,91,201 ; cvttps2dq %xmm1,%xmm1
@@ -52569,18 +52543,18 @@ _sk_gauss_a_to_rgba_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 672a <_sk_gauss_a_to_rgba_sse2+0xb>
+ DB 232,0,0,0,0 ; call 6719 <_sk_gauss_a_to_rgba_sse2+0xb>
DB 88 ; pop %eax
DB 139,77,12 ; mov 0xc(%ebp),%ecx
- DB 15,40,128,86,62,0,0 ; movaps 0x3e56(%eax),%xmm0
+ DB 15,40,128,119,62,0,0 ; movaps 0x3e77(%eax),%xmm0
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,128,102,62,0,0 ; addps 0x3e66(%eax),%xmm0
+ DB 15,88,128,135,62,0,0 ; addps 0x3e87(%eax),%xmm0
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,128,118,62,0,0 ; addps 0x3e76(%eax),%xmm0
+ DB 15,88,128,151,62,0,0 ; addps 0x3e97(%eax),%xmm0
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,128,134,62,0,0 ; addps 0x3e86(%eax),%xmm0
+ DB 15,88,128,167,62,0,0 ; addps 0x3ea7(%eax),%xmm0
DB 15,89,195 ; mulps %xmm3,%xmm0
- DB 15,88,128,150,62,0,0 ; addps 0x3e96(%eax),%xmm0
+ DB 15,88,128,183,62,0,0 ; addps 0x3eb7(%eax),%xmm0
DB 141,65,4 ; lea 0x4(%ecx),%eax
DB 131,236,8 ; sub $0x8,%esp
DB 15,40,200 ; movaps %xmm0,%xmm1
@@ -52601,7 +52575,7 @@ _sk_gradient_sse2 LABEL PROC
DB 87 ; push %edi
DB 86 ; push %esi
DB 131,236,60 ; sub $0x3c,%esp
- DB 232,0,0,0,0 ; call 6785 <_sk_gradient_sse2+0xe>
+ DB 232,0,0,0,0 ; call 6774 <_sk_gradient_sse2+0xe>
DB 95 ; pop %edi
DB 139,77,12 ; mov 0xc(%ebp),%ecx
DB 141,81,4 ; lea 0x4(%ecx),%edx
@@ -52610,12 +52584,12 @@ _sk_gradient_sse2 LABEL PROC
DB 139,17 ; mov (%ecx),%edx
DB 102,15,239,201 ; pxor %xmm1,%xmm1
DB 131,250,2 ; cmp $0x2,%edx
- DB 114,43 ; jb 67c7 <_sk_gradient_sse2+0x50>
+ DB 114,43 ; jb 67b6 <_sk_gradient_sse2+0x50>
DB 139,113,36 ; mov 0x24(%ecx),%esi
DB 74 ; dec %edx
DB 131,198,4 ; add $0x4,%esi
DB 102,15,239,201 ; pxor %xmm1,%xmm1
- DB 15,40,151,75,62,0,0 ; movaps 0x3e4b(%edi),%xmm2
+ DB 15,40,151,108,62,0,0 ; movaps 0x3e6c(%edi),%xmm2
DB 243,15,16,30 ; movss (%esi),%xmm3
DB 15,198,219,0 ; shufps $0x0,%xmm3,%xmm3
DB 15,194,216,2 ; cmpleps %xmm0,%xmm3
@@ -52623,7 +52597,7 @@ _sk_gradient_sse2 LABEL PROC
DB 102,15,254,203 ; paddd %xmm3,%xmm1
DB 131,198,4 ; add $0x4,%esi
DB 74 ; dec %edx
- DB 117,231 ; jne 67ae <_sk_gradient_sse2+0x37>
+ DB 117,231 ; jne 679d <_sk_gradient_sse2+0x37>
DB 102,15,126,202 ; movd %xmm1,%edx
DB 102,15,112,209,229 ; pshufd $0xe5,%xmm1,%xmm2
DB 102,15,126,214 ; movd %xmm2,%esi
@@ -52771,7 +52745,7 @@ _sk_xy_to_unit_angle_sse2 LABEL PROC
DB 15,40,218 ; movaps %xmm2,%xmm3
DB 15,40,209 ; movaps %xmm1,%xmm2
DB 15,40,200 ; movaps %xmm0,%xmm1
- DB 232,0,0,0,0 ; call 69c1 <_sk_xy_to_unit_angle_sse2+0x18>
+ DB 232,0,0,0,0 ; call 69b0 <_sk_xy_to_unit_angle_sse2+0x18>
DB 88 ; pop %eax
DB 15,87,237 ; xorps %xmm5,%xmm5
DB 15,92,233 ; subps %xmm1,%xmm5
@@ -52786,30 +52760,30 @@ _sk_xy_to_unit_angle_sse2 LABEL PROC
DB 15,94,247 ; divps %xmm7,%xmm6
DB 15,40,254 ; movaps %xmm6,%xmm7
DB 15,89,255 ; mulps %xmm7,%xmm7
- DB 15,40,128,31,60,0,0 ; movaps 0x3c1f(%eax),%xmm0
+ DB 15,40,128,64,60,0,0 ; movaps 0x3c40(%eax),%xmm0
DB 15,89,199 ; mulps %xmm7,%xmm0
- DB 15,88,128,47,60,0,0 ; addps 0x3c2f(%eax),%xmm0
+ DB 15,88,128,80,60,0,0 ; addps 0x3c50(%eax),%xmm0
DB 15,89,199 ; mulps %xmm7,%xmm0
- DB 15,88,128,63,60,0,0 ; addps 0x3c3f(%eax),%xmm0
+ DB 15,88,128,96,60,0,0 ; addps 0x3c60(%eax),%xmm0
DB 15,89,199 ; mulps %xmm7,%xmm0
- DB 15,88,128,79,60,0,0 ; addps 0x3c4f(%eax),%xmm0
+ DB 15,88,128,112,60,0,0 ; addps 0x3c70(%eax),%xmm0
DB 15,89,198 ; mulps %xmm6,%xmm0
DB 15,194,236,1 ; cmpltps %xmm4,%xmm5
- DB 15,40,176,95,60,0,0 ; movaps 0x3c5f(%eax),%xmm6
+ DB 15,40,176,128,60,0,0 ; movaps 0x3c80(%eax),%xmm6
DB 15,92,240 ; subps %xmm0,%xmm6
DB 15,84,245 ; andps %xmm5,%xmm6
DB 15,85,232 ; andnps %xmm0,%xmm5
DB 15,87,228 ; xorps %xmm4,%xmm4
DB 15,86,238 ; orps %xmm6,%xmm5
DB 15,194,204,1 ; cmpltps %xmm4,%xmm1
- DB 15,40,128,111,60,0,0 ; movaps 0x3c6f(%eax),%xmm0
+ DB 15,40,128,144,60,0,0 ; movaps 0x3c90(%eax),%xmm0
DB 15,92,197 ; subps %xmm5,%xmm0
DB 15,84,193 ; andps %xmm1,%xmm0
DB 15,85,205 ; andnps %xmm5,%xmm1
DB 15,86,200 ; orps %xmm0,%xmm1
DB 15,40,194 ; movaps %xmm2,%xmm0
DB 15,194,196,1 ; cmpltps %xmm4,%xmm0
- DB 15,40,168,127,60,0,0 ; movaps 0x3c7f(%eax),%xmm5
+ DB 15,40,168,160,60,0,0 ; movaps 0x3ca0(%eax),%xmm5
DB 15,92,233 ; subps %xmm1,%xmm5
DB 15,84,232 ; andps %xmm0,%xmm5
DB 15,85,193 ; andnps %xmm1,%xmm0
@@ -52866,15 +52840,15 @@ _sk_xy_to_2pt_conical_quadratic_max_sse2 LABEL PROC
DB 15,40,241 ; movaps %xmm1,%xmm6
DB 15,89,246 ; mulps %xmm6,%xmm6
DB 15,88,240 ; addps %xmm0,%xmm6
- DB 232,0,0,0,0 ; call 6ade <_sk_xy_to_2pt_conical_quadratic_max_sse2+0x31>
+ DB 232,0,0,0,0 ; call 6acd <_sk_xy_to_2pt_conical_quadratic_max_sse2+0x31>
DB 90 ; pop %edx
DB 243,15,89,237 ; mulss %xmm5,%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
DB 15,92,245 ; subps %xmm5,%xmm6
DB 243,15,16,65,32 ; movss 0x20(%ecx),%xmm0
DB 15,198,192,0 ; shufps $0x0,%xmm0,%xmm0
- DB 15,89,162,114,59,0,0 ; mulps 0x3b72(%edx),%xmm4
- DB 15,89,130,130,59,0,0 ; mulps 0x3b82(%edx),%xmm0
+ DB 15,89,162,147,59,0,0 ; mulps 0x3b93(%edx),%xmm4
+ DB 15,89,130,163,59,0,0 ; mulps 0x3ba3(%edx),%xmm0
DB 15,89,198 ; mulps %xmm6,%xmm0
DB 15,40,236 ; movaps %xmm4,%xmm5
DB 15,89,237 ; mulps %xmm5,%xmm5
@@ -52882,11 +52856,11 @@ _sk_xy_to_2pt_conical_quadratic_max_sse2 LABEL PROC
DB 15,81,237 ; sqrtps %xmm5,%xmm5
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,92,196 ; subps %xmm4,%xmm0
- DB 15,87,162,146,59,0,0 ; xorps 0x3b92(%edx),%xmm4
+ DB 15,87,162,179,59,0,0 ; xorps 0x3bb3(%edx),%xmm4
DB 15,92,229 ; subps %xmm5,%xmm4
DB 243,15,16,105,36 ; movss 0x24(%ecx),%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
- DB 15,89,170,162,59,0,0 ; mulps 0x3ba2(%edx),%xmm5
+ DB 15,89,170,195,59,0,0 ; mulps 0x3bc3(%edx),%xmm5
DB 15,89,197 ; mulps %xmm5,%xmm0
DB 15,89,229 ; mulps %xmm5,%xmm4
DB 15,95,196 ; maxps %xmm4,%xmm0
@@ -52915,15 +52889,15 @@ _sk_xy_to_2pt_conical_quadratic_min_sse2 LABEL PROC
DB 15,40,241 ; movaps %xmm1,%xmm6
DB 15,89,246 ; mulps %xmm6,%xmm6
DB 15,88,240 ; addps %xmm0,%xmm6
- DB 232,0,0,0,0 ; call 6b7c <_sk_xy_to_2pt_conical_quadratic_min_sse2+0x31>
+ DB 232,0,0,0,0 ; call 6b6b <_sk_xy_to_2pt_conical_quadratic_min_sse2+0x31>
DB 90 ; pop %edx
DB 243,15,89,237 ; mulss %xmm5,%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
DB 15,92,245 ; subps %xmm5,%xmm6
DB 243,15,16,65,32 ; movss 0x20(%ecx),%xmm0
DB 15,198,192,0 ; shufps $0x0,%xmm0,%xmm0
- DB 15,89,162,20,59,0,0 ; mulps 0x3b14(%edx),%xmm4
- DB 15,89,130,36,59,0,0 ; mulps 0x3b24(%edx),%xmm0
+ DB 15,89,162,53,59,0,0 ; mulps 0x3b35(%edx),%xmm4
+ DB 15,89,130,69,59,0,0 ; mulps 0x3b45(%edx),%xmm0
DB 15,89,198 ; mulps %xmm6,%xmm0
DB 15,40,236 ; movaps %xmm4,%xmm5
DB 15,89,237 ; mulps %xmm5,%xmm5
@@ -52931,11 +52905,11 @@ _sk_xy_to_2pt_conical_quadratic_min_sse2 LABEL PROC
DB 15,81,237 ; sqrtps %xmm5,%xmm5
DB 15,40,197 ; movaps %xmm5,%xmm0
DB 15,92,196 ; subps %xmm4,%xmm0
- DB 15,87,162,52,59,0,0 ; xorps 0x3b34(%edx),%xmm4
+ DB 15,87,162,85,59,0,0 ; xorps 0x3b55(%edx),%xmm4
DB 15,92,229 ; subps %xmm5,%xmm4
DB 243,15,16,105,36 ; movss 0x24(%ecx),%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
- DB 15,89,170,68,59,0,0 ; mulps 0x3b44(%edx),%xmm5
+ DB 15,89,170,101,59,0,0 ; mulps 0x3b65(%edx),%xmm5
DB 15,89,197 ; mulps %xmm5,%xmm0
DB 15,89,229 ; mulps %xmm5,%xmm4
DB 15,93,196 ; minps %xmm4,%xmm0
@@ -52953,7 +52927,7 @@ _sk_xy_to_2pt_conical_linear_sse2 LABEL PROC
DB 85 ; push %ebp
DB 137,229 ; mov %esp,%ebp
DB 131,236,8 ; sub $0x8,%esp
- DB 232,0,0,0,0 ; call 6bf4 <_sk_xy_to_2pt_conical_linear_sse2+0xb>
+ DB 232,0,0,0,0 ; call 6be3 <_sk_xy_to_2pt_conical_linear_sse2+0xb>
DB 89 ; pop %ecx
DB 139,69,12 ; mov 0xc(%ebp),%eax
DB 139,16 ; mov (%eax),%edx
@@ -52962,7 +52936,7 @@ _sk_xy_to_2pt_conical_linear_sse2 LABEL PROC
DB 243,15,89,236 ; mulss %xmm4,%xmm5
DB 15,198,237,0 ; shufps $0x0,%xmm5,%xmm5
DB 15,88,232 ; addps %xmm0,%xmm5
- DB 15,89,169,220,58,0,0 ; mulps 0x3adc(%ecx),%xmm5
+ DB 15,89,169,253,58,0,0 ; mulps 0x3afd(%ecx),%xmm5
DB 15,89,192 ; mulps %xmm0,%xmm0
DB 15,40,241 ; movaps %xmm1,%xmm6
DB 15,89,246 ; mulps %xmm6,%xmm6
@@ -52970,7 +52944,7 @@ _sk_xy_to_2pt_conical_linear_sse2 LABEL PROC
DB 243,15,89,228 ; mulss %xmm4,%xmm4
DB 15,198,228,0 ; shufps $0x0,%xmm4,%xmm4
DB 15,92,196 ; subps %xmm4,%xmm0
- DB 15,87,129,236,58,0,0 ; xorps 0x3aec(%ecx),%xmm0
+ DB 15,87,129,13,59,0,0 ; xorps 0x3b0d(%ecx),%xmm0
DB 15,94,197 ; divps %xmm5,%xmm0
DB 141,72,8 ; lea 0x8(%eax),%ecx
DB 131,236,8 ; sub $0x8,%esp
@@ -53038,16 +53012,16 @@ _sk_save_xy_sse2 LABEL PROC
DB 131,236,24 ; sub $0x18,%esp
DB 15,41,93,232 ; movaps %xmm3,-0x18(%ebp)
DB 15,40,218 ; movaps %xmm2,%xmm3
- DB 232,0,0,0,0 ; call 6cd1 <_sk_save_xy_sse2+0x12>
+ DB 232,0,0,0,0 ; call 6cc0 <_sk_save_xy_sse2+0x12>
DB 88 ; pop %eax
- DB 15,40,160,31,58,0,0 ; movaps 0x3a1f(%eax),%xmm4
+ DB 15,40,160,64,58,0,0 ; movaps 0x3a40(%eax),%xmm4
DB 15,40,232 ; movaps %xmm0,%xmm5
DB 15,88,236 ; addps %xmm4,%xmm5
DB 243,15,91,245 ; cvttps2dq %xmm5,%xmm6
DB 15,91,246 ; cvtdq2ps %xmm6,%xmm6
DB 15,40,253 ; movaps %xmm5,%xmm7
DB 15,194,254,1 ; cmpltps %xmm6,%xmm7
- DB 15,40,144,47,58,0,0 ; movaps 0x3a2f(%eax),%xmm2
+ DB 15,40,144,80,58,0,0 ; movaps 0x3a50(%eax),%xmm2
DB 15,84,250 ; andps %xmm2,%xmm7
DB 15,92,247 ; subps %xmm7,%xmm6
DB 15,92,238 ; subps %xmm6,%xmm5
@@ -53118,15 +53092,15 @@ _sk_bilinear_nx_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 6db3 <_sk_bilinear_nx_sse2+0xa>
+ DB 232,0,0,0,0 ; call 6da2 <_sk_bilinear_nx_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
DB 15,16,6 ; movups (%esi),%xmm0
DB 15,16,102,64 ; movups 0x40(%esi),%xmm4
- DB 15,88,128,93,57,0,0 ; addps 0x395d(%eax),%xmm0
- DB 15,40,168,109,57,0,0 ; movaps 0x396d(%eax),%xmm5
+ DB 15,88,128,126,57,0,0 ; addps 0x397e(%eax),%xmm0
+ DB 15,40,168,142,57,0,0 ; movaps 0x398e(%eax),%xmm5
DB 15,92,236 ; subps %xmm4,%xmm5
DB 15,17,174,128,0,0,0 ; movups %xmm5,0x80(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
@@ -53145,14 +53119,14 @@ _sk_bilinear_px_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 6df6 <_sk_bilinear_px_sse2+0xa>
+ DB 232,0,0,0,0 ; call 6de5 <_sk_bilinear_px_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
DB 15,16,6 ; movups (%esi),%xmm0
DB 15,16,102,64 ; movups 0x40(%esi),%xmm4
- DB 15,88,128,58,57,0,0 ; addps 0x393a(%eax),%xmm0
+ DB 15,88,128,91,57,0,0 ; addps 0x395b(%eax),%xmm0
DB 15,17,166,128,0,0,0 ; movups %xmm4,0x80(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
DB 131,236,8 ; sub $0x8,%esp
@@ -53170,15 +53144,15 @@ _sk_bilinear_ny_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 6e2f <_sk_bilinear_ny_sse2+0xa>
+ DB 232,0,0,0,0 ; call 6e1e <_sk_bilinear_ny_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
DB 15,16,78,32 ; movups 0x20(%esi),%xmm1
DB 15,16,102,96 ; movups 0x60(%esi),%xmm4
- DB 15,88,136,17,57,0,0 ; addps 0x3911(%eax),%xmm1
- DB 15,40,168,33,57,0,0 ; movaps 0x3921(%eax),%xmm5
+ DB 15,88,136,50,57,0,0 ; addps 0x3932(%eax),%xmm1
+ DB 15,40,168,66,57,0,0 ; movaps 0x3942(%eax),%xmm5
DB 15,92,236 ; subps %xmm4,%xmm5
DB 15,17,174,160,0,0,0 ; movups %xmm5,0xa0(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
@@ -53197,14 +53171,14 @@ _sk_bilinear_py_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 6e73 <_sk_bilinear_py_sse2+0xa>
+ DB 232,0,0,0,0 ; call 6e62 <_sk_bilinear_py_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
DB 15,16,78,32 ; movups 0x20(%esi),%xmm1
DB 15,16,102,96 ; movups 0x60(%esi),%xmm4
- DB 15,88,136,237,56,0,0 ; addps 0x38ed(%eax),%xmm1
+ DB 15,88,136,14,57,0,0 ; addps 0x390e(%eax),%xmm1
DB 15,17,166,160,0,0,0 ; movups %xmm4,0xa0(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
DB 131,236,8 ; sub $0x8,%esp
@@ -53222,20 +53196,20 @@ _sk_bicubic_n3x_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 6ead <_sk_bicubic_n3x_sse2+0xa>
+ DB 232,0,0,0,0 ; call 6e9c <_sk_bicubic_n3x_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
DB 15,16,6 ; movups (%esi),%xmm0
DB 15,16,102,64 ; movups 0x40(%esi),%xmm4
- DB 15,88,128,195,56,0,0 ; addps 0x38c3(%eax),%xmm0
- DB 15,40,168,211,56,0,0 ; movaps 0x38d3(%eax),%xmm5
+ DB 15,88,128,228,56,0,0 ; addps 0x38e4(%eax),%xmm0
+ DB 15,40,168,244,56,0,0 ; movaps 0x38f4(%eax),%xmm5
DB 15,92,236 ; subps %xmm4,%xmm5
DB 15,40,229 ; movaps %xmm5,%xmm4
DB 15,89,228 ; mulps %xmm4,%xmm4
- DB 15,89,168,227,56,0,0 ; mulps 0x38e3(%eax),%xmm5
- DB 15,88,168,243,56,0,0 ; addps 0x38f3(%eax),%xmm5
+ DB 15,89,168,4,57,0,0 ; mulps 0x3904(%eax),%xmm5
+ DB 15,88,168,20,57,0,0 ; addps 0x3914(%eax),%xmm5
DB 15,89,236 ; mulps %xmm4,%xmm5
DB 15,17,174,128,0,0,0 ; movups %xmm5,0x80(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
@@ -53254,23 +53228,23 @@ _sk_bicubic_n1x_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 6f07 <_sk_bicubic_n1x_sse2+0xa>
+ DB 232,0,0,0,0 ; call 6ef6 <_sk_bicubic_n1x_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
DB 15,16,6 ; movups (%esi),%xmm0
DB 15,16,102,64 ; movups 0x40(%esi),%xmm4
- DB 15,88,128,169,56,0,0 ; addps 0x38a9(%eax),%xmm0
- DB 15,40,168,185,56,0,0 ; movaps 0x38b9(%eax),%xmm5
+ DB 15,88,128,202,56,0,0 ; addps 0x38ca(%eax),%xmm0
+ DB 15,40,168,218,56,0,0 ; movaps 0x38da(%eax),%xmm5
DB 15,92,236 ; subps %xmm4,%xmm5
- DB 15,40,160,201,56,0,0 ; movaps 0x38c9(%eax),%xmm4
+ DB 15,40,160,234,56,0,0 ; movaps 0x38ea(%eax),%xmm4
DB 15,89,229 ; mulps %xmm5,%xmm4
- DB 15,88,160,217,56,0,0 ; addps 0x38d9(%eax),%xmm4
+ DB 15,88,160,250,56,0,0 ; addps 0x38fa(%eax),%xmm4
DB 15,89,229 ; mulps %xmm5,%xmm4
- DB 15,88,160,233,56,0,0 ; addps 0x38e9(%eax),%xmm4
+ DB 15,88,160,10,57,0,0 ; addps 0x390a(%eax),%xmm4
DB 15,89,229 ; mulps %xmm5,%xmm4
- DB 15,88,160,249,56,0,0 ; addps 0x38f9(%eax),%xmm4
+ DB 15,88,160,26,57,0,0 ; addps 0x391a(%eax),%xmm4
DB 15,17,166,128,0,0,0 ; movups %xmm4,0x80(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
DB 131,236,8 ; sub $0x8,%esp
@@ -53288,22 +53262,22 @@ _sk_bicubic_p1x_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 6f6f <_sk_bicubic_p1x_sse2+0xa>
+ DB 232,0,0,0,0 ; call 6f5e <_sk_bicubic_p1x_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
- DB 15,40,160,161,56,0,0 ; movaps 0x38a1(%eax),%xmm4
+ DB 15,40,160,194,56,0,0 ; movaps 0x38c2(%eax),%xmm4
DB 15,16,6 ; movups (%esi),%xmm0
DB 15,16,110,64 ; movups 0x40(%esi),%xmm5
DB 15,88,196 ; addps %xmm4,%xmm0
- DB 15,40,176,177,56,0,0 ; movaps 0x38b1(%eax),%xmm6
+ DB 15,40,176,210,56,0,0 ; movaps 0x38d2(%eax),%xmm6
DB 15,89,245 ; mulps %xmm5,%xmm6
- DB 15,88,176,193,56,0,0 ; addps 0x38c1(%eax),%xmm6
+ DB 15,88,176,226,56,0,0 ; addps 0x38e2(%eax),%xmm6
DB 15,89,245 ; mulps %xmm5,%xmm6
DB 15,88,244 ; addps %xmm4,%xmm6
DB 15,89,245 ; mulps %xmm5,%xmm6
- DB 15,88,176,209,56,0,0 ; addps 0x38d1(%eax),%xmm6
+ DB 15,88,176,242,56,0,0 ; addps 0x38f2(%eax),%xmm6
DB 15,17,182,128,0,0,0 ; movups %xmm6,0x80(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
DB 131,236,8 ; sub $0x8,%esp
@@ -53321,18 +53295,18 @@ _sk_bicubic_p3x_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 6fcc <_sk_bicubic_p3x_sse2+0xa>
+ DB 232,0,0,0,0 ; call 6fbb <_sk_bicubic_p3x_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
DB 15,16,6 ; movups (%esi),%xmm0
DB 15,16,102,64 ; movups 0x40(%esi),%xmm4
- DB 15,88,128,132,56,0,0 ; addps 0x3884(%eax),%xmm0
+ DB 15,88,128,165,56,0,0 ; addps 0x38a5(%eax),%xmm0
DB 15,40,236 ; movaps %xmm4,%xmm5
DB 15,89,237 ; mulps %xmm5,%xmm5
- DB 15,89,160,148,56,0,0 ; mulps 0x3894(%eax),%xmm4
- DB 15,88,160,164,56,0,0 ; addps 0x38a4(%eax),%xmm4
+ DB 15,89,160,181,56,0,0 ; mulps 0x38b5(%eax),%xmm4
+ DB 15,88,160,197,56,0,0 ; addps 0x38c5(%eax),%xmm4
DB 15,89,229 ; mulps %xmm5,%xmm4
DB 15,17,166,128,0,0,0 ; movups %xmm4,0x80(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
@@ -53351,20 +53325,20 @@ _sk_bicubic_n3y_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 701c <_sk_bicubic_n3y_sse2+0xa>
+ DB 232,0,0,0,0 ; call 700b <_sk_bicubic_n3y_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
DB 15,16,78,32 ; movups 0x20(%esi),%xmm1
DB 15,16,102,96 ; movups 0x60(%esi),%xmm4
- DB 15,88,136,100,56,0,0 ; addps 0x3864(%eax),%xmm1
- DB 15,40,168,116,56,0,0 ; movaps 0x3874(%eax),%xmm5
+ DB 15,88,136,133,56,0,0 ; addps 0x3885(%eax),%xmm1
+ DB 15,40,168,149,56,0,0 ; movaps 0x3895(%eax),%xmm5
DB 15,92,236 ; subps %xmm4,%xmm5
DB 15,40,229 ; movaps %xmm5,%xmm4
DB 15,89,228 ; mulps %xmm4,%xmm4
- DB 15,89,168,132,56,0,0 ; mulps 0x3884(%eax),%xmm5
- DB 15,88,168,148,56,0,0 ; addps 0x3894(%eax),%xmm5
+ DB 15,89,168,165,56,0,0 ; mulps 0x38a5(%eax),%xmm5
+ DB 15,88,168,181,56,0,0 ; addps 0x38b5(%eax),%xmm5
DB 15,89,236 ; mulps %xmm4,%xmm5
DB 15,17,174,160,0,0,0 ; movups %xmm5,0xa0(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
@@ -53383,23 +53357,23 @@ _sk_bicubic_n1y_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 7077 <_sk_bicubic_n1y_sse2+0xa>
+ DB 232,0,0,0,0 ; call 7066 <_sk_bicubic_n1y_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
DB 15,16,78,32 ; movups 0x20(%esi),%xmm1
DB 15,16,102,96 ; movups 0x60(%esi),%xmm4
- DB 15,88,136,73,56,0,0 ; addps 0x3849(%eax),%xmm1
- DB 15,40,168,89,56,0,0 ; movaps 0x3859(%eax),%xmm5
+ DB 15,88,136,106,56,0,0 ; addps 0x386a(%eax),%xmm1
+ DB 15,40,168,122,56,0,0 ; movaps 0x387a(%eax),%xmm5
DB 15,92,236 ; subps %xmm4,%xmm5
- DB 15,40,160,105,56,0,0 ; movaps 0x3869(%eax),%xmm4
+ DB 15,40,160,138,56,0,0 ; movaps 0x388a(%eax),%xmm4
DB 15,89,229 ; mulps %xmm5,%xmm4
- DB 15,88,160,121,56,0,0 ; addps 0x3879(%eax),%xmm4
+ DB 15,88,160,154,56,0,0 ; addps 0x389a(%eax),%xmm4
DB 15,89,229 ; mulps %xmm5,%xmm4
- DB 15,88,160,137,56,0,0 ; addps 0x3889(%eax),%xmm4
+ DB 15,88,160,170,56,0,0 ; addps 0x38aa(%eax),%xmm4
DB 15,89,229 ; mulps %xmm5,%xmm4
- DB 15,88,160,153,56,0,0 ; addps 0x3899(%eax),%xmm4
+ DB 15,88,160,186,56,0,0 ; addps 0x38ba(%eax),%xmm4
DB 15,17,166,160,0,0,0 ; movups %xmm4,0xa0(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
DB 131,236,8 ; sub $0x8,%esp
@@ -53417,22 +53391,22 @@ _sk_bicubic_p1y_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 70e0 <_sk_bicubic_p1y_sse2+0xa>
+ DB 232,0,0,0,0 ; call 70cf <_sk_bicubic_p1y_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
- DB 15,40,160,64,56,0,0 ; movaps 0x3840(%eax),%xmm4
+ DB 15,40,160,97,56,0,0 ; movaps 0x3861(%eax),%xmm4
DB 15,16,78,32 ; movups 0x20(%esi),%xmm1
DB 15,16,110,96 ; movups 0x60(%esi),%xmm5
DB 15,88,204 ; addps %xmm4,%xmm1
- DB 15,40,176,80,56,0,0 ; movaps 0x3850(%eax),%xmm6
+ DB 15,40,176,113,56,0,0 ; movaps 0x3871(%eax),%xmm6
DB 15,89,245 ; mulps %xmm5,%xmm6
- DB 15,88,176,96,56,0,0 ; addps 0x3860(%eax),%xmm6
+ DB 15,88,176,129,56,0,0 ; addps 0x3881(%eax),%xmm6
DB 15,89,245 ; mulps %xmm5,%xmm6
DB 15,88,244 ; addps %xmm4,%xmm6
DB 15,89,245 ; mulps %xmm5,%xmm6
- DB 15,88,176,112,56,0,0 ; addps 0x3870(%eax),%xmm6
+ DB 15,88,176,145,56,0,0 ; addps 0x3891(%eax),%xmm6
DB 15,17,182,160,0,0,0 ; movups %xmm6,0xa0(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
DB 131,236,8 ; sub $0x8,%esp
@@ -53450,18 +53424,18 @@ _sk_bicubic_p3y_sse2 LABEL PROC
DB 137,229 ; mov %esp,%ebp
DB 86 ; push %esi
DB 80 ; push %eax
- DB 232,0,0,0,0 ; call 713e <_sk_bicubic_p3y_sse2+0xa>
+ DB 232,0,0,0,0 ; call 712d <_sk_bicubic_p3y_sse2+0xa>
DB 88 ; pop %eax
DB 139,77,8 ; mov 0x8(%ebp),%ecx
DB 139,85,12 ; mov 0xc(%ebp),%edx
DB 139,50 ; mov (%edx),%esi
DB 15,16,78,32 ; movups 0x20(%esi),%xmm1
DB 15,16,102,96 ; movups 0x60(%esi),%xmm4
- DB 15,88,136,34,56,0,0 ; addps 0x3822(%eax),%xmm1
+ DB 15,88,136,67,56,0,0 ; addps 0x3843(%eax),%xmm1
DB 15,40,236 ; movaps %xmm4,%xmm5
DB 15,89,237 ; mulps %xmm5,%xmm5
- DB 15,89,160,50,56,0,0 ; mulps 0x3832(%eax),%xmm4
- DB 15,88,160,66,56,0,0 ; addps 0x3842(%eax),%xmm4
+ DB 15,89,160,83,56,0,0 ; mulps 0x3853(%eax),%xmm4
+ DB 15,88,160,99,56,0,0 ; addps 0x3863(%eax),%xmm4
DB 15,89,229 ; mulps %xmm5,%xmm4
DB 15,17,166,160,0,0,0 ; movups %xmm4,0xa0(%esi)
DB 141,66,8 ; lea 0x8(%edx),%eax
@@ -53602,7 +53576,7 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,98,233 ; punpckldq %xmm1,%xmm5
DB 102,15,127,173,104,255,255,255 ; movdqa %xmm5,-0x98(%ebp)
- DB 232,0,0,0,0 ; call 7332 <_sk_clut_3D_sse2+0xff>
+ DB 232,0,0,0,0 ; call 7321 <_sk_clut_3D_sse2+0xff>
DB 90 ; pop %edx
DB 243,15,91,196 ; cvttps2dq %xmm4,%xmm0
DB 102,15,127,133,232,254,255,255 ; movdqa %xmm0,-0x118(%ebp)
@@ -53611,7 +53585,7 @@ _sk_clut_3D_sse2 LABEL PROC
DB 102,15,254,208 ; paddd %xmm0,%xmm2
DB 102,15,111,205 ; movdqa %xmm5,%xmm1
DB 102,15,254,202 ; paddd %xmm2,%xmm1
- DB 102,15,111,130,110,54,0,0 ; movdqa 0x366e(%edx),%xmm0
+ DB 102,15,111,130,143,54,0,0 ; movdqa 0x368f(%edx),%xmm0
DB 102,15,127,133,88,255,255,255 ; movdqa %xmm0,-0xa8(%ebp)
DB 102,15,112,225,245 ; pshufd $0xf5,%xmm1,%xmm4
DB 102,15,244,200 ; pmuludq %xmm0,%xmm1
@@ -53635,7 +53609,7 @@ _sk_clut_3D_sse2 LABEL PROC
DB 15,20,196 ; unpcklps %xmm4,%xmm0
DB 15,20,199 ; unpcklps %xmm7,%xmm0
DB 15,41,69,168 ; movaps %xmm0,-0x58(%ebp)
- DB 102,15,111,130,126,54,0,0 ; movdqa 0x367e(%edx),%xmm0
+ DB 102,15,111,130,159,54,0,0 ; movdqa 0x369f(%edx),%xmm0
DB 102,15,127,133,72,255,255,255 ; movdqa %xmm0,-0xb8(%ebp)
DB 102,15,111,225 ; movdqa %xmm1,%xmm4
DB 102,15,254,224 ; paddd %xmm0,%xmm4
@@ -53653,7 +53627,7 @@ _sk_clut_3D_sse2 LABEL PROC
DB 243,15,16,36,185 ; movss (%ecx,%edi,4),%xmm4
DB 15,20,252 ; unpcklps %xmm4,%xmm7
DB 15,20,248 ; unpcklps %xmm0,%xmm7
- DB 102,15,111,130,142,54,0,0 ; movdqa 0x368e(%edx),%xmm0
+ DB 102,15,111,130,175,54,0,0 ; movdqa 0x36af(%edx),%xmm0
DB 102,15,127,69,216 ; movdqa %xmm0,-0x28(%ebp)
DB 102,15,254,200 ; paddd %xmm0,%xmm1
DB 102,15,112,193,229 ; pshufd $0xe5,%xmm1,%xmm0
@@ -53670,7 +53644,7 @@ _sk_clut_3D_sse2 LABEL PROC
DB 243,15,16,4,177 ; movss (%ecx,%esi,4),%xmm0
DB 15,20,232 ; unpcklps %xmm0,%xmm5
DB 15,20,236 ; unpcklps %xmm4,%xmm5
- DB 15,40,130,94,54,0,0 ; movaps 0x365e(%edx),%xmm0
+ DB 15,40,130,127,54,0,0 ; movaps 0x367f(%edx),%xmm0
DB 15,88,240 ; addps %xmm0,%xmm6
DB 15,41,117,184 ; movaps %xmm6,-0x48(%ebp)
DB 15,40,141,56,255,255,255 ; movaps -0xc8(%ebp),%xmm1
@@ -54281,7 +54255,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,98,209 ; punpckldq %xmm1,%xmm2
DB 102,15,127,85,168 ; movdqa %xmm2,-0x58(%ebp)
- DB 232,0,0,0,0 ; call 7ea8 <_sk_clut_4D_sse2+0x179>
+ DB 232,0,0,0,0 ; call 7e97 <_sk_clut_4D_sse2+0x179>
DB 89 ; pop %ecx
DB 15,40,229 ; movaps %xmm5,%xmm4
DB 15,41,165,120,254,255,255 ; movaps %xmm4,-0x188(%ebp)
@@ -54294,7 +54268,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,254,245 ; paddd %xmm5,%xmm6
DB 102,15,111,202 ; movdqa %xmm2,%xmm1
DB 102,15,254,206 ; paddd %xmm6,%xmm1
- DB 102,15,111,153,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm3
+ DB 102,15,111,153,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm3
DB 102,15,112,209,245 ; pshufd $0xf5,%xmm1,%xmm2
DB 102,15,244,203 ; pmuludq %xmm3,%xmm1
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
@@ -54317,7 +54291,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,218 ; unpcklps %xmm2,%xmm3
DB 15,20,221 ; unpcklps %xmm5,%xmm3
DB 15,41,93,216 ; movaps %xmm3,-0x28(%ebp)
- DB 102,15,111,153,72,43,0,0 ; movdqa 0x2b48(%ecx),%xmm3
+ DB 102,15,111,153,105,43,0,0 ; movdqa 0x2b69(%ecx),%xmm3
DB 102,15,111,209 ; movdqa %xmm1,%xmm2
DB 102,15,254,211 ; paddd %xmm3,%xmm2
DB 102,15,112,234,229 ; pshufd $0xe5,%xmm2,%xmm5
@@ -54335,7 +54309,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,215 ; unpcklps %xmm7,%xmm2
DB 15,20,213 ; unpcklps %xmm5,%xmm2
DB 15,41,149,136,254,255,255 ; movaps %xmm2,-0x178(%ebp)
- DB 102,15,254,137,88,43,0,0 ; paddd 0x2b58(%ecx),%xmm1
+ DB 102,15,254,137,121,43,0,0 ; paddd 0x2b79(%ecx),%xmm1
DB 102,15,112,233,229 ; pshufd $0xe5,%xmm1,%xmm5
DB 102,15,126,232 ; movd %xmm5,%eax
DB 102,15,112,233,78 ; pshufd $0x4e,%xmm1,%xmm5
@@ -54351,7 +54325,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,207 ; unpcklps %xmm7,%xmm1
DB 15,20,205 ; unpcklps %xmm5,%xmm1
DB 15,41,141,152,254,255,255 ; movaps %xmm1,-0x168(%ebp)
- DB 15,40,185,40,43,0,0 ; movaps 0x2b28(%ecx),%xmm7
+ DB 15,40,185,73,43,0,0 ; movaps 0x2b49(%ecx),%xmm7
DB 15,88,231 ; addps %xmm7,%xmm4
DB 15,41,165,120,255,255,255 ; movaps %xmm4,-0x88(%ebp)
DB 15,40,141,232,254,255,255 ; movaps -0x118(%ebp),%xmm1
@@ -54372,7 +54346,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,127,77,184 ; movdqa %xmm1,-0x48(%ebp)
DB 102,15,254,241 ; paddd %xmm1,%xmm6
DB 102,15,112,254,245 ; pshufd $0xf5,%xmm6,%xmm7
- DB 102,15,111,137,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm1
+ DB 102,15,111,137,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm1
DB 102,15,244,241 ; pmuludq %xmm1,%xmm6
DB 102,15,112,198,232 ; pshufd $0xe8,%xmm6,%xmm0
DB 102,15,244,249 ; pmuludq %xmm1,%xmm7
@@ -54409,7 +54383,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,44,178 ; movss (%edx,%esi,4),%xmm5
DB 15,20,221 ; unpcklps %xmm5,%xmm3
DB 15,20,217 ; unpcklps %xmm1,%xmm3
- DB 102,15,111,177,88,43,0,0 ; movdqa 0x2b58(%ecx),%xmm6
+ DB 102,15,111,177,121,43,0,0 ; movdqa 0x2b79(%ecx),%xmm6
DB 102,15,254,198 ; paddd %xmm6,%xmm0
DB 102,15,112,200,229 ; pshufd $0xe5,%xmm0,%xmm1
DB 102,15,126,200 ; movd %xmm1,%eax
@@ -54457,7 +54431,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,111,234 ; movdqa %xmm2,%xmm5
DB 102,15,254,77,168 ; paddd -0x58(%ebp),%xmm1
DB 102,15,112,209,245 ; pshufd $0xf5,%xmm1,%xmm2
- DB 102,15,111,129,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm0
+ DB 102,15,111,129,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm0
DB 102,15,244,200 ; pmuludq %xmm0,%xmm1
DB 102,15,112,201,232 ; pshufd $0xe8,%xmm1,%xmm1
DB 102,15,244,208 ; pmuludq %xmm0,%xmm2
@@ -54479,7 +54453,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,195 ; unpcklps %xmm3,%xmm0
DB 15,41,133,104,255,255,255 ; movaps %xmm0,-0x98(%ebp)
DB 102,15,111,209 ; movdqa %xmm1,%xmm2
- DB 102,15,111,129,72,43,0,0 ; movdqa 0x2b48(%ecx),%xmm0
+ DB 102,15,111,129,105,43,0,0 ; movdqa 0x2b69(%ecx),%xmm0
DB 102,15,254,208 ; paddd %xmm0,%xmm2
DB 102,15,111,224 ; movdqa %xmm0,%xmm4
DB 102,15,112,218,229 ; pshufd $0xe5,%xmm2,%xmm3
@@ -54515,7 +54489,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,111,197 ; movdqa %xmm5,%xmm0
DB 102,15,254,69,184 ; paddd -0x48(%ebp),%xmm0
DB 102,15,112,216,245 ; pshufd $0xf5,%xmm0,%xmm3
- DB 102,15,111,137,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm1
+ DB 102,15,111,137,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm1
DB 102,15,244,193 ; pmuludq %xmm1,%xmm0
DB 102,15,112,208,232 ; pshufd $0xe8,%xmm0,%xmm2
DB 102,15,244,217 ; pmuludq %xmm1,%xmm3
@@ -54551,7 +54525,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,4,178 ; movss (%edx,%esi,4),%xmm0
DB 15,20,224 ; unpcklps %xmm0,%xmm4
DB 15,20,227 ; unpcklps %xmm3,%xmm4
- DB 102,15,111,153,88,43,0,0 ; movdqa 0x2b58(%ecx),%xmm3
+ DB 102,15,111,153,121,43,0,0 ; movdqa 0x2b79(%ecx),%xmm3
DB 102,15,254,211 ; paddd %xmm3,%xmm2
DB 102,15,112,194,229 ; pshufd $0xe5,%xmm2,%xmm0
DB 102,15,126,192 ; movd %xmm0,%eax
@@ -54615,7 +54589,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,111,197 ; movdqa %xmm5,%xmm0
DB 102,15,254,69,168 ; paddd -0x58(%ebp),%xmm0
DB 102,15,112,200,245 ; pshufd $0xf5,%xmm0,%xmm1
- DB 102,15,111,145,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm2
+ DB 102,15,111,145,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm2
DB 102,15,244,194 ; pmuludq %xmm2,%xmm0
DB 102,15,112,192,232 ; pshufd $0xe8,%xmm0,%xmm0
DB 102,15,244,202 ; pmuludq %xmm2,%xmm1
@@ -54637,7 +54611,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,214 ; unpcklps %xmm6,%xmm2
DB 15,41,85,136 ; movaps %xmm2,-0x78(%ebp)
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
- DB 102,15,111,145,72,43,0,0 ; movdqa 0x2b48(%ecx),%xmm2
+ DB 102,15,111,145,105,43,0,0 ; movdqa 0x2b69(%ecx),%xmm2
DB 102,15,254,202 ; paddd %xmm2,%xmm1
DB 102,15,112,241,229 ; pshufd $0xe5,%xmm1,%xmm6
DB 102,15,126,240 ; movd %xmm6,%eax
@@ -54670,7 +54644,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,206 ; unpcklps %xmm6,%xmm1
DB 102,15,254,109,184 ; paddd -0x48(%ebp),%xmm5
DB 102,15,112,245,245 ; pshufd $0xf5,%xmm5,%xmm6
- DB 102,15,111,129,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm0
+ DB 102,15,111,129,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm0
DB 102,15,244,232 ; pmuludq %xmm0,%xmm5
DB 102,15,112,253,232 ; pshufd $0xe8,%xmm5,%xmm7
DB 102,15,244,240 ; pmuludq %xmm0,%xmm6
@@ -54706,7 +54680,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,20,178 ; movss (%edx,%esi,4),%xmm2
DB 15,20,234 ; unpcklps %xmm2,%xmm5
DB 15,20,238 ; unpcklps %xmm6,%xmm5
- DB 102,15,111,153,88,43,0,0 ; movdqa 0x2b58(%ecx),%xmm3
+ DB 102,15,111,153,121,43,0,0 ; movdqa 0x2b79(%ecx),%xmm3
DB 102,15,254,251 ; paddd %xmm3,%xmm7
DB 102,15,112,215,229 ; pshufd $0xe5,%xmm7,%xmm2
DB 102,15,126,208 ; movd %xmm2,%eax
@@ -54740,7 +54714,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,111,225 ; movdqa %xmm1,%xmm4
DB 102,15,254,69,168 ; paddd -0x58(%ebp),%xmm0
DB 102,15,112,200,245 ; pshufd $0xf5,%xmm0,%xmm1
- DB 102,15,111,177,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm6
+ DB 102,15,111,177,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm6
DB 102,15,244,198 ; pmuludq %xmm6,%xmm0
DB 102,15,112,208,232 ; pshufd $0xe8,%xmm0,%xmm2
DB 102,15,244,206 ; pmuludq %xmm6,%xmm1
@@ -54762,7 +54736,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,193 ; unpcklps %xmm1,%xmm0
DB 15,41,69,216 ; movaps %xmm0,-0x28(%ebp)
DB 102,15,111,202 ; movdqa %xmm2,%xmm1
- DB 102,15,254,137,72,43,0,0 ; paddd 0x2b48(%ecx),%xmm1
+ DB 102,15,254,137,105,43,0,0 ; paddd 0x2b69(%ecx),%xmm1
DB 102,15,112,241,229 ; pshufd $0xe5,%xmm1,%xmm6
DB 102,15,126,240 ; movd %xmm6,%eax
DB 102,15,112,241,78 ; pshufd $0x4e,%xmm1,%xmm6
@@ -54796,7 +54770,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,111,212 ; movdqa %xmm4,%xmm2
DB 102,15,254,85,184 ; paddd -0x48(%ebp),%xmm2
DB 102,15,112,194,245 ; pshufd $0xf5,%xmm2,%xmm0
- DB 102,15,111,137,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm1
+ DB 102,15,111,137,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm1
DB 102,15,244,209 ; pmuludq %xmm1,%xmm2
DB 102,15,112,226,232 ; pshufd $0xe8,%xmm2,%xmm4
DB 102,15,244,193 ; pmuludq %xmm1,%xmm0
@@ -54817,7 +54791,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,200 ; unpcklps %xmm0,%xmm1
DB 15,20,206 ; unpcklps %xmm6,%xmm1
DB 102,15,111,196 ; movdqa %xmm4,%xmm0
- DB 102,15,254,129,72,43,0,0 ; paddd 0x2b48(%ecx),%xmm0
+ DB 102,15,254,129,105,43,0,0 ; paddd 0x2b69(%ecx),%xmm0
DB 102,15,112,240,229 ; pshufd $0xe5,%xmm0,%xmm6
DB 102,15,126,240 ; movd %xmm6,%eax
DB 102,15,112,240,78 ; pshufd $0x4e,%xmm0,%xmm6
@@ -54832,7 +54806,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,4,178 ; movss (%edx,%esi,4),%xmm0
DB 15,20,208 ; unpcklps %xmm0,%xmm2
DB 15,20,214 ; unpcklps %xmm6,%xmm2
- DB 102,15,254,161,88,43,0,0 ; paddd 0x2b58(%ecx),%xmm4
+ DB 102,15,254,161,121,43,0,0 ; paddd 0x2b79(%ecx),%xmm4
DB 102,15,112,196,229 ; pshufd $0xe5,%xmm4,%xmm0
DB 102,15,126,192 ; movd %xmm0,%eax
DB 102,15,112,196,78 ; pshufd $0x4e,%xmm4,%xmm0
@@ -54900,7 +54874,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,111,69,168 ; movdqa -0x58(%ebp),%xmm0
DB 102,15,254,193 ; paddd %xmm1,%xmm0
DB 102,15,112,224,245 ; pshufd $0xf5,%xmm0,%xmm4
- DB 102,15,111,145,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm2
+ DB 102,15,111,145,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm2
DB 102,15,244,194 ; pmuludq %xmm2,%xmm0
DB 102,15,112,216,232 ; pshufd $0xe8,%xmm0,%xmm3
DB 102,15,244,226 ; pmuludq %xmm2,%xmm4
@@ -54923,7 +54897,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,196 ; unpcklps %xmm4,%xmm0
DB 15,41,133,120,255,255,255 ; movaps %xmm0,-0x88(%ebp)
DB 102,15,111,227 ; movdqa %xmm3,%xmm4
- DB 102,15,111,145,72,43,0,0 ; movdqa 0x2b48(%ecx),%xmm2
+ DB 102,15,111,145,105,43,0,0 ; movdqa 0x2b69(%ecx),%xmm2
DB 102,15,254,226 ; paddd %xmm2,%xmm4
DB 102,15,112,236,229 ; pshufd $0xe5,%xmm4,%xmm5
DB 102,15,126,232 ; movd %xmm5,%eax
@@ -54939,7 +54913,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,36,178 ; movss (%edx,%esi,4),%xmm4
DB 15,20,236 ; unpcklps %xmm4,%xmm5
DB 15,20,238 ; unpcklps %xmm6,%xmm5
- DB 102,15,254,153,88,43,0,0 ; paddd 0x2b58(%ecx),%xmm3
+ DB 102,15,254,153,121,43,0,0 ; paddd 0x2b79(%ecx),%xmm3
DB 102,15,112,227,229 ; pshufd $0xe5,%xmm3,%xmm4
DB 102,15,126,224 ; movd %xmm4,%eax
DB 102,15,112,227,78 ; pshufd $0x4e,%xmm3,%xmm4
@@ -54991,7 +54965,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,20,178 ; movss (%edx,%esi,4),%xmm2
DB 15,20,218 ; unpcklps %xmm2,%xmm3
DB 15,20,223 ; unpcklps %xmm7,%xmm3
- DB 102,15,254,161,88,43,0,0 ; paddd 0x2b58(%ecx),%xmm4
+ DB 102,15,254,161,121,43,0,0 ; paddd 0x2b79(%ecx),%xmm4
DB 102,15,112,212,229 ; pshufd $0xe5,%xmm4,%xmm2
DB 102,15,126,208 ; movd %xmm2,%eax
DB 102,15,112,212,78 ; pshufd $0x4e,%xmm4,%xmm2
@@ -55024,7 +54998,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,127,133,56,255,255,255 ; movdqa %xmm0,-0xc8(%ebp)
DB 102,15,254,69,168 ; paddd -0x58(%ebp),%xmm0
DB 102,15,112,208,245 ; pshufd $0xf5,%xmm0,%xmm2
- DB 102,15,111,137,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm1
+ DB 102,15,111,137,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm1
DB 102,15,244,193 ; pmuludq %xmm1,%xmm0
DB 102,15,112,240,232 ; pshufd $0xe8,%xmm0,%xmm6
DB 102,15,244,209 ; pmuludq %xmm1,%xmm2
@@ -55046,7 +55020,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,194 ; unpcklps %xmm2,%xmm0
DB 15,41,69,216 ; movaps %xmm0,-0x28(%ebp)
DB 102,15,111,214 ; movdqa %xmm6,%xmm2
- DB 102,15,111,153,72,43,0,0 ; movdqa 0x2b48(%ecx),%xmm3
+ DB 102,15,111,153,105,43,0,0 ; movdqa 0x2b69(%ecx),%xmm3
DB 102,15,254,211 ; paddd %xmm3,%xmm2
DB 102,15,112,234,229 ; pshufd $0xe5,%xmm2,%xmm5
DB 102,15,126,232 ; movd %xmm5,%eax
@@ -55062,7 +55036,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,20,178 ; movss (%edx,%esi,4),%xmm2
DB 15,20,234 ; unpcklps %xmm2,%xmm5
DB 15,20,239 ; unpcklps %xmm7,%xmm5
- DB 102,15,254,177,88,43,0,0 ; paddd 0x2b58(%ecx),%xmm6
+ DB 102,15,254,177,121,43,0,0 ; paddd 0x2b79(%ecx),%xmm6
DB 102,15,112,214,229 ; pshufd $0xe5,%xmm6,%xmm2
DB 102,15,126,208 ; movd %xmm2,%eax
DB 102,15,112,214,78 ; pshufd $0x4e,%xmm6,%xmm2
@@ -55115,7 +55089,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,4,178 ; movss (%edx,%esi,4),%xmm0
DB 15,20,216 ; unpcklps %xmm0,%xmm3
DB 15,20,218 ; unpcklps %xmm2,%xmm3
- DB 102,15,254,185,88,43,0,0 ; paddd 0x2b58(%ecx),%xmm7
+ DB 102,15,254,185,121,43,0,0 ; paddd 0x2b79(%ecx),%xmm7
DB 102,15,112,199,229 ; pshufd $0xe5,%xmm7,%xmm0
DB 102,15,126,192 ; movd %xmm0,%eax
DB 102,15,112,199,78 ; pshufd $0x4e,%xmm7,%xmm0
@@ -55165,7 +55139,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,111,233 ; movdqa %xmm1,%xmm5
DB 102,15,254,69,168 ; paddd -0x58(%ebp),%xmm0
DB 102,15,112,200,245 ; pshufd $0xf5,%xmm0,%xmm1
- DB 102,15,111,153,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm3
+ DB 102,15,111,153,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm3
DB 102,15,244,195 ; pmuludq %xmm3,%xmm0
DB 102,15,112,208,232 ; pshufd $0xe8,%xmm0,%xmm2
DB 102,15,244,203 ; pmuludq %xmm3,%xmm1
@@ -55187,7 +55161,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,193 ; unpcklps %xmm1,%xmm0
DB 15,41,133,72,255,255,255 ; movaps %xmm0,-0xb8(%ebp)
DB 102,15,111,202 ; movdqa %xmm2,%xmm1
- DB 102,15,111,177,72,43,0,0 ; movdqa 0x2b48(%ecx),%xmm6
+ DB 102,15,111,177,105,43,0,0 ; movdqa 0x2b69(%ecx),%xmm6
DB 102,15,254,206 ; paddd %xmm6,%xmm1
DB 102,15,112,217,229 ; pshufd $0xe5,%xmm1,%xmm3
DB 102,15,126,216 ; movd %xmm3,%eax
@@ -55203,7 +55177,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,36,178 ; movss (%edx,%esi,4),%xmm4
DB 15,20,204 ; unpcklps %xmm4,%xmm1
DB 15,20,203 ; unpcklps %xmm3,%xmm1
- DB 102,15,111,185,88,43,0,0 ; movdqa 0x2b58(%ecx),%xmm7
+ DB 102,15,111,185,121,43,0,0 ; movdqa 0x2b79(%ecx),%xmm7
DB 102,15,254,215 ; paddd %xmm7,%xmm2
DB 102,15,112,218,229 ; pshufd $0xe5,%xmm2,%xmm3
DB 102,15,126,216 ; movd %xmm3,%eax
@@ -55222,7 +55196,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,111,221 ; movdqa %xmm5,%xmm3
DB 102,15,254,93,184 ; paddd -0x48(%ebp),%xmm3
DB 102,15,112,227,245 ; pshufd $0xf5,%xmm3,%xmm4
- DB 102,15,111,129,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm0
+ DB 102,15,111,129,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm0
DB 102,15,244,216 ; pmuludq %xmm0,%xmm3
DB 102,15,112,219,232 ; pshufd $0xe8,%xmm3,%xmm3
DB 102,15,244,224 ; pmuludq %xmm0,%xmm4
@@ -55291,7 +55265,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 102,15,254,193 ; paddd %xmm1,%xmm0
DB 102,15,111,241 ; movdqa %xmm1,%xmm6
DB 102,15,112,200,245 ; pshufd $0xf5,%xmm0,%xmm1
- DB 102,15,111,145,56,43,0,0 ; movdqa 0x2b38(%ecx),%xmm2
+ DB 102,15,111,145,89,43,0,0 ; movdqa 0x2b59(%ecx),%xmm2
DB 102,15,244,194 ; pmuludq %xmm2,%xmm0
DB 102,15,112,192,232 ; pshufd $0xe8,%xmm0,%xmm0
DB 102,15,244,202 ; pmuludq %xmm2,%xmm1
@@ -55314,7 +55288,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,218 ; unpcklps %xmm2,%xmm3
DB 15,41,93,168 ; movaps %xmm3,-0x58(%ebp)
DB 102,15,111,200 ; movdqa %xmm0,%xmm1
- DB 102,15,254,137,72,43,0,0 ; paddd 0x2b48(%ecx),%xmm1
+ DB 102,15,254,137,105,43,0,0 ; paddd 0x2b69(%ecx),%xmm1
DB 102,15,112,209,229 ; pshufd $0xe5,%xmm1,%xmm2
DB 102,15,126,208 ; movd %xmm2,%eax
DB 102,15,112,209,78 ; pshufd $0x4e,%xmm1,%xmm2
@@ -55330,7 +55304,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 15,20,217 ; unpcklps %xmm1,%xmm3
DB 15,20,218 ; unpcklps %xmm2,%xmm3
DB 15,41,157,88,255,255,255 ; movaps %xmm3,-0xa8(%ebp)
- DB 102,15,254,129,88,43,0,0 ; paddd 0x2b58(%ecx),%xmm0
+ DB 102,15,254,129,121,43,0,0 ; paddd 0x2b79(%ecx),%xmm0
DB 102,15,112,200,229 ; pshufd $0xe5,%xmm0,%xmm1
DB 102,15,126,200 ; movd %xmm1,%eax
DB 102,15,112,200,78 ; pshufd $0x4e,%xmm0,%xmm1
@@ -55367,7 +55341,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,60,178 ; movss (%edx,%esi,4),%xmm7
DB 15,20,199 ; unpcklps %xmm7,%xmm0
DB 15,20,193 ; unpcklps %xmm1,%xmm0
- DB 102,15,111,177,72,43,0,0 ; movdqa 0x2b48(%ecx),%xmm6
+ DB 102,15,111,177,105,43,0,0 ; movdqa 0x2b69(%ecx),%xmm6
DB 102,15,254,242 ; paddd %xmm2,%xmm6
DB 102,15,112,206,229 ; pshufd $0xe5,%xmm6,%xmm1
DB 102,15,126,200 ; movd %xmm1,%eax
@@ -55383,7 +55357,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 243,15,16,52,178 ; movss (%edx,%esi,4),%xmm6
DB 15,20,206 ; unpcklps %xmm6,%xmm1
DB 15,20,207 ; unpcklps %xmm7,%xmm1
- DB 102,15,254,145,88,43,0,0 ; paddd 0x2b58(%ecx),%xmm2
+ DB 102,15,254,145,121,43,0,0 ; paddd 0x2b79(%ecx),%xmm2
DB 102,15,112,242,229 ; pshufd $0xe5,%xmm2,%xmm6
DB 102,15,126,240 ; movd %xmm6,%eax
DB 102,15,112,242,78 ; pshufd $0x4e,%xmm2,%xmm6
@@ -55453,7 +55427,7 @@ _sk_clut_4D_sse2 LABEL PROC
DB 139,117,12 ; mov 0xc(%ebp),%esi
DB 141,86,8 ; lea 0x8(%esi),%edx
DB 131,236,8 ; sub $0x8,%esp
- DB 15,40,153,104,43,0,0 ; movaps 0x2b68(%ecx),%xmm3
+ DB 15,40,153,137,43,0,0 ; movaps 0x2b89(%ecx),%xmm3
DB 82 ; push %edx
DB 80 ; push %eax
DB 255,86,4 ; call *0x4(%esi)
@@ -55474,11 +55448,28 @@ ALIGN 16
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
+ DB 0,0 ; add %al,(%eax)
+ DB 0,0 ; add %al,(%eax)
+ DB 128,63,0 ; cmpb $0x0,(%edi)
+ DB 0,0 ; add %al,(%eax)
+ DB 64 ; inc %eax
+ DB 0,0 ; add %al,(%eax)
+ DB 64 ; inc %eax
+ DB 64 ; inc %eax
+ DB 0,0 ; add %al,(%eax)
DB 128,63,0 ; cmpb $0x0,(%edi)
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
DB 63 ; aas
DB 0,0 ; add %al,(%eax)
- DB 128,63,1 ; cmpb $0x1,(%edi)
+ DB 128,63,0 ; cmpb $0x0,(%edi)
+ DB 0,0 ; add %al,(%eax)
+ DB 0,1 ; add %al,(%ecx)
+ DB 0,0 ; add %al,(%eax)
+ DB 0,2 ; add %al,(%edx)
+ DB 0,0 ; add %al,(%eax)
+ DB 0,3 ; add %al,(%ebx)
+ DB 0,0 ; add %al,(%eax)
+ DB 0,1 ; add %al,(%ecx)
DB 0,0 ; add %al,(%eax)
DB 0,1 ; add %al,(%ecx)
DB 0,0 ; add %al,(%eax)
@@ -55625,11 +55616,11 @@ ALIGN 16
DB 0,224 ; add %ah,%al
DB 64 ; inc %eax
DB 0,0 ; add %al,(%eax)
- DB 224,64 ; loopne 9518 <.literal16+0x208>
+ DB 224,64 ; loopne 9528 <.literal16+0x228>
DB 0,0 ; add %al,(%eax)
- DB 224,64 ; loopne 951c <.literal16+0x20c>
+ DB 224,64 ; loopne 952c <.literal16+0x22c>
DB 0,0 ; add %al,(%eax)
- DB 224,64 ; loopne 9520 <.literal16+0x210>
+ DB 224,64 ; loopne 9530 <.literal16+0x230>
DB 154,153,153,62,154,153,153 ; lcall $0x9999,$0x9a3e9999
DB 62,154,153,153,62,154,153,153 ; ds lcall $0x9999,$0x9a3e9999
DB 62,61,10,23,63,61 ; ds cmp $0x3d3f170a,%eax
@@ -55640,16 +55631,16 @@ ALIGN 16
DB 63 ; aas
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 9541 <.literal16+0x231>
+ DB 225,61 ; loope 9551 <.literal16+0x251>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 9545 <.literal16+0x235>
+ DB 225,61 ; loope 9555 <.literal16+0x255>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 9549 <.literal16+0x239>
+ DB 225,61 ; loope 9559 <.literal16+0x259>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 954d <.literal16+0x23d>
+ DB 225,61 ; loope 955d <.literal16+0x25d>
DB 0,0 ; add %al,(%eax)
DB 128,63,0 ; cmpb $0x0,(%edi)
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -55666,16 +55657,16 @@ ALIGN 16
DB 63 ; aas
DB 61,10,23,63,174 ; cmp $0xae3f170a,%eax
DB 71 ; inc %edi
- DB 225,61 ; loope 9581 <.literal16+0x271>
+ DB 225,61 ; loope 9591 <.literal16+0x291>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 9585 <.literal16+0x275>
+ DB 225,61 ; loope 9595 <.literal16+0x295>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 9589 <.literal16+0x279>
+ DB 225,61 ; loope 9599 <.literal16+0x299>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 958d <.literal16+0x27d>
+ DB 225,61 ; loope 959d <.literal16+0x29d>
DB 0,0 ; add %al,(%eax)
DB 128,63,0 ; cmpb $0x0,(%edi)
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -55692,16 +55683,16 @@ ALIGN 16
DB 63 ; aas
DB 61,10,23,63,174 ; cmp $0xae3f170a,%eax
DB 71 ; inc %edi
- DB 225,61 ; loope 95c1 <.literal16+0x2b1>
+ DB 225,61 ; loope 95d1 <.literal16+0x2d1>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 95c5 <.literal16+0x2b5>
+ DB 225,61 ; loope 95d5 <.literal16+0x2d5>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 95c9 <.literal16+0x2b9>
+ DB 225,61 ; loope 95d9 <.literal16+0x2d9>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 95cd <.literal16+0x2bd>
+ DB 225,61 ; loope 95dd <.literal16+0x2dd>
DB 0,0 ; add %al,(%eax)
DB 128,63,0 ; cmpb $0x0,(%edi)
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -55718,16 +55709,16 @@ ALIGN 16
DB 63 ; aas
DB 61,10,23,63,174 ; cmp $0xae3f170a,%eax
DB 71 ; inc %edi
- DB 225,61 ; loope 9601 <.literal16+0x2f1>
+ DB 225,61 ; loope 9611 <.literal16+0x311>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 9605 <.literal16+0x2f5>
+ DB 225,61 ; loope 9615 <.literal16+0x315>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 9609 <.literal16+0x2f9>
+ DB 225,61 ; loope 9619 <.literal16+0x319>
DB 174 ; scas %es:(%edi),%al
DB 71 ; inc %edi
- DB 225,61 ; loope 960d <.literal16+0x2fd>
+ DB 225,61 ; loope 961d <.literal16+0x31d>
DB 0,0 ; add %al,(%eax)
DB 128,63,0 ; cmpb $0x0,(%edi)
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -55749,11 +55740,11 @@ ALIGN 16
DB 0,128,63,0,0,127 ; add %al,0x7f00003f(%eax)
DB 67 ; inc %ebx
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 964b <.literal16+0x33b>
+ DB 127,67 ; jg 965b <.literal16+0x35b>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 964f <.literal16+0x33f>
+ DB 127,67 ; jg 965f <.literal16+0x35f>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 9653 <.literal16+0x343>
+ DB 127,67 ; jg 9663 <.literal16+0x363>
DB 0,0 ; add %al,(%eax)
DB 128,63,0 ; cmpb $0x0,(%edi)
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -56018,13 +56009,13 @@ ALIGN 16
DB 132,55 ; test %dh,(%edi)
DB 8,33 ; or %ah,(%ecx)
DB 132,55 ; test %dh,(%edi)
- DB 224,7 ; loopne 9889 <.literal16+0x579>
+ DB 224,7 ; loopne 9899 <.literal16+0x599>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne 988d <.literal16+0x57d>
+ DB 224,7 ; loopne 989d <.literal16+0x59d>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne 9891 <.literal16+0x581>
+ DB 224,7 ; loopne 98a1 <.literal16+0x5a1>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne 9895 <.literal16+0x585>
+ DB 224,7 ; loopne 98a5 <.literal16+0x5a5>
DB 0,0 ; add %al,(%eax)
DB 33,8 ; and %ecx,(%eax)
DB 2,58 ; add (%edx),%bh
@@ -56073,13 +56064,13 @@ ALIGN 16
DB 132,55 ; test %dh,(%edi)
DB 8,33 ; or %ah,(%ecx)
DB 132,55 ; test %dh,(%edi)
- DB 224,7 ; loopne 9909 <.literal16+0x5f9>
+ DB 224,7 ; loopne 9919 <.literal16+0x619>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne 990d <.literal16+0x5fd>
+ DB 224,7 ; loopne 991d <.literal16+0x61d>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne 9911 <.literal16+0x601>
+ DB 224,7 ; loopne 9921 <.literal16+0x621>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne 9915 <.literal16+0x605>
+ DB 224,7 ; loopne 9925 <.literal16+0x625>
DB 0,0 ; add %al,(%eax)
DB 33,8 ; and %ecx,(%eax)
DB 2,58 ; add (%edx),%bh
@@ -56128,11 +56119,11 @@ ALIGN 16
DB 128,63,0 ; cmpb $0x0,(%edi)
DB 0,127,67 ; add %bh,0x43(%edi)
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 99cb <.literal16+0x6bb>
+ DB 127,67 ; jg 99db <.literal16+0x6db>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 99cf <.literal16+0x6bf>
+ DB 127,67 ; jg 99df <.literal16+0x6df>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 99d3 <.literal16+0x6c3>
+ DB 127,67 ; jg 99e3 <.literal16+0x6e3>
DB 129,128,128,59,129,128,128,59,129,128; addl $0x80813b80,-0x7f7ec480(%eax)
DB 128,59,129 ; cmpb $0x81,(%ebx)
DB 128,128,59,129,128,128,59 ; addb $0x3b,-0x7f7f7ec5(%eax)
@@ -56147,16 +56138,16 @@ ALIGN 16
DB 0,0 ; add %al,(%eax)
DB 52,255 ; xor $0xff,%al
DB 255 ; (bad)
- DB 127,0 ; jg 99c4 <.literal16+0x6b4>
+ DB 127,0 ; jg 99d4 <.literal16+0x6d4>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 99c8 <.literal16+0x6b8>
+ DB 127,0 ; jg 99d8 <.literal16+0x6d8>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 99cc <.literal16+0x6bc>
+ DB 127,0 ; jg 99dc <.literal16+0x6dc>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 99d0 <.literal16+0x6c0>
+ DB 127,0 ; jg 99e0 <.literal16+0x6e0>
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
@@ -56165,7 +56156,7 @@ ALIGN 16
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
- DB 119,115 ; ja 9a55 <.literal16+0x745>
+ DB 119,115 ; ja 9a65 <.literal16+0x765>
DB 248 ; clc
DB 194,119,115 ; ret $0x7377
DB 248 ; clc
@@ -56176,7 +56167,7 @@ ALIGN 16
DB 194,117,191 ; ret $0xbf75
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; aas
- DB 117,191 ; jne 99b9 <.literal16+0x6a9>
+ DB 117,191 ; jne 99c9 <.literal16+0x6c9>
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; aas
DB 249 ; stc
@@ -56192,7 +56183,7 @@ ALIGN 16
DB 68 ; inc %esp
DB 180,62 ; mov $0x3e,%ah
DB 163,233,220,63,163 ; mov %eax,0xa33fdce9
- DB 233,220,63,163,233 ; jmp e9a3d9f6 <_sk_clut_4D_sse2+0xe9a35cc7>
+ DB 233,220,63,163,233 ; jmp e9a3da06 <_sk_clut_4D_sse2+0xe9a35ce8>
DB 220,63 ; fdivrl (%edi)
DB 163,233,220,63,0 ; mov %eax,0x3fdce9
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -56247,16 +56238,16 @@ ALIGN 16
DB 0,0 ; add %al,(%eax)
DB 52,255 ; xor $0xff,%al
DB 255 ; (bad)
- DB 127,0 ; jg 9a94 <.literal16+0x784>
+ DB 127,0 ; jg 9aa4 <.literal16+0x7a4>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9a98 <.literal16+0x788>
+ DB 127,0 ; jg 9aa8 <.literal16+0x7a8>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9a9c <.literal16+0x78c>
+ DB 127,0 ; jg 9aac <.literal16+0x7ac>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9aa0 <.literal16+0x790>
+ DB 127,0 ; jg 9ab0 <.literal16+0x7b0>
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
@@ -56265,7 +56256,7 @@ ALIGN 16
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
- DB 119,115 ; ja 9b25 <.literal16+0x815>
+ DB 119,115 ; ja 9b35 <.literal16+0x835>
DB 248 ; clc
DB 194,119,115 ; ret $0x7377
DB 248 ; clc
@@ -56276,7 +56267,7 @@ ALIGN 16
DB 194,117,191 ; ret $0xbf75
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; aas
- DB 117,191 ; jne 9a89 <.literal16+0x779>
+ DB 117,191 ; jne 9a99 <.literal16+0x799>
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; aas
DB 249 ; stc
@@ -56292,7 +56283,7 @@ ALIGN 16
DB 68 ; inc %esp
DB 180,62 ; mov $0x3e,%ah
DB 163,233,220,63,163 ; mov %eax,0xa33fdce9
- DB 233,220,63,163,233 ; jmp e9a3dac6 <_sk_clut_4D_sse2+0xe9a35d97>
+ DB 233,220,63,163,233 ; jmp e9a3dad6 <_sk_clut_4D_sse2+0xe9a35db8>
DB 220,63 ; fdivrl (%edi)
DB 163,233,220,63,0 ; mov %eax,0x3fdce9
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -56347,16 +56338,16 @@ ALIGN 16
DB 0,0 ; add %al,(%eax)
DB 52,255 ; xor $0xff,%al
DB 255 ; (bad)
- DB 127,0 ; jg 9b64 <.literal16+0x854>
+ DB 127,0 ; jg 9b74 <.literal16+0x874>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9b68 <.literal16+0x858>
+ DB 127,0 ; jg 9b78 <.literal16+0x878>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9b6c <.literal16+0x85c>
+ DB 127,0 ; jg 9b7c <.literal16+0x87c>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9b70 <.literal16+0x860>
+ DB 127,0 ; jg 9b80 <.literal16+0x880>
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
@@ -56365,7 +56356,7 @@ ALIGN 16
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
- DB 119,115 ; ja 9bf5 <.literal16+0x8e5>
+ DB 119,115 ; ja 9c05 <.literal16+0x905>
DB 248 ; clc
DB 194,119,115 ; ret $0x7377
DB 248 ; clc
@@ -56376,7 +56367,7 @@ ALIGN 16
DB 194,117,191 ; ret $0xbf75
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; aas
- DB 117,191 ; jne 9b59 <.literal16+0x849>
+ DB 117,191 ; jne 9b69 <.literal16+0x869>
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; aas
DB 249 ; stc
@@ -56392,7 +56383,7 @@ ALIGN 16
DB 68 ; inc %esp
DB 180,62 ; mov $0x3e,%ah
DB 163,233,220,63,163 ; mov %eax,0xa33fdce9
- DB 233,220,63,163,233 ; jmp e9a3db96 <_sk_clut_4D_sse2+0xe9a35e67>
+ DB 233,220,63,163,233 ; jmp e9a3dba6 <_sk_clut_4D_sse2+0xe9a35e88>
DB 220,63 ; fdivrl (%edi)
DB 163,233,220,63,0 ; mov %eax,0x3fdce9
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -56447,16 +56438,16 @@ ALIGN 16
DB 0,0 ; add %al,(%eax)
DB 52,255 ; xor $0xff,%al
DB 255 ; (bad)
- DB 127,0 ; jg 9c34 <.literal16+0x924>
+ DB 127,0 ; jg 9c44 <.literal16+0x944>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9c38 <.literal16+0x928>
+ DB 127,0 ; jg 9c48 <.literal16+0x948>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9c3c <.literal16+0x92c>
+ DB 127,0 ; jg 9c4c <.literal16+0x94c>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9c40 <.literal16+0x930>
+ DB 127,0 ; jg 9c50 <.literal16+0x950>
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
@@ -56465,7 +56456,7 @@ ALIGN 16
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
- DB 119,115 ; ja 9cc5 <.literal16+0x9b5>
+ DB 119,115 ; ja 9cd5 <.literal16+0x9d5>
DB 248 ; clc
DB 194,119,115 ; ret $0x7377
DB 248 ; clc
@@ -56476,7 +56467,7 @@ ALIGN 16
DB 194,117,191 ; ret $0xbf75
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; aas
- DB 117,191 ; jne 9c29 <.literal16+0x919>
+ DB 117,191 ; jne 9c39 <.literal16+0x939>
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; aas
DB 249 ; stc
@@ -56492,7 +56483,7 @@ ALIGN 16
DB 68 ; inc %esp
DB 180,62 ; mov $0x3e,%ah
DB 163,233,220,63,163 ; mov %eax,0xa33fdce9
- DB 233,220,63,163,233 ; jmp e9a3dc66 <_sk_clut_4D_sse2+0xe9a35f37>
+ DB 233,220,63,163,233 ; jmp e9a3dc76 <_sk_clut_4D_sse2+0xe9a35f58>
DB 220,63 ; fdivrl (%edi)
DB 163,233,220,63,0 ; mov %eax,0x3fdce9
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -56547,16 +56538,16 @@ ALIGN 16
DB 0,0 ; add %al,(%eax)
DB 52,255 ; xor $0xff,%al
DB 255 ; (bad)
- DB 127,0 ; jg 9d04 <.literal16+0x9f4>
+ DB 127,0 ; jg 9d14 <.literal16+0xa14>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9d08 <.literal16+0x9f8>
+ DB 127,0 ; jg 9d18 <.literal16+0xa18>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9d0c <.literal16+0x9fc>
+ DB 127,0 ; jg 9d1c <.literal16+0xa1c>
DB 255 ; (bad)
DB 255 ; (bad)
- DB 127,0 ; jg 9d10 <.literal16+0xa00>
+ DB 127,0 ; jg 9d20 <.literal16+0xa20>
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
@@ -56565,7 +56556,7 @@ ALIGN 16
DB 0,63 ; add %bh,(%edi)
DB 0,0 ; add %al,(%eax)
DB 0,63 ; add %bh,(%edi)
- DB 119,115 ; ja 9d95 <.literal16+0xa85>
+ DB 119,115 ; ja 9da5 <.literal16+0xaa5>
DB 248 ; clc
DB 194,119,115 ; ret $0x7377
DB 248 ; clc
@@ -56576,7 +56567,7 @@ ALIGN 16
DB 194,117,191 ; ret $0xbf75
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; aas
- DB 117,191 ; jne 9cf9 <.literal16+0x9e9>
+ DB 117,191 ; jne 9d09 <.literal16+0xa09>
DB 191,63,117,191,191 ; mov $0xbfbf753f,%edi
DB 63 ; aas
DB 249 ; stc
@@ -56592,7 +56583,7 @@ ALIGN 16
DB 68 ; inc %esp
DB 180,62 ; mov $0x3e,%ah
DB 163,233,220,63,163 ; mov %eax,0xa33fdce9
- DB 233,220,63,163,233 ; jmp e9a3dd36 <_sk_clut_4D_sse2+0xe9a36007>
+ DB 233,220,63,163,233 ; jmp e9a3dd46 <_sk_clut_4D_sse2+0xe9a36028>
DB 220,63 ; fdivrl (%edi)
DB 163,233,220,63,0 ; mov %eax,0x3fdce9
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -56643,13 +56634,13 @@ ALIGN 16
DB 200,66,0,0 ; enter $0x42,$0x0
DB 200,66,0,0 ; enter $0x42,$0x0
DB 200,66,0,0 ; enter $0x42,$0x0
- DB 127,67 ; jg 9e17 <.literal16+0xb07>
+ DB 127,67 ; jg 9e27 <.literal16+0xb27>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 9e1b <.literal16+0xb0b>
+ DB 127,67 ; jg 9e2b <.literal16+0xb2b>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 9e1f <.literal16+0xb0f>
+ DB 127,67 ; jg 9e2f <.literal16+0xb2f>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 9e23 <.literal16+0xb13>
+ DB 127,67 ; jg 9e33 <.literal16+0xb33>
DB 0,0 ; add %al,(%eax)
DB 0,195 ; add %al,%bl
DB 0,0 ; add %al,(%eax)
@@ -56700,16 +56691,16 @@ ALIGN 16
DB 128,3,62 ; addb $0x3e,(%ebx)
DB 31 ; pop %ds
DB 215 ; xlat %ds:(%ebx)
- DB 118,63 ; jbe 9ea3 <.literal16+0xb93>
+ DB 118,63 ; jbe 9eb3 <.literal16+0xbb3>
DB 31 ; pop %ds
DB 215 ; xlat %ds:(%ebx)
- DB 118,63 ; jbe 9ea7 <.literal16+0xb97>
+ DB 118,63 ; jbe 9eb7 <.literal16+0xbb7>
DB 31 ; pop %ds
DB 215 ; xlat %ds:(%ebx)
- DB 118,63 ; jbe 9eab <.literal16+0xb9b>
+ DB 118,63 ; jbe 9ebb <.literal16+0xbbb>
DB 31 ; pop %ds
DB 215 ; xlat %ds:(%ebx)
- DB 118,63 ; jbe 9eaf <.literal16+0xb9f>
+ DB 118,63 ; jbe 9ebf <.literal16+0xbbf>
DB 246,64,83,63 ; testb $0x3f,0x53(%eax)
DB 246,64,83,63 ; testb $0x3f,0x53(%eax)
DB 246,64,83,63 ; testb $0x3f,0x53(%eax)
@@ -56738,11 +56729,11 @@ ALIGN 16
DB 128,59,0 ; cmpb $0x0,(%ebx)
DB 0,127,67 ; add %bh,0x43(%edi)
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 9f1b <.literal16+0xc0b>
+ DB 127,67 ; jg 9f2b <.literal16+0xc2b>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 9f1f <.literal16+0xc0f>
+ DB 127,67 ; jg 9f2f <.literal16+0xc2f>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg 9f23 <.literal16+0xc13>
+ DB 127,67 ; jg 9f33 <.literal16+0xc33>
DB 255,0 ; incl (%eax)
DB 0,0 ; add %al,(%eax)
DB 0,0 ; add %al,(%eax)
@@ -56804,13 +56795,13 @@ ALIGN 16
DB 132,55 ; test %dh,(%edi)
DB 8,33 ; or %ah,(%ecx)
DB 132,55 ; test %dh,(%edi)
- DB 224,7 ; loopne 9f99 <.literal16+0xc89>
+ DB 224,7 ; loopne 9fa9 <.literal16+0xca9>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne 9f9d <.literal16+0xc8d>
+ DB 224,7 ; loopne 9fad <.literal16+0xcad>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne 9fa1 <.literal16+0xc91>
+ DB 224,7 ; loopne 9fb1 <.literal16+0xcb1>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne 9fa5 <.literal16+0xc95>
+ DB 224,7 ; loopne 9fb5 <.literal16+0xcb5>
DB 0,0 ; add %al,(%eax)
DB 33,8 ; and %ecx,(%eax)
DB 2,58 ; add (%edx),%bh
@@ -56856,13 +56847,13 @@ ALIGN 16
DB 132,55 ; test %dh,(%edi)
DB 8,33 ; or %ah,(%ecx)
DB 132,55 ; test %dh,(%edi)
- DB 224,7 ; loopne a009 <.literal16+0xcf9>
+ DB 224,7 ; loopne a019 <.literal16+0xd19>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne a00d <.literal16+0xcfd>
+ DB 224,7 ; loopne a01d <.literal16+0xd1d>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne a011 <.literal16+0xd01>
+ DB 224,7 ; loopne a021 <.literal16+0xd21>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne a015 <.literal16+0xd05>
+ DB 224,7 ; loopne a025 <.literal16+0xd25>
DB 0,0 ; add %al,(%eax)
DB 33,8 ; and %ecx,(%eax)
DB 2,58 ; add (%edx),%bh
@@ -56908,13 +56899,13 @@ ALIGN 16
DB 132,55 ; test %dh,(%edi)
DB 8,33 ; or %ah,(%ecx)
DB 132,55 ; test %dh,(%edi)
- DB 224,7 ; loopne a079 <.literal16+0xd69>
+ DB 224,7 ; loopne a089 <.literal16+0xd89>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne a07d <.literal16+0xd6d>
+ DB 224,7 ; loopne a08d <.literal16+0xd8d>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne a081 <.literal16+0xd71>
+ DB 224,7 ; loopne a091 <.literal16+0xd91>
DB 0,0 ; add %al,(%eax)
- DB 224,7 ; loopne a085 <.literal16+0xd75>
+ DB 224,7 ; loopne a095 <.literal16+0xd95>
DB 0,0 ; add %al,(%eax)
DB 33,8 ; and %ecx,(%eax)
DB 2,58 ; add (%edx),%bh
@@ -56956,13 +56947,13 @@ ALIGN 16
DB 248 ; clc
DB 65 ; inc %ecx
DB 0,0 ; add %al,(%eax)
- DB 124,66 ; jl a116 <.literal16+0xe06>
+ DB 124,66 ; jl a126 <.literal16+0xe26>
DB 0,0 ; add %al,(%eax)
- DB 124,66 ; jl a11a <.literal16+0xe0a>
+ DB 124,66 ; jl a12a <.literal16+0xe2a>
DB 0,0 ; add %al,(%eax)
- DB 124,66 ; jl a11e <.literal16+0xe0e>
+ DB 124,66 ; jl a12e <.literal16+0xe2e>
DB 0,0 ; add %al,(%eax)
- DB 124,66 ; jl a122 <.literal16+0xe12>
+ DB 124,66 ; jl a132 <.literal16+0xe32>
DB 0,240 ; add %dh,%al
DB 0,0 ; add %al,(%eax)
DB 0,240 ; add %dh,%al
@@ -57096,13 +57087,13 @@ ALIGN 16
DB 136,136,61,137,136,136 ; mov %cl,-0x777776c3(%eax)
DB 61,137,136,136,61 ; cmp $0x3d888889,%eax
DB 0,0 ; add %al,(%eax)
- DB 112,65 ; jo a2a5 <.literal16+0xf95>
+ DB 112,65 ; jo a2b5 <.literal16+0xfb5>
DB 0,0 ; add %al,(%eax)
- DB 112,65 ; jo a2a9 <.literal16+0xf99>
+ DB 112,65 ; jo a2b9 <.literal16+0xfb9>
DB 0,0 ; add %al,(%eax)
- DB 112,65 ; jo a2ad <.literal16+0xf9d>
+ DB 112,65 ; jo a2bd <.literal16+0xfbd>
DB 0,0 ; add %al,(%eax)
- DB 112,65 ; jo a2b1 <.literal16+0xfa1>
+ DB 112,65 ; jo a2c1 <.literal16+0xfc1>
DB 255,0 ; incl (%eax)
DB 0,0 ; add %al,(%eax)
DB 255,0 ; incl (%eax)
@@ -57133,11 +57124,11 @@ ALIGN 16
DB 128,59,129 ; cmpb $0x81,(%ebx)
DB 128,128,59,0,0,127,67 ; addb $0x43,0x7f00003b(%eax)
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg a31b <.literal16+0x100b>
+ DB 127,67 ; jg a32b <.literal16+0x102b>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg a31f <.literal16+0x100f>
+ DB 127,67 ; jg a32f <.literal16+0x102f>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg a323 <.literal16+0x1013>
+ DB 127,67 ; jg a333 <.literal16+0x1033>
DB 255,0 ; incl (%eax)
DB 0,0 ; add %al,(%eax)
DB 255,0 ; incl (%eax)
@@ -57168,11 +57159,11 @@ ALIGN 16
DB 128,59,129 ; cmpb $0x81,(%ebx)
DB 128,128,59,0,0,127,67 ; addb $0x43,0x7f00003b(%eax)
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg a38b <.literal16+0x107b>
+ DB 127,67 ; jg a39b <.literal16+0x109b>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg a38f <.literal16+0x107f>
+ DB 127,67 ; jg a39f <.literal16+0x109f>
DB 0,0 ; add %al,(%eax)
- DB 127,67 ; jg a393 <.literal16+0x1083>
+ DB 127,67 ; jg a3a3 <.literal16+0x10a3>
DB 0,128,0,0,0,128 ; add %al,-0x80000000(%eax)
DB 0,0 ; add %al,(%eax)
DB 0,128,0,0,0,128 ; add %al,-0x80000000(%eax)
@@ -57271,13 +57262,13 @@ ALIGN 16
DB 0,0 ; add %al,(%eax)
DB 128,63,0 ; cmpb $0x0,(%edi)
DB 255 ; (bad)
- DB 127,71 ; jg a4bb <.literal16+0x11ab>
+ DB 127,71 ; jg a4cb <.literal16+0x11cb>
DB 0,255 ; add %bh,%bh
- DB 127,71 ; jg a4bf <.literal16+0x11af>
+ DB 127,71 ; jg a4cf <.literal16+0x11cf>
DB 0,255 ; add %bh,%bh
- DB 127,71 ; jg a4c3 <.literal16+0x11b3>
+ DB 127,71 ; jg a4d3 <.literal16+0x11d3>
DB 0,255 ; add %bh,%bh
- DB 127,71 ; jg a4c7 <.literal16+0x11b7>
+ DB 127,71 ; jg a4d7 <.literal16+0x11d7>
DB 0,0 ; add %al,(%eax)
DB 128,63,0 ; cmpb $0x0,(%edi)
DB 0,128,63,0,0,128 ; add %al,-0x7fffffc1(%eax)
@@ -57385,7 +57376,7 @@ ALIGN 16
DB 192,45,16,17,192,45,16 ; shrb $0x10,0x2dc01110
DB 17,192 ; adc %eax,%eax
DB 45,16,17,192,18 ; sub $0x12c01110,%eax
- DB 120,57 ; js a5cc <.literal16+0x12bc>
+ DB 120,57 ; js a5dc <.literal16+0x12dc>
DB 64 ; inc %eax
DB 18,120,57 ; adc 0x39(%eax),%bh
DB 64 ; inc %eax
@@ -57578,11 +57569,11 @@ ALIGN 16
DB 0,0 ; add %al,(%eax)
DB 128,63,114 ; cmpb $0x72,(%edi)
DB 28,199 ; sbb $0xc7,%al
- DB 62,114,28 ; jb,pt a7b2 <.literal16+0x14a2>
+ DB 62,114,28 ; jb,pt a7c2 <.literal16+0x14c2>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt a7b6 <.literal16+0x14a6>
+ DB 62,114,28 ; jb,pt a7c6 <.literal16+0x14c6>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt a7ba <.literal16+0x14aa>
+ DB 62,114,28 ; jb,pt a7ca <.literal16+0x14ca>
DB 199 ; (bad)
DB 62,171 ; ds stos %eax,%es:(%edi)
DB 170 ; stos %al,%es:(%edi)
@@ -57661,13 +57652,13 @@ ALIGN 16
DB 192,63,0 ; sarb $0x0,(%edi)
DB 0,192 ; add %al,%al
DB 63 ; aas
- DB 114,28 ; jb a87e <.literal16+0x156e>
+ DB 114,28 ; jb a88e <.literal16+0x158e>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt a882 <.literal16+0x1572>
+ DB 62,114,28 ; jb,pt a892 <.literal16+0x1592>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt a886 <.literal16+0x1576>
+ DB 62,114,28 ; jb,pt a896 <.literal16+0x1596>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt a88a <.literal16+0x157a>
+ DB 62,114,28 ; jb,pt a89a <.literal16+0x159a>
DB 199 ; (bad)
DB 62,171 ; ds stos %eax,%es:(%edi)
DB 170 ; stos %al,%es:(%edi)
@@ -57688,11 +57679,11 @@ ALIGN 16
DB 0,0 ; add %al,(%eax)
DB 128,63,114 ; cmpb $0x72,(%edi)
DB 28,199 ; sbb $0xc7,%al
- DB 62,114,28 ; jb,pt a8c2 <.literal16+0x15b2>
+ DB 62,114,28 ; jb,pt a8d2 <.literal16+0x15d2>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt a8c6 <.literal16+0x15b6>
+ DB 62,114,28 ; jb,pt a8d6 <.literal16+0x15d6>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt a8ca <.literal16+0x15ba>
+ DB 62,114,28 ; jb,pt a8da <.literal16+0x15da>
DB 199 ; (bad)
DB 62,171 ; ds stos %eax,%es:(%edi)
DB 170 ; stos %al,%es:(%edi)
@@ -57771,13 +57762,13 @@ ALIGN 16
DB 192,63,0 ; sarb $0x0,(%edi)
DB 0,192 ; add %al,%al
DB 63 ; aas
- DB 114,28 ; jb a98e <.literal16+0x167e>
+ DB 114,28 ; jb a99e <.literal16+0x169e>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt a992 <.literal16+0x1682>
+ DB 62,114,28 ; jb,pt a9a2 <.literal16+0x16a2>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt a996 <.literal16+0x1686>
+ DB 62,114,28 ; jb,pt a9a6 <.literal16+0x16a6>
DB 199 ; (bad)
- DB 62,114,28 ; jb,pt a99a <.literal16+0x168a>
+ DB 62,114,28 ; jb,pt a9aa <.literal16+0x16aa>
DB 199 ; (bad)
DB 62,171 ; ds stos %eax,%es:(%edi)
DB 170 ; stos %al,%es:(%edi)
@@ -57787,14 +57778,14 @@ ALIGN 16
DB 170 ; stos %al,%es:(%edi)
DB 170 ; stos %al,%es:(%edi)
DB 190,171,170,170,190 ; mov $0xbeaaaaab,%esi
- DB 114,249 ; jb a98b <.literal16+0x167b>
- DB 127,63 ; jg a9d3 <.literal16+0x16c3>
- DB 114,249 ; jb a98f <.literal16+0x167f>
- DB 127,63 ; jg a9d7 <.literal16+0x16c7>
- DB 114,249 ; jb a993 <.literal16+0x1683>
- DB 127,63 ; jg a9db <.literal16+0x16cb>
- DB 114,249 ; jb a997 <.literal16+0x1687>
- DB 127,63 ; jg a9df <.literal16+0x16cf>
+ DB 114,249 ; jb a99b <.literal16+0x169b>
+ DB 127,63 ; jg a9e3 <.literal16+0x16e3>
+ DB 114,249 ; jb a99f <.literal16+0x169f>
+ DB 127,63 ; jg a9e7 <.literal16+0x16e7>
+ DB 114,249 ; jb a9a3 <.literal16+0x16a3>
+ DB 127,63 ; jg a9eb <.literal16+0x16eb>
+ DB 114,249 ; jb a9a7 <.literal16+0x16a7>
+ DB 127,63 ; jg a9ef <.literal16+0x16ef>
DB 3,0 ; add (%eax),%eax
DB 0,0 ; add %al,(%eax)
DB 3,0 ; add (%eax),%eax
@@ -57819,14 +57810,14 @@ ALIGN 16
DB 0,0 ; add %al,(%eax)
DB 2,0 ; add (%eax),%al
DB 0,0 ; add %al,(%eax)
- DB 114,249 ; jb a9cb <.literal16+0x16bb>
- DB 127,63 ; jg aa13 <.literal16+0x1703>
- DB 114,249 ; jb a9cf <.literal16+0x16bf>
- DB 127,63 ; jg aa17 <.literal16+0x1707>
- DB 114,249 ; jb a9d3 <.literal16+0x16c3>
- DB 127,63 ; jg aa1b <.literal16+0x170b>
- DB 114,249 ; jb a9d7 <.literal16+0x16c7>
- DB 127,63 ; jg aa1f <.literal16+0x170f>
+ DB 114,249 ; jb a9db <.literal16+0x16db>
+ DB 127,63 ; jg aa23 <.literal16+0x1723>
+ DB 114,249 ; jb a9df <.literal16+0x16df>
+ DB 127,63 ; jg aa27 <.literal16+0x1727>
+ DB 114,249 ; jb a9e3 <.literal16+0x16e3>
+ DB 127,63 ; jg aa2b <.literal16+0x172b>
+ DB 114,249 ; jb a9e7 <.literal16+0x16e7>
+ DB 127,63 ; jg aa2f <.literal16+0x172f>
DB 3,0 ; add (%eax),%eax
DB 0,0 ; add %al,(%eax)
DB 3,0 ; add (%eax),%eax
diff --git a/src/jumper/SkJumper_stages.cpp b/src/jumper/SkJumper_stages.cpp
index 593a88c4e0..4b23892a9a 100644
--- a/src/jumper/SkJumper_stages.cpp
+++ b/src/jumper/SkJumper_stages.cpp
@@ -16,9 +16,6 @@ static const size_t kStride = sizeof(F) / sizeof(float);
// When defined(JUMPER_IS_SCALAR), F, I32, etc. are normal scalar types and kStride is 1.
// When not, F, I32, etc. are kStride-depp Clang ext_vector_type vectors of the appropriate type.
-// You can use most constants in this file, but in a few rare exceptions we read from this struct.
-using K = const SkJumper_constants;
-
// A little wrapper macro to name Stages differently depending on the instruction set.
// That lets us link together several options.
#if !defined(JUMPER_IS_OFFLINE)
@@ -49,14 +46,13 @@ using K = const SkJumper_constants;
// On ARMv7, we do the same so that we can make the r,g,b,a vectors wider.
struct Params {
size_t x, y, tail;
- K* k;
F dr,dg,db,da;
};
using Stage = void(Params*, void** program, F r, F g, F b, F a);
#else
// We keep program the second argument, so that it's passed in rsi for load_and_inc().
- using Stage = void(K* k, void** program, size_t x, size_t y, size_t tail, F,F,F,F, F,F,F,F);
+ using Stage = void(size_t tail, void** program, size_t x, size_t y, F,F,F,F, F,F,F,F);
#endif
#if defined(JUMPER_IS_AVX) || defined(JUMPER_IS_AVX2)
@@ -66,7 +62,7 @@ using K = const SkJumper_constants;
#endif
MAYBE_MSABI
extern "C" void WRAP(start_pipeline)(size_t x, size_t y, size_t xlimit, size_t ylimit,
- void** program, K* k) {
+ void** program) {
#if defined(JUMPER_IS_OFFLINE)
F v; // Really no need to intialize.
#else
@@ -76,7 +72,7 @@ extern "C" void WRAP(start_pipeline)(size_t x, size_t y, size_t xlimit, size_t y
const size_t x0 = x;
for (; y < ylimit; y++) {
#if defined(__i386__) || defined(_M_IX86) || defined(__arm__)
- Params params = { x0,y,0,k, v,v,v,v };
+ Params params = { x0,y,0, v,v,v,v };
while (params.x + kStride <= xlimit) {
start(&params,program, v,v,v,v);
params.x += kStride;
@@ -88,11 +84,11 @@ extern "C" void WRAP(start_pipeline)(size_t x, size_t y, size_t xlimit, size_t y
#else
x = x0;
while (x + kStride <= xlimit) {
- start(k,program,x,y,0, v,v,v,v, v,v,v,v);
+ start(0,program,x,y, v,v,v,v, v,v,v,v);
x += kStride;
}
if (size_t tail = xlimit - x) {
- start(k,program,x,y,tail, v,v,v,v, v,v,v,v);
+ start(tail,program,x,y, v,v,v,v, v,v,v,v);
}
#endif
}
@@ -100,30 +96,30 @@ extern "C" void WRAP(start_pipeline)(size_t x, size_t y, size_t xlimit, size_t y
#if defined(__i386__) || defined(_M_IX86) || defined(__arm__)
#define STAGE(name) \
- SI void name##_k(K* k, LazyCtx ctx, size_t x, size_t y, size_t tail, \
+ SI void name##_k(LazyCtx ctx, size_t x, size_t y, size_t tail, \
F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da); \
extern "C" void WRAP(name)(Params* params, void** program, \
F r, F g, F b, F a) { \
LazyCtx ctx(program); \
- name##_k(params->k,ctx,params->x,params->y,params->tail, r,g,b,a, \
+ name##_k(ctx,params->x,params->y,params->tail, r,g,b,a, \
params->dr, params->dg, params->db, params->da); \
auto next = (Stage*)load_and_inc(program); \
next(params,program, r,g,b,a); \
} \
- SI void name##_k(K* k, LazyCtx ctx, size_t x, size_t y, size_t tail, \
+ SI void name##_k(LazyCtx ctx, size_t x, size_t y, size_t tail, \
F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da)
#else
#define STAGE(name) \
- SI void name##_k(K* k, LazyCtx ctx, size_t x, size_t y, size_t tail, \
+ SI void name##_k(LazyCtx ctx, size_t x, size_t y, size_t tail, \
F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da); \
- extern "C" void WRAP(name)(K* k, void** program, size_t x, size_t y, size_t tail, \
+ extern "C" void WRAP(name)(size_t tail, void** program, size_t x, size_t y, \
F r, F g, F b, F a, F dr, F dg, F db, F da) { \
LazyCtx ctx(program); \
- name##_k(k,ctx,x,y,tail, r,g,b,a, dr,dg,db,da); \
+ name##_k(ctx,x,y,tail, r,g,b,a, dr,dg,db,da); \
auto next = (Stage*)load_and_inc(program); \
- next(k,program,x,y,tail, r,g,b,a, dr,dg,db,da); \
+ next(tail,program,x,y, r,g,b,a, dr,dg,db,da); \
} \
- SI void name##_k(K* k, LazyCtx ctx, size_t x, size_t y, size_t tail, \
+ SI void name##_k(LazyCtx ctx, size_t x, size_t y, size_t tail, \
F& r, F& g, F& b, F& a, F& dr, F& dg, F& db, F& da)
#endif
@@ -133,7 +129,7 @@ extern "C" void WRAP(start_pipeline)(size_t x, size_t y, size_t xlimit, size_t y
#if defined(__i386__) || defined(_M_IX86) || defined(__arm__)
extern "C" void WRAP(just_return)(Params*, void**, F,F,F,F) {}
#else
- extern "C" void WRAP(just_return)(K*, void**, size_t,size_t,size_t, F,F,F,F, F,F,F,F) {}
+ extern "C" void WRAP(just_return)(size_t, void**, size_t,size_t, F,F,F,F, F,F,F,F) {}
#endif
@@ -225,7 +221,8 @@ STAGE(seed_shader) {
// It's important for speed to explicitly cast(x) and cast(y),
// which has the effect of splatting them to vectors before converting to floats.
// On Intel this breaks a data dependency on previous loop iterations' registers.
- r = cast(x) + 0.5f + unaligned_load<F>(k->iota_F);
+ float iota[] = { 0,1,2,3,4,5,6,7 };
+ r = cast(x) + 0.5f + unaligned_load<F>(iota);
g = cast(y) + 0.5f;
b = 1.0f;
a = 0;
@@ -236,7 +233,8 @@ STAGE(dither) {
auto rate = *(const float*)ctx;
// Get [(x,y), (x+1,y), (x+2,y), ...] loaded up in integer vectors.
- U32 X = x + unaligned_load<U32>(k->iota_U32),
+ uint32_t iota[] = {0,1,2,3,4,5,6,7};
+ U32 X = x + unaligned_load<U32>(iota),
Y = y;
// We're doing 8x8 ordered dithering, see https://en.wikipedia.org/wiki/Ordered_dithering.
diff --git a/src/jumper/SkJumper_stages_8bit.cpp b/src/jumper/SkJumper_stages_8bit.cpp
index 49f22a5589..26432ca744 100644
--- a/src/jumper/SkJumper_stages_8bit.cpp
+++ b/src/jumper/SkJumper_stages_8bit.cpp
@@ -177,7 +177,7 @@ SI T* ptr_at_xy(const SkJumper_MemoryCtx* ctx, int x, int y) {
#endif
MAYBE_MSABI
extern "C" void WRAP(start_pipeline)(size_t x, size_t y, size_t xlimit, size_t ylimit,
- void** program, const SkJumper_constants*) {
+ void** program) {
#if defined(JUMPER_IS_OFFLINE)
R r; // Fastest to start uninitialized.
#else
@@ -505,7 +505,7 @@ SI T* ptr_at_xy(const SkJumper_MemoryCtx* ctx, int x, int y) {
V dr, V dg, V db, V da);
extern "C" void WRAP(start_pipeline)(size_t x, size_t y, size_t xlimit, size_t ylimit,
- void** program, const SkJumper_constants*) {
+ void** program) {
V v{};
auto start = (Stage*)load_and_inc(program);
const size_t x0 = x;