Xfermode: SSE2 implementation of multiply_modeproc

This patch implements basics for Xfermode SSE optimization. Based on these basics, SSE2 implementation of multiply_modeproc is provided. SSE2 implementation for other modes will come in future. With this patch performance of Xfermode_Multiply will improve about 45%. Here are the data on desktop i7-3770. before: Xfermode_Multiply 8888: cmsecs = 33.30 565: cmsecs = 45.65 after: Xfermode_Multiply 8888: cmsecs = 17.18 565: cmsecs = 24.87 BUG= R=mtklein@google.com Author: qiankun.miao@intel.com Review URL: https://codereview.chromium.org/202903004 git-svn-id: http://skia.googlecode.com/svn/trunk@14006 2bbb7eff-a529-9590-31e7-b0007b416f81
author: commit-bot@chromium.org <commit-bot@chromium.org@2bbb7eff-a529-9590-31e7-b0007b416f81> 2014-04-01 14:01:32 +0000
committer: commit-bot@chromium.org <commit-bot@chromium.org@2bbb7eff-a529-9590-31e7-b0007b416f81> 2014-04-01 14:01:32 +0000
commit: 25f7455f3a7cf2c440509bead85486079f1e4b31 (patch)
tree: d9f77e2f326b21f340a42b2dd2072e7dc97d29e4 /src/opts/SkBlitRow_opts_SSE2.cpp
parent: 96050eb5a16059238d060f0db7d2a2e48d190c29 (diff)
1 files changed, 20 insertions, 20 deletions
diff --git a/src/opts/SkBlitRow_opts_SSE2.cpp b/src/opts/SkBlitRow_opts_SSE2.cpp
index 4aa08e8165..d1474f4a67 100644
--- a/src/opts/SkBlitRow_opts_SSE2.cpp
+++ b/src/opts/SkBlitRow_opts_SSE2.cpp
@@ -914,7 +914,7 @@ void S32_D565_Opaque_SSE2(uint16_t* SK_RESTRICT dst,
             __m128i b = _mm_packs_epi32(b1, b2);
 
             // Store 8 16-bit colors in dst.
-            __m128i d_pixel = SkPackRGB16_SSE(r, g, b);
+            __m128i d_pixel = SkPackRGB16_SSE2(r, g, b);
             _mm_store_si128(d++, d_pixel);
             count -= 8;
         }
@@ -983,54 +983,54 @@ void S32A_D565_Opaque_SSE2(uint16_t* SK_RESTRICT dst,
             __m128i dst_pixel = _mm_load_si128(d);
 
             // Extract A from src.
-            __m128i sa1 = _mm_slli_epi32(src_pixel1,(24 - SK_A32_SHIFT));
+            __m128i sa1 = _mm_slli_epi32(src_pixel1, (24 - SK_A32_SHIFT));
             sa1 = _mm_srli_epi32(sa1, 24);
-            __m128i sa2 = _mm_slli_epi32(src_pixel2,(24 - SK_A32_SHIFT));
+            __m128i sa2 = _mm_slli_epi32(src_pixel2, (24 - SK_A32_SHIFT));
             sa2 = _mm_srli_epi32(sa2, 24);
             __m128i sa = _mm_packs_epi32(sa1, sa2);
 
             // Extract R from src.
-            __m128i sr1 = _mm_slli_epi32(src_pixel1,(24 - SK_R32_SHIFT));
+            __m128i sr1 = _mm_slli_epi32(src_pixel1, (24 - SK_R32_SHIFT));
             sr1 = _mm_srli_epi32(sr1, 24);
-            __m128i sr2 = _mm_slli_epi32(src_pixel2,(24 - SK_R32_SHIFT));
+            __m128i sr2 = _mm_slli_epi32(src_pixel2, (24 - SK_R32_SHIFT));
             sr2 = _mm_srli_epi32(sr2, 24);
             __m128i sr = _mm_packs_epi32(sr1, sr2);
 
             // Extract G from src.
-            __m128i sg1 = _mm_slli_epi32(src_pixel1,(24 - SK_G32_SHIFT));
+            __m128i sg1 = _mm_slli_epi32(src_pixel1, (24 - SK_G32_SHIFT));
             sg1 = _mm_srli_epi32(sg1, 24);
-            __m128i sg2 = _mm_slli_epi32(src_pixel2,(24 - SK_G32_SHIFT));
+            __m128i sg2 = _mm_slli_epi32(src_pixel2, (24 - SK_G32_SHIFT));
             sg2 = _mm_srli_epi32(sg2, 24);
             __m128i sg = _mm_packs_epi32(sg1, sg2);
 
             // Extract B from src.
-            __m128i sb1 = _mm_slli_epi32(src_pixel1,(24 - SK_B32_SHIFT));
+            __m128i sb1 = _mm_slli_epi32(src_pixel1, (24 - SK_B32_SHIFT));
             sb1 = _mm_srli_epi32(sb1, 24);
-            __m128i sb2 = _mm_slli_epi32(src_pixel2,(24 - SK_B32_SHIFT));
+            __m128i sb2 = _mm_slli_epi32(src_pixel2, (24 - SK_B32_SHIFT));
             sb2 = _mm_srli_epi32(sb2, 24);
             __m128i sb = _mm_packs_epi32(sb1, sb2);
 
             // Extract R G B from dst.
-            __m128i dr = _mm_srli_epi16(dst_pixel,SK_R16_SHIFT);
+            __m128i dr = _mm_srli_epi16(dst_pixel, SK_R16_SHIFT);
             dr = _mm_and_si128(dr, r16_mask);
-            __m128i dg = _mm_srli_epi16(dst_pixel,SK_G16_SHIFT);
+            __m128i dg = _mm_srli_epi16(dst_pixel, SK_G16_SHIFT);
             dg = _mm_and_si128(dg, g16_mask);
-            __m128i db = _mm_srli_epi16(dst_pixel,SK_B16_SHIFT);
+            __m128i db = _mm_srli_epi16(dst_pixel, SK_B16_SHIFT);
             db = _mm_and_si128(db, b16_mask);
 
             __m128i isa = _mm_sub_epi16(var255, sa); // 255 -sa
 
             // Calculate R G B of result.
             // Original algorithm is in SkSrcOver32To16().
-            dr = _mm_add_epi16(sr, SkMul16ShiftRound_SSE(dr, isa, SK_R16_BITS));
+            dr = _mm_add_epi16(sr, SkMul16ShiftRound_SSE2(dr, isa, SK_R16_BITS));
             dr = _mm_srli_epi16(dr, 8 - SK_R16_BITS);
-            dg = _mm_add_epi16(sg, SkMul16ShiftRound_SSE(dg, isa, SK_G16_BITS));
+            dg = _mm_add_epi16(sg, SkMul16ShiftRound_SSE2(dg, isa, SK_G16_BITS));
             dg = _mm_srli_epi16(dg, 8 - SK_G16_BITS);
-            db = _mm_add_epi16(sb, SkMul16ShiftRound_SSE(db, isa, SK_B16_BITS));
+            db = _mm_add_epi16(sb, SkMul16ShiftRound_SSE2(db, isa, SK_B16_BITS));
             db = _mm_srli_epi16(db, 8 - SK_B16_BITS);
 
             // Pack R G B into 16-bit color.
-            __m128i d_pixel = SkPackRGB16_SSE(dr, dg, db);
+            __m128i d_pixel = SkPackRGB16_SSE2(dr, dg, db);
 
             // Store 8 16-bit colors in dst.
             _mm_store_si128(d++, d_pixel);
@@ -1143,7 +1143,7 @@ void S32_D565_Opaque_Dither_SSE2(uint16_t* SK_RESTRICT dst,
             sb = _mm_srli_epi16(sb, SK_B32_BITS - SK_B16_BITS);
 
             // Pack and store 16-bit dst pixel.
-            __m128i d_pixel = SkPackRGB16_SSE(sr, sg, sb);
+            __m128i d_pixel = SkPackRGB16_SSE2(sr, sg, sb);
             _mm_store_si128(d++, d_pixel);
 
             count -= 8;
@@ -1242,9 +1242,9 @@ void S32A_D565_Opaque_Dither_SSE2(uint16_t* SK_RESTRICT dst,
             __m128i dst_pixel = _mm_load_si128(d);
 
             // Extract A from src.
-            __m128i sa1 = _mm_slli_epi32(src_pixel1,(24 - SK_A32_SHIFT));
+            __m128i sa1 = _mm_slli_epi32(src_pixel1, (24 - SK_A32_SHIFT));
             sa1 = _mm_srli_epi32(sa1, 24);
-            __m128i sa2 = _mm_slli_epi32(src_pixel2,(24 - SK_A32_SHIFT));
+            __m128i sa2 = _mm_slli_epi32(src_pixel2, (24 - SK_A32_SHIFT));
             sa2 = _mm_srli_epi32(sa2, 24);
             __m128i sa = _mm_packs_epi32(sa1, sa2);
 
@@ -1323,7 +1323,7 @@ void S32A_D565_Opaque_Dither_SSE2(uint16_t* SK_RESTRICT dst,
             db = _mm_srli_epi16(db, 5);
 
             // Package and store dst pixel.
-            __m128i d_pixel = SkPackRGB16_SSE(dr, dg, db);
+            __m128i d_pixel = SkPackRGB16_SSE2(dr, dg, db);
             _mm_store_si128(d++, d_pixel);
 
             count -= 8;
author	commit-bot@chromium.org <commit-bot@chromium.org@2bbb7eff-a529-9590-31e7-b0007b416f81>	2014-04-01 14:01:32 +0000
committer	commit-bot@chromium.org <commit-bot@chromium.org@2bbb7eff-a529-9590-31e7-b0007b416f81>	2014-04-01 14:01:32 +0000
commit	25f7455f3a7cf2c440509bead85486079f1e4b31 (patch)
tree	d9f77e2f326b21f340a42b2dd2072e7dc97d29e4 /src/opts/SkBlitRow_opts_SSE2.cpp
parent	96050eb5a16059238d060f0db7d2a2e48d190c29 (diff)