Merge upstream

author: Till Hoffmann <tillahoffmann@gmail.com> 2016-04-09 20:08:07 +0100
committer: Till Hoffmann <tillahoffmann@gmail.com> 2016-04-09 20:08:07 +0100
commit: 7f4826890cb5b7edddba57e38e67e9358b1a00c4 (patch)
tree: d219705ff1f66d0bde6559fc724574654766d471 /Eigen/src/Core/arch/NEON/PacketMath.h
parent: de057ebe541d5a6c1297ea94a89dcaf35582d44e (diff)
parent: af2161cdb4ec19fbc44bcf7bca7cae662b6b8085 (diff)
1 files changed, 26 insertions, 2 deletions
diff --git a/Eigen/src/Core/arch/NEON/PacketMath.h b/Eigen/src/Core/arch/NEON/PacketMath.h
index fead02916..3224c36bd 100644
--- a/Eigen/src/Core/arch/NEON/PacketMath.h
+++ b/Eigen/src/Core/arch/NEON/PacketMath.h
@@ -177,7 +177,11 @@ template<> EIGEN_STRONG_INLINE Packet4i pdiv<Packet4i>(const Packet4i& /*a*/, co
   return pset1<Packet4i>(0);
 }
 
-#ifdef __ARM_FEATURE_FMA
+// Clang/ARM wrongly advertises __ARM_FEATURE_FMA even when it's not available,
+// then implements a slow software scalar fallback calling fmaf()!
+// Filed LLVM bug:
+//     https://llvm.org/bugs/show_bug.cgi?id=27216
+#if (defined __ARM_FEATURE_FMA) && !(EIGEN_COMP_CLANG && EIGEN_ARCH_ARM)
 // See bug 936.
 // FMA is available on VFPv4 i.e. when compiling with -mfpu=neon-vfpv4.
 // FMA is a true fused multiply-add i.e. only 1 rounding at the end, no intermediate rounding.
@@ -186,7 +190,27 @@ template<> EIGEN_STRONG_INLINE Packet4i pdiv<Packet4i>(const Packet4i& /*a*/, co
 // MLA: 10 GFlop/s ; FMA: 12 GFlops/s.
 template<> EIGEN_STRONG_INLINE Packet4f pmadd(const Packet4f& a, const Packet4f& b, const Packet4f& c) { return vfmaq_f32(c,a,b); }
 #else
-template<> EIGEN_STRONG_INLINE Packet4f pmadd(const Packet4f& a, const Packet4f& b, const Packet4f& c) { return vmlaq_f32(c,a,b); }
+template<> EIGEN_STRONG_INLINE Packet4f pmadd(const Packet4f& a, const Packet4f& b, const Packet4f& c) {
+#if EIGEN_COMP_CLANG && EIGEN_ARCH_ARM
+  // Clang/ARM will replace VMLA by VMUL+VADD at least for some values of -mcpu,
+  // at least -mcpu=cortex-a8 and -mcpu=cortex-a7. Since the former is the default on
+  // -march=armv7-a, that is a very common case.
+  // See e.g. this thread:
+  //     http://lists.llvm.org/pipermail/llvm-dev/2013-December/068806.html
+  // Filed LLVM bug:
+  //     https://llvm.org/bugs/show_bug.cgi?id=27219
+  Packet4f r = c;
+  asm volatile(
+    "vmla.f32 %q[r], %q[a], %q[b]"
+    : [r] "+w" (r)
+    : [a] "w" (a),
+      [b] "w" (b)
+    : );
+  return r;
+#else
+  return vmlaq_f32(c,a,b);
+#endif
+}
 #endif
 
 // No FMA instruction for int, so use MLA unconditionally.
author	Till Hoffmann <tillahoffmann@gmail.com>	2016-04-09 20:08:07 +0100
committer	Till Hoffmann <tillahoffmann@gmail.com>	2016-04-09 20:08:07 +0100
commit	7f4826890cb5b7edddba57e38e67e9358b1a00c4 (patch)
tree	d219705ff1f66d0bde6559fc724574654766d471 /Eigen/src/Core/arch/NEON/PacketMath.h
parent	de057ebe541d5a6c1297ea94a89dcaf35582d44e (diff)
parent	af2161cdb4ec19fbc44bcf7bca7cae662b6b8085 (diff)