Tree - rpms/ntl - src.fedoraproject.org

rpms / ntl

Blame ntl-loadtime-cpu.patch

Blob History Raw

		a541994	`--- doc/config.txt.orig 2016-10-14 07:53:33.000000000 -0600`
		a541994	`+++ doc/config.txt 2016-10-19 19:06:48.837854327 -0600`
		a541994	`@@ -300,6 +300,7 @@ NTL_AVOID_BRANCHING=off`
		a541994	`NTL_GF2X_NOINLINE=off`
		0da5f48	`NTL_GF2X_ALTCODE=off`
		0da5f48	`NTL_GF2X_ALTCODE1=off`
		0da5f48	`+NTL_LOADTIME_CPU=off`
		0da5f48
		0da5f48	`GMP_INCDIR=$(GMP_PREFIX)/include`
		0da5f48	`GMP_LIBDIR=$(GMP_PREFIX)/lib`
		a541994	`@@ -597,6 +598,10 @@ NTL_GF2X_ALTCODE1=off`
		a541994
		a541994	`# Yet another alternative implementation for GF2X multiplication.`
		0da5f48
		0da5f48	`+NTL_LOADTIME_CPU=off`
		0da5f48	`+`
		0da5f48	`+# switch to check CPU characteristics at load time and use routines`
		0da5f48	`+# optimized for the executing CPU.`
		0da5f48
		0da5f48
		0da5f48	`########## More GMP Options:`
		a541994	`--- include/NTL/config.h.orig 2016-10-14 07:53:33.000000000 -0600`
		a541994	`+++ include/NTL/config.h 2016-10-19 19:03:46.635500859 -0600`
		a541994	`@@ -475,6 +475,20 @@ using the configure script.`
		0da5f48	`#endif`
		0da5f48
		0da5f48
		0da5f48	`+#if 0`
		0da5f48	`+#define NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+/*`
		0da5f48	`+ * With this flag enabled, detect advanced CPU features at load time instead`
		0da5f48	`+ * of at compile time. This flag is intended for distributions, so that they`
		0da5f48	`+ * can compile for the lowest common denominator CPU, but still support newer`
		0da5f48	`+ * CPUs.`
		0da5f48	`+ *`
		0da5f48	`+ * This flag is useful only on x86_64 platforms with gcc 4.8 or later.`
		0da5f48	`+ */`
		0da5f48	`+`
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48
		0da5f48
		0da5f48
		a541994	`--- include/NTL/ctools.h.orig 2016-10-14 07:53:32.000000000 -0600`
		a541994	`+++ include/NTL/ctools.h 2016-10-19 19:03:46.636500779 -0600`
		a541994	`@@ -447,6 +447,136 @@ char _ntl_make_aligned(char p, long al`
		0da5f48	`// and it should also be as big as a cache line`
		0da5f48
		a541994
		0da5f48	`+/* Determine CPU characteristics at runtime */`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+#if !defined(__x86_64__)`
		0da5f48	`+#error Runtime CPU support is only available on x86_64.`
		0da5f48	`+#endif`
		0da5f48	`+#ifndef __GNUC__`
		0da5f48	`+#error Runtime CPU support is only available with GCC.`
		0da5f48	`+#endif`
		0da5f48	`+#if __GNUC__ < 4 \|\| (__GNUC__ == 4 && __GNUC_MINOR__ < 6)`
		0da5f48	`+#error Runtime CPU support is only available with GCC 4.6 or later.`
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48	`+#include <cpuid.h>`
		0da5f48	`+#ifndef bit_PCLMUL`
		0da5f48	`+#define bit_PCLMUL (1 << 1)`
		0da5f48	`+#endif`
		0da5f48	`+#ifndef bit_AVX`
		0da5f48	`+#define bit_AVX (1 << 28)`
		0da5f48	`+#endif`
		0da5f48	`+#ifndef bit_FMA`
		0da5f48	`+#define bit_FMA (1 << 12)`
		0da5f48	`+#endif`
		0da5f48	`+#ifndef bit_AVX2`
		0da5f48	`+#define bit_AVX2 (1 << 5)`
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48	`+#define BASE_FUNC(type,name) static type name##_base`
		0da5f48	`+#define TARGET_FUNC(arch,suffix,type,name) \`
		0da5f48	`+ static type __attribute__((target (arch))) name##_##suffix`
		0da5f48	`+#define PCLMUL_FUNC(type,name) TARGET_FUNC("pclmul",pclmul,type,name)`
		0da5f48	`+#define AVX_FUNC(type,name) TARGET_FUNC("avx,pclmul",avx,type,name)`
		0da5f48	`+#define FMA_FUNC(type,name) TARGET_FUNC("fma,avx,pclmul",fma,type,name)`
		0da5f48	`+#define AVX2_FUNC(type,name) TARGET_FUNC("avx2,fma,avx,pclmul",avx2,type,name)`
		0da5f48	`+#define PCLMUL_RESOLVER(type,name,params) \`
		0da5f48	`+ extern "C" { \`
		0da5f48	`+ static void __attribute__((optimize ("O0"))) \`
		0da5f48	`+ (*resolve_##name (void))(void) { \`
		0da5f48	`+ if (__builtin_expect(have_pclmul, 0) < 0) { \`
		0da5f48	`+ unsigned int eax, ebx, ecx, edx; \`
		0da5f48	`+ if (__get_cpuid(1, &eax, &ebx, &ecx, &edx)) { \`
		0da5f48	`+ have_pclmul = ((ecx & bit_PCLMUL) != 0); \`
		0da5f48	`+ have_avx = ((ecx & bit_AVX) != 0); \`
		0da5f48	`+ have_fma = ((ecx & bit_FMA) != 0); \`
		0da5f48	`+ } else { \`
		0da5f48	`+ have_pclmul = 0; \`
		0da5f48	`+ have_avx = 0; \`
		0da5f48	`+ have_fma = 0; \`
		0da5f48	`+ } \`
		0da5f48	`+ } \`
		0da5f48	`+ if (have_avx) return (void (*)(void))&name##_avx; \`
		0da5f48	`+ if (have_pclmul) return (void (*)(void))&name##_pclmul; \`
		0da5f48	`+ return (void (*)(void))&name##_base; \`
		0da5f48	`+ } \`
		0da5f48	`+ } \`
		0da5f48	`+ type __attribute__((ifunc ("resolve_" #name))) name params`
		0da5f48	`+#define AVX_RESOLVER(type,name,params) \`
		0da5f48	`+ extern "C" { \`
		0da5f48	`+ static void __attribute__((optimize ("O0"))) \`
		0da5f48	`+ (*resolve_##name (void))(void) { \`
		0da5f48	`+ if (__builtin_expect(have_pclmul, 0) < 0) { \`
		0da5f48	`+ unsigned int eax, ebx, ecx, edx; \`
		0da5f48	`+ if (__get_cpuid(1, &eax, &ebx, &ecx, &edx)) { \`
		0da5f48	`+ have_pclmul = ((ecx & bit_PCLMUL) != 0); \`
		0da5f48	`+ have_avx = ((ecx & bit_AVX) != 0); \`
		0da5f48	`+ have_fma = ((ecx & bit_FMA) != 0); \`
		0da5f48	`+ } else { \`
		0da5f48	`+ have_pclmul = 0; \`
		0da5f48	`+ have_avx = 0; \`
		0da5f48	`+ have_fma = 0; \`
		0da5f48	`+ } \`
		0da5f48	`+ } \`
		0da5f48	`+ return have_avx \`
		0da5f48	`+ ? (void (*)(void))&name##_avx \`
		0da5f48	`+ : (void (*)(void))&name##_base; \`
		0da5f48	`+ } \`
		0da5f48	`+ } \`
		0da5f48	`+ type __attribute__((ifunc ("resolve_" #name))) name params`
		0da5f48	`+#define FMA_RESOLVER(type,name,params) \`
		0da5f48	`+ extern "C" { \`
		0da5f48	`+ static void __attribute__((optimize ("O0"))) \`
		0da5f48	`+ (*resolve_##name (void))(void) { \`
		0da5f48	`+ if (__builtin_expect(have_pclmul, 0) < 0) { \`
		0da5f48	`+ unsigned int eax, ebx, ecx, edx; \`
		0da5f48	`+ if (__get_cpuid(1, &eax, &ebx, &ecx, &edx)) { \`
		0da5f48	`+ have_pclmul = ((ecx & bit_PCLMUL) != 0); \`
		0da5f48	`+ have_avx = ((ecx & bit_AVX) != 0); \`
		0da5f48	`+ have_fma = ((ecx & bit_FMA) != 0); \`
		0da5f48	`+ } else { \`
		0da5f48	`+ have_pclmul = 0; \`
		0da5f48	`+ have_avx = 0; \`
		0da5f48	`+ have_fma = 0; \`
		0da5f48	`+ } \`
		0da5f48	`+ } \`
		0da5f48	`+ return have_fma \`
		0da5f48	`+ ? (void (*)(void))&name##_fma \`
		0da5f48	`+ : (void (*)(void))&name##_avx; \`
		0da5f48	`+ } \`
		0da5f48	`+ } \`
		0da5f48	`+ type __attribute__((ifunc ("resolve_" #name))) name params`
		0da5f48	`+#define AVX2_RESOLVER(type,name,params) \`
		0da5f48	`+ extern "C" { \`
		0da5f48	`+ static void __attribute__((optimize ("O0"))) \`
		0da5f48	`+ (*resolve_##name (void))(void) { \`
		0da5f48	`+ if (__builtin_expect(have_avx2, 0) < 0) { \`
		0da5f48	`+ unsigned int eax, ebx, ecx, edx; \`
		0da5f48	`+ if (__get_cpuid(7, &eax, &ebx, &ecx, &edx)) { \`
		0da5f48	`+ have_avx2 = ((ebx & bit_AVX2) != 0); \`
		0da5f48	`+ } else { \`
		0da5f48	`+ have_avx2 = 0; \`
		0da5f48	`+ } \`
		0da5f48	`+ } \`
		0da5f48	`+ if (__builtin_expect(have_pclmul, 0) < 0) { \`
		0da5f48	`+ unsigned int eax, ebx, ecx, edx; \`
		0da5f48	`+ if (__get_cpuid(1, &eax, &ebx, &ecx, &edx)) { \`
		0da5f48	`+ have_pclmul = ((ecx & bit_PCLMUL) != 0); \`
		0da5f48	`+ have_avx = ((ecx & bit_AVX) != 0); \`
		0da5f48	`+ have_fma = ((ecx & bit_FMA) != 0); \`
		0da5f48	`+ } else { \`
		0da5f48	`+ have_pclmul = 0; \`
		0da5f48	`+ have_avx = 0; \`
		0da5f48	`+ have_fma = 0; \`
		0da5f48	`+ } \`
		0da5f48	`+ } \`
		0da5f48	`+ return have_avx2 \`
		0da5f48	`+ ? (void (*)(void))&name##_avx2 \`
		0da5f48	`+ : (void (*)(void))&name##_fma; \`
		0da5f48	`+ } \`
		0da5f48	`+ } \`
		0da5f48	`+ type __attribute__((ifunc ("resolve_" #name))) name params`
		0da5f48	`+#endif`
		0da5f48
		a541994	`#ifdef NTL_HAVE_BUILTIN_CLZL`
		0da5f48
		a541994	`--- include/NTL/def_config.h.orig 2016-10-14 07:53:33.000000000 -0600`
		a541994	`+++ include/NTL/def_config.h 2016-10-19 19:03:46.637500698 -0600`
		a541994	`@@ -475,6 +475,19 @@ using the configure script.`
		0da5f48	`#endif`
		0da5f48
		0da5f48
		0da5f48	`+#if 0`
		0da5f48	`+#define NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+/*`
		0da5f48	`+ * With this flag enabled, detect advanced CPU features at load time instead`
		0da5f48	`+ * of at compile time. This flag is intended for distributions, so that they`
		0da5f48	`+ * can compile for the lowest common denominator CPU, but still support newer`
		0da5f48	`+ * CPUs.`
		0da5f48	`+ *`
		0da5f48	`+ * This flag is useful only on x86_64 platforms with gcc 4.8 or later.`
		0da5f48	`+ */`
		0da5f48	`+`
		0da5f48	`+#endif`
		0da5f48
		0da5f48
		0da5f48
		a541994	`--- src/cfile.orig 2016-10-14 07:53:32.000000000 -0600`
		a541994	`+++ src/cfile 2016-10-19 19:03:46.637500698 -0600`
		a541994	`@@ -475,6 +475,20 @@ using the configure script.`
		0da5f48	`#endif`
		0da5f48
		0da5f48
		0da5f48	`+#if @{NTL_LOADTIME_CPU}`
		0da5f48	`+#define NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+/*`
		0da5f48	`+ * With this flag enabled, detect advanced CPU features at load time instead`
		0da5f48	`+ * of at compile time. This flag is intended for distributions, so that they`
		0da5f48	`+ * can compile for the lowest common denominator CPU, but still support newer`
		0da5f48	`+ * CPUs.`
		0da5f48	`+ *`
		0da5f48	`+ * This flag is useful only on x86_64 platforms with gcc 4.8 or later.`
		0da5f48	`+ */`
		0da5f48	`+`
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48
		0da5f48	`@{WIZARD_HACK}`
		0da5f48
		a541994	`--- src/DispSettings.cpp.orig 2016-10-14 07:53:32.000000000 -0600`
		a541994	`+++ src/DispSettings.cpp 2016-10-19 19:03:46.637500698 -0600`
		a541994	`@@ -164,6 +164,10 @@ cout << "Performance Options:\n";`
		a541994	`cout << "NTL_GF2X_NOINLINE\n";`
		0da5f48	`#endif`
		0da5f48
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+ cout << "NTL_LOADTIME_CPU\n";`
		0da5f48	`+#endif`
		e69d8b7	`+`
		0da5f48
		e69d8b7	`cout << "***************************/\n";`
		0da5f48	`cout << "\n\n";`
		a541994	`--- src/DoConfig.orig 2016-10-14 07:53:32.000000000 -0600`
		a541994	`+++ src/DoConfig 2016-10-19 19:09:03.299035983 -0600`
		0da5f48	`@@ -1,7 +1,7 @@`
		0da5f48	`# This is a perl script, invoked from a shell`
		0da5f48
		0da5f48	`# use warnings; # this doesn't work on older versions of perl`
		0da5f48	`-`
		0da5f48	`+use Config;`
		0da5f48
		0da5f48
		0da5f48	`%MakeFlag = (`
		a541994	`@@ -82,6 +82,7 @@`
		a541994	`'NTL_GF2X_NOINLINE' => 'off',`
		a541994	`'NTL_GF2X_ALTCODE' => 'off',`
		a541994	`'NTL_GF2X_ALTCODE1' => 'off',`
		0da5f48	`+'NTL_LOADTIME_CPU' => 'off',`
		0da5f48
		0da5f48
		a541994	`);`
		a541994	`@@ -191,6 +192,15 @@ if ($ConfigFlag{'NTL_THREAD_BOOST'} eq '`
		0da5f48	`}`
		0da5f48
		0da5f48
		0da5f48	`+# special processing: NTL_LOADTIME_CPU on x86/x86_64 only and => NTL_GF2X_NOINLINE`
		0da5f48	`+`
		0da5f48	`+if ($ConfigFlag{'NTL_LOADTIME_CPU'} eq 'on') {`
		0da5f48	`+ if (!$Config{archname} =~ /x86_64/) {`
		0da5f48	`+ die "Error: NTL_LOADTIME_CPU currently only available with x86_64...sorry\n";`
		0da5f48	`+ }`
		0da5f48	`+ $ConfigFlag{'NTL_GF2X_NOINLINE'} = 'on';`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48
		0da5f48	`# some special MakeVal values that are determined by SHARED`
		0da5f48
		a541994	`--- src/GF2X1.cpp.orig 2016-10-19 19:03:46.640500457 -0600`
		a541994	`+++ src/GF2X1.cpp 2016-10-19 19:10:34.740694338 -0600`
		0da5f48	`@@ -19,7 +19,7 @@`
		0da5f48	`// simple scaling factor for some crossover points:`
		0da5f48	`// we use a lower crossover of the underlying multiplication`
		0da5f48	`// is faster`
		a541994	`-#if (defined(NTL_GF2X_LIB) \|\| defined(NTL_HAVE_PCLMUL))`
		a541994	`+#if (defined(NTL_GF2X_LIB) \|\| defined(NTL_HAVE_PCLMUL) \|\| defined(NTL_LOADTIME_CPU))`
		0da5f48	`#define XOVER_SCALE (1L)`
		0da5f48	`#else`
		0da5f48	`#define XOVER_SCALE (2L)`
		a541994	`--- src/GF2X.cpp.orig 2016-10-14 07:53:31.000000000 -0600`
		a541994	`+++ src/GF2X.cpp 2016-10-19 19:46:20.799482817 -0600`
		a541994	`@@ -28,6 +28,22 @@ pclmul_mul1 (unsigned long *c, unsigned`
		0da5f48	`_mm_storeu_si128((__m128i*)c, _mm_clmulepi64_si128(aa, bb, 0));`
		0da5f48	`}`
		a541994
		0da5f48	`+#elif defined (NTL_LOADTIME_CPU)`
		0da5f48	`+`
		0da5f48	`+#include <wmmintrin.h>`
		0da5f48	`+`
		0da5f48	`+static int have_pclmul = -1;`
		0da5f48	`+static int have_avx = -1;`
		0da5f48	`+static int have_fma = -1;`
		0da5f48	`+`
		0da5f48	`+#define NTL_INLINE inline`
		0da5f48	`+`
		a541994	`+#define pclmul_mul1(c,a,b) do { \`
		0da5f48	`+ __m128i aa = _mm_setr_epi64( _mm_cvtsi64_m64(a), _mm_cvtsi64_m64(0)); \`
		0da5f48	`+ __m128i bb = _mm_setr_epi64( _mm_cvtsi64_m64(b), _mm_cvtsi64_m64(0)); \`
		a541994	`+ _mm_storeu_si128((__m128i*)(c), _mm_clmulepi64_si128(aa, bb, 0)); \`
		0da5f48	`+} while (0)`
		0da5f48	`+`
		0da5f48	`#else`
		0da5f48
		0da5f48
		a541994	`@@ -576,6 +592,27 @@ void add(GF2X& x, const GF2X& a, const G`
		0da5f48
		0da5f48
		0da5f48
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+BASE_FUNC(void,mul1)(_ntl_ulong *c, _ntl_ulong a, _ntl_ulong b)`
		0da5f48	`+{`
		0da5f48	`+ NTL_EFF_BB_MUL_CODE0`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_FUNC(void,mul1)(_ntl_ulong *c, _ntl_ulong a, _ntl_ulong b)`
		0da5f48	`+{`
		0da5f48	`+ pclmul_mul1(c, a, b);`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,mul1)(_ntl_ulong *c, _ntl_ulong a, _ntl_ulong b)`
		0da5f48	`+{`
		0da5f48	`+ pclmul_mul1(c, a, b);`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_RESOLVER(static void,mul1,(_ntl_ulong *c, _ntl_ulong a, _ntl_ulong b));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48	`+`
		a541994	`static NTL_INLINE`
		0da5f48	`void mul1(_ntl_ulong *c, _ntl_ulong a, _ntl_ulong b)`
		0da5f48	`{`
		a541994	`@@ -588,6 +625,7 @@ NTL_EFF_BB_MUL_CODE0`
		0da5f48
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		0da5f48
		0da5f48	`#ifdef NTL_GF2X_NOINLINE`
		0da5f48
		a541994	`@@ -612,6 +650,51 @@ NTL_EFF_BB_MUL_CODE0`
		0da5f48	`#endif`
		0da5f48
		0da5f48
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+BASE_FUNC(void,Mul1)`
		0da5f48	`+(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`+{`
		0da5f48	`+ NTL_EFF_BB_MUL_CODE1`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_FUNC(void,Mul1)`
		0da5f48	`+(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`+{`
		0da5f48	`+ long i;`
		0da5f48	`+ unsigned long carry, prod[2];`
		0da5f48	`+`
		0da5f48	`+ carry = 0;`
		0da5f48	`+ for (i = 0; i < sb; i++) {`
		0da5f48	`+ pclmul_mul1(prod, bp[i], a);`
		0da5f48	`+ cp[i] = carry ^ prod[0];`
		0da5f48	`+ carry = prod[1];`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ cp[sb] = carry;`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,Mul1)`
		0da5f48	`+(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`+{`
		0da5f48	`+ long i;`
		0da5f48	`+ unsigned long carry, prod[2];`
		0da5f48	`+`
		0da5f48	`+ carry = 0;`
		0da5f48	`+ for (i = 0; i < sb; i++) {`
		0da5f48	`+ pclmul_mul1(prod, bp[i], a);`
		0da5f48	`+ cp[i] = carry ^ prod[0];`
		0da5f48	`+ carry = prod[1];`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ cp[sb] = carry;`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_RESOLVER(static void,Mul1,`
		0da5f48	`+ (_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48	`+`
		0da5f48	`static`
		0da5f48	`void Mul1(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`{`
		a541994	`@@ -639,6 +722,53 @@ NTL_EFF_BB_MUL_CODE1`
		0da5f48
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+BASE_FUNC(void,AddMul1)`
		0da5f48	`+(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`+{`
		0da5f48	`+ NTL_EFF_BB_MUL_CODE2`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_FUNC(void,AddMul1)`
		0da5f48	`+(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`+{`
		0da5f48	`+ long i;`
		0da5f48	`+ unsigned long carry, prod[2];`
		0da5f48	`+`
		0da5f48	`+ carry = 0;`
		0da5f48	`+ for (i = 0; i < sb; i++) {`
		0da5f48	`+ pclmul_mul1(prod, bp[i], a);`
		0da5f48	`+ cp[i] ^= carry ^ prod[0];`
		0da5f48	`+ carry = prod[1];`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ cp[sb] ^= carry;`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,AddMul1)`
		0da5f48	`+(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`+{`
		0da5f48	`+ long i;`
		0da5f48	`+ unsigned long carry, prod[2];`
		0da5f48	`+`
		0da5f48	`+ carry = 0;`
		0da5f48	`+ for (i = 0; i < sb; i++) {`
		0da5f48	`+ pclmul_mul1(prod, bp[i], a);`
		0da5f48	`+ cp[i] ^= carry ^ prod[0];`
		0da5f48	`+ carry = prod[1];`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ cp[sb] ^= carry;`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_RESOLVER(static void,AddMul1,`
		0da5f48	`+ (_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48	`+`
		0da5f48	`static`
		0da5f48	`void AddMul1(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`{`
		a541994	`@@ -667,6 +797,52 @@ NTL_EFF_BB_MUL_CODE2`
		0da5f48
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+BASE_FUNC(void,Mul1_short)`
		0da5f48	`+(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`+{`
		0da5f48	`+ NTL_EFF_SHORT_BB_MUL_CODE1`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_FUNC(void,Mul1_short)`
		0da5f48	`+(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`+{`
		0da5f48	`+ long i;`
		0da5f48	`+ unsigned long carry, prod[2];`
		0da5f48	`+`
		0da5f48	`+ carry = 0;`
		0da5f48	`+ for (i = 0; i < sb; i++) {`
		0da5f48	`+ pclmul_mul1(prod, bp[i], a);`
		0da5f48	`+ cp[i] = carry ^ prod[0];`
		0da5f48	`+ carry = prod[1];`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ cp[sb] = carry;`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,Mul1_short)`
		0da5f48	`+(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		0da5f48	`+{`
		0da5f48	`+ long i;`
		0da5f48	`+ unsigned long carry, prod[2];`
		0da5f48	`+`
		0da5f48	`+ carry = 0;`
		0da5f48	`+ for (i = 0; i < sb; i++) {`
		0da5f48	`+ pclmul_mul1(prod, bp[i], a);`
		0da5f48	`+ cp[i] = carry ^ prod[0];`
		0da5f48	`+ carry = prod[1];`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ cp[sb] = carry;`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_RESOLVER(static void,Mul1_short,`
		0da5f48	`+ (_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48
		0da5f48	`static`
		0da5f48	`void Mul1_short(_ntl_ulong cp, const _ntl_ulong bp, long sb, _ntl_ulong a)`
		a541994	`@@ -695,10 +871,31 @@ NTL_EFF_SHORT_BB_MUL_CODE1`
		0da5f48
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		a541994
		a541994
		a541994
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		a541994
		0da5f48	`+BASE_FUNC(void,mul_half)(_ntl_ulong *c, _ntl_ulong a, _ntl_ulong b)`
		0da5f48	`+{`
		0da5f48	`+ NTL_EFF_HALF_BB_MUL_CODE0`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_FUNC(void,mul_half)(_ntl_ulong *c, _ntl_ulong a, _ntl_ulong b)`
		0da5f48	`+{`
		0da5f48	`+ pclmul_mul1(c, a, b);`
		0da5f48	`+}`
		a541994	`+`
		0da5f48	`+AVX_FUNC(void,mul_half)(_ntl_ulong *c, _ntl_ulong a, _ntl_ulong b)`
		0da5f48	`+{`
		0da5f48	`+ pclmul_mul1(c, a, b);`
		0da5f48	`+}`
		a541994	`+`
		0da5f48	`+PCLMUL_RESOLVER(static void,mul_half,(_ntl_ulong *c, _ntl_ulong a, _ntl_ulong b));`
		a541994	`+`
		0da5f48	`+#else`
		a541994	`+`
		0da5f48	`static`
		0da5f48	`void mul_half(_ntl_ulong *c, _ntl_ulong a, _ntl_ulong b)`
		a541994	`{`
		a541994	`@@ -712,6 +909,7 @@ NTL_EFF_HALF_BB_MUL_CODE0`
		0da5f48
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		0da5f48
		0da5f48	`// mul2...mul8 hard-code 2x2...8x8 word multiplies.`
		0da5f48	`// I adapted these routines from LiDIA (except mul3, see below).`
		a541994	`@@ -1623,6 +1821,77 @@ static const _ntl_ulong sqrtab[256] = {`
		0da5f48
		0da5f48
		0da5f48
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+BASE_FUNC(void,sqr)(GF2X& c, const GF2X& a)`
		0da5f48	`+{`
		0da5f48	`+ long sa = a.xrep.length();`
		0da5f48	`+ if (sa <= 0) {`
		0da5f48	`+ clear(c);`
		0da5f48	`+ return;`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ c.xrep.SetLength(sa << 1);`
		0da5f48	`+ _ntl_ulong *cp = c.xrep.elts();`
		0da5f48	`+ const _ntl_ulong *ap = a.xrep.elts();`
		0da5f48	`+`
		0da5f48	`+ for (long i = sa-1; i >= 0; i--) {`
		0da5f48	`+ _ntl_ulong *c = cp + (i << 1);`
		0da5f48	`+ _ntl_ulong a = ap[i];`
		0da5f48	`+ _ntl_ulong hi, lo;`
		0da5f48	`+`
		0da5f48	`+ NTL_BB_SQR_CODE`
		0da5f48	`+`
		0da5f48	`+ c[0] = lo;`
		0da5f48	`+ c[1] = hi;`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ c.normalize();`
		0da5f48	`+ return;`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_FUNC(void,sqr)(GF2X& c, const GF2X& a)`
		0da5f48	`+{`
		0da5f48	`+ long sa = a.xrep.length();`
		0da5f48	`+ if (sa <= 0) {`
		0da5f48	`+ clear(c);`
		0da5f48	`+ return;`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ c.xrep.SetLength(sa << 1);`
		0da5f48	`+ _ntl_ulong *cp = c.xrep.elts();`
		0da5f48	`+ const _ntl_ulong *ap = a.xrep.elts();`
		0da5f48	`+`
		0da5f48	`+ for (long i = sa-1; i >= 0; i--)`
		0da5f48	`+ pclmul_mul1 (cp + (i << 1), ap[i], ap[i]);`
		0da5f48	`+`
		0da5f48	`+ c.normalize();`
		0da5f48	`+ return;`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,sqr)(GF2X& c, const GF2X& a)`
		0da5f48	`+{`
		0da5f48	`+ long sa = a.xrep.length();`
		0da5f48	`+ if (sa <= 0) {`
		0da5f48	`+ clear(c);`
		0da5f48	`+ return;`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ c.xrep.SetLength(sa << 1);`
		0da5f48	`+ _ntl_ulong *cp = c.xrep.elts();`
		0da5f48	`+ const _ntl_ulong *ap = a.xrep.elts();`
		0da5f48	`+`
		0da5f48	`+ for (long i = sa-1; i >= 0; i--)`
		0da5f48	`+ pclmul_mul1 (cp + (i << 1), ap[i], ap[i]);`
		0da5f48	`+`
		0da5f48	`+ c.normalize();`
		0da5f48	`+ return;`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+PCLMUL_RESOLVER(void,sqr,(GF2X& c, const GF2X& a));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48	`+`
		0da5f48	`static inline`
		0da5f48	`void sqr1(_ntl_ulong *c, _ntl_ulong a)`
		0da5f48	`{`
		a541994	`@@ -1663,6 +1932,7 @@ void sqr(GF2X& c, const GF2X& a)`
		0da5f48	`return;`
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		0da5f48
		0da5f48
		0da5f48	`void LeftShift(GF2X& c, const GF2X& a, long n)`
		a541994	`--- src/InitSettings.cpp.orig 2016-10-14 07:53:32.000000000 -0600`
		a541994	`+++ src/InitSettings.cpp 2016-10-19 19:03:46.643500216 -0600`
		a541994	`@@ -148,6 +148,11 @@ int main()`
		0da5f48	`cout << "NTL_RANGE_CHECK=0\n";`
		0da5f48	`#endif`
		0da5f48
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+ cout << "NTL_LOADTIME_CPU=1\n";`
		0da5f48	`+#else`
		0da5f48	`+ cout << "NTL_LOADTIME_CPU=0\n";`
		0da5f48	`+#endif`
		0da5f48
		a541994	`// the following are not actual config flags, but help`
		a541994	`// in the Wizard logic`
		a541994	`--- src/lzz_pX1.cpp.orig 2016-10-14 07:53:32.000000000 -0600`
		a541994	`+++ src/lzz_pX1.cpp 2016-10-19 19:03:46.644500136 -0600`
		0da5f48	`@@ -4,6 +4,12 @@`
		0da5f48
		0da5f48	`#ifdef NTL_HAVE_AVX`
		0da5f48	`#include <immintrin.h>`
		0da5f48	`+#elif defined(NTL_LOADTIME_CPU)`
		0da5f48	`+#include <immintrin.h>`
		0da5f48	`+`
		0da5f48	`+static int have_pclmul = -1;`
		0da5f48	`+static int have_avx = -1;`
		0da5f48	`+static int have_fma = -1;`
		0da5f48	`#endif`
		0da5f48
		0da5f48
		0da5f48	`@@ -1076,6 +1082,175 @@ void Comp3Mod(zz_pX& x1, zz_pX& x2, zz_p`
		0da5f48
		0da5f48
		0da5f48
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+BASE_FUNC(void,build)`
		0da5f48	`+(zz_pXAltArgument& altH, const zz_pXArgument& H, const zz_pXModulus& F)`
		0da5f48	`+{`
		0da5f48	`+ altH.orig = &H;`
		0da5f48	`+ altH.mem.kill();`
		0da5f48	`+ altH.row.kill();`
		0da5f48	`+`
		0da5f48	`+ if (H.H.length() < 10 \|\| F.n < 50) { altH.strategy = 0; return; }`
		0da5f48	`+`
		0da5f48	`+ altH.n = F.n;`
		0da5f48	`+ altH.m = H.H.length()-1;`
		0da5f48	`+`
		0da5f48	`+ long p = zz_p::modulus();`
		0da5f48	`+ long n = altH.n;`
		0da5f48	`+ long m = altH.m;`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ if (cast_unsigned(m) <= (~(0UL))/cast_unsigned(p-1) &&`
		0da5f48	`+ cast_unsigned(m)*cast_unsigned(p-1) <= (~(0UL))/cast_unsigned(p-1)) {`
		0da5f48	`+ altH.strategy = 1;`
		0da5f48	`+ altH.pinv_L = sp_PrepRem(p);`
		0da5f48	`+ }`
		0da5f48	`+ else {`
		0da5f48	`+ altH.strategy = 2;`
		0da5f48	`+ altH.pinv_LL = make_sp_ll_reduce_struct(p);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ if (altH.strategy == 1 \|\| altH.strategy == 2) {`
		0da5f48	`+`
		0da5f48	`+ altH.row.SetLength(n);`
		0da5f48	`+ long **row = altH.row.elts();`
		0da5f48	`+`
		0da5f48	`+ const long AllocAmt = 1L << 18;`
		0da5f48	`+`
		0da5f48	`+ long BlockSize = (AllocAmt + m - 1)/m;`
		0da5f48	`+ long NumBlocks = (n + BlockSize - 1)/BlockSize;`
		0da5f48	`+`
		0da5f48	`+ altH.mem.SetLength(NumBlocks);`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < NumBlocks; i++) {`
		0da5f48	`+ long first = i*BlockSize;`
		0da5f48	`+ long last = min(n, first + BlockSize);`
		0da5f48	`+ altH.mem[i].SetLength((last-first)*m);`
		0da5f48	`+ for (long j = first; j < last; j++) {`
		0da5f48	`+ row[j] = altH.mem[i].elts() + (j-first)*m;`
		0da5f48	`+ }`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < m; i++) {`
		0da5f48	`+ const zz_p* ptr = H.H[i].rep.elts();`
		0da5f48	`+ long len = H.H[i].rep.length();`
		0da5f48	`+ for (long j = 0; j < len; j++)`
		0da5f48	`+ row[j][i] = rep(ptr[j]);`
		0da5f48	`+ for (long j = len; j < n; j++)`
		0da5f48	`+ row[j][i] = 0;`
		0da5f48	`+ }`
		0da5f48	`+ }`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,build)`
		0da5f48	`+(zz_pXAltArgument& altH, const zz_pXArgument& H, const zz_pXModulus& F)`
		0da5f48	`+{`
		0da5f48	`+ altH.orig = &H;`
		0da5f48	`+ altH.mem.kill();`
		0da5f48	`+ altH.row.kill();`
		0da5f48	`+ altH.dmem.kill();`
		0da5f48	`+ altH.drow.kill();`
		0da5f48	`+`
		0da5f48	`+ if (H.H.length() < 10 \|\| F.n < 50) { altH.strategy = 0; return; }`
		0da5f48	`+`
		0da5f48	`+ altH.n = F.n;`
		0da5f48	`+ altH.m = H.H.length()-1;`
		0da5f48	`+`
		0da5f48	`+ long p = zz_p::modulus();`
		0da5f48	`+ long n = altH.n;`
		0da5f48	`+ long m = altH.m;`
		0da5f48	`+`
		0da5f48	`+ if (n >= 128 && m <= ((1L << NTL_DOUBLE_PRECISION)-1)/(p-1) &&`
		0da5f48	`+ m*(p-1) <= ((1L << NTL_DOUBLE_PRECISION)-1)/(p-1)) {`
		0da5f48	`+ altH.strategy = 3;`
		0da5f48	`+ altH.pinv_L = sp_PrepRem(p);`
		0da5f48	`+ }`
		0da5f48	`+ else if (cast_unsigned(m) <= (~(0UL))/cast_unsigned(p-1) &&`
		0da5f48	`+ cast_unsigned(m)*cast_unsigned(p-1) <= (~(0UL))/cast_unsigned(p-1)) {`
		0da5f48	`+ altH.strategy = 1;`
		0da5f48	`+ altH.pinv_L = sp_PrepRem(p);`
		0da5f48	`+ }`
		0da5f48	`+ else {`
		0da5f48	`+ altH.strategy = 2;`
		0da5f48	`+ altH.pinv_LL = make_sp_ll_reduce_struct(p);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ if (altH.strategy == 1 \|\| altH.strategy == 2) {`
		0da5f48	`+`
		0da5f48	`+ altH.row.SetLength(n);`
		0da5f48	`+ long **row = altH.row.elts();`
		0da5f48	`+`
		0da5f48	`+ const long AllocAmt = 1L << 18;`
		0da5f48	`+`
		0da5f48	`+ long BlockSize = (AllocAmt + m - 1)/m;`
		0da5f48	`+ long NumBlocks = (n + BlockSize - 1)/BlockSize;`
		0da5f48	`+`
		0da5f48	`+ altH.mem.SetLength(NumBlocks);`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < NumBlocks; i++) {`
		0da5f48	`+ long first = i*BlockSize;`
		0da5f48	`+ long last = min(n, first + BlockSize);`
		0da5f48	`+ altH.mem[i].SetLength((last-first)*m);`
		0da5f48	`+ for (long j = first; j < last; j++) {`
		0da5f48	`+ row[j] = altH.mem[i].elts() + (j-first)*m;`
		0da5f48	`+ }`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < m; i++) {`
		0da5f48	`+ const zz_p* ptr = H.H[i].rep.elts();`
		0da5f48	`+ long len = H.H[i].rep.length();`
		0da5f48	`+ for (long j = 0; j < len; j++)`
		0da5f48	`+ row[j][i] = rep(ptr[j]);`
		0da5f48	`+ for (long j = len; j < n; j++)`
		0da5f48	`+ row[j][i] = 0;`
		0da5f48	`+ }`
		0da5f48	`+ } else {`
		0da5f48	`+`
		0da5f48	`+ // sanity check`
		0da5f48	`+ if (m >= (1L << (NTL_BITS_PER_LONG-8))) ResourceError("zz_pXAltArgument: overflow");`
		0da5f48	`+`
		0da5f48	`+ long npanels = (n+15)/16;`
		0da5f48	`+ long panel_size = 16*m;`
		0da5f48	`+`
		0da5f48	`+ const long AllocAmt = 1L << 18;`
		0da5f48	`+`
		0da5f48	`+ long BlockSize = (AllocAmt + panel_size - 1)/panel_size;`
		0da5f48	`+ long NumBlocks = (npanels + BlockSize - 1)/BlockSize;`
		0da5f48	`+`
		0da5f48	`+ altH.dmem.SetLength(NumBlocks);`
		0da5f48	`+ altH.drow.SetLength(npanels);`
		0da5f48	`+ double **drow = altH.drow.elts();`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < NumBlocks; i++) {`
		0da5f48	`+ long first = i*BlockSize;`
		0da5f48	`+ long last = min(npanels, first + BlockSize);`
		0da5f48	`+ altH.dmem[i].SetLength((last-first)*panel_size);`
		0da5f48	`+`
		0da5f48	`+ double *ptr = altH.dmem[i].get();`
		0da5f48	`+`
		0da5f48	`+ for (long j = first; j < last; j++)`
		0da5f48	`+ drow[j] = ptr + (j-first)*panel_size;`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < m; i++) {`
		0da5f48	`+ const zz_p *ptr = H.H[i].rep.elts();`
		0da5f48	`+ long len = H.H[i].rep.length();`
		0da5f48	`+ for (long j = 0; j < len; j++)`
		0da5f48	`+ drow[j/16][(i*16) + (j%16)] = rep(ptr[j]);`
		0da5f48	`+ for (long j = len; j < npanels*16; j++)`
		0da5f48	`+ drow[j/16][(i*16) + (j%16)] = 0;`
		0da5f48	`+ }`
		0da5f48	`+ }`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+AVX_RESOLVER(void,build,`
		0da5f48	`+ (zz_pXAltArgument& altH, const zz_pXArgument& H, const zz_pXModulus& F));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48	`+`
		0da5f48	`void build(zz_pXAltArgument& altH, const zz_pXArgument& H, const zz_pXModulus& F)`
		0da5f48	`{`
		0da5f48	`altH.orig = &H;`
		0da5f48	`@@ -1194,11 +1369,82 @@ void build(zz_pXAltArgument& altH, const`
		0da5f48	`#endif`
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48
		0da5f48	`#ifdef NTL_HAVE_LL_TYPE`
		0da5f48
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,mul16rowsD)`
		0da5f48	`+(double x, const double a, const double *b, long n)`
		0da5f48	`+{`
		0da5f48	`+ __m256d avec0, avec1, avec2, avec3;`
		0da5f48	`+`
		0da5f48	`+ __m256d acc0 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc1 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc2 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc3 = _mm256_setzero_pd();`
		0da5f48	`+`
		0da5f48	`+ __m256d bvec;`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ bvec = _mm256_broadcast_sd(&b[i]);`
		0da5f48	`+`
		0da5f48	`+ avec0 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec1 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec2 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec3 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+`
		0da5f48	`+ acc0 = _mm256_add_pd(_mm256_mul_pd(avec0, bvec), acc0);`
		0da5f48	`+ acc1 = _mm256_add_pd(_mm256_mul_pd(avec1, bvec), acc1);`
		0da5f48	`+ acc2 = _mm256_add_pd(_mm256_mul_pd(avec2, bvec), acc2);`
		0da5f48	`+ acc3 = _mm256_add_pd(_mm256_mul_pd(avec3, bvec), acc3);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 0*4, acc0);`
		0da5f48	`+ _mm256_store_pd(x + 1*4, acc1);`
		0da5f48	`+ _mm256_store_pd(x + 2*4, acc2);`
		0da5f48	`+ _mm256_store_pd(x + 3*4, acc3);`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_FUNC(void,mul16rowsD)`
		0da5f48	`+(double x, const double a, const double *b, long n)`
		0da5f48	`+{`
		0da5f48	`+ __m256d avec0, avec1, avec2, avec3;`
		0da5f48	`+`
		0da5f48	`+ __m256d acc0 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc1 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc2 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc3 = _mm256_setzero_pd();`
		0da5f48	`+`
		0da5f48	`+ __m256d bvec;`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ bvec = _mm256_broadcast_sd(&b[i]);`
		0da5f48	`+`
		0da5f48	`+ avec0 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec1 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec2 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec3 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+`
		0da5f48	`+ acc0 = _mm256_fmadd_pd(avec0, bvec, acc0);`
		0da5f48	`+ acc1 = _mm256_fmadd_pd(avec1, bvec, acc1);`
		0da5f48	`+ acc2 = _mm256_fmadd_pd(avec2, bvec, acc2);`
		0da5f48	`+ acc3 = _mm256_fmadd_pd(avec3, bvec, acc3);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 0*4, acc0);`
		0da5f48	`+ _mm256_store_pd(x + 1*4, acc1);`
		0da5f48	`+ _mm256_store_pd(x + 2*4, acc2);`
		0da5f48	`+ _mm256_store_pd(x + 3*4, acc3);`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_RESOLVER(static void,mul16rowsD,`
		0da5f48	`+ (double x, const double a, const double *b, long n));`
		0da5f48	`+`
		0da5f48	`+#elif defined(NTL_HAVE_AVX)`
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`static`
		0da5f48	`void mul16rowsD(double x, const double a, const double *b, long n)`
		0da5f48	`{`
		0da5f48	`@@ -1243,6 +1489,114 @@ void mul16rowsD(double *x, const double`
		0da5f48	`_mm256_store_pd(x + 3*4, acc3);`
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,mul16rows2D)`
		0da5f48	`+(double x, double x_, const double a, const double b, const double *b_, long n)`
		0da5f48	`+{`
		0da5f48	`+ __m256d avec0, avec1, avec2, avec3;`
		0da5f48	`+`
		0da5f48	`+ __m256d acc0 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc1 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc2 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc3 = _mm256_setzero_pd();`
		0da5f48	`+`
		0da5f48	`+ __m256d acc0_ = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc1_ = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc2_ = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc3_ = _mm256_setzero_pd();`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ __m256d bvec;`
		0da5f48	`+ __m256d bvec_;`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ bvec = _mm256_broadcast_sd(&b[i]);`
		0da5f48	`+ bvec_ = _mm256_broadcast_sd(&b_[i]);`
		0da5f48	`+`
		0da5f48	`+ avec0 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec1 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec2 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec3 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+`
		0da5f48	`+ acc0 = _mm256_add_pd(_mm256_mul_pd(avec0, bvec), acc0);`
		0da5f48	`+ acc1 = _mm256_add_pd(_mm256_mul_pd(avec1, bvec), acc1);`
		0da5f48	`+ acc2 = _mm256_add_pd(_mm256_mul_pd(avec2, bvec), acc2);`
		0da5f48	`+ acc3 = _mm256_add_pd(_mm256_mul_pd(avec3, bvec), acc3);`
		0da5f48	`+`
		0da5f48	`+ acc0_ = _mm256_add_pd(_mm256_mul_pd(avec0, bvec_), acc0_);`
		0da5f48	`+ acc1_ = _mm256_add_pd(_mm256_mul_pd(avec1, bvec_), acc1_);`
		0da5f48	`+ acc2_ = _mm256_add_pd(_mm256_mul_pd(avec2, bvec_), acc2_);`
		0da5f48	`+ acc3_ = _mm256_add_pd(_mm256_mul_pd(avec3, bvec_), acc3_);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 0*4, acc0);`
		0da5f48	`+ _mm256_store_pd(x + 1*4, acc1);`
		0da5f48	`+ _mm256_store_pd(x + 2*4, acc2);`
		0da5f48	`+ _mm256_store_pd(x + 3*4, acc3);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x_ + 0*4, acc0_);`
		0da5f48	`+ _mm256_store_pd(x_ + 1*4, acc1_);`
		0da5f48	`+ _mm256_store_pd(x_ + 2*4, acc2_);`
		0da5f48	`+ _mm256_store_pd(x_ + 3*4, acc3_);`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_FUNC(void,mul16rows2D)`
		0da5f48	`+(double x, double x_, const double a, const double b, const double *b_, long n)`
		0da5f48	`+{`
		0da5f48	`+ __m256d avec0, avec1, avec2, avec3;`
		0da5f48	`+`
		0da5f48	`+ __m256d acc0 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc1 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc2 = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc3 = _mm256_setzero_pd();`
		0da5f48	`+`
		0da5f48	`+ __m256d acc0_ = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc1_ = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc2_ = _mm256_setzero_pd();`
		0da5f48	`+ __m256d acc3_ = _mm256_setzero_pd();`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ __m256d bvec;`
		0da5f48	`+ __m256d bvec_;`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ bvec = _mm256_broadcast_sd(&b[i]);`
		0da5f48	`+ bvec_ = _mm256_broadcast_sd(&b_[i]);`
		0da5f48	`+`
		0da5f48	`+ avec0 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec1 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec2 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+ avec3 = _mm256_load_pd(a); a += 4;`
		0da5f48	`+`
		0da5f48	`+ acc0 = _mm256_fmadd_pd(avec0, bvec, acc0);`
		0da5f48	`+ acc1 = _mm256_fmadd_pd(avec1, bvec, acc1);`
		0da5f48	`+ acc2 = _mm256_fmadd_pd(avec2, bvec, acc2);`
		0da5f48	`+ acc3 = _mm256_fmadd_pd(avec3, bvec, acc3);`
		0da5f48	`+`
		0da5f48	`+ acc0_ = _mm256_fmadd_pd(avec0, bvec_, acc0_);`
		0da5f48	`+ acc1_ = _mm256_fmadd_pd(avec1, bvec_, acc1_);`
		0da5f48	`+ acc2_ = _mm256_fmadd_pd(avec2, bvec_, acc2_);`
		0da5f48	`+ acc3_ = _mm256_fmadd_pd(avec3, bvec_, acc3_);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 0*4, acc0);`
		0da5f48	`+ _mm256_store_pd(x + 1*4, acc1);`
		0da5f48	`+ _mm256_store_pd(x + 2*4, acc2);`
		0da5f48	`+ _mm256_store_pd(x + 3*4, acc3);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x_ + 0*4, acc0_);`
		0da5f48	`+ _mm256_store_pd(x_ + 1*4, acc1_);`
		0da5f48	`+ _mm256_store_pd(x_ + 2*4, acc2_);`
		0da5f48	`+ _mm256_store_pd(x_ + 3*4, acc3_);`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_RESOLVER(static void,mul16rows2D,`
		0da5f48	`+ (double x, double x_, const double a, const double b, const double *b_, long n));`
		0da5f48	`+`
		0da5f48	`+#elif defined(NTL_HAVE_AVX)`
		0da5f48	`static`
		0da5f48	`void mul16rows2D(double x, double x_, const double a, const double b, const double *b_, long n)`
		0da5f48	`{`
		0da5f48	`@@ -1309,6 +1663,7 @@ void mul16rows2D(double x, double x_,`
		0da5f48	`_mm256_store_pd(x_ + 3*4, acc3_);`
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		0da5f48
		0da5f48	`#endif`
		0da5f48
		0da5f48	`@@ -1422,7 +1777,7 @@ void CompMod_L(zz_pX& x, const zz_pX& g,`
		0da5f48	`}`
		0da5f48
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48
		0da5f48	`static`
		0da5f48	`void InnerProduct_AVX(zz_pX& x, const Vec<double>& v, long low, long high,`
		0da5f48	`@@ -1534,7 +1889,6 @@ void CompMod_AVX(zz_pX& x, const zz_pX&`
		0da5f48
		0da5f48	`x = t;`
		0da5f48	`}`
		0da5f48	`-#endif`
		0da5f48
		0da5f48
		0da5f48
		0da5f48	`@@ -1570,6 +1924,14 @@ void CompMod(zz_pX& x, const zz_pX& g, c`
		0da5f48	`break;`
		0da5f48
		0da5f48	`#endif`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+ case 3:`
		0da5f48	`+ if (have_avx) {`
		0da5f48	`+ CompMod_AVX(x, g, A, F);`
		0da5f48	`+ break;`
		0da5f48	`+ }`
		0da5f48	`+ /* FALLTHRU */`
		0da5f48	`+#endif`
		0da5f48
		0da5f48	`default:`
		0da5f48	`LogicError("CompMod: bad strategy");`
		a541994	`--- src/mat_lzz_p.cpp.orig 2016-10-14 07:53:32.000000000 -0600`
		a541994	`+++ src/mat_lzz_p.cpp 2016-10-19 19:03:46.647499895 -0600`
		0da5f48	`@@ -10,6 +10,15 @@`
		0da5f48
		0da5f48	`#ifdef NTL_HAVE_AVX`
		0da5f48	`#include <immintrin.h>`
		0da5f48	`+#define AVX_ACTIVE 1`
		0da5f48	`+#elif defined(NTL_LOADTIME_CPU)`
		0da5f48	`+#include <immintrin.h>`
		0da5f48	`+#define AVX_ACTIVE have_avx`
		0da5f48	`+`
		0da5f48	`+static int have_pclmul = -1;`
		0da5f48	`+static int have_avx = -1;`
		0da5f48	`+static int have_fma = -1;`
		0da5f48	`+static int have_avx2 = -1;`
		0da5f48	`#endif`
		0da5f48
		0da5f48	`NTL_START_IMPL`
		e69d8b7	`@@ -626,7 +635,7 @@ void mul(mat_zz_p& X, const mat_zz_p& A,`
		0da5f48
		0da5f48	`#ifdef NTL_HAVE_LL_TYPE`
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48
		0da5f48	`#define MAX_DBL_INT ((1L << NTL_DOUBLE_PRECISION)-1)`
		0da5f48	`// max int representable exactly as a double`
		e69d8b7	`@@ -640,19 +649,120 @@ void mul(mat_zz_p& X, const mat_zz_p& A,`
		0da5f48
		0da5f48
		0da5f48	`// MUL_ADD(a, b, c): a += b*c`
		0da5f48	`+#define FMA_MUL_ADD(a, b, c) a = _mm256_fmadd_pd(b, c, a)`
		0da5f48	`+#define AVX_MUL_ADD(a, b, c) a = _mm256_add_pd(a, _mm256_mul_pd(b, c))`
		0da5f48	`#ifdef NTL_HAVE_FMA`
		0da5f48	`-#define MUL_ADD(a, b, c) a = _mm256_fmadd_pd(b, c, a)`
		0da5f48	`+#define MUL_ADD(a, b, c) FMA_MUL_ADD(a, b, c)`
		0da5f48	`#else`
		0da5f48	`-#define MUL_ADD(a, b, c) a = _mm256_add_pd(a, _mm256_mul_pd(b, c))`
		0da5f48	`+#define MUL_ADD(a, b, c) AVX_MUL_ADD(a, b, c)`
		0da5f48	`#endif`
		0da5f48
		0da5f48	`-#if 0`
		0da5f48	`-static`
		0da5f48	`-void muladd1_by_32(double x, const double a, const double *b, long n)`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,muladd1_by_32)`
		0da5f48	`+(double x, const double a, const double *b, long n)`
		0da5f48	`{`
		0da5f48	`- __m256d avec, bvec;`
		0da5f48	`+ __m256d acc0=_mm256_load_pd(x + 0*4);`
		0da5f48	`+ __m256d acc1=_mm256_load_pd(x + 1*4);`
		0da5f48	`+ __m256d acc2=_mm256_load_pd(x + 2*4);`
		0da5f48	`+ __m256d acc3=_mm256_load_pd(x + 3*4);`
		0da5f48	`+ __m256d acc4=_mm256_load_pd(x + 4*4);`
		0da5f48	`+ __m256d acc5=_mm256_load_pd(x + 5*4);`
		0da5f48	`+ __m256d acc6=_mm256_load_pd(x + 6*4);`
		0da5f48	`+ __m256d acc7=_mm256_load_pd(x + 7*4);`
		0da5f48	`+`
		0da5f48	`+ long i = 0;`
		0da5f48	`+ for (; i <= n-4; i +=4) {`
		0da5f48	`+`
		0da5f48	`+ // the following code sequences are a bit faster than`
		0da5f48	`+ // just doing 4 _mm256_broadcast_sd's`
		0da5f48	`+ // it requires a to point to aligned storage, however`
		0da5f48	`+`
		0da5f48	`+#if 1`
		0da5f48	`+ // this one seems slightly faster`
		0da5f48	`+ __m256d a0101 = _mm256_broadcast_pd((const __m128d*)(a+0));`
		0da5f48	`+ __m256d a2323 = _mm256_broadcast_pd((const __m128d*)(a+2));`
		0da5f48	`+#else`
		0da5f48	`+ __m256d avec = _mm256_load_pd(a);`
		0da5f48	`+ __m256d a0101 = _mm256_permute2f128_pd(avec, avec, 0);`
		0da5f48	`+ __m256d a2323 = _mm256_permute2f128_pd(avec, avec, 0x11);`
		0da5f48	`+`
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48	`+ __m256d avec0 = _mm256_permute_pd(a0101, 0);`
		0da5f48	`+ __m256d avec1 = _mm256_permute_pd(a0101, 0xf);`
		0da5f48	`+ __m256d avec2 = _mm256_permute_pd(a2323, 0);`
		0da5f48	`+ __m256d avec3 = _mm256_permute_pd(a2323, 0xf);`
		0da5f48	`+`
		0da5f48	`+ a += 4;`
		0da5f48	`+`
		0da5f48	`+ __m256d bvec;`
		0da5f48
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc0, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc1, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc2, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc3, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc4, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc5, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc6, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc7, avec0, bvec);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc0, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc1, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc2, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc3, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc4, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc5, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc6, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc7, avec1, bvec);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc0, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc1, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc2, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc3, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc4, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc5, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc6, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc7, avec2, bvec);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc0, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc1, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc2, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc3, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc4, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc5, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc6, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc7, avec3, bvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ for (; i < n; i++) {`
		0da5f48	`+ __m256d avec = _mm256_broadcast_sd(a); a++;`
		0da5f48	`+ __m256d bvec;`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc0, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc1, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc2, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc3, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc4, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc5, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc6, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; AVX_MUL_ADD(acc7, avec, bvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 0*4, acc0);`
		0da5f48	`+ _mm256_store_pd(x + 1*4, acc1);`
		0da5f48	`+ _mm256_store_pd(x + 2*4, acc2);`
		0da5f48	`+ _mm256_store_pd(x + 3*4, acc3);`
		0da5f48	`+ _mm256_store_pd(x + 4*4, acc4);`
		0da5f48	`+ _mm256_store_pd(x + 5*4, acc5);`
		0da5f48	`+ _mm256_store_pd(x + 6*4, acc6);`
		0da5f48	`+ _mm256_store_pd(x + 7*4, acc7);`
		0da5f48	`+}`
		0da5f48
		0da5f48	`+FMA_FUNC(void,muladd1_by_32)`
		0da5f48	`+(double x, const double a, const double *b, long n)`
		0da5f48	`+{`
		0da5f48	`__m256d acc0=_mm256_load_pd(x + 0*4);`
		0da5f48	`__m256d acc1=_mm256_load_pd(x + 1*4);`
		0da5f48	`__m256d acc2=_mm256_load_pd(x + 2*4);`
		e69d8b7	`@@ -662,19 +772,82 @@ void muladd1_by_32(double *x, const doub`
		0da5f48	`__m256d acc6=_mm256_load_pd(x + 6*4);`
		0da5f48	`__m256d acc7=_mm256_load_pd(x + 7*4);`
		0da5f48
		0da5f48	`+ long i = 0;`
		0da5f48	`+ for (; i <= n-4; i +=4) {`
		0da5f48
		0da5f48	`- for (long i = 0; i < n; i++) {`
		0da5f48	`- avec = _mm256_broadcast_sd(a); a++;`
		0da5f48	`+ // the following code sequences are a bit faster than`
		0da5f48	`+ // just doing 4 _mm256_broadcast_sd's`
		0da5f48	`+ // it requires a to point to aligned storage, however`
		0da5f48	`+`
		0da5f48	`+#if 1`
		0da5f48	`+ // this one seems slightly faster`
		0da5f48	`+ __m256d a0101 = _mm256_broadcast_pd((const __m128d*)(a+0));`
		0da5f48	`+ __m256d a2323 = _mm256_broadcast_pd((const __m128d*)(a+2));`
		0da5f48	`+#else`
		0da5f48	`+ __m256d avec = _mm256_load_pd(a);`
		0da5f48	`+ __m256d a0101 = _mm256_permute2f128_pd(avec, avec, 0);`
		0da5f48	`+ __m256d a2323 = _mm256_permute2f128_pd(avec, avec, 0x11);`
		0da5f48
		0da5f48	`+#endif`
		0da5f48
		0da5f48	`- bvec = _mm256_load_pd(b); b += 4; MUL_ADD(acc0, avec, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(b); b += 4; MUL_ADD(acc1, avec, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(b); b += 4; MUL_ADD(acc2, avec, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(b); b += 4; MUL_ADD(acc3, avec, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(b); b += 4; MUL_ADD(acc4, avec, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(b); b += 4; MUL_ADD(acc5, avec, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(b); b += 4; MUL_ADD(acc6, avec, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(b); b += 4; MUL_ADD(acc7, avec, bvec);`
		0da5f48	`+ __m256d avec0 = _mm256_permute_pd(a0101, 0);`
		0da5f48	`+ __m256d avec1 = _mm256_permute_pd(a0101, 0xf);`
		0da5f48	`+ __m256d avec2 = _mm256_permute_pd(a2323, 0);`
		0da5f48	`+ __m256d avec3 = _mm256_permute_pd(a2323, 0xf);`
		0da5f48	`+`
		0da5f48	`+ a += 4;`
		0da5f48	`+`
		0da5f48	`+ __m256d bvec;`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc0, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc1, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc2, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc3, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc4, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc5, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc6, avec0, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc7, avec0, bvec);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc0, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc1, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc2, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc3, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc4, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc5, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc6, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc7, avec1, bvec);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc0, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc1, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc2, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc3, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc4, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc5, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc6, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc7, avec2, bvec);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc0, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc1, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc2, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc3, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc4, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc5, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc6, avec3, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc7, avec3, bvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ for (; i < n; i++) {`
		0da5f48	`+ __m256d avec = _mm256_broadcast_sd(a); a++;`
		0da5f48	`+ __m256d bvec;`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc0, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc1, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc2, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc3, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc4, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc5, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc6, avec, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(b); b += 4; FMA_MUL_ADD(acc7, avec, bvec);`
		0da5f48	`}`
		0da5f48
		0da5f48
		e69d8b7	`@@ -688,6 +861,9 @@ void muladd1_by_32(double *x, const doub`
		0da5f48	`_mm256_store_pd(x + 7*4, acc7);`
		0da5f48	`}`
		0da5f48
		0da5f48	`+FMA_RESOLVER(static void,muladd1_by_32,`
		0da5f48	`+ (double x, const double a, const double *b, long n));`
		0da5f48	`+`
		0da5f48	`#else`
		0da5f48
		0da5f48	`static`
		e69d8b7	`@@ -794,7 +970,164 @@ void muladd1_by_32(double *x, const doub`
		0da5f48	`#endif`
		0da5f48
		0da5f48	`// experiment: process two rows at a time`
		0da5f48	`-#if 1`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+AVX_FUNC(void,muladd2_by_32)`
		0da5f48	`+(double x, const double a, const double *b, long n)`
		0da5f48	`+{`
		0da5f48	`+ __m256d avec0, avec1, bvec;`
		0da5f48	`+ __m256d acc00, acc01, acc02, acc03;`
		0da5f48	`+ __m256d acc10, acc11, acc12, acc13;`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ // round 0`
		0da5f48	`+`
		0da5f48	`+ acc00=_mm256_load_pd(x + 04 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc01=_mm256_load_pd(x + 14 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc02=_mm256_load_pd(x + 24 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc03=_mm256_load_pd(x + 34 + 0MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ acc10=_mm256_load_pd(x + 04 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc11=_mm256_load_pd(x + 14 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc12=_mm256_load_pd(x + 24 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc13=_mm256_load_pd(x + 34 + 1MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ avec0 = _mm256_broadcast_sd(&a[i]);`
		0da5f48	`+ avec1 = _mm256_broadcast_sd(&a[i+MAT_BLK_SZ]);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+04]); AVX_MUL_ADD(acc00, avec0, bvec); AVX_MUL_ADD(acc10, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+14]); AVX_MUL_ADD(acc01, avec0, bvec); AVX_MUL_ADD(acc11, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+24]); AVX_MUL_ADD(acc02, avec0, bvec); AVX_MUL_ADD(acc12, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+34]); AVX_MUL_ADD(acc03, avec0, bvec); AVX_MUL_ADD(acc13, avec1, bvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 04 + 0MAT_BLK_SZ, acc00);`
		0da5f48	`+ _mm256_store_pd(x + 14 + 0MAT_BLK_SZ, acc01);`
		0da5f48	`+ _mm256_store_pd(x + 24 + 0MAT_BLK_SZ, acc02);`
		0da5f48	`+ _mm256_store_pd(x + 34 + 0MAT_BLK_SZ, acc03);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 04 + 1MAT_BLK_SZ, acc10);`
		0da5f48	`+ _mm256_store_pd(x + 14 + 1MAT_BLK_SZ, acc11);`
		0da5f48	`+ _mm256_store_pd(x + 24 + 1MAT_BLK_SZ, acc12);`
		0da5f48	`+ _mm256_store_pd(x + 34 + 1MAT_BLK_SZ, acc13);`
		0da5f48	`+`
		0da5f48	`+ // round 1`
		0da5f48	`+`
		0da5f48	`+ acc00=_mm256_load_pd(x + 44 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc01=_mm256_load_pd(x + 54 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc02=_mm256_load_pd(x + 64 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc03=_mm256_load_pd(x + 74 + 0MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ acc10=_mm256_load_pd(x + 44 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc11=_mm256_load_pd(x + 54 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc12=_mm256_load_pd(x + 64 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc13=_mm256_load_pd(x + 74 + 1MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ avec0 = _mm256_broadcast_sd(&a[i]);`
		0da5f48	`+ avec1 = _mm256_broadcast_sd(&a[i+MAT_BLK_SZ]);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+04+MAT_BLK_SZ/2]); AVX_MUL_ADD(acc00, avec0, bvec); AVX_MUL_ADD(acc10, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+14+MAT_BLK_SZ/2]); AVX_MUL_ADD(acc01, avec0, bvec); AVX_MUL_ADD(acc11, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+24+MAT_BLK_SZ/2]); AVX_MUL_ADD(acc02, avec0, bvec); AVX_MUL_ADD(acc12, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+34+MAT_BLK_SZ/2]); AVX_MUL_ADD(acc03, avec0, bvec); AVX_MUL_ADD(acc13, avec1, bvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 44 + 0MAT_BLK_SZ, acc00);`
		0da5f48	`+ _mm256_store_pd(x + 54 + 0MAT_BLK_SZ, acc01);`
		0da5f48	`+ _mm256_store_pd(x + 64 + 0MAT_BLK_SZ, acc02);`
		0da5f48	`+ _mm256_store_pd(x + 74 + 0MAT_BLK_SZ, acc03);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 44 + 1MAT_BLK_SZ, acc10);`
		0da5f48	`+ _mm256_store_pd(x + 54 + 1MAT_BLK_SZ, acc11);`
		0da5f48	`+ _mm256_store_pd(x + 64 + 1MAT_BLK_SZ, acc12);`
		0da5f48	`+ _mm256_store_pd(x + 74 + 1MAT_BLK_SZ, acc13);`
		0da5f48	`+`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_FUNC(void,muladd2_by_32)`
		0da5f48	`+(double x, const double a, const double *b, long n)`
		0da5f48	`+{`
		0da5f48	`+ __m256d avec0, avec1, bvec;`
		0da5f48	`+ __m256d acc00, acc01, acc02, acc03;`
		0da5f48	`+ __m256d acc10, acc11, acc12, acc13;`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ // round 0`
		0da5f48	`+`
		0da5f48	`+ acc00=_mm256_load_pd(x + 04 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc01=_mm256_load_pd(x + 14 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc02=_mm256_load_pd(x + 24 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc03=_mm256_load_pd(x + 34 + 0MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ acc10=_mm256_load_pd(x + 04 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc11=_mm256_load_pd(x + 14 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc12=_mm256_load_pd(x + 24 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc13=_mm256_load_pd(x + 34 + 1MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ avec0 = _mm256_broadcast_sd(&a[i]);`
		0da5f48	`+ avec1 = _mm256_broadcast_sd(&a[i+MAT_BLK_SZ]);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+04]); FMA_MUL_ADD(acc00, avec0, bvec); FMA_MUL_ADD(acc10, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+14]); FMA_MUL_ADD(acc01, avec0, bvec); FMA_MUL_ADD(acc11, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+24]); FMA_MUL_ADD(acc02, avec0, bvec); FMA_MUL_ADD(acc12, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+34]); FMA_MUL_ADD(acc03, avec0, bvec); FMA_MUL_ADD(acc13, avec1, bvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 04 + 0MAT_BLK_SZ, acc00);`
		0da5f48	`+ _mm256_store_pd(x + 14 + 0MAT_BLK_SZ, acc01);`
		0da5f48	`+ _mm256_store_pd(x + 24 + 0MAT_BLK_SZ, acc02);`
		0da5f48	`+ _mm256_store_pd(x + 34 + 0MAT_BLK_SZ, acc03);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 04 + 1MAT_BLK_SZ, acc10);`
		0da5f48	`+ _mm256_store_pd(x + 14 + 1MAT_BLK_SZ, acc11);`
		0da5f48	`+ _mm256_store_pd(x + 24 + 1MAT_BLK_SZ, acc12);`
		0da5f48	`+ _mm256_store_pd(x + 34 + 1MAT_BLK_SZ, acc13);`
		0da5f48	`+`
		0da5f48	`+ // round 1`
		0da5f48	`+`
		0da5f48	`+ acc00=_mm256_load_pd(x + 44 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc01=_mm256_load_pd(x + 54 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc02=_mm256_load_pd(x + 64 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc03=_mm256_load_pd(x + 74 + 0MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ acc10=_mm256_load_pd(x + 44 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc11=_mm256_load_pd(x + 54 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc12=_mm256_load_pd(x + 64 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc13=_mm256_load_pd(x + 74 + 1MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ avec0 = _mm256_broadcast_sd(&a[i]);`
		0da5f48	`+ avec1 = _mm256_broadcast_sd(&a[i+MAT_BLK_SZ]);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+04+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc00, avec0, bvec); FMA_MUL_ADD(acc10, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+14+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc01, avec0, bvec); FMA_MUL_ADD(acc11, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+24+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc02, avec0, bvec); FMA_MUL_ADD(acc12, avec1, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+34+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc03, avec0, bvec); FMA_MUL_ADD(acc13, avec1, bvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 44 + 0MAT_BLK_SZ, acc00);`
		0da5f48	`+ _mm256_store_pd(x + 54 + 0MAT_BLK_SZ, acc01);`
		0da5f48	`+ _mm256_store_pd(x + 64 + 0MAT_BLK_SZ, acc02);`
		0da5f48	`+ _mm256_store_pd(x + 74 + 0MAT_BLK_SZ, acc03);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 44 + 1MAT_BLK_SZ, acc10);`
		0da5f48	`+ _mm256_store_pd(x + 54 + 1MAT_BLK_SZ, acc11);`
		0da5f48	`+ _mm256_store_pd(x + 64 + 1MAT_BLK_SZ, acc12);`
		0da5f48	`+ _mm256_store_pd(x + 74 + 1MAT_BLK_SZ, acc13);`
		0da5f48	`+`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_RESOLVER(static void,muladd2_by_32,`
		0da5f48	`+ (double x, const double a, const double *b, long n));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48	`+`
		0da5f48	`static`
		0da5f48	`void muladd2_by_32(double x, const double a, const double *b, long n)`
		0da5f48	`{`
		e69d8b7	`@@ -870,96 +1203,217 @@ void muladd2_by_32(double *x, const doub`
		0da5f48	`_mm256_store_pd(x + 74 + 1MAT_BLK_SZ, acc13);`
		0da5f48
		0da5f48	`}`
		0da5f48	`+#endif`
		0da5f48
		0da5f48	`-#else`
		0da5f48
		0da5f48	`-static`
		0da5f48	`-void muladd2_by_32(double x, const double a, const double *b, long n)`
		0da5f48	`+`
		0da5f48	`+// experiment: process three rows at a time`
		0da5f48	`+// NOTE: this makes things slower on an AVX1 platform --- not enough registers`
		0da5f48	`+// it could be faster on AVX2/FMA, where there should be enough registers`
		0da5f48	`+`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+FMA_FUNC(void,muladd3_by_32)`
		0da5f48	`+(double x, const double a, const double *b, long n)`
		0da5f48	`{`
		0da5f48	`- long i, j;`
		0da5f48	`- __m256d bvec;`
		0da5f48	`+ __m256d avec0, avec1, avec2, bvec;`
		0da5f48	`__m256d acc00, acc01, acc02, acc03;`
		0da5f48	`__m256d acc10, acc11, acc12, acc13;`
		0da5f48	`+ __m256d acc20, acc21, acc22, acc23;`
		0da5f48	`+`
		0da5f48
		0da5f48	`+ // round 0`
		0da5f48
		0da5f48	`- for (j = 0; j < 2; j++) {`
		0da5f48	`+ acc00=_mm256_load_pd(x + 04 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc01=_mm256_load_pd(x + 14 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc02=_mm256_load_pd(x + 24 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc03=_mm256_load_pd(x + 34 + 0MAT_BLK_SZ);`
		0da5f48
		0da5f48	`- acc00=_mm256_load_pd(x + 04 + 0MAT_BLK_SZ + j*(MAT_BLK_SZ/2));`
		0da5f48	`- acc01=_mm256_load_pd(x + 14 + 0MAT_BLK_SZ + j*(MAT_BLK_SZ/2));`
		0da5f48	`- acc02=_mm256_load_pd(x + 24 + 0MAT_BLK_SZ + j*(MAT_BLK_SZ/2));`
		0da5f48	`- acc03=_mm256_load_pd(x + 34 + 0MAT_BLK_SZ + j*(MAT_BLK_SZ/2));`
		0da5f48	`+ acc10=_mm256_load_pd(x + 04 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc11=_mm256_load_pd(x + 14 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc12=_mm256_load_pd(x + 24 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc13=_mm256_load_pd(x + 34 + 1MAT_BLK_SZ);`
		0da5f48
		0da5f48	`- acc10=_mm256_load_pd(x + 04 + 1MAT_BLK_SZ + j*(MAT_BLK_SZ/2));`
		0da5f48	`- acc11=_mm256_load_pd(x + 14 + 1MAT_BLK_SZ + j*(MAT_BLK_SZ/2));`
		0da5f48	`- acc12=_mm256_load_pd(x + 24 + 1MAT_BLK_SZ + j*(MAT_BLK_SZ/2));`
		0da5f48	`- acc13=_mm256_load_pd(x + 34 + 1MAT_BLK_SZ + j*(MAT_BLK_SZ/2));`
		0da5f48	`+ acc20=_mm256_load_pd(x + 04 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc21=_mm256_load_pd(x + 14 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc22=_mm256_load_pd(x + 24 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc23=_mm256_load_pd(x + 34 + 2MAT_BLK_SZ);`
		0da5f48
		0da5f48	`- for (i = 0; i <= n-4; i+=4) {`
		0da5f48	`- __m256d a0_0101 = _mm256_broadcast_pd((const __m128d*)(a+i+0));`
		0da5f48	`- __m256d a0_2323 = _mm256_broadcast_pd((const __m128d*)(a+i+2));`
		0da5f48	`- __m256d avec00 = _mm256_permute_pd(a0_0101, 0);`
		0da5f48	`- __m256d avec01 = _mm256_permute_pd(a0_0101, 0xf);`
		0da5f48	`- __m256d avec02 = _mm256_permute_pd(a0_2323, 0);`
		0da5f48	`- __m256d avec03 = _mm256_permute_pd(a0_2323, 0xf);`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ avec0 = _mm256_broadcast_sd(&a[i]);`
		0da5f48	`+ avec1 = _mm256_broadcast_sd(&a[i+MAT_BLK_SZ]);`
		0da5f48	`+ avec2 = _mm256_broadcast_sd(&a[i+2*MAT_BLK_SZ]);`
		0da5f48
		0da5f48	`- __m256d a1_0101 = _mm256_broadcast_pd((const __m128d*)(a+i+0+MAT_BLK_SZ));`
		0da5f48	`- __m256d a1_2323 = _mm256_broadcast_pd((const __m128d*)(a+i+2+MAT_BLK_SZ));`
		0da5f48	`- __m256d avec10 = _mm256_permute_pd(a1_0101, 0);`
		0da5f48	`- __m256d avec11 = _mm256_permute_pd(a1_0101, 0xf);`
		0da5f48	`- __m256d avec12 = _mm256_permute_pd(a1_2323, 0);`
		0da5f48	`- __m256d avec13 = _mm256_permute_pd(a1_2323, 0xf);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+04]); FMA_MUL_ADD(acc00, avec0, bvec); FMA_MUL_ADD(acc10, avec1, bvec); FMA_MUL_ADD(acc20, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+14]); FMA_MUL_ADD(acc01, avec0, bvec); FMA_MUL_ADD(acc11, avec1, bvec); FMA_MUL_ADD(acc21, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+24]); FMA_MUL_ADD(acc02, avec0, bvec); FMA_MUL_ADD(acc12, avec1, bvec); FMA_MUL_ADD(acc22, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+34]); FMA_MUL_ADD(acc03, avec0, bvec); FMA_MUL_ADD(acc13, avec1, bvec); FMA_MUL_ADD(acc23, avec2, bvec);`
		0da5f48	`+ }`
		0da5f48
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+0)MAT_BLK_SZ+04+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc00, avec00, bvec); MUL_ADD(acc10, avec10, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+0)MAT_BLK_SZ+14+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc01, avec00, bvec); MUL_ADD(acc11, avec10, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+0)MAT_BLK_SZ+24+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc02, avec00, bvec); MUL_ADD(acc12, avec10, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+0)MAT_BLK_SZ+34+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc03, avec00, bvec); MUL_ADD(acc13, avec10, bvec);`
		0da5f48
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+1)MAT_BLK_SZ+04+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc00, avec01, bvec); MUL_ADD(acc10, avec11, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+1)MAT_BLK_SZ+14+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc01, avec01, bvec); MUL_ADD(acc11, avec11, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+1)MAT_BLK_SZ+24+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc02, avec01, bvec); MUL_ADD(acc12, avec11, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+1)MAT_BLK_SZ+34+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc03, avec01, bvec); MUL_ADD(acc13, avec11, bvec);`
		0da5f48	`+ _mm256_store_pd(x + 04 + 0MAT_BLK_SZ, acc00);`
		0da5f48	`+ _mm256_store_pd(x + 14 + 0MAT_BLK_SZ, acc01);`
		0da5f48	`+ _mm256_store_pd(x + 24 + 0MAT_BLK_SZ, acc02);`
		0da5f48	`+ _mm256_store_pd(x + 34 + 0MAT_BLK_SZ, acc03);`
		0da5f48
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+2)MAT_BLK_SZ+04+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc00, avec02, bvec); MUL_ADD(acc10, avec12, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+2)MAT_BLK_SZ+14+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc01, avec02, bvec); MUL_ADD(acc11, avec12, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+2)MAT_BLK_SZ+24+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc02, avec02, bvec); MUL_ADD(acc12, avec12, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+2)MAT_BLK_SZ+34+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc03, avec02, bvec); MUL_ADD(acc13, avec12, bvec);`
		0da5f48	`+ _mm256_store_pd(x + 04 + 1MAT_BLK_SZ, acc10);`
		0da5f48	`+ _mm256_store_pd(x + 14 + 1MAT_BLK_SZ, acc11);`
		0da5f48	`+ _mm256_store_pd(x + 24 + 1MAT_BLK_SZ, acc12);`
		0da5f48	`+ _mm256_store_pd(x + 34 + 1MAT_BLK_SZ, acc13);`
		0da5f48
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+3)MAT_BLK_SZ+04+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc00, avec03, bvec); MUL_ADD(acc10, avec13, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+3)MAT_BLK_SZ+14+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc01, avec03, bvec); MUL_ADD(acc11, avec13, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+3)MAT_BLK_SZ+24+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc02, avec03, bvec); MUL_ADD(acc12, avec13, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[(i+3)MAT_BLK_SZ+34+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc03, avec03, bvec); MUL_ADD(acc13, avec13, bvec);`
		0da5f48	`- }`
		0da5f48	`+ _mm256_store_pd(x + 04 + 2MAT_BLK_SZ, acc20);`
		0da5f48	`+ _mm256_store_pd(x + 14 + 2MAT_BLK_SZ, acc21);`
		0da5f48	`+ _mm256_store_pd(x + 24 + 2MAT_BLK_SZ, acc22);`
		0da5f48	`+ _mm256_store_pd(x + 34 + 2MAT_BLK_SZ, acc23);`
		0da5f48
		0da5f48	`- for (; i < n; i++) {`
		0da5f48	`- __m256d avec0 = _mm256_broadcast_sd(&a[i]);`
		0da5f48	`- __m256d avec1 = _mm256_broadcast_sd(&a[i+MAT_BLK_SZ]);`
		0da5f48	`+ // round 1`
		0da5f48
		0da5f48	`- bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+04+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc00, avec0, bvec); MUL_ADD(acc10, avec1, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+14+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc01, avec0, bvec); MUL_ADD(acc11, avec1, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+24+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc02, avec0, bvec); MUL_ADD(acc12, avec1, bvec);`
		0da5f48	`- bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+34+j*(MAT_BLK_SZ/2)]); MUL_ADD(acc03, avec0, bvec); MUL_ADD(acc13, avec1, bvec);`
		0da5f48	`- }`
		0da5f48	`+ acc00=_mm256_load_pd(x + 44 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc01=_mm256_load_pd(x + 54 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc02=_mm256_load_pd(x + 64 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc03=_mm256_load_pd(x + 74 + 0MAT_BLK_SZ);`
		0da5f48
		0da5f48	`+ acc10=_mm256_load_pd(x + 44 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc11=_mm256_load_pd(x + 54 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc12=_mm256_load_pd(x + 64 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc13=_mm256_load_pd(x + 74 + 1MAT_BLK_SZ);`
		0da5f48
		0da5f48	`- _mm256_store_pd(x + 04 + 0MAT_BLK_SZ + j*(MAT_BLK_SZ/2), acc00);`
		0da5f48	`- _mm256_store_pd(x + 14 + 0MAT_BLK_SZ + j*(MAT_BLK_SZ/2), acc01);`
		0da5f48	`- _mm256_store_pd(x + 24 + 0MAT_BLK_SZ + j*(MAT_BLK_SZ/2), acc02);`
		0da5f48	`- _mm256_store_pd(x + 34 + 0MAT_BLK_SZ + j*(MAT_BLK_SZ/2), acc03);`
		0da5f48	`+ acc20=_mm256_load_pd(x + 44 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc21=_mm256_load_pd(x + 54 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc22=_mm256_load_pd(x + 64 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc23=_mm256_load_pd(x + 74 + 2MAT_BLK_SZ);`
		0da5f48
		0da5f48	`- _mm256_store_pd(x + 04 + 1MAT_BLK_SZ + j*(MAT_BLK_SZ/2), acc10);`
		0da5f48	`- _mm256_store_pd(x + 14 + 1MAT_BLK_SZ + j*(MAT_BLK_SZ/2), acc11);`
		0da5f48	`- _mm256_store_pd(x + 24 + 1MAT_BLK_SZ + j*(MAT_BLK_SZ/2), acc12);`
		0da5f48	`- _mm256_store_pd(x + 34 + 1MAT_BLK_SZ + j*(MAT_BLK_SZ/2), acc13);`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ avec0 = _mm256_broadcast_sd(&a[i]);`
		0da5f48	`+ avec1 = _mm256_broadcast_sd(&a[i+MAT_BLK_SZ]);`
		0da5f48	`+ avec2 = _mm256_broadcast_sd(&a[i+2*MAT_BLK_SZ]);`
		0da5f48
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+04+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc00, avec0, bvec); FMA_MUL_ADD(acc10, avec1, bvec); FMA_MUL_ADD(acc20, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+14+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc01, avec0, bvec); FMA_MUL_ADD(acc11, avec1, bvec); FMA_MUL_ADD(acc21, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+24+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc02, avec0, bvec); FMA_MUL_ADD(acc12, avec1, bvec); FMA_MUL_ADD(acc22, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+34+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc03, avec0, bvec); FMA_MUL_ADD(acc13, avec1, bvec); FMA_MUL_ADD(acc23, avec2, bvec);`
		0da5f48	`}`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 44 + 0MAT_BLK_SZ, acc00);`
		0da5f48	`+ _mm256_store_pd(x + 54 + 0MAT_BLK_SZ, acc01);`
		0da5f48	`+ _mm256_store_pd(x + 64 + 0MAT_BLK_SZ, acc02);`
		0da5f48	`+ _mm256_store_pd(x + 74 + 0MAT_BLK_SZ, acc03);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 44 + 1MAT_BLK_SZ, acc10);`
		0da5f48	`+ _mm256_store_pd(x + 54 + 1MAT_BLK_SZ, acc11);`
		0da5f48	`+ _mm256_store_pd(x + 64 + 1MAT_BLK_SZ, acc12);`
		0da5f48	`+ _mm256_store_pd(x + 74 + 1MAT_BLK_SZ, acc13);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 44 + 2MAT_BLK_SZ, acc20);`
		0da5f48	`+ _mm256_store_pd(x + 54 + 2MAT_BLK_SZ, acc21);`
		0da5f48	`+ _mm256_store_pd(x + 64 + 2MAT_BLK_SZ, acc22);`
		0da5f48	`+ _mm256_store_pd(x + 74 + 2MAT_BLK_SZ, acc23);`
		0da5f48	`+`
		0da5f48	`}`
		0da5f48	`-#endif`
		0da5f48
		0da5f48	`+AVX2_FUNC(void,muladd3_by_32)`
		0da5f48	`+(double x, const double a, const double *b, long n)`
		0da5f48	`+{`
		0da5f48	`+ __m256d avec0, avec1, avec2, bvec;`
		0da5f48	`+ __m256d acc00, acc01, acc02, acc03;`
		0da5f48	`+ __m256d acc10, acc11, acc12, acc13;`
		0da5f48	`+ __m256d acc20, acc21, acc22, acc23;`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ // round 0`
		0da5f48
		0da5f48	`+ acc00=_mm256_load_pd(x + 04 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc01=_mm256_load_pd(x + 14 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc02=_mm256_load_pd(x + 24 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc03=_mm256_load_pd(x + 34 + 0MAT_BLK_SZ);`
		0da5f48
		0da5f48	`-// experiment: process three rows at a time`
		0da5f48	`-// NOTE: this makes things slower on an AVX1 platform --- not enough registers`
		0da5f48	`-// it could be faster on AVX2/FMA, where there should be enough registers`
		0da5f48	`+ acc10=_mm256_load_pd(x + 04 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc11=_mm256_load_pd(x + 14 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc12=_mm256_load_pd(x + 24 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc13=_mm256_load_pd(x + 34 + 1MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ acc20=_mm256_load_pd(x + 04 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc21=_mm256_load_pd(x + 14 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc22=_mm256_load_pd(x + 24 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc23=_mm256_load_pd(x + 34 + 2MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ avec0 = _mm256_broadcast_sd(&a[i]);`
		0da5f48	`+ avec1 = _mm256_broadcast_sd(&a[i+MAT_BLK_SZ]);`
		0da5f48	`+ avec2 = _mm256_broadcast_sd(&a[i+2*MAT_BLK_SZ]);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+04]); FMA_MUL_ADD(acc00, avec0, bvec); FMA_MUL_ADD(acc10, avec1, bvec); FMA_MUL_ADD(acc20, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+14]); FMA_MUL_ADD(acc01, avec0, bvec); FMA_MUL_ADD(acc11, avec1, bvec); FMA_MUL_ADD(acc21, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+24]); FMA_MUL_ADD(acc02, avec0, bvec); FMA_MUL_ADD(acc12, avec1, bvec); FMA_MUL_ADD(acc22, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+34]); FMA_MUL_ADD(acc03, avec0, bvec); FMA_MUL_ADD(acc13, avec1, bvec); FMA_MUL_ADD(acc23, avec2, bvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 04 + 0MAT_BLK_SZ, acc00);`
		0da5f48	`+ _mm256_store_pd(x + 14 + 0MAT_BLK_SZ, acc01);`
		0da5f48	`+ _mm256_store_pd(x + 24 + 0MAT_BLK_SZ, acc02);`
		0da5f48	`+ _mm256_store_pd(x + 34 + 0MAT_BLK_SZ, acc03);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 04 + 1MAT_BLK_SZ, acc10);`
		0da5f48	`+ _mm256_store_pd(x + 14 + 1MAT_BLK_SZ, acc11);`
		0da5f48	`+ _mm256_store_pd(x + 24 + 1MAT_BLK_SZ, acc12);`
		0da5f48	`+ _mm256_store_pd(x + 34 + 1MAT_BLK_SZ, acc13);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 04 + 2MAT_BLK_SZ, acc20);`
		0da5f48	`+ _mm256_store_pd(x + 14 + 2MAT_BLK_SZ, acc21);`
		0da5f48	`+ _mm256_store_pd(x + 24 + 2MAT_BLK_SZ, acc22);`
		0da5f48	`+ _mm256_store_pd(x + 34 + 2MAT_BLK_SZ, acc23);`
		0da5f48	`+`
		0da5f48	`+ // round 1`
		0da5f48	`+`
		0da5f48	`+ acc00=_mm256_load_pd(x + 44 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc01=_mm256_load_pd(x + 54 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc02=_mm256_load_pd(x + 64 + 0MAT_BLK_SZ);`
		0da5f48	`+ acc03=_mm256_load_pd(x + 74 + 0MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ acc10=_mm256_load_pd(x + 44 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc11=_mm256_load_pd(x + 54 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc12=_mm256_load_pd(x + 64 + 1MAT_BLK_SZ);`
		0da5f48	`+ acc13=_mm256_load_pd(x + 74 + 1MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ acc20=_mm256_load_pd(x + 44 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc21=_mm256_load_pd(x + 54 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc22=_mm256_load_pd(x + 64 + 2MAT_BLK_SZ);`
		0da5f48	`+ acc23=_mm256_load_pd(x + 74 + 2MAT_BLK_SZ);`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i++) {`
		0da5f48	`+ avec0 = _mm256_broadcast_sd(&a[i]);`
		0da5f48	`+ avec1 = _mm256_broadcast_sd(&a[i+MAT_BLK_SZ]);`
		0da5f48	`+ avec2 = _mm256_broadcast_sd(&a[i+2*MAT_BLK_SZ]);`
		0da5f48	`+`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+04+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc00, avec0, bvec); FMA_MUL_ADD(acc10, avec1, bvec); FMA_MUL_ADD(acc20, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+14+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc01, avec0, bvec); FMA_MUL_ADD(acc11, avec1, bvec); FMA_MUL_ADD(acc21, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+24+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc02, avec0, bvec); FMA_MUL_ADD(acc12, avec1, bvec); FMA_MUL_ADD(acc22, avec2, bvec);`
		0da5f48	`+ bvec = _mm256_load_pd(&b[iMAT_BLK_SZ+34+MAT_BLK_SZ/2]); FMA_MUL_ADD(acc03, avec0, bvec); FMA_MUL_ADD(acc13, avec1, bvec); FMA_MUL_ADD(acc23, avec2, bvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 44 + 0MAT_BLK_SZ, acc00);`
		0da5f48	`+ _mm256_store_pd(x + 54 + 0MAT_BLK_SZ, acc01);`
		0da5f48	`+ _mm256_store_pd(x + 64 + 0MAT_BLK_SZ, acc02);`
		0da5f48	`+ _mm256_store_pd(x + 74 + 0MAT_BLK_SZ, acc03);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 44 + 1MAT_BLK_SZ, acc10);`
		0da5f48	`+ _mm256_store_pd(x + 54 + 1MAT_BLK_SZ, acc11);`
		0da5f48	`+ _mm256_store_pd(x + 64 + 1MAT_BLK_SZ, acc12);`
		0da5f48	`+ _mm256_store_pd(x + 74 + 1MAT_BLK_SZ, acc13);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 44 + 2MAT_BLK_SZ, acc20);`
		0da5f48	`+ _mm256_store_pd(x + 54 + 2MAT_BLK_SZ, acc21);`
		0da5f48	`+ _mm256_store_pd(x + 64 + 2MAT_BLK_SZ, acc22);`
		0da5f48	`+ _mm256_store_pd(x + 74 + 2MAT_BLK_SZ, acc23);`
		0da5f48	`+`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+AVX2_RESOLVER(static void,muladd3_by_32,`
		0da5f48	`+ (double x, const double a, const double *b, long n));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48
		0da5f48	`static`
		0da5f48	`void muladd3_by_32(double x, const double a, const double *b, long n)`
		e69d8b7	`@@ -1060,6 +1514,32 @@ void muladd3_by_32(double *x, const doub`
		0da5f48
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+static inline`
		0da5f48	`+void muladd_all_by_32(long first, long last, double x, const double a, const double *b, long n)`
		0da5f48	`+{`
		0da5f48	`+ long i = first;`
		0da5f48	`+`
		0da5f48	`+ if (have_fma) {`
		0da5f48	`+ // processing three rows at a time is faster`
		0da5f48	`+ for (; i <= last-3; i+=3)`
		0da5f48	`+ muladd3_by_32(x + iMAT_BLK_SZ, a + iMAT_BLK_SZ, b, n);`
		0da5f48	`+ for (; i < last; i++)`
		0da5f48	`+ muladd1_by_32(x + iMAT_BLK_SZ, a + iMAT_BLK_SZ, b, n);`
		0da5f48	`+ } else {`
		0da5f48	`+ // process only two rows at a time: not enough registers :-(`
		0da5f48	`+ for (; i <= last-2; i+=2)`
		0da5f48	`+ muladd2_by_32(x + iMAT_BLK_SZ, a + iMAT_BLK_SZ, b, n);`
		0da5f48	`+ for (; i < last; i++)`
		0da5f48	`+ muladd1_by_32(x + iMAT_BLK_SZ, a + iMAT_BLK_SZ, b, n);`
		0da5f48	`+ }`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48	`+`
		0da5f48	`static inline`
		0da5f48	`void muladd_all_by_32(long first, long last, double x, const double a, const double *b, long n)`
		0da5f48	`{`
		e69d8b7	`@@ -1079,8 +1559,79 @@ void muladd_all_by_32(long first, long l`
		0da5f48	`#endif`
		0da5f48	`}`
		0da5f48
		0da5f48	`+#endif`
		0da5f48	`+`
		0da5f48
		0da5f48	`// this assumes n is a multiple of 16`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,muladd_interval)`
		0da5f48	`+(double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n)`
		0da5f48	`+{`
		0da5f48	`+ __m256d xvec0, xvec1, xvec2, xvec3;`
		0da5f48	`+ __m256d yvec0, yvec1, yvec2, yvec3;`
		0da5f48	`+`
		0da5f48	`+ __m256d cvec = _mm256_broadcast_sd(&c);`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i += 16, x += 16, y += 16) {`
		0da5f48	`+ xvec0 = _mm256_load_pd(x+0*4);`
		0da5f48	`+ xvec1 = _mm256_load_pd(x+1*4);`
		0da5f48	`+ xvec2 = _mm256_load_pd(x+2*4);`
		0da5f48	`+ xvec3 = _mm256_load_pd(x+3*4);`
		0da5f48	`+`
		0da5f48	`+ yvec0 = _mm256_load_pd(y+0*4);`
		0da5f48	`+ yvec1 = _mm256_load_pd(y+1*4);`
		0da5f48	`+ yvec2 = _mm256_load_pd(y+2*4);`
		0da5f48	`+ yvec3 = _mm256_load_pd(y+3*4);`
		0da5f48	`+`
		0da5f48	`+ AVX_MUL_ADD(xvec0, yvec0, cvec);`
		0da5f48	`+ AVX_MUL_ADD(xvec1, yvec1, cvec);`
		0da5f48	`+ AVX_MUL_ADD(xvec2, yvec2, cvec);`
		0da5f48	`+ AVX_MUL_ADD(xvec3, yvec3, cvec);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 0*4, xvec0);`
		0da5f48	`+ _mm256_store_pd(x + 1*4, xvec1);`
		0da5f48	`+ _mm256_store_pd(x + 2*4, xvec2);`
		0da5f48	`+ _mm256_store_pd(x + 3*4, xvec3);`
		0da5f48	`+ }`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_FUNC(void,muladd_interval)`
		0da5f48	`+(double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n)`
		0da5f48	`+{`
		0da5f48	`+ __m256d xvec0, xvec1, xvec2, xvec3;`
		0da5f48	`+ __m256d yvec0, yvec1, yvec2, yvec3;`
		0da5f48	`+`
		0da5f48	`+ __m256d cvec = _mm256_broadcast_sd(&c);`
		0da5f48	`+`
		0da5f48	`+ for (long i = 0; i < n; i += 16, x += 16, y += 16) {`
		0da5f48	`+ xvec0 = _mm256_load_pd(x+0*4);`
		0da5f48	`+ xvec1 = _mm256_load_pd(x+1*4);`
		0da5f48	`+ xvec2 = _mm256_load_pd(x+2*4);`
		0da5f48	`+ xvec3 = _mm256_load_pd(x+3*4);`
		0da5f48	`+`
		0da5f48	`+ yvec0 = _mm256_load_pd(y+0*4);`
		0da5f48	`+ yvec1 = _mm256_load_pd(y+1*4);`
		0da5f48	`+ yvec2 = _mm256_load_pd(y+2*4);`
		0da5f48	`+ yvec3 = _mm256_load_pd(y+3*4);`
		0da5f48	`+`
		0da5f48	`+ FMA_MUL_ADD(xvec0, yvec0, cvec);`
		0da5f48	`+ FMA_MUL_ADD(xvec1, yvec1, cvec);`
		0da5f48	`+ FMA_MUL_ADD(xvec2, yvec2, cvec);`
		0da5f48	`+ FMA_MUL_ADD(xvec3, yvec3, cvec);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 0*4, xvec0);`
		0da5f48	`+ _mm256_store_pd(x + 1*4, xvec1);`
		0da5f48	`+ _mm256_store_pd(x + 2*4, xvec2);`
		0da5f48	`+ _mm256_store_pd(x + 3*4, xvec3);`
		0da5f48	`+ }`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_RESOLVER(static void,muladd_interval,`
		0da5f48	`+ (double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48	`+`
		0da5f48	`static inline`
		0da5f48	`void muladd_interval(double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n)`
		0da5f48	`{`
		e69d8b7	`@@ -1111,9 +1662,109 @@ void muladd_interval(double * NTL_RESTRI`
		0da5f48	`_mm256_store_pd(x + 3*4, xvec3);`
		0da5f48	`}`
		0da5f48	`}`
		0da5f48	`+#endif`
		0da5f48
		0da5f48	`// this one is more general: does not assume that n is a`
		0da5f48	`// multiple of 16`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,muladd_interval1)`
		0da5f48	`+(double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n)`
		0da5f48	`+{`
		0da5f48	`+`
		0da5f48	`+ __m256d xvec0, xvec1, xvec2, xvec3;`
		0da5f48	`+ __m256d yvec0, yvec1, yvec2, yvec3;`
		0da5f48	`+ __m256d cvec;`
		0da5f48	`+`
		0da5f48	`+ if (n >= 4)`
		0da5f48	`+ cvec = _mm256_broadcast_sd(&c);`
		0da5f48	`+`
		0da5f48	`+ long i=0;`
		0da5f48	`+ for (; i <= n-16; i += 16, x += 16, y += 16) {`
		0da5f48	`+ xvec0 = _mm256_load_pd(x+0*4);`
		0da5f48	`+ xvec1 = _mm256_load_pd(x+1*4);`
		0da5f48	`+ xvec2 = _mm256_load_pd(x+2*4);`
		0da5f48	`+ xvec3 = _mm256_load_pd(x+3*4);`
		0da5f48	`+`
		0da5f48	`+ yvec0 = _mm256_load_pd(y+0*4);`
		0da5f48	`+ yvec1 = _mm256_load_pd(y+1*4);`
		0da5f48	`+ yvec2 = _mm256_load_pd(y+2*4);`
		0da5f48	`+ yvec3 = _mm256_load_pd(y+3*4);`
		0da5f48	`+`
		0da5f48	`+ AVX_MUL_ADD(xvec0, yvec0, cvec);`
		0da5f48	`+ AVX_MUL_ADD(xvec1, yvec1, cvec);`
		0da5f48	`+ AVX_MUL_ADD(xvec2, yvec2, cvec);`
		0da5f48	`+ AVX_MUL_ADD(xvec3, yvec3, cvec);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 0*4, xvec0);`
		0da5f48	`+ _mm256_store_pd(x + 1*4, xvec1);`
		0da5f48	`+ _mm256_store_pd(x + 2*4, xvec2);`
		0da5f48	`+ _mm256_store_pd(x + 3*4, xvec3);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ for (; i <= n-4; i += 4, x += 4, y += 4) {`
		0da5f48	`+ xvec0 = _mm256_load_pd(x+0*4);`
		0da5f48	`+ yvec0 = _mm256_load_pd(y+0*4);`
		0da5f48	`+ AVX_MUL_ADD(xvec0, yvec0, cvec);`
		0da5f48	`+ _mm256_store_pd(x + 0*4, xvec0);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ for (; i < n; i++, x++, y++) {`
		0da5f48	`+ x += (y)*c;`
		0da5f48	`+ }`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_FUNC(void,muladd_interval1)`
		0da5f48	`+(double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n)`
		0da5f48	`+{`
		0da5f48	`+`
		0da5f48	`+ __m256d xvec0, xvec1, xvec2, xvec3;`
		0da5f48	`+ __m256d yvec0, yvec1, yvec2, yvec3;`
		0da5f48	`+ __m256d cvec;`
		0da5f48	`+`
		0da5f48	`+ if (n >= 4)`
		0da5f48	`+ cvec = _mm256_broadcast_sd(&c);`
		0da5f48	`+`
		0da5f48	`+ long i=0;`
		0da5f48	`+ for (; i <= n-16; i += 16, x += 16, y += 16) {`
		0da5f48	`+ xvec0 = _mm256_load_pd(x+0*4);`
		0da5f48	`+ xvec1 = _mm256_load_pd(x+1*4);`
		0da5f48	`+ xvec2 = _mm256_load_pd(x+2*4);`
		0da5f48	`+ xvec3 = _mm256_load_pd(x+3*4);`
		0da5f48	`+`
		0da5f48	`+ yvec0 = _mm256_load_pd(y+0*4);`
		0da5f48	`+ yvec1 = _mm256_load_pd(y+1*4);`
		0da5f48	`+ yvec2 = _mm256_load_pd(y+2*4);`
		0da5f48	`+ yvec3 = _mm256_load_pd(y+3*4);`
		0da5f48	`+`
		0da5f48	`+ FMA_MUL_ADD(xvec0, yvec0, cvec);`
		0da5f48	`+ FMA_MUL_ADD(xvec1, yvec1, cvec);`
		0da5f48	`+ FMA_MUL_ADD(xvec2, yvec2, cvec);`
		0da5f48	`+ FMA_MUL_ADD(xvec3, yvec3, cvec);`
		0da5f48	`+`
		0da5f48	`+ _mm256_store_pd(x + 0*4, xvec0);`
		0da5f48	`+ _mm256_store_pd(x + 1*4, xvec1);`
		0da5f48	`+ _mm256_store_pd(x + 2*4, xvec2);`
		0da5f48	`+ _mm256_store_pd(x + 3*4, xvec3);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ for (; i <= n-4; i += 4, x += 4, y += 4) {`
		0da5f48	`+ xvec0 = _mm256_load_pd(x+0*4);`
		0da5f48	`+ yvec0 = _mm256_load_pd(y+0*4);`
		0da5f48	`+ FMA_MUL_ADD(xvec0, yvec0, cvec);`
		0da5f48	`+ _mm256_store_pd(x + 0*4, xvec0);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+ for (; i < n; i++, x++, y++) {`
		0da5f48	`+ x += (y)*c;`
		0da5f48	`+ }`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_RESOLVER(static void,muladd_interval1,`
		0da5f48	`+ (double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48	`+`
		0da5f48	`static inline`
		0da5f48	`void muladd_interval1(double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n)`
		0da5f48	`{`
		e69d8b7	`@@ -1159,11 +1810,74 @@ void muladd_interval1(double * NTL_RESTR`
		0da5f48	`x += (y)*c;`
		0da5f48	`}`
		0da5f48	`}`
		0da5f48	`+#endif`
		0da5f48
		0da5f48	`#define AVX_PD_SZ (4)`
		0da5f48
		0da5f48	`// experimental: assumes n is a multiple of 4 in the range [0..32]`
		0da5f48	`-#if 1`
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+`
		0da5f48	`+AVX_FUNC(void,muladd_interval2)`
		0da5f48	`+(double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n)`
		0da5f48	`+{`
		0da5f48	`+ n /= 4;`
		0da5f48	`+ if (n <= 0 \|\| n > 8) return;`
		0da5f48	`+`
		0da5f48	`+ x += n*4;`
		0da5f48	`+ y += n*4;`
		0da5f48	`+`
		0da5f48	`+ // n in [1..8]`
		0da5f48	`+`
		0da5f48	`+ __m256d xvec, yvec, cvec;`
		0da5f48	`+`
		0da5f48	`+ cvec = _mm256_broadcast_sd(&c);`
		0da5f48	`+`
		0da5f48	`+ switch (n) {`
		0da5f48	`+ case 8: xvec = _mm256_load_pd(x-84); yvec = _mm256_load_pd(y-84); AVX_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-8*4, xvec);`
		0da5f48	`+ case 7: xvec = _mm256_load_pd(x-74); yvec = _mm256_load_pd(y-74); AVX_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-7*4, xvec);`
		0da5f48	`+ case 6: xvec = _mm256_load_pd(x-64); yvec = _mm256_load_pd(y-64); AVX_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-6*4, xvec);`
		0da5f48	`+ case 5: xvec = _mm256_load_pd(x-54); yvec = _mm256_load_pd(y-54); AVX_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-5*4, xvec);`
		0da5f48	`+ case 4: xvec = _mm256_load_pd(x-44); yvec = _mm256_load_pd(y-44); AVX_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-4*4, xvec);`
		0da5f48	`+ case 3: xvec = _mm256_load_pd(x-34); yvec = _mm256_load_pd(y-34); AVX_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-3*4, xvec);`
		0da5f48	`+ case 2: xvec = _mm256_load_pd(x-24); yvec = _mm256_load_pd(y-24); AVX_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-2*4, xvec);`
		0da5f48	`+ case 1: xvec = _mm256_load_pd(x-14); yvec = _mm256_load_pd(y-14); AVX_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-1*4, xvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_FUNC(void,muladd_interval2)`
		0da5f48	`+(double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n)`
		0da5f48	`+{`
		0da5f48	`+ n /= 4;`
		0da5f48	`+ if (n <= 0 \|\| n > 8) return;`
		0da5f48	`+`
		0da5f48	`+ x += n*4;`
		0da5f48	`+ y += n*4;`
		0da5f48	`+`
		0da5f48	`+ // n in [1..8]`
		0da5f48	`+`
		0da5f48	`+ __m256d xvec, yvec, cvec;`
		0da5f48	`+`
		0da5f48	`+ cvec = _mm256_broadcast_sd(&c);`
		0da5f48	`+`
		0da5f48	`+ switch (n) {`
		0da5f48	`+ case 8: xvec = _mm256_load_pd(x-84); yvec = _mm256_load_pd(y-84); FMA_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-8*4, xvec);`
		0da5f48	`+ case 7: xvec = _mm256_load_pd(x-74); yvec = _mm256_load_pd(y-74); FMA_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-7*4, xvec);`
		0da5f48	`+ case 6: xvec = _mm256_load_pd(x-64); yvec = _mm256_load_pd(y-64); FMA_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-6*4, xvec);`
		0da5f48	`+ case 5: xvec = _mm256_load_pd(x-54); yvec = _mm256_load_pd(y-54); FMA_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-5*4, xvec);`
		0da5f48	`+ case 4: xvec = _mm256_load_pd(x-44); yvec = _mm256_load_pd(y-44); FMA_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-4*4, xvec);`
		0da5f48	`+ case 3: xvec = _mm256_load_pd(x-34); yvec = _mm256_load_pd(y-34); FMA_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-3*4, xvec);`
		0da5f48	`+ case 2: xvec = _mm256_load_pd(x-24); yvec = _mm256_load_pd(y-24); FMA_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-2*4, xvec);`
		0da5f48	`+ case 1: xvec = _mm256_load_pd(x-14); yvec = _mm256_load_pd(y-14); FMA_MUL_ADD(xvec, yvec, cvec); _mm256_store_pd(x-1*4, xvec);`
		0da5f48	`+ }`
		0da5f48	`+`
		0da5f48	`+}`
		0da5f48	`+`
		0da5f48	`+FMA_RESOLVER(static void,muladd_interval2,`
		0da5f48	`+ (double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n));`
		0da5f48	`+`
		0da5f48	`+#else`
		0da5f48	`+`
		0da5f48	`static inline`
		0da5f48	`void muladd_interval2(double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n)`
		0da5f48	`{`
		e69d8b7	`@@ -1191,13 +1905,6 @@ void muladd_interval2(double * NTL_RESTR`
		0da5f48	`}`
		0da5f48
		0da5f48	`}`
		0da5f48	`-#else`
		0da5f48	`-static inline`
		0da5f48	`-void muladd_interval2(double * NTL_RESTRICT x, double * NTL_RESTRICT y, double c, long n)`
		0da5f48	`-{`
		0da5f48	`- for (long i = 0; i < n; i++)`
		0da5f48	`- x[i] += y[i]*c;`
		0da5f48	`-}`
		0da5f48	`#endif`
		0da5f48
		0da5f48	`#endif`
		e69d8b7	`@@ -2031,10 +2738,10 @@ void alt_mul_LL(const mat_window_zz_p& X`
		0da5f48	`}`
		0da5f48
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48
		0da5f48	`-static`
		0da5f48	`-void blk_mul_DD(const mat_window_zz_p& X,`
		0da5f48	`+static void __attribute__((target ("avx,pclmul")))`
		0da5f48	`+blk_mul_DD(const mat_window_zz_p& X,`
		0da5f48	`const const_mat_window_zz_p& A, const const_mat_window_zz_p& B)`
		0da5f48	`{`
		0da5f48	`long n = A.NumRows();`
		e69d8b7	`@@ -2401,8 +3108,9 @@ void mul_base (const mat_window_zz_p& X,`
		0da5f48
		0da5f48	`long V = MAT_BLK_SZ*4;`
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`- if (p-1 <= MAX_DBL_INT &&`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined (NTL_LOADTIME_CPU)`
		0da5f48	`+ if (AVX_ACTIVE &&`
		0da5f48	`+ p-1 <= MAX_DBL_INT &&`
		0da5f48	`V <= (MAX_DBL_INT-(p-1))/(p-1) &&`
		0da5f48	`V*(p-1) <= (MAX_DBL_INT-(p-1))/(p-1)) {`
		0da5f48
		a541994	`@@ -2466,7 +3174,8 @@ void mul_strassen(const mat_window_zz_p&`
		0da5f48	`// this code determines if mul_base triggers blk_mul_DD,`
		0da5f48	`// in which case a higher crossover is used`
		0da5f48
		0da5f48	`-#if (defined(NTL_HAVE_LL_TYPE) && defined(NTL_HAVE_AVX))`
		0da5f48	`+#if (defined(NTL_HAVE_LL_TYPE) && (defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)))`
		0da5f48	`+ if (AVX_ACTIVE)`
		0da5f48	`{`
		0da5f48	`long V = MAT_BLK_SZ*4;`
		0da5f48	`long p = zz_p::modulus();`
		a541994	`@@ -2966,10 +3675,10 @@ void alt_inv_L(zz_p& d, mat_zz_p& X, con`
		0da5f48
		0da5f48
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48
		0da5f48	`-static`
		0da5f48	`-void alt_inv_DD(zz_p& d, mat_zz_p& X, const mat_zz_p& A, bool relax)`
		0da5f48	`+static void __attribute__((target ("avx,pclmul")))`
		0da5f48	`+alt_inv_DD(zz_p& d, mat_zz_p& X, const mat_zz_p& A, bool relax)`
		0da5f48	`{`
		0da5f48	`long n = A.NumRows();`
		0da5f48
		a541994	`@@ -3135,10 +3844,10 @@ void alt_inv_DD(zz_p& d, mat_zz_p& X, co`
		0da5f48
		0da5f48
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48
		0da5f48	`-static`
		0da5f48	`-void blk_inv_DD(zz_p& d, mat_zz_p& X, const mat_zz_p& A, bool relax)`
		0da5f48	`+static void __attribute__((target ("avx,pclmul")))`
		0da5f48	`+blk_inv_DD(zz_p& d, mat_zz_p& X, const mat_zz_p& A, bool relax)`
		0da5f48	`{`
		0da5f48	`long n = A.NumRows();`
		0da5f48
		a541994	`@@ -3896,8 +4605,9 @@ void relaxed_inv(zz_p& d, mat_zz_p& X, c`
		0da5f48	`else if (n/MAT_BLK_SZ < 4) {`
		0da5f48	`long V = 64;`
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`- if (p-1 <= MAX_DBL_INT &&`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48	`+ if (AVX_ACTIVE &&`
		0da5f48	`+ p-1 <= MAX_DBL_INT &&`
		0da5f48	`V <= (MAX_DBL_INT-(p-1))/(p-1) &&`
		0da5f48	`V*(p-1) <= (MAX_DBL_INT-(p-1))/(p-1)) {`
		0da5f48
		a541994	`@@ -3922,8 +4632,9 @@ void relaxed_inv(zz_p& d, mat_zz_p& X, c`
		0da5f48	`else {`
		0da5f48	`long V = 4*MAT_BLK_SZ;`
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`- if (p-1 <= MAX_DBL_INT &&`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48	`+ if (AVX_ACTIVE &&`
		0da5f48	`+ p-1 <= MAX_DBL_INT &&`
		0da5f48	`V <= (MAX_DBL_INT-(p-1))/(p-1) &&`
		0da5f48	`V*(p-1) <= (MAX_DBL_INT-(p-1))/(p-1)) {`
		0da5f48
		a541994	`@@ -4329,10 +5040,10 @@ void alt_tri_L(zz_p& d, const mat_zz_p&`
		0da5f48
		0da5f48
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48
		0da5f48	`-static`
		0da5f48	`-void alt_tri_DD(zz_p& d, const mat_zz_p& A, const vec_zz_p *bp,`
		0da5f48	`+static void __attribute__((target ("avx,pclmul")))`
		0da5f48	`+alt_tri_DD(zz_p& d, const mat_zz_p& A, const vec_zz_p *bp,`
		0da5f48	`vec_zz_p *xp, bool trans, bool relax)`
		0da5f48	`{`
		0da5f48	`long n = A.NumRows();`
		a541994	`@@ -4519,10 +5230,10 @@ void alt_tri_DD(zz_p& d, const mat_zz_p&`
		0da5f48
		0da5f48
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48
		0da5f48	`-static`
		0da5f48	`-void blk_tri_DD(zz_p& d, const mat_zz_p& A, const vec_zz_p *bp,`
		0da5f48	`+static void __attribute__((target ("avx,pclmul")))`
		0da5f48	`+blk_tri_DD(zz_p& d, const mat_zz_p& A, const vec_zz_p *bp,`
		0da5f48	`vec_zz_p *xp, bool trans, bool relax)`
		0da5f48	`{`
		0da5f48	`long n = A.NumRows();`
		a541994	`@@ -5333,8 +6044,9 @@ void tri(zz_p& d, const mat_zz_p& A, con`
		0da5f48	`else if (n/MAT_BLK_SZ < 4) {`
		0da5f48	`long V = 64;`
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`- if (p-1 <= MAX_DBL_INT &&`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48	`+ if (AVX_ACTIVE &&`
		0da5f48	`+ p-1 <= MAX_DBL_INT &&`
		0da5f48	`V <= (MAX_DBL_INT-(p-1))/(p-1) &&`
		0da5f48	`V*(p-1) <= (MAX_DBL_INT-(p-1))/(p-1)) {`
		0da5f48
		a541994	`@@ -5359,8 +6071,9 @@ void tri(zz_p& d, const mat_zz_p& A, con`
		0da5f48	`else {`
		0da5f48	`long V = 4*MAT_BLK_SZ;`
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`- if (p-1 <= MAX_DBL_INT &&`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48	`+ if (AVX_ACTIVE &&`
		0da5f48	`+ p-1 <= MAX_DBL_INT &&`
		0da5f48	`V <= (MAX_DBL_INT-(p-1))/(p-1) &&`
		0da5f48	`V*(p-1) <= (MAX_DBL_INT-(p-1))/(p-1)) {`
		0da5f48
		a541994	`@@ -5606,7 +6319,7 @@ long elim_basic(const mat_zz_p& A, mat_z`
		0da5f48	`#ifdef NTL_HAVE_LL_TYPE`
		0da5f48
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48
		0da5f48
		0da5f48	`static inline`
		a541994	`@@ -7059,8 +7772,9 @@ long elim(const mat_zz_p& A, mat_zz_p *i`
		0da5f48	`else {`
		0da5f48	`long V = 4*MAT_BLK_SZ;`
		0da5f48
		0da5f48	`-#ifdef NTL_HAVE_AVX`
		0da5f48	`- if (p-1 <= MAX_DBL_INT &&`
		0da5f48	`+#if defined(NTL_HAVE_AVX) \|\| defined(NTL_LOADTIME_CPU)`
		0da5f48	`+ if (AVX_ACTIVE &&`
		0da5f48	`+ p-1 <= MAX_DBL_INT &&`
		0da5f48	`V <= (MAX_DBL_INT-(p-1))/(p-1) &&`
		0da5f48	`V*(p-1) <= (MAX_DBL_INT-(p-1))/(p-1)) {`
		0da5f48
		a541994	`--- src/QuickTest.cpp.orig 2016-10-14 07:53:32.000000000 -0600`
		a541994	`+++ src/QuickTest.cpp 2016-10-19 19:03:46.647499895 -0600`
		a541994	`@@ -316,6 +316,9 @@ cerr << "Performance Options:\n";`
		a541994	`cerr << "NTL_GF2X_NOINLINE\n";`
		0da5f48	`#endif`
		0da5f48
		0da5f48	`+#ifdef NTL_LOADTIME_CPU`
		0da5f48	`+ cerr << "NTL_LOADTIME_CPU\n";`
		0da5f48	`+#endif`
		0da5f48
		0da5f48	`cerr << "\n\n";`
		0da5f48
		a541994	`--- src/WizardAux.orig 2016-10-14 07:53:32.000000000 -0600`
		a541994	`+++ src/WizardAux 2016-10-19 19:03:46.647499895 -0600`
		a541994	`@@ -88,6 +88,7 @@ system("$ARGV[0] InitSettings");`
		a541994	`'NTL_GF2X_NOINLINE' => 0,`
		0da5f48	`'NTL_FFT_BIGTAB' => 0,`
		0da5f48	`'NTL_FFT_LAZYMUL' => 0,`
		0da5f48	`+'NTL_LOADTIME_CPU' => 0,`
		0da5f48
		0da5f48	`'WIZARD_HACK' => '#define NTL_WIZARD_HACK',`
		0da5f48

rpms / ntl

Source Code

Blame ntl-loadtime-cpu.patch